fbpx

Згідно з новим дослідженням, опублікованим в Nature Communications, досягнення в області штучного інтелекту незабаром можуть перетворити такі фрази, як «прихований у натовпі» або «залишатися прихованим на виду», дивним пережитком минулого.

Дослідники використали геометричне глибоке навчання та оптимізацію втрат триплетів, щоб успішно ідентифікувати більшість людей із анонімного набору даних мобільного телефону, який містить 40 000 людей.

Чому це важливо

Дослідження примітне тим, що сьогодні збираються детальні записи взаємодій людей, як офлайн, так і онлайн.

Відомо, що технічні гіганти, такі як Facebook і Google, телекомунікаційні оператори та інші компанії, збирають і перепродають дані оптом, або використовують їх для забезпечення послуг, орієнтованих на дані.

Техніка заснована на тому, як люди схильні дотримуватись усталених соціальних кіл і що такі регулярні взаємодії формують стабільну модель з часом. Використовуючи дані про взаємодію з мобільним телефоном і дані про близькість Bluetooth, дослідники успішно з’єднали точки між взаємодіями користувачів, щоб ідентифікувати людей.

Можливість відновити анонімність анонімних даних за допомогою ШІ впливає на те, як дані збираються та використовуються. По-перше, це означає, що компанії, які перепродають дані клієнтів, можуть мимоволі порушувати такі закони, як Загальне положення про захист даних Європейського Союзу та Каліфорнійський закон про конфіденційність споживачів.

Наразі обидва набори нормативних актів дозволяють збирати інформацію про щоденну взаємодію людей для обміну або продажу без згоди користувачів, лише якщо дані анонімні. Організації можуть припустити, що вони відповідають цьому стандарту, використовуючи псевдоніми, що, як показує дослідження, є помилковим.

«Наші результати свідчать про те, що відключені та навіть повторно псевдонімізовані дані взаємодії залишаються ідентифікованими навіть протягом тривалого періоду часу», – йдеться у звіті.

Порушення коду

Дослідники побудували нейронну мережу для розпізнавання закономірностей у щотижневих соціальних взаємодіях користувачів, покладаючись на бібліотеку Python з відкритим вихідним кодом bandicoot, щоб обчислити набір поведінкових особливостей зі списку взаємодій людини. На цьому фронті команда успішно ідентифікувала 52,4 відсотка людей.

Були використані дані неідентифікованого сервісу мобільного зв’язку, де описано 43 606 взаємодій абонентів за 14 тижнів. Це варіюється від унікального ідентифікатора іншої сторони, типу спілкування (дзвінки або текстові повідомлення) до складних статистичних даних, таких як відсоток контактів особи, на які припадає 80% їх взаємодії.

У тому ж дослідженні дослідники також перевірили, чи є уразливими програми для відстеження контактів, які використовують Bluetooth для збору даних про близькість між користувачами. Використовуючи реальні дані Bluetooth, зібрані протягом чотирьох тижнів від 587 студентів університету, дослідники кажуть, що їм вдавалося ідентифікувати особу в 26,4% випадків.

Незважаючи на те, що існує кілька проектів відстеження контактів, автори дійшли висновку, що стратегії пом’якшення наслідків, які спираються на зміну псевдонімів як особи, так і її контактів, можуть не забезпечити належним чином захистити конфіденційність людей.

«Хоча техніка атаки не спрямована на конкретну програму, протокол або тип протоколу (централізований, децентралізований чи гібридний), вона може сформувати ефективну основу для атаки на будь-яку систему, де зловмисник має доступ до соціальних мереж користувача. графік за два або більше періодів часу», — пишуть дослідники.

Дослідники вказали на те, що інші дослідники раніше продемонстрували, як алгоритми можуть передбачати значущість людини, її багатство, демографічні показники, схильність до надмірних витрат, риси особистості та інші атрибути на основі даних взаємодії.

Більш просунуті роботи навіть покладаються на гомофілію або мережеві зв’язки, щоб робити прогнози, кажуть автори. Гомофілія — це поняття в соціології, яке описує тенденцію людей об’єднуватися та зв’язуватися з іншими, схожими на них.

«Дані про взаємодію є глибоко особистими та конфіденційними. Вони з високою точністю записують, з ким ми розмовляємо чи зустрічаємося, в який час і як довго. Крім того, конфіденційну інформацію часто можна вивести з даних взаємодії», – пишуть автори.

Підкреслюючи чутливість своїх висновків, дослідники посилалися на консенсус зі своїми рецензентами з питань етики не публікувати кодекс для свого дослідження, як це є нормою. Натомість він буде доступний лише за запитом дослідникам у цій галузі для наукових цілей.

Джерело

COVID-19 Live