Побоювання щодо конфіденційності можуть зірвати безпрецедентний план використання даних Facebook для вивчення виборів

Працівники Facebook працюють над тим, щоб зменшити поширення дезінформації, яка може вплинути на вибори.

NOAH BERGER / AFP / Getty Images

Побоювання щодо конфіденційності можуть зірвати безпрецедентний план використання даних Facebook для вивчення виборів

Автор Джефрі МервісСеп. 24, 2019, 16:50

Гері Кінг скористався ідеальним терміном продажу у Facebook ідеї поділитися скарбницею своїх даних з науковцями. Але зараз, годинник працює проти зусиль Кінга та інших, щоб уникнути інноваційного проекту, який має на меті краще зрозуміти, як інформація, що поширюється на Facebook, впливає на вибори та політичні інститути по всьому світу - від розпаду. Ключовий момент: захист конфіденційності користувачів Facebook.

У березні 2018 року Кінг, кількісний соціолог Гарвардського університету, відвідав штаб-квартиру Facebook у парку Менло, Каліфорнія. Засоби масової інформації щойно порушили звістку про те, що британська фірма, Cambridge Analytica, продавала профілі виборців кандидатам на основі особистої інформації, яку мимоволі надавали мільйони користувачів Facebook. Скандал, що виникла, став тверезим уроком у Facebook про те, як не ділитися своїми даними зі сторонніми людьми.

Кінг знаходив кращий спосіб для обміну даними у Facebook. Його план був розроблений таким чином, щоб відповідати високим етичним та інтелектуальним стандартам, досягаючи трьох важливих цілей: збереження конфіденційності користувачів Facebook, захист комерційних таємниць компанії щодо того, як керувати її даними, та не встановлювати жодних обмежень щодо того, що дослідники можуть публікувати дані.

Роман, як вважає Кінг, може трансформувати кількісну суспільну науку, надаючи дослідникам доступ до дійсно великих даних, а не до опитувань та невеликих зразків, які традиційно були їх основною дієтою. Він також зіткнеться з великою проблемою, яка стоїть перед цим полем: приватні компанії зараз мають набагато більше інформації про те, як поводяться люди, ніж уряди. І дослідникам потрібен був кращий доступ до цих даних.

Чиновники Facebook ввічливо вислухали кроку Кінга, але не обіцяли. Він порахував, що його викреслили.

Тоді він нещодавно згадував: "Я був у своєму готельному номері, упаковуючи поїхати додому, коли отримав електронний лист від людей, з якими щойно зустрічався". У ньому виникло питання: "Що з цим робити?" до скандалу Cambridge Analytica. Чиновники компанії, які з тривогою спостерігали за тим, як ціна акцій Facebook впала внаслідок викриттів, явно переживає, як скандал може зашкодити репутації компанії.

Через кілька днів Кінг отримав додатковий телефонний дзвінок. "Гей, ви могли б вивчити вибори 2016 року і сказати всім, що ми не змінили результат?", - запитав його чиновник Facebook. "І якщо ми щось зробили не так, скажіть нам, що нам робити, і ми зробимо це, начебто, відразу". Кінг каже, що його першою реакцією було: "Я думаю, втрата 100 мільярдів доларів ринкової межі зосереджує увагу"

«Важлива нова модель»

Цей заклик надіслав Кінга та Нейт Персілі, професора юридичного факультету Стенфордського університету в Пало-Альто, штат Каліфорнія, в надмірній перспективі щодо їхнього плану відстоювати Social Science One, некомерційну організацію, яка буде веб-сайтом для дослідників для доступу до будь-яких даних, опублікованих Facebook . Її перший проект дозволив би дослідникам ознайомитись з тим, як 2 мільярди користувачів Facebook поділилися веб-сайтами, які обговорювали президентські вибори в 2016 році, а також демократичними інституціями у всьому світі.

Набори даних міститимуть веб-адреси чи URL-адреси, якими користувачі Facebook публічно ділилися, деякі характеристики цих URL-адрес та сукупну інформацію про учасників, включаючи їх вік, стать, місцеположення та політичну залежність. Це пообіцяло стати золотим рудником для дослідників, які навчаються за яких умов і ким, фальшиві новини поширюються в Інтернеті.

9 квітня 2018 року Елліот Шраге, старший керівник Facebook, оголосив про нову ініціативу, яка, за його словами, «допоможе забезпечити незалежне, надійне дослідження ролі соціальних медіа на виборах». У своєму блозі Шрадж назвав це «важливою новою модель партнерських відносин між промисловістю та науковими колами. І хоча він не згадував Cambridge Analytica, скандал, очевидно, був на його думку. "Ті ж інструменти Facebook, які допомагають політикам зв'язатись зі своїми виборцями ..., також можуть бути зловживані маніпуляціями та обманом", - написав він.

Фонди піднімаються на борт

В оголошенні за квітень 2018 року також було вказано сім благодійних організацій, які будуть фінансувати ініціативу. Консорціум зібрав Ларрі Крамер, президент Фонду Вільяма і Флори Хюлетт, розташованого лише в декількох милях від штаб-квартири Facebook у парку Менло. Нещодавно фонд розширив основну ініціативу демократії, яку називали Медісонська ініціатива, яка зосередилась на вивченні Конгресу, щоб приділити більше уваги цифровій дезінформації.

"Я пам'ятаю, як наш менеджер програми тремтів від хвилювання", коли почув про нове партнерство, згадує Крамер. "Ми щойно визначили відсутність доступу до даних як нашу основну проблему для Медісонської ініціативи, і тоді, бум, тут з'являється ця скарбниця, яка дозволить нам робити те, що, на нашу думку, потрібно зробити".

Крамеру вдалося отримати фонд Альфреда П. Слоана, Фонд Лаури та Джона Арнольда, Фонд Чарльза Коха, Фонд Джона С. та Джеймса Л. Найца, Фонд демократії та Мережу Омідяр. Всі вони зацікавлені в тому, як функціонують демократії, каже він. Їх ідеологічне розмаїття - Кох підтримує декілька консервативних причин, тоді як мережа Омідяра є ліберальною - також була важливою.

"Ми погодились, що нам потрібно зовнішнє фінансування, щоб зробити цю роботу", - згадує Крамер. «Тому що якби він фінансувався Facebook, люди не довіряли б його результатам. Ось так і сьогодні. "Організації домовилися забезпечити загальну суму 11 мільйонів доларів на пілотний проект на 1 рік, яким керуватиме Соціально-наукова рада з досліджень науки (SSRC), некомерційна некомерційна організація, заснована в Нью-Йорку, яка також буде працювати процес грантів.

"Ця структура мала сенс, і люди, які керували нею, були першокласними", - говорить Крамер. "І це почалося дуже добре".

У липні 2018 року РСРР оголосив конкурс пропозицій, а у квітні виділив $ 50 000 грантів кожній із десятків команд вчених. (Вибрана друга група з 13 команд, але ще не оголошено.) Перший раунд проектів включає дослідження того, як діяльність у Facebook може вплинути на громадянську участь та останні вибори в Тайвані, Чилі, Бразилії та Німеччині, а також як користувачі по-різному реагують на масові та оманливі інтернет-джерела новин.

Поспішай і чекай

Але стільки, скільки Крамер сподівався на унікальну співпрацю між Facebook, Social Science One, і фінансуючі процвітатимуть, він вважає, що можливо було помилкою так швидко рухатися в самому початку. "Все це розгорталося дуже швидко", - каже він. Зараз, за ​​його словами, вже зрозуміло, що кожен із причетних недооцінив час, який знадобиться, щоб придумати прийнятний спосіб захисту конфіденційності користувачів Facebook. "Майже всі проблеми [навколо конфіденційності], які виникли, виникали тому, що ми насправді не мали часу перетнути всі Ц і поставити крапку" Є ", як це зазвичай робилося", - говорить Крамер.

Такі грантодавці, як Джошуа Такер, професор політології та науки даних в Нью-Йоркському університеті в Нью-Йорку, заплатили ціну за цю поспіх. У січні його команда повідомила про дослідження, яке виявило, що літні люди поділяють дев'ять разів більше дезінформації, ніж тисячоліття. Отримані результати свідчать про те, що цифрова грамотність може бути важливим фактором того, наскільки добре люди можуть визначити правдивість прочитаного в Інтернеті.

Але цей проект спирався на традиційні дослідження опитування з людьми, які погодилися поділитися своєю поведінкою в Інтернеті. І Такер хотів піти далі, пов’язавши загальнодоступні дані, отримані від Reddit та Twitter, до даних про непублічні користувачі, надані Facebook. Дані Facebook, за його словами, дозволили б команді «перевірити деякі наші гіпотези» щодо того, як новини, включаючи дезінформацію, поширюються на різних платформах соціальних медіа.

Дані загальних посилань розглядалися як низькорослі плоди з точки зору захисту конфіденційності, додає він, оскільки вони містили лише сукупну інформацію.

"Це може сказати вам, що чоловіки віком від 25 до 35 років, які проживають в штаті Нью-Йорк, поділялися певною ланкою 1000 разів, тоді як жінки Північної Дакоти старші 65 років ділилися даними шість разів", - пояснює він про обіцяний набір даних. "Але він не міститиме вашого ідентифікатора Facebook чи хештега, а за ним ще купа речей".

Наразі, однак, Такер, який також очолює один із чотирьох дорадчих комітетів, які допомогли поширити слово про Social Science One, не може отримати доступ до цих даних. Це тому, що Facebook ще не розібрався, як забезпечити конфіденційність перед випуском даних.

Проблема конфіденційності стала зрозумілою майже негайно, кажуть чиновники King та Facebook. Зокрема, вони зрозуміли, що традиційні методи забезпечення конфіденційності, засновані на анонімізації, вже не є адекватними. Комп'ютерні вчені показали, що вони можуть ідентифікувати осіб, включених до анонімізованих наборів даних, використовуючи потужну обчислювальну потужність для з'єднання маскованих даних з іншою особистою інформацією, яка вже доступна в Інтернеті.

Враховуючи такі можливості, експерти з конфіденційності повідомили Facebook, що "вони нарізали дані занадто тонкими за демографічними групами та кількістю разів [веб-адреси ділилися]", - пояснює один з представників Facebook. Щоб забезпечити конфіденційність, компанії довелося б додати стільки статистичного «шуму» до даних, що результати були б занадто спотворені, щоб бути корисними дослідникам, каже чиновник.

Відповідь, Facebook вирішила, полягає у використанні різної конфіденційності. Це математичний підхід для додавання шуму, який не дає можливість стороннім особам дізнатися, чи міститься особиста інформація особи у певному наборі даних і, таким чином, забезпечує їх конфіденційність. На операційному рівні, пояснив чиновник Facebook, це означало, що "нам потрібен новий набір комп'ютерних серверів, з новими типами безпеки та з різною конфіденційністю, застосованою до наборів даних".

Але для досягнення цієї мети потрібен час. "Диференціальна конфіденційність - це найсучасніша технологія", - говорить Кінг. "Це дуже важлива розробка, але це не так, як є доступне програмне забезпечення, яке абсолютно працює і адаптоване до всіх статистичних методів. Тож ми зрозуміли, що у нас є рік і більше роботи, яку ми не планували ».

"Пам'ятайте, це дослідження", - додає Кінг. "Якби це було просто, це називалося б просто пошуком".

Такер каже, що співробітники Facebook знали, що вони потрапляють у "досить невідомі води", коли була укладена угода у Facebook. "Первісний план полягав у тому, щоб дослідники працювали над узагальненими даними, а потім пізніше вирішували тернієве питання диференціальної конфіденційності", - говорить він. "Але це стало непосильним".

Пошуки диференціальної конфіденційності прийшли «із затримкою уповільнення доступності даних», - каже він. Але робити це "в обмін на математичне забезпечення конфіденційності", додає він, - це ціна, яку він готовий платити.

"Революція" на затриманні

Наприкінці минулого місяця консорціум з фінансування та РСРР вирішили, що годинник закінчився. У відкритому листі до РСРЦ, фундатори написали, що вони "рекомендують призупинити процес надання грантів, якщо і доки більше даних не стане. … Деякі або всі з нас, можливо, будуть готові розглянути питання про розширення або відновлення підтримки, якщо з’являться нові дані про достатній імпорт та цінність ”.

Одночасно ДСРР видав заяву, що погоджується з цією рекомендацією, в якій описує, як вона "завершить проект до кінця 2019 року." Дослідники, які вже фінансуються, отримають можливість зберегти гранти, а ті, хто буде в другому турі, отримають фінансування, якщо зможуть завершити проект "з наявними на даний момент даними".

Деякі ЗМІ про ці повідомлення вважають затримку ще одним прикладом того, як Facebook повертається на обіцянку. Чиновники Facebook відкидають цю оцінку, заявляючи, що компанія з самого початку зрозуміла, що конфіденційність є її найбільшою увагою.

Такер, Крамер і Кінг кажуть, що вони вважають, що Facebook робить все можливе, щоб прокласти шлях дослідникам до доступу. "Я не думаю, що вони затримуються", - каже Такер. «Усі хочуть, щоб це дослідження було зроблено. Але це дуже складно ».

Крамер каже, що не захищає дії Facebook. "Мені байдуже, чи [затримка] допомагає чи шкодить компанії", - каже він. Але він вважає, що Facebook заслуговує на певну заслугу.

Як все виявляється, це може вплинути на те, чи приєднаються інші цифрові гіганти, такі як Google, до таких зусиль щодо обміну даними. "Коли ми розпочали, - сказав Крамер, - ми сподівалися, що це станеться з Facebook, а потім запросимо інших компаній із соціальних медіа, які сидять за подібними даними, приєднатися до нас та допомогти нам отримати всебічний вигляд. Але ніхто з них не був зацікавлений ».

Службова особа Google підтверджує, що компанія відмовилася брати участь, коли до неї звернулися Social Science One. "Ми вирішили почекати і подивитися, що відбувається з Facebook", - говорить Клемент Вольф, керівник глобальної публічної політики в Сан-Франциско, Каліфорнія, для гіганта соціальних медіа. "І нас дуже цікавить, як це відбувається".

«Якщо Facebook вдасться, - каже Такер, - це може змінити типи даних в Інтернеті, до яких дослідники можуть отримати доступ, і питання, які можуть задавати люди, які не є працівниками цієї платформи. Співробітники Facebook можуть це зробити зараз, але ми не можемо ».

Близько двох десятків співробітників Facebook провели минулий рік, вирізавши цю проблему, і значно просунулися. Наприклад, минулого тижня Facebook опублікувала дані, що захищаються на різних рівнях, приблизно за 32 мільйони адрес веб-сайтів, якими користувачі Facebook публічно публікували більше 100 разів за останні 2 роки. Ці дані містять інформацію про те, чи було вказано адресу, що містить підроблені новини, спам чи мову ненависті, і скільки разів її ділили, не натискаючи на неї.

Цей випуск відповідає успіху проекту, каже Кінг, який розглядає призупинення фінансування лише як ударний шлях до більшої співпраці між великими інтернет-компаніями та науковцями. Дані перезаряджає поле, він каже. І соціальна наука має більше даних, ніж будь-коли раніше. Але більшість даних є всередині компаній, і вони використовують їх у власних цілях. Тож у нас, як вчених, немає іншого вибору, як укласти якусь угоду з приватною галуззю.

* Виправлення, 25 вересня, 10:25: Ця історія була оновлена, щоб виправити назву Ради соціальних досліджень.