Хто Майкл Джордан з інформатики? Новий інструмент оцінює вплив дослідників

Восени минулого року Інститут штучного інтелекту Аллена в Сіетлі, штат Вашингтон, розпочав виклик для Google Scholar, PubMed та інших онлайн-пошукових систем, відкривши сервіс під назвою Semantic Scholar. Програма, спочатку підготовлена ​​на 2 мільйонах робіт з галузі інформатики, мала на меті забезпечити пошукову машину, керовану штучним інтелектом (AI), щоб фактично зрозуміти, що до обмеженого ступеня вмісту опублікованої літератури . Її корпус виріс до 4 мільйонів паперів. І сьогодні інститут додає нові можливості для семантичного науковця з не менш амбітною метою: вимірювати вплив, який вчений чи організація мала на подальші дослідження.

Інструмент, який наразі зосереджений лише на інформатиці, але до осені розшириться до нейронауки, а потім і до інших предметів, може класифікувати документи, автори та установи за певним балом впливу. Наприклад, інструмент виявляє, що найвпливовіша інформатика відбувається в Массачусетському технологічному інституті в Кембриджі. Нічого сюрпризу немає. Але найвпливовіший інформатик? Це Майкл І. Джордан з Каліфорнійського університету, Берклі, піонер ШІ, якого мало хто визнає за межами своєї галузі. "Він відомий як Майкл Джордан з машинного навчання", - стрибує Орен Етціоні, директор Інституту Аллена, що базується в Сіетлі, який створив наукового семантичного науковця. (Клацніть тут, щоб отримати список найкращих 50 авторів, а тут - список 50 найкращих доменів.)

Якщо сторонні люди вважають, що рейтинг семантичних науковців є достовірним, його кількість може використовуватись комітетами з найму та найму. Це так, тому що вплив важко виміряти. Старий спосіб - порахувати цитати. Такі підрахунки стали наріжним каменем метрики академічної видавничої галузі, коли Thomson Reuters, Elsevier та інші продають доступ до бібліографічних баз даних, що дозволяють користувачам запускати номери.

Але не всі цитати створені рівнозначно, для прикладу, тому що вони цитуються як натхнення для цілої роботи, це зовсім інше, ніж коротке згадування в розділі про методи. Тож сирий граф може намалювати оманливий портрет впливу вченого. І дослідники скаржаться, що традиційні метричні показники на основі цитування допомогли створити менталітет "опублікувати чи загинути", тиснучи на те, щоб якнайшвидше виплюнути документи, незалежно від важливості висновків, сподіваючись зібрати цитати.

Потрібно, як кажуть деякі, більш пряме вимірювання фактичного впливу статті на майбутні дослідження. Таким чином, команда Etzioni побудувала новий інструмент в Semantic Scholar, який дозволяє створити графік впливу впливу. Основна частина паперів у його базі даних складається у форматі PDF, який людині легко читати, але просто виглядає як крапку неструктурованого тексту до комп’ютера. Читати більше, як людина, вимагає машинного навчання, техніки, яка допомагає комп’ютеру робити точні здогадки. Наприклад, він повинен не лише виявити різні розділи статті, введення, методи, результати, але розпізнати тон цитування робіт. Тож команда Інституту Аллена використовувала машинне навчання для підготовки статистичної моделі, яка виявляє всі ці особливості. Тоді комп'ютер стабільно вдосконалював свою модель, порівнюючи свої здогадки з тими людьми-експертами, які підготували зразок робіт.

Наразі система лише вимірює "прямий вплив" між цитатами, що цитують один одного, говорить Етзіоні, але майбутні версії будуть враховувати непрямий вплив паперів, які цитують документи, які, в свою чергу, цитують інші документи тощо.

Пробна поїздка

Інструмент дебютував сьогодні на www.semanticscholar.org. Наука попросила Джеффа Клуна, вченого-комп’ютера з університету Вайомінгу в Ларамі, взяти його на тест-драйв.

Перше, що Клун зробив - це дивитись на власне сусідство у графіку впливу. "Це надзвичайно весело", - каже він. "Я бачу, які вчені найбільше вплинули на мою власну кар'єру, які вчені я найбільше надихнув, і те саме для будь-якого іншого вченого". Більшість результатів були саме такими, яких очікував Клун - його наставники вплинули на нього, він вплинув на його аспірантів та постдокторів, - але були й сюрпризи. Наприклад, він не був знайомий з ім'ям когось, наприклад, що проводив великі подальші дослідження, натхнені документами Клуна.

Але крім розважальної цінності, Клун вважає, що цей інструмент може мати цінність у процесі найму та просування по службі в академії. Комітети, які приймають ці рішення, мають тиск не просто оцінювати кандидатів за успіхом попередньої роботи, а передбачити майбутній вплив кожного кандидата. Семантичний науковець намагається розкрити, що є "гарячим" у цьому полі, вимірюючи "швидкість" та "прискорення" органів роботи, вимірюючи, наскільки швидко інші цитують певну роботу, і чи є це в тренді. Комітети відомств "вже розраховують це на ходу", говорить Клун, тож ці цифри звикають, прогнозує він.

Але цей аспект також його хвилює. Певною мірою семантичний учений - це "чорна скринька", - говорить Клун. "Чи зрозуміють люди, звідки беруться цифри?"

Etzioni визнає мутькість того, як алгоритми дають результати. "Це завжди компроміс у машинному навчанні", - каже він. "Одне, що допомагає, - це те, що ви можете бачити приклади, звідки беруться цифри, коли ви наводите курсор на цифри."

Тим часом Майкл Джордан з машинного навчання займає свій рейтинг у рейтингу, але відхиляє заслуги. "Незважаючи на міфології, які історично склалися навколо конкретних людей у ​​науці та математиці, я особисто вважаю, що саме ті мережі, до яких належать дослідники, є найбільш прогнозними для їхнього успіху", - говорить він. "Моя особиста мережа повна чудових людей, які мали чудові ідеї".

Команда Етзіоні тепер розкладає семантичного науковця на масивній науковій роботі, зосередженій на мозку. Цей інструмент та рейтинг впливу для дослідників мозку дебютують на засіданні Товариства з питань нейронауки у Сан-Дієго, Каліфорнія, 12 листопада.