Викриття Google Flu Trends: значать помилки моделі Google, що "великим даними" не можна вірити

Наше деловое партнерство www.banwar.org

Один із знаменитих прикладів ефективності "великих даних" - сервіс Google Flu Trends, який зауважує епідемії грипу швидше медиків, аналізуючи статистику запитів в пошуковій системі Google. Стаття , Опублікована в свіжому номері наукового журналу Science, ставить під сумнів ефективність такого підходу.

Про те, як працює Google Flu Trends, "Компьютерра" не так давно розповідала в замітці " Пошуковики і соціальні мережі допомагають раніше помічати епідемії ":

"Близько десяти років тому фахівці Google звернули увагу, що спалах епідемій грипу передує сплеск запитів, пов'язаних зі здоров'ям. Щоб перевірити свої спостереження, вони взяли 50 мільйонів найбільш популярних в США запитів і зіставили частоту їх появи з даними про епідемії грипу, які спостерігалися між 2003 і 2008 роками. Їм вдалося ідентифікувати поєднання 45 запитів, частота використання яких корелює зі спалахами епідемій.

Особливо цікавим є той факт, що сплеск спостерігається щонайменше за два тижні до того, як медикам вдається зафіксувати початок епідемії. У деяких випадках затримка ще довше. Наприклад, перші ознаки епідемії атипової пневмонії з'явилися в інтернеті за два з лишком місяці до того, як її помітила ВООЗ ".

Механізм дії Google Flu Trends простий: багато хто з тих, хто вже захворів або боїться захворіти, шукають в пошуковику ліки, опис симптомів та іншу інформацію, пов'язану з грипом. Зрозуміло, так роблять не всі, але це не грає ролі. Головне, що під час епідемій число подібних запитів підскакує. Алгоритми Google Flu Trends помічають це і екстраполюють загальне число хворих за допомогою статистичної моделі, яка складена на основі історичних даних, що збираються епідеміологами.

Алгоритми Google Flu Trends помічають це і екстраполюють загальне число хворих за допомогою статистичної моделі, яка складена на основі історичних даних, що збираються епідеміологами

У 2009 році розробники Google Flu Trends описали отримані результати в авторитетному науковому журналі Nature. Крім того, існування кореляції між популярністю деяких запитів в пошукових системах зі спалахами епідемій встигли підтвердити інші дослідники.

Свіжа стаття в Science вказує на суттєві неточності в прогнозах Google Flu Trends. Сервіс більш ніж на 50% перебільшив розмах епідемії грипу в сезони 2012-2013 і 2011-2012 років. Згідно з оцінкою Google Flu Trends, в розпал торішньої епідемії близько 11% жителів США заразилися грипом. Це майже вдвічі вище цифр Центру по контролю і профілактиці захворювань США, який не оцінює кількість хворих за непрямими ознаками, а просто перераховує їх. Крім того, алгоритми Google абсолютно прогавили спалах епідемії вірусу H1N1-A ( "свинячий грип") в 2009-му.

Автори публікації в Science представили це як аргумент проти застосування "великих даних". "Вона була приречена на провал", - говорить один з них про статистичної моделі Google. Ці слова цитує журнал Time в статті з відповідною назвою: "Проект Gooogle Flu демонструє слабкість" великих даних "".

Насправді викриття було не настільки несподіваним, як хотілося б його авторам. Перерахування прорахунків Google Flu Trends можна знайти на самому сайті сервісу. Розробники не тільки не приховують їх, але навіть пропонують для скачування історичні прогнози, серед яких чимало помилкових. Модель постійно допрацьовується, щоб виключити повторення помилок:

"Кожен сезон ми зіставляємо оцінки нашої статистичної моделі з даними, отриманими за допомогою традиційних систем спостереження за грипом. Ми дивимося на три показника точності: правильність оцінки часу початку сезону грипу, правильність оцінки піку епідемії і правильність оцінки тяжкості епідемії. Потім ми модифікуємо модель, щоб поліпшити її якість.

Нам довелося оновити модель і опублікувати огляд нашого аналізу і супутніх змін після епідемії вірусу H1N1 в 2009 році. Те ж саме відбулося, коли під час сезону 2012-2013 років оцінки нашої моделі недостатньо точно відповідали реальної поширеності грипу в США. Ми оновили її в серпні 2013 року ".

Виходить, що публікація Science - сюрприз лише для тих, хто вважав оцінки Google Flu Trends істиною в останній інстанції. Розробники сервісу до цих людей явно не належать. Навпаки, вони краще за інших розуміють, що навіть дуже хороші результати, показані їх алгоритмами в минулому, не гарантують стовідсоткової точності в майбутньому. Будь-прогноз передбачає певну ймовірність помилки, і можна лише прагнути до того, щоб вона стала менше.

Один із шляхів збільшення точності пропонують самі критики з Science: вони виявили, що прогноз, що враховує не тільки статистику запитів Google, але і оголошені дані Центру з контролю і профілактики захворювань США, точніше, ніж прогноз, який використовує лише один з цих джерел. Іншими словами, чим більше даних, тим краще. Яке ж це викриття Big Data?

Яке ж це викриття Big Data?

Dancing.School : Школа современных танцев

Категории

Cуществуют следующие способы оплаты за занятия:

Викриття Google Flu Trends: значать помилки моделі Google, що "великим даними" не можна вірити