Хто і навіщо збирає великі дані?

Восени 2019 року розгорівся скандал із сервісом Apple Card: при реєстрації він виставив різні кредитні ліміти для чоловіків і жінок. Навіть Стіву Возняку не пощастило:

Роком раніше стало відомо, що платформа Netflix показує користувачам різні постери та тизери залежно від статі, віку та національності. За це сервіс звинуватили в расизмі.

Нарешті, Марка Цукерберга регулярно критикують за те, що він нібито збирає, продає та маніпулює даними своїх користувачів Facebook. Протягом багатьох років його звинувачували і навіть судили за маніпуляції під час американських виборів, сприяння російським спецслужбам, розпалювання ненависті та радикальних поглядів, неналежну рекламу, витік даних користувачів, перешкоджання розслідуванням педофілів.

Допис у Facebook від Zuck

Водночас онлайн-сервіс Pornhub щорічно публікує звіти про те, яку порнографію шукають люди різних національностей, статі та віку. І це чомусь нікого не хвилює. Хоча всі ці історії схожі: у кожній з них ми маємо справу з великими даними, які в XNUMX столітті називають «новою нафтою».

Що таке великі дані

Великі дані – вони також великі дані (англ. Big Data) або метадані – це масив даних, який надходить регулярно та у великих обсягах. Вони збираються, обробляються та аналізуються, в результаті чого виходять чіткі моделі та шаблони.

Яскравим прикладом є дані з Великого адронного колайдера, які надходять постійно і у великих кількостях. З їх допомогою вчені вирішують багато проблем.

Але великі дані в Інтернеті — це не лише статистика для наукових досліджень. З їх допомогою можна відстежувати, як поводяться користувачі різних груп і національностей, на що звертають увагу і як взаємодіють з контентом. Іноді для цього збирають дані не з одного джерела, а з кількох, порівнюючи та виявляючи певні закономірності.

Про те, наскільки важливі великі дані в мережі, почали говорити, коли їх було справді багато. На початок 2020 року у світі налічувалося 4,5 мільярда користувачів Інтернету, з яких 3,8 мільярда були зареєстровані в соціальних мережах.

Хто має доступ до великих даних

Згідно з опитуваннями, більше половини наших країн вважають, що їхні дані в мережі використовуються третіми сторонами. При цьому багато хто розміщує в соціальних мережах і додатках особисту інформацію, фотографії і навіть номер телефону.

Хто і навіщо збирає великі дані?
Хто і навіщо збирає великі дані?
Хто і навіщо збирає великі дані?
Хто і навіщо збирає великі дані?

Тут потрібно пояснити: першою особою є сам користувач, який розміщує свої дані на будь-якому ресурсі чи додатку. При цьому він дає згоду (ставить галочку в договорі) на обробку цих даних друга сторона – тобто власники ресурсу. Третя сторона — це ті, кому власники ресурсу можуть передавати або продавати дані користувачів. Часто це прописано в угоді користувача, але не завжди.

Третя сторона – державні установи, хакери або компанії, які купують дані для комерційних цілей. Перші можуть отримати дані за рішенням суду або вищого органу. Хакери, звичайно, не використовують жодних дозволів – вони просто зламують бази даних, що зберігаються на серверах. Компанії (за законом) можуть отримати доступ до даних, лише якщо ви самі їм дозволили – поставивши позначку під угодою. В іншому випадку це незаконно.

Чому компанії використовують Big Data?

Великі дані в комерційній сфері використовувалися десятиліттями, але це було не так інтенсивно, як зараз. Це, наприклад, записи з камер спостереження, дані GPS-навігаторів або онлайн-платежі. Зараз, з розвитком соціальних мереж, онлайн-сервісів і додатків, все це можна поєднати і отримати максимально повну картину: де живуть потенційні клієнти, що вони люблять дивитися, куди їздять у відпустку і яка у них марка автомобіля.

З наведених вище прикладів зрозуміло, що за допомогою великих даних компанії, перш за все, хочуть націлити рекламу. Тобто пропонувати продукти, послуги чи окремі опції лише потрібній аудиторії та навіть налаштовувати продукт під конкретного користувача. Крім того, реклама на Facebook та інших великих майданчиках стає все дорожчою, а показувати її всім підряд зовсім не вигідно.

Інформація про потенційних клієнтів з відкритих джерел активно використовується страховими компаніями, приватними клініками та роботодавцями. Перші, наприклад, можуть змінити умови страхування, якщо побачать, що ви часто шукаєте інформацію про певні захворювання чи ліки, а роботодавці можуть оцінити, чи схильні ви до конфліктів та асоціальної поведінки.

Але є ще одне важливе завдання, яке вирішується останніми роками: наблизитися до найбільш платоспроможної аудиторії. Зробити це не так просто, хоча істотно полегшують завдання платіжні сервіси та електронні чеки через єдиного ОФД (оператора фіскальних даних). Щоб підійти якомога ближче, компанії навіть намагаються вистежувати і «виховувати» потенційних клієнтів з дитинства.: через онлайн-ігри, інтерактивні іграшки та освітні послуги.

Як це працює?

Найбільші можливості збору даних мають глобальні корпорації, які володіють декількома сервісами одночасно. Зараз у Facebook більше 2,5 мільярдів активних користувачів. При цьому компанія володіє й іншими сервісами: Instagram – понад 1 мільярд, WhatsApp – понад 2 мільярди та інші.

Але Google має ще більший вплив: Gmail користується 1,5 мільярда людей у ​​світі, ще 2,5 мільярда – мобільною ОС Android, понад 2 мільярди – YouTube. І це не рахуючи програм Google Search і Google Maps, магазину Google Play і браузера Chrome. Залишилося підкрутити свій онлайн-банк – і Google зможе знати про вас буквально все. До речі, Яндекс в цьому плані вже на крок попереду, але охоплює тільки російськомовну аудиторію.



👍 Перш за все компанії цікавляться тим, що ми публікуємо та лайкаємо в соціальних мережах. Наприклад, якщо банк побачить, що ви одружені і активно лайкаєте дівчат в Instagram або Tinder, ви, швидше за все, погодите споживчий кредит. І іпотека на сім’ю зникла.

Також важливо, на яку рекламу ви натискаєте, як часто і з яким результатом.

(Тобто Наступний крок — особисті повідомлення: вони містять набагато більше інформації. Витік повідомлень стався у «ВКонтакте», Facebook, WhatsApp та інших месенджерах. За їхніми словами, до речі, легко відстежити геолокацію в момент відправлення повідомлення. Напевно ви помічали: коли ви обговорюєте з кимось покупку або просто замовляєте піцу, в стрічці відразу з'являється відповідна реклама.

🚕 Великі дані активно використовують і «зливають» служби доставки та таксі. Вони знають, де ти живеш і працюєш, що ти любиш, який твій приблизний дохід. Uber, наприклад, показує ціну вищу, якщо ви їдете додому з бару і явно переборщили. А коли у вас на телефоні купа інших агрегаторів, то вони, навпаки, запропонують дешевше.

(Тобто Існують сервіси, які використовують фотографії та відео, щоб зібрати якомога більше інформації. Наприклад, бібліотеки комп’ютерного зору – у Google є одна. Вони сканують вас і ваше оточення, щоб дізнатися, який у вас зріст або зріст, які марки ви носите, на якому автомобілі ви їздите, чи є у вас діти чи домашні тварини.

(Тобто Ті, хто надає банкам SMS-шлюзи для своїх розсилок, можуть відстежувати ваші покупки на картці – знати останні 4 цифри та номер телефону – а потім продати ці дані комусь іншому. Звідси весь цей спам зі знижками і піцою в подарунок.

🤷️️ Нарешті, ми самі зливаємо свої дані в ліві служби та програми. Згадайте той ажіотаж навколо Getcontact, коли кожен із задоволенням заповнював свій номер телефону, щоб дізнатися, як його написали інші. А тепер знайдіть їх угоду та прочитайте, що там сказано про передачу ваших даних (спойлер: власники можуть передавати їх третім особам на свій розсуд):

Хто і навіщо збирає великі дані?

Корпорації можуть успішно збирати і навіть продавати дані користувачів роками, поки справа не дійде до суду – як це сталося з тим же Facebook. І тут вирішальну роль зіграло порушення компанією GDPR – закону ЄС, який обмежує використання даних набагато суворіше, ніж американський. Ще один свіжий приклад – скандал з антивірусом Avast: один із дочірніх сервісів компанії збирав і продавав дані від 100 до 400 мільйонів користувачів.

Але чи є у всьому цьому якісь переваги для нас?

Наскільки великі дані допомагають усім нам?

Так, є і світла сторона.

Великі дані допомагають ловити злочинців і запобігати терористичним атакам, знаходити зниклих дітей і захищати їх від небезпеки.

З їх допомогою ми отримуємо круті пропозиції від банків і персональні знижки. Завдяки їм ми ми не платимо за багато сервісів і соціальних мереж, які заробляють тільки на рекламі. Інакше лише Instagram коштував би нам кілька тисяч доларів на місяць.

Лише Facebook має 2,4 мільярда активних користувачів. При цьому їх прибуток за 2019 рік склав $18,5 млрд. Виходить, що на рекламі компанія заробляє до $7,7 на рік з кожного користувача.

Зрештою, інколи це просто зручно: коли служби вже знають, де ти і чого хочеш, і не потрібно самому шукати потрібну інформацію.

Ще одним перспективним напрямком застосування Big Data є освіта.

В одному з американських університетів Вірджинії було проведено дослідження зі збору даних про студентів так званої групи ризику. Це ті, хто погано вчиться, пропускає заняття і ось-ось кине навчання. Справа в тому, що в штатах щорічно відраховують близько 400 осіб. Це погано як для університетів, яким знижують рейтинг і скорочують фінансування, так і для самих студентів: багато хто бере кредити на навчання, які після відрахування все одно доведеться повертати. Не кажучи вже про втрачений час і кар’єрні перспективи. За допомогою big data можна вчасно виявити відстаючих і запропонувати їм репетитора, додаткові заняття та іншу адресну допомогу.

Це, до речі, підходить і для шкіл: тоді система сповіщатиме вчителів і батьків – мовляв, у дитини проблеми, давайте разом їй допоможемо. Big Data також допоможе вам зрозуміти, які підручники працюють краще і які вчителі легше пояснюють матеріал.

Ще один позитивний приклад – кар’єрний профіль.: це коли підліткам допомагають визначитися з майбутньою професією. Тут великі дані дозволяють збирати інформацію, яку неможливо отримати за допомогою традиційних тестів: як поводиться користувач, на що звертає увагу, як взаємодіє з контентом.

У тих же США є програма профорієнтації – SC ACCELERATE. У ньому, крім іншого, використовується технологія CareerChoice GPS: вони аналізують дані про характер учнів, їх схильності до предметів, сильні та слабкі сторони. Дані потім використовуються, щоб допомогти підліткам вибрати правильний коледж для них.


Підпишіться та слідкуйте за нами в Яндекс.Дзен — технології, інновації, економіка, освіта та обмін в одному каналі.

залишити коментар