#Internet

Утечка кода «Яндекса» открывает опасный «черный ящик»

2023.08.21

Знаменитый журнал технологий Wired опубликовал расследование о проблемах, связанных с утечкой кода «Яндекса». Российский интернет-гигант фактически перешел под контроль государства и его политической полиции, и поэтому  NT  считает, что нашему читателю необходимо знать, какие угрозы это «вскрытие» «Яндекса» несет, и предлагает пересказ расследования  

Если вы живете в России, то без «Яндекса» вам не обойтись. Этот технологический гигант, часто называемый «российским Google», является частью повседневной жизни миллионов людей. Он занимает доминирующее положение в области онлайнового поиска, вызова такси, стримового воспроизведения музыки, и его карты, платежи, электронная почта и множество других сервисов пользуются огромной популярностью. Но, как и у всех технологических гигантов, у сервисов «Яндекса» есть и обратная сторона: компания владеет огромными объемами данных.

В январе произошла утечка исходного кода «Яндекса». Анонимный пользователь хакерского сайта BreachForums выложил в открытый доступ 45-гигабайтный кэш кода «Яндекса». Полученный от анонимного сотрудника компании кэш не содержит данных пользователей, однако он позволяет получить полное представление о работе приложений и сервисов компании. Поисковая система, карты, голосовой помощник AI, служба такси, почтовое приложение и облачные сервисы «Яндекса» оказались открытыми всем.

Утечка также содержит код двух ключевых систем «Яндекса»: службы веб-аналитики, позволяющей получать подробную информацию о том, как люди просматривают веб-страницы, и мощного инструмента аналитики, с помощью которого работает рекламный сервис, приносящий миллионы долларов. Подобные рекламные системы лежат в основе всей экономики современного Интернета, в частности Google, и тысячи рекламодателей полагаются на аналогичные технологии. Однако эти системы в значительной степени представляют собой «черные дыры».

Теперь анализ исходного кода этих двух сервисов, проведенный инженером по защите персональных данных из компании Confiant Кайли Макрей (Kaileigh McCrea), проливает свет на принцип работы этих систем. Технологии «Яндекса» собирают огромные объемы данных о людях для выявления их интересов, когда они сопоставляются и анализируются со всей имеющейся у компании информацией, говорится в выводах Confiant.

По словам Макрей, код «Яндекса» показывает, как компания создает профили людей и предсказывает их конкретные интересы. С точки зрения конфиденциальности это вызывает глубокую тревогу. «В этой луковице много неприятных слоев», — говорит она. Результаты исследования также свидетельствуют о том, что компания «Яндекс» использует технологию обмена ограниченной информацией с «Ростелекомом», имеющим тесные связи с правительством.

Этот анализ проводится в условиях, когда российский технологический гигант претерпевает значительные изменения. После вторжения в Украину «Яндекс» отделил свою материнскую компанию, зарегистрированную в Нидерландах, от российских подразделений. По мнению аналитиков, этот шаг может привести к тому, что в России «Яндекс» станет более тесно связан с Кремлем, и данные пользователей окажутся под угрозой.

«Они пытались поддерживать имидж независимой и ориентированной на Запад компании, которая время от времени протестовала против некоторых репрессивных законов и постановлений, что способствовало привлечению иностранных инвестиций и деловых сделок», — говорит Наталья Крапива, юрисконсульт некоммерческой организации Access Now, занимающейся защитой цифровых прав.— Но на практике «Яндекс» теряет свою независимость и уступает требованиям российского правительства. Будущее компании неясно, но скорее всего российская часть компании потеряет оставшиеся лоскутки независимости».

СБОР ДАННЫХ

Утечка из «Яндекса» позволяет взглянуть на работу тысяч инженеров-программистов. Судя по временным меткам, код датируется примерно июлем 2022 года и в основном использует популярные языки программирования. Он написан на английском и русском языках.

Макрей вручную проверила две части кода «Яндекса» — Metrica и Crypta. Metrica — и AppMetrica для приложений — является аналогом программы Google Analytics, которая размещает код на сайтах-участниках и позволяет отслеживать действия пользователей вплоть до каждого движения их мыши. В прошлом году программа AppMetrica, встроенная в более чем 40 тыс. приложений в 50 странах мира, вызвала обеспокоенность американских законодателей из-за возможной угрозы национальной безопасности.

Компания может собирать информацию о самом пользователе: где он/она/они находится, что ищет в интернете , где живет, работает, какую музыку слушает, какие фильмы смотрит, данные электронной почты и т.д

Эти данные, по словам Макрей, поступают в систему Crypta. Она анализирует поведение людей в Интернете, чтобы в конечном итоге показать им рекламу того, что их интересует. Как сообщается на сайте компании, анализируется более 300 факторов, и машинные алгоритмы группируют людей по их интересам. «Каждое приложение или сервис, которые предоставляются «Яндексом», в той или иной форме передают данные в Crypta для настройки рекламы», — говорит Макрей.

Некоторые данные «Яндекс» получает от людей при пользовании его услугами, например, сообщается местоположение пользователя на карте. Другая информация собирается автоматически. Компания может собирать информацию о самом пользователе: где он/она/они находится, что ищет в Интернете, где живет, работает, какую музыку слушает, какие фильмы смотрит, данные электронной почты и т.д.

Исходный код показывает, что AppMetrica собирает данные о точном местоположении людей, включая направление и скорость их движения. (Макрей задается вопросом, насколько это полезно для рекламы). Кроме того, программа собирает названия сетей Wi-Fi, к которым подключаются пользователи. Эти данные поступают в систему Crypta, где название сети Wi-Fi связывается с общим идентификатором человека в системе «Яндекса». Иногда система пытается связать несколько различных идентификаторов.

«Объем данных, которые «Яндекс» получает через Metrica, настолько огромен, что его просто невозможно даже представить, — говорит бывший заместитель технического директора «Яндекса» Григорий Бакунов, который покинул компанию в 2019 году. — Этого достаточно, чтобы провести любую группировку или сегментацию аудитории». Сегменты, созданные Crypta, выглядят очень специфичными и показывают, как много известно о нашей жизни в Интернете. Есть особые рекламные сегменты для пользователей умной колонки «Алиса» от «Яндекса», любители кино группируются по их любимому жанру, есть группа людей, которые «искали Radisson на картах», и мобильные геймеры, занимающиеся игрой долгое время.

Макрей говорит, что некоторые категории выделяются особо. Сегмент «курильщики» отслеживает людей, которые покупают товары, связанные с курением, например электронные сигареты. В то же время группа «летние жители» может указывать на людей, имеющих загородные дома, и для определения этого используются данные об их местоположении. Есть также группа «путешественники», где отслеживаются поездки как внутри страны, так и за рубежом. Одна из частей кода извлекает данные из приложения Mail и включает в себя поля «посадочные талоны» и «отели».

По словам Макрей, сбор большинства этих сведений вполне обычен для онлайновой рекламы. Однако главный вопрос заключается в том, является ли создание персонализированной рекламы достаточно веской причиной для сбора информации на столь «инвазивном уровне». Макрей считает, что не исключено создание сегментов, имеющих политическое значение — например, мужчин призывного возраста, желающих покинуть Россию.

Руководитель службы защиты информации «Яндекса» Иван Черевко утверждает, что группировка пользователей по интересам является «стандартной отраслевой практикой» и что рекламодатели не могут идентифицировать конкретных людей.

«Для Crypta каждый пользователь выглядит набором идентификаторов, и система не может связать их с физическим лицом в реальном мире, — говорит Черевко. — Такой набор является только вероятностным». Он добавляет, что Crypta не имеет доступа к электронной почте людей, и что данные Mail о посадочных талонах и отелях были экспериментом. «Crypta получала от Mail только информацию о категории, и этот метод не используется с 2019 года», — говорит Черевко. Также «Яндекс» удаляет геолокацию пользователя, собранную AppMetrica, через 14 дней.

Согласно анализу Макрей, данные о местоположении людей по IP-адресам используются для группировки их в домохозяйства.

В БАЗЕ УКАЗЫВАЕТСЯ КОЛИЧЕСТВО ЧЕЛОВЕК В ДОМОХОЗЯЙСТВЕ, ИХ ПОЛ, НАЛИЧИЕ ПОЖИЛЫХ ЛЮДЕЙ ИЛИ ДЕТЕЙ

«Яндекс» может объединять данные нескольких сервисов. По словам Макрей, в одном сложном процессе данные могут быть взяты из поискового инструмента «Яндекса» и также приложения «Yandex.Такси», чтобы определить, есть ли в семье дети. Часть кода классифицирует детей по возрасту: старше или младше 13 лет.

Один из элементов кода Crypta показывает, как все эти данные могут быть собраны воедино. Существует интерфейс, который показывает полный профиль пользователя. Он показывает семейное положение, предполагаемый доход, наличие детей и три интереса: например, бытовая техника, еда, одежда или отдых. По словам Черевко, это внутренний инструмент «Яндекса», доступный только сотрудникам, и он показывает, как алгоритмы Crypta классифицируют пользователей. «Мы не сталкивались с какими-либо инцидентами, связанными со злоупотреблением доступом к этой информации», — говорит Черевко.

«ЯНДЕКС» И ГОСУДАРСТВО

В настоящее время компания «Яндекс» проходит через процесс реструктуризации. В ноябре 2022 года нидерландская головная организация компании, Yandex NV, объявила о выводе из своего состава российского бизнеса. На международном уровне компания, которая сменит название, планирует развивать технологии беспилотного вождения и облачные вычисления, отказавшись при этом от поисковых, рекламных и других услуг в России.

Пока идет работа над разделением, правительство в России пытается закрепить свой контроль над Интернетом и усилить цензуру. Ряд новых законов обязывает все больше компаний и государственных служб страны использовать только отечественные технологии. На этой неделе регуляторы данных Финляндии и Норвегии запретили международному приложению Yandex.Taxi отправлять данные в Россию в связи с вступлением в силу в сентябре нового закона, который позволит ФСБ получать доступ к данным об использовании такси.

Попытки национализации в сочетании с планируемой сменой собственника компании «Яндекс» вызывают опасения, что Кремль вскоре сможет использовать данные, собранные компанией. Технический директор группы «Роскомсвобода» Станислав Шакиров говорит, что исторически «Яндекс» пытался противостоять требованиям правительства о предоставлении данных и был в этом более успешен, чем другие компании. В июне компания даже была оштрафована на 2 млн руб. за то, что не передавала данные российским спецслужбам. Однако Шакиров считает, что ситуация меняется. «Я склоняюсь к тому, что «Яндекс» попытаются национализировать, и, как следствие, сменится руководство и политика, — говорит он. — И тогда данные пользователей окажутся под гораздо большей угрозой, чем сейчас».

Бакунов говорит, что его пугает возможность неправомерного использования данных в будущем. По его мнению, Россия принадлежит к «новому поколению несостоявшихся государств», которые способны использовать новые технологии. «Яндекс» — это большая часть этих технологий, — говорит он. — Много лет назад, когда мы создавали эту компанию, никто об этом еще не думал». Со своей стороны, Черевко утверждает, что в ходе реструктуризации контроль над компанией останется у руководства. И руководство компании будет принимать решения, исходя из своих «основных принципов».

Однако утечка кода показывает, что в одном случае «Яндекс» уже может делиться информацией с российской компанией, связанной с правительством. В Crypta есть пять «мэтчеров», которые синхронизируют данные идентификации устройства с телекоммуникационными компаниями, в том числе с «Ростелекомом», частью которого владеет государство. По словам Макрей, это указывает на то, что такие данные могут быть доступны для государства. «В этом нет ничего ужасного, но шокируют уже то, что это существует», — говорит Макрей.

В целом Макрей считает: что бы ни случилось с компанией, «Яндекс» показал урок того, к чему может привести сбор чрезмерного объема данных и что может произойти с ними со временем при изменении обстоятельств. «Такое не может оставаться безобидным всегда», — говорит она.

Мэтт Бёрджес (Matt Burgess) — ведущий автор журнала WIRED, специализирующийся на вопросах информационной безопасности, конфиденциальности и киберзаконодательства в Европе

Полностью статья ( англ.) здесь

Shares
facebook sharing button Share
odnoklassniki sharing button Share
vk sharing button Share
twitter sharing button Tweet
livejournal sharing button Share