Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками

Anthropic заявила, что в обновлении Claude Code от 1 июля из приложения удалён добавленный несколько месяцев назад скрытый код, который призван выявлять других разработчиков систем искусственного интеллекта, пытающихся украсть данные её моделей.

Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками

«Этот эксперимент мы запустили в марте, и он был призван предотвращать злоупотребление учётными записями со стороны неавторизованных реселлеров и защитить от дистилляции. С тех пор компания разработала более эффективные меры защиты, и мы на самом деле давно собирались его удалить», — пояснил инженер Anthropic Тарик Шихипар (Thariq Shihipar).

Эксперимент заключался в применении метода стеганографии — сокрытия секретных данных на виду — к контексту системы Claude Code, передаваемому на серверы Anthropic. Код проверял переменную базового URL, используемую для маршрутизации запросов API к шлюзу или прокси-серверу. Если базовый URL переопределяется, код проверяет часовой пояс системы и производит сверку со списком адресов известных китайских лабораторий и других компаний, которые занимаются ИИ, реселлеров учётных записей и доменов шлюзов.

«Claude Code незначительно изменяет системный запрос, используя почти невидимые маркеры Unicode. Классификация прокси/шлюза кодируется в предложение, которое выглядит как обычная фраза на английском. В ней скрывается список доменов в форматах XOR и base64. Функция не вредоносная, но это странный выбор для разработчика, рассчитывающего на доверие», — пояснил эксперт под псевдонимом Thereallo. Компания также использовала средства обнаружения с помощью классификаторов и систем поведенческой идентификации, обмен информацией с другими лабораториями ИИ, контроль доступа и контрмеры, затрудняющие использование ответов модели для воспроизведения её поведения.

С утечкой исходного кода приложения Claude Code стало известно ещё об одном средстве защиты ИИ Anthropic от дистилляции — включении файла Typescript с пометкой «ANTI_DISTILLATION_CC». При установке этой пометки в запросы по API внедряются фиктивные данные, призванные быть опасными при обучении сторонних моделей.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *