Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение языковых моделей (LM) с подкреплением (RL) после предварительного обучения может улучшить их способности к сложным рассуждениям без необходимости контролируемого тонкого настройки, как продемонстрировала модель DeepSeek-R1-Zero. Однако эффективное использование RL для LM требует значительной параллелизации для масштабирования вывода, что влечет за собой нетривиальные технические проблемы (например, задержки, память и надежность) наряду с постоянно растущими финансовыми затратами. Мы представляем Swarm sAmpling Policy Optimization (SAPO) — полностью децентрализованный и асинхронный алгоритм постобучения с подкреплением. SAPO разработан для децентрализованных сетей из разнородных вычислительных узлов, где каждый узел управляет своей собственной моделью политики, одновременно "делясь" траекториями с другими узлами в сети; при этом не требуется явных предположений о задержках, однородности моделей или оборудовании, и узлы могут работать изолированно, если это необходимо. В результате алгоритм избегает типичных узких мест при масштабировании постобучения с подкреплением, одновременно открывая (и даже поощряя) новые возможности. Благодаря выборке траекторий, "разделяемых" в сети, он позволяет распространять "моменты озарения", тем самым ускоряя процесс обучения. В данной статье мы показываем, что SAPO достиг прироста совокупного вознаграждения до 94% в контролируемых экспериментах. Мы также делимся выводами из тестов на сети из тысяч узлов, предоставленных участниками сообщества Gensyn, которые запускали алгоритм на разнообразном оборудовании и моделях в ходе демонстрации с открытым исходным кодом.
Параллельное мышление стало новым подходом для улучшения способностей к рассуждению у крупных языковых моделей (LLM) за счет одновременного исследования нескольких путей рассуждения. Однако активация таких возможностей через обучение остается сложной задачей, поскольку существующие методы в основном полагаются на контролируемое тонкое настраивание (SFT) на синтетических данных, что поощряет имитацию под руководством учителя, а не исследование и обобщение. В отличие от них, мы предлагаем Parallel-R1 — первую структуру обучения с подкреплением (RL), которая обеспечивает поведение параллельного мышления для сложных задач реального мира. Наша структура использует прогрессивную учебную программу, которая явно решает проблему "холодного старта" при обучении параллельному мышлению с помощью RL. Сначала мы применяем SFT на траекториях, сгенерированных из более простых задач, чтобы привить способность к параллельному мышлению, а затем переходим к RL для исследования и обобщения этого навыка на более сложных задачах. Эксперименты на различных математических тестах, включая MATH, AMC23 и AIME, показывают, что Parallel-R1 успешно прививает параллельное мышление, что приводит к улучшению точности на 8,4% по сравнению с моделью последовательного мышления, обученной напрямую на сложных задачах с помощью RL. Дополнительный анализ выявляет четкий сдвиг в поведении модели: на раннем этапе она использует параллельное мышление как стратегию исследования, а на более позднем этапе — для многоперспективной проверки. Наиболее важно то, что мы подтверждаем параллельное мышление как промежуточный этап исследования в процессе обучения, где эта временная исследовательская фаза открывает более высокий потолок производительности после RL, обеспечивая улучшение на 42,9% по сравнению с базовым уровнем на AIME25. Наша модель, данные и код будут открыты по адресу https://github.com/zhengkid/Parallel-R1.
Мультимодальные большие языковые модели (MLLMs), обученные с использованием визуальной настройки инструкций, демонстрируют высокую производительность в разнообразных задачах, однако остаются ограниченными в задачах, ориентированных на зрение, таких как подсчет объектов или пространственное рассуждение. Мы связываем этот разрыв с преобладающей парадигмой текстового супервизирования, которая предоставляет лишь косвенное руководство для визуального пути и часто приводит к тому, что MLLMs теряют мелкие визуальные детали в процессе обучения. В данной статье мы представляем VIsual Representation ALignment (VIRAL) — простую, но эффективную стратегию регуляризации, которая выравнивает внутренние визуальные представления MLLMs с представлениями предобученных базовых моделей зрения (VFMs). Явно обеспечивая это выравнивание, VIRAL позволяет модели не только сохранять важные визуальные детали из входного визуального кодировщика, но и дополнять их дополнительными визуальными знаниями из VFMs, тем самым улучшая способность модели рассуждать над сложными визуальными данными. Наши эксперименты демонстрируют последовательные улучшения во всех задачах на широко используемых мультимодальных бенчмарках. Кроме того, мы проводим всесторонние исследования абляции, чтобы подтвердить ключевые проектные решения, лежащие в основе нашей структуры. Мы считаем, что это простое открытие открывает важное направление для эффективной интеграции визуальной информации в обучение MLLMs.
Последние достижения в области крупных мультимодальных моделей позволили использовать инструменты на основе изображений в сочетании с обучением с подкреплением для решения визуальных задач. Однако существующие подходы с открытым исходным кодом часто демонстрируют монотонные паттерны рассуждений и позволяют лишь ограниченное количество шагов взаимодействия, что делает их непригодными для сложных задач, требующих исследования методом проб и ошибок. В данной работе мы устраняем это ограничение, масштабируя взаимодействия на основе инструментов, и представляем Mini-o3 — систему, которая выполняет глубокие, многошаговые рассуждения, охватывающие десятки шагов, и достигает наилучших результатов в сложных задачах визуального поиска. Наш подход к воспроизведению поведения в стиле OpenAI o3 включает три ключевых компонента. Во-первых, мы создаем Visual Probe Dataset — набор из тысяч сложных задач визуального поиска, предназначенных для исследовательского рассуждения. Во-вторых, мы разрабатываем итеративный процесс сбора данных для получения начальных траекторий, демонстрирующих разнообразные паттерны рассуждений, включая поиск в глубину, метод проб и ошибок и поддержание цели. В-третьих, мы предлагаем стратегию маскирования избыточных шагов, которая предотвращает штрафование ответов, превышающих максимальное количество шагов, в процессе обучения с подкреплением, тем самым балансируя эффективность обучения с масштабируемостью на этапе тестирования. Несмотря на обучение с верхней границей всего в шесть шагов взаимодействия, наша модель генерирует траектории, которые естественным образом масштабируются до десятков шагов на этапе вывода, причем точность улучшается с увеличением количества шагов. Многочисленные эксперименты демонстрируют, что Mini-o3 создает богатые паттерны рассуждений и глубокие пути мышления, эффективно решая сложные задачи визуального поиска.
Унифицированные мультимодальные модели (UMM) объединяют визуальное понимание и генерацию в рамках единой архитектуры. Однако традиционное обучение опирается на пары (или последовательности) изображение-текст, где подписи обычно скудны и упускают детализированные визуальные аспекты — даже когда для описания простого изображения используются сотни слов. Мы представляем метод Reconstruction Alignment (RecA), ресурсоэффективный подход пост-обучения, который использует эмбеддинги кодировщика визуального понимания в качестве плотных «текстовых подсказок», обеспечивая богатый контроль без необходимости в подписях. Конкретно, RecA кондиционирует UMM на её собственных эмбеддингах визуального понимания и оптимизирует её для реконструкции входного изображения с использованием самоконтролируемой функции потерь реконструкции, тем самым выравнивая понимание и генерацию. Несмотря на свою простоту, RecA широко применим: для авторегрессивных, маскированных авторегрессивных и диффузионных UMM он последовательно улучшает точность генерации и редактирования. Всего за 27 GPU-часов пост-обучение с RecA значительно повышает качество генерации изображений на GenEval (0.73→0.90) и DPGBench (80.93→88.15), а также улучшает результаты на тестах редактирования (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Примечательно, что RecA превосходит гораздо более крупные открытые модели и применим к разнообразным архитектурам UMM, что делает его эффективной и универсальной стратегией пост-обучения для выравнивания UMM.
Последние достижения в области настройки изображений демонстрируют широкие перспективы применения благодаря усиленным возможностям персонализации. Однако, поскольку люди более чувствительны к лицам, сохраняется значительная проблема в поддержании согласованности идентичности при избежании путаницы с использованием множественных референсных изображений, что ограничивает масштабируемость идентичности в моделях персонализации. Для решения этой проблемы мы представляем UMO — унифицированную структуру оптимизации для множественных идентичностей, разработанную для сохранения высокой точности идентичности и снижения путаницы с масштабируемостью. Используя парадигму "многокритериального сопоставления", UMO переформулирует генерацию множественных идентичностей как задачу глобальной оптимизации назначения и раскрывает согласованность множественных идентичностей для существующих методов настройки изображений в целом через обучение с подкреплением на моделях диффузии. Для облегчения обучения UMO мы разработали масштабируемый набор данных для персонализации с множественными референсными изображениями, состоящий как из синтезированных, так и из реальных частей. Кроме того, мы предлагаем новую метрику для измерения путаницы идентичностей. Многочисленные эксперименты демонстрируют, что UMO не только значительно улучшает согласованность идентичностей, но и снижает путаницу в нескольких методах настройки изображений, устанавливая новый эталон среди открытых методов в измерении сохранения идентичности. Код и модель: https://github.com/bytedance/UMO.
Выполнение задач, обусловленных языком, в динамических визуальных средах остается ключевой проблемой в воплощенном искусственном интеллекте. Существующие модели Vision-Language-Action (VLA) преимущественно используют реактивные отображения состояний в действия, что часто приводит к близорукому поведению и низкой устойчивости в динамических сценах. В данной статье мы представляем F1 — предобученную VLA-структуру, которая интегрирует генерацию визуального предвидения в процесс принятия решений. F1 использует архитектуру Mixture-of-Transformer с выделенными модулями для восприятия, генерации предвидения и управления, тем самым объединяя понимание, генерацию и действия. В основе F1 лежит механизм предсказания следующего масштаба, который синтезирует визуальное предвидение, обусловленное целью, в качестве явных целей планирования. Прогнозируя правдоподобные будущие визуальные состояния, F1 переформулирует генерацию действий как задачу обратной динамики, направляемую предвидением, что позволяет выполнять действия, неявно достигающие визуальных целей. Для наделения F1 устойчивыми и обобщаемыми способностями мы предлагаем трехэтапный процесс обучения на обширном наборе данных, включающем более 330 тысяч траекторий по 136 разнообразным задачам. Эта схема обучения улучшает модульное рассуждение и оснащает модель переносимым визуальным предвидением, что критически важно для сложных и динамических сред. Масштабные оценки на реальных задачах и симуляционных тестах демонстрируют, что F1 стабильно превосходит существующие подходы, достигая значительных улучшений как в успешности выполнения задач, так и в способности к обобщению.
Обучение с подкреплением (Reinforcement Learning, RL) доказало свою высокую эффективность в улучшении сложных способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs), однако механизмы, лежащие в основе этого успеха, остаются в значительной степени неясными. Наш анализ показывает, что такие загадочные явления, как «моменты озарения», «масштабирование по длине» и динамика энтропии, не являются разрозненными событиями, а представляют собой признаки иерархии рассуждений, возникающей по аналогии с разделением высокоуровневого стратегического планирования и низкоуровневого процедурного выполнения в человеческом познании. Мы обнаруживаем убедительную двухфазную динамику: на начальном этапе модель ограничена процедурной корректностью и должна улучшать свои низкоуровневые навыки. Затем узкое место обучения решительно смещается, и прирост производительности начинает определяться исследованием и освоением высокоуровневого стратегического планирования. Это понимание выявляет ключевую неэффективность в преобладающих алгоритмах RL, таких как GRPO, которые применяют оптимизационное давление без учета контекста и размывают сигнал обучения на всех токенах. Для решения этой проблемы мы предлагаем алгоритм HIerarchy-Aware Credit Assignment (HICRA), который концентрирует усилия по оптимизации на токенах, имеющих наибольшее влияние на планирование. HICRA значительно превосходит сильные базовые методы, демонстрируя, что фокусировка на этом стратегическом узком месте является ключом к раскрытию продвинутых способностей к рассуждению. Кроме того, мы подтверждаем, что семантическая энтропия является более точным ориентиром для измерения стратегического исследования по сравнению с вводящими в заблуждение метриками, такими как энтропия на уровне токенов.
Крупные языковые модели (LLM) в последние годы стремительно развиваются благодаря масштабированию, обилию высококачественных обучающих данных и обучению с подкреплением. Однако этот прогресс сталкивается с фундаментальным ограничением: необходимостью в постоянно растущем объеме данных, из которых модели могут продолжать обучаться. В данной работе мы предлагаем подход на основе обучения с подкреплением, который устраняет эту зависимость, позволяя моделям улучшаться без дополнительных данных. Наш метод использует игровую теоретическую концепцию самоигры, где способности модели рассматриваются как результат в соревновательной игре, а более сильные стратегии возникают за счет того, что модель играет сама с собой — процесс, который мы называем Языковой Самоигрой (Language Self-Play, LSP). Эксперименты с моделью Llama-3.2-3B-Instruct на бенчмарках выполнения инструкций показывают, что предобученные модели могут не только улучшать свои результаты на сложных задачах исключительно за счет самоигры, но и делать это более эффективно, чем подходы, основанные на данных.
Интерпретация радиологических данных с помощью ИИ в основном основана на узкоспециализированных моделях, решающих одну задачу. Такой подход непрактичен для охвата широкого спектра методов визуализации, заболеваний и радиологических находок. Фундаментальные модели (ФМ) обещают широкую обобщаемость в различных модальностях и в условиях ограниченных данных. Однако этот потенциал в радиологии остается в значительной степени нереализованным. Мы представляем Curia — фундаментальную модель, обученную на всем объеме данных кросс-секционной визуализации крупной больницы за несколько лет, что, насколько нам известно, является крупнейшим корпусом реальных данных такого рода, охватывающим 150 000 исследований (130 ТБ). На новом внешнем валидационном тесте, включающем 19 задач, Curia точно идентифицирует органы, обнаруживает такие состояния, как кровоизлияния в мозг и инфаркты миокарда, и прогнозирует исходы при стадировании опухолей. Curia соответствует или превосходит результаты радиологов и современных фундаментальных моделей, а также демонстрирует клинически значимые эмерджентные свойства в кросс-модальных и низкоданных режимах. Чтобы ускорить прогресс, мы публикуем веса нашей базовой модели по адресу https://huggingface.co/raidium/curia.
Обучение с подкреплением с верифицируемыми наградами (RLVR) достигло значительных успехов в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Однако существующие методы RLVR часто страдают от неэффективности исследования из-за несоответствия между сложностью обучающих данных и возможностями модели. LLM не могут находить жизнеспособные пути рассуждения, когда задачи слишком сложны, и практически не приобретают новые навыки, когда задачи слишком просты. В данной работе мы формализуем влияние сложности задачи, количественно оценивая связь между скоростью снижения потерь и точностью rollout. На основе этого анализа мы предлагаем SEELE — новый фреймворк RLVR с поддержкой супервизии, который динамически регулирует сложность задачи, чтобы оставаться в области высокой эффективности. SEELE дополняет каждый обучающий пример, добавляя подсказку (часть полного решения) после исходной задачи. В отличие от предыдущих подходов, основанных на подсказках, SEELE целенаправленно и адаптивно регулирует длину подсказки для каждой задачи, чтобы достичь оптимальной сложности. Для определения оптимальной длины подсказки SEELE использует стратегию многораундового сэмплирования rollout. В каждом раунде он подгоняет модель теории ответов на задания к парам точность-подсказка, собранным в предыдущих раундах, чтобы предсказать необходимую длину подсказки для следующего раунда. Такая настройка сложности на уровне экземпляров в реальном времени согласует сложность задачи с развивающимися возможностями модели, тем самым повышая эффективность исследования. Экспериментальные результаты показывают, что SEELE превосходит Group Relative Policy Optimization (GRPO) и Supervised Fine-tuning (SFT) на +11,8 и +10,5 баллов соответственно, а также опережает лучший предыдущий подход с поддержкой супервизии в среднем на +3,6 балла на шести бенчмарках математического рассуждения.
В стандартном причинно-следственном внимании запрос, ключ и значение (QKV) каждого токена остаются статичными и кодируют только предшествующий контекст. Мы представляем CAuSal aTtention with Lookahead kEys (CASTLE) — механизм внимания, который постоянно обновляет ключи каждого токена по мере разворачивания контекста. Мы называем эти обновленные ключи "опережающими ключами", поскольку они принадлежат более ранним позициям, но интегрируют информацию из токенов, появляющихся позже относительно этих позиций, при этом строго сохраняя авторегрессивное свойство. Хотя механизм кажется последовательным, мы выводим математическую эквивалентность, которая позволяет избежать явного материализации опережающих ключей на каждой позиции и обеспечивает эффективное параллельное обучение. На бенчмарках языкового моделирования CASTLE стабильно превосходит стандартное причинно-следственное внимание на различных масштабах моделей, снижая перплексию на валидации и улучшая производительность на ряде последующих задач.
Недавние исследования продемонстрировали эффективность прямого согласования диффузионных моделей с человеческими предпочтениями с использованием дифференцируемой функции вознаграждения. Однако они сталкиваются с двумя основными проблемами: (1) они полагаются на многошаговое удаление шума с вычислением градиента для оценки вознаграждения, что требует значительных вычислительных ресурсов и ограничивает оптимизацию лишь несколькими шагами диффузии; (2) им часто требуется непрерывная оффлайн-адаптация моделей вознаграждения для достижения желаемого эстетического качества, такого как фотореализм или точные световые эффекты. Чтобы устранить ограничение многошагового удаления шума, мы предлагаем метод Direct-Align, который заранее определяет шумовой приор для эффективного восстановления исходных изображений из любых временных шагов с помощью интерполяции, используя уравнение, согласно которому состояния диффузии являются интерполяциями между шумом и целевыми изображениями. Это эффективно предотвращает избыточную оптимизацию на поздних временных шагах. Кроме того, мы представляем метод Semantic Relative Preference Optimization (SRPO), в котором вознаграждения формулируются как текстово-обусловленные сигналы. Этот подход позволяет онлайн-корректировать вознаграждения в ответ на положительные и отрицательные модификации промптов, тем самым снижая зависимость от оффлайн-тонкой настройки вознаграждения. Путем тонкой настройки модели FLUX.1.dev с оптимизированным удалением шума и онлайн-коррекцией вознаграждений мы улучшаем её реализм и эстетическое качество, оцененные людьми, более чем в 3 раза.
Мы представляем SimpleQA Verified — эталонный набор из 1000 запросов для оценки фактической точности кратких ответов крупных языковых моделей (LLM), основанный на SimpleQA от OpenAI. Этот набор устраняет ключевые ограничения эталона OpenAI, включая зашумлённые и некорректные метки, тематические предубеждения и избыточность вопросов. SimpleQA Verified был создан с помощью строгого многоэтапного процесса фильтрации, включающего дедупликацию, балансировку тем и согласование источников, что позволило получить более надёжный и сложный набор для оценки, а также улучшить подсказки для автоматической оценки. На этом новом эталоне модель Gemini 2.5 Pro достигает передового показателя F1-меры в 55.6, превосходя другие передовые модели, включая GPT-5. Эта работа предоставляет исследовательскому сообществу более точный инструмент для отслеживания реального прогресса в фактической точности параметрических моделей и снижения галлюцинаций. Набор данных, код для оценки и таблица лидеров доступны по адресу: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
Модели диффузии для генерации изображений из текста требуют значительных вычислительных ресурсов, часто выполняя десятки прямых проходов через крупные трансформерные архитектуры. Например, Stable Diffusion XL создает высококачественные изображения с помощью 50 итераций модели, содержащей 2,6 миллиарда параметров, что является дорогостоящим процессом даже для одного батча. Модели с малым количеством шагов диффузии снижают эту стоимость до 2-8 шагов денойзинга, но по-прежнему зависят от крупных, несжатых архитектур U-Net или диффузионных трансформеров, которые часто слишком затратны для полноточного вывода без использования GPU в дата-центрах. Эти требования также ограничивают существующие методы посттренировочной квантизации, которые полагаются на полноточную калибровку. Мы представляем Q-Sched, новый подход к посттренировочной квантизации, который модифицирует планировщик модели диффузии, а не веса модели. Настраивая траекторию выборки с малым количеством шагов, Q-Sched достигает точности полноточного вывода при четырехкратном уменьшении размера модели. Для обучения коэффициентов предварительной подготовки, учитывающих квантизацию, мы предлагаем функцию потерь JAQ, которая сочетает совместимость текста и изображения с метрикой качества изображения для детальной оптимизации. JAQ не требует эталонных данных и использует лишь несколько калибровочных запросов, избегая полноточного вывода во время калибровки. Q-Sched демонстрирует значительные улучшения: увеличение FID на 15,5% по сравнению с 4-шаговой Latent Consistency Model в формате FP16 и на 16,6% по сравнению с 8-шаговой Phased Consistency Model в формате FP16, показывая, что квантизация и дистилляция с малым количеством шагов дополняют друг друга для генерации с высокой точностью. Крупномасштабное исследование с участием более 80 000 аннотаций дополнительно подтверждает эффективность Q-Sched как на FLUX.1[schnell], так и на SDXL-Turbo.
Мы предлагаем Delta L Normalization — простой, но эффективный метод агрегации потерь, адаптированный к особенностям динамической длины генерации в обучении с подкреплением с верифицируемыми наградами (RLVR). В последнее время RLVR продемонстрировал значительный потенциал в улучшении способностей к рассуждению у больших языковых моделей (LLM), однако основная проблема заключается в высокой вариативности длины ответов во время обучения, что приводит к высокой дисперсии градиентов и нестабильной оптимизации. Хотя предыдущие методы, такие как GRPO, DAPO и Dr. GRPO, вводят различные термины нормализации потерь для решения этой проблемы, они либо дают смещенные оценки, либо все еще страдают от высокой дисперсии градиентов. Проанализировав влияние изменяющейся длины на потери политики как теоретически, так и эмпирически, мы переформулировали задачу как поиск несмещенной оценки с минимальной дисперсией. Наш метод Delta L Normalization не только обеспечивает несмещенную оценку истинных потерь политики, но и минимизирует дисперсию градиентов в теории. Многочисленные эксперименты показывают, что он стабильно достигает превосходных результатов для различных размеров моделей, максимальных длин и задач. Наш код будет опубликован по адресу https://github.com/zerolllin/Delta-L-Normalization.
Крупные языковые модели (LLM) представляют собой невероятно мощные и универсальные инструменты для текстовых задач, которые открыли бесчисленное множество ранее немыслимых приложений. В отличие от них, модели поиска пока не достигли такого уровня универсальности. Для достижения этой цели модели поиска должны быть способны выполнять сложные задачи поиска, где запросы содержат несколько частей, ограничений или требований, выраженных на естественном языке. Эти задачи представляют собой естественное развитие по сравнению с простыми, одноаспектными запросами, которые используются в подавляющем большинстве существующих и широко применяемых наборов для оценки. Сложные запросы возникают естественным образом, поскольку люди ожидают, что поисковые системы смогут обрабатывать более специфичные и зачастую амбициозные информационные запросы, что демонстрируется тем, как люди используют информационные системы на основе LLM. Несмотря на растущее желание расширить возможности моделей поиска в выполнении сложных задач, существует ограниченное количество ресурсов для оценки способностей моделей поиска на разнообразных сложных задачах. Те немногие ресурсы, которые существуют, имеют ограниченный охват и часто лишены реалистичных условий, что затрудняет понимание истинных возможностей моделей поиска в сложных задачах реального мира. Чтобы устранить этот недостаток и стимулировать инновации в моделях поиска следующего поколения, мы создаем разнообразный и реалистичный набор сложных задач поиска и тестируем на нем набор современных моделей поиска. Кроме того, мы исследуем влияние расширения и переформулирования запросов с использованием LLM на качество поиска. Наши результаты показывают, что даже лучшие модели с трудом справляются с получением высококачественных результатов поиска, достигая среднего значения nDCG@10 всего 0,346 и R@100 всего 0,587 по всем задачам. Хотя использование LLM может помочь более слабым моделям, самая сильная модель демонстрирует снижение производительности по всем метрикам при использовании всех методов переформулирования.
По мере того как генеративные системы ИИ становятся более компетентными и доступными в науке, бизнесе и государственном управлении, возникает острая необходимость в более глубоком понимании их режимов сбоев. Периодическая нестабильность в их поведении, например, склонность трансформерных моделей к галлюцинациям, препятствует доверию и внедрению новых решений ИИ в областях с высокими рисками. В данной работе мы исследуем, как и когда возникают галлюцинации в предобученных трансформерных моделях, используя концептуальные представления, извлеченные с помощью разреженных автокодировщиков, в условиях экспериментально контролируемой неопределенности входного пространства. Наши систематические эксперименты показывают, что количество семантических концепций, используемых трансформерной моделью, увеличивается по мере того, как входная информация становится все более неструктурированной. При возрастающей неопределенности входного пространства трансформерная модель становится склонной активировать связные, но нечувствительные к входным данным семантические признаки, что приводит к галлюцинированному выводу. В крайних случаях, для входных данных, состоящих из чистого шума, мы выявляем широкий спектр устойчиво активируемых и значимых концепций в промежуточных активациях предобученных трансформерных моделей, функциональную целостность которых мы подтверждаем с помощью целенаправленного управления. Мы также показываем, что галлюцинации в выходных данных трансформерной модели можно надежно предсказать на основе паттернов концепций, встроенных в активации слоев трансформера. Этот набор инсайтов о внутренней механике обработки данных в трансформерах имеет непосредственные последствия для согласования моделей ИИ с человеческими ценностями, обеспечения безопасности ИИ, открытия поверхности для потенциальных атак со стороны злоумышленников и предоставления основы для автоматической количественной оценки риска галлюцинаций модели.