Ежедневно отобранные исследовательские статьи по ИИ с переводами
Люди осваивают абстрактные концепции через мультисенсорную синергию, и однажды сформированные репрезентации часто могут быть воспроизведены на основе единственной модальности. Вдохновленные этим принципом, мы представляем Concerto — минималистичную симуляцию человеческого концептуального обучения для пространственного познания, сочетающую 3D внутримодальную самодистилляцию с 2D-3D кросс-модальным совместным embedding-представлением. Несмотря на простоту, Concerto изучает более согласованные и информативные пространственные признаки, что демонстрируется визуализацией в режиме zero-shot. Метод превосходит как автономные современные (SOTA) 2D и 3D самоконтролируемые модели на 14.2% и 4.8% соответственно, так и их конкатенацию, в задаче линейного probing для восприятия 3D сцен. При полном дообучении Concerto устанавливает новые SOTA результаты на множестве бенчмарков сценового понимания (например, 80.7% mIoU на ScanNet). Мы также представляем вариант Concerto, адаптированный для пространственного понимания точечных облаков, полученных из видео, и транслятор, который линейно проецирует репрезентации Concerto в языковое пространство CLIP, обеспечивая открытое мировосприятие. Эти результаты подчеркивают, что Concerto формирует пространственные репрезентации с превосходной геометрической и семантической согласованностью на детальном уровне.
Задачи реального мира требуют принятия решений на различных уровнях детализации, и люди преуспевают в этом благодаря использованию единого когнитивного представления, где планирование принципиально понимается как высокоуровневая форма действия. Однако современные агенты на основе больших языковых моделей (LLM) лишены этой ключевой способности — гибко оперировать разной степенью детализации решений. Это ограничение проистекает из существующих парадигм, которые навязывают жёсткое разделение между высокоуровневым планированием и низкоуровневым действием, что снижает динамическую адаптивность и ограничивает обобщающую способность. Мы предлагаем ReCode (Рекурсивная генерация кода) — новую парадигму, которая устраняет это ограничение, объединяя планирование и действие в рамках единого кодового представления. В этом представлении ReCode трактует высокоуровневые планы как абстрактные функции-заглушки, которые агент затем рекурсивно декомпозирует на более детализированные подфункции вплоть до примитивных действий. Такой рекурсивный подход стирает жёсткую границу между планом и действием, позволяя агенту динамически управлять степенью детализации решений. Более того, рекурсивная структура по своей природе генерирует богатые, многоуровневые обучающие данные, позволяя моделям осваивать иерархические процессы принятия решений. Многочисленные эксперименты показывают, что ReCode значительно превосходит передовые базовые методы по производительности на этапе вывода и демонстрирует исключительную эффективность использования данных при обучении, что подтверждает нашу ключевую идею: объединение планирования и действия посредством рекурсивной генерации кода является мощным и эффективным подходом к достижению универсального контроля гранулярности. Код доступен по адресу https://github.com/FoundationAgents/ReCode.
Быстрое развитие больших языковых моделей (LLM) стимулировало появление data agents — автономных систем, предназначенных для оркестрации экосистем «Данные + ИИ» для решения сложных задач, связанных с данными. Однако термин «data agent» в настоящее время страдает от терминологической неоднозначности и непоследовательного употребления, смешивая простые системы, отвечающие на запросы, со сложными автономными архитектурами. Эта терминологическая неоднозначность порождает несоответствие ожиданиям пользователей, проблемы с подотчетностью и барьеры для роста отрасли. Вдохновленные стандартом SAE J3016 для автоматизации вождения, данное исследование представляет первую систематическую иерархическую таксономию для data agents, состоящую из шести уровней, которые описывают и отслеживают прогрессивные изменения в автономности — от ручных операций (Уровень 0) до видения генеративных, полностью автономных data agents (Уровень 5), — тем самым проясняя границы возможностей и распределение ответственности. Через эту призму мы предлагаем структурированный обзор существующих исследований, упорядоченных по возрастанию автономности, охватывающий специализированные data agents для управления, подготовки и анализа данных, а также новые усилия по созданию универсальных, комплексных систем с повышенной автономностью. Далее мы анализируем ключевые эволюционные скачки и технические пробелы для продвижения data agents, особенно текущий переход от Уровня 2 к Уровню 3, где data agents эволюционируют от процедурного выполнения к автономной оркестрации. В заключение мы предлагаем перспективную дорожную карту, предвосхищая появление проактивных, генеративных data agents.
Прямое моделирование явного правдоподобия распределения исходных данных является ключевой темой в области машинного обучения, что обеспечило масштабируемые успехи больших языковых моделей благодаря авторегрессионному моделированию. Однако непрерывное АР-моделирование визуальных пиксельных данных страдает от чрезвычайно длинных последовательностей и высокоразмерных пространств. В данной статье мы представляем FARMER — новую end-to-end генеративную архитектуру, объединяющую нормализующие потоки (NF) и авторегрессионные (АР) модели для вычисления разрешимого правдоподобия и синтеза высококачественных изображений непосредственно из исходных пикселей. FARMER использует инвертируемый авторегрессионный поток для преобразования изображений в латентные последовательности, распределение которых моделируется неявно с помощью авторегрессионной модели. Для устранения избыточности и сложности пиксельного моделирования мы предлагаем метод самообучающейся редукции размерности, который разделяет латентные каналы NF на информативные и избыточные группы, обеспечивая более эффективное и экономичное АР-моделирование. Кроме того, мы разрабатываем одношаговую схему дистилляции для значительного ускорения вывода и вводим алгоритм классификатор-фри управления на основе перевыборки для повышения качества генерации изображений. Многочисленные эксперименты демонстрируют, что FARMER достигает конкурентоспособных результатов по сравнению с существующими пиксельными генеративными моделями, обеспечивая точные значения правдоподобия и масштабируемое обучение.
Современные модели "Vision-Language-Action" (VLA) часто ограничены жесткой, статичной парадигмой взаимодействия, которая не способна обеспечить одновременное визуальное восприятие, слуховое восприятие, речь и действия, а также динамично обрабатывать прерывания от пользователя в реальном времени. Это препятствует seamless-взаимодействию с воплощенным агентом, приводя к негибкому и медленно реагирующему пользовательскому опыту. Для преодоления этих ограничений мы представляем VITA-E — новую framework для воплощенного взаимодействия, разработанную для обеспечения поведенческой параллельности и почти мгновенной реакции на прерывания. Основой нашего подхода является архитектура с двумя моделями, где два параллельных экземпляра VLA функционируют как «Активная модель» и «Резервная модель», позволяя агенту одновременно и с возможностью прерывания наблюдать за окружающей средой, воспринимать пользовательскую речь, давать вербальные ответы и выполнять действия, имитируя человеческие способности к многозадачности. Мы также предлагаем парадигму «модель-как-контроллер», в рамках которой дообучаем VLM для генерации специальных токенов, служащих прямыми системными командами, связывая рассуждения модели с поведением системы. Эксперименты, проведенные на физической гуманоидной платформе, демонстрируют, что VITA-E надежно справляется со сложными интерактивными сценариями. Наша framework совместима с различными VLA-моделями для двойных систем, достигая чрезвычайно высокого процента успеха при экстренных остановках и речевых прерываниях, а также успешно выполняя параллельную речь и действия. Это представляет собой значительный шаг к созданию более естественных и эффективных воплощенных ассистентов.
Модели анимации человека на основе аудио часто сталкиваются с проблемой дрейфа идентичности во временной авторегрессионной генерации, когда персонажи постепенно утрачивают свои индивидуальные черты с течением времени. Одним из решений является генерация ключевых кадров в качестве промежуточных временных якорей, предотвращающих деградацию, но это требует дополнительного этапа генерации ключевых кадров и может ограничивать естественную динамику движений. Чтобы решить эту проблему, мы предлагаем метод Lookahead Anchoring (Ориентирование на будущее), который использует ключевые кадры из будущих временных шагов, опережающих текущее окно генерации, а не находящихся внутри него. Это преобразует ключевые кадры из фиксированных границ в направляющие ориентиры: модель постоянно стремится к этим будущим якорям, одновременно реагируя на непосредственные аудиосигналы, сохраняя последовательность идентичности за счет постоянного руководства. Это также позволяет реализовать само-ключевание (self-keyframing), когда референсное изображение служит целью для опережающего ориентирования, полностью устраняя необходимость в генерации ключевых кадров. Мы обнаружили, что временная дистанция опережения естественным образом контролирует баланс между выразительностью и последовательностью: большие расстояния позволяют достичь большей свободы движений, в то время как меньшие — усиливают соответствие идентичности. При применении к трем современным моделям анимации человека, метод Lookahead Anchoring демонстрирует превосходную синхронизацию губ, сохранение идентичности и визуальное качество, улучшая временное обусловливание в нескольких различных архитектурах. Видео-результаты доступны по ссылке: https://lookahead-anchoring.github.io.
Люди естественным образом воспринимают геометрическую структуру и семантическое содержание трёхмерного мира как взаимосвязанные измерения, что обеспечивает целостное и точное понимание сложных сцен. Однако большинство предыдущих подходов отдают приоритет обучению больших геометрических моделей для низкоуровневой 3D-реконструкции и рассматривают высокоуровневое пространственное понимание изолированно, упуская из виду критическое взаимодействие между этими двумя фундаментальными аспектами анализа 3D-сцен. Это ограничивает обобщающую способность и приводит к низкой производительности в последующих задачах 3D-понимания. Недавние попытки смягчили эту проблему путём простого согласования 3D-моделей с конкретными языковыми моделями, что, однако, ограничивает восприятие возможностями согласованной модели и снижает адаптивность к прикладным задачам. В данной статье мы предлагаем InstanceGrounded Geometry Transformer (IGGT) — сквозную крупную унифицированную трансформерную архитектуру для объединения знаний как пространственной реконструкции, так и контекстного понимания на уровне экземпляров объектов. В частности, мы разрабатываем стратегию 3D-согласованного контрастного обучения, которая направляет IGGT на кодирование унифицированного представления с геометрическими структурами и кластеризацией на основе экземпляров, используя только 2D-визуальные входные данные. Это представление поддерживает согласованное преобразование 2D-визуальных входов в целостную 3D-сцену с явно выделенными экземплярами объектов. Для обеспечения данной задачи мы дополнительно создали InsScene-15K — масштабный набор данных с высококачественными RGB-изображениями, позами, картами глубины и 3D-согласованными аннотациями масок на уровне экземпляров, используя новый конвейер подготовки данных.
Модели диффузии и согласования потоков зарекомендовали себя как эффективные политики управления роботами, позволяя моделям «Вижение-Язык-Действие» (VLA) обобщать информацию в разнообразных сценах и следовать инструкциям. Однако при обучении через имитацию их высокая генеративная способность делает их чувствительными к шуму в человеческих демонстрациях: рывкам, паузам и дрожанию, которые снижают согласованность действий. Снижение согласованности действий приводит к нестабильности и дрейфу траектории во время работы — сбоям, катастрофическим для точных манипуляций, где важна высокая точность. В данной статье мы представляем метод направляющей согласованности действий (Action Coherence Guidance, ACG) для моделей VLA — алгоритм направляющей коррекции на этапе тестирования, не требующий дополнительного обучения, который повышает согласованность действий и, как следствие, улучшает производительность. Оценка на задачах из наборов RoboCasa, DexMimicGen и реальных задачах SO-101 показала, что ACG последовательно улучшает согласованность действий и повышает процент успешного выполнения разнообразных манипуляционных задач. Код и страница проекта доступны по адресам https://github.com/DAVIAN-Robotics/ACG и https://DAVIAN-Robotics.github.io/ACG соответственно.
Модели текстовых эмбеддингов служат фундаментальным компонентом в практических поисковых приложениях. Сопоставляя запросы и документы в общем пространстве векторных представлений, они обеспечивают конкурентоспособную производительность поиска при высокой эффективности. Однако их точность ранжирования остается ограниченной по сравнению со специализированными реранкерами, особенно с недавними listwise-реранкерами на основе LLM, которые учитывают тонкие взаимодействия запрос-документ и документ-документ. В данной статье мы предлагаем простую, но эффективную унифицированную архитектуру E²Rank (Efficient Embedding-based Ranking, также означает Embedding-to-Rank), которая расширяет одиночную модель текстовых эмбеддингов для выполнения как высококачественного поиска, так и listwise-реранжирования через продолжение обучения с listwise-функцией ранжирования, достигая thus высокой эффективности при замечательной производительности. Используя косинусное сходство между векторными представлениями запроса и документа в качестве универсальной функции ранжирования, listwise-промпт, сформированный из исходного запроса и кандидатных документов, служит усиленным запросом, обогащенным сигналами из топ-K документов, аналогично псевдорелевантностному feedback (PRF) в традиционных поисковых моделях. Данная конструкция сохраняет эффективность и репрезентативное качество базовой модели эмбеддингов, одновременно значительно улучшая её производительность при реранжировании. Экспериментально E²Rank достигает state-of-the-art результатов на бенчмарке реранжирования BEIR и демонстрирует конкурентоспособную производительность на ориентированном на логику бенчмарке BRIGHT при очень низкой задержке реранжирования. Мы также показываем, что процесс обучения ранжированию улучшает качество эмбеддингов на бенчмарке MTEB. Наши результаты свидетельствуют, что одиночная модель эмбеддингов может эффективно объединять поиск и реранжирование, предлагая как вычислительную эффективность, так и конкурентоспособную точность ранжирования.
Крупные мультимодальные модели (LMM) достигли значительного прогресса в генерации фотореалистичных изображений, соответствующих запросам, однако они часто выдают результаты, противоречащие проверяемым знаниям, особенно когда промпты содержат тонкие атрибуты или события, зависящие от временного контекста. Традиционные подходы с расширением на основе поиска пытаются решить эту проблему за счет привлечения внешней информации, но они принципиально неспособны обосновать генерацию точными и развивающимися знаниями из-за зависимости от статических источников и поверхностной интеграции свидетельств. Для преодоления этого разрыва мы представляем ORIG — агентную открытую мультимодальную систему с расширением на основе поиска для фактологической генерации изображений (Factual Image Generation, FIG) — новой задачи, требующей как визуального реализма, так и фактической обоснованности. ORIG итеративно извлекает и фильтрует мультимодальные свидетельства из сети и постепенно интегрирует уточненные знания в обогащенные промпты для управления генерацией. Для систематической оценки мы создали FIG-Eval — benchmark, охватывающий десять категорий по перцептивным, композиционным и временным измерениям. Эксперименты показывают, что ORIG существенно улучшает фактическую согласованность и общее качество изображений по сравнению с сильными базовыми методами, подчеркивая потенциал открытого мультимодального поиска для фактологической генерации изображений.
Генерация видео является ключевым направлением в создании моделей мира, где эффективный вывод длинных видео представляет собой важнейшую capability. В этом контексте мы представляем LongCat-Video — базовую модель генерации видео с 13,6 миллиардами параметров, демонстрирующую высокую производительность в различных задачах генерации видео. Она особенно преуспевает в эффективном создании качественных длинных видео, что знаменует наш первый шаг к моделям мира. Ключевые особенности включают: Унифицированную архитектуру для множества задач: построенная на основе фреймворка Diffusion Transformer (DiT), LongCat-Video поддерживает задачи Text-to-Video, Image-to-Video и Video-Continuation в рамках единой модели; Генерацию длинных видео: предварительное обучение на задачах Video-Continuation позволяет LongCat-Video сохранять высокое качество и временную согласованность при создании видео продолжительностью в минуты; Эффективный вывод: LongCat-Video генерирует видео 720p, 30 кадров/с за считанные минуты благодаря использованию стратегии генерации от грубого к точному по временной и пространственной осям. Блочно-разреженное внимание (Block Sparse Attention) дополнительно повышает эффективность, особенно при высоких разрешениях; Высокую производительность благодаря Multi-reward RLHF: обучение с подкреплением на основе множественных вознаграждений позволяет LongCat-Video достигать результатов, сопоставимых с новейшими проприетарными и ведущими открытыми моделями. Код и веса модели общедоступны для ускорения прогресса в данной области.
Многоголовое внимание (MHA) стало краеугольным камнем современных больших языковых моделей, повышая репрезентативную способность за счет параллельных голов внимания. Однако увеличение числа голов неизбежно ослабляет индивидуальную емкость каждой головы, а существующие механизмы внимания — будь то стандартное MHA или его варианты, такие как групповое запросное внимание (GQA) и групповое связанное внимание (GTA) — просто конкатенируют выходы изолированных голов без сильного взаимодействия. Для преодоления этого ограничения мы предлагаем механизм "стучащихся голов" (KHA), который позволяет головам внимания "стучаться" друг о друга, обеспечивая кросс-головые взаимодействия на уровне признаков до вычисления масштабированного скалярного произведения. Это достигается за счет применения общей, диагонально инициализированной проекционной матрицы ко всем головам. Диагональная инициализация сохраняет специализацию отдельных голов в начале обучения, позволяя модели постепенно изучать интегрированные межголовые представления. KHA добавляет лишь минимальное количество параметров и операций с плавающей точкой (FLOPs) и может быть бесшовно интегрировано в MHA, GQA, GTA и другие варианты внимания. Мы подтверждаем эффективность KHA, обучив MoE-модель с 6.1 млрд параметров (1.01 млрд активированных) на 1 трлн высококачественных токенов. По сравнению с базовыми механизмами внимания, KHA демонстрирует превосходную и более стабильную динамику обучения, достигая лучших результатов на последующих задачах.
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в согласовании поведения ИИ с человеческими предпочтениями, однако они сталкиваются с двумя фундаментальными проблемами: (1) *Модальный дисбаланс*, при котором большинство RMs в основном сосредоточены на текстовой и визуальной модальностях, предлагая ограниченную поддержку для видео, аудио и других модальностей; и (2) *Жёсткость предпочтений*, когда обучение на фиксированных бинарных парах предпочтений не позволяет уловить сложность и разнообразие персонализированных предпочтений. Для решения указанных проблем мы предлагаем Omni-Reward — шаг в сторону создания универсальных омни-модальных моделей вознаграждения с поддержкой свободных форм предпочтений, который включает: (1) *Оценку*: мы представляем Omni-RewardBench, первый омни-модальный бенчмарк для RMs со свободными формами предпочтений, охватывающий девять задач в пяти модальностях, включая текст, изображения, видео, аудио и 3D; (2) *Данные*: мы создаём Omni-RewardData, мультимодальный набор данных предпочтений, содержащий 248 тыс. общих пар предпочтений и 69 тыс. пар для инструктивного тонкого настроения, предназначенных для обучения универсальных омни-модальных RMs; (3) *Модель*: мы предлагаем Omni-RewardModel, которая включает как дискриминативные, так и генеративные RMs и демонстрирует высокую производительность на Omni-RewardBench, а также на других широко используемых бенчмарках для моделирования вознаграждения.
Мультимодальные большие языковые модели (MБЯМ) продемонстрировали мощные универсальные способности в области визуального понимания открытого мира. Однако большинство существующих МБЯМ в основном сосредоточены на целостном, сценарном понимании, часто упуская из виду необходимость тонкого, объектно-ориентированного анализа. В данной статье мы представляем PixelRefer — унифицированную фреймворк-архитектуру МБЯМ на уровне регионов, которая обеспечивает расширенное тонкое понимание задаваемых пользователем областей как на изображениях, так и в видео. Руководствуясь наблюдением, что внимание языковой модели в основном сосредоточено на токенах уровня объектов, мы предлагаем Масштабно-Адаптивный Объектный Токенизатор (Scale-Adaptive Object Tokenizer, SAOT) для генерации компактных и семантически насыщенных объектных представлений из регионов произвольной формы. Наш анализ показывает, что глобальные визуальные токены вносят основной вклад преимущественно в ранних слоях языковой модели, что вдохновило на создание PixelRefer-Lite — эффективного варианта, который использует модуль Объектно-Центрированной Инфузии для предварительного слияния глобального контекста в объектные токены. Это создает облегченную Объектно-Ориентированную Архитектуру, которая существенно снижает вычислительные затраты при сохранении высокой семантической точности. Для облегчения тонкой настройки по инструкциям мы подготовили PixelRefer-2.2M — высококачественный объектно-ориентированный набор данных инструкций. Многочисленные эксперименты на ряде бенчмарков подтверждают, что PixelRefer достигает лидирующей производительности при использовании меньшего количества обучающих выборок, в то время как PixelRefer-Lite предлагает конкурентоспособную точность с заметным выигрышем в эффективности.
Применение обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) к математическим и программным областям продемонстрировало значительное улучшение способностей крупных языковых моделей к рассуждению и решению задач. Несмотря на успехи в решении задач с единичной генерацией, процесс тонкой настройки с подкреплением может снизить исследовательскую способность модели, что выражается в уменьшении разнообразия генераций и последующем ухудшении производительности при Best-of-N сэмплировании для больших значений N. В данной работе мы фокусируемся на оптимизации метрики max@k — непрерывного обобщения pass@k. Мы выводим несмещенную он-политическую оценку градиента для прямой оптимизации этой метрики. Кроме того, мы расширяем наши выводы для офф-политических обновлений — распространенного элемента современных алгоритмов RLVR, который позволяет повысить эффективность использования выборки. Экспериментально мы показываем, что наша цель эффективно оптимизирует метрику max@k в офф-политических сценариях, согласуя модель со стратегией вывода Best-of-N.
Унифицированные мультимодальные модели в последнее время демонстрируют значительный прогресс как в возможностях, так и в универсальности, однако большинство ведущих систем по-прежнему обучаются с нуля и требуют существенных вычислительных ресурсов. В данной статье мы показываем, что конкурентоспособные результаты могут быть достигнуты гораздо более эффективно за счет стратегического объединения общедоступных моделей, специализированных либо на генерации, либо на понимании. Наша ключевая идея заключается в сохранении исходных блоков с дополнительным встраиванием мультимодальных блоков самовнимания по всей архитектуре сети. Этот механизм двойного слияния (1) эффективно обеспечивает богатое мультимодальное взаимодействие, в значительной степени сохраняя исходные преимущества базовых моделей, и (2) катализирует синергетическое объединение высокоуровневых семантических представлений от энкодера понимания с низкоуровневыми пространственными сигналами от энкодера генерации. При обучении всего на ~35 млрд токенов данный подход демонстрирует высокие результаты на множестве тестов: 0.91 на GenEval для композиционной генерации изображений по тексту, 82.16 на DPG-Bench для сложной генерации изображений по тексту, 6.06 на GEditBench и 3.77 на ImgEdit-Bench для редактирования изображений. Полностью публикуя весь комплект кода, весов моделей и наборов данных, мы надеемся поддержать будущие исследования в области унифицированного мультимодального моделирования.
Выравнивание языка и визуальных данных в мультимодальных больших языковых моделях (МБЯМ) обычно достигается за счет контролируемой тонкой настройки (SFT) или обучения с подкреплением (RL). SFT является стабильным и эффективным методом, но требует масштабной человеческой разметки и не способно улавливать тонкие предпочтения, в то время как RL вводит сигнал вознаграждения для обучения, но страдает от высоких вычислительных затрат и нестабильности. Эти ограничения подчеркивают компромисс между масштабируемостью, устойчивостью и качеством выравнивания. Для решения этой проблемы мы предлагаем MergeMix, парадигму аугментации на этапе обучения, которая объединяет достоинства SFT и RL. Сначала применяется смешивание изображений с учетом внимания посредством слияния токенов, обеспечивающего более кластерное представление и пространственный контекст, а затем представляется парадигма обучения, управляемая предпочтениями, для МБЯМ путем создания пар предпочтений из смешанных и исходных изображений и оптимизации с помощью функции потерь SimPO. Как метод аугментации mixup, MergeMix улучшает согласованность и эффективность механизма внимания, превосходя другие эвристические методы в задачах классификации. Многочисленные эксперименты демонстрируют, что MergeMix достигает конкурентоспособной точности при повышенной эффективности, предлагая масштабируемый подход к выравниванию предпочтений в классификации и МБЯМ.
Обучение с подкреплением (RL) продемонстрировало значительный потенциал в повышении способностей к рассуждению больших языковых моделей (LLM). Однако успех RL для LLM сильно зависит от курируемых человеком наборов данных и проверяемых вознаграждений, что ограничивает их масштабируемость и универсальность. Недавние методы RL с самодостаточной игрой (Self-Play RL), вдохновленные успехом этой парадигмы в играх и Го, направлены на улучшение способностей LLM к рассуждению без аннотированных человеком данных. Однако эти методы в основном зависят от наличия заземленной среды для получения обратной связи (например, интерпретатора Python или игрового движка); их применение в общих областях остается сложной задачей. Для решения этих проблем мы предлагаем фреймворк Multi-Agent Evolve (MAE), который позволяет LLM самостоятельно эволюционировать в решении разнообразных задач, включая математику, логические рассуждения и вопросы-ответы общего характера. Основная конструкция MAE основана на триаде взаимодействующих агентов (Предлагающий, Решающий, Судья), которые создаются из одной LLM, и применяет обучение с подкреплением для оптимизации их поведения. Предлагающий генерирует вопросы, Решающий пытается найти решения, а Судья оценивает их, одновременно коэволюционируя. Эксперименты на модели Qwen2.5-3B-Instruct показывают, что MAE достигает среднего улучшения на 4.54% по нескольким бенчмаркам. Эти результаты подчеркивают, что MAE является масштабируемым, эффективным по данным методом для повышения общих способностей к рассуждению у LLM при минимальной зависимости от курируемого человеком контроля.
Погоня за роботами-универсалами — управляемыми агентами, способными выполнять разнообразные задачи в различных средах, — требует строгой и масштабируемой оценки. Однако реальное тестирование политик роботов остается фундаментально ограниченным: оно трудоемко, медленно, небезопасно в больших масштабах и сложно для воспроизведения. Существующие симуляционные бенчмарки имеют схожие ограничения, поскольку они обучают и тестируют политики в одних и тех же синтетических доменах и не могут оценивать модели, обученные на реальных демонстрациях или в альтернативных симулированных средах. По мере расширения масштабов и сложности политик эти барьеры только усиливаются, поскольку определение «успеха» в робототехнике часто зависит от тонких человеческих суждений о качестве исполнения. В данной статье мы представляем новую систему бенчмаркинга, которая преодолевает эти проблемы, перенося оценку VLA в крупномасштабные симулированные среды, дополненные онлайн-обратной связью от человека. Используя достижения в области визуально-языковых моделей, генеративного моделирования 2D-3D и дифференцируемого рендеринга, наш подход автоматически преобразует видеодемонстрации из широко используемых наборов данных по робототехнике в их симулированные аналоги. Внутри этих цифровых двойников мы оцениваем политики VLA с помощью как автоматизированной оценки на основе VLM, так и масштабируемых суждений о человеческих предпочтениях, собранных от краудворкеров, превращая участие человека из утомительной настройки сцены, сброса и контроля безопасности в легковесные сравнения предпочтений. Для измерения устойчивости мы систематически возмущаем симулированные среды по нескольким осям, таким как текстуры и расположение объектов, стресс-тестируя обобщение политик в условиях контролируемых вариаций. В результате создается постоянно развивающийся, воспроизводимый и масштабируемый бенчмарк для политик манипулирования роботами, обученных в реальном мире, что восполняет критически важный пробел в современной робототехнике.
Существующие подходы обычно требуют масштабного тонкого настройки для адаптации больших языковых моделей (LLM) к задачам реранжирования информации, что вычислительно затратно. В данной работе мы демонстрируем, что современные LLM можно эффективно адаптировать, используя лишь минимальный объем высококачественных размеченных данных. Для этого мы разработали LIMRANK-SYNTHESIZER — многократно используемый и открытый конвейер для генерации разнообразных, сложных и реалистичных примеров для реранжирования. Используя эти синтетические данные, мы выполняем тонкую настройку нашей модели для реранжирования LIMRANK. Мы оцениваем LIMRANK на двух сложных наборах данных: BRIGHT для поиска, требующего интенсивных рассуждений, и FollowIR для поиска с выполнением инструкций. Наши эксперименты показывают, что LIMRANK демонстрирует конкурентоспособные результаты, будучи обученной менее чем на 5% данных, обычно используемых в предыдущих работах. Дополнительные абляционные исследования подтверждают эффективность LIMRANK-SYNTHESIZER и сильные обобщающие способности LIMRANK при решении различных прикладных задач, включая поиск научной литературы и генерацию с усилением retrieval для решения задач, требующих обширных знаний.
Крупные языковые модели (LLMs) стали ценными помощниками для разработчиков в задачах, связанных с кодом. Хотя LLMs преуспевают в традиционных задачах программирования, таких как генерация кода и исправление ошибок, они испытывают трудности с визуально-ориентированными задачами кодирования, часто создавая код с неоптимальными эстетическими качествами. В данной статье мы представляем новый конвейер для повышения эстетического качества кода, генерируемого LLM. Сначала мы создаем AesCode-358K — масштабный набор данных для тонкой настройки по инструкциям, сфокусированный на эстетике кода. Далее мы предлагаем систему агентной обратной связи по вознаграждению — мульти-агентную систему, которая оценивает исполняемость, статическую и интерактивную эстетику. На основе этого мы разрабатываем GRPO-AR, который интегрирует эти сигналы в алгоритм GRPO для совместной оптимизации функциональности и эстетики кода. Наконец, мы создаем OpenDesign — бенчмарк для оценки эстетики кода. Результаты экспериментов показывают, что комбинация контролируемой тонкой настройки на AesCode-358K с обучением с подкреплением с использованием агентной обратной связи по вознаграждению значительно улучшает производительность на OpenDesign, а также повышает результаты на существующих бенчмарках, таких как PandasPlotBench. Примечательно, что наша модель AesCoder-4B превосходит GPT-4o и GPT-4.1 и демонстрирует результаты, сопоставимые с крупными открытыми моделями, имеющими 480–685 миллиардов параметров, что подчеркивает эффективность нашего подхода.
Авторегрессионные (AR) модели для изображений стали мощной парадигмой визуальных генеративных моделей. Несмотря на многообещающие результаты, они страдают от низкой скорости генерации из-за большого количества требуемых шагов сэмплирования. Хотя недавно был предложен метод Distilled Decoding 1 (DD1) для обеспечения многошагового сэмплирования в изображенческих AR-моделях, он все же демонстрирует значительную деградацию качества в одношаговом режиме и опирается на предопределенное отображение, что ограничивает его гибкость. В данной работе мы предлагаем новый метод, Distilled Decoding 2 (DD2), который продвигает возможность одношагового сэмплирования для изображенческих AR-моделей еще дальше. В отличие от DD1, DD2 не полагается на предопределенное отображение. Мы рассматриваем исходную AR-модель как учительскую модель, которая предоставляет истинные условные скоринги в пространстве латентных представлений на каждой позиции токена. На основе этого мы предлагаем новую функцию потерь для дистилляции условного скоринга для обучения одношагового генератора. А именно, мы обучаем отдельную сеть для предсказания условного скоринга генерируемого распределения и применяем дистилляцию скоринга на каждой позиции токена, обусловленной предыдущими токенами. Экспериментальные результаты показывают, что DD2 позволяет осуществлять одношаговое сэмплирование для изображенческих AR-моделей с минимальным увеличением FID с 3.40 до 5.43 на ImageNet-256. По сравнению с самым сильным базовым методом DD1, DD2 сокращает разрыв между одношаговым сэмплированием и исходной AR-моделью на 67%, одновременно обеспечивая ускорение обучения до 12.3 раз. DD2 делает значительный шаг к цели одношаговой AR-генерации, открывая новые возможности для быстрого и качественного AR-моделирования. Код доступен по адресу https://github.com/imagination-research/Distilled-Decoding-2.
Физическое моделирование опирается на пространственно-вариативные механические свойства, которые часто создаются вручную с большим трудом. VoMP — это прямой метод, обученный предсказывать модуль Юнга (E), коэффициент Пуассона (ν) и плотность (ρ) во всем объеме 3D-объектов, в любом представлении, которое можно визуализировать и вокселизировать. VoMP агрегирует особенности для каждого вокселя на основе многовидовых представлений и передает их обученному геометрическому трансформеру для предсказания латентных кодов материала для каждого вокселя. Эти латентные переменные лежат на многообразии физически правдоподобных материалов, которое мы обучаем на наборе данных из реального мира, гарантируя достоверность декодированных материалов для каждого вокселя. Для получения обучающих данных на уровне объекта мы предлагаем конвейер разметки, объединяющий знания из сегментированных 3D-наборов данных, баз данных материалов и языковой модели зрения, а также новый эталонный тест. Эксперименты показывают, что VoMP оценивает объемные свойства с высокой точностью, значительно превосходя предыдущие методы по точности и скорости.
Мы представляем PRISM-Bench — набор визуальных головоломок, разработанный для оценки не только способности моделей решать задачи, но и хода их рассуждений. В отличие от предыдущих оценок, измерявших лишь точность конечного ответа, PRISM-Bench предлагает диагностическую задачу: получив визуальную головоломку и пошаговую цепочку рассуждений, содержащую ровно одну ошибку, модели должны идентифицировать первый неверный шаг. Такая постановка позволяет проводить детальную оценку логической согласованности, обнаружения ошибок и визуального мышления. Головоломки в PRISM-Bench требуют многошагового символьного, геометрического и аналогического рассуждения, препятствуя использованию ярлыков на основе поверхностного сопоставления паттернов. Оценки передовых мультимодальных языковых моделей выявляют устойчивый разрыв между беглостью генерации и достоверностью рассуждений: модели, выдающие правдоподобные цепочки мыслей, часто не могут обнаружить простые логические ошибки. Разделяя генерацию ответа и верификацию рассуждений, PRISM-Bench предлагает более точный инструмент для оценки компетенции в мультимодальном мышлении и подчеркивает необходимость диагностических протоколов оценки при разработке надежных мультимодальных языковых моделей.
Современные методы генерации 3D/4D-контента обычно оптимизируются для достижения фотореалистичности, эффективности и эстетичности. Однако они зачастую не сохраняют семантическую идентичность объекта при смене ракурсов. Адаптация методов генерации с использованием одного или нескольких изображений конкретного объекта (также известная как персонализация или предметно-ориентированная генерация) позволяет создавать визуальный контент, соответствующий идентичности объекта. Тем не менее, персонализированная 3D/4D-генерация остаётся слабо изученной областью. В данной работе мы представляем TIRE (Track, Inpaint, REsplat) — новый метод предметно-ориентированной 3D/4D-генерации. Наш метод принимает на вход исходный 3D-ассет, созданный существующей генеративной моделью, и использует видеотрекинг для идентификации областей, требующих модификации. Затем мы применяем предметно-ориентированную 2D-модель инпейнтинга для прогрессивного заполнения выявленных областей. Наконец, мы повторно проецируем модифицированные 2D-наблюдения с нескольких viewpoints обратно в 3D, сохраняя согласованность. Многочисленные эксперименты демонстрируют, что наш подход значительно улучшает сохранение идентичности в 3D/4D-генерации по сравнению с современными методами. Сайт проекта доступен по адресу https://zsh2000.github.io/track-inpaint-resplat.github.io/.
Фотореалистичная 3D-реконструкция полного тела человека по одному изображению является важной, но сложной задачей для применения в кино и видеоиграх из-за присущих неоднозначностей и серьезных самозатенений. В то время как современные подходы используют оценку SMPL и SMPL-условные генеративные модели изображений для синтеза новых ракурсов, они страдают от неточных 3D-приоров, оцененных по SMPL-сеткам, и испытывают трудности с обработкой сложных поз человека и реконструкцией мелких деталей. В данной статье мы предлагаем SyncHuman, новую архитектуру, которая впервые объединяет 2D-многовидовую генеративную модель и нативную 3D-генеративную модель, обеспечивая высококачественную реконструкцию одетой человеческой сетки по одноракурсным изображениям даже в случае сложных поз. Многовидовая генеративная модель хорошо справляется с захватом мелких 2D-деталей, но испытывает трудности со структурной согласованностью, тогда как нативная 3D-генеративная модель создает грубые, но структурно согласованные 3D-формы. Интегрируя взаимодополняющие преимущества этих двух подходов, мы разрабатываем более эффективную архитектуру генерации. В частности, мы сначала совместно дообучаем многовидовую генеративную модель и нативную 3D-генеративную модель с предложенным пиксельно-выровненным 2D-3D механизмом внимания для получения геометрически выровненных 3D-форм и 2D-многовидовых изображений. Для дальнейшего улучшения детализации мы вводим механизм инжекции признаков, который переносит мелкие детали с 2D-многовидовых изображений на выровненные 3D-формы, обеспечивая точную и высокодетальную реконструкцию. Многочисленные эксперименты демонстрируют, что SyncHuman достигает надежной и фотореалистичной 3D-реконструкции человека даже для изображений со сложными позами. Наш метод превосходит базовые методы по геометрической точности и визуальному правдоподобию, демонстрируя перспективное направление для будущих моделей 3D-генерации.
Крупные языковые модели систематически галлюцинируют API и некорректно локализуют правки, тогда как языковые серверы предоставляют верифицированные, IDE-уровневые данные о реальном коде. Мы представляем Lanser-CLI — оркестрационный слой с CLI-first подходом, который закрепляет и опосредует работу сервера Language Server Protocol (LSP) для кодирующих агентов и CI, предоставляя детерминированные, воспроизводимые рабочие процессы. Наша позиция заключается в том, что языковые серверы дают не только структурную информацию (определения, ссылки, типы, диагностику), но и практическую процессуальную награду: машинно-проверяемые пошаговые сигналы, которые согласуют цикл планирования агента с реальностью программы. В данной работе Lanser-CLI вносит следующий вклад: (i) надежную схему адресации, выходящую за рамки хрупких "файл:строка:столбец" через DSL селекторов (символические, AST-пути и контентно-привязанные селекторы) с алгоритмом принципиального переразмещения; (ii) детерминированные Analysis Bundles, которые нормализуют ответы языкового сервера и захватывают метаданные среды/возможностей со стабильными хешами содержимого; (iii) защитную оболочку для мутирующих операций (переименование, код-действия) с предпросмотром, песочницами рабочей области и Git-осознанным транзакционным применением; и (iv) процессуально-вознаграждающую функцию, выводимую из фактов языкового сервера (дельта диагностики, уверенность разрешения неоднозначностей и проверки безопасного применения), которая вычисляется онлайн и воспроизводима офлайн. Мы формализуем детерминизм в условиях замороженных снимков и устанавливаем свойство монотонности для процессуальной награды, что делает ее пригодной для процессуального контроля и контрафактного анализа. Страница проекта: https://github.com/yifanzhang-pro/lanser-cli
В данной работе представлено систематическое исследование законов масштабирования для задачи обнаружения дипфейков. В частности, мы анализируем зависимость производительности модели от количества доменов с реальными изображениями, методов генерации дипфейков и объемов тренировочных данных. Поскольку ни один существующий набор данных не соответствует требованиям по масштабу для данного исследования, мы создали ScaleDF — крупнейший на сегодняшний день набор данных в этой области, содержащий более 5,8 миллионов реальных изображений из 51 набора данных (доменов) и свыше 8,8 миллионов фальшивых изображений, сгенерированных 102 методами создания дипфейков. Используя ScaleDF, мы наблюдаем степенную зависимость масштабирования, аналогичную той, что демонстрируют большие языковые модели (LLM). А именно, средняя ошибка обнаружения закономерно уменьшается по степенному закону с ростом как количества реальных доменов, так и количества методов генерации дипфейков. Это ключевое наблюдение не только позволяет прогнозировать количество дополнительных реальных доменов или методов генерации, необходимых для достижения целевых показателей производительности, но и вдохновляет на борьбу с развивающимися технологиями дипфейков с помощью центрированного на данных подхода. Кроме того, мы исследуем роль предварительного обучения и аугментации данных в обнаружении дипфейков при масштабировании, а также ограничения самого масштабирования.
Крупные языковые модели (LLM) превосходно справляются с выводом в условиях zero-shot, но продолжают испытывать трудности со сложными, многошаговыми рассуждениями. Современные методы, такие как Цепочка мыслей (CoT) и Программа мыслей (PoT), которые дополняют LLM промежуточными шагами рассуждений, улучшают производительность, но часто порождают нежелательные решения, особенно в алгоритмических областях. Мы представляем метод Синтеза программ для каждого экземпляра (Per-Instance Program Synthesis, PIPS), который генерирует и улучшает программы на уровне отдельного экземпляра, используя структурную обратную связь без опоры на специфичные для задачи указания или явные тестовые случаи. Для дальнейшего повышения производительности PIPS включает метрику уверенности, которая динамически выбирает между прямым выводом и синтезом программы для каждого отдельного экземпляра. Эксперименты на трех передовых LLM и 30 бенчмарках, включая все задачи Big Bench Extra Hard (BBEH), задачи визуального ответа на вопросы, задачи реляционных рассуждений и задачи математических рассуждений, показывают, что PIPS улучшает абсолютное среднее гармоническое точности до 8,6% и 9,4% по сравнению с PoT и CoT соответственно, и сокращает генерацию нежелательных программ на 65,1% в алгоритмических задачах по сравнению с PoT при использовании Gemini-2.0-Flash.
Последние достижения в ускорении диффузионных моделей "текст-изображение" (T2I) позволили синтезировать изображения высокого качества даже за один шаг. Однако персонализация этих моделей для включения новых концепций остается сложной задачей из-за ограниченной способности одношаговых моделей эффективно захватывать распределения новых концепций. Мы предлагаем двунаправленную фреймворк дистилляции концептов EchoDistill для обеспечения одношаговой персонализации диффузии (1-SDP). Наш подход включает сквозной процесс обучения, в котором многошаговая диффузионная модель (учитель) и одношаговая диффузионная модель (ученик) обучаются одновременно. Концепт сначала дистиллируется из модели-учителя в модель-ученика, а затем возвращается обратно от ученика к учителю. В процессе EchoDistill мы используем общий текстовый энкодер для обеих моделей, чтобы обеспечить согласованное семантическое понимание. После этого модель-ученик оптимизируется с помощью адверсарных потерь для согласования с распределением реальных изображений и с помощью потерь выравнивания для сохранения согласованности с выходом учителя. Кроме того, мы вводим стратегию двунаправленного рефайнмента, в которой модель-ученик использует свою более быструю генерацию для обратной связи с моделью-учителем. Этот механизм двунаправленной дистилляции концептов не только улучшает способность ученика к персонализации новых концептов, но и повышает качество генерации модели-учителя. Наши эксперименты демонстрируют, что данный коллаборативный фреймворк значительно превосходит существующие методы персонализации в настройке 1-SDP, устанавливая новую парадигму для быстрой и эффективной персонализации в диффузионных моделях T2I.
Мы представляем языковое моделирование на основе памяти как эффективную и экологичную альтернативу языковому моделированию на основе глубоких нейронных сетей. Оно обеспечивает логарифмически-линейно масштабируемую производительность предсказания следующего токена и мощные возможности запоминания. Реализуя быстрые аппроксимации классификации методом k-ближайших соседей, языковое моделирование на основе памяти оставляет относительно небольшой экологический след как в режиме обучения, так и в режиме вывода, поскольку полностью полагается на центральные процессоры и достигает низких задержек при обработке токенов. Его внутреннее устройство просто и полностью прозрачно. Мы сравниваем нашу реализацию языкового моделирования на основе памяти, OLIFANT, с моделями GPT-2 и GPT-Neo по точности предсказания следующего токена, оцененным выбросам и скорости, а также предлагаем более глубокий анализ модели.
В данной статье представлена новая диффузионная модель для детектирования полос движения под названием DiffusionLane, которая рассматривает задачу детектирования полос как процесс денойзинговой диффузии в параметрическом пространстве полосы. Во-первых, мы добавляем гауссовский шум к параметрам (начальной точке и углу) эталонных полос для получения зашумленных якорей полос, и модель обучается постепенно уточнять эти зашумленные якоря для получения целевых полос. Во-вторых, мы предлагаем гибридную стратегию декодирования для решения проблемы слабого представления признаков в энкодере, вызванного зашумленными якорями полос. В частности, мы разрабатываем гибридный диффузионный декодер, сочетающий декодеры глобального и локального уровней для получения высококачественных якорей полос. Затем для улучшения представления признаков в энкодере мы используем вспомогательную голову на этапе обучения, применяя обучаемые якоря полос для обогащения supervision над энкодером. Результаты экспериментов на четырех наборах данных (Carlane, Tusimple, CULane и LLAMAS) показывают, что DiffusionLane обладает высокой способностью к обобщению и перспективной производительностью детектирования по сравнению с предыдущими передовыми методами. Например, DiffusionLane с ResNet18 превосходит существующие методы как минимум на 1% по точности на наборе данных для адаптации домена Carlane. Кроме того, DiffusionLane с MobileNetV4 достигает 81,32% F1-меры на CULane, 96,89% точности на Tusimple с ResNet34 и 97,59% F1-меры на LLAMAS с ResNet101. Код будет доступен по адресу https://github.com/zkyntu/UnLanedet.
Диффузионные трансформаторы (DiT) демонстрируют передовые результаты в генеративных задачах, однако их квадратичная стоимость обучения от длины последовательности делает крупномасштабное предварительное обучение чрезмерно дорогостоящим. Отбрасывание токенов может снизить затраты на обучение, но наивные стратегии ухудшают качество представлений, а существующие методы либо требуют большого числа параметров, либо не работают при высоких коэффициентах отбрасывания. Мы представляем SPRINT (Sparse–Dense Residual Fusion for Efficient Diffusion Transformers) — простой метод, который позволяет агрессивно отбрасывать токены (до 75%), сохраняя при этом качество. SPRINT использует комплементарные роли мелких и глубоких слоев: начальные слои обрабатывают все токены для захвата локальных деталей, более глубокие слои работают с разреженным подмножеством для сокращения вычислений, а их выходы объединяются через остаточные связи. Обучение следует двухэтапному расписанию: длительное предварительное обучение с маскированием для эффективности с последующей краткой тонкой настройкой на полном наборе токенов для устранения разрыва между обучением и выводом. На данных ImageNet-1K 256x256 SPRINT обеспечивает 9.8-кратную экономию обучения при сопоставимых значениях FID/FDD, а на этапе вывода его метод Path-Drop Guidance (PDG) сокращает FLOPs почти вдвое, одновременно улучшая качество. Эти результаты устанавливают SPRINT как простое, эффективное и универсальное решение для эффективного обучения DiT.
Выдающийся успех диффузионных моделей и моделей согласования потоков вызвал всплеск работ по их адаптации во время тестирования для задач контролируемой генерации. Примеры варьируются от редактирования изображений до их восстановления, сжатия и персонализации. Однако из-за итеративной природы процесса семплирования в этих моделях вычислительно непрактично использовать градиентную оптимизацию для прямого управления изображением, генерируемым в конце процесса. В результате существующие методы обычно прибегают к раздельному манипулированию каждым шагом по времени. Здесь мы представляем FlowOpt — framework безусловной (безградиентной) оптимизации, который рассматривает весь процесс потока как «черный ящик», позволяя проводить оптимизацию на протяжении всего пути семплирования без обратного распространения через модель. Наш метод является высокоэффективным и позволяет пользователям отслеживать промежуточные результаты оптимизации и при необходимости выполнять досрочную остановку. Мы доказываем достаточное условие на размер шага FlowOpt, при котором гарантируется сходимость к глобальному оптимуму. Далее мы показываем, как эмпирически оценить эту верхнюю границу, чтобы выбрать подходящий размер шага. Мы демонстрируем, как FlowOpt можно использовать для редактирования изображений, представляя два варианта: (i) инверсию (определение исходного шума, который генерирует заданное изображение) и (ii) прямое направление отредактированного изображения к сходству с исходным изображением при соответствии целевому текстовому промпту. В обоих случаях FlowOpt достигает результатов уровня последних достижений, используя примерно то же количество оценок нейросетевых функций (NFEs), что и существующие методы. Код и примеры доступны на веб-странице проекта.
Матричные предобусловленные оптимизаторы, такие как Muon, недавно продемонстрировали более высокую эффективность по сравнению со скалярными оптимизаторами при обучении крупномасштабных нейронных сетей, включая большие языковые модели (LLM). С другой стороны, недавние сравнительные тесты оптимизаторов для предварительного обучения LLM показали, что методы снижения дисперсии, такие как MARS, могут обеспечить значительное ускорение по сравнению со стандартными оптимизаторами, не использующими снижение дисперсии. В данной статье для достижения преимуществ обоих подходов мы представляем MARS-M — новый оптимизатор, интегрирующий технику снижения дисперсии из MARS с Muon. При стандартных условиях регулярности мы доказываем, что Muon-M сходится к стационарной точке первого порядка со скоростью $\mathcal{O}(T^{-1/3})$, что улучшает показатель $\mathcal{O}(T^{-1/4})$, достигаемый Muon. Наши эмпирические результаты по задачам языкового моделирования и компьютерного зрения демонстрируют, что MARS-M стабильно обеспечивает меньшие значения функции потерь и улучшенную производительность на различных downstream-бенчмарках. Реализация MARS-M доступна по адресу https://github.com/AGI-Arena/MARS/MARS_M.
Крупные языковые модели (LLM) недавно продемонстрировали прогресс в области автоматического распознавания речи (ASR), визуального распознавания речи (VSR) и аудиовизуального распознавания речи (AVSR). Однако понимание их внутренней динамики в процессе тонкой настройки остается ограниченным. В обработке естественного языка недавние исследования выявили феномен «стоков внимания» — токенов, которые привлекают непропорционально высокое внимание, и связанные с ними массивные активации, при которых некоторые признаки токенов-стоков проявляют чрезвычайно высокую активацию в LLM. В данной работе мы впервые исследуем эти явления в многомодальном распознавании речи. Посредством детального анализа аудиовизуальных LLM мы идентифицируем стоки внимания и массивные активации не только у токена BOS, но и у промежуточных токенов с низкой семантической нагрузкой в задачах ASR, VSR и AVSR. Мы показываем, что массивные активации возникают в MLP-слоях и соответствуют фиксированным индексам признаков для всех токен-стоков. Мы также демонстрируем, что промежуточные токены-стоки обладают высоким косинусным сходством с токеном BOS, тем самым усиливая внимание и активацию. На основе этих наблюдений мы предлагаем простую функцию потерь на декорреляцию, которая снижает косинусное сходство между BOS и другими токенами, эффективно подавляя промежуточные стоки и массивные активации. Кроме того, наш метод улучшает показатель Word Error Rate (WER) при сильном прореживании аудиовизуальных признаков, сохраняя стабильность на более низких уровнях прореживания.