Ежедневно отобранные исследовательские статьи по ИИ с переводами
Появление многоагентных систем, построенных на основе больших языковых моделей (БЯМ), открывает перспективную парадигму для масштабируемого коллективного интеллекта и саморазвития. В идеале такие системы могли бы достигать непрерывного самосовершенствования в полностью замкнутом цикле, сохраняя при этом надежную ценностную безопасность — комбинацию, которую мы называем трилеммой саморазвития. Однако мы теоретически и эмпирически демонстрируем, что агентное общество, удовлетворяющее условиям непрерывного саморазвития, полной изоляции и инвариантности безопасности, невозможно. Используя информационно-теоретический подход, мы формализуем безопасность как степень расхождения с антропными ценностными распределениями. Теоретически мы показываем, что изолированное саморазвитие порождает статистические «слепые зоны», ведущие к необратимому ухудшению ценностной безопасности системы. Эмпирические и качественные результаты, полученные на открытом агентном сообществе (Moltbook) и двух замкнутых саморазвивающихся системах, выявляют феномены, согласующиеся с нашим теоретическим предсказанием неизбежной эрозии безопасности. Мы также предлагаем несколько направлений решений для смягчения выявленной проблемы безопасности. Наша работа устанавливает фундаментальный предел для саморазвивающихся ИИ-обществ и смещает дискуссию от симптоматичных заплаток безопасности к принципиальному пониманию внутренних динамических рисков, подчеркивая необходимость внешнего надзора или новых механизмов сохранения безопасности.
Крупномасштабные верифицируемые промты лежат в основе успеха обучения с подкреплением с верифицируемыми вознаграждениями (RLVR), однако они содержат множество неинформативных примеров, и их дальнейшее расширение требует больших затрат. В последних исследованиях основное внимание уделяется более эффективному использованию ограниченных данных обучения за счет приоритизации сложных промтов, уровень успешности выполнения (pass rate) которых равен 0. Однако по мере прогресса обучения все более распространенными становятся и легкие промты с уровнем успешности 1, что снижает эффективный объем данных. Чтобы смягчить эту проблему, мы предлагаем Composition-RL — простой, но полезный подход для лучшего использования ограниченного числа верифицируемых промтов, нацеленный именно на промты с уровнем успешности 1. Если конкретнее, Composition-RL автоматически комбинирует несколько задач в новую верифицируемую проблему и использует эти составные промты для обучения с подкреплением. Многочисленные эксперименты на моделях размером от 4B до 30B показывают, что Composition-RL последовательно улучшает способность к рассуждению по сравнению с RL, обученным на исходном наборе данных. Производительность можно дополнительно повысить с помощью варианта Composition-RL с учебным планом (curriculum), который постепенно увеличивает глубину композиции в процессе обучения. Кроме того, Composition-RL позволяет осуществлять более эффективное междоменное RL путем комбинирования промтов из различных областей. Код, наборы данных и модели доступны по адресу https://github.com/XinXU-USTC/Composition-RL.
Современные унифицированные мультимодальные модели для генерации и редактирования изображений обычно требуют масштабных параметров (например, >10 млрд), что влечет за собой prohibitive затраты на обучение и развертывание. В данной работе мы представляем DeepGen 1.0 — облегченную 5-миллиардную унифицированную модель, которая демонстрирует комплексные возможности, конкурентоспособные или превосходящие значительно более крупные аналоги. Для преодоления ограничений компактных моделей в семантическом понимании и детализированном управлении мы предлагаем Stacked Channel Bridging (SCB) — глубокую архитектуру согласования, которая извлекает иерархические признаки из нескольких слоев VLM и объединяет их с обучаемыми «мыслящими токенами», предоставляя генеративной основе структурированное, обогащенное логикой руководство. Дополнительно мы разработали ориентированную на данные стратегию обучения, охватывающую три прогрессивных этапа: (1) предварительное обучение согласованию на крупных наборах пар «изображение-текст» и тройках редактирования для синхронизации представлений VLM и DiT; (2) совместную тонкую настройку с учителем на высококачественной смеси задач генерации, редактирования и логического вывода для развития универсальных способностей; и (3) обучение с подкреплением с помощью MR-GRPO, которое использует комбинацию функций вознаграждения и сигналов контроля, что приводит к значительному улучшению качества генерации и соответствия человеческим предпочтениям при сохранении стабильного прогресса обучения и отсутствии визуальных артефактов. Несмотря на обучение всего на ~50 млн примеров, DeepGen 1.0 демонстрирует лидирующие результаты в разнообразных бенчмарках, превосходя 80-миллиардную HunyuanImage на 28% в WISE и 27-миллиардную Qwen-Image-Edit на 37% в UniREditBench. Открывая исходный код обучения, веса и наборы данных, мы предлагаем эффективную высокопроизводительную альтернативу для демократизации унифицированных мультимодальных исследований.
Модели "видение-язык-действие" (VLA), которые напрямую предсказывают последовательности действий из текущих наблюдений, сталкиваются с фундаментальными ограничениями, обусловленными узким пониманием сцены и слабыми возможностями прогнозирования будущего. В отличие от них, видео-мировые модели, предобученные на веб-масштабных видеокорпусах, демонстрируют надежное пространственно-временное мышление и точное предсказание будущего, что делает их естественной основой для улучшения обучения VLA. Поэтому мы предлагаем GigaBrain-0.5M* — модель VLA, обученную с помощью обучения с подкреплением на основе мировой модели. Построенная на базе GigaBrain-0.5, которая предобучена на более чем 10 000 часов данных о манипуляциях роботов и чья промежуточная версия в настоящее время занимает первое место в международном бенчмарке RoboChallenge, модель GigaBrain-0.5M* дополнительно интегрирует обучение с подкреплением на основе мировой модели через метод RAMP (Reinforcement leArning via world Model-conditioned Policy) для обеспечения надежной межзадачной адаптации. Экспериментальные результаты показывают, что RAMP обеспечивает существенный прирост производительности по сравнению с базовым методом RECAP, давая улучшение примерно на 30% в сложных задачах, включая складывание белья, упаковку коробок и приготовление эспрессо. Важно, что GigaBrain-0.5M* демонстрирует надежное выполнение задач в длительном горизонте, стабильно выполняя сложные манипуляционные задачи без сбоев, что подтверждено видеозаписями реальных развертываний на нашей [странице проекта](https://gigabrain05m.github.io).
Он-политическая дистилляция (OPD), которая выравнивает распределение логитов ученика относительно учителя на траекториях, сгенерированных учеником, показала значительные эмпирические преимущества в улучшении производительности ученика и часто превосходит парадигмы офф-политической дистилляции и обучения с подкреплением (RL). В данной работе мы сначала теоретически показываем, что OPD является частным случаем RL с плотным KL-ограничением, где функция вознаграждения и KL-регуляризация всегда взвешены одинаково, а эталонной моделью может быть любая модель. Затем мы предлагаем фреймворк Обобщенной Он-политической Дистилляции (G-OPD), который расширяет стандартную цель OPD за счет введения гибкой эталонной модели и масштабирующего коэффициента вознаграждения, контролирующего относительный вес члена вознаграждения по сравнению с KL-регуляризацией. В ходе всесторонних экспериментов по математическим рассуждениям и генерации кода мы получаем два новых вывода: (1) Установка масштабирующего коэффициента вознаграждения больше 1 (т.е. экстраполяция вознаграждения), что мы называем ExOPD, последовательно улучшает результаты по сравнению со стандартной OPD для различных пар соотношений размеров учитель-ученик. В частности, в сценарии, где мы объединяем знания от различных доменных экспертов, полученные применением доменно-специфичного RL к одной и той же модели-ученику, обратно в исходного ученика, ExOPD позволяет ученику превзойти границу производительности учителя и обойти доменных учителей. (2) Основываясь на ExOPD, мы далее обнаруживаем, что в условиях дистилляции от сильного к слабому (т.е. дистилляция меньшего ученика от большего учителя), выполнение коррекции вознаграждения путем выбора в качестве эталонной модели базовой модели учителя до RL дает более точный сигнал вознаграждения и дополнительно улучшает производительность дистилляции. Однако этот выбор предполагает доступ к варианту учителя до RL и влечет за собой большие вычислительные затраты. Мы надеемся, что наша работа предложит новые идеи для будущих исследований OPD.
Дискретные аудиотокенизаторы являются основой для наделения больших языковых моделей собственными возможностями обработки и генерации аудио. Несмотря на недавний прогресс, существующие подходы часто опираются на предобученные энкодеры, семантическую дистилляцию или гетерогенные архитектуры на основе CNN. Эти решения вводят фиксированные индуктивные смещения, которые ограничивают точность реконструкции и препятствуют эффективному масштабированию. В данной статье мы утверждаем, что дискретная аудиотокенизация должна изучаться полностью сквозным образом с использованием гомогенной и масштабируемой архитектуры. С этой целью мы сначала предлагаем CAT (Causal Audio Tokenizer with Transformer) — чисто трансформерную архитектуру, которая совместно оптимизирует энкодер, квантизатор и декодер с нуля для высокоточной реконструкции. На основе архитектуры CAT мы разрабатываем MOSS-Audio-Tokenizer — крупномасштабный аудиотокенизатор с 1,6 миллиардами параметров, предобученный на 3 миллионах часов разнообразных общих аудиоданных. Мы показываем, что этот простой, полностью сквозной подход, построенный из гомогенных каузальных трансформерных блоков, элегантно масштабируется и обеспечивает высокоточную реконструкцию в различных аудиодоменах. Для речи, звуков и музыки MOSS-Audio-Tokenizer стабильно превосходит предыдущие кодеки в широком диапазоне битрейтов, демонстрируя предсказуемое улучшение с увеличением масштаба. Примечательно, что, используя дискретные токены нашей модели, мы разрабатываем первую чисто авторегрессионную модель синтеза речи (TTS), превосходящую предыдущие неавторегрессионные и каскадные системы. Кроме того, MOSS-Audio-Tokenizer позволяет достичь конкурентоспособной производительности в задаче автоматического распознавания речи (ASR) без вспомогательных энкодеров. Наши результаты позиционируют архитектуру CAT как унифицированный, масштабируемый интерфейс для следующего поколения собственных базовых аудиомоделей.
Создание связных саундтреков для длинных видео остается сложной задачей, в настоящее время сдерживаемой тремя ключевыми препятствиями: вычислительной масштабируемостью, временной согласованностью и, что наиболее важно, повсеместной семантической слепотой к развивающейся нарративной логике. Для преодоления этих пробелов мы предлагаем NarraScore — иерархическую структуру, основанную на ключевой идее о том, что эмоции служат высокоплотным сжатием повествовательной логики. Уникальным образом мы перепрофилируем замороженные модели «визуальный язык-текст» (Vision-Language Models, VLM) в качестве непрерывных аффективных сенсоров, преобразуя высокоразмерные визуальные потоки в плотные, учитывающие повествование траектории валентности-возбуждения. На механическом уровне NarraScore использует стратегию Dual-Branch Injection для согласования глобальной структуры с локальной динамикой: глобальный семантический якорь обеспечивает стилистическую стабильность, в то время как точный аффективный адаптер на уровне токенов модулирует локальное напряжение посредством прямой поэлементной остаточной инъекции. Этот минималистичный дизайн обходит узкие места плотного внимания и архитектурного клонирования, эффективно снижая риски переобучения, связанные с недостатком данных. Эксперименты показывают, что NarraScore достигает наилучших показателей согласованности и соответствия повествованию при незначительных вычислительных затратах, устанавливая полностью автономную парадигму для генерации саундтреков к длинным видео.
Правовое рассуждение требует не только корректных результатов, но и процессуально соответственных процедур рассуждения. Однако существующие методы не имеют механизмов проверки промежуточных шагов рассуждения, что позволяет ошибкам (например, ссылкам на неприменимые правовые нормы) незаметно распространяться по цепочке рассуждений. Для решения этой проблемы мы предлагаем LawThinker — автономного агента юридического исследования, применяющего стратегию «Исследование-Проверка-Запоминание» для динамичных судебных сред. Ключевая идея заключается в принудительной проверке как атомарной операции после каждого шага исследования знаний. Модуль DeepVerifier анализирует каждый результат поиска по трём измерениям: точность знаний, релевантность фактов и правовых норм, процессуальное соответствие, а модуль памяти обеспечивает межсессионное повторное использование знаний в долгосрочных задачах. Эксперименты на динамичном бенчмарке J1-EVAL показывают, что LawThinker демонстрирует улучшение на 24% по сравнению с прямым рассуждением и на 11% по сравнению с методами на основе рабочих процессов, с особенно значительным прогрессом в процессно-ориентированных метриках. Оценки на трёх статических бенчмарках дополнительно подтверждают его обобщающую способность. Код доступен по адресу https://github.com/yxy-919/LawThinker-agent.
Современные мультимодальные большие языковые модели достигли высокоточной визуальной перцепции и исследовательской визуальной генерации. Однако в сложных задачах логического вывода сохраняется парадокс точности: оптические системы восприятия транскрибируют символы без захвата логической топологии, тогда как пиксельные генеративные модели производят визуальные артефакты, лишённые математической точности. Для преодоления этого разрыва мы предлагаем переосмыслить рассуждение над визуальными данными как оптическую декомпрессию — процесс восстановления скрытых логических структур из сжатых визуальных токенов. Руководствуясь аксиомой «Синтаксический анализ есть рассуждение», мы представляем метод «Мышление через черновик» (TwD), использующий минималистичный предметно-ориентированный язык (DSL) в качестве промежуточного представления для заземления. В отличие от стандартных подходов, которые напрямую генерируют ответы, TwD принуждает модель формулировать свою ментальную модель в виде исполняемого кода, создавая детерминированные визуальные доказательства для самопроверки. Для валидации метода мы представляем бенчмарк VisAlg для визуальной алгебры. Эксперименты демонстрируют, что TwD служит эффективным когнитивным каркасом. Наша работа создаёт замкнутую систему, где визуальная генерация выступает не как творческий вывод, а как логический верификатор, предлагая обобщаемый путь для визуального reasoning.
Для достижения эффективного масштабирования во время тестирования модели должны обладать способностью к Исследованию в Контексте — внутренней возможностью генерировать, проверять и уточнять множественные гипотезы рассуждений в рамках единого непрерывного контекста. Основываясь на теории Покрытия Состояний, наш анализ выявляет ключевое ограничение для реализации этой способности: хотя более широкое покрытие состояний требует более длинных траекторий рассуждений, вероятность сэмплирования таких последовательностей экспоненциально затухает в процессе авторегрессионной генерации — феномен, который мы называем «Ловушкой Поверхностного Исследования». Для преодоления этого разрыва мы предлагаем метод Исследования со Стимулированием Длины (\method). Этот простой, но эффективный подход явно поощряет модели к более активному исследованию за счёт вознаграждения, основанного на длине, в сочетании со штрафом за избыточность, тем самым максимизируя покрытие состояний двухэтапным способом. Комплексные эксперименты с различными моделями (Qwen3, Llama) демонстрируют, что \method эффективно стимулирует исследование в контексте. В результате наш метод обеспечивает среднее улучшение на 4.4% на внутридоменных задачах и прирост на 2.7% на внедоменных бенчмарках.
Несмотря на постоянное увеличение емкости моделей и объемов собираемых данных, модели «зрение-язык-действие» (Vision-Language-Action, VLA) остаются неустойчивыми в задачах манипулирования, требующих постоянного контакта и динамического взаимодействия, где даже незначительные отклонения в исполнении могут накапливаться и приводить к сбоям. Хотя обучение с подкреплением (RL) предлагает принципиальный путь к обеспечению надежности, применение RL с он-политикой в физическом мире ограничено рисками для безопасности, стоимостью оборудования и необходимостью сброса среды. Для преодоления этого разрыва мы представляем RISE — масштабируемую структуру роботизированного обучения с подкреплением через воображение. Ее основой является Композиционная модель мира, которая (i) предсказывает многопредставленное будущее с помощью управляемой модели динамики и (ii) оценивает смоделированные исходы с помощью модели ценности прогресса, формируя информативные преимущества для улучшения политики. Такой композиционный подход позволяет адаптировать архитектуру и цели для состояний и ценности, используя наиболее подходящие, но различные архитектуры. Эти компоненты интегрированы в замкнутый контур самосовершенствования, который непрерывно генерирует смоделированные развертки, оценивает преимущества и обновляет политику в воображаемом пространстве без затратного физического взаимодействия. В трех сложных реальных задачах RISE демонстрирует значительное улучшение по сравнению с предыдущими решениями: абсолютное повышение производительности более чем на +35% в динамической сортировке кирпичей, на +45% в упаковке рюкзака и на +35% в закрытии коробки соответственно.
Традиционные визуальные иллюзии основаны на пространственных манипуляциях, таких как согласованность множества ракурсов. В данной работе мы представляем Прогрессирующие семантические иллюзии — новую задачу векторного рисования, в которой единственный набросок претерпевает кардинальную семантическую трансформацию за счёт последовательного добавления штрихов. Мы представляем Stroke of Surprise, генеративную систему, которая оптимизирует векторные штрихи для соответствия различным семантическим интерпретациям на разных этапах рисования. Ключевая сложность заключается в «двойном ограничении»: начальные штрихи-префиксы должны формировать связный объект (например, утку), одновременно служа структурной основой для второго понятия (например, овцы) при добавлении дельта-штрихов. Для решения этой задачи мы предлагаем систему совместной оптимизации с учётом последовательности, управляемую механизмом Score Distillation Sampling (SDS) с двумя ветвями. В отличие от последовательных подходов, фиксирующих начальное состояние, наш метод динамически корректирует штрихи-префиксы для обнаружения «общего структурного подпространства», пригодного для обеих целей. Кроме того, мы вводим новую Функцию потерь наложения, которая обеспечивает пространственную дополнительность, гарантируя структурную интеграцию, а не перекрытие. Многочисленные эксперименты показывают, что наш метод значительно превосходит современные базовые подходы по узнаваемости и силе иллюзии, успешно расширяя визуальные анаграммы из пространственного во временное измерение. Страница проекта: https://stroke-of-surprise.github.io/
Высоконадежное манипулирование объектами роботами с длительным горизонтом планирования традиционно опиралось на большие объемы данных и вычислительные ресурсы для понимания сложной динамики реального мира. Однако мы установили, что основным препятствием к достижению устойчивости в реальных условиях является не только масштаб ресурсов, но и сдвиг распределения между распределением демонстраций человека, индуктивным смещением, усвоенным политикой, и распределением выполнения на этапе тестирования — системное несоответствие, которое вызывает накапливающиеся ошибки в многоэтапных задачах. Для смягчения этих несоответствий мы предлагаем χ₀, ресурсоэффективный фреймворк с эффективными модулями, предназначенный для достижения промышленного уровня надежности в роботизированном манипулировании. Наш подход основывается на трех технических столпах: (i) Модельная арифметика — стратегия слияния в пространстве весов, которая эффективно усваивает разнообразные распределения различных демонстраций, от вариаций внешнего вида объектов до вариаций состояний; (ii) Поэтапное преимущество — оценщик преимущества с учетом этапов, который обеспечивает стабильные, плотные сигналы прогресса, преодолевая численную нестабильность предыдущих непоэтапных подходов; и (iii) Согласование обучения и развертывания, которое устраняет разрыв распределений с помощью пространственно-временной аугментации, эвристических коррекций DAgger и временного сглаживания по фрагментам. χ₀ позволяет двум наборам двухруких роботов совместно выполнять манипуляции с одеждой с длительным горизонтом, включая задачи от разглаживания и складывания до развешивания различной одежды. Наш метод демонстрирует высоконадежную автономность; мы можем запускать систему из произвольного начального состояния непрерывно в течение 24 часов подряд. Эксперименты подтверждают, что χ₀ превосходит современный метод π₀.₅ по проценту успешных выполнений почти на 250%, используя лишь 20 часов данных и 8 GPU A100. Код, данные и модели будут опубликованы для содействия научному сообществу.
Демонстрации человека предоставляют богатое разнообразие сред и легко масштабируются, что делает их привлекательной альтернативой телеуправлению роботами. Хотя эта парадигма продвинула манипуляцию с помощью роботизированных манипуляторов, её потенциал для более сложной, требующей больших данных проблемы локоманипуляции гуманоидами остаётся в значительной степени неисследованным. Мы представляем EgoHumanoid — первую систему, которая совместно обучает политику "визуальный язык — действие", используя обильные эгоцентричные демонстрации человека вместе с ограниченным количеством роботизированных данных, что позволяет гуманоидам выполнять локоманипуляцию в различных реальных условиях. Чтобы преодолеть разрыв в воплощении между человеком и роботом, включая различия в физической морфологии и точке обзора, мы вводим системный конвейер выравнивания, охватывающий всё от проектирования аппаратного обеспечения до обработки данных. Разработана портативная система для масштабируемого сбора человеческих данных, и мы устанавливаем практические протоколы сбора для повышения переносимости. В основе нашего конвейера выравнивания "человек-гуманоид" лежат два ключевых компонента. *Выравнивание обзора* уменьшает расхождения в визуальной области, вызванные разницей в высоте камеры и вариациями перспективы. *Выравнивание действий* преобразует человеческие движения в единое, кинематически feasible пространство действий для управления гуманоидом. Многочисленные эксперименты в реальном мире демонстрируют, что включение эгоцентричных данных, не требующих участия робота, значительно превосходит базовые подходы, использующие только данные робота, на 51%, особенно в незнакомых средах. Наш анализ дополнительно показывает, какие поведения эффективно переносятся, и раскрывает потенциал масштабирования человеческих данных.
Диффузионные большие языковые модели (dLLM) представляют новую парадигму, выходящую за рамки авторегрессионного моделирования, демонстрируя конкурентоспособную производительность и при этом естественным образом обеспечивая гибкий процесс декодирования. В частности, dLLM способны генерировать токены в произвольных позициях параллельно, что наделяет их значительным потенциалом для масштабирования на этапе тестирования, которое ранее было ограничено крайней неэффективностью авторегрессионного моделирования. В данной работе мы представляем dVoting — быструю технику голосования, которая повышает способность к рассуждению без обучения, ценой лишь приемлемых дополнительных вычислительных затрат. dVoting мотивирована наблюдением, что для множества сэмплов одного и того же промта предсказания токенов в значительной степени остаются согласованными, тогда как производительность определяется небольшим подмножеством токенов, демонстрирующих вариабельность между сэмплами. Используя возможность dLLM генерировать токены в произвольных позициях, dVoting выполняет итеративное уточнение путем сэмплирования, идентификации ненадежных токенов посредством анализа согласованности, их повторной генерации через голосование и повторения этого процесса до сходимости. Обширные оценки демонстрируют, что dVoting стабильно улучшает производительность на различных бенчмарках. Метод позволяет достичь прироста в 6,22%–7,66% на GSM8K, 4,40%–7,20% на MATH500, 3,16%–14,84% на ARC-C и 4,83%–5,74% на MMLU. Наш код доступен по адресу https://github.com/fscdc/dVoting.
Мы представляем Voxtral Realtime — нативно потоковую модель автоматического распознавания речи, которая обеспечивает качество транскрипции на уровне офлайн-моделей при задержке менее секунды. В отличие от подходов, адаптирующих офлайн-модели через чанкинг или скользящие окна, Voxtral Realtime обучается end-to-end для потоковой обработки с явным выравниванием аудио- и текстовых потоков. Наша архитектура построена на основе фреймворка Delayed Streams Modeling и включает новый каузальный аудиоэнкодер, а также Ada RMS-Norm для улучшенного управления задержкой. Мы масштабировали предварительное обучение на крупный датасет, охватывающий 13 языков. При задержке в 480 мс Voxtral Realtime демонстрирует производительность, сопоставимую с Whisper — наиболее широко используемой офлайн-системой транскрипции. Веса модели опубликованы под лицензией Apache 2.0.
Почему навигация на основе зрения и языка должна быть привязана к детальным и пространным языковым инструкциям? Хотя такие подробности облегчают принятие решений, они фундаментально противоречат цели навигации в реальном мире. В идеале агенты должны обладать автономией для навигации в незнакомых средах, руководствуясь исключительно простыми и высокоуровневыми намерениями. Реализация этой амбиции создает серьезную проблему: навигацию за пределами обзора (Beyond-the-View Navigation, BVN), где агенты должны находить удаленные, невидимые цели без плотного пошагового руководства. Существующие методы на основе больших языковых моделей (LLM), хотя и умеют следовать детальным инструкциям, часто страдают от близорукого поведения из-за их зависимости от краткосрочного контроля. Однако простое расширение горизонта контроля дестабилизирует обучение LLM. В данной работе мы выявляем, что модели генерации видео изначально выигрывают от долгосрочного контроля для согласования с языковыми инструкциями, что делает их особенно подходящими для задач BVN. Используя это наблюдение, мы предлагаем впервые ввести модель генерации видео в эту область. Тем не менее, запретительная задержка при генерации видео продолжительностью в десятки секунд делает развертывание в реальном мире непрактичным. Чтобы преодолеть этот разрыв, мы предлагаем SparseVideoNav, достигающий вывода траектории менее чем за секунду, руководствуясь сгенерированным разреженным представлением будущего на 20-секундном горизонте. Это дает впечатляющее 27-кратное ускорение по сравнению с неоптимизированным аналогом. Масштабные эксперименты с нулевым-shot переносом в реальном мире демонстрируют, что SparseVideoNav достигает в 2,5 раза большего уровня успеха, чем современные LLM-базlines в задачах BVN, и знаменует первую реализацию такой возможности в сложных ночных сценах.
По мере стремительного развития больших моделей (LMs) их безопасность также становится приоритетной задачей. В современных процессах обеспечения безопасности больших языковых моделей (LLMs) и мультимодальных больших языковых моделей (MLLMs) оценка, диагностика и согласование часто выполняются разрозненными инструментами. В частности, оценка безопасности позволяет выявить лишь внешние поведенческие риски, но не способна определить их внутренние корневые причины. В то же время диагностика безопасности часто отрывается от конкретных сценариев риска и остается на уровне объяснимых характеристик. Таким образом, согласование безопасности лишено целенаправленного анализа изменений внутренних механизмов, что потенциально может приводить к деградации общих способностей моделей. Для системного решения этих проблем мы предлагаем проект с открытым исходным кодом DeepSight, реализующий новую интегрированную парадигму оценки и диагностики безопасности. DeepSight — это масштабируемый, воспроизводимый и эффективный проект оценки безопасности больших моделей с низкими затратами, состоящий из набора инструментов оценки DeepSafe и диагностики DeepScan. Унифицируя протоколы задач и данных, мы устанавливаем связь между двумя этапами и преобразуем оценку безопасности из черного ящика в прозрачный анализ. Кроме того, DeepSight является первым набором инструментов с открытым исходным кодом, поддерживающим оценку передовых рисков ИИ и совместную оценку и диагностику безопасности.
Требования к пониманию товаров в электронной коммерции по своей природе предполагают сильное мультимодальное восприятие, объединяющее текст, изображения и структурированные атрибуты. Универсальные визуально-языковые модели (VLM) обеспечивают обобщающее латентное мультимодальное моделирование, однако на сегодня не существует задокументированной и общепризнанной стратегии их адаптации к атрибутно-ориентированной, мультиизобразительной и зашумленной природе данных электронной коммерции без ущерба для общей производительности. В данной работе мы на основе масштабного экспериментального исследования демонстрируем, как целевая адаптация общих VLM позволяет существенно повысить эффективность в сфере электронной коммерции, сохраняя при этом широкие мультимодальные возможности. Кроме того, мы предлагаем новую комплексную систему оценки, охватывающую глубокое понимание товаров, строгое следование инструкциям и динамическое извлечение атрибутов.
Мы представляем Gaia2 — эталонный тест для оценки агентов на основе больших языковых моделей в реалистичных асинхронных средах. В отличие от предыдущих статических или синхронных оценок, Gaia2 предлагает сценарии, где среда эволюционирует независимо от действий агента, требуя от агентов работы в условиях временных ограничений, адаптации к зашумленным и динамическим событиям, разрешения неоднозначности и взаимодействия с другими агентами. Каждый сценарий снабжен верификатором действий, что позволяет проводить детальную оценку на уровне действий и делает Gaia2 пригодным для обучения с подкреплением на основе проверяемых вознаграждений. Наша оценка передовых проприетарных и открытых моделей показывает, что ни одна модель не доминирует по всем параметрам: GPT-5 (high) демонстрирует наивысший общий показатель 42% pass@1, но не справляется с задачами, чувствительными ко времени; Claude-4 Sonnet жертвует точностью и скоростью ради стоимости; Kimi-K2 лидирует среди открытых моделей с 21% pass@1. Эти результаты выявляют фундаментальные компромиссы между логическим выводом, эффективностью, устойчивостью и подчеркивают сложности преодоления разрыва между симуляцией и реальностью. Gaia2 построен на потребительской среде с использованием платформы Agents Research Environments с открытым исходным кодом и спроектирован для простого расширения. Публикуя Gaia2 вместе с базовой платформой ARE, мы стремимся предоставить сообществу гибкую инфраструктуру для разработки, тестирования и обучения следующего поколения практических агентных систем.
Ландшафт генерации видео с помощью ИИ переживает переломный момент: переход от универсальной генерации, основанной на исчерпывающем промпт-инжиниринге и «отборе лучших вариантов», к детализированному, контролируемому созданию контента и высокоточной постобработке. В профессиональном кинопроизводстве с использованием ИИ крайне важно выполнять точные, целевые модификации. Краеугольным камнем этого перехода является задача вставки видеоэкземпляра, которая требует вставки конкретного объекта в существующие кадры с сохранением целостности сцены. В отличие от традиционного видеомонтажа, эта задача предъявляет ряд требований: точное пространственно-временное размещение, физически согласованное взаимодействие со сценой и достоверное сохранение исходной динамики — всё это должно достигаться при минимальных усилиях пользователя. В данной статье мы представляем PISCO — видео-диффузионную модель для точной вставки видеоэкземпляров с произвольным управлением по разреженным ключевым кадрам. PISCO позволяет пользователю указать один ключевой кадр, начальный и конечный ключевые кадры или разреженные ключевые кадры в произвольные моменты времени, после чего модель автоматически распространяет внешний вид объекта, его движение и взаимодействие. Для устранения значительного сдвига распределения, вызванного разреженным conditioning в предобученных видео-диффузионных моделях, мы вводим Variable-Information Guidance для обеспечения устойчивого conditioning и Distribution-Preserving Temporal Masking для стабилизации временнóй генерации, а также геометрически-осознанный conditioning для реалистичной адаптации к сцене. Дополнительно мы создали PISCO-Bench — бенчмарк с верифицированными аннотациями экземпляров и парными чистыми фоновыми видео, и оценили производительность с использованием как референсных, так и безреференсных перцепционных метрик. Эксперименты показывают, что PISCO стабильно превосходит сильные базовые методы инпейнтинга и видеоредактирования при разреженном контроле и демонстрирует явные, монотонные улучшения производительности по мере предоставления дополнительных управляющих сигналов. Страница проекта: xiangbogaobarry.github.io/PISCO.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR), в частности GRPO, стало стандартом для выявления рассуждений в больших языковых моделях (LLM). Однако эффективность его исследования среды и адаптации к сложности остаются открытой проблемой. В данной работе мы утверждаем, что эти узкие места проистекают из неявной симметрии преимуществ, присущей групповой относительной оценке преимуществ (GRAE). Эта симметрия порождает два критических ограничения: (i) на групповом уровне строгая симметрия в весах между корректными и некорректными траекториями оставляет несэмплированные логиты действий неизменными, тем самым препятствуя исследованию новых корректных решений; (ii) на уровне сэмплов алгоритм неявно отдает приоритет образцам средней сложности, оставаясь агностичным к нестационарным требованиям фокусировки на сложности. В контролируемых экспериментах мы показываем, что это симметричное свойство субоптимально, что приводит к двум ключевым выводам: (i) асимметричное подавление преимуществ корректных траекторий стимулирует необходимое исследование; (ii) эффективность обучения максимизируется при учебном плане, который изначально отдает приоритет более простым образцам, прежде чем постепенно переходить к сложным. Мотивированные этими результатами, мы предлагаем асимметричную GRAE (A-GRAE), которая динамически модулирует стимулы для исследования и фокус на сложности образцов. Эксперименты на семи бенчмарках демонстрируют, что A-GRAE последовательно улучшает GRPO и его варианты как для LLM, так и для мультимодальных LLM (MLLM).
Современные исследования изучают латентные рассуждения для повышения эффективности логического вывода, заменяя явные траектории рассуждений непрерывными представлениями в латентном пространстве, однако их эффективность варьируется в зависимости от условий. Анализ динамики уверенности модели при латентных рассуждениях показывает, что траектории мышления, завершающиеся неверными ответами, содержат меньше шагов с низкой уверенностью, чем траектории, ведущие к правильным ответам. В то же время мы предполагаем, что мягкие эмбеддинги, агрегированные из множества альтернативных мыслей с низкой уверенностью, могут вносить и распространять шум, приводя к высокой уверенности в ненадежных траекториях рассуждений. Мотивированные этими наблюдениями, мы предлагаем ThinkRouter — механизм маршрутизации на этапе вывода, учитывающий уверенность, чтобы избежать высокой уверенности и шума для эффективных рассуждений. ThinkRouter направляет мышление в дискретное пространство токенов, когда уверенность модели низка, и в латентное пространство в противном случае. Многочисленные эксперименты на STEM-задачах и бенчмарках по программированию с использованием различных больших моделей рассуждений демонстрируют, что ThinkRouter превосходит явные цепочки мыслей (CoT), случайную маршрутизацию и латентные рассуждения по точности, достигая в среднем улучшения на 19.70 пунктов в Pass@1, одновременно сокращая длину генерации до 15.55%. Дальнейший всесторонний анализ показывает, что ThinkRouter способен калибровать ошибки, возникающие при явном CoT и латентных рассуждениях, и ускоряет генерацию токена завершения мышления за счет глобального снижения уверенности модели.
Диффузионные большие языковые модели (DLLM) обладают потенциалом для обеспечения быстрой генерации текста за счёт параллельного декодирования множества токенов. Однако на практике их эффективность при выводе ограничена необходимостью выполнения множества шагов уточнения, в то время как агрессивное сокращение числа шагов приводит к значительной деградации качества генерации. Для смягчения этой проблемы мы предлагаем фреймворк самодистилляции траекторий, который улучшает декодирование за малое число шагов путём дистилляции собственных генеративных траекторий модели. Мы применяем метод прямой дискриминативной оптимизации (DDO) — обратную KL-цель, которая способствует режим-ориентированной дистилляции и побуждает ученика концентрироваться на высоковероятностных модах учителя. На различных тестовых наборах наш подход последовательно превосходит сильные базовые методы для малого числа шагов и стандартное обучение при жёстких ограничениях на количество шагов. Хотя декодирование с полным числом шагов остаётся более качественным, мы существенно сокращаем разрыв, закладывая прочную основу для практического применения DLLM с малым числом шагов. Исходный код доступен по адресу https://github.com/Tyrion58/T3D.
Вновь рассматриваются древесные n-глюонные амплитуды рассеяния с одной отрицательной спиральностью. Часто предполагаемые равными нулю, они оказываются ненулевыми для определённых "полуколлинеарных" конфигураций, существующих в пространстве Клейна или для комплексифицированных импульсов. Мы выводим кусочно-постоянное замкнутое выражение для распада одного глюона с отрицательной спиральностью на n-1 глюонов с положительной спиральностью как функцию их импульсов. Данная формула нетривиальным образом удовлетворяет множеству условий согласованности, включая мягкую теорему Вайнберга.
Долговременная память позволяет агентам на основе больших языковых моделей решать сложные задачи благодаря анализу истории взаимодействий. Однако существующие框架 сталкиваются с фундаментальной дилеммой: эффективное сжатие избыточной информации против сохранения точности извлечения данных для последующих задач. Для преодоления этого разрыва мы предлагаем MemFly —框架, основанный на принципах информационного бутылочного горлышка, который обеспечивает динамическую эволюцию памяти для языковых моделей. Наш подход минимизирует энтропию сжатия и максимизирует релевантную энтропию с помощью бесградиентного оптимизатора, формируя стратифицированную структуру памяти для эффективного хранения. Для полного раскрытия потенциала MemFly мы разработали гибридный механизм извлечения, который органично объединяет семантические, символьные и топологические пути с итеративным уточнением для обработки сложных многошаговых запросов. Комплексные эксперименты демонстрируют, что MemFly существенно превосходит современные базовые методы по согласованности памяти, достоверности ответов и точности.
Эволюция больших языковых моделей (LLM) в сторону приложений со сверхдлинными контекстами сталкивается с проблемами, обусловленными высокими вычислительными затратами и затратами памяти архитектуры Transformer. Хотя существующие разреженные и линейные механизмы внимания пытаются смягчить эти проблемы, они обычно предполагают компромисс между эффективностью использования памяти и производительностью модели. В данной статье представлена MiniCPM-SALA — гибридная архитектура с 9 миллиардами параметров, которая объединяет высокоточное моделирование длинного контекста разреженного внимания (InfLLM-V2) с глобальной эффективностью линейного внимания (Lightning Attention). Благодаря использованию алгоритма выбора слоев для интеграции этих механизмов в соотношении 1:3 и применению гибридной позиционной кодировки (HyPE), модель сохраняет эффективность и производительность для задач с длинным контекстом. Кроме того, мы представляем экономичную систему непрерывного обучения, которая преобразует предварительно обученные модели на основе Transformer в гибридные модели, что снижает стоимость обучения примерно на 75% по сравнению с обучением с нуля. Многочисленные эксперименты показывают, что MiniCPM-SALA сохраняет общие возможности, сопоставимые с моделями с полным вниманием, при этом предлагая повышенную эффективность. На одном GPU NVIDIA A6000D модель достигает до 3,5-кратного увеличения скорости вывода по сравнению с моделью с полным вниманием при длине последовательности в 256 тысяч токенов и поддерживает контексты длиной до 1 миллиона токенов — масштаб, на котором традиционные 8-миллиардные модели с полным вниманием не работают из-за ограничений памяти.
Открытое обучение рассматривает интеллект как результат постоянного взаимодействия с постоянно расширяющимся пространством сред. Хотя последние достижения используют базовые модели для программного генерирования разнообразных сред, эти подходы часто сосредоточены на открытии изолированных поведений, а не на организации устойчивой прогрессии. В сложных открытых мирах большое комбинаторное пространство возможных задач затрудняет для агентов обнаружение последовательностей опыта, которые остаются стабильно обучаемыми. Чтобы решить эту проблему, мы предлагаем Dreaming in Code (DiCode) — фреймворк, в котором базовые модели синтезируют исполняемый код среды для создания каркаса обучения, направленного на повышение компетентности. В DiCode «сновидение» принимает форму материализации вариаций мира на уровне кода. Мы реализуем DiCode в Craftax, сложном открытом бенчмарке, характеризующемся богатой механикой и долгосрочной прогрессией. Экспериментально DiCode позволяет агентам приобретать долгосрочные навыки, демонстрируя улучшение среднего результата на 16% по сравнению с сильнейшим базовым методом и ненулевой успех в боевых задачах поздней стадии игры, где предыдущие методы терпят неудачу. Наши результаты позволяют предположить, что проектирование среды на уровне кода предоставляет практический механизм управления учебным планом, позволяя создавать промежуточные среды, которые преодолевают разрывы в компетентности в открытых мирах. Страница проекта и исходный код доступны по адресам https://konstantinosmitsides.github.io/dreaming-in-code и https://github.com/konstantinosmitsides/dreaming-in-code.
Предварительное обучение больших языковых моделей (LLM) традиционно требует использования централизованных кластеров с тысячами высокопроизводительных GPU с большим объемом памяти (например, H100/A100). Современные децентрализованные методы обучения снижают коммуникационные издержки за счет применения федеративной оптимизации, однако они по-прежнему требуют обучения всей модели на каждом узле, оставаясь ограниченными пропускной способностью памяти GPU. В данной работе мы предлагаем SPES (SParse Expert Synchronization) — ресурсосберегающую децентрализованную платформу для предварительного обучения LLM с архитектурой смеси экспертов (MoE). SPES обучает только подмножество экспертов на каждом узле, что существенно снижает требования к памяти. Каждый узел обновляет своих локальных экспертов и периодически синхронизируется с другими узлами, исключая передачу полного набора параметров, но обеспечивая эффективный обмен знаниями. Для ускорения сходимости мы вводим стратегию прогрева с объединением экспертов, при которой эксперты обмениваются знаниями на ранних этапах обучения для быстрого формирования базовых компетенций. С помощью SPES мы обучили MoE-модель с 2 млрд параметров на 16 автономных GPU с 48 ГБ памяти через интернет-соединения; модель демонстрирует конкурентоспособные результаты с централизованно обученными LLM при сопоставимых вычислительных затратах. Мы также демонстрируем масштабируемость, обучив с нуля модель на 7 млрд параметров и апгрейдив до 9 млрд параметров модель из плотного контрольного пункта — обе соответствуют предыдущим централизованным базовым показателям. Наш код доступен по адресу https://github.com/zjr2000/SPES.
Массовое развертывание роботов требует устойчивости к длинному хвосту повседневных ситуаций. Бесчисленные вариации в планировке сцены, геометрии объектов и постановке задач, характерные для реальных сред, чрезвычайно велики и недостаточно представлены в существующих бенчмарках для роботов. Измерение такого уровня обобщения требует инфраструктуры такого масштаба и разнообразия, которые только физическая оценка обеспечить не может. Мы представляем MolmoSpaces — полностью открытую экосистему для поддержки крупномасштабного тестирования политик роботов. MolmoSpaces состоит из более чем 230 тысяч разнообразных помещений, от тщательно смоделированных домашних сцен до процедурно сгенерированных многокомнатных домов, населенных 130 тысячами богато аннотированных объектов, включая 48 тысяч манипулируемых объектов с 42 миллионами устойчивых захватов. Ключевым моментом является то, что эти среды независимы от симулятора и поддерживают популярные варианты, такие как MuJoCo, Isaac и ManiSkill. Экосистема поддерживает полный спектр воплощенных задач: статическое и мобильное манипулирование, навигацию и многокомнатные задачи долгосрочного планирования, требующие скоординированного восприятия, планирования и взаимодействия во всей внутренней среде. Мы также разработали MolmoSpaces-Bench — набор бенчмарков из 8 задач, в которых роботы взаимодействуют с нашими разнообразными сценами и богато аннотированными объектами. Наши эксперименты показывают, что MolmoSpaces-Bench демонстрирует сильную корреляцию "симуляция-реальность" (R = 0.96, ρ = 0.98), подтверждают, что новые и более мощные политики с нулевым смещением превосходят более ранние версии в наших тестах, и выявляют ключевые чувствительности к формулировке промптов, начальным позициям сочленений и окклюзии камер. Благодаря MolmoSpaces, ее открытым исходным активам и инструментарию мы закладываем основу для масштабируемой генерации данных, обучения политик и создания бенчмарков для исследований в области обучения роботов.
Корпоративные документы, такие как формы и отчеты, содержат критически важную информацию для последующих приложений, включая архивирование данных, автоматизированные рабочие процессы и аналитику. Хотя универсальные визуально-языковые модели (VLM) демонстрируют хорошие результаты на стандартных тестах по пониманию документов, их способность выполнять целостное, детализированное структурированное извлечение данных из разнообразных типов документов в соответствии с гибкими схемами изучена недостаточно. Существующие наборы данных для извлечения ключевых сущностей (KEE), извлечения отношений (RE) и визуального ответа на вопросы (VQA) ограничены узкими онтологиями сущностей, простыми запросами или однородными типами документов, часто игнорируя потребность в адаптивном и структурированном извлечении. Для устранения этих пробелов мы представляем ExStrucTiny — новый эталонный набор данных для структурированного извлечения информации (IE) из изображений документов, объединяющий аспекты KEE, RE и VQA. Созданный с помощью нового конвейера, сочетающего ручные и синтетические проверенные человеком образцы, ExStrucTiny охватывает более разнообразные типы документов и сценарии извлечения. Мы анализируем на этом эталоне открытые и закрытые VLM, выделяя такие проблемы, как адаптация схемы, неполнота запросов и локализация ответов. Мы надеемся, что наша работа заложит основу для улучшения универсальных моделей в области структурированного IE для документов.
Мультимодальные большие языковые модели (МБЯМ) все чаще применяются для решения реальных задач, требующих многошаговых рассуждений и генерации развернутых ответов, где надежность требует обоснования выходных данных модели на основе гетерогенных входных источников и проверки отдельных фактических утверждений. Однако существующие бенчмарки и методы оценки мультимодального обоснования сосредоточены на упрощенных сценариях, основанных на наблюдении, или ограниченных модальностях, и не позволяют оценивать атрибуцию в сложных мультимодальных рассуждениях. Мы представляем MuRGAt (Multimodal Reasoning with Grounded Attribution) — бенчмарк для оценки фактологической мультимодальной атрибуции в условиях, требующих рассуждений, выходящих за рамки прямого наблюдения. При входных данных, охватывающих видео, аудио и другие модальности, MuRGAt требует от моделей генерации ответов с явными рассуждениями и точными цитированиями, где каждое цитирование указывает как модальность, так и временные сегменты. Для обеспечения надежной оценки мы представляем автоматическую систему оценки, сильно коррелирующую с человеческими суждениями. Тестирование с использованием человеческих и автоматических оценок показывает, что даже мощные МБЯМ часто галлюцинируют цитаты, несмотря на правильные рассуждения. Более того, мы наблюдаем ключевой компромисс: увеличение глубины рассуждений или принудительное структурированное обоснование часто снижает точность, что подчеркивает значительный разрыв между внутренними рассуждениями и проверяемой атрибуцией.
Крупные языковые модели (LLM) продемонстрировали исключительные способности к логическим рассуждениям, а совместно-эволюционные парадигмы показали многообещающие результаты в таких областях, как программирование и математика. Однако при решении научных задач эти модели остаются уязвимыми из-за ненадежной оценки решений и ограниченного разнообразия стратегий верификации. В данной работе мы предлагаем Sci-CoE — двухэтапную научную совместно-эволюционную структуру, которая позволяет моделям саморазвиваться в роли как решателя, так и верификатора через переход от разреженного обучения с учителем к обучению без учителя. На первом этапе модель использует небольшой набор размеченных данных для установления базовых ориентиров корректности суждений Верификатора. На втором этапе мы вводим геометрический механизм вознаграждения, совместно учитывающий консенсус, надежность и разнообразие, что стимулирует крупномасштабную самоитерацию на немаркированных данных. Эксперименты на нескольких общих научных тестовых наборах демонстрируют, что Sci-CoE улучшает способности к сложным логическим рассуждениям и проявляет сильную масштабируемость, способствуя построению более надежных и разнообразных систем оценки. Код доступен по адресу https://github.com/InternScience/Sci-CoE.
Персонализированное согласование больших языковых моделей направлено на адаптацию ответов под индивидуальные предпочтения пользователей, как правило, с помощью обучения с подкреплением. Ключевой проблемой является получение точных, специфичных для пользователя сигналов вознаграждения в открытых сценариях. Существующие персонализированные модели вознаграждения сталкиваются с двумя устойчивыми ограничениями: (1) они чрезмерно упрощают разнообразные, зависящие от сценария предпочтения до небольшого фиксированного набора оценочных принципов и (2) испытывают трудности с обобщением на новых пользователей при ограниченной обратной связи. Для решения этих проблем мы предлагаем P-GenRM — первую Персонализированную Генеративную Модель Вознаграждения с масштабированием на основе пользователя во время тестирования. P-GenRM преобразует сигналы предпочтений в структурированные оценочные цепочки, которые выводят адаптивные персоналии и критерии оценивания для различных сценариев. Кроме того, модель кластеризует пользователей в Прототипы Пользователей и вводит механизм масштабирования с двойной гранулярностью: на индивидуальном уровне она адаптивно масштабирует и агрегирует схему оценивания каждого пользователя; на уровне прототипа она учитывает предпочтения схожих пользователей. Такая конструкция снижает шум в выводимых предпочтениях и улучшает обобщение на новых пользователей за счет трансфера на основе прототипов. Экспериментальные результаты показывают, что P-GenRM достигает передовых результатов на широко используемых бенчмарках для персонализированных моделей вознаграждения со средним улучшением на 2.31% и демонстрирует высокую способность к обобщению на наборе данных с иным распределением. Примечательно, что масштабирование на основе пользователя во время тестирования дает дополнительное улучшение на 3%, что свидетельствует о более сильном персонализированном согласовании с возможностью масштабирования в режиме тестирования.
Понимание метафор в изображениях остается серьезной проблемой для современных систем искусственного интеллекта. Хотя мультимодальные большие языковые модели (MLLM) преуспевают в решении базовых задач визуального вопросно-ответного взаимодействия (VQA), они стабильно испытывают трудности с распознаванием тонких культурных, эмоциональных и контекстуальных импликаций, заложенных в визуальном контенте. Эта сложность проистекает из требований задачи к сложному многошаговому рассуждению, учету культурного контекста и способностям к моделированию психического состояния (Theory of Mind, ToM), которыми современные модели не обладают. Чтобы заполнить этот пробел, мы предлагаем MetaphorStar — первую сквозную фреймворку визуального обучения с подкреплением (RL) для задач выявления импликаций в изображениях. Наша система включает три ключевых компонента: детализированный набор данных TFQ-Data, метод визуального RL TFQ-GRPO и структурированный бенчмарк TFQ-Bench. Наше полностью открытое семейство моделей MetaphorStar, обученное с использованием TFQ-GRPO на TFQ-Data, демонстрирует значительное улучшение производительности — в среднем на 82.6% — в тестах на выявление импликаций в изображениях. По сравнению с более чем 20 ведущими MLLM, модель MetaphorStar-32B достигает state-of-the-art (SOTA) результатов в заданиях с множественным выбором и открытыми вопросами, а также значительно превосходит ведущую закрытую модель Gemini-3.0-pro в заданиях на верность/неверность утверждений. Ключевым открытием является то, что наши эксперименты показывают, что обучение задачам выявления импликаций улучшает общие способности к пониманию, в особенности сложные способности к визуальному рассуждению. Мы также проводим системный анализ масштабирования параметров модели, объема обучающих данных, а также влияния различных архитектур моделей и стратегий обучения, демонстрируя широкую применимость нашего метода. Все веса моделей, наборы данных и код методов доступны по адресу https://metaphorstar.github.io.
Мы исследуем агентов, расширенных инструментами и ограниченных бюджетом, где большая языковая модель должна решать многошаговые задачи, вызывая внешние инструменты в условиях строгого денежного лимита. Мы формализуем эту задачу как последовательное принятие решений в контекстном пространстве с платным и стохастическим выполнением инструментов, что делает прямое планирование неосуществимым из-за огромных пространств состояний-действий, высокой дисперсии результатов и запретительной стоимости исследования. Для решения этих проблем мы предлагаем INTENT — фреймворк планирования на этапе вывода, который использует иерархическую модель мира с учетом намерений для прогнозирования будущего использования инструментов, калиброванного по риску, и онлайн-направления решений. На cost-augmented StableToolBench INTENT строго обеспечивает выполнение жестких бюджетных ограничений, существенно повышая успешность выполнения задач по сравнению с базовыми методами, и сохраняет устойчивость при динамических рыночных изменениях, таких как колебания цен на инструменты и вариативные бюджеты.
Крупномасштабная визуальная инструктивная настройка (VIT) стала ключевой парадигмой для повышения производительности моделей «зрение-язык» (VLM) в различных мультимодальных задачах. Однако обучение на больших наборах данных требует значительных вычислительных ресурсов и неэффективно из-за избыточности данных, что обуславливает необходимость мультимодального отбора данных для повышения эффективности обучения. Существующие методы отбора данных для VIT либо требуют затратного обучения или вычисления градиентов, либо являются безарбитражными альтернативами, часто зависящими от прокси-моделей или наборов данных, инструктивно-независимых представлений и попарного сходства с квадратичной сложностью, что ограничивает масштабируемость и достоверность представлений. В данной работе мы предлагаем ScalSelect — масштабируемый метод мультимодального отбора данных без обучения с линейной сложностью по количеству образцов, исключающий необходимость использования внешних моделей или вспомогательных наборов данных. ScalSelect сначала строит представления образцов, извлекая визуальные признаки, на которые больше всего ориентируются токены инструкций в целевой VLM, фиксируя инструктивно-релевантную информацию. Затем метод идентифицирует образцы, чьи представления наилучшим образом аппроксимируют доминирующее подпространство представлений полного набора данных, что позволяет осуществлять масштабируемую оценку важности без попарных сравнений. Многочисленные эксперименты на различных VLM, наборах данных и бюджетах отбора демонстрируют, что ScalSelect достигает более 97,5% производительности обучения на полном наборе данных, используя лишь 16% данных, а в некоторых конфигурациях даже превосходит обучение на всех данных. Код доступен по адресу https://github.com/ChangtiWu/ScalSelect.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) играет ключевую роль в тренировке современных моделей логического мышления, однако использование нераскрытых обучающих данных вызывает опасения по поводу контаминации тестовых наборов. В отличие от методов предварительного обучения, которые оптимизируют модели с использованием вероятностей на уровне токенов, RLVR дообучает модели на основе обратной связи в виде вознаграждения за самостоятельно сгенерированные траектории рассуждений, что снижает эффективность традиционных методов обнаружения, основанных на правдоподобии. Мы демонстрируем, что RLVR порождает характерный поведенческий паттерн: промпты, встречавшиеся во время обучения RLVR, приводят к более жестким и однообразным генерациям, тогда как непредъявленные промпты сохраняют бо́льшее разнообразие. Мы представляем Min-kNN Distance — простой детектор типа «черный ящик», который количественно оценивает это схлопывание путем сэмплирования нескольких завершений для заданного промпта и вычисления среднего значения k наименьших расстояний до ближайших соседей, основанных на редакционном расстоянии. Min-kNN Distance не требует доступа к исходной модели или вероятностям токенов. Эксперименты с различными моделями рассуждений, обученными с помощью RLVR, показывают, что Min-kNN Distance надежно отличает примеры, виденные моделью во время RL, от невиденных и превосходит существующие базовые методы вывода о принадлежности к обучающей выборке и обнаружения контаминации от RL.
Проблема навигации с воплощенным агентом долгое время оставалась фрагментированной из-за архитектур, ориентированных на конкретные задачи. Мы представляем ABot-N0 — унифицированную фундаментальную модель «Vision-Language-Action» (VLA), которая достигает «Великого объединения» для пяти ключевых задач: навигации к точке (Point-Goal), навигации к объекту (Object-Goal), следованию инструкциям (Instruction-Following), навигации к точке интереса (POI-Goal) и следованию за человеком (Person-Following). ABot-N0 использует иерархическую архитектуру «Мозг-Действие», сочетая когнитивный модуль на основе LLM для семантических рассуждений и эксперта действий на основе сопоставления потоков (Flow Matching) для генерации точных непрерывных траекторий. Для поддержки обучения в крупном масштабе мы разработали механизм данных ABot-N0, сформировав 16,9 млн экспертных траекторий и 5,0 млн примеров рассуждений в 7802 высокодетализированных 3D-сценах (общей площадью 10,7 км²). ABot-N0 устанавливает новые рекорды (SOTA) в семи тестовых наборах, значительно превосходя специализированные модели. Кроме того, наша агентская система навигации интегрирует планировщик с иерархической топологической памятью, что обеспечивает надежное выполнение длительных миссий в динамичных реальных условиях.
Генерация музыкальных стемов — задача создания музыкально синхронизированных и изолированных аудиоклипов инструментов — обладает потенциалом для расширения пользовательского контроля и лучшего соответствия рабочим процессам музыкантов по сравнению с традиционными моделями преобразования текста в музыку. Однако существующие подходы к генерации стемов либо полагаются на фиксированные архитектуры, которые выводят предопределенный набор стемов параллельно, либо генерируют только один стем за раз, что приводит к медленному выводу, несмотря на гибкость в комбинации стемов. Мы предлагаем Stemphonic, диффузионно-флоуовую основу, которая преодолевает этот компромисс и генерирует переменный набор синхронизированных стемов за один проход вывода. Во время обучения мы рассматриваем каждый стем как элемент батча, группируем синхронизированные стемы в батче и применяем общий латент шума к каждой группе. На этапе вывода мы используем общий начальный латент шума и стем-специфичные текстовые входы для генерации синхронизированных многoстемовых выходов за один проход. Мы также расширяем наш подход для обеспечения условной многoстемовой генерации за один проход и управления активностью стемов, что позволяет пользователям итеративно генерировать и оркестровать временное наслоение микса. Мы тестируем наши результаты на нескольких открытых наборах данных для оценки стемов и показываем, что Stemphonic производит выходные данные более высокого качества, одновременно ускоряя процесс генерации полного микса на 25–50%. Демонстрации доступны по адресу: https://stemphonic-demo.vercel.app.
Компромисс между интерпретируемостью и точностью остается одной из ключевых проблем машинного обучения. Стандартные обобщенные аддитивные модели (GAM) обеспечивают ясные атрибуции признаков, но часто ограничены своим строго аддитивным характером, что может снижать прогнозную производительность. Введение взаимодействий признаков способно повысить точность, но может затруднить интерпретацию вклада отдельных признаков. Для решения этих проблем мы предлагаем Нейронные Аддитивные Эксперты (NAE) — новую архитектуру, которая обеспечивает сбалансированное сочетание интерпретируемости и точности. NAE используют механизм смеси экспертов, обучая несколько специализированных сетей для каждого признака, в то время как динамический механизм коммутации интегрирует информацию по признакам, ослабляя жесткие аддитивные ограничения. Кроме того, мы предлагаем целевые методы регуляризации для снижения дисперсии предсказаний экспертов, обеспечивая плавный переход от чисто аддитивной модели к модели, учитывающей сложные взаимодействия признаков, при сохранении ясности атрибуций. Наш теоретический анализ и эксперименты на синтетических данных демонстрируют гибкость модели, а масштабные оценки на реальных наборах данных подтверждают, что NAE достигают оптимального баланса между прогнозной точностью и прозрачными объяснениями на уровне признаков. Код доступен по адресу https://github.com/Teddy-XiongGZ/NAE.