Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением на основе верификаторов (RLVR) стало широко используемым подходом для дообучения больших языковых моделей на задачах логического рассуждения, при этом групповые методы, такие как GRPO и их варианты, получили широкое распространение. Эти методы полагаются на оценку группового относительного преимущества, чтобы избежать использования обучаемых критиков, однако их теоретические свойства остаются малоизученными. В данной работе мы выявляем фундаментальную проблему группового RL: оценка группового относительного преимущения является по своей природе смещенной относительно истинного (математического ожидания) преимущества. Мы представляем первый теоретический анализ, показывающий, что она систематически занижает преимущества для сложных промптов и завышает их для простых, что приводит к несбалансированному исследованию и эксплуатации. Для решения этой проблемы мы предлагаем адаптивное взвешивание по сложности с учетом истории (HA-DW) — адаптивную схему перевзвешивания, которая корректирует оценки преимущества на основе развивающегося якоря сложности и динамики обучения. Как теоретический анализ, так и эксперименты на пяти benchmarks математических рассуждений демонстрируют, что HA-DW стабильно улучшает производительность при интеграции в GRPO и его варианты. Наши результаты позволяют предположить, что корректировка смещенной оценки преимущества имеет критическое значение для надежного и эффективного обучения RLVR.
Внедрение ИИ-агентов в экономические рынки коренным образом меняет ландшафт стратегического взаимодействия. Мы исследуем экономические последствия расширения набора доступных технологий в трёх классических игровых моделях: торги (раздел ресурсов), переговоры (торговля при асимметричной информации) и убеждение (стратегическая передача информации). Мы обнаруживаем, что простое увеличение выбора ИИ-делегатов может кардинально изменить равновесные выигрыши и результаты регулирования, зачастую создавая стимулы для регуляторов к проактивной разработке и выпуску технологий. С другой стороны, мы выявляем стратегический феномен, названный эффектом «Отравленного яблока»: агент может выпустить новую технологию, которую в конечном счёте не использует ни он сам, ни его оппонент, исключительно с целью манипулировать выбором регулятора в пользу своей рыночной конструкции. Такой стратегический выпуск улучшает благосостояние выпускающей стороны за счёт оппонента и целей регулятора, связанных со справедливостью. Наши результаты демонстрируют, что статические регуляторные frameworks уязвимы для манипуляций путём расширения технологий, что требует создания динамических рыночных конструкций, адаптирующихся к развивающемуся ландшафту возможностей ИИ.
Обеспечение способности больших языковых моделей (LLM) эффективно использовать инструменты в многошаговых взаимодействиях крайне важно для создания компетентных автономных агентов. Однако получение разнообразных и реалистичных данных по использованию инструментов в многошаговом режиме остается серьезной проблемой. В данной работе мы предлагаем новую тексто-ориентированную парадигму. Мы наблюдаем, что текстовые корпуса естественным образом содержат богатый опыт многоэтапного решения задач, который может служить неиспользуемым, масштабируемым и аутентичным источником данных для многошаговых задач с применением инструментов. Основываясь на этом наблюдении, мы представляем GEM — конвейер синтеза данных, который позволяет генерировать и извлекать траектории многошагового использования инструментов из текстовых корпусов посредством четырехэтапного процесса: фильтрация по релевантности, извлечение рабочего процесса и инструментов, обоснование траектории и уточнение сложности. Для снижения вычислительных затрат мы дополнительно обучаем специализированный Синтезатор траекторий с помощью контролируемого тонкого настройки. Эта модель преобразует сложный конвейер генерации в эффективный сквозной генератор траекторий. Эксперименты показывают, что наша модель GEM-32B демонстрирует улучшение на 16,5% в многозадачном бенчмарке BFCL V3. Наши модели частично превосходят по производительности модели, обученные на внутридоменных данных τ-bench (Airline и Retail), что подчеркивает превосходную обобщающую способность, полученную благодаря нашей тексто-ориентированной парадигме синтеза. Примечательно, что наш Синтезатор траекторий соответствует качеству полного конвейера, при этом значительно снижая задержку вывода и затраты.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) позволило достичь значительного прогресса в областях, требующих интенсивных рассуждений, таких как математика. Однако оптимизация генерации открытого текста остается сложной задачей из-за отсутствия эталонных данных. Хотя рубричное оценивание предлагает структурированный прокси для верификации, существующие методы страдают от проблем масштабируемости и грубых критериев, что приводит к эффекту потолка supervision. Для решения этой проблемы мы предлагаем автоматизированную систему генерации рубрик «от грубого к точному». Благодаря синергии принципиально-ориентированного синтеза, агрегации нескольких моделей и эволюции сложности, наш подход создает всеобъемлющие и высоко дискриминативные критерии, способные улавливать тонкие нюансы. На основе этого фреймворка мы представляем RubricHub — крупномасштабный (∼110k) мультидоменный набор данных. Мы проверяем его полезность с помощью двухэтапного пайплайна пост-обучения, включающего тонкую настройку с отбором по отклонению на основе рубрик (RuFT) и обучение с подкреплением (RuRL). Результаты экспериментов демонстрируют, что RubricHub обеспечивает значительный прирост производительности: наша дообученная модель Qwen3-14B достигает state-of-the-art (SOTA) результатов на HealthBench (69.3), превосходя проприетарные фронтирные модели, такие как GPT-5. Код и данные будут выпущены в ближайшее время.
Персонализированные большие языковые модели (LLМ) адаптируют поведение модели под индивидуальных пользователей для повышения удовлетворенности, однако персонализация может непреднамеренно искажать фактическое рассуждение. Мы демонстрируем, что когда персонализированные LLМ сталкиваются с фактическими запросами, возникает феномен, при котором модель генерирует ответы, согласованные с предысторией пользователя, а не с объективной истиной. Это приводит к персонализационным галлюцинациям, которые снижают фактическую достоверность и могут способствовать распространению ошибочных убеждений из-за репрезентационной запутанности между персонализацией и фактическими представлениями. Для решения этой проблемы мы предлагаем метод управления персонализацией с сохранением фактичности (FPPS) — легковесный подход на этапе вывода, который смягчает фактические искажения, вызванные персонализацией, сохраняя при этом персонализированное поведение. Мы также представляем PFQABench — первый бенчмарк, разработанный для совместной оценки фактических и персонализированных вопросно-ответных возможностей в условиях персонализации. Эксперименты на множестве архитектур LLМ и методов персонализации показывают, что FPPS существенно улучшает фактическую точность, сохраняя персонализированную производительность.
Модели «Vision-Language-Action» (VLA) стали важными универсальными политиками для роботов, решающих разнообразные задачи манипулирования. Традиционно они основываются на прямом преобразовании мультимодальных входных данных в действия через эмбеддинги моделей «Vision-Language» (VLM). Недавние достижения внедрили явное промежуточное рассуждение, такое как предсказание подзадач (язык) или синтез целевых изображений (зрение), для управления генерацией действий. Однако эти промежуточные рассуждения часто являются косвенными и по своей природе ограничены в способности передавать полную, детализированную информацию, необходимую для точного выполнения действий. Вместо этого мы предполагаем, что наиболее эффективной формой рассуждения является та, которая оперирует непосредственно в пространстве действий. Мы представляем «Action Chain-of-Thought» (ACoT) — парадигму, в которой процесс рассуждения формулируется как структурированная последовательность грубых намерений действий, направляющих итоговую политику. В данной статье мы предлагаем ACoT-VLA, новую архитектуру, реализующую парадигму ACoT. В частности, мы вводим два взаимодополняющих компонента: явный планировщик действий (Explicit Action Reasoner, EAR) и неявный планировщик действий (Implicit Action Reasoner, IAR). Первый предлагает грубые опорные траектории в качестве явных шагов рассуждения на уровне действий, тогда как второй извлекает скрытые априорные представления о действиях из внутренних репрезентаций мультимодального ввода, совместно формируя ACoT, который обусловливает последующий модуль генерации действий для обеспечения обоснованного обучения политики. Многочисленные эксперименты в реальных и симуляционных средах демонстрируют превосходство нашего метода, который достигает показателей 98,5%, 84,1% и 47,4% на наборах данных LIBERO, LIBERO-Plus и VLABench соответственно.
Агентный поиск на основе обучения с подкреплением позволяет большим языковым моделям решать сложные вопросы с помощью динамического планирования и внешнего поиска. Хотя этот подход значительно повышает точность благодаря политикам агентов, оптимизированным с помощью масштабного обучения с подкреплением, мы выявили критический пробел в надежности: эти агенты не распознают границы своих рассуждений и крайне редко признают «Я НЕ ЗНАЮ» (IDK), даже когда доказательств недостаточно или рассуждения достигают своего предела. Отсутствие надежности часто приводит к правдоподобным, но ненадежным ответам, создающим значительные риски во многих реальных сценариях. Для решения этой проблемы мы предлагаем Boundary-Aware Policy Optimization (BAPO) — новую структуру обучения с подкреплением, предназначенную для формирования надежного осознания границ без ущерба для точности. BAPO включает два ключевых компонента: (i) групповое вознаграждение с учетом границ, которое поощряет ответ IDK только при достижении пределов рассуждений, и (ii) адаптивный модулятор вознаграждения, который стратегически приостанавливает это вознаграждение на ранних этапах исследования, предотвращая использование моделью IDK как лазейки. Многочисленные эксперименты на четырех наборах данных демонстрируют, что BAPO существенно повышает общую надежность агентного поиска.
Генерация движений человека из текстовых промптов достигла значительного прогресса в последние годы. Однако существующие методы в основном опираются на описания на уровне последовательности или действия из-за отсутствия детализированных аннотаций движений на уровне частей тела. Это ограничивает их управляемость отдельными частями тела. В данной работе мы создаем высококачественный датасет движений с атомарными, временно-ориентированными текстовыми аннотациями на уровне частей, используя аналитические способности больших языковых моделей (LLM). В отличие от предыдущих датасетов, которые либо предоставляют синхронизированные описания частей с фиксированными временными сегментами, либо полагаются исключительно на глобальные метки последовательностей, наш датасет фиксирует асинхронные и семантически различные движения частей с высоким временным разрешением. На основе этого датасета мы представляем диффузионную систему генерации движений с учетом частей тела, названную FrankenMotion, где каждая часть тела управляется своим собственным временно-структурированным текстовым промптом. Насколько нам известно, это первая работа, предоставляющая атомарные, временно-ориентированные аннотации движений на уровне частей тела и имеющая модель, которая позволяет генерировать движения с одновременным контролем как в пространственной (часть тела), так и во временной (атомарное действие) областях. Эксперименты демонстрируют, что FrankenMotion превосходит все предыдущие базовые модели, адаптированные и переобученные для наших условий, и наша модель может комбинировать движения, не встречавшиеся во время обучения. Наш код и датасет будут общедоступны после публикации.
Развертывание больших языковых моделей порождает две взаимосвязанные проблемы: (1) мониторинг — оценку областей, где модель работает неудовлетворительно, по мере смещения трафика и доменов, и (2) улучшение — определение приоритетов сбора данных для устранения наиболее значительных пробелов в производительности. Мы проверяем, может ли сигнал во время вывода оценить точность на уровне срезов данных в условиях смещения домена. Для каждого ответа мы вычисляем профиль энтропии выхода на основе вероятностей следующего токена из последнего слоя (из топ-k логарифмических вероятностей) и суммируем его с помощью одиннадцати статистик. Легковесный классификатор предсказывает корректность отдельного примера, а усреднение предсказанных вероятностей дает оценку точности на уровне домена. Мы проводим оценку на десяти тестах для STEM-рассуждений с исчерпывающими комбинациями обучающих и тестовых наборов (k в {1,2,3,4}; все комбинации "10 choose k") для девяти моделей из шести семейств (3B-20B). Оценки часто соответствуют отложенной точности тестов, и несколько моделей демонстрируют почти монотонное упорядочивание доменов. Таким образом, профили энтропии выхода являются доступным сигналом для масштабируемого мониторинга и целевого сбора данных.
Контролируемое тонкое настраивание (SFT) является фундаментальной стратегией пост-обучения для согласования больших языковых моделей (LLM) с человеческими намерениями. Однако традиционное SFT часто игнорирует свойство «один-ко-многим» в языке, принудительно выравнивая модель под единственный эталонный ответ, что приводит к переобучению модели на несущественные выражения. Хотя наш эмпирический анализ показывает, что введение множественных эталонных ответов может смягчить эту проблему, непомерные затраты на данные и вычисления требуют стратегического сдвига: приоритизации снижения переобучения на единственный ответ над дорогостоящим стремлением к разнообразию ответов. Для достижения этой цели мы раскрываем внутреннюю связь между вероятностью токенов и их семантической важностью: токены с высокой вероятностью несут основную логическую структуру, в то время как токены с низкой вероятностью в основном являются заменяемыми выражениями. Основываясь на этом наблюдении, мы предлагаем метод ProFit, который выборочно маскирует токены с низкой вероятностью, чтобы предотвратить поверхностное переобучение. Многочисленные эксперименты подтверждают, что ProFit стабильно превосходит традиционные базовые методы SFT на тестах общего мышления и математических бенчмарках.
Будущие представления движения, такие как оптический поток, обладают огромной ценностью для задач управления и генерации. Однако прогнозирование обобщаемых пространственно плотных представлений движения остается ключевой проблемой, а обучение такому прогнозированию на зашумленных реальных данных изучено относительно слабо. Мы представляем FOFPred — новую модель прогнозирования оптического потока, обусловленную языком, которая объединяет унифицированную архитектуру Vision-Language Model (VLM) и Diffusion. Это уникальное сочетание обеспечивает мощные мультимодальные рассуждения с генеративной точностью на уровне пикселей для предсказания будущего движения. Наша модель обучается на веб-масштабных данных о человеческой деятельности — высокомасштабируемом, но неструктурированном источнике. Для извлечения значимых сигналов из этих зашумленных данных (видео-подписи) мы применяем ключевые методы предобработки данных и нашу унифицированную архитектуру с мощным предварительным обучением на изображениях. Обученная модель затем расширяется для решения двух различных downstream-задач: управления и генерации. Оценки в областях роботизированного манипулирования и генерации видео в условиях языкового управления демонстрируют кросс-доменную универсальность FOFPred, подтверждая ценность унифицированной архитектуры VLM-Diffusion и масштабируемого обучения на разнородных веб-данных для прогнозирования будущего оптического потока.
Последние достижения в области генерации 3D-форм демонстрируют впечатляющие результаты, однако большинство существующих методов полагаются на чистые, неокклюдированные и корректно сегментированные входные данные. Такие условия редко выполняются в реальных сценариях. Мы представляем ShapeR — новый подход для условной генерации 3D-форм объектов из произвольно снятых последовательностей изображений. Для заданной последовательности изображений мы используем готовые алгоритмы визуально-инерциального SLAM, 3D-детекции и модели "визуальный вход-текстовый выход" для извлечения, для каждого объекта, набора разреженных точек SLAM, позиционированных многовидовых изображений и машинно-сгенерированных описаний. Трансформер с ректифицированным потоком, обученный эффективно учитывать эти модальности, затем генерирует высококачественные метрические 3D-формы. Для обеспечения устойчивости к проблемам данных, снятых в произвольных условиях, мы применяем ряд методов, включая композиционные аугментации на лету, поэтапную схему обучения на наборах данных уровня объекта и сцены, а также стратегии для работы с фоновым беспорядком. Дополнительно мы представляем новый эталонный набор для оценки, включающий 178 объектов в естественном окружении из 7 реальных сцен с аннотациями геометрии. Эксперименты показывают, что ShapeR значительно превосходит существующие подходы в этой сложной постановке задачи, достигая улучшения расстояния Чемфера в 2.7 раза по сравнению с современными методами.
Крупные языковые модели демонстрируют выдающиеся способности в различных областях, однако механизмы, лежащие в основе сложных рассуждений, остаются не до конца изученными. Недавно разработанные модели для рассуждений превосходят аналогичные инструктивно-настроенные модели в решении сложных когнитивных задач, что связывают с расширенными вычислениями за счет более длинных цепочек мыслей. В данной работе мы показываем, что улучшенные рассуждения возникают не только благодаря расширенным вычислениям, но и за счет симуляции подобных многoагентным взаимодействиям — «сообщества мыслей», — которое позволяет диверсифицировать и обсуждать внутренние когнитивные перспективы, характеризующиеся различными личностными чертами и предметными экспертизами. С помощью количественного анализа и методов механистической интерпретируемости, примененных к трассировкам рассуждений, мы обнаруживаем, что модели для рассуждений, такие как DeepSeek-R1 и QwQ-32B, демонстрируют значительно большее разнообразие перспектив по сравнению с инструктивно-настроенными моделями, активируя более широкий конфликт между гетерогенными признаками, связанными с личностью и экспертизой, в процессе рассуждения. Эта многоагентная структура проявляется в коммуникативных поведениях, включая ответы на вопросы, смену перспектив и примирение конфликтующих взглядов, а также в социально-эмоциональных ролях, характеризующих острые диалоги, что в совокупности объясняет преимущество в точности при решении задач на рассуждение. Контролируемые эксперименты с обучением с подкреплением показывают, что базовые модели усиливают коммуникативные поведения, когда поощряются исключительно за точность рассуждений, а донастройка моделей с коммуникативными scaffolding-методами ускоряет улучшение рассуждений по сравнению с базовыми моделями. Эти результаты указывают на то, что социальная организация мышления позволяет эффективно исследовать пространства решений. Мы предполагаем, что модели для рассуждений создают вычислительную параллель коллективному интеллекту в человеческих группах, где разнообразие обеспечивает превосходное решение проблем при систематической структуризации, что открывает новые возможности для организации агентов с целью использования коллективной мудрости.
Физические принципы являются основой реалистичного визуального моделирования, однако остаются серьезным упущением в трансформерных методах генерации видео. Этот пробел выявляет ключевое ограничение при воспроизведении движения твердых тел — фундаментального понятия классической механики. В то время как компьютерная графика и физические симуляторы легко моделируют такие столкновения с помощью формул Ньютона, современные парадигмы предварительного обучения и тонкой настройки игнорируют концепцию жесткости объектов в процессе глобального поэксельного шумоподавления. Даже математически корректные ограничения трактуются как субоптимальные решения (т.е. условия) при оптимизации модели после обучения, что принципиально ограничивает физическую достоверность генерируемых видео. Мотивированные этими соображениями, мы впервые предлагаем парадигму обучения с подкреплением с учетом физики для моделей генерации видео, которая обеспечивает прямое применение правил столкновений в высокоразмерных пространствах, гарантируя строгое соблюдение физических законов вместо их трактовки как условий. В дальнейшем мы расширяем эту парадигму до унифицированного фреймворка, названного Циклом Подражания-Открытия (MDcycle), который позволяет проводить значительную тонкую настройку, полностью сохраняя способность модели использовать физически обоснованную обратную связь. Для проверки нашего подхода мы создали новый бенчмарк PhysRVGBench и провели обширные качественные и количественные эксперименты для всесторонней оценки его эффективности.
Хотя GUI-агенты демонстрируют высокую производительность при работе с явными инструкциями и задачами на завершение, их реальное развертывание требует соответствия более сложным неявным намерениям пользователей. В данной работе мы представляем задачу иерархического согласования неявных намерений для персонализированного GUI-агента (PersonalAlign) — новую задачу, которая требует от агентов использования долгосрочных записей пользователя в качестве постоянного контекста для выявления опущенных предпочтений в расплывчатых инструкциях и предвосхищения латентных рутин на основе состояния пользователя для проактивной помощи. Для содействия этому исследованию мы представляем AndroidIntent — бенчмарк, предназначенный для оценки способности агентов обрабатывать нечеткие инструкции и предоставлять проактивные предложения путем рассуждений на основе долгосрочных записей пользователя. Мы аннотировали 775 пользовательских предпочтений и 215 рутин из 20 тысяч долгосрочных записей различных пользователей для оценки. Кроме того, мы представляем агента с иерархической памятью намерений (HIM-Agent), который поддерживает постоянно обновляемую персональную память и иерархически организует пользовательские предпочтения и рутины для персонализации. Наконец, мы оценили ряд GUI-агентов на AndroidIntent, включая GPT-5, Qwen3-VL и UI-TARS; дополнительные результаты показывают, что HIM-Agent значительно улучшает как исполнительную, так и проактивную производительность на 15,7% и 7,3% соответственно.
Возможности передовых языковых моделей стремительно улучшаются. Следовательно, нам требуются более надежные механизмы защиты от злонамеренного использования все более мощных систем. Предыдущие исследования показали, что зонды активации могут быть перспективной методикой предотвращения misuse, однако мы выявили ключевую нерешенную проблему: зонды не обладают достаточной обобщающей способностью при важных для производства сдвигах распределения данных. В частности, мы обнаружили, что переход от коротких контекстов к длинным представляет сложность для существующих архитектур зондов. Мы предлагаем несколько новых архитектур зондов, которые справляются с этим сдвигом распределения в сторону длинных контекстов. Мы оцениваем эти зонды в киберофензивной области, тестируя их устойчивость к различным сдвигам, релевантным для production-среды, включая многотактовые диалоги, статические джейлбрейки и адаптивный редтиминг. Наши результаты показывают, что хотя новая архитектура решает проблему длины контекста, для широкого обобщения требуется сочетание выбора архитектуры и обучения на разнообразных распределениях. Кроме того, мы демонстрируем, что совместное использование зондов с промпт-классификаторами позволяет достичь оптимальной точности при низких затратах благодаря вычислительной эффективности зондов. Эти результаты легли в основу успешного внедрения зондов предотвращения misuse в пользовательские экземпляры Gemini, передовой языковой модели Google. Наконец, мы получаем первые обнадеживающие результаты использования AlphaEvolve для автоматизации улучшений как в поиске архитектур зондов, так и в адаптивном редтиминге, что демонстрирует возможность автоматизации некоторых направлений исследований в области безопасности ИИ уже сейчас.
Автономные агенты на основе больших языковых моделей (LLM) демонстрируют многогранные способности, позволяющие вносить существенный вклад в экономическое производство. Однако существующие бенчмарки остаются сфокусированными на единичных агентских возможностях и не охватывают долгосрочные сценарии реального мира. Более того, зависимость от обратной связи с участием человека для реалистичных задач создает проблему масштабируемости, препятствуя автоматизированному сбору и оценке результатов. Чтобы устранить этот пробел, мы представляем AgencyBench — комплексный бенчмарк, основанный на повседневном использовании ИИ, который оценивает 6 ключевых агентских способностей в 32 реальных сценариях, включающих 138 задач с конкретными запросами, результатами и критериями оценки. Для решения этих сценариев в среднем требуется около 90 вызовов инструментов, 1 миллион токенов и несколько часов времени выполнения. Для обеспечения автоматизированной оценки мы используем агента симуляции пользователя для предоставления итеративной обратной связи и Docker-песочницу для проведения визуальной и функциональной оценки на основе критериев. Эксперименты показывают, что проприетарные модели значительно превосходят модели с открытым исходным кодом (48,4% против 32,1%). Дальнейший анализ выявляет существенные различия между моделями в эффективности использования ресурсов, самокоррекции на основе обратной связи и предпочтениях в использовании конкретных инструментов. Наконец, мы исследуем влияние агентских каркасов, наблюдая, что проприетарные модели демонстрируют превосходную производительность в рамках своих собственных экосистем (например, Claude-4.5-Opus через Claude-Agent-SDK), в то время как модели с открытым исходным кодом показывают различные пики производительности, что указывает на потенциальную оптимизацию для конкретных сред выполнения. AgencyBench служит критически важным полигоном для агентов следующего поколения, подчеркивая необходимость совместной оптимизации архитектуры модели и агентских фреймворков. Мы считаем, что эта работа проливает свет на будущее развитие автономных агентов, и публикуем полный бенчмарк и набор инструментов для оценки по адресу https://github.com/GAIR-NLP/AgencyBench.
Крупные визуально-языковые модели (LVLM) продемонстрировали впечатляющие возможности, однако их способность к пониманию и рассуждению на основе нескольких изображений остаётся в значительной степени неисследованной. Хотя существующие бенчмарки положили начало оценке моделей для работы с несколькими изображениями, всесторонний анализ их ключевых слабых мест и причин их возникновения до сих пор отсутствует. В данной работе мы представляем MIMIC (Multi-Image Model Insights and Challenges) — новый бенчмарк, разработанный для строгой оценки способностей LVLM к работе с несколькими изображениями. Используя MIMIC, мы провели серию диагностических экспериментов, которые выявили повсеместные проблемы: LVLM часто не способны агрегировать информацию между изображениями и с трудом отслеживают или удерживают внимание на нескольких концепциях одновременно. Для устранения этих недостатков мы предлагаем два новых взаимодополняющих решения. Со стороны данных мы представляем стратегию процедурной генерации данных, которая комбинирует аннотации одиночных изображений в богатые целевые учебные примеры для многокартинного обучения. Со стороны оптимизации мы анализируем послойные паттерны внимания и разрабатываем схему маскирования внимания, адаптированную для входных данных с несколькими изображениями. Эксперименты показали существенное улучшение межкартинной агрегации, а также повышение производительности на существующих бенчмарках для нескольких изображений, превзойдя предыдущие state-of-the-art результаты по всем задачам. Данные и код будут доступны по адресу https://github.com/anurag-198/MIMIC.
Последние достижения в области агентных больших языковых моделей (LLM) позиционируют их как универсальных планировщиков, способных к рассуждениям и действиям в разнообразных задачах. Однако существующие бенчмарки для агентов в основном сосредоточены на символических или слабо связанных с реальностью средах, оставляя их производительность в реальных областях с физическими ограничениями недостаточно изученной. Мы представляем AstroReason-Bench — комплексный бенчмарк для оценки агентного планирования в задачах космического планирования (Space Planning Problems, SPP) — классе высокорисковых проблем с гетерогенными целями, строгими физическими ограничениями и принятием решений на длительных горизонтах. AstroReason-Bench интегрирует несколько режимов планирования, включая связь с наземными станциями и agile-наблюдение Земли, и предоставляет унифицированный агент-ориентированный протокол взаимодействия. Оценивая ряд передовых агентных LLM-систем с открытым и закрытым исходным кодом, мы обнаруживаем, что текущие агенты существенно уступают специализированным решателям, что выявляет ключевые ограничения универсального планирования в условиях реальных ограничений. AstroReason-Bench предлагает сложную и диагностическую тестовую среду для будущих исследований в области агентных систем.
Современные диффузионные модели генерации видео способны синтезировать визуально правдоподобные ролики, однако зачастую не удовлетворяют физическим ограничениям. Ключевая причина заключается в том, что большинство существующих подходов остаются одноэтапными: они совмещают высокоуровневое физическое понимание с низкоуровневым визуальным синтезом, что затрудняет генерацию контента, требующего явного физического обоснования. Для преодоления этого ограничения мы предлагаем не требующий обучения трехэтапный конвейер PhyRPR: PhyReason — PhyPlan — PhyRefine, который разделяет физическое понимание и визуальный синтез. Конкретно, PhyReason использует крупную мультимодальную модель для анализа физического состояния и генератор изображений для синтеза ключевых кадров; PhyPlan детерминированно создает управляемый каркас грубого движения; а PhyRefine внедряет этот каркас в процесс диффузионной выборки через стратегию латентного слияния для уточнения внешнего вида при сохранении запланированной динамики. Такое поэтапное проектирование обеспечивает явный физический контроль в процессе генерации. Многочисленные эксперименты в условиях физических ограничений демонстрируют, что наш метод последовательно улучшает физическую правдоподобность и управляемость движения.
Мы исследуем курацию данных для мультимодальных систем рассуждений в рамках конкурса NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR), который изолирует проблему выбора набора данных, фиксируя модель и протокол обучения. Используя компактный курируемый набор данных, созданный в основном на основе Walton Multimodal Cold Start, наша заявка заняла первое место в конкурсе. Последующие абляционные исследования показывают, что выбор примеров на основе сложности в выровненном базовом наборе данных является основным фактором повышения производительности. Увеличение размера набора данных не приводит к надежному улучшению средней точности при фиксированном рецепте обучения, а в основном снижает дисперсию между запусками, тогда как широко используемые эвристики разнообразия и синтетического дополнения данных не дают дополнительного преимущества и часто ухудшают производительность. Эти результаты характеризуют DCVLR как оценку в режиме насыщения и подчеркивают центральную роль выравнивания и сложности данных в ресурсоэффективных мультимодальных рассуждениях.
Разнообразие выходных данных крайне важно для больших языковых моделей, поскольку оно лежит в основе плюрализма и творческих способностей. В данной работе мы показываем, что управление языком, используемым во время размышлений модели — языком мысли — представляет собой новый и структурный источник разнообразия выходных данных. Наше предварительное исследование демонстрирует, что разные языки мышления занимают различные области в пространстве размышлений модели. Основываясь на этом наблюдении, мы изучаем две стратегии повторной выборки при многозадачном мышлении — выборку на одном языке и выборку на смешанных языках — и проводим оценку разнообразия выходных данных, которые контролируемо генерируются на английском языке, независимо от используемого языка мышления. В ходе обширных экспериментов мы демонстрируем, что переключение языка мышления с английского на другие языки последовательно увеличивает разнообразие выходных данных, причем наблюдается четкая и устойчивая положительная корреляция: чем дальше язык находится от английского в пространстве мышления, тем больше выигрыш в разнообразии. Мы также показываем, что агрегирование выборок из нескольких языков мышления приводит к дополнительным улучшениям за счет композиционных эффектов, а масштабирование выборки с лингвистической гетерогенностью расширяет потолок разнообразия модели. Наконец, мы демонстрируем, что эти результаты находят практическое применение в сценариях плюралистического согласования, способствуя более широкому охвату культурных знаний и ценностных ориентаций в выходных данных больших языковых моделей. Наш код общедоступен по адресу https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.