Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на прогресс в области научного ИИ, целостная концепция Научного Общего Интеллекта (НОИ) — способности автономно формулировать идеи, исследовать и рассуждать в различных научных областях — до сих пор отсутствует. Мы предлагаем рабочее определение НОИ, основанное на Модели Практического Исследования (МПИ: Обдумывание, Концептуализация, Действие, Восприятие), и операционализируем его с помощью четырех задач, соответствующих деятельности ученого: углубленное исследование, генерация идей, сухие/мокрые эксперименты и экспериментальные рассуждения. SGI-Bench включает более 1000 экспертно отобранных междисциплинарных примеров, вдохновленных 125 Великими Вопросами науки, что позволяет проводить систематическую оценку современных больших языковых моделей. Результаты выявляют пробелы: низкое точное соответствие (10–20%) в углубленных исследованиях, несмотря на соответствие на уровне шагов; идеи, которым не хватает осуществимости и детализации; высокая исполнимость кода, но низкая точность результатов выполнения в сухих экспериментах; низкая точность последовательностей в протоколах мокрых экспериментов; и сохраняющиеся проблемы мультимодального сравнительного рассуждения. Мы также представляем Обучение с Подкреплением на Этапе Тестирования (ОПЭТ), которое оптимизирует retrieval-усиленные показатели новизны на этапе вывода, повышая новизну гипотез без использования эталонных ответов. Вместе наше основанное на МПИ определение, ориентированный на рабочие процессы бенчмарк и эмпирические выводы закладывают основу для систем ИИ, способных к подлинному участию в научном открытии.
Роботизированная генерализация опирается на физический интеллект: способность рассуждать об изменениях состояний, контактно-насыщенных взаимодействиях и долгосрочном планировании в условиях эгоцентрического восприятия и действия. Однако большинство VLMs обучаются преимущественно на данных от третьего лица, что создает фундаментальное несоответствие точек зрения для гуманоидных роботов. Масштабирование сбора эгоцентрических данных для роботов остается непрактичным из-за высокой стоимости и ограниченного разнообразия, тогда как крупномасштабные эгоцентрические видеозаписи человека предлагают масштабируемую альтернативу, естественным образом фиксирующую богатый контекст взаимодействий и причинную структуру. Ключевая задача заключается в преобразовании сырых эгоцентрических видео в структурированный и надежный контроль обучения воплощению. Соответственно, мы предлагаем конвейер перевода Egocentric2Embodiment, который преобразует видео от первого лица в многоуровневый, схема-управляемый VQA-контроль с принудительным обоснованием доказательств и временной согласованностью, позволяя масштабное построение набора данных Egocentric2Embodiment (E2E-3M). Эгоцентрически-осознанный воплощенный интеллект, названный PhysBrain, получается путем обучения на наборе данных E2E-3M. PhysBrain демонстрирует существенно улучшенное эгоцентрическое понимание, особенно для планирования в EgoThink. Он обеспечивает эгоцентрически-осознанную инициализацию, которая позволяет более эффективное дообучение VLA с точки зрения выборок и более высокие показатели успеха в SimplerEnv (53.9%), демонстрируя эффективный перенос контроля с эгоцентрических данных человека на последующее управление роботами.
Несмотря на превосходную производительность больших моделей рассуждений (LRM), их поведение при рассуждениях часто оказывается контринтуитивным, что приводит к неоптимальным способностям к рассуждению. Для теоретического формализования желаемого поведения при рассуждениях в данной статье представлены Законы Рассуждений (LoRe) — унифицированная система, характеризующая внутренние паттерны рассуждений в LRM. Сначала мы предлагаем вычислительный закон, основанный на гипотезе о том, что вычислительные затраты на рассуждение должны масштабироваться линейно со сложностью вопроса. Помимо вычислений, мы расширяем LoRe дополнительным законом точности. Поскольку сложность вопроса сложно количественно оценить на практике, мы проверяем эти гипотезы с помощью двух свойств законов: монотонности и композициональности. Соответственно, мы представляем LoRe-Bench — эталонный тест, который систематически измеряет эти два доступных для анализа свойства у больших моделей рассуждений. Оценка показывает, что большинство моделей рассуждений демонстрируют приемлемую монотонность, но им не хватает композициональности. В ответ на это мы разрабатываем эффективный подход тонкой настройки, который обеспечивает композициональность в соответствии с вычислительным законом. Обширные эмпирические исследования демонстрируют, что лучшее соответствие вычислительным законам приводит к стабильному улучшению производительности рассуждений на нескольких тестовых наборах и выявляет синергетические эффекты между свойствами и законами. Страница проекта: https://lore-project.github.io/
В последнее время крупные языковые модели достигли значительного прогресса в генерации строгих математических доказательств. В то же время использование LLM для доказательства теорем на формальных языках (таких как Lean) остаётся сложной и вычислительно затратной задачей, особенно при решении проблем уровня бакалавриата и выше. В данной работе мы представляем Seed-Prover 1.5 — модель для формального доказательства теорем, обученную с помощью масштабируемого агентного обучения с подкреплением, а также эффективный workflow масштабирования на этапе тестирования (TTS). Благодаря интенсивному взаимодействию с Lean и другими инструментами модель непрерывно накапливает опыт в процессе RL, существенно повышая возможности и эффективность формального доказательства теорем. Кроме того, используя последние достижения в области доказательств на естественном языке, наш TTS-workflow эффективно преодолевает разрыв между естественными и формальными языками. По сравнению с передовыми методами Seed-Prover 1.5 демонстрирует превосходящую производительность при меньших вычислительных затратах. Модель решает 88% задач PutnamBench (уровень бакалавриата), 80% задач Fate-H (уровень магистратуры) и 33% задач Fate-X (уровень PhD). Примечательно, что с помощью нашей системы мы решили 11 из 12 задач Putnam 2025 за 9 часов. Наши результаты свидетельствуют, что масштабирование обучения на основе опыта, подкреплённое качественной формальной обратной связью, обладает огромным потенциалом для будущего формального математического мышления.
Современные латентные диффузионные модели (LDM) обычно работают в низкоуровневых латентных пространствах вариационных автоэнкодеров (VAE), которые в первую очередь оптимизированы для пиксельной реконструкции. Для объединения задач генерации и понимания визуальных данных набирает популярность тенденция использовать в качестве генеративных латентных представлений высокоразмерные признаки из репрезентативных энкодеров. Однако мы эмпирически выявили два фундаментальных препятствия в данной парадигме: (1) дискриминативное пространство признаков lacks компактной регуляризации, что приводит к склонности диффузионных моделей к выходу за пределы многообразия латентных переменных и, как следствие, к некорректным объектным структурам; (2) изначально слабая пиксельная реконструкция энкодера препятствует обучению генератора точной мелкозернистой геометрии и текстуры. В данной статье мы предлагаем систематическую framework для адаптации признаков из энкодеров, ориентированных на понимание, для генеративных задач. Мы вводим задачу семантико-пиксельной реконструкции для регуляризации латентного пространства, позволяя сжимать как семантическую информацию, так и мелкозернистые детали в высококомпактное представление (96 каналов с пространственным уменьшением разрешения в 16 раз). Данный дизайн гарантирует, что латентное пространство остается семантически насыщенным и достигает передовых показателей реконструкции изображений, оставаясь при этом достаточно компактным для точной генерации. Используя это представление, мы разрабатываем унифицированную модель для генерации изображений по тексту (Text-to-Image, T2I) и редактирования изображений. Сравнительный анализ с различными пространствами признаков демонстрирует, что наш подход достигает state-of-the-art реконструкции, более быстрой сходимости и значительного прироста производительности как в задачах T2I, так и в редактировании, подтверждая, что репрезентативные энкодеры могут быть эффективно адаптированы в надежные генеративные компоненты.
Несмотря на прогресс в мультимодальных больших языковых моделях (МБЯМ), их способность к анализу трёхмерных структур и временной динамики остаётся ограниченной из-за слабого 4D-восприятия и недостаточного понимания временных зависимостей. Существующие бенчмарки для 3D и 4D видео-вопросно-ответных систем также фокусируются на статичных сценах и не поддерживают региональные промпты. Для решения этих проблем мы представляем: (а) 4D-RGPT — специализированную МБЯМ, разработанную для извлечения 4D-репрезентаций из видео с улучшенным временным восприятием; (b) Perceptual 4D Distillation (P4D) — framework обучения, передающий 4D-репрезентации от замороженной экспертной модели в 4D-RGPT для комплексного 4D-восприятия; и (с) R4D-Bench — бенчмарк для динамических сцен с учётом глубины и региональными промптами, созданный с помощью гибридного автоматизированного и человеко-верифицированного пайплайна. Наша модель 4D-RGPT демонстрирует значительное улучшение как на существующих 4D VQA бенчмарках, так и на предложенном R4D-Bench.
Метод LLM-as-a-Judge получил широкое распространение в качестве оценочного подхода и используется в качестве контролируемых вознаграждений при обучении моделей. Однако существующие бенчмарки для LLM-as-a-Judge в основном опираются на размеченные человеком эталонные данные, что вносит человеческое смещение, подрывающее оценку надежности и накладывающее ограничения на масштабируемость. Чтобы преодолеть эти ограничения, мы представляем Sage — новую оценочную систему, которая оценивает качество LLM-судей без необходимости какой-либо человеческой разметки. Вдохновленная аксиомами теории рационального выбора, Sage вводит два новых критерия для измерения LLM-as-a-Judge: локальную самосогласованность (устойчивость парных предпочтений) и глобальную логическую согласованность (транзитивность на полном наборе предпочтений). Мы формируем набор данных из 650 вопросов, комбинируя структурированные бенчмарки с реальными пользовательскими запросами. Наши эксперименты демонстрируют как устойчивость наших метрик, так и их высокую корреляцию с контролируемыми бенчмарками, такими как LLMBar и RewardBench2, подтверждая надежность Sage как оценочной системы для проверки робастности и точности LLM-as-a-Judge. На основе Sage мы выявляем, что современные передовые LLM демонстрируют значительные проблемы с надежностью при выполнении роли судей как в сценариях выставления баллов, так и в парных сравнениях; даже лучшие модели, Gemini-2.5-Pro и GPT-5, не могут сохранять последовательность предпочтений почти в четверти сложных случаев. Мы объясняем это новым феноменом, названным ситуативным предпочтением, который поясняет, почему явные рубрики или критерии могут помочь модели выносить последовательные суждения по парам ответов. Наш дальнейший анализ показывает, что дообученная LLM-as-a-Judge является feasible-методом для повышения производительности, а коллегиальный судья и глубокие рассуждения могут улучшить согласованность суждений. Мы также обнаруживаем существенную несогласованность в человеческих оценках, что указывает на то, что человеческая разметка может не быть надежным золотым стандартом.
Мы представляем RadarGen — диффузионную модель для синтеза реалистичных точечных облаков автомобильного радара на основе многовидовых камерных изображений. RadarGen адаптирует эффективную латентную диффузию в пространстве изображений для радарной области, представляя измерения радара в виде карты с высоты птичьего полёта, которая кодирует пространственную структуру вместе с эффективной площадью рассеяния (ЭПР) и доплеровскими атрибутами. Облегчённый этап восстановления реконструирует точечные облака из сгенерированных карт. Для лучшего согласования генерации с визуальной сценой RadarGen включает в себя выровненные в BEV глубинные, семантические и Motion-признаки, извлечённые из предварительно обученных фундаментальных моделей, которые направляют стохастический процесс генерации в сторону физически правдоподобных радарных паттернов. Условность по изображениям делает подход в принципе широко совместимым с существующими визуальными наборами данных и симуляционными框架, предлагая масштабируемое направление для мультимодального генеративного моделирования. Оценки на данных крупномасштабного вождения показывают, что RadarGen воспроизводит характерные распределения радарных измерений и сокращает разрыв с моделями восприятия, обученными на реальных данных, что знаменует шаг к унифицированному генеративному моделированию для различных сенсорных модальностей.
Визуальное заземление, то есть локализация объектов по естественно-языковым описаниям, представляет собой критически важный мост между пониманием языка и зрения. Хотя мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие результаты на существующих бенчмарках, фундаментальный вопрос остается открытым: способны ли MLLM по-настоящему, с человеческой точностью, заземлять язык в визуальном контексте или же они просто сопоставляют шаблоны на упрощенных наборах данных? Современные бенчмарки не отражают реальную сложность мира, где люди легко оперируют неоднозначными отсылками и распознают ситуации, когда заземление невозможно. Для строгой оценки истинных возможностей MLLM мы представляем GroundingME — бенчмарк, который систематически проверяет модели по четырем ключевым направлениям: (1) *Дискриминативное* — различение очень похожих объектов, (2) *Пространственное* — понимание сложных реляционных описаний, (3) *Ограниченное* — работа с перекрытиями или мелкими объектами, и (4) *Отказ* — распознавание некорректных запросов, для которых заземление невозможно. Путем тщательной комбинации автоматической генерации и человеческой проверки мы создали 1005 сложных примеров, отражающих реальную сложность задач. Оценка 25 современных MLLM выявила значительный разрыв в возможностях: лучшая модель достигает точности лишь 45.1%, в то время как большинство показывают 0% на задачах отказа, рефлекторно галлюцинируя объекты вместо того, чтобы признать их отсутствие, что вызывает серьезные опасения для их практического развертывания. Мы исследуем две стратегии улучшений: (1) *масштабирование во время теста* выбирает оптимальный ответ на основе "траектории размышления", улучшая точность сложного заземления до 2.9%, и (2) *обучение на смеси данных* учит модели распознавать некорректные запросы, повышая точность на задачах отказа с 0% до 27.9%. Таким образом, GroundingME служит как диагностическим инструментом, выявляющим текущие ограничения MLLM, так и дорожной картой для достижения человеческого уровня в визуальном заземлении.
Понимание архитектурных различий языковых моделей является сложной задачей, особенно в рамках академического претренинга (например, 1.3 млрд параметров, 100 млрд токенов), где результаты часто определяются шумом и случайностью. Чтобы преодолеть это, мы представляем контролируемые синтетические задачи претренинга, которые изолируют и оценивают ключевые способности моделей. В рамках этого подхода мы открываем КАНОНИЧЕСКИЕ СЛОИ: легковесные архитектурные компоненты — названные по аналогии с музыкальным термином «канон» — которые способствуют горизонтальному потоку информации между соседними токенами. Канонические слои вычисляют взвешенные суммы представлений ближайших токенов и бесшовно интегрируются в Transformers, линейную attention-механику, state-space модели или любую последовательностную архитектуру. Мы представляем 12 ключевых результатов. Среди них — то, как канонические слои усиливают глубину рассуждений (например, в 2 раза), широту рассуждений, манипуляцию знаниями и т.д. Они позволяют слабым архитектурам, таким как NoPE, достигать уровня RoPE, а линейным attention-моделям — конкурировать с передовыми линейными моделями, такими как Mamba2/GDN, что подтверждено как синтетическими задачами, так и реальным академическим претренингом. Эта синтетическая среда предлагает экономичный и принципиальный путь для изоляции ключевых способностей моделей, часто скрытых на академических масштабах. Оснащенная бесконечными высококачественными данными, она может даже ПРЕДСКАЗЫВАТЬ, как будущие архитектуры будут вести себя по мере улучшения тренировочных пайплайнов — например, за счет лучшей курации данных или посттренинга на основе RL — открывая возможности для более глубоких рассуждений и иерархического вывода.
Модели «Vision-Language-Action» (VLA) открывают революцию в робототехнике, позволяя машинам понимать инструкции и взаимодействовать с физическим миром. Эта область стремительно развивается, появляются новые модели и наборы данных, что делает задачу отслеживания прогресса одновременно захватывающей и сложной. Данный обзор предлагает четкое и структурированное руководство по ландшафту VLA. Мы построили его, следуя естественному пути обучения исследователя: начинаем с базовых **Модулей** любой модели VLA, прослеживаем историю через ключевые **Вехи**, а затем глубоко погружаемся в основные **Проблемы**, определяющие современный фронт исследований. Наш главный вклад — это детальный анализ пяти крупнейших вызовов в областях: (1) Репрезентация, (2) Исполнение, (3) Обобщение, (4) Безопасность и (5) Данные и оценка. Эта структура отражает дорожную карту развития универсального агента: установление фундаментального цикла «восприятие-действие», масштабирование возможностей для различных воплощений и сред и, наконец, обеспечение надежного развертывания — все это поддерживается необходимой инфраструктурой данных. Для каждой из проблем мы анализируем существующие подходы и выделяем перспективные направления. Мы позиционируем эту статью как фундаментальное руководство для новичков и стратегическую дорожную карту для опытных исследователей, с двойной целью: ускорить обучение и вдохновить на новые идеи в области воплощенного интеллекта. Актуальная версия обзора с постоянными обновлениями поддерживается на нашем {project page}https://suyuz1.github.io/Survery/.
Обучение с подкреплением (RL) вновь стало естественным подходом для тренировки интерактивных LLM-агентов в реальных средах. Однако прямое применение широко используемого алгоритма GRPO (Group Relative Policy Optimization) к многоходовым задачам выявляет существенные ограничения, особенно в сценариях, требующих долгосрочного планирования. Для решения этих проблем мы исследуем более стабильные и эффективные стратегии оценки преимущества, в частности, для многоходовых setting'ов. Сначала мы рассматриваем PPO (Proximal Policy Optimization) в качестве альтернативы и обнаруживаем, что он более устойчив, чем GRPO. Для дальнейшего улучшения PPO в многоходовых сценариях мы представляем turn-PPO — вариант, который работает на уровне хода (turn-level MDP), в отличие от общепринятой формулировки на уровне токена (token-level MDP). Наши результаты на наборах данных WebShop и Sokoban демонстрируют эффективность turn-PPO как с компонентами долгого рассуждения, так и без них.
Видео-крупные языковые модели (Video-LLM) стремительно совершенствуются, однако современные бенчмарки для видео-вопросно-ответных систем (VideoQA) часто допускают ответы на вопросы на основе единственного значимого признака, недостаточно проверяя способность к рассуждениям, требующим агрегации множественных визуальных свидетельств, разделенных во времени. Мы представляем HERBench — бенчмарк VideoQA, специально созданный для оценки интеграции множественных свидетельств во временном контексте. Каждый вопрос требует агрегации как минимум трех непересекающихся доказательных признаков из различных сегментов видео, так что ни языковые априорные предположения, ни единичный снимок не являются достаточными. HERBench включает 26 тысяч вопросов с пятью вариантами ответов, организованных в двенадцать композиционных задач, которые исследуют привязку идентичности, межобъектные отношения, временное упорядочивание, проверку совместного появления и счет. Чтобы сделать потребность в доказательствах измеримой, мы вводим понятие минимального необходимого набора кадров (MRFS) — наименьшего количества кадров, которые модель должна объединить для правильного ответа, и показываем, что HERBench предъявляет существенно более высокие требования по сравнению с предыдущими наборами данных (средний MRFS 5.5 против 2.6-4.2). Оценка 13 современных Video-LLM на HERBench выявляет повсеместные сбои: точность 31-42% лишь ненамного превышает базовый уровень случайного угадывания в 20%. Мы разделяем эту неудачу на два критических узких места: (1) дефицит извлечения, когда селекторы кадров упускают ключевые свидетельства, и (2) дефицит слияния, когда модели не могут интегрировать информацию даже при предоставлении всех необходимых свидетельств. Делая межвременные свидетельства одновременно неизбежными и количественно измеримыми, HERBench устанавливает принципиальную цель для развития надежного, композиционного понимания видео.
Последние достижения в области моделей мира значительно улучшили симуляцию интерактивных сред. Существующие методы в основном делятся на две категории: (1) модели статического генеративного мира, которые создают 3D-среды без активных агентов, и (2) модели управляемых объектов, которые позволяют единственному объекту выполнять ограниченные действия в иначе неуправляемой среде. В данной работе мы представляем AniX, который сочетает реализм и структурную обоснованность статического генеративного мира, расширяя модели управляемых объектов для поддержки задаваемых пользователем персонажей, способных выполнять открытые действия. Пользователи могут предоставить сцену на основе 3DGS и персонажа, а затем направлять его с помощью естественного языка для выполнения разнообразных поведений — от базовой локомоции до взаимодействий с объектами — при свободном исследовании среды. AniX синтезирует временно согласованные видеоролики, сохраняющие визуальное соответствие предоставленной сцене и персонажу, что формулируется как задача условной авторегрессионной генерации видео. Построенная на основе предварительно обученного генератора видео, наша стратегия обучения значительно улучшает динамику движений, сохраняя обобщаемость для различных действий и персонажей. Наша оценка охватывает широкий спектр аспектов, включая визуальное качество, согласованность персонажа, управляемость действий и долгосрочную согласованность.
Мы представляем Bolmo — первое семейство конкурентоспособных полностью открытых языковых моделей на уровне байтов с масштабами 1 и 7 миллиардов параметров. В отличие от предыдущих исследований байтовых моделей, которые в основном фокусировались на обучении с нуля, мы обучаем Bolmo путём байтификации существующих языковых моделей на уровне субслов. Байтификация позволяет преодолеть ограничения субсловной токенизации — такие как недостаточное понимание символов и ограничения эффективности из-за фиксированного словаря субслов — при сохранении производительности на уровне ведущих субсловных моделей. Bolmo специально разработана для байтификации: наша архитектура устраняет несоответствие между выразительностью предыдущих байтовых архитектур и субсловных моделей, что позволяет использовать эффективную задачу точного дистилляции между Bolmo и исходной субсловной моделью. Это даёт возможность преобразовать субсловную модель в байтовую, затратив менее 1% типичного бюджета токенов предобучения. Bolmo существенно превосходит все предыдущие байтовые модели сравнимого размера и превосходит исходные субсловные модели в понимании символов, а в некоторых случаях — в программировании, при этом приближаясь к производительности исходных моделей на других задачах. Кроме того, мы показываем, что Bolmo может достигать конкурентоспособной с субсловными моделями скорости вывода за счёт обучения с более высокими коэффициентами сжатия токенов, а также может быть дёшево и эффективно дообучена с использованием существующей экосистемы вокруг исходной субсловной модели. Наши результаты наконец делают байтовые языковые модели практичным выбором, конкурентоспособным с субсловными моделями в широком спектре сценариев использования.
Бенчмарки, такие как SWE-bench, стандартизировали оценку больших языковых моделей (LLM) на задачах программной инженерии уровня репозитория. Однако эти усилия остаются ограниченными из-за ручной курации, статических наборов данных и фокуса на исправлении ошибок в Python. Мы представляем SWE-Bench++ — автоматизированную платформу, которая генерирует задачи по написанию кода уровня репозитория из проектов GitHub с открытым исходным кодом. В отличие от синтетических подходов, наш пайплайн собирает живые пул-реквесты, чтобы охватить как исправления ошибок, так и запросы на новые функции на 11 языках программирования. SWE-Bench++ преобразует пул-реквесты (PR) GitHub в воспроизводимые, основанные на выполнении задачи через четыре этапа: программный сбор, синтез окружения, извлечение тестовых оракулов и обеспечение качества. Финальный шаг синтеза траекторий с подсказками преобразует экземпляры, с которыми не справляются сильные модели, в обучающие траектории. Наш первоначальный бенчмарк состоит из 11 133 экземпляров из 3 971 репозитория на 11 языках. На подмножестве из 1 782 экземпляров этого бенчмарка современные самые мощные модели показывают следующие результаты: claude-sonnet-4.5 достигает 36.20% pass@10, gpt-5-2025-08-07 — 34.57%, gemini/gemini-2.5-pro — 24.92%, а gpt-4o — 16.89%. Мы также демонстрируем полезность нашего набора данных, показывая, что дообучение на экземплярах SWE-Bench++ дает измеримое улучшение результатов на мультиязычном бенчмарке SWE-bench. SWE-Bench++ предоставляет масштабируемый, мультиязычный бенчмарк для оценки и улучшения генерации кода уровня репозитория.
Обучение с подкреплением (RL) позволило обучать агентов на основе больших языковых моделей (LLM) для взаимодействия со средой и решения многошаговых задач с длительным горизонтом планирования. Однако агенты, обученные с помощью RL, часто испытывают трудности в задачах, требующих активного исследования, и не могут эффективно адаптироваться на основе проб и ошибок. В данной статье мы представляем LaMer — общую мета-RL структуру, которая позволяет агентам на основе LLM активно исследовать среду и обучаться на основе её обратной связи во время тестирования. LaMer состоит из двух ключевых компонентов: (i) межэпизодной системы обучения для стимулирования исследования и оптимизации долгосрочных вознаграждений; и (ii) адаптации политики в контексте посредством рефлексии, позволяющей агенту адаптировать свою политику на основе сигнала обратной связи от задачи без градиентного обновления. Эксперименты в различных средах показывают, что LaMer значительно улучшает производительность по сравнению с RL-базисами, демонстрируя прирост производительности на 11%, 14% и 19% в Sokoban, MineSweeper и Webshop соответственно. Более того, LaMer также демонстрирует лучшую обобщающую способность для более сложных или ранее не встречавшихся задач по сравнению с агентами, обученными с помощью RL. В целом наши результаты показывают, что мета-RL предоставляет принципиальный подход для стимулирования исследования у языковых агентов, обеспечивая более robustную адаптацию к новым средам за счёт изученных стратегий исследования.
Визуальное авторегрессионное (VAR) моделирование отличается от парадигмы предсказания следующего токена в традиционных авторегрессионных (AR) моделях за счет предсказания следующего масштаба, что обеспечивает генерацию изображений высокого качества. Однако парадигма VAR страдает от резкого роста вычислительной сложности и времени выполнения на крупных шагах. Хотя существующие методы ускорения сокращают время работы для крупных шагов, они опираются на ручной выбор шагов и упускают из виду varying importance различных стадий процесса генерации. Для решения этой проблемы мы представляем StageVAR — систематическое исследование и фреймворк для ускорения VAR-моделей с учетом стадийности. Наш анализ показывает, что ранние шаги критически важны для сохранения семантической и структурной согласованности и должны оставаться нетронутыми, тогда как поздние шаги в основном уточняют детали и могут быть подвергнуты pruning или аппроксимации для ускорения. Основываясь на этих выводах, StageVAR представляет plug-and-play стратегию ускорения, которая использует семантическую нерелевантность и low-rank свойства вычислений на поздних стадиях, не требуя дополнительного обучения. Наш предложенный StageVAR достигает до 3.4-кратного ускорения при падении всего на 0.01 балла на GenEval и на 0.26 балла на DPG, последовательно превосходя существующие базовые методы ускорения. Эти результаты подчеркивают, что проектирование с учетом стадийности является мощным принципом для эффективной визуальной авторегрессионной генерации изображений.
Мультимодальные большие языковые модели демонстрируют ненадежную работу в условиях экстремальных реалистичных визуальных искажений, что ограничивает их практическую устойчивость. Существующие устойчивые MLLM в основном полагаются на неявное обучение/адаптацию, сфокусированную исключительно на обобщении визуального энкодера, что приводит к ограниченной интерпретируемости и изолированной оптимизации. Для преодоления этих ограничений мы предлагаем Robust-R1 — новую структуру, которая явно моделирует визуальные искажения через структурированные цепочки рассуждений. Наш подход интегрирует: (i) контролируемое тонкое обучение для формирования основ деградационно-ориентированного мышления, (ii) выравнивание на основе вознаграждения для точного восприятия параметров искажений, и (iii) динамическое масштабирование глубины рассуждений, адаптированное к интенсивности деградации. Для реализации подхода мы представляем специализированный датасет на 11 тыс. примеров с реалистичными искажениями, синтезированными на четырех ключевых стадиях обработки визуальной информации, каждый из которых размечен структурированными цепочками, связывающими параметры искажений, перцептивное влияние, исходную семантическую цепь рассуждений и вывод. Комплексные оценки демонстрируют передовую устойчивость: Robust-R1 превосходит все общие и специализированные базовые модели на бенчмарке реальных искажений R-Bench, сохраняя при этом превосходную устойчивость к многоуровневым адверсарным искажениям на MMMB, MMStar и RealWorldQA.
Последние достижения в области генерации 3D-сцен позволяют получать визуально привлекательные результаты, однако современные представления затрудняют рабочие процессы художников, требующие редактируемых 3D-сцен с текстурированными полигональными сетками для разработки визуальных эффектов и игр. Несмотря на значительный прогресс, современные методы реконструкции текстурных сеток сцен еще далеки от готовности к использованию художниками, страдая от некорректного разделения объектов, неточных пространственных взаимосвязей и отсутствующих фонов. Мы представляем 3D-RE-GEN — композиционный фреймворк, реконструирующий одиночное изображение в текстурные 3D-объекты и фон. Мы демонстрируем, что комбинирование передовых моделей из специфических доменов позволяет достичь наивысшей производительности реконструкции сцен, отвечая требованиям художников. Наш конвейер реконструкции интегрирует модели для детекции ассетов, реконструкции и размещения, расширяя возможности некоторых моделей за пределы их исходных областей применения. Получение закрытых объектами частей трактуется как задача редактирования изображений с использованием генеративных моделей для предсказания и реконструкции на основе сценарного анализа в условиях согласованного освещения и геометрии. В отличие от современных методов, 3D-RE-GEN генерирует комплексный фон, который пространственно ограничивает объекты в процессе оптимизации и обеспечивает основу для реалистичного освещения и задач симуляции в визуальных эффектах и играх. Для достижения физически правдоподобных компоновок мы применяем новую 4-DoF дифференцируемую оптимизацию, выравнивающую реконструированные объекты относительно расчетной плоскости основания. 3D-RE-GEN демонстрирует наивысшую производительность в реконструкции 3D-сцен из одиночного изображения, создавая согласованные, редактируемые сцены посредством композиционной генерации, направляемой точным восстановлением камеры и пространственной оптимизацией.
Многомодальное понимание длинных видео требует интеграции визуальной информации, речи и фонового аудио с согласованными рассуждениями на больших временных промежутках. Существующие бенчмарки делают акцент либо на временной протяженности, либо на многомодальной насыщенности, но редко сочетают оба аспекта; хотя некоторые включают открытые вопросы и продвинутые метрики, они в основном опираются на единую оценку точности, что маскирует режимы ошибок. Мы представляем LongShOTBench — диагностический бенчмарк с открытыми, целенаправленными вопросами; одно- и многоходовыми диалогами; а также задачами, требующими многомодальных рассуждений и использования инструментов агентами для работы с видео, аудио и речью. Каждый элемент включает эталонный ответ и градуированную рубрику для интерпретируемой и отслеживаемой оценки. LongShOTBench создан с помощью масштабируемого, валидированного человеком пайплайна для обеспечения охвата и воспроизводимости. Все образцы в нашем LongShOTBench проверены и исправлены человеком. Кроме того, мы представляем LongShOTAgent — агентскую систему, которая анализирует длинные видео посредством предобработки, поиска и итеративного уточнения. На LongShOTBench современные MLLM демонстрируют значительные пробелы: Gemini-2.5-Flash достигает 52,95%, открытые модели остаются ниже 30%, а LongShOTAgent показывает 44,66%. Эти результаты подчеркивают сложность понимания длинных видео в реальных условиях. LongShOTBench предоставляет практичную, воспроизводимую основу для оценки и улучшения MLLM. Все ресурсы доступны на GitHub: https://github.com/mbzuai-oryx/longshot.
Модели генерации изображений по текстовым описаниям (Text-to-Image, TTI) создают изображения на основе текстовых промптов, которые часто оставляют некоторые аспекты желаемого изображения неоднозначными. Сталкиваясь с такими неоднозначностями, TTI-модели, как было показано, демонстрируют смещения в своих интерпретациях. Эти смещения могут иметь социальные последствия, например, когда для указанной профессии отображаются люди только определенной расы. Они также могут негативно влиять на пользовательский опыт, создавая избыточность в наборе сгенерированных изображений вместо охвата разнообразных возможностей. В данной работе мы представляем MineTheGap — метод для автоматического поиска промптов, которые приводят к генерации TTI-моделью смещенных результатов. Наш метод выходит за рамки простого обнаружения смещения для заданного промпта. Вместо этого он использует генетический алгоритм для итеративного улучшения пула промптов, отыскивая те, которые выявляют смещения. Этот процесс оптимизации управляется новой метрикой смещения, которая ранжирует смещения по степени их серьезности, что мы проверяем на наборе данных с известными смещениями. Для заданного промпта эта оценка получается путем сравнения распределения сгенерированных изображений с распределением текстов, сгенерированных большой языковой моделью (LLM), которые представляют собой вариации исходного промпта. Код и примеры доступны на веб-странице проекта.