Ежедневно отобранные исследовательские статьи по ИИ с переводами
В то время как большие мультимодальные модели (LMM) достигли значительного прогресса, они в основном остаются текстоцентричными, используя язык в качестве основной модальности для рассуждений. Как следствие, их возможности ограничены при решении задач, требующих преимущественно визуального анализа. Современные подходы пытаются решить эту проблему, контролируя промежуточные визуальные шаги с помощью вспомогательных изображений, карт глубины или фрагментов изображений. Однако эти стратегии накладывают ограничивающие априорные предположения о том, как выглядят «полезные» визуальные абстракции, требуют значительных затрат на разметку данных и плохо обобщаются на различные задачи. Для преодоления этого фундаментального ограничения мы предлагаем агностичный к задачам механизм, который обучает LMM самостоятельно обнаруживать и использовать токены визуального reasoning без явного контроля. Эти токены глобально обращают внимание на изображение и перекодируют его адаптивным к задаче способом, позволяя модели извлекать релевантную визуальную информацию без ручного контроля. Наш подход превосходит прямое тонкое настраивание и достигает state-of-the-art результатов на широком спектре визуально-ориентированных задач — включая те, где промежуточные абстракции сложно специфицировать — а также демонстрирует обобщение при многозадачной настройке по инструкциям.
Крупные авторегрессионные модели, предобученные на предсказании следующего токена и дообученные с подкреплением (RL), достигли беспрецедентных успехов во многих предметных областях. В процессе RL эти модели исследуют пространство, генерируя новые выходные данные по одному токену за раз. Однако выборка действий по токенам может приводить к крайне неэффективному обучению, особенно в условиях разреженных наград. В данной работе мы демонстрируем, что эту проблему можно преодолеть, действуя и исследуя пространство внутри внутренних представлений авторегрессионной модели. В частности, для обнаружения темпорально-абстрактных действий мы вводим модель последовательностей высшего порядка, не являющуюся причинной, выходы которой управляют активациями остаточного потока базовой авторегрессионной модели. На задачах с иерархической структурой, основанных на grid world и MuJoCo, мы обнаружили, что модель высшего порядка обучается сжимать длинные последовательности активаций во внутренние контроллеры. Ключевым моментом является то, что каждый контроллер исполняет последовательность поведенчески значимых действий, разворачивающихся на длительных временных масштабах и сопровождаемых обученным условием завершения, так что композиция нескольких контроллеров во времени приводит к эффективному исследованию новых задач. Мы показываем, что прямое внутреннее подкрепление контроллеров — процесс, который мы называем «внутренним RL» — позволяет обучаться на разреженных наградах в случаях, когда стандартное RL-дообучение не справляется. Наши результаты демонстрируют преимущества генерации и подкрепления латентных действий в авторегрессионных моделях, предлагая внутренний RL в качестве перспективного направления для реализации иерархического RL в рамках фундаментальных моделей.
Существующие модели генерации видео испытывают трудности с поддержанием долгосрочной пространственной и временной согласованности из-за плотной, высокоразмерной природы видеосигналов. Чтобы преодолеть это ограничение, мы предлагаем Spatia — фреймворк для генерации видео с пространственной памятью, который явным образом сохраняет 3D-облако точек сцены в качестве персистентной пространственной памяти. Spatia итеративно генерирует видеоклипы, обусловленные этой пространственной памятью, и непрерывно обновляет её с помощью визуального SLAM. Такой дизайн с разделением статики и динамики повышает пространственную согласованность на протяжении всего процесса генерации, сохраняя при этом способность модели создавать реалистичные динамические объекты. Кроме того, Spatia позволяет реализовать такие приложения, как явное управление камерой и 3D-ориентированное интерактивное редактирование, предоставляя геометрически обоснованную основу для масштабируемой генерации видео, управляемой памятью.
Крупные языковые модели все чаще демонстрируют траектории рассуждений, однако их глубинная когнитивная структура и отдельные шаги остаются трудными для идентификации и анализа за пределами поверхностной статистики. Мы применяем теорию эпизодов Шенфилда в качестве индуктивной линзы промежуточного масштаба и представляем ThinkARM (Анатомия Рассуждений в Моделях) — масштабируемую структуру, которая явно абстрагирует траектории рассуждений в функциональные шаги, такие как Анализ, Исследование, Реализация, Проверка и т.д. Применение этого подхода к решению математических задач разнообразными моделями выявляет воспроизводимую динамику мышления и структурные различия между рассуждающими и не-рассуждающими моделями, которые не очевидны на уровне токенов. Мы также представляем два диагностических кейс-стади, показывающих, что исследование функционирует как критический шаг ветвления, связанный с корректностью решения, а методы, ориентированные на эффективность, выборочно подавляют оценочные шаги обратной связи, а не равномерно сокращают ответы. В совокупности наши результаты демонстрируют, что представления на уровне эпизодов делают шаги рассуждения явными, позволяя проводить систематический анализ того, как рассуждение структурируется, стабилизируется и модифицируется в современных языковых моделях.
Видео представляют собой непрерывные двумерные проекции трехмерных миров. Возникает ли глобальное понимание 3D естественным образом после обучения на больших объемах видеоданных? Мы исследуем этот вопрос, количественно оценивая понимание 3D существующими базовыми моделями для видео (VidFM), предварительно обученными на обширных видеоданных. Мы предлагаем первую модель-агностическую систему, которая измеряет осведомленность о 3D различных VidFM путем оценки множества 3D-свойств из их признаков с помощью поверхностных считываний. Наше исследование представляет значимые выводы относительно осведомленности VidFM о 3D по нескольким направлениям. В частности, мы показываем, что современные модели генерации видео демонстрируют глубокое понимание 3D-объектов и сцен, несмотря на отсутствие обучения на каких-либо 3D-данных. Такое понимание может даже превосходить таковое у крупных экспертных моделей, специально обученных для 3D-задач. Наши выводы, вместе с тестированием основных VidFM на понимание 3D, предоставляют ценные наблюдения для создания масштабируемых 3D-моделей.
Многопроходное обучение с подкреплением (RL) для мультимодальных агентов, построенных на основе визуально-языковых моделей (VLM), сталкивается с проблемой разреженных вознаграждений и сложного распределения заслуг на длительных горизонтах. Современные методы повышают плотность вознаграждений, запрашивая "учителя", который предоставляет пошаговую обратную связь, например, Guided Thought Reinforcement (GTR) и On-Policy Distillation, но они зависят от дорогостоящих, часто привилегированных моделей в роли учителя, что ограничивает практичность и воспроизводимость. Мы представляем GTR-Turbo — высокоэффективное усовершенствование GTR, которое достигает сопоставимой производительности без обучения или запросов к дорогой модели-учителю. В частности, GTR-Turbo объединяет веса контрольных точек, созданных в процессе текущего обучения с подкреплением, а затем использует эту объединенную модель в качестве "бесплатного" учителя для направления последующего RL посредством контролируемого тонкого обучения или дистилляции мягких логитов. Такая конструкция устраняет зависимость от привилегированных VLM (например, GPT или Gemini), смягчает проблему "коллапса энтропии", наблюдавшуюся в предыдущих работах, и обеспечивает стабильность обучения. В различных визуальных агентских задачах GTR-Turbo повышает точность базовой модели на 10–30%, одновременно сокращая реальное время обучения на 50% и вычислительные затраты на 60% по сравнению с GTR.
Авторегрессионная (AR) визуальная генерация опирается на токенизаторы для преобразования изображений в дискретные последовательности и обратно. Однако токенизаторы обучаются реконструировать чистые изображения из эталонных токенов, тогда как AR-генераторы оптимизируются только на правдоподобие токенов. Это рассогласование приводит к тому, что сгенерированные последовательности токенов могут декодироваться в изображения низкого качества из-за отсутствия прямого контроля со стороны пиксельного пространства. Мы предлагаем VA-π — облегченную пост-обучающую структуру, которая напрямую оптимизирует AR-модели с помощью принципиального целевого критерия в пиксельном пространстве. VA-π формализует согласование генератора и токенизатора как вариационную оптимизацию, выводя нижнюю оценку доказательства (ELBO), объединяющую пиксельную реконструкцию и авторегрессионное моделирование. Для оптимизации в дискретном пространстве токенов VA-π вводит стратегию согласования на основе обучения с подкреплением, которая трактует AR-генератор как политику, используя качество реконструкции в пиксельном пространстве в качестве внутреннего вознаграждения. Вознаграждение измеряется тем, насколько точно предсказанные последовательности токенов восстанавливают исходное изображение при учительском форсировании, что дает модели прямое пиксельное руководство без дорогостоящего свободного сэмплирования. Регуляризационный член ELBO служит естественным регуляризатором, сохраняя распределительную согласованность токенов. VA-π позволяет быстро адаптировать существующие AR-генераторы без переобучения токенизатора или внешних моделей вознаграждения. Всего на 1% данных ImageNet-1K и 25 минутах тонкой настройки метод снижает FID с 14.36 до 7.65 и улучшает IS с 86.55 до 116.70 для LlamaGen-XXL, одновременно демонстрируя значительный прогресс в задаче текст-изображение на GenEval как для модели визуальной генерации (LlamaGen: с 0.306 до 0.339), так и для унифицированной мультимодальной модели (Janus-Pro: с 0.725 до 0.744). Код доступен по адресу https://github.com/Lil-Shake/VA-Pi.