Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением на основе вознаграждений (ReFL) доказало свою эффективность для согласования генерации изображений с человеческими предпочтениями. Однако его расширение на генерацию видео сталкивается со значительными трудностями. Существующие видео-модели вознаграждения полагаются на модели «визуальный язык», разработанные для входных данных в пиксельном пространстве, что ограничивает оптимизацию ReFL этапами, близкими к завершению денойзинга, после ресурсоемкого декодирования VAE. Этот подход в пиксельном пространстве влечет значительные накладные расходы по памяти и увеличивает время обучения, а его оптимизация на поздних стадиях лишена контроля на ранних этапах, улучшая лишь визуальное качество, а не фундаментальную динамику движения и структурную целостность. В данной работе мы показываем, что предобученные модели генерации видео естественным образом подходят для моделирования вознаграждения в зашумленном латентном пространстве, поскольку они явно предназначены для обработки зашумленных латентных представлений на произвольных временных шагах и inherently сохраняют временную информацию благодаря своим возможностям последовательного моделирования. Соответственно, мы предлагаем Process Reward Feedback Learning (PRFL) — фреймворк, который полностью проводит оптимизацию по предпочтениям в латентном пространстве, обеспечивая эффективное обратное распространение градиента по всей цепочке денойзинга без декодирования VAE. Многочисленные эксперименты демонстрируют, что PRFL значительно улучшает соответствие человеческим предпочтениям, одновременно достигая существенного сокращения потребления памяти и времени обучения по сравнению с RGB ReFL.
Хотя современные диффузионные модели преуспевают в генерации качественных и разнообразных изображений, они по-прежнему испытывают трудности с композиционным и мультимодальным контролем высокой точности, особенно когда пользователи одновременно задают текстовые промпты, ссылки на объекты, пространственные расположения, ограничения по позам и аннотации разметки. Мы представляем Canvas-to-Image — унифицированную структуру, которая объединяет эти гетерогенные элементы управления в единый интерфейс холста, позволяя пользователям генерировать изображения, достоверно отражающие их замысел. Наша ключевая идея заключается в кодировании разнородных управляющих сигналов в единое составное изображение холста, которое модель может напрямую интерпретировать для интегрированного визуально-пространственного анализа. Мы дополнительно курируем набор многозадачных наборов данных и предлагаем стратегию Multi-Task Canvas Training, которая оптимизирует диффузионную модель для совместного понимания и интеграции гетерогенных элементов управления в генерацию изображений по тексту в рамках единой парадигмы обучения. Такое совместное обучение позволяет Canvas-to-Image анализировать несколько модальностей управления вместо reliance на эвристики, специфичные для конкретных задач, и обеспечивает хорошую обобщаемость на сценарии с множественным контролем во время вывода. Многочисленные эксперименты показывают, что Canvas-to-Image значительно превосходит современные методы по сохранению идентичности и соблюдению контроля в сложных тестах, включая композицию нескольких лиц, композицию с управлением позой, генерацию с ограничениями по разметке и генерацию с множественным контролем.
Телесное (воплощенное) познание утверждает, что интеллект возникает из сенсомоторного взаимодействия, а не из пассивного наблюдения. Это поднимает интригующий вопрос: проявляют ли современные визуально-языковые модели (VLM), обученные в основном отвлеченным (диэмбодированным) способом, признаки телесного познания? Мы представляем ENACT — эталонный тест, который представляет оценку воплощенного познания как моделирование мира на основе эгоцентричного взаимодействия в формате визуального вопроса-ответа (VQA). Сформулированный как частично наблюдаемый марковский процесс принятия решений (POMDP), действия в котором представляют собой изменения графа сцены, ENACT включает две взаимодополняющие задачи переупорядочивания последовательностей: прямое моделирование мира (переупорядочивание перемешанных наблюдений при заданных действиях) и обратное моделирование мира (переупорядочивание перемешанных действий при заданных наблюдениях). Несмотря на концептуальную простоту, решение этих задач неявно требует наличия способностей, ключевых для воплощенного познания: распознавания аффордансов, причинно-следственного рассуждения об действиях, телесного осознания и интерактивной долгосрочной памяти на основе частично наблюдаемого эгоцентричного ввода, при этом избегая синтеза изображений низкого уровня, который мог бы исказить оценку. Мы предлагаем масштабируемый конвейер, который синтезирует пары "вопрос-ответ" из симуляции робототехники (BEHAVIOR) и оценивает модели на 8 972 парах "вопрос-ответ", охватывающих долгосрочные активности в масштабе дома. Эксперименты выявляют разрыв в производительности между передовыми VLM и человеком, который увеличивается с увеличением горизонта взаимодействия. Модели стабильно показывают лучшие результаты в обратной задаче, чем в прямой, и демонстрируют антропоцентрические смещения, включая предпочтение правосторонних действий и ухудшение производительности, когда внутренние параметры камеры или точки обзора отклоняются от человеческого зрения. Веб-сайт: https://enact-embodied-cognition.github.io/.
Понимание языка предполагает не только извлечение поверхностного смысла лингвистического ввода, но и построение богатых ментальных моделей описываемой ситуации. Мы предполагаем, что, поскольку обработка информации в базовой языковой системе мозга фундаментально ограничена, глубокое понимание языка требует экспорта информации из языковой системы в другие области мозга, которые вычисляют перцептивные и моторные репрезентации, конструируют ментальные модели и хранят наши знания о мире и автобиографические воспоминания. Мы рассматриваем существующие доказательства данной гипотезы и утверждаем, что недавний прогресс в когнитивной нейронауке предоставляет как концептуальную основу, так и методы для её прямой проверки, открывая тем самым новую стратегию для раскрытия того, что означает понимать язык с когнитивной и нейронной точек зрения.
Редактирование изображений по инструкциям предоставляет пользователям интуитивно понятный способ редактирования изображений с помощью естественного языка. Однако диффузионные модели редактирования часто не могут точно интерпретировать сложные пользовательские инструкции, особенно включающие композиционные отношения, контекстные подсказки или референциальные выражения, что приводит к семантическим отклонениям или несоответствию ожидаемым изменениям. Для решения этой проблемы мы предлагаем MIRA (Multimodal Iterative Reasoning Agent) — легковесный подключаемый мультимодальный агент рассуждений, который выполняет редактирование через итеративный цикл «восприятие-рассуждение-действие», эффективно моделируя процессы многошагового взаимодействия человека и модели. Вместо единого запроса или статичного плана MIRA предсказывает атомарные инструкции редактирования шаг за шагом, используя визуальную обратную связь для принятия решений. Наш мультимодальный набор данных MIRA-Editing объемом 150K примеров, combined с двухэтапным пайплайном обучения SFT + GRPO, позволяет MIRA выполнять рассуждения и редактирование для сложных инструкций. При интеграции с открытыми моделями редактирования изображений, такими как Flux.1-Kontext, Step1X-Edit и Qwen-Image-Edit, MIRA значительно улучшает как семантическую согласованность, так и перцептивное качество, достигая результатов, сопоставимых или превосходящих проприетарные системы, такие как GPT-Image и Nano-Banana.
Крупные мультимодальные модели (LMM) все чаще используются в качестве оценщиков в системах мультимодальной оценки благодаря их способности следовать инструкциям и соответствию человеческим предпочтениям. Однако их способность следовать разнообразным, детализированным критериям оценки остается недостаточно изученной. Мы разработали Multi-Crit — эталонный набор для оценки мультимодальных моделей-судей на предмет их способности следовать плюралистическим критериям и формировать надежные суждения на уровне отдельных критериев. Охватывая как задачи открытой генерации, так и проверяемые задачи на рассуждение, Multi-Crit создан с помощью строгого конвейера курирования данных, который собирает сложные пары ответов с многокритериальными человеческими аннотациями. Он также вводит три новые метрики для систематической оценки соответствия плюралистическим требованиям, гибкости переключения между критериями и способности распознавать конфликты предпочтений на уровне критериев. Комплексный анализ 25 LMM выявил, что: 1) проприетарные модели по-прежнему с трудом сохраняют последовательное соответствие плюралистическим критериям, особенно при оценке открытых заданий; 2) модели с открытым исходным кодом еще больше отстают в гибком следовании разнообразным критериям; 3) дообучение моделей-критиков на сигналах целостных суждений улучшает визуальное grounding, но не обобщается на плюралистические суждения на уровне критериев. Дополнительные анализы дообучения на рассуждениях, масштабирования во время тестирования и границ согласованности между моделями с открытым и закрытым исходным кодом дополнительно исследуют пределы возможностей современных мультимодальных оценщиков. Как пионерское исследование, Multi-Crit закладывает основу для создания надежной и управляемой оценки искусственного интеллекта в мультимодальной сфере.
MLLM демонстрируют высокие способности к рассуждению при работе с изолированными запросами, однако они функционируют *de novo* — решая каждую задачу независимо и зачастую повторяя одни и те же ошибки. Существующие агенты, дополненные памятью, в основном сохраняют прошлые траектории для повторного использования. Однако память на основе траекторий страдает от brevity bias (смещения в сторону краткости), постепенно утрачивая ключевые предметные знания. Что более важно, даже в подлинно мультимодальных условиях решения задач она фиксирует лишь одномодальный след прошлого поведения, не сохраняя того, как визуальное внимание и логическое рассуждение совместно способствовали нахождению решения. Это фундаментально не согласуется с человеческим познанием: семантическая память является одновременно мультимодальной и интегрированной, сохраняя визуальные и абстрактные знания через согласованные, но различные репрезентационные потоки. Таким образом, мы представляем ViLoMem — двухпотоковую framework памяти, которая строит компактную, схематическую память. Она раздельно кодирует паттерны визуального отвлечения и ошибки логического рассуждения, позволяя MLLM обучаться на основе как успешного, так и неудачного опыта. Следуя принципу роста и уточнения, система инкрементально накапливает и обновляет мультимодальные семантические знания — сохраняя стабильные, обобщаемые стратегии и избегая катастрофического забывания. На шести мультимодальных бенчмарках ViLoMem стабильно повышает точность pass@1 и существенно сокращает повторяющиеся визуальные и логические ошибки. Абляционные исследования подтверждают необходимость двухпотоковой памяти с явным разделением на отвлечения и галлюцинации, демонстрируя ценность мультимодальной памяти, учитывающей ошибки, для непрерывного и междоменного агентского обучения. Страница проекта будет доступна по адресу https://weihao-bo.github.io/ViLoMeo-page.