Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем LongLive, авторегрессионную (AR) структуру на уровне кадров для генерации длинных видео в реальном времени с интерактивными возможностями. Генерация длинных видео сталкивается с проблемами как в эффективности, так и в качестве. Модели на основе диффузии и Diffusion-Forcing способны создавать высококачественные видео, но страдают от низкой эффективности из-за двунаправленного внимания. Авторегрессионные модели с причинным вниманием поддерживают кэширование ключей и значений (KV) для ускоренного вывода, однако часто теряют качество на длинных видео из-за проблем с памятью во время обучения на длинных последовательностях. Кроме того, помимо статической генерации на основе промптов, интерактивные возможности, такие как потоковый ввод промптов, критически важны для динамического создания контента, позволяя пользователям направлять повествование в реальном времени. Это требование значительно увеличивает сложность, особенно в обеспечении визуальной согласованности и семантической связности при смене промптов. Для решения этих задач LongLive использует причинную AR-структуру на уровне кадров, которая включает механизм KV-перекэширования, обновляющий кэшированные состояния новыми промптами для плавных переходов; потоковую настройку для длинных видео, позволяющую обучать модели на длинных последовательностях и согласовывать обучение и вывод (train-long-test-long); а также внимание с коротким окном в сочетании с "поглотителем внимания" на уровне кадров (frame sink), что сохраняет долгосрочную согласованность при ускоренной генерации. Благодаря этим ключевым решениям LongFine настраивает модель с 1,3 миллиардами параметров для генерации минутных видео всего за 32 GPU-дня. При выводе LongLive поддерживает 20,7 кадров в секунду на одном GPU NVIDIA H100, демонстрируя высокую производительность на VBench как для коротких, так и для длинных видео. LongLive поддерживает генерацию видео длительностью до 240 секунд на одном GPU H100. Кроме того, LongLive поддерживает вывод с INT8-квантованием с минимальной потерей качества.
Обучение агентов на основе больших языковых моделей (LLM) в средах с многошаговым взаимодействием и разреженными наградами, где выполнение одной задачи требует более 30 шагов взаимодействия в рамках одного эпизода, представляет собой фундаментальную проблему для обучения с подкреплением. Мы выявляем критический режим отказа, уникальный для таких условий: каскадный сбой в балансе исследования и эксплуатации. Этот каскад начинается с преждевременной сходимости политики на ранних этапах, когда разреженная обратная связь заставляет агентов фиксироваться на ошибочных стратегиях с низкой энтропией. Впоследствии агенты сталкиваются с коллапсом политики на поздних этапах, где традиционная регуляризация энтропии становится контрпродуктивной, способствуя хаотическому исследованию, которое дестабилизирует процесс обучения. Мы предлагаем Оптимизацию политики с регуляризацией энтропии (EPO), общую структуру, которая прерывает этот цикл сбоев за счет трех синергетических механизмов: (1) внедрение регуляризации энтропии в многошаговых средах для усиления исследования, (2) сглаживающий регулятор энтропии, который ограничивает энтропию политики в пределах исторических средних значений, предотвращая резкие колебания, и (3) адаптивное фазовое взвешивание, которое балансирует исследование и эксплуатацию на протяжении обучения. Наш анализ подтверждает, что EPO гарантирует монотонное уменьшение дисперсии энтропии при сохранении сходимости. EPO демонстрирует улучшение производительности до 152% на платформе ScienceWorld и до 19,8% на ALFWorld. Наша работа показывает, что многошаговые среды с разреженными наградами требуют принципиально иного подхода к управлению энтропией по сравнению с традиционным обучением с подкреплением, что имеет широкие последствия для обучения агентов на основе LLM.
Обучение с подкреплением с верифицируемыми наградами (RLVR) усиливает способность крупных языковых моделей (LLM) к рассуждениям, однако процесс обучения часто колеблется между {коллапсом энтропии} и {взрывом энтропии}. Мы связываем обе проблемы с использованием среднего базового уровня в методах RL без оценки ценности (например, GRPO и DAPO), который неправильно штрафует выборки с отрицательным преимуществом при наличии выбросов в наградах. Мы предлагаем метод {Оценки Квантильного Преимущества} (QAE), заменяющий среднее значение групповым K-квантильным базовым уровнем. QAE вводит двухрежимный механизм на уровне ответов: на сложных запросах (p <= 1 - K) он усиливает редкие успехи, а на простых запросах (p > 1 - K) фокусируется на оставшихся ошибках. При использовании обновлений softmax первого порядка мы доказываем {двустороннюю безопасность энтропии}, предоставляя нижние и верхние границы изменения энтропии за один шаг, что предотвращает взрыв и коллапс. Эмпирически это минимальное изменение стабилизирует энтропию, упрощает распределение заслуг (при настройке K примерно 80% ответов получают нулевое преимущество) и обеспечивает устойчивый рост показателя pass@1 на моделях Qwen3-8B/14B-Base в тестах AIME 2024/2025 и AMC 2023. Эти результаты указывают на то, что {проектирование базового уровня}, а не эвристики на уровне токенов, является основным механизмом для масштабирования RLVR.
Мы представляем MinerU2.5 — модель для анализа документов с 1,2 миллиардами параметров, которая сочетает в себе зрение и язык. Эта модель достигает наивысшей точности распознавания, сохраняя при этом исключительную вычислительную эффективность. Наш подход использует двухэтапную стратегию анализа от общего к частному, разделяя глобальный анализ структуры документа и локальное распознавание содержимого. На первом этапе модель выполняет эффективный анализ структуры на уменьшенных изображениях, чтобы идентифицировать структурные элементы, избегая вычислительных затрат на обработку высококачественных входных данных. На втором этапе, руководствуясь глобальной структурой, модель выполняет целенаправленное распознавание содержимого на фрагментах исходного изображения в исходном разрешении, сохраняя мелкие детали в плотном тексте, сложных формулах и таблицах. Для поддержки этой стратегии мы разработали комплексный механизм генерации данных, который создает разнообразные и масштабные обучающие корпуса как для предварительного обучения, так и для тонкой настройки. В итоге MinerU2.5 демонстрирует высокую способность к анализу документов, достигая наилучших результатов на множестве тестовых наборов, превосходя как универсальные, так и специализированные модели в различных задачах распознавания, при этом сохраняя значительно меньшие вычислительные затраты.
Мы представляем вариационный фреймворк для рассуждений в языковых моделях, который рассматривает траектории мышления как латентные переменные и оптимизирует их с помощью вариационного вывода. Начиная с нижней границы доказательства (ELBO), мы расширяем её до мультитраекторного целевого функционала для получения более точных границ и предлагаем формулировку с использованием прямого расхождения Кульбака-Лейблера (forward-KL), которая стабилизирует обучение вариационного апостериорного распределения. Мы также показываем, что тонкая настройка с использованием метода отклоняющего сэмплирования и обучение с подкреплением с бинарными наградами, включая GRPO, могут быть интерпретированы как локальные целевые функции прямого KL, где неявное взвешивание по точности модели естественным образом возникает из вывода и выявляет ранее незамеченное смещение в сторону более простых вопросов. Мы эмпирически проверяем наш метод на семействах моделей Qwen 2.5 и Qwen 3 на широком спектре задач рассуждений. В целом, наша работа предлагает принципиальный вероятностный подход, который объединяет вариационный вывод с методами в стиле обучения с подкреплением и обеспечивает стабильные целевые функции для улучшения способности языковых моделей к рассуждениям. Наш код доступен по адресу https://github.com/sail-sg/variational-reasoning.
Рецензирование служит основой академических исследований, однако на большинстве конференций по искусственному интеллекту качество рецензий ухудшается по мере роста числа подаваемых работ. Для надежного выявления низкокачественных рецензий мы определяем ошибочные пункты рецензий как либо "слабые стороны", содержащие неверные предпосылки, либо "вопросы", на которые уже даны ответы в статье. Мы подтверждаем, что 15,2% слабых сторон и 26,4% вопросов являются ошибочными, и вводим показатель ReviewScore, указывающий на ошибочность пункта рецензии. Для оценки фактической достоверности каждой предпосылки в слабых сторонах мы предлагаем автоматизированный механизм, который восстанавливает все явные и неявные предпосылки из слабой стороны. Мы создаем набор данных ReviewScore, аннотированный экспертами, чтобы проверить способность крупных языковых моделей (LLM) автоматизировать оценку ReviewScore. Затем мы измеряем согласие между людьми и моделями по показателю ReviewScore с использованием восьми современных LLM и подтверждаем умеренное согласие. Мы также доказываем, что оценка фактической достоверности на уровне предпосылок демонстрирует значительно более высокое согласие, чем оценка на уровне слабых сторон. Подробный анализ разногласий дополнительно подтверждает потенциал полностью автоматизированной оценки ReviewScore.
LLM (крупные языковые модели) часто обучаются с использованием обучения с подкреплением (RL) на основе обратной связи от людей или ИИ, однако такие методы обычно сводят сложную обратную связь к скалярным наградам, теряя большую часть её содержания и вызывая дисбаланс масштабов. Мы предлагаем рассматривать вербальную обратную связь как сигнал для условной генерации. Вдохновлённые языковыми априорными моделями в генерации изображений по тексту, которые позволяют создавать новые результаты на основе ранее не встречавшихся запросов, мы представляем условную политику на основе обратной связи (FCP). FCP обучается непосредственно на парах «ответ-обратная связь», аппроксимируя условное апостериорное распределение с помощью максимизации правдоподобия на оффлайн-данных. Мы также разрабатываем этап онлайн-бутстраппинга, в ходе которого политика генерирует ответы в условиях положительной обратной связи и получает новую обратную связь для самосовершенствования. Это переосмысливает обучение на основе обратной связи как условную генерацию, а не оптимизацию наград, предлагая более выразительный способ для LLM напрямую обучаться на вербальной обратной связи. Наш код доступен по адресу: https://github.com/sail-sg/feedback-conditional-policy.
Генерация подписей к изображениям — это фундаментальная задача, которая связывает визуальную и языковую области, играя ключевую роль в предварительном обучении крупных визуально-языковых моделей (LVLMs). Современные модели генерации подписей обычно обучаются с использованием метода Supervised Fine-Tuning (SFT), который опирается на дорогостоящие и не масштабируемые данные, аннотированные людьми или проприетарными моделями. Такой подход часто приводит к тому, что модели запоминают конкретные правильные ответы, что ограничивает их обобщающую способность и возможность создавать разнообразные и креативные описания. Чтобы преодолеть ограничения SFT, мы предлагаем применить парадигму Reinforcement Learning with Verifiable Rewards (RLVR) к открытой задаче генерации подписей к изображениям. Однако основная сложность заключается в разработке объективной функции вознаграждения для субъективной природы того, что считается "хорошей" подписью. Мы представляем Captioning Reinforcement Learning (CapRL) — новый фреймворк обучения, который переопределяет качество подписи через её полезность: качественная подпись должна позволять невизуальной языковой модели точно отвечать на вопросы о соответствующем изображении. CapRL использует двухэтапный декомпозированный процесс, в котором LVLM генерирует подпись, а объективное вознаграждение вычисляется на основе точности отдельной, не использующей визуальные данные LLM, отвечающей на вопросы с множественным выбором, основываясь исключительно на этой подписи. Будучи первым исследованием, применяющим RLVR к субъективной задаче генерации подписей, мы демонстрируем, что CapRL значительно улучшает результаты в различных настройках. Предварительное обучение на наборе данных CapRL-5M, аннотированном с помощью CapRL-3B, приводит к существенному улучшению на 12 бенчмарках. Более того, в рамках Prism Framework для оценки качества подписей CapRL достигает производительности, сопоставимой с Qwen2.5-VL-72B, при этом превосходя базовый уровень в среднем на 8,4%. Код доступен по ссылке: https://github.com/InternLM/CapRL.
Обучение с подкреплением с верифицируемыми наградами (RLVR) представляет собой мощный фреймворк для улучшения способностей к рассуждению у крупных языковых моделей (LLM). Однако текущие методы, такие как GRPO, полагаются исключительно на задачи, в которых ответы модели на один и тот же вход различаются по правильности, игнорируя те случаи, когда все ответы получают одинаковую награду — так называемые запросы с нулевой дисперсией. В данной работе мы утверждаем, что такие запросы не являются бесполезными, а, напротив, могут предоставлять ценные данные для оптимизации политики. С этой целью мы представляем обучение с подкреплением с запросами нулевой дисперсии (RL-ZVP) — новый алгоритм, который извлекает обучающие сигналы из таких запросов. RL-ZVP напрямую вознаграждает правильность и наказывает ошибки даже без контрастирования ответов, модулируя обратную связь с учетом характеристик на уровне токенов, чтобы сохранить информативные и тонкие сигналы. На шести бенчмарках математического рассуждения RL-ZVP демонстрирует значительные улучшения — до 8,61 балла в точности и 7,77 балла в проходном балле по сравнению с GRPO, при этом стабильно превосходя другие базовые методы, которые исключают запросы с нулевой дисперсией. Эти результаты подчеркивают неиспользованный потенциал обучения на основе запросов с нулевой дисперсией в RLVR.
Крупные языковые модели (LLMs) эволюционируют от систем для ведения диалогов к мощным инструментам для решения задач, таких как олимпиадная математика и соревновательное программирование. Хотя увеличение числа параметров и вычислительных ресурсов на этапе тестирования способствовало прогрессу, ключевым ограничением остается недостаток высококачественных учебных задач: ручная подготовка наборов данных дорогостояща и ограничена, а существующие синтетические корпуса часто слишком просты или узконаправлены. PromptCoT 1.0 показал, что добавление обоснований в синтез подсказок повышает сложность задач. Развивая эту идею, мы представляем PromptCoT 2.0 — масштабируемую структуру, которая заменяет ручные эвристики на цикл максимизации ожиданий (EM), где обоснования итеративно уточняются для построения подсказок. Это создает задачи, которые одновременно сложнее и разнообразнее, чем в предыдущих корпусах. Синтетические подсказки поддерживают два режима пост-обучения: (1) Самоигра, где сильные модели улучшаются автономно с помощью проверяемой обратной связи без участия более сильных учителей; и (2) Контролируемая тонкая настройка (SFT), где более слабые модели обучаются на траекториях, извлеченных учителями. Многочисленные эксперименты подтверждают эффективность этого подхода. В режиме самоигры применение PromptCoT 2.0 к модели Qwen3-30B-A3B-Thinking-2507 устанавливает новые рекорды на уровне 30B, с улучшениями на +4,4, +4,8 и +5,3 на AIME 24/25 и HMMT 25, +6,1 и +5,0 на LiveCodeBench v5/v6 и +35 Elo на Codeforces. В режиме SFT обучение модели Qwen2.5-7B-Instruct исключительно на синтетических подсказках повышает точность до 73,1 (AIME 24), 65,6 (AIME 25) и 53,4 (LiveCodeBench v5), превосходя модели, обученные на человеческих или гибридных данных. Анализ дополнительно подтверждает, что PromptCoT 2.0 создает принципиально более сложные и распределенно уникальные задачи. Эти результаты устанавливают синтез подсказок как новое направление для масштабирования рассуждений и позиционируют PromptCoT 2.0 как масштабируемую основу для будущих моделей с открытым исходным кодом. Реализация доступна по адресу https://github.com/inclusionAI/PromptCoT.
Способность роботов интерпретировать человеческие инструкции и выполнять задачи манипуляции требует наличия соответствующих сцен на столе для обучения. Однако традиционные методы создания таких сцен основываются на трудоемком ручном проектировании компоновки или полностью случайных расположениях, которые ограничены с точки зрения правдоподобия или соответствия задачам. В данной работе мы формулируем новую задачу, а именно генерацию сцен на столе, ориентированных на задачи, что представляет значительные трудности из-за существенного разрыва между высокоуровневыми инструкциями и сценами на столе. Для поддержки исследований в этой сложной области мы представляем MesaTask-10K, крупномасштабный набор данных, содержащий около 10 700 синтетических сцен на столе с тщательно разработанными компоновками, которые обеспечивают реалистичные расположения и сложные взаимосвязи между объектами. Чтобы преодолеть разрыв между задачами и сценами, мы предлагаем Spatial Reasoning Chain, которая разбивает процесс генерации на вывод объектов, рассуждение о пространственных взаимосвязях и построение графа сцены для окончательной 3D-компоновки. Мы представляем MesaTask, основанную на LLM структуру, которая использует эту цепочку рассуждений и дополнительно улучшена с помощью алгоритмов DPO для генерации физически правдоподобных сцен на столе, хорошо соответствующих заданным описаниям задач. Многочисленные эксперименты демонстрируют превосходство MesaTask по сравнению с базовыми методами в генерации сцен на столе, соответствующих задачам, с реалистичными компоновками. Страница проекта доступна по адресу https://mesatask.github.io/
Мы представляем LLaVA-OneVision-1.5, новое семейство крупных мультимодальных моделей (LMM), которые достигают передовых результатов при значительно сниженных вычислительных и финансовых затратах. В отличие от существующих работ, LLaVA-OneVision-1.5 предоставляет открытую, эффективную и воспроизводимую платформу для создания высококачественных моделей, связывающих зрение и язык, с нуля. Релиз LLaVA-OneVision-1.5 включает три основных компонента: (1) Крупномасштабные курируемые наборы данных: мы создали сбалансированный по концепциям набор данных для предварительного обучения LLaVA-OneVision-1.5-Mid-Training объемом 85 млн и тщательно отобранный набор данных с инструкциями LLaVA-OneVision-1.5-Instruct объемом 26 млн, которые вместе охватывают 64 млрд сжатых мультимодальных токенов. (2) Эффективная платформа обучения: мы разработали полную сквозную эффективную платформу обучения, использующую стратегию оффлайн-параллельной упаковки данных, что позволяет обучать LLaVA-OneVision-1.5 в рамках бюджета в $16 000. (3) Передовые результаты: экспериментальные данные показывают, что LLaVA-OneVision-1.5 демонстрирует исключительно конкурентоспособные результаты в широком спектре задач. В частности, LLaVA-OneVision-1.5-8B превосходит Qwen2.5-VL-7B на 18 из 27 бенчмарков, а LLaVA-OneVision-1.5-4B превосходит Qwen2.5-VL-3B на всех 27 бенчмарках. Мы ожидаем скорого релиза LLaVA-OneVision-1.5-RL и призываем сообщество ожидать дальнейших обновлений.
Автономные агенты в последнее время достигли значительного прогресса в различных областях, однако большинство оценок сосредоточено на задачах с коротким горизонтом и полной наблюдаемостью. В то же время многие важные задачи реального мира, такие как крупномасштабная разработка программного обеспечения, коммерческие инвестиции и научные открытия, разворачиваются в сценариях с длительным горизонтом и частичной наблюдаемостью, где успех зависит от устойчивого рассуждения, планирования, управления памятью и использования инструментов. Существующие бенчмарки редко охватывают эти долгосрочные вызовы, оставляя пробел в систематической оценке. Чтобы устранить этот пробел, мы представляем UltraHorizon — новый бенчмарк, который измеряет фундаментальные способности, необходимые для сложных задач реального мира. Мы используем исследование как универсальную задачу в трех различных средах для проверки этих ключевых компетенций. Агенты разработаны для задач долгосрочного открытия, где они должны итеративно раскрывать скрытые правила через устойчивое рассуждение, планирование, управление памятью и инструментами, а также взаимодействие с окружением. В наиболее масштабной настройке траектории в среднем превышают 200 тысяч токенов и 400 вызовов инструментов, тогда как в стандартных конфигурациях они все равно превышают 35 тысяч токенов и включают более 60 вызовов инструментов в среднем. Наши обширные эксперименты показывают, что агенты на основе языковых моделей (LLM) стабильно показывают низкие результаты в этих условиях, тогда как человеческие участники достигают более высоких баллов, что подчеркивает сохраняющийся разрыв в долгосрочных способностях агентов. Мы также наблюдаем, что простое масштабирование неэффективно в нашей задаче. Чтобы лучше проиллюстрировать неудачи агентов, мы проводим углубленный анализ собранных траекторий. Мы выделяем восемь типов ошибок и связываем их с двумя основными причинами: блокировкой в контексте и фундаментальными пробелами в функциональных возможностях. https://github.com/StarDewXXX/UltraHorizon{Наш код будет доступен здесь.}
Мы представляем See, Point, Fly (SPF) — бесплатную для обучения систему навигации на основе визуальных и языковых данных (AVLN), построенную на основе моделей, объединяющих зрение и язык (VLMs). SPF способна перемещаться к любой цели на основе любых свободных инструкций в любом типе окружения. В отличие от существующих подходов на основе VLMs, которые рассматривают предсказание действий как задачу генерации текста, наше ключевое понимание заключается в том, чтобы рассматривать предсказание действий для AVLN как задачу пространственного закрепления в 2D. SPF использует VLMs для разложения расплывчатых языковых инструкций на итеративную аннотацию 2D точек маршрута на входном изображении. Вместе с предсказанным расстоянием перемещения SPF преобразует предсказанные 2D точки маршрута в 3D векторы смещения, которые служат командами действий для БПЛА. Кроме того, SPF также адаптивно корректирует расстояние перемещения для обеспечения более эффективной навигации. Важно отметить, что SPF выполняет навигацию в режиме замкнутого управления, что позволяет БПЛА следовать за динамическими целями в динамических средах. SPF устанавливает новый эталон в бенчмарке симуляции DRL, превосходя предыдущий лучший метод на абсолютные 63%. В обширных реальных испытаниях SPF значительно превосходит сильные базовые методы. Мы также проводим всесторонние исследования для подчеркивания эффективности наших проектных решений. Наконец, SPF демонстрирует замечательную обобщаемость для различных VLMs. Страница проекта: https://spf-web.pages.dev
Посттренировочное сжатие больших языковых моделей (LLM) в значительной степени опирается на низкоранговую аппроксимацию весов, которая представляет каждый столбец матрицы весов в общем низкоразмерном подпространстве. Хотя это вычислительно эффективная стратегия, накладываемое структурное ограничение является жестким и может привести к заметному снижению точности модели. В данной работе мы предлагаем CoSpaDi (Compression via Sparse Dictionary Learning) — новый фреймворк для сжатия без дополнительного обучения, который заменяет низкоранговое разложение на более гибкую структурированную разреженную факторизацию, где каждая матрица весов представляется с использованием плотного словаря и столбцово-разреженной матрицы коэффициентов. Такая формулировка позволяет реализовать представление в виде объединения подпространств: различные столбцы исходной матрицы весов аппроксимируются в различных подпространствах, порожденных адаптивно выбранными атомами словаря, что обеспечивает большую выразительность по сравнению с использованием единого неизменного базиса. Важно, что CoSpaDi использует небольшой калибровочный набор данных для оптимизации факторизации таким образом, чтобы выходные активации сжатых проекционных слоев максимально соответствовали активациям исходных слоев, тем самым минимизируя ошибку функциональной реконструкции, а не просто аппроксимацию весов. Эта стратегия, учитывающая данные, позволяет сохранить высокую точность модели без дополнительной тонкой настройки при разумных коэффициентах сжатия. Более того, полученная структурированная разреженность позволяет эффективно выполнять умножение разреженных и плотных матриц и совместима с посттренировочной квантизацией для дальнейшего снижения требований к памяти и задержкам. Мы оцениваем CoSpaDi на нескольких моделях Llama и Qwen в условиях сжатия на уровне слоев и групп при коэффициентах сжатия 20-50%, демонстрируя стабильное превосходство над современными методами низкорангового сжатия, учитывающими данные, как по точности, так и по перплексии. Наши результаты подтверждают, что структурированное разреженное обучение словаря является мощной альтернативой традиционным низкоранговым подходам для эффективного развертывания LLM.
Растущие возможности крупных языковых моделей и мультимодальных систем стимулируют интерес к голосовым AI-ассистентам, однако существующие бенчмарки недостаточны для оценки полного спектра возможностей этих систем. Мы представляем VoiceAssistant-Eval — всеобъемлющий бенчмарк, разработанный для оценки AI-ассистентов по аспектам слушания, говорения и визуального восприятия. VoiceAssistant-Eval включает 10 497 тщательно отобранных примеров, охватывающих 13 категорий задач. Эти задачи включают естественные звуки, музыку и устный диалог для слушания; многоходовые диалоги, имитацию ролевых игр и различные сценарии для говорения; а также высоко гетерогенные изображения для визуального восприятия. Чтобы продемонстрировать его полезность, мы оцениваем 21 модель с открытым исходным кодом и GPT-4o-Audio, измеряя качество содержания и речи ответов, а также их согласованность. Результаты выявляют три ключевых вывода: (1) проприетарные модели не всегда превосходят модели с открытым исходным кодом; (2) большинство моделей хорошо справляются с задачами говорения, но отстают в понимании аудио; (3) хорошо спроектированные модели меньшего размера могут конкурировать с гораздо более крупными. Примечательно, что модель среднего размера Step-Audio-2-mini (7B) достигает более чем двукратной точности в задачах слушания по сравнению с LLaMA-Omni2-32B-Bilingual. Однако остаются вызовы: мультимодальные (аудио и визуальные) входные данные и задачи имитации голоса в ролевых играх сложны для современных моделей, а значительные пробелы сохраняются в устойчивости и безопасности. VoiceAssistant-Eval выявляет эти пробелы и устанавливает строгую основу для оценки и направления разработки AI-ассистентов следующего поколения. Код и данные будут опубликованы на https://mathllm.github.io/VoiceAssistantEval/.
Мы предлагаем новый подход для разделения визуальных и семантических признаков из базовых архитектур предобученных диффузионных моделей, что позволяет установить визуальное соответствие, аналогичное хорошо известному семантическому соответствию. Хотя известно, что базовые архитектуры диффузионных моделей кодируют семантически богатые признаки, они также должны содержать визуальные признаки для поддержки их способности синтезировать изображения. Однако выделение этих визуальных признаков является сложной задачей из-за отсутствия аннотированных наборов данных. Для решения этой проблемы мы представляем автоматизированный конвейер, который создает пары изображений с аннотированными семантическими и визуальными соответствиями на основе существующих наборов данных для генерации изображений, управляемых объектами, и разрабатываем контрастивную архитектуру для разделения этих двух типов признаков. Используя разделенные представления, мы предлагаем новую метрику — Visual Semantic Matching (VSM), которая количественно оценивает визуальные несоответствия в генерации изображений, управляемых объектами. Экспериментальные результаты показывают, что наш подход превосходит глобальные метрики на основе признаков, такие как CLIP, DINO и модели "визуальный язык", в количественной оценке визуальных несоответствий, а также позволяет локализовать несоответствующие области в пространстве. Насколько нам известно, это первый метод, который поддерживает как количественную оценку, так и локализацию несоответствий в генерации, управляемой объектами, предлагая ценный инструмент для продвижения этой задачи. Страница проекта: https://abdo-eldesokey.github.io/mind-the-glitch/
Универсальное восстановление изображений (UIR) ставит своей целью восстановление изображений, деградировавших из-за неизвестных смешений, при сохранении семантики — условий, при которых дискриминативные восстановители и диффузионные априори на основе UNet часто приводят к излишнему сглаживанию, галлюцинациям или смещениям. Мы представляем LucidFlux, фреймворк UIR, не требующий описаний, который адаптирует крупный диффузионный трансформер (Flux.1) без использования текстовых описаний изображений. LucidFlux вводит легковесный двухканальный кондиционер, который внедряет сигналы из деградировавшего входного изображения и слегка восстановленного прокси, чтобы закрепить геометрию и подавить артефакты соответственно. Затем разрабатывается адаптивный по времени и слоям график модуляции, чтобы направлять эти сигналы через иерархию основной архитектуры, обеспечивая обновления от грубого к детальному и контекстно-зависимые, что защищает глобальную структуру при восстановлении текстуры. Далее, чтобы избежать задержек и нестабильности текстовых подсказок или описаний от MLLM, мы обеспечиваем семантическое выравнивание без описаний через SigLIP-признаки, извлеченные из прокси. Масштабируемый конвейер курации дополнительно фильтрует крупномасштабные данные для обучения с богатой структурой. На синтетических и реальных тестах LucidFlux стабильно превосходит сильные открытые и коммерческие базовые методы, а исследования с удалением компонентов подтверждают необходимость каждого из них. LucidFlux демонстрирует, что для крупных DiT ключевым рычагом для надежного и не требующего описаний универсального восстановления изображений в реальных условиях является не добавление параметров или использование текстовых подсказок, а определение того, когда, где и на что накладывать условия.
Тонкая настройка (fine-tuning), фундаментальный метод адаптации больших языковых моделей, долгое время считалась неэффективной для редактирования моделей. В данной работе мы оспариваем это убеждение, утверждая, что заявленные неудачи связаны не с внутренними ограничениями самой тонкой настройки, а с её адаптацией к последовательной природе задачи редактирования, которая реализуется через однопроходный глубинный (depth-first) конвейер, оптимизирующий каждый образец до сходимости перед переходом к следующему. Хотя такой подход интуитивно понятен, этот глубинный конвейер в сочетании с пошаговым обновлением приводит к избыточной оптимизации каждого редактирования и вызывает взаимное влияние между правками. Наши контролируемые эксперименты показывают, что простое возвращение тонкой настройки к стандартному широтному (breadth-first, т.е. эпохальному) конвейеру с мини-батч оптимизацией существенно повышает её эффективность для редактирования моделей. Кроме того, тонкая настройка при редактировании также страдает от субоптимального выбора параметров настройки, унаследованного от предыдущих методов. Благодаря систематическому анализу мест настройки мы разработали LocFT-BF — простой и эффективный метод локализованного редактирования, основанный на восстановленной структуре тонкой настройки. Многочисленные эксперименты на различных языковых моделях и наборах данных демонстрируют, что LocFT-BF значительно превосходит современные методы. Примечательно, что, насколько нам известно, это первый метод, который поддерживает 100 тысяч правок и модели с 72 миллиардами параметров, что в 10 раз превышает предыдущие практики, без ущерба для общих возможностей. Развеяв давнее заблуждение и представив принципиальную стратегию локализованной настройки, мы превращаем тонкую настройку из недооцененного базового метода в ведущий подход для редактирования моделей, закладывая прочную основу для будущих исследований.
Системы агентов, основанные на больших языковых моделях (LLM), продемонстрировали впечатляющие результаты в задачах генерации кода на уровне репозиториев. Однако для задач, таких как генерация кодовой базы веб-сайтов, которые сильно зависят от визуальных эффектов и обратной связи от взаимодействия с пользователем, текущие агенты полагаются только на простое выполнение кода для получения обратной связи и проверки. Такой подход не позволяет оценить фактическое качество сгенерированного кода. В данной статье мы предлагаем WebGen-Agent — новый агент для генерации веб-сайтов, который использует комплексную и многоуровневую визуальную обратную связь для итеративной генерации и улучшения кодовой базы веб-сайта. Детальные и выразительные текстовые описания и предложения, касающиеся скриншотов и тестирования GUI-агента веб-сайтов, генерируются визуальной языковой моделью (VLM), а также предоставляются оценки, количественно определяющие их качество. Оценки скриншотов и GUI-агента интегрируются с механизмом возврата и выбора лучшего варианта, что повышает производительность агента. Используя точные визуальные оценки, встроенные в рабочий процесс WebGen-Agent, мы также представляем Step-GRPO с обратной связью по скриншотам и GUI-агенту, чтобы улучшить способность LLM выступать в качестве механизма рассуждения для WebGen-Agent. Используя оценки скриншотов и GUI-агента на каждом шаге в качестве награды в Step-GRPO, мы обеспечиваем плотный и надежный сигнал процессуального контроля, что эффективно повышает способность модели к генерации веб-сайтов. На наборе данных WebGen-Bench WebGen-Agent увеличивает точность Claude-3.5-Sonnet с 26,4% до 51,9% и его оценку внешнего вида с 3,0 до 3,9, превосходя предыдущую систему-лидер. Кроме того, наш подход к обучению Step-GRPO повышает точность Qwen2.5-Coder-7B-Instruct с 38,9% до 45,4% и увеличивает оценку внешнего вида с 3,4 до 3,7.
Современные крупные языковые модели (LLM) и крупные визуально-языковые модели (LVLM) всё чаще используют обучение с подкреплением (RL) для пост-предобучения, например, RL с проверяемыми наградами (RLVR) для объективных задач и RL на основе человеческой обратной связи (RLHF) для субъективных задач. Однако RLHF сопряжён с высокими затратами и потенциальным несоответствием между наградой и политикой из-за зависимости от человеческих предпочтений, в то время как RLVR всё ещё растрачивает ресурсы, отбрасывая траектории и сигналы корректности после каждого обновления. Для решения этих проблем мы представляем Synergistic Policy And Reward Co-Evolving Framework (SPARK) — эффективный, онлайновый и стабильный метод, основанный на RLVR. Вместо отбрасывания траекторий и данных о корректности SPARK перерабатывает эту ценную информацию для одновременного обучения самой модели в качестве генеративной модели наград. Это вспомогательное обучение использует смесь целей, таких как точечная оценка награды, попарное сравнение и оценка, основанная на ответах с дополнительным анализом, чтобы научить модель оценивать и улучшать свои собственные ответы. Наш процесс устраняет необходимость в отдельной модели наград и дорогостоящих данных о человеческих предпочтениях. SPARK создаёт положительную петлю обратной связи совместной эволюции: улучшенная точность наград приводит к более качественным градиентам политики, которые, в свою очередь, генерируют более качественные траектории, что дополнительно уточняет модель наград. Наш унифицированный фреймворк поддерживает масштабирование во время тестирования через самоанализ без внешних моделей наград и связанных с ними затрат. Мы показываем, что SPARK достигает значительного улучшения производительности на множестве моделей LLM и LVLM, а также на различных тестах на рассуждение, модели наград и общих бенчмарках. Например, SPARK-VL-7B демонстрирует средний прирост на 9,7% на 7 тестах на рассуждение, 12,1% на 2 тестах наград и 1,5% на 8 общих бенчмарках по сравнению с базовыми моделями, что подтверждает её устойчивость и широкую обобщаемость.
Retrieval-Augmented Generation (RAG) и Graph-based RAG стали важной парадигмой для расширения возможностей крупных языковых моделей (LLM) за счет внешних знаний. Однако существующие подходы сталкиваются с фундаментальным компромиссом. В то время как методы, основанные на графах, изначально зависят от высококачественных графовых структур, они имеют значительные практические ограничения: ручное построение графов знаний чрезвычайно дорого для масштабирования, а автоматически извлеченные графы из корпусов ограничены производительностью базовых LLM-экстракторов, особенно при использовании более компактных локально развернутых моделей. В данной статье представлен Think-on-Graph 3.0 (ToG-3), новый фреймворк, который вводит механизм Multi-Agent Context Evolution and Retrieval (MACER) для преодоления этих ограничений. Наше ключевое нововведение заключается в динамическом построении и уточнении гетерогенного графового индекса Chunk-Triplets-Community, который впервые включает двойной механизм эволюции: Evolving Query и Evolving Sub-Graph для точного извлечения доказательств. Этот подход устраняет критическое ограничение предыдущих методов Graph-based RAG, которые обычно строят статический графовый индекс за один проход без адаптации к фактическому запросу. Мультиагентная система, состоящая из агентов Constructor, Retriever, Reflector и Responser, совместно участвует в итеративном процессе извлечения доказательств, генерации ответов, оценки достаточности и, что особенно важно, эволюции запроса и подграфа. Эта двойная эволюция мультиагентной системы позволяет ToG-3 адаптивно строить целевой графовый индекс в процессе рассуждения, смягчая присущие недостатки статического одноразового построения графа и обеспечивая глубокое и точное рассуждение даже с использованием легковесных LLM. Многочисленные эксперименты демонстрируют, что ToG-3 превосходит базовые подходы как на тестах глубокого, так и широкого рассуждения, а исследования с исключением компонентов подтверждают эффективность фреймворка MACER.
Оценка планировки и трехмерное обнаружение объектов являются двумя фундаментальными задачами в понимании внутренних сцен. В сочетании они позволяют создавать компактное, но семантически насыщенное пространственное представление сцены. Существующие подходы обычно полагаются на входные данные в виде облака точек, что представляет собой серьезное ограничение, поскольку большинство потребительских камер не оснащены датчиками глубины, а визуальные данные остаются гораздо более распространенными. Мы решаем эту проблему с помощью TUN3D — первого метода, который решает задачи совместной оценки планировки и трехмерного обнаружения объектов в реальных сканах, используя в качестве входных данных изображения с нескольких ракурсов, и не требует истинных поз камер или данных о глубине. Наш подход основан на легковесной разреженной сверточной архитектуре и использует два специализированных модуля: один для трехмерного обнаружения объектов и один для оценки планировки, применяя новую и эффективную параметрическую модель представления стен. Многочисленные эксперименты показывают, что TUN3D достигает наилучших результатов на трех сложных тестах для понимания сцен: (i) с использованием истинных облаков точек, (ii) с использованием изображений с известными позами и (iii) с использованием изображений без известных поз. Хотя TUN3D демонстрирует результаты, сопоставимые с методами специализированного трехмерного обнаружения объектов, он значительно продвигает оценку планировки, устанавливая новый стандарт в целостном понимании внутренних сцен. Код доступен по адресу https://github.com/col14m/tun3d.
Крупные языковые модели, обученные на обширных корпусах текстов, успешно объединяют разнообразные лингвистические задачи в рамках единой генеративной архитектуры. Вдохновленные этим, недавние работы, такие как Large Vision Model (LVM), расширяют эту парадигму на область зрения, организуя задачи в последовательные визуальные предложения, где визуальные подсказки служат контекстом для управления выходными данными. Однако такое моделирование требует предварительного обучения, специфичного для задач, охватывающего различные модальности и источники, что является затратным и ограничивает масштабируемость на неизвестные задачи. Учитывая, что предварительно обученные модели генерации видео по своей природе захватывают временные последовательности, мы исследуем более унифицированную и масштабируемую альтернативу: может ли предварительно обученная модель генерации видео адаптироваться к разнообразным задачам обработки изображений и видео? Чтобы ответить на этот вопрос, мы предлагаем UniVid — фреймворк, который дообучает видео-диффузионный трансформер для выполнения различных задач в области зрения без специфичных для задач модификаций. Задачи представляются в виде визуальных предложений, где последовательность контекста определяет как задачу, так и ожидаемую модальность выходных данных. Мы оцениваем обобщающую способность UniVid с двух перспектив: (1) кросс-модальный вывод с контекстами, состоящими как из изображений, так и из видео, выходя за рамки унимодальной настройки LVM; (2) кросс-источниковые задачи, охватывающие как естественные, так и аннотированные данные, без предварительного обучения на множестве источников. Несмотря на обучение исключительно на естественных видеоданных, UniVid демонстрирует хорошую обобщающую способность в обоих сценариях. Примечательно, что задачи понимания и генерации могут легко переключаться простым изменением порядка визуальных предложений в этой парадигме. Эти результаты подчеркивают потенциал предварительно обученных моделей генерации видео служить масштабируемой и унифицированной основой для моделирования в области зрения. Наш код будет доступен по адресу https://github.com/CUC-MIPG/UniVid.
Агенты с графическим пользовательским интерфейсом (GUI) стремятся автоматизировать широкий спектр человеческих задач, имитируя взаимодействие пользователя. Несмотря на быстрый прогресс, современные подходы сталкиваются с несколькими критическими проблемами: узким местом в данных при сквозном обучении, высокой стоимостью задержек в обнаружении ошибок и риском противоречивых указаний. Вдохновленные когнитивным циклом человека, включающим Мышление, Согласование и Рефлексию, мы представляем D-Artemis — новую концептуальную структуру в данной статье. D-Artemis использует детализированный механизм извлечения подсказок, специфичных для приложений, чтобы информировать процесс принятия решений. Он также включает активный этап Предварительного Согласования, где модуль Проверки Согласованности Мыслей и Действий (TAC) и Агент Коррекции Действий (ACA) работают совместно для снижения риска сбоев выполнения. Агент Рефлексии Состояния (SRA) после выполнения завершает когнитивный цикл, позволяя стратегическое обучение на основе опыта. Важно отметить, что D-Artemis расширяет возможности универсальных мультимодальных больших языковых моделей (MLLMs) для задач GUI без необходимости обучения на сложных наборах данных траекторий, демонстрируя сильную обобщаемость. D-Artemis устанавливает новые передовые результаты (SOTA) на обоих основных тестовых наборах, достигая 75,8% успешности на AndroidWorld и 96,8% на ScreenSpot-V2. Обширные исследования по удалению компонентов дополнительно демонстрируют значительный вклад каждого элемента в структуру.
Тонкая настройка с подкреплением (Reinforcement Fine-Tuning, RFT) часто сталкивается с проблемой чрезмерной оптимизации вознаграждения, когда модель политики манипулирует сигналами вознаграждения для достижения высоких баллов, при этом генерируя низкокачественные результаты. Наш теоретический анализ показывает, что ключевая проблема заключается в некорректной спецификации вознаграждения в области высоких значений: неспособность надежно отличать "Отличные" ответы от просто "Хороших". Это мотивирует нас сосредоточиться на области высоких вознаграждений. Однако такие примеры из "хвоста" распределения редки в базовой языковой модели (LLM). Хотя внеполитические примеры (например, от более сильных моделей или переписанные тексты) получить проще, их наивное использование для обучения приводит к некорректной спецификации вознаграждения для политики, которую мы стремимся согласовать. Для решения этой проблемы мы исследуем вознаграждения, основанные на рубриках. По своей сути, рубрики позволяют использовать внеполитические примеры, оставаясь при этом нечувствительными к их артефактам. Чтобы разработать рубрики, которые охватывают область высоких вознаграждений, мы подчеркиваем важность различения между великолепными и разнообразными ответами и предлагаем рабочий процесс для реализации этой идеи. Эмпирически мы демонстрируем, что вознаграждения на основе рубрик существенно снижают проблему чрезмерной оптимизации вознаграждения и обеспечивают эффективное улучшение пост-обучения LLM. Наш код доступен по адресу https://github.com/Jun-Kai-Zhang/rubrics.git.
Люди развивают понимание интуитивной физики через активное взаимодействие с миром. Этот подход резко контрастирует с современными видеомоделями, такими как Sora, которые полагаются на пассивное наблюдение и поэтому испытывают трудности с пониманием физической причинности. Это наблюдение приводит к нашей центральной гипотезе: подлинное физическое интуитивное понимание модели мира должно быть основано на обширных, причинно-богатых взаимодействиях с реальным миром. Чтобы проверить эту гипотезу, мы представляем WoW, генеративную модель мира с 14 миллиардами параметров, обученную на 2 миллионах траекторий взаимодействия роботов. Наши результаты показывают, что понимание физики моделью представляет собой вероятностное распределение правдоподобных исходов, что приводит к стохастической нестабильности и физическим галлюцинациям. Кроме того, мы демонстрируем, что эту возникающую способность можно активно ограничивать в сторону физической реалистичности с помощью SOPHIA, где агенты модели "визуальный язык" оценивают сгенерированный DiT вывод и направляют его уточнение путем итеративного развития языковых инструкций. Дополнительно, совместно обученная модель обратной динамики переводит эти уточненные планы в исполняемые роботизированные действия, замыкая цикл от воображения к действию. Мы создаем WoWBench, новый бенчмарк, ориентированный на физическую согласованность и причинно-следственные рассуждения в видео, где WoW демонстрирует передовые результаты как в человеческой, так и в автономной оценке, показывая сильные способности в физической причинности, динамике столкновений и постоянстве объектов. Наша работа предоставляет систематические доказательства того, что крупномасштабное взаимодействие с реальным миром является краеугольным камнем для развития физической интуиции в ИИ. Модели, данные и бенчмарки будут открыты для общего доступа.
Обучение с подкреплением (RL) является доминирующей парадигмой для повышения стратегических способностей использования инструментов крупными языковыми моделями (LLM) в задачах агентов с длительным горизонтом и редкими вознаграждениями. Однако оно сталкивается с фундаментальной проблемой компромисса между исследованием и эксплуатацией. Существующие исследования стимулируют исследование через призму энтропии политики, но такое механическое максимизирование энтропии склонно к нестабильности обучения RL из-за многократного смещения распределения. В данной статье мы сосредотачиваемся на прогрессивном балансе между исследованием и эксплуатацией под руководством собственного опыта агента, избегая как коллапса энтропии, так и неконтролируемой дивергенции. Мы предлагаем SPEAR, подход на основе учебного плана для самоимитационного обучения (SIL) при обучении агентных LLM. Он расширяет базовый фреймворк SIL, где буфер воспроизведения хранит самостоятельно сгенерированные перспективные траектории для внеполитического обновления, постепенно направляя эволюцию политики в пределах сбалансированного диапазона энтропии на различных этапах. В частности, наш подход включает учебный план для управления процессом исследования, используя внутренние вознаграждения для стимулирования исследования на уровне навыков и облегчая исследование на уровне действий через SIL. Вначале вспомогательное вознаграждение за вызов инструмента играет ключевую роль в накоплении навыков использования инструментов, обеспечивая широкое знакомство с незнакомыми распределениями обратной связи среды с тенденцией к увеличению энтропии. По мере прогресса обучения самоимитация усиливается для эксплуатации существующих успешных паттернов из воспроизведенного опыта, ускоряя итерацию решений без неограниченного роста энтропии. Для дальнейшей стабилизации обучения мы перекалибруем преимущества опыта в буфере воспроизведения, чтобы устранить потенциальный дрейф политики. Регуляризации, такие как обрезка токенов с высокой ковариацией между вероятностью и преимуществом, вводятся для контроля энтропии на уровне траекторий, чтобы сдерживать излишнюю уверенность.
Благодаря простоте и эффективности Dense O2O и MAL, DEIM стал основным фреймворком для обучения моделей DETR в реальном времени, значительно превосходя серию YOLO. В данной работе мы расширяем его с использованием функций DINOv3, что приводит к созданию DEIMv2. DEIMv2 охватывает восемь размеров моделей от X до Atto, подходящих для развертывания на GPU, на периферийных устройствах и мобильных платформах. Для вариантов X, L, M и S мы используем предобученные или дистиллированные базовые архитектуры DINOv3 и вводим Spatial Tuning Adapter (STA), который эффективно преобразует одноразмерный выход DINOv3 в многоразмерные признаки, дополняя сильную семантику детализированными данными для улучшения обнаружения. Для сверхлегких моделей (Nano, Pico, Femto и Atto) мы применяем HGNetv2 с обрезкой по глубине и ширине, чтобы соответствовать строгим ограничениям ресурсов. В сочетании с упрощенным декодером и улучшенным Dense O2O, этот унифицированный подход позволяет DEIMv2 достичь оптимального баланса между производительностью и затратами в различных сценариях, устанавливая новые рекорды. В частности, наша крупнейшая модель, DEIMv2-X, достигает 57.8 AP при всего 50.3 миллионах параметров, превосходя предыдущие модели X-масштаба, которые требуют более 60 миллионов параметров для достижения всего 56.5 AP. Среди компактных моделей, DEIMv2-S стала первой моделью с менее чем 10 миллионами параметров (9.71 миллиона), преодолевшей рубеж 50 AP на COCO, достигнув 50.9 AP. Даже сверхлегкая DEIMv2-Pico, с всего 1.5 миллионами параметров, демонстрирует 38.5 AP, что соответствует YOLOv10-Nano (2.3 миллиона) при примерно на 50% меньшем количестве параметров. Наш код и предобученные модели доступны по адресу https://github.com/Intellindust-AI-Lab/DEIMv2.
Мы представляем X-Streamer — сквозную мультимодальную платформу для моделирования человеческого мира, предназначенную для создания цифровых агентов, способных к бесконечным взаимодействиям через текст, речь и видео в рамках единой архитектуры. Начиная с одного портрета, X-Streamer обеспечивает возможность проведения открытых видеозвонков в реальном времени, управляемых потоковыми мультимодальными входами. В основе системы лежит архитектура Thinker-Actor с двумя трансформерами, которая объединяет мультимодальное понимание и генерацию, превращая статичный портрет в устойчивые и интеллектуальные аудиовизуальные взаимодействия. Модуль Thinker воспринимает и анализирует потоковые входные данные пользователя, а его скрытые состояния преобразуются модулем Actor в синхронизированные мультимодальные потоки в реальном времени. Конкретно, Thinker использует предобученную крупномасштабную языково-речевую модель, в то время как Actor применяет пошаговую авторегрессионную диффузионную модель, которая учитывает скрытые состояния Thinker для генерации временно согласованных мультимодальных ответов с чередующимися дискретными текстовыми и аудио токенами, а также непрерывными видео латентными представлениями. Для обеспечения долгосрочной стабильности мы разработали меж- и внутришаговые механизмы внимания с временно согласованными мультимодальными позиционными эмбеддингами для точного кросс-модального выравнивания и сохранения контекста, дополнительно усиленные шаговым диффузионным принуждением и глобальным ссыланием на идентичность. X-Streamer работает в реальном времени на двух GPU A100, поддерживая многочасовые согласованные видеозвонки с произвольных портретов и прокладывая путь к унифицированному моделированию мира интерактивных цифровых людей.
Эффективная обработка изображений с высоким разрешением имеет решающее значение для практических приложений, объединяющих зрение и язык. Однако существующие крупные модели обработки визуальных и языковых данных (LVLMs) требуют значительных вычислительных ресурсов из-за большого количества визуальных токенов. С появлением моделей, способных "мыслить с помощью изображений", рассуждения теперь выходят за рамки текста и охватывают визуальную область. Эта возможность вдохновила нас на создание двухэтапного подхода "от грубого к точному": сначала анализируется уменьшенное изображение для выявления областей, релевантных задаче; затем только эти области вырезаются в полном разрешении и обрабатываются на следующем этапе рассуждений. Такой подход снижает вычислительные затраты, сохраняя при необходимости детализированные визуальные данные. Основная сложность заключается в определении того, какие области действительно важны для конкретного запроса. Современные методы часто терпят неудачу на первом этапе после уменьшения разрешения изображения из-за восприятия, основанного на рассуждениях, где для эффективного анализа требуется четкая визуальная информация. Чтобы решить эту проблему, мы предлагаем модель ERGO (Efficient Reasoning & Guided Observation), которая выполняет рассуждения, управляемые восприятием, используя мультимодальный контекст для определения фокуса внимания. Наша модель учитывает неопределенность восприятия, расширяя область обрезки для охвата визуально неоднозначных участков при ответах на вопросы. Для этого мы разработали простые, но эффективные компоненты вознаграждения в рамках обучения с подкреплением для восприятия "от грубого к точному". На нескольких наборах данных наш подход демонстрирует более высокую точность по сравнению с исходной моделью и конкурирующими методами, обеспечивая при этом большую эффективность. Например, ERGO превосходит Qwen2.5-VL-7B на бенчмарке V* на 4.7 балла, используя только 23% визуальных токенов, что ускоряет вывод в 3 раза. Код и модели доступны по адресу: https://github.com/nota-github/ERGO.
Большинство существующих подходов к сегментации по ссылкам достигают высокой производительности только за счет тонкой настройки или комбинирования нескольких предварительно обученных моделей, что часто сопровождается дополнительными затратами на обучение и модификацией архитектуры. В то же время крупномасштабные генеративные диффузионные модели кодируют богатую семантическую информацию, что делает их привлекательными в качестве универсальных экстракторов признаков. В данной работе мы представляем новый метод, который напрямую использует признаки и оценки внимания из диффузионных трансформеров для решения последующих задач, не требуя ни модификации архитектуры, ни дополнительного обучения. Для систематической оценки этих признаков мы расширяем бенчмарки задачами визуально-языкового заземления, охватывающими как изображения, так и видео. Наше ключевое наблюдение заключается в том, что стоп-слова действуют как магниты внимания: они накапливают избыточное внимание и могут быть отфильтрованы для снижения шума. Более того, мы выявляем глобальные "стоки внимания" (GAS), возникающие в более глубоких слоях, и показываем, что их можно безопасно подавить или перенаправить на вспомогательные токены, что приводит к более четким и точным картам заземления. Мы также предлагаем стратегию перераспределения внимания, при которой добавленные стоп-слова разделяют фоновые активации на меньшие кластеры, создавая более четкие и локализованные тепловые карты. На основе этих результатов мы разрабатываем RefAM — простую, не требующую обучения структуру для заземления, которая объединяет карты перекрестного внимания, обработку GAS и перераспределение. На бенчмарках для сегментации изображений и видео по ссылкам в условиях нулевого обучения наш подход стабильно превосходит предыдущие методы, устанавливая новый эталон без тонкой настройки или дополнительных компонентов.
Редактирование изображений с использованием текстовых подсказок и моделей диффузии достигло впечатляющего качества, однако сталкивается с чрезмерной задержкой, что ограничивает его применение в реальных задачах. Мы представляем FlashEdit — новый фреймворк, разработанный для обеспечения высококачественного редактирования изображений в реальном времени. Его эффективность основана на трех ключевых инновациях: (1) конвейер One-Step Inversion-and-Editing (OSIE), который исключает затратные итеративные процессы; (2) техника Background Shield (BG-Shield), гарантирующая сохранение фона за счет избирательного изменения признаков только в области редактирования; и (3) механизм Sparsified Spatial Cross-Attention (SSCA), обеспечивающий точные локализованные правки за счет подавления семантического "просачивания" на фон. Многочисленные эксперименты показывают, что FlashEdit сохраняет превосходную согласованность фона и структурную целостность, выполняя редактирование менее чем за 0,2 секунды, что более чем в 150 раз быстрее по сравнению с предыдущими многошаговыми методами. Наш код будет доступен публично по адресу https://github.com/JunyiWuCode/FlashEdit.
Разработка ИИ-систем, которые эффективно работают на разных языках, оставаясь при этом культурно укорененными, представляет собой давнюю проблему, особенно в условиях ограниченных ресурсов. Синтетические данные предлагают многообещающий путь, однако их эффективность в многоязычных и мультикультурных контекстах остается недостаточно изученной. Мы исследуем создание и влияние синтетических, культурно контекстуализированных наборов данных для индийских языков с использованием стратегии генерации снизу вверх, которая побуждает крупные открытые языковые модели (>= 235 млрд параметров) основывать генерацию данных на контенте из языковых версий Википедии. Этот подход дополняет доминирующую парадигму перевода синтетических наборов данных с языков с высоким уровнем ресурсов, таких как английский. Мы представляем Updesh — высококачественный крупномасштабный синтетический набор данных для выполнения инструкций, состоящий из 9,5 млн данных на 13 индийских языках, охватывающих разнообразные задачи на рассуждение и генерацию с акцентом на длинные контексты, многоходовые взаимодействия и соответствие индийским культурным контекстам. Комплексная оценка, включающая как автоматизированные метрики, так и аннотирование людьми на основе 10 тыс. проверок, показывает, что сгенерированные данные имеют высокое качество, хотя человеческая оценка указывает на области для дальнейшего улучшения. Кроме того, мы проводим последующие оценки, дообучая модели на нашем наборе данных и проверяя их производительность на 15 разнообразных многоязычных наборах данных. Модели, обученные на Updesh, стабильно демонстрируют значительные улучшения в задачах генерации и остаются конкурентоспособными в задачах понимания естественного языка с множественным выбором. Примечательно, что относительные улучшения наиболее заметны в языках с низким и средним уровнем ресурсов, сокращая их разрыв с языками с высоким уровнем ресурсов. Эти результаты предоставляют эмпирические доказательства того, что эффективный многоязычный ИИ требует многогранных стратегий курирования и генерации данных, которые включают контекстно-зависимые, культурно укорененные методологии.
Авторегрессивные (AR) трансформеры стали мощной парадигмой для визуальной генерации, во многом благодаря своей масштабируемости, вычислительной эффективности и унифицированной архитектуре, объединяющей язык и зрение. Среди них метод визуальной авторегрессивной генерации (VAR), основанный на предсказании следующего масштаба, недавно продемонстрировал выдающиеся результаты, даже превзойдя модели, основанные на диффузии. В данной работе мы возвращаемся к VAR и раскрываем теоретическое понимание: при использовании марковской маски внимания VAR математически эквивалентен дискретной диффузии. Мы называем эту переинтерпретацию Scalable Visual Refinement with Discrete Diffusion (SRDD), устанавливая принципиальную связь между AR-трансформерами и моделями диффузии. Используя эту новую перспективу, мы показываем, как можно напрямую перенести преимущества диффузии, такие как итеративное уточнение и снижение архитектурной неэффективности, в VAR, что приводит к более быстрой сходимости, снижению затрат на вывод и улучшенной реконструкции в условиях zero-shot. На множестве наборов данных мы демонстрируем, что подход к VAR с точки зрения диффузии обеспечивает стабильные улучшения в эффективности и качестве генерации.
Мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие способности в согласовании визуальных входных данных с естественно-языковыми выходами. Однако степень, в которой генерируемые токены зависят от визуальных модальностей, остается плохо изученной, что ограничивает интерпретируемость и надежность. В данной работе мы представляем EAGLE — легковесный черно-ящичный фреймворк для объяснения авторегрессивной генерации токенов в MLLMs. EAGLE связывает выбранные токены с компактными перцептивными областями, одновременно количественно оценивая относительное влияние языковых априорных данных и перцептивных свидетельств. Фреймворк вводит целевую функцию, объединяющую достаточность (оценка инсайта) и незаменимость (оценка необходимости), которая оптимизируется с помощью жадного поиска по разреженным областям изображения для точного и эффективного атрибутирования. Помимо пространственного атрибутирования, EAGLE выполняет модально-ориентированный анализ, который разграничивает, на что опираются токены, обеспечивая детальную интерпретируемость решений модели. Многочисленные эксперименты с открытыми MLLMs показывают, что EAGLE стабильно превосходит существующие методы по точности, локализации и диагностике галлюцинаций, при этом требуя значительно меньше памяти GPU. Эти результаты подчеркивают его эффективность и практичность для повышения интерпретируемости MLLMs. Код доступен по адресу https://github.com/RuoyuChen10/EAGLE.
Хотя диффузионные модели достигли значительных успехов в генерации изображений, их результаты всё ещё могут выглядеть неестественно и недостаточно детализированными, особенно при использовании меньшего числа вычислений нейронных функций (NFEs) или более низких значений масштаба направленности (guidance scale). Для решения этой проблемы мы предлагаем новую технику сэмплинга на основе импульса, названную исторически-ориентированным сэмплингом (HiGS), которая повышает качество и эффективность диффузионного сэмплинга за счёт интеграции последних предсказаний модели на каждом шаге вывода. В частности, HiGS использует разницу между текущим предсказанием и взвешенным средним прошлых предсказаний, чтобы направлять процесс сэмплинга в сторону более реалистичных результатов с улучшенными деталями и структурой. Наш подход практически не требует дополнительных вычислений и легко интегрируется в существующие диффузионные фреймворки, не требуя дополнительного обучения или тонкой настройки. Многочисленные эксперименты показывают, что HiGS стабильно улучшает качество изображений в различных моделях и архитектурах, а также при различных бюджетах сэмплинга и масштабах направленности. Более того, используя предобученную модель SiT, HiGS достигает нового рекордного значения FID, равного 1.61, для ненаправленной генерации ImageNet с разрешением 256×256 всего за 30 шагов сэмплинга (вместо стандартных 250). Таким образом, мы представляем HiGS как готовое к использованию улучшение стандартного диффузионного сэмплинга, которое позволяет ускорить генерацию с более высокой точностью.
Точное распознавание текста в исторических документах может значительно продвинуть изучение и сохранение культурного наследия. Однако существующие модели, объединяющие зрение и язык (VLMs), разработаны для современных стандартизированных текстов и не способны читать разнообразные языки и письменности, нерегулярные макеты и часто встречающиеся повреждения, характерные для исторических материалов. В данной статье представлена CHURRO — открытая модель VLM с 3 миллиардами параметров, специализированная для распознавания исторических текстов. Модель обучена на CHURRO-DS, крупнейшем на сегодняшний день наборе данных для распознавания исторических текстов. CHURRO-DS объединяет 155 исторических корпусов, включающих 99 491 страницу, охватывающих 22 века текстового наследия на 46 языковых группах, включая исторические варианты и мертвые языки. Мы оценили несколько открытых и закрытых моделей VLM, а также систем оптического распознавания символов (OCR) на CHURRO-DS и обнаружили, что CHURRO превосходит все другие модели VLM. На тестовом наборе CHURRO-DS CHURRO достигает 82,3% (печатный текст) и 70,1% (рукописный текст) нормализованного сходства по Левенштейну, опережая вторую лучшую модель, Gemini 2.5 Pro, на 1,4% и 6,5% соответственно, при этом будучи в 15,5 раз более экономически эффективной. Публикуя модель и набор данных, мы стремимся способствовать исследованиям, проводимым сообществом, для улучшения читаемости исторических текстов и ускорения научных изысканий.
Хотя модели на основе архитектуры Transformer продемонстрировали выдающуюся производительность в задачах языкового моделирования, их высокая сложность приводит к значительным затратам при обработке длинных контекстов. В то же время рекуррентные нейронные сети (RNN), такие как модели с линейным вниманием и модели пространства состояний, приобрели популярность благодаря их постоянной сложности на один токен. Однако эти рекуррентные модели сталкиваются с трудностями в задачах, требующих точного воспроизведения контекстной информации из длинных контекстов, поскольку вся контекстная информация сжимается в состояние постоянного размера. Предыдущие исследования показали, что способность к воспроизведению положительно коррелирует с размером рекуррентного состояния, однако прямое обучение RNN с увеличенными состояниями приводит к высоким затратам на обучение. В данной работе мы представляем StateX — конвейер обучения для эффективного расширения состояний предварительно обученных RNN посредством пост-обучения. Для двух популярных классов RNN — моделей с линейным вниманием и моделей пространства состояний — мы разработали архитектурные модификации для пост-обучения, позволяющие увеличить размер состояния без или с незначительным увеличением числа параметров модели. Эксперименты на моделях с числом параметров до 1,3 миллиарда демонстрируют, что StateX эффективно улучшает способность RNN к воспроизведению и обучению в контексте без высоких затрат на пост-обучение и без ущерба для других возможностей.
Преобладающие системы поиска видео по тексту в основном используют модели внедрения для извлечения признаков и вычисления косинусных сходств для ранжирования. Однако этот подход имеет два ограничения. Низкокачественные пары текст-видео могут ухудшить результаты поиска, но их сложно выявить и проанализировать. Косинусное сходство само по себе не предоставляет объяснений для результатов ранжирования, что ограничивает интерпретируемость. Мы задаемся вопросом: можем ли мы интерпретировать результаты ранжирования, чтобы оценить модели поиска и проанализировать данные текст-видео? В данной работе предлагается X-CoT, объяснимый фреймворк для поиска, основанный на рассуждениях CoT (Chain-of-Thought) с использованием крупных языковых моделей (LLM) вместо ранжирования на основе моделей внедрения. Сначала мы расширяем существующие бенчмарки дополнительными аннотациями видео для поддержки семантического понимания и снижения смещения данных. Также мы разрабатываем CoT для поиска, состоящий из шагов попарного сравнения, что позволяет получить детализированные рассуждения и полное ранжирование. X-CoT эмпирически улучшает производительность поиска и предоставляет подробные обоснования. Кроме того, он способствует анализу поведения модели и качества данных. Код и данные доступны по адресу: https://github.com/PrasannaPulakurthi/X-CoT.
Обучение с подкреплением с использованием человеческой обратной связи (RLHF) и обучение с подкреплением с проверяемыми наградами (RLVR) являются основными парадигмами RL, используемыми в пост-обучении крупных языковых моделей (LLM), каждая из которых предлагает свои преимущества. Однако RLHF сталкивается с проблемами интерпретируемости и манипуляции наградами, поскольку полагается на человеческие суждения, которые обычно не имеют явных критериев, тогда как RLVR ограничен в охвате из-за своей ориентации на проверки, основанные на корректности. Мы предлагаем обучение с подкреплением с бинарной гибкой обратной связью (RLBFF), которое сочетает универсальность предпочтений, задаваемых человеком, с точностью проверок на основе правил, позволяя моделям наград учитывать тонкие аспекты качества ответов, выходящие за рамки простой корректности. RLBFF извлекает принципы, которые могут быть оценены бинарно (например, точность информации: да, или читаемость кода: нет) из естественно-языковой обратной связи. Такие принципы затем могут быть использованы для обучения модели наград как задачи вывода (ответ удовлетворяет или не удовлетворяет произвольному принципу). Мы показываем, что модели наград, обученные таким образом, могут превосходить модели Брэдли-Терри при равных объемах данных и достигают наивысших результатов на RM-Bench (86,2%) и JudgeBench (81,4%, первое место в рейтинге на 24 сентября 2025 года). Кроме того, пользователи могут указывать интересующие их принципы на этапе вывода, чтобы настроить фокус наших моделей наград, в отличие от моделей Брэдли-Терри. Наконец, мы представляем полностью открытый рецепт (включая данные) для выравнивания модели Qwen3-32B с использованием RLBFF и нашей модели наград, чтобы достичь или превзойти производительность o3-mini и DeepSeek R1 на общих бенчмарках выравнивания MT-Bench, WildBench и Arena Hard v2 (при затратах на вывод менее 5%).
Системы автоматизированного проектирования (САПР) являются фундаментальным компонентом промышленного прототипирования, где модели определяются не через сырые координаты, а через последовательности построений, такие как эскизы и выдавливания. Эта последовательная структура позволяет как эффективно инициализировать прототипы, так и впоследствии редактировать их. Текстово-управляемое прототипирование в САПР, объединяющее генерацию "текст-в-САПР" и редактирование САПР, имеет потенциал для оптимизации всего процесса проектирования. Однако предыдущие работы не исследовали этот подход, в основном потому, что стандартные токенизаторы больших языковых моделей (LLM) разбивают последовательности САПР на фрагменты естественного языка, не улавливая семантику на уровне примитивов САПР и препятствуя модулям внимания в моделировании геометрической структуры. Мы предполагаем, что мультимодальная стратегия токенизации, согласованная с примитивной и структурной природой САПР, может обеспечить более эффективные представления. В связи с этим мы предлагаем CAD-Tokenizer — фреймворк, который представляет данные САПР с помощью модально-специфичных токенов, используя последовательностный VQ-VAE с пулингом на уровне примитивов и ограниченным декодированием. Этот подход создает компактные, осознающие примитивы представления, которые соответствуют структурной природе САПР. Примененный к унифицированному текстово-управляемому прототипированию в САПР, CAD-Tokenizer значительно улучшает следование инструкциям и качество генерации, демонстрируя лучшие количественные и качественные результаты по сравнению как с универсальными LLM, так и с узкоспециализированными базовыми моделями.
Локализация 3D-объектов на основе последовательности измерений с камеры является важной задачей для критически важных систем наблюдения, таких как мониторинг лесных пожаров с использованием дронов. Локализация объектов, обнаруженных с помощью камеры, обычно может быть решена с использованием плотного оценивания глубины или реконструкции 3D-сцены. Однако в случаях с удаленными объектами или задачами, ограниченными объемом доступных вычислительных ресурсов, ни одно из этих решений не является осуществимым. В данной работе мы показываем, что эту задачу можно решить с использованием фильтров частиц как для сценариев с одним, так и с несколькими целями. Метод был изучен с использованием 3D-симуляции и последовательности сегментации изображений с дрона с оценками положения камеры на основе глобальной навигационной спутниковой системы (GNSS). Результаты показали, что фильтр частиц может быть использован для решения практических задач локализации на основе положений камеры и сегментов изображений в ситуациях, где другие методы не работают. Фильтр частиц не зависит от метода обнаружения, что делает его гибким для новых задач. Исследование также демонстрирует, что мониторинг лесных пожаров с использованием дронов может быть проведен с использованием предложенного метода в сочетании с уже существующей моделью сегментации изображений.
Вызов функций является ключевой возможностью больших языковых моделей, необходимой для работы ИИ-агентов. Существующие бенчмарки, такие как Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) и ACEBench (arXiv:2501.12851), оценивают корректность аргументов, но не проверяют соблюдение инструкций по форматированию, встроенных в описания параметров, таких как заключение значений в двойные кавычки или использование форматов дат по стандарту ISO. Мы представляем IFEval-FC — бенчмарк, вдохновленный IFEval (arXiv:2311.07911), который оценивает точное следование инструкциям при вызове функций. IFEval-FC кодирует проверяемые форматы непосредственно в описаниях JSON-схем, например, указывая, что значение не должно содержать знаков препинания. Он включает 750 тестовых случаев, каждый из которых состоит из функции с встроенным форматом для одного из её входных параметров и соответствующего пользовательского запроса. Оценка полностью алгоритмизирована, что обеспечивает объективность, воспроизводимость и масштабируемость. Наши результаты показывают, что даже передовые проприетарные модели, включая GPT-5 и Claude 4.1 Opus, часто не следуют базовым правилам форматирования, что подчеркивает практическое ограничение для реальных систем агентов. Полный код и данные доступны публично по адресу https://github.com/Skripkon/IFEval-FC.