Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Ling 2.0 — серию языковых фундаментальных моделей, ориентированных на логический вывод, построенную на принципе, согласно которому каждая активация усиливает способность к рассуждению. Разработанная для масштабирования от десятков миллиардов до одного триллиона параметров в рамках единой парадигмы смеси экспертов (MoE), серия Ling 2.0 делает акцент на высокой разреженности, межмасштабной согласованности и эффективности, руководствуясь эмпирическими законами масштабирования. Серия включает три «не-рассуждающие» (инструктивные) модели — Ling-mini-2.0, Ling-flash-2.0 и Ling-1T — с общим числом параметров от 16 млрд до 1 трлн, достигая до 7-кратной эффективности по активным вычислениям по сравнению с плотными аналогами. Ling 2.0 объединяет скоординированные инновации в области архитектуры модели, предварительного обучения, пост-обучения и инфраструктуры: высокоразреженную MoE с MTP для эффективного логического вывода, данные, ориентированные на рассуждения, и активацию CoT в процессе обучения, тонкую настройку на основе обучения с подкреплением (DFT, Evo-CoT), а также полномасштабное обучение в формате FP8 с детализированными гетерогенными конвейерами. На триллионном масштабе модель Ling-1T устанавливает новый парето-фронт для соотношения точности логического вывода и вычислительной эффективности, демонстрируя, что разреженная активация при правильном согласовании с целями рассуждения позволяет достичь масштабируемого и эффективного интеллекта. В совокупности Ling 2.0 представляет собой последовательную, открытую и эффективную основу для развития будущих моделей логического вывода и мышления, включая серию Ring, построенную на той же базе.
Неявные политики, параметризованные генеративными моделями, такие как Diffusion Policy, стали стандартом для обучения политик и моделей «Видение-Язык-Действие» (VLA) в робототехнике. Однако эти подходы часто страдают от высоких вычислительных затрат, смещения воздействия (exposure bias) и нестабильной динамики вывода, что приводит к расхождению при сдвигах распределения. Модели на основе энергии (Energy-Based Models, EBMs) решают эти проблемы, обучая энергетические ландшафты сквозным образом и моделируя равновесную динамику, что обеспечивает повышенную робастность и снижение смещения воздействия. Тем не менее, политики, параметризованные EBMs, исторически плохо масштабировались. Недавние работы по Трансформерам на основе энергии (Energy-Based Transformers, EBTs) демонстрируют возможность масштабирования EBMs в пространствах высокой размерности, но их потенциал для решения ключевых проблем в физически воплощенных моделях остается недостаточно изученным. Мы представляем новую архитектуру на основе энергии, EBT-Policy, которая решает ключевые проблемы в робототехнических и реальных условиях. В симулированных и реальных задачах EBT-Policy стабильно превосходит политики на основе диффузии, требуя при этом меньше вычислений как на этапе обучения, так и на этапе вывода. Примечательно, что в некоторых задачах она сходится всего за два шага вывода, что в 50 раз меньше по сравнению со 100 шагами в Diffusion Policy. Более того, EBT-Policy демонстрирует emergent-способности, не наблюдавшиеся в предыдущих моделях, такие как zero-shot восстановление после неудачных последовательностей действий с использованием только клонирования поведения и без явного обучения повторным попыткам. Благодаря использованию скалярной энергии для вывода с учетом неопределенности и динамического распределения вычислений, EBT-Policy открывает перспективный путь к созданию робастного и обобщаемого поведения роботов в условиях сдвигов распределения.
Метод масштабирования на этапе тестирования (Test-Time Scaling, TTS) улучшает работу больших языковых моделей (LLM) за счёт распределения дополнительных вычислительных ресурсов в процессе вывода, обычно с помощью параллельного, последовательного или гибридного масштабирования. Однако предыдущие исследования часто предполагают фиксированные архитектуры коллаборации (например, топологии) и использование единой модели, упуская из виду, что оптимальные архитектуры и комбинации моделей могут различаться в зависимости от задачи. Поэтому мы исследуем новую проблему поиска вычислительно-оптимальных комбинаций моделей и архитектур в TTS при фиксированном бюджете. Мы формализуем её как граф коллаборации множества LLM, где узлы кодируют роли и назначения моделей LLM, а рёбра захватывают поток информации. Эта проблема является сложной, поскольку (i) комбинаторное пространство поиска непомерно велико и (ii) требования, специфичные для задачи, требуют индивидуальных проектов. Для решения этих проблем мы переформулируем задачу как вероятностную оптимизацию графа и, с помощью пилотных экспериментов, выводим три эмпирических инсайта о графах коллаборации TTS. Руководствуясь этими инсайтами, мы предлагаем Agent-REINFORCE — фреймворк, дополненный LLM-агентами, который воспроизводит конвейер REINFORCE, отображая последовательность "сэмплирование-градиент-обновление" в "сэмплирование-фидбэк-обновление", где фидбэк служит текстовым градиентом для обновления вероятностного графа и эффективного поиска оптимальных графов коллаборации множества LLM. Эксперименты показывают, что Agent-REINFORCE превосходит как традиционные, так и LLM-базлайны по эффективности использования сэмплов и производительности поиска, а также эффективно находит оптимальные графы при совместных целях точности и задержки вывода.
Мы представляем [Cosmos-Predict2.5] — новейшее поколение фоновых моделей мира Cosmos для физического ИИ. Построенная на потоковой архитектуре, модель [Cosmos-Predict2.5] объединяет генерацию Text2World, Image2World и Video2World в единой системе и использует [Cosmos-Reason1] — физическую ИИ-модель компьютерного зрения и языка — для обеспечения более богатого текстового контекста и точного управления симуляцией мира. Обученная на 200 млн отобранных видеоклипов и доработанная с помощью пост-тренинга на основе обучения с подкреплением, модель [Cosmos-Predict2.5] демонстрирует значительное улучшение качества видео и соответствия инструкциям по сравнению с [Cosmos-Predict1], с выпуском моделей масштаба 2B и 14B. Эти возможности обеспечивают более надежную генерацию синтетических данных, оценку политик и замкнутую симуляцию для робототехники и автономных систем. Мы также расширяем семейство моделью [Cosmos-Transfer2.5] — фреймворком в стиле control-net для перевода между симуляцией и реальностью (Sim2Real) и между реальными мирами (Real2Real). Несмотря на то, что она в 3.5 раза меньше [Cosmos-Transfer1], она обеспечивает более высокую точность и устойчивую генерацию видео на длительных горизонтах. В совокупности эти достижения делают [Cosmos-Predict2.5] и [Cosmos-Transfer2.5] универсальными инструментами для масштабирования воплощенного интеллекта. Для ускорения исследований и внедрения в области физического ИИ мы публикуем исходный код, предобученные контрольные точки и отобранные бенчмарки по лицензии NVIDIA Open Model License на https://github.com/nvidia-cosmos/cosmos-predict2.5 и https://github.com/nvidia-cosmos/cosmos-transfer2.5. Мы надеемся, что эти открытые ресурсы снизят барьер для внедрения и стимулируют инновации в создании следующего поколения воплощенного интеллекта.
Последние достижения в области мультимодальных генеративных моделей привели к значительному прогрессу в редактировании изображений. Однако современные генеративные модели по-прежнему испытывают трудности с выполнением разнообразных и сложных задач редактирования изображений, требующих неявных рассуждений, что подчеркивает необходимость создания комплексного бенчмарка для систематической оценки их производительности в различных сценариях рассуждений. Существующие бенчмарки в основном сосредоточены на трансформации атрибутов одиночных объектов в реалистичных сценариях, что, хотя и эффективно, сталкивается с двумя ключевыми проблемами: (1) они в значительной степени игнорируют взаимодействия множественных объектов, а также сценарии игровых миров, включающие правила, определенные человеком, которые распространены в реальных приложениях; (2) они полагаются исключительно на текстовые ссылки для оценки сгенерированных изображений, что может приводить к систематическим ошибкам в оценке, особенно в сложных сценариях рассуждений. Для решения этих проблем в данной работе предлагается UniREditBench — унифицированный бенчмарк для оценки редактирования изображений на основе рассуждений. Он включает 2700 тщательно отобранных образцов, охватывающих как реальные, так и игровые сценарии по 8 основным и 18 вспомогательным измерениям. Для повышения надежности оценки мы вводим мультимодальную оценку с двойными ссылками, предоставляя как текстовые, так и эталонные изображения для каждой оценки образца. Кроме того, мы разрабатываем автоматизированный конвейер синтеза данных для многопользовательских сценариев и создаем UniREdit-Data-100K — крупномасштабный синтетический набор данных с высококачественными аннотациями цепочек рассуждений. Мы дообучаем модель Bagel на этом наборе данных и создаем UniREdit-Bagel, демонстрирующую значительное улучшение производительности как в рамках распределения обучающих данных, так и за его пределами. Проведя тщательное тестирование моделей редактирования изображений с открытым и закрытым исходным кодом, мы выявляем их сильные и слабые стороны в различных аспектах.
Релайтинг — важная задача, имеющая как практическую значимость, так и художественную ценность. Недавние диффузионные модели продемонстрировали большой потенциал, обеспечивая богатые и контролируемые световые эффекты. Однако, поскольку они обычно оптимизируются в семантическом латентном пространстве, где близость не гарантирует физической корректности в визуальном пространстве, они часто выдают нереалистичные результаты, такие как пересвеченные блики, смещенные тени и некорректные окклюзии. Мы решаем эту проблему с помощью UniLumos — унифицированной системы релайтинга для изображений и видео, которая вносит геометрическую обратную связь в RGB-пространстве в основу с потоковым согласованием. Направляя модель с помощью карт глубины и нормалей, извлеченных из ее выходов, мы явно выравниваем световые эффекты относительно структуры сцены, повышая физическую правдоподобность. Тем не менее, такая обратная связь требует высококачественных выходных данных для контроля в визуальном пространстве, что делает стандартное многошаговое шумоподавление вычислительно затратным. Чтобы смягчить это, мы применяем обучение с path consistency, позволяющее сохранять эффективность контроля даже в условиях обучения с малым числом шагов. Для обеспечения детального управления релайтингом и контроля мы разработали структурированный шестимерный протокол аннотирования, фиксирующий ключевые атрибуты освещения. На его основе мы предлагаем LumosBench — разъединенный бенчмарк на уровне атрибутов, который оценивает управляемость освещения с помощью больших моделей «визуение–язык», обеспечивая автоматическую и интерпретируемую оценку точности релайтинга по отдельным измерениям. Многочисленные эксперименты показывают, что UniLumos достигает наилучшего качества релайтинга с существенно улучшенной физической согласованностью, обеспечивая при этом 20-кратное ускорение для релайтинга как изображений, так и видео. Код доступен по адресу https://github.com/alibaba-damo-academy/Lumos-Custom.
Графовые нейронные сети функционируют по принципу восходящей передачи сообщений, что фундаментально отличается от человеческого зрительного восприятия, которое интуитивно схватывает глобальные структуры в первую очередь. Мы исследуем недооцененный потенциал визуальных моделей для понимания графов, обнаруживая, что они достигают производительности, сопоставимой с ГНС, на установленных бенчмарках, демонстрируя при этом совершенно иные шаблоны обучения. Эти расходящиеся поведения в сочетании с ограничениями существующих бенчмарков, которые смешивают доменные особенности с топологическим пониманием, обосновывают наше предложение GraphAbstract. Данный бенчмарк оценивает способность моделей воспринимать глобальные свойства графов подобно человеку: распознавать организационные архетипы, обнаруживать симметрию, оценивать силу связности и выявлять критические элементы. Наши результаты показывают, что визуальные модели значительно превосходят ГНС в задачах, требующих целостного структурного понимания, и сохраняют обобщающую способность при различных масштабах графов, тогда как ГНС испытывают трудности с абстракцией глобальных паттернов и деградируют с ростом размера графа. Эта работа демонстрирует, что визуальные модели обладают выдающимися, но недостаточно используемыми возможностями для понимания структуры графов, особенно для проблем, требующих глобального топологического осознания и масштабно-инвариантных рассуждений. Эти открытия открывают новые пути для использования данного недооцененного потенциала с целью разработки более эффективных фоновых моделей для графов в задачах, где доминирует целостное распознавание паттернов.
Крупные модели рассуждений (LRM) демонстрируют высокие способности к сложным логическим выводам, однако их предельная эффективность при решении фактологических вопросов, требующих опоры на доказательства, ограничена. Мы обнаружили, что это ограничение частично обусловлено разрывом между рассуждением и ответом: модель корректно идентифицирует факты в процессе рассуждения, но не интегрирует их в итоговый ответ, что снижает фактическую достоверность. Для решения этой проблемы мы предлагаем MR-ALIGN — фреймворк мета-рассуждений для согласования, повышающий фактическую точность без привлечения внешних верификаторов. MR-ALIGN количественно оценивает вероятности переходов состояний в процессе мышления модели и создаёт неявное вознаграждение, учитывающее эти переходы, которое усиливает полезные паттерны рассуждений и подавляет ошибочные на уровне атомарных сегментов мышления. Такое перевзвешивание преобразует сигналы на уровне токенов в оценки сегментов с учётом вероятностей, способствуя созданию согласованных траекторий рассуждений, более благоприятных для фактической точности. Эмпирические оценки на четырёх наборах данных фактологических вопросов-ответов и одном бенчмарке достоверности длинных текстов показывают, что MR-ALIGN последовательно улучшает точность и правдивость, одновременно снижая количество вводящих в заблуждение рассуждений. Эти результаты подчёркивают, что согласование самого процесса рассуждений, а не только выходных данных, является ключевым для повышения фактической достоверности в LRM.
Унифицированные мультимодальные модели (UMM) стали мощной парадигмой для бесшовного объединения понимания и генерации текста и изображений. Однако преобладающие подходы к оценке рассматривают эти способности изолированно: задачи с мультимодальными входами и выходами оцениваются преимущественно через унимодальные рассуждения, то есть текстовые тесты делают акцент на языковых рассуждениях, а визуальные — на результатах рассуждений, проявляющихся в пикселях. Мы представляем ROVER для решения этой насущной потребности в проверке реципрокных кросс-модальных рассуждений — использования одной модальности для направления, проверки или уточнения выводов в другой, что является центральной способностью для реализации концепции унифицированного мультимодального интеллекта. ROVER — это размеченный человеком бенчмарк, явно нацеленный на реципрокные кросс-модальные рассуждения, который содержит 1312 заданий, основанных на 1876 изображениях, и охватывает два взаимодополняющих сценария. Вербально-усиленное рассуждение для визуальной генерации оценивает, могут ли модели использовать текстовые промпты и цепочки рассуждений для управления достоверным синтезом изображений. Визуально-усиленное рассуждение для вербальной генерации оценивает, могут ли модели генерировать промежуточные визуализации, укрепляющие их собственные процессы рассуждений для ответов на вопросы. Эксперименты с 17 унифицированными моделями выявили два ключевых результата: (i) Качество визуальной генерации определяется кросс-модальными рассуждениями, причем интерливинговые модели значительно превосходят неинтерливинговые; примечательно, что комбинация сильных унимодальных моделей не позволяет достичь сопоставимых рассуждений. (ii) Модели демонстрируют диссоциацию между физическими и символическими рассуждениями: они успешны в буквальной интерпретации перцептивных концепций, но не способны конструировать визуальные абстракции для символических задач, где ошибочные рассуждения снижают производительность. Эти результаты подчеркивают реципрокные кросс-модальные рассуждения как критически важный рубеж для достижения подлинной омнимодальной генерации.
Имитация движений является перспективным подходом для локомоции гуманоидных роботов, позволяя агентам осваивать человекоподобное поведение. Существующие методы обычно опираются на высококачественные наборы данных захвата движений, такие как AMASS, однако они малочисленны и дороги, что ограничивает масштабируемость и разнообразие. Недавние исследования пытаются масштабировать сбор данных путем конвертации крупномасштабных интернет-видео, как в проекте Humanoid-X. Однако такие подходы часто порождают физические артефакты, такие как парение, проникновение сквозь поверхности и скольжение стоп, что затрудняет стабильную имитацию. В ответ на это мы представляем PHUMA — физически обоснованный набор данных о локомоции гуманоидов, который использует масштабируемые человеческие видео, одновременно устраняя физические артефакты за счет тщательной обработки данных и ретаргетинга с физическими ограничениями. PHUMA обеспечивает соблюдение ограничений суставов, гарантирует контакт с поверхностью и устраняет скольжение стоп, создавая движения, которые являются как крупномасштабными, так и физически достоверными. Мы оценили PHUMA в двух наборах условий: (i) имитация незнакомых движений из самостоятельно записанных тестовых видео и (ii) следование по пути с управлением только через таз. В обоих случаях политики, обученные на PHUMA, превзошли результаты Humanoid-X и AMASS, показав значительный прогресс в имитации разнообразных движений. Код доступен по адресу https://davian-robotics.github.io/PHUMA.
Современные методы генерации видео с условием по движению страдают от неприемлемой задержки (минуты на видео) и некаузальной обработки, что исключает возможность интерактивной работы в реальном времени. Мы представляем MotionStream, который обеспечивает задержку менее секунды и потоковую генерацию со скоростью до 29 кадров в секунду на одном GPU. Наш подход начинается с расширения модели тексту-видео управлением движением, что позволяет генерировать высококачественные видео, соответствующие глобальному текстовому промпту и локальным указаниям по движению, но не выполняет вывод на лету. Поэтому мы проводим дистилляцию этой двунаправленной учительской модели в каузальную ученическую с помощью Self Forcing with Distribution Matching Distillation, что обеспечивает потоковый вывод в реальном времени. При генерации видео с длинным, потенциально бесконечным горизонтом возникает несколько ключевых проблем: (1) преодоление разрыва между доменами при обучении на конечных последовательностях и экстраполяции на бесконечные горизонты, (2) поддержание высокого качества за счет предотвращения накопления ошибок и (3) сохранение быстрого вывода без роста вычислительных затрат из-за увеличения контекстных окон. Ключевым элементом нашего подхода является введение тщательно спроектированного каузального скользящего оконного внимания в сочетании с attention sinks. Внедряя self-rollout с attention sinks и rolling KV-кэша во время обучения, мы корректно моделируем экстраполяцию во время вывода с фиксированным контекстным окном, что позволяет генерировать видео произвольной длины с постоянной скоростью. Наши модели достигают state-of-the-art результатов в точности следования движению и качестве видео, будучи при этом на два порядка быстрее и уникально обеспечивая генерацию бесконечной длины в потоковом режиме. С MotionStream пользователи могут рисовать траектории, управлять камерами или переносить движение и видеть результаты в реальном времени, что обеспечивает подлинно интерактивный опыт.
Мы представляем LongCat-Flash-Omni — передовую открытую омни-модальную модель с 560 миллиардами параметров, демонстрирующую превосходную производительность в задачах реального времени для аудиовизуального взаимодействия. Благодаря использованию прогрессивной стратегии обучения, вдохновленной принципами педагогического подхода, которая предполагает переход от простых к increasingly сложным задачам моделирования последовательностей модальностей, LongCat-Flash-Omni достигает комплексных мультимодальных возможностей при сохранении высокой унимодальной эффективности. Основанная на архитектуре LongCat-Flash, использующей высокопроизводительную Shortcut-connected Mixture-of-Experts (MoE) с экспертами нулевой вычислительной сложности, модель LongCat-Flash-Omni интегрирует эффективные модули мультимодального восприятия и реконструкции речи. Несмотря на огромный размер в 560 млрд параметров (с активацией 27 млрд), модель обеспечивает низкую задержку при работе в реальном времени. Для инфраструктуры обучения мы разработали схему модально-разделенного параллелизма, специально предназначенную для управления неоднородностью данных и моделей, присущей крупномасштабному мультимодальному обучению. Этот инновационный подход демонстрирует исключительную эффективность, сохраняя более 90% пропускной способности, достигаемой при обучении только на текстовых данных. Многочисленные оценки показывают, что LongCat-Flash-Omni достигает state-of-the-art результатов на омни-модальных бенчмарках среди открытых моделей. Кроме того, модель демонстрирует высококонкурентные результаты в широком спектре модально-специфичных задач, включая понимание текста, изображений и видео, а также понимание и генерацию аудио. Мы предоставляем всесторонний обзор архитектуры модели, процедур обучения и стратегий работы с данными, а также открываем исходный код модели для стимулирования будущих исследований и разработок в сообществе.
В последнее время большие языковые модели (LLM) продемонстрировали впечатляющие способности к решению задач за счет автономной интеграции с внешними инструментами для совместного рассуждения. Однако из-за изначально сложной и разнородной природы мультимодальной информации задача обеспечения гибкого и эффективного использования внешних инструментов мультимодальными большими языковыми моделями (MLLM) в процессе рассуждений остается малоизученной проблемой. В данной работе мы представляем ToolScope — агентный фреймворк, предназначенный для объединения глобального планирования с локальным мультимодальным восприятием, который использует специализированный инструмент Perceive для смягчения деградации визуального контекста в задачах VQA с длинным горизонтом. ToolScope состоит из трех основных компонентов: Глобального навигатора, Агентного исполнителя и Синтезатора ответов. Глобальный навигатор функционирует как «телескоп», предоставляя стратегические указания высокого уровня. Агентный исполнитель работает итеративно, расширяя возможности MLLM за счет локального восприятия через интеграцию внешних инструментов — Search, Code и Perceive. Наконец, Синтезатор ответов объединяет и организует процесс рассуждений в связный и удобный для пользователя вывод. Мы оцениваем ToolScope на четырех бенчмарках VQA из различных областей, включая VQA 2.0, ScienceQA, MAT-Search и MathVista. Фреймворк демонстрирует высокие способности к обобщению, достигая среднего прироста производительности до +6,69% на всех наборах данных.
Последние достижения в области обучения рассуждению больших языковых моделей (LLM) с помощью обучения с подкреплением опираются на размеченные наборы данных для верифицируемых наград, что может ограничивать способность моделей превосходить человеческий уровень. Хотя самообучение предлагает многообещающую альтернативу, существующие подходы зависят от внешних верификаторов или не способны к открытому обучению. Мы представляем Open-Ended Self-Improving Reasoner (OpenSIR) — фреймворк самообучения, в котором LLM учится генерировать и решать новые задачи, попеременно принимая роли учителя и ученика без внешнего контроля. Для генерации новых задач OpenSIR оптимизирует как сложность, так и разнообразие, поощряя задачи, которые бросают вызов на соответствующем уровне, одновременно исследуя различные концепции, что позволяет осуществлять открытые математические открытия. Начиная с одной тривиальной исходной задачи, OpenSIR существенно улучшает инструктивные модели: Llama-3.2-3B-Instruct прогрессирует с 73.9 до 78.3 на GSM8K и с 28.8 до 34.4 на College Math, в то время как Gemma-2-2B-Instruct повышает результат с 38.5 до 58.7 на GSM8K. Наш анализ показывает, что OpenSIR достигает открытого обучения за счет коэволюции ролей учителя и ученика, которые адаптивно калибруют сложность и стимулируют разнообразное исследование, автономно продвигаясь от базовой к сложной математике.
Современная парадигма поиска видео структурно несбалансирована, поскольку узкие бенчмарки стимулируют использование соответствующим образом ограниченных данных и обучение под одну задачу. Как следствие, универсальные способности подавляются из-за отсутствия диагностической оценки, которая определяет и требует многомерной обобщающей способности. Чтобы разорвать этот круг, мы представляем фреймворк, основанный на совместном проектировании оценки, данных и модели. Во-первых, мы создали Универсальный бенчмарк для поиска видео (UVRB) — набор из 16 наборов данных, предназначенных не только для измерения производительности, но и для диагностики критических пробелов в возможностях across задачам и доменам. Во-вторых, руководствуясь диагностикой UVRB, мы внедряем масштабируемый процесс синтеза, который генерирует 1.55 миллиона высококачественных пар для заполнения семантического пространства, необходимого для универсальности. Наконец, мы разрабатываем Модальную пирамиду — учебный план, который обучает наш Универсальный видео-эмбеддер (GVE), явно используя скрытые взаимосвязи в наших разнородных данных. Многочисленные эксперименты показывают, что GVE достигает наилучшей обобщающей способности в условиях zero-shot на UVRB. В частности, наш анализ показывает, что популярные бенчмарки плохо предсказывают общую способность и что частично релевантный поиск является доминирующим, но игнорируемым сценарием. В целом, наш фреймворк совместного проектирования предлагает практический путь к преодолению ограниченной области и продвижению к truly универсальному поиску видео.
Фронт исследований в области визуального мышления смещается в сторону таких моделей, как OpenAI o3, которые способны интеллектуально создавать и использовать инструменты для преобразования изображений в целях решения задач — подход, известный как «рассуждение с изображениями» (thinking-with-images) в рамках «цепочки рассуждений» (chain-of-thought). Однако существующие бенчмарки не в полной мере отражают эту продвинутую способность. Даже «Визуальный поиск» (Visual Search) — наиболее распространенный бенчмарк для современных методов рассуждения с изображениями — тестирует лишь базовые операции, такие как локализация и обрезка, практически не затрагивая более сложные, динамичные и зависящие от инструментов формы reasoning. Мы представляем TIR-Bench — комплексный бенчмарк для оценки агентского рассуждения с изображениями, включающий 13 разнообразных задач, каждая из которых требует нового использования инструментов для обработки и манипуляции изображениями в рамках цепочки рассуждений. Мы оценили 22 мультимодальные большие языковые модели (MLLM), от ведущих открытых и проприетарных моделей до моделей с явной доработкой для использования инструментов. Результаты показывают, что TIR-Bench является универсально сложным, и для высоких результатов требуются подлинные способности к рассуждению с изображениями. Наконец, мы представляем пилотное исследование, сравнивающее прямое и агентское тонкое настраивание (fine-tuning).
Модели «визуальный язык» демонстрируют беспрецедентную производительность и способность к обобщению в широком спектре задач и сценариев. Интеграция этих базовых моделей в системы роботизированной навигации открывает пути к созданию роботов общего назначения. Однако оценка навигационных способностей этих моделей по-прежнему ограничена дорогостоящими испытаниями в реальном мире, чрезмерно упрощенными симуляциями и ограниченными наборами тестов. Мы представляем NaviTrace — высококачественный бенчмарк «Визуальный вопрос-ответ», в котором модель получает инструкцию и тип воплощения (человек, шагающий робот, колесный робот, велосипед) и должна вывести двумерную трассу навигации в пространстве изображения. На основе 1000 сценариев и более 3000 экспертных трасс мы систематически оцениваем восемь современных моделей VLM, используя новый семантически-осознающий показатель качества трассы. Эта метрика сочетает расстояние динамической трансформации времени (DTW), ошибку конечной точки цели и штрафы, обусловленные типом воплощения и полученные из семантики каждого пикселя, а также коррелирует с предпочтениями человека. Наша оценка выявляет устойчивый разрыв с производительностью человека, вызванный слабой пространственной привязкой и локализацией цели. NaviTrace создает масштабируемый и воспроизводимый бенчмарк для навигации роботов в реальном мире. Бенчмарк и таблица лидеров доступны по адресу https://leggedrobotics.github.io/navitrace_webpage/.
Понимание ребусов (ребусы используют изображения, символы и буквы для творческого представления слов или фраз) требует разнообразных навыков, таких как распознавание образов, когнитивные способности, здравый смысл, многошаговые рассуждения, словесные игры на основе изображений и т.д., что делает эту задачу сложной даже для современных моделей «визуальный язык-текст». В данной статье мы представляем |,↻,BUS,| — крупный и разнообразный бенчмарк, содержащий 1333 английских ребуса с различными художественными стилями и уровнями сложности, распределенных по 18 категориям, таким как еда, идиомы, спорт, финансы, развлечения и т.д. Мы также предлагаем RebusDescProgICE, модель-агностический фреймворк, который использует комбинацию неструктурированного описания и структурированных рассуждений на основе кода, наряду с улучшенным подбором контекстных примеров на основе рассуждений, что повышает производительность моделей «визуальный язык-текст» на бенчмарке |,↻,BUS,| на 2.1–4.1% и 20–30% при использовании проприетарных и открытых моделей соответственно по сравнению с рассуждениями по цепочке мыслей (Chain-of-Thought).
Мы представляем Trove — простой в использовании набор инструментов для поиска с открытым исходным кодом, который упрощает исследовательские эксперименты, не жертвуя гибкостью или скоростью. Впервые мы внедряем эффективные функции управления данными, которые загружают и обрабатывают (фильтруют, выбирают, преобразуют и объединяют) наборы данных для поиска на лету, всего несколькими строками кода. Это предоставляет пользователям гибкость для легкого экспериментирования с различными конфигурациями наборов данных без необходимости вычисления и хранения множества копий больших массивов данных. Trove обладает высокой степенью настраиваемости: помимо множества встроенных опций, он позволяет пользователям свободно модифицировать существующие компоненты или полностью заменять их пользовательскими объектами. Он также предоставляет низкокодовый и унифицированный конвейер для оценки и извлечения жестких негативных примеров, который поддерживает многопоточное выполнение без каких-либо изменений кода. Функции управления данными Trove сокращают потребление памяти в 2,6 раза. Более того, простой в использовании конвейер вывода Trove не создаёт дополнительной нагрузки, а время вывода уменьшается линейно с увеличением числа доступных узлов. Что наиболее важно, мы демонстрируем, как Trove упрощает эксперименты по поиску и позволяет производить произвольные настройки, способствуя тем самым исследовательским изысканиям.
Считывание показаний измерительных приборов не представляет труда для человека и требует относительно небольшой экспертизы в предметной области, однако, как мы обнаружили в предварительной оценке, остается удивительно сложной задачей для современных моделей "визуальный язык" (VLMs). В данной работе мы представляем MeasureBench — бенчмарк для оценки считывания визуальных измерений, охватывающий как реальные, так и синтезированные изображения различных типов измерительных приборов, а также расширяемый конвейер для синтеза данных. Наш конвейер процедурно генерирует заданный тип датчика с контролируемым визуальным видом, обеспечивая масштабируемое варьирование ключевых деталей, таких как стрелки, шкалы, шрифты, освещение и помехи. Оценка популярных проприетарных и открытых VLMs показывает, что даже самые передовые модели испытывают трудности со считыванием измерений в целом. Устойчивым типом ошибок является локализация указателя: модели могут считывать цифры или метки, но неправильно определяют ключевые позиции стрелок или выравниваний, что приводит к большим числовым ошибкам, несмотря на правдоподобные текстовые рассуждения. Мы также провели предварительные эксперименты с обучением с подкреплением на синтетических данных и обнаружили обнадеживающие результаты на синтетическом подмножестве из той же области, но менее promising для реальных изображений. Наш анализ выявляет фундаментальное ограничение современных VLMs в точном пространственном позиционировании. Мы надеемся, что этот ресурс поможет будущим достижениям в области визуальной математической грамотности и точного пространственного восприятия VLMs, сокращая разрыв между распознаванием чисел и измерением мира.
Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили понимание двумерных визуальных данных, что стимулировало интерес к их применению для решения сложных задач трехмерного логического вывода. Однако остается неясным, способны ли эти модели эффективно улавливать детальную пространственную информацию, необходимую для устойчивой работы в реальных условиях, особенно кросс-вью консистентность — ключевое требование для точного 3D-рассуждения. Учитывая эту проблему, мы представляем Viewpoint Learning — задачу, разработанную для оценки и улучшения пространственных способностей MLLM. Мы представляем набор данных Viewpoint-100K, состоящий из 100 тысяч пар объектно-ориентированных изображений с разнообразными ракурсами и соответствующих пар "вопрос-ответ". Наш подход использует двухэтапную стратегию тонкой настройки: сначала базовые знания внедряются в исходную MLLM посредством контролируемой тонкой настройки (SFT) на Viewpoint-100K, что приводит к значительному улучшению результатов в различных задачах; затем обобщающая способность усиливается с помощью обучения с подкреплением на основе алгоритма GRPO (Group Relative Policy Optimization) на более широком наборе вопросов. Дополнительно мы представляем гибридный метод холодной инициализации, предназначенный для одновременного изучения представлений ракурсов и поддержания последовательности логических рассуждений. Экспериментальные результаты показывают, что наш подход значительно активирует пространственные способности MLLM, улучшая производительность как на внутридоменных, так и на внешних задачах логического вывода. Наши результаты подчеркивают ценность развития фундаментальных пространственных навыков в MLLM, способствуя будущему прогрессу в робототехнике, автономных системах и понимании 3D-сцен.
Отбор данных является ключевым аспектом обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) для улучшения способностей к рассуждению у больших языковых моделей (LLM). Современные методы отбора данных в значительной степени основаны на эвристиках, не имея теоретических гарантий и универсальности. В данной работе предлагается теоретически обоснованный подход, использующий функции влияния для оценки вклада каждой точки данных в целевую функцию обучения. Чтобы преодолеть запретительные вычислительные затраты на развёртывание политик, необходимые для онлайн-оценки влияния, мы представляем метод оценки влияния вне политики, который эффективно аппроксимирует влияние данных с использованием предварительно собранных оффлайн-траекторий. Кроме того, для работы с высокоразмерными градиентами LLM мы применяем разреженное случайное проецирование для снижения размерности и повышения эффективности хранения и вычислений. Используя эти методы, мы разрабатываем Curriculum RL с направляющим влиянием вне политики (CROPI) — многоэтапную RL-структуру, которая итеративно выбирает наиболее влиятельные данные для текущей политики. Эксперименты на моделях размером до 7 миллиардов параметров демонстрируют, что CROPI значительно ускоряет обучение. На модели с 1,5 миллиардами параметров метод достигает ускорения в 2,66 раза на уровне шагов, используя лишь 10% данных на каждом этапе по сравнению с обучением на полном наборе данных. Наши результаты подчеркивают существенный потенциал отбора данных на основе оценки влияния для эффективного RLVR.
Определение правильных ключевых метрик крайне важно для развития математических рассуждений фундаментальных моделей, особенно учитывая, что существующие оценки либо слишком просты, либо сосредоточены лишь на получении кратких правильных ответов. Для решения этих проблем мы представляем IMO-Bench — набор расширенных бенчмарков для оценки рассуждений, проверенных группой ведущих специалистов и специально нацеленных на уровень Международной математической олимпиады (ММО), наиболее престижного соревнования для молодых математиков. IMO-AnswerBench сначала тестирует модели на 400 разнообразных олимпиадных задачах с проверяемыми краткими ответами. IMO-ProofBench — это оценка следующего уровня для проверки способностей к написанию доказательств, которая включает как базовые, так и продвинутые задачи уровня ММО, а также детальные критерии оценивания для облегчения автоматической проверки. Эти бенчмарки сыграли ключевую роль в нашем историческом достижении результата золотого уровня на ММО 2025 с моделью Gemini Deep Think (Luong и Lockhart, 2025). Наша модель показала результат 80,0% на IMO-AnswerBench и 65,7% на продвинутом IMO-ProofBench, значительно опередив лучшие модели не от Gemini с отрывом в 6,9% и 42,4% соответственно. Мы также продемонстрировали, что автоматические системы оценивания, созданные на основе рассуждений Gemini, хорошо коррелируют с человеческой оценкой, и создали IMO-GradingBench, содержащий 1000 человеческих оценок доказательств, чтобы способствовать дальнейшему прогрессу в автоматической оценке развернутых ответов. Мы надеемся, что IMO-Bench поможет сообществу в продвижении надежных математических рассуждений, и публикуем его по адресу https://imobench.github.io/.
Модели «зрение-язык-действие» (VLA) предназначены для понимания инструкций на естественном языке и визуальных наблюдений с целью выполнения соответствующих действий воплощенным агентом. Современные разработки интегрируют прогнозируемые изображения в цикл «понимание-действие», создавая унифицированные VLA-модели, которые совместно понимают, генерируют и действуют — обрабатывая текст и изображения, а также создавая будущие изображения и действия. Однако эти модели либо полагаются на внешние экспертные системы для унификации модальностей, либо рассматривают генерацию изображений и прогнозирование действий как раздельные процессы, что ограничивает преимущества прямой синергии между этими задачами. Наша ключевая идея заключается в совместной оптимизации генерации и действий через синхронный процесс денизинга, где итеративное уточнение позволяет действиям эволюционировать от инициализации при постоянном и достаточном визуальном руководстве. Мы реализуем эту идею в предложенной унифицированной диффузионной модели VLA и совместном дискретном процессе диффузионного денизинга (JD3P) — процессе совместной диффузии, который интегрирует множество модальностей в единую траекторию денизинга, выступая ключевым механизмом, обеспечивающим внутреннюю синергию между пониманием, генерацией и действием. Наша модель и теория построены на унифицированном токенизированном пространстве всех модальностей и гибридном механизме внимания. Мы дополнительно предлагаем двухэтапный конвейер обучения и несколько методов вывода, оптимизирующих производительность и эффективность. Наш подход демонстрирует наилучшие результаты на бенчмарках CALVIN, LIBERO и SimplerEnv с 4-кратным ускорением вывода по сравнению с авторегрессивными методами, а его эффективность подтверждена глубоким анализом и реальными оценками. Страница проекта доступна по адресу https://irpn-eai.github.io/UD-VLA.github.io/.
Фундаментальные модели в генерации видео демонстрируют впечатляющие возможности в качестве потенциальных моделей мира для симуляции физической реальности. Однако их применение в высокорисковых областях, таких как хирургия, где требуется глубокое специализированное причинно-следственное знание, а не общие физические законы, остается критически неисследованным пробелом. Для системного решения этой задачи мы представляем SurgVeo — первый курируемый экспертами бенчмарк для оценки моделей генерации видео в хирургии, и «Пирамиду хирургической правдоподобности» (СПП), новую четырехуровневую систему, предназначенную для оценки выходных данных моделей — от базовой визуализации до сложной хирургической стратегии. На основе бенчмарка SurgVeo мы ставим перед передовой моделью Veo-3 задачу прогнозирования «с нуля» на хирургических видеозаписях лапароскопических и нейрохирургических операций. Группа из четырех сертифицированных хирургов оценивает сгенерированные видео в соответствии с СПП. Наши результаты выявляют четкий «разрыв правдоподобности»: хотя Veo-3 демонстрирует исключительную визуально-перцептивную правдоподобность, она критически не справляется на более высоких уровнях СПП, включая правдоподобность работы с инструментами, правдоподобность обратной связи со средой и правдоподобность хирургического замысла. Данная работа предоставляет первые количественные свидетельства пропасти между визуально убедительной имитацией и причинно-следственным пониманием в хирургическом ИИ. Наши выводы, полученные с помощью SurgVeo и СПП, закладывают crucialную основу и определяют дорожную карту для разработки будущих моделей, способных ориентироваться в сложностях специализированных, реальных областей здравоохранения.
Выдающийся успех мультимодальных больших языковых моделей (MLLM) стимулировал прогресс в области мультимодальных эмбеддингов, однако существующие модели остаются по своей сути дискриминативными, что ограничивает их способность использовать преимущества генеративной парадигмы, основанной на рассуждениях. В данной работе мы впервые исследуем генеративные эмбеддинги, объединяя задачи эмбеддингов в рамках генеративной парадигмы. Мы предлагаем UME-R1, универсальную мультимодальную框架 эмбеддингов, состоящую из двухэтапной стратегии обучения: контролируемая тонкая настройка "холодного старта" наделяет модель способностью к рассуждениям и позволяет ей генерировать как дискриминативные, так и генеративные эмбеддинги; последующее обучение с подкреплением улучшает рассуждения и дополнительно оптимизирует качество генеративных эмбеддингов. Эта пионерская работа выявляет четыре ключевых вывода: 1) генеративные эмбеддинги обеспечивают значительное повышение производительности по сравнению с традиционными дискриминативными эмбеддингами за счет использования мощных генеративных способностей к рассуждениям MLLM; 2) дискриминативные и генеративные эмбеддинги дополняют друг друга, а их объединенная "оракульная" производительность значительно превосходит производительность каждого по отдельности; 3) обучение с подкреплением может эффективно улучшать генеративные эмбеддинги, устанавливая масштабируемую парадигму оптимизации; 4) повторная выборка на этапе вывода повышает покрытие downstream-задач (pass@k), подчеркивая потенциал масштабируемости генеративных эмбеддингов во время вывода. Оценка на бенчмарке MMEB-V2, включающем 78 задач по видео, изображениям и визуальным документам, показывает, что UME-R1 значительно превосходит традиционные модели дискриминативных эмбеддингов и закладывает основу для более интерпретируемых, основанных на рассуждениях генеративных мультимодальных эмбеддингов. Наш код, модели и наборы данных будут общедоступны по адресу https://github.com/XMUDeepLIT/UME-R1.
Крупные языковые модели (LLM) продемонстрировали высокие способности в области обработки естественного языка, однако их применение в сфере киберугроз (CTI) остается ограниченным. Анализ CTI предполагает преобразование больших объемов неструктурированных отчетов в практические знания — процесс, в котором LLM могут существенно сократить нагрузку на аналитиков. Бенчмарк CTIBench представил комплексную систему для оценки LLM по множеству задач CTI. В данной работе мы расширяем CTIBench, разрабатывая AthenaBench — усовершенствованный бенчмарк, который включает улучшенный конвейер создания наборов данных, удаление дубликатов, уточненные метрики оценки и новую задачу, сфокусированную на стратегиях снижения рисков. Мы оцениваем двенадцать LLM, включая передовые проприетарные модели, такие как GPT-5 и Gemini-2.5 Pro, а также семь моделей с открытым исходным кодом из семейств LLaMA и Qwen. Хотя проприетарные LLM в целом демонстрируют более сильные результаты, их производительность остается неудовлетворительной в задачах, требующих интенсивных рассуждений, таких как атрибуция угроз и снижение рисков, при этом модели с открытым исходным кодом отстают еще значительнее. Эти результаты указывают на фундаментальные ограничения в способностях к рассуждению у современных LLM и подчеркивают необходимость создания моделей, специально адаптированных для рабочих процессов и автоматизации CTI.
Графическое заземление интерфейса (GUI grounding) является ключевой функцией агентов, работающих с компьютером, которая преобразует инструкции на естественном языке в действия над определенными областями экрана. Существующие подходы, основанные на мультимодальных больших языковых моделях (MLLM), обычно формулируют эту задачу как генерацию текстовых координат, однако прямая генерация точных координат из визуальных входных данных остается сложной и вычислительно затратной. Интуитивный способ реализации графического заземления заключается в том, чтобы сначала выбрать визуальные фрагменты, релевантные инструкциям, а затем определить точное местоположение клика внутри этих фрагментов. Основываясь на наблюдении, что общие MLLM обладают некоторой врожденной способностью к заземлению, скрытой в их механизмах внимания, мы предлагаем GUI-AIMA — бескоординатную систему тонкой настройки с обучением с учителем, основанную на внимании, для эффективного графического заземления. GUI-AIMA выравнивает внутреннее мультимодальное внимание MLLM с сигналами заземления на уровне фрагментов. Эти сигналы адаптивно вычисляются для разнообразных пользовательских инструкций с помощью многоголовой агрегации на упрощенных матрицах внимания «запрос-визуал». Кроме того, бескоординатный подход позволяет легко интегрировать подключаемый этап увеличения. Модель GUI-AIMA-3B была обучена всего на 85 тыс. скриншотов, демонстрируя исключительную эффективность использования данных и подтверждая, что легкое обучение может активировать врожденную способность MLLM к заземлению. Она достигает наилучших результатов среди моделей объемом 3B, демонстрируя среднюю точность 58.6% на ScreenSpot-Pro и 62.2% на OSWorld-G. Страница проекта: https://github.com/sjz5202/GUI-AIMA
Естественно-языковые объяснения (ЕЯО) описывают, как большие языковые модели (БЯМ) принимают решения, опираясь как на внешние контекстуальные знания (ВКЗ), так и на параметрические знания (ПЗ), хранящиеся в весах модели. Понимание их взаимодействия является ключевым для оценки обоснованности ЕЯО, однако оно остается малоизученным. Предыдущие работы в основном исследовали лишь одношаговую генерацию, обычно конечного ответа, и моделировали взаимодействие ПЗ и ВКЗ лишь как бинарный выбор в ранговом-1 подпространстве. Это упускает из виду более богатые формы взаимодействия, такие как комплементарные или поддерживающие знания. Мы предлагаем новое ранговое-2 проекционное подпространство, которое более точно разделяет вклады ПЗ и ВКЗ, и используем его для первого многошагового анализа взаимодействий знаний в более длинных последовательностях ЕЯО. Эксперименты на четырех наборах данных вопросов-ответов и трех открытых инструктивно-обученных БЯМ показывают, что разнообразные взаимодействия знаний плохо представлены в ранговом-1 подпространстве, но эффективно захватываются в нашей ранговой-2 формулировке. Наш многошаговый анализ показывает, что галлюцинированные ЕЯО сильно выровнены по направлению ПЗ, контекстуально-достоверные ЕЯО балансируют между ПЗ и ВКЗ, а метод Chain-of-Thought для ЕЯО смещает генерируемые объяснения в сторону ВКЗ за счет снижения зависимости от ПЗ. Данная работа представляет первую основу для систематического изучения многошаговых взаимодействий знаний в БЯМ через более богатое разделение в ранговом-2 подпространстве. Код и данные: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
В области информационного поиска объединение кандидатов от гетерогенных систем поиска представляет собой давнюю проблему, особенно для сложных многомодальных данных, таких как видео. Хотя типичные методы слияния не требуют обучения и опираются исключительно на ранговые или score-сигналы, они игнорируют репрезентации кандидатов. Данная работа представляет Vote-in-Context (ViC) — обобщенную framework-архитектуру, не требующую обучения, которая переосмысливает списковое переранжирование и слияние как задачу zero-shot-рассуждения для Vision-Language Model (VLM). Ключевая идея заключается в сериализации как контентных свидетельств, так и метаданных поисковых систем непосредственно в промпте VLM, что позволяет модели адаптивно взвешивать консенсус методов поиска относительно визуально-лингвистического контента. Мы демонстрируем универсальность этого подхода, применяя его к сложной задаче кросс-модального поиска видео. Для этого мы представляем S-Grid — компактную карту сериализации, которая представляет каждое видео в виде сетки изображений, опционально дополненной субтитрами, чтобы обеспечить списковое рассуждение над видео-кандидатами. ViC оценивается как в качестве переранжировщика единичного списка, где он значительно повышает точность отдельных поисковых систем, так и в качестве инструмента ансамблевого слияния, где он последовательно превосходит сильные базовые методы, такие как CombSUM. На бенчмарках поиска видео, включая ActivityNet и VATEX, фреймворк устанавливает новое state-of-the-art качество zero-shot-поиска, демонстрируя свою эффективность в обработке сложных визуальных и временных сигналов наряду с текстом. В условиях zero-shot ViC достигает показателей Recall@1 в 87.1% (t2v) / 89.0% (v2t) на MSR-VTT и 99.6% (v2t) на VATEX, что означает колоссальный прирост до +40 пунктов Recall@1 по сравнению с предыдущими state-of-the-art базовыми методами. Мы представляем ViC как простой, воспроизводимый и высокоэффективный метод превращения современных VLM в мощные zero-shot-переранжировщики и системы слияния. Код и ресурсы доступны по адресу: https://github.com/mohammad2012191/ViC