Ежедневно отобранные исследовательские статьи по ИИ с переводами
В моделях Diffusion Transformer (DiT), особенно для генерации видео, задержка внимания является основным узким местом из-за большой длины последовательности и квадратичной сложности. Мы обнаружили, что веса внимания можно разделить на две части: небольшую долю крупных весов с высоким рангом и оставшиеся веса с очень низким рангом. Это естественным образом подсказывает применение разреженного ускорения к первой части и низкорангового ускорения ко второй. На основе этого наблюдения мы предлагаем SLA (Sparse-Linear Attention) — обучаемый метод внимания, который объединяет разреженное и линейное внимание для ускорения диффузионных моделей. SLA классифицирует веса внимания на критические, маргинальные и незначительные, применяя внимание O(N^2) к критическим весам, O(N) — к маргинальным и пропуская незначительные. SLA объединяет эти вычисления в одном ядре GPU и поддерживает как прямой, так и обратный проходы. Всего за несколько шагов тонкой настройки с использованием SLA модели DiT достигают 20-кратного сокращения вычислений внимания, что приводит к значительному ускорению без потери качества генерации. Эксперименты показывают, что SLA сокращает вычисления внимания на 95% без ухудшения качества сквозной генерации, превосходя базовые методы. Кроме того, мы реализовали эффективное ядро GPU для SLA, которое обеспечивает ускорение вычислений внимания в 13,7 раз и сквозное ускорение генерации видео в 2,2 раза на Wan2.1-1.3B.
Распространенные семантические токенизаторы речи, разработанные для захвата лингвистического содержания, оказываются удивительно хрупкими. Мы обнаружили, что они не устойчивы к акустическим возмущениям, не влияющим на смысл; даже при высоких отношениях сигнал/шум (SNR), когда речь остается полностью разборчивой, их выходные последовательности токенов могут значительно изменяться, увеличивая нагрузку на обучение для последующих языковых моделей (LLM). Эта нестабильность обусловлена двумя недостатками: хрупкой архитектурой однопоточной квантизации и удаленным обучающим сигналом, безразличным к стабильности промежуточных токенов. Для решения этой проблемы мы представляем StableToken — токенизатор, который достигает стабильности за счет механизма, основанного на консенсусе. Его многопоточная архитектура параллельно обрабатывает аудио, а эти представления объединяются с помощью мощного битового механизма голосования для формирования единой стабильной последовательности токенов. StableToken устанавливает новый эталон в области стабильности токенов, значительно сокращая расстояние редактирования единиц (UED) в различных шумовых условиях. Эта фундаментальная стабильность напрямую приводит к улучшению результатов на последующих этапах, значительно повышая устойчивость SpeechLLM в различных задачах.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало стандартной парадигмой для согласования крупных языковых моделей (LLM) с человеческими предпочтениями. Однако методы, основанные на вознаграждении и построенные на предположении Брэдли-Терри, с трудом учитывают нетранзитивную и неоднородную природу реальных предпочтений. Для решения этой проблемы последние исследования переосмыслили согласование как игру двух игроков в равновесии Нэша, что привело к появлению обучения Нэша на основе человеческой обратной связи (NLHF). Хотя эта перспектива вдохновила разработку алгоритмов, таких как INPO, ONPO и EGPO, с сильными теоретическими и эмпирическими гарантиями, они остаются принципиально ограниченными взаимодействием двух игроков, создавая смещение в сторону единственного оппонента, что не позволяет охватить всю сложность реалистичных структур предпочтений. В данной работе мы представляем Multiplayer Nash Preference Optimization (MNPO) — новый фреймворк, который обобщает NLHF на случай множества игроков. Он формулирует согласование как игру n игроков, где каждая политика конкурирует с популяцией оппонентов, одновременно регуляризуясь в сторону референсной модели. Наш фреймворк устанавливает четко определенные равновесия Нэша в условиях множества игроков и расширяет концепцию дуального разрыва для количественной оценки качества аппроксимации. Мы демонстрируем, что MNPO наследует гарантии равновесия методов для двух игроков, одновременно позволяя более богатую конкурентную динамику и улучшенное покрытие разнообразных структур предпочтений. В ходе всестороннего эмпирического анализа мы показываем, что MNPO последовательно превосходит существующие базовые методы NLHF на бенчмарках выполнения инструкций, достигая более высокого качества согласования в условиях неоднородных аннотаторов и сценариев оценки смешанных политик. В совокупности эти результаты устанавливают MNPO как принципиальный и масштабируемый фреймворк для согласования LLM со сложными, нетранзитивными человеческими предпочтениями. Код доступен по адресу https://github.com/smiles724/MNPO.
Интеграция визуального понимания и генерации в унифицированные мультимодальные модели представляет собой значительный шаг на пути к созданию универсального искусственного интеллекта. Однако фундаментальный вопрос, остающийся без ответа в существующих тестах, заключается в следующем: действительно ли такая архитектурная унификация способствует синергетическому взаимодействию между составляющими возможностями? Существующие парадигмы оценки, которые в основном тестируют понимание и генерацию изолированно, недостаточны для определения того, может ли унифицированная модель использовать свое понимание для улучшения генерации или применять генеративное моделирование для углубления понимания. Чтобы устранить этот критический пробел, мы представляем RealUnify — тестовый набор, специально разработанный для оценки двунаправленной синергии возможностей. RealUnify включает 1000 тщательно аннотированных человеком примеров, охватывающих 10 категорий и 32 подзадачи. Он структурирован вокруг двух основных осей: 1) «Понимание улучшает генерацию», где требуется использование рассуждений (например, здравого смысла, логики) для управления генерацией изображений, и 2) «Генерация улучшает понимание», где необходимо мысленное моделирование или реконструкция (например, преобразованных или нарушенных визуальных данных) для решения задач на рассуждение. Ключевым вкладом является наш двойной протокол оценки, который сочетает прямое сквозное тестирование с диагностическим пошаговым анализом, разбивающим задачи на отдельные этапы понимания и генерации. Этот протокол позволяет точно определить, связаны ли узкие места в производительности с недостатками в базовых возможностях или с неспособностью их интегрировать. В результате масштабной оценки 12 ведущих унифицированных моделей и 6 специализированных базовых моделей мы обнаружили, что современные унифицированные модели все еще испытывают трудности с достижением эффективной синергии, что указывает на недостаточность одной лишь архитектурной унификации. Эти результаты подчеркивают необходимость новых стратегий обучения и индуктивных смещений для полного раскрытия потенциала унифицированного моделирования.
Производительность унифицированных мультимодальных моделей для генерации и редактирования изображений фундаментально ограничена качеством и полнотой их обучающих данных. Хотя существующие наборы данных охватывают базовые задачи, такие как перенос стиля и простое манипулирование объектами, они часто лишены систематической структуры и сложных сценариев, необходимых для реальных приложений. Чтобы устранить это узкое место, мы представляем OpenGPT-4o-Image — крупномасштабный набор данных, созданный с использованием новой методологии, которая сочетает иерархическую таксономию задач с автоматизированной генерацией данных. Наша таксономия включает не только базовые возможности, такие как рендеринг текста и управление стилем, но и вводит высоко практичные, но сложные категории, такие как научная визуализация для химических иллюстраций и редактирование по сложным инструкциям, требующее одновременного выполнения множества операций. С помощью автоматизированного конвейера, использующего структурированные пулы ресурсов и GPT-4o, мы генерируем 80 тысяч высококачественных пар "инструкция-изображение" с контролируемым разнообразием, охватывающих 11 основных областей и 51 подзадачу. Многочисленные эксперименты показывают, что тонкая настройка ведущих моделей на нашем наборе данных приводит к значительному улучшению производительности на множестве бенчмарков, с повышением до 18% на задачах редактирования (UniWorld-V1 на ImgEdit-Bench) и 13% на задачах генерации (Harmon на GenEval). Наша работа демонстрирует, что систематическое построение данных является ключом к развитию мультимодальных возможностей ИИ.
Преобладающий взгляд в области обучения с подкреплением для верифицируемых наград (RLVR) интерпретирует последние достижения через призму компромисса между исследованием и эксплуатацией, что во многом обусловлено метриками на уровне токенов. Мы пересматриваем эту точку зрения, предполагая, что этот воспринимаемый компромисс может не быть фундаментальным ограничением, а скорее артефактом уровня измерения. Чтобы исследовать это, мы переносим анализ в семантически богатое пространство скрытых состояний, используя Эффективный Ранг (ER) для количественной оценки исследования и предлагая его новые производные первого и второго порядка, названные Скоростью Эффективного Ранга (ERV) и Ускорением Эффективного Ранга (ERA), чтобы уловить динамику эксплуатации. Наш анализ показывает, что на уровне скрытых состояний исследование и эксплуатация могут быть разделены (Раздел 4). Это открытие выявляет возможность одновременного улучшения обеих способностей. Это понимание мотивирует наш метод, Обучение Рангу с Использованием Скорости (VERL), который впервые реализует принцип синергетического усиления исследования и эксплуатации, непосредственно формируя функцию преимущества RL. Ключевым нововведением является использование теоретически стабильного ERA в качестве прогнозирующего мета-контроллера для создания синергетической, двухканальной структуры стимулов. Вместо того чтобы навязывать компромисс, VERL перспективно усиливает награды за исследование, чтобы предотвратить излишнюю уверенность, и укрепляет выгоды от эксплуатации для консолидации рассуждений. Эксперименты на различных LLM и тестах на рассуждение показывают стабильные улучшения, включая увеличение абсолютной точности на 21,4% на сложном наборе данных Gaokao 2024.
Мы представляем SANA-Video — компактную диффузионную модель, способную эффективно генерировать видео с разрешением до 720x1280 и длительностью до минуты. SANA-Video синтезирует высококачественные видео с высоким разрешением и длительной продолжительностью, обеспечивая точное соответствие текста и видео при высокой скорости работы, что позволяет развернуть модель на GPU RTX 5090. Две ключевые разработки обеспечивают эффективное и долгое генерирование видео: (1) Linear DiT: Мы используем линейное внимание в качестве основной операции, что более эффективно по сравнению с классическим вниманием, учитывая большое количество токенов, обрабатываемых при генерации видео. (2) Кэш KV с постоянной памятью для блочного линейного внимания: мы разработали блочный авторегрессивный подход для генерации длинных видео, используя состояние с постоянной памятью, основанное на кумулятивных свойствах линейного внимания. Этот кэш KV предоставляет Linear DiT глобальный контекст при фиксированных затратах памяти, устраняя необходимость в традиционном кэше KV и обеспечивая эффективную генерацию видео длительностью до минуты. Кроме того, мы исследуем эффективные фильтры данных и стратегии обучения модели, сокращая затраты на обучение до 12 дней на 64 GPU H100, что составляет всего 1% от стоимости MovieGen. Благодаря низким затратам, SANA-Video демонстрирует конкурентоспособную производительность по сравнению с современными компактными диффузионными моделями (например, Wan 2.1-1.3B и SkyReel-V2-1.3B), при этом работая в 16 раз быстрее по измеренной задержке. Более того, SANA-Video может быть развернута на GPU RTX 5090 с точностью NVFP4, ускоряя время генерации 5-секундного видео в разрешении 720p с 71 секунды до 29 секунд (ускорение в 2,4 раза). В итоге, SANA-Video позволяет генерировать высококачественные видео с низкими затратами.
Обучение с подкреплением в посттренинге недавно стало мощной парадигмой для улучшения согласованности и способностей к рассуждению мультимодальных больших языковых моделей (MLLMs). Хотя посттренинг, ориентированный на визуальные данные, крайне важен для улучшения внутреннего понимания MLLMs визуальных сигналов, текущие подходы к посттренингу преимущественно текстоцентричны, где плотные визуальные входные данные используются только для извлечения редких подсказок для текстового рассуждения. Существует несколько подходов в этом направлении, однако они часто по-прежнему полагаются на текст как промежуточный посредник или вводят дополнительные визуально-генеративные компоненты. В данной работе мы представляем Visual Jigsaw — универсальную самообучаемую посттренинговую структуру, предназначенную для усиления визуального понимания в MLLMs. Visual Jigsaw формулируется как общая задача упорядочивания: визуальные входные данные разделяются, перемешиваются, и модель должна восстановить визуальную информацию, создавая правильную перестановку на естественном языке. Это естественным образом согласуется с обучением с подкреплением на основе проверяемых наград (RLVR), не требует дополнительных визуально-генеративных компонентов и автоматически извлекает сигналы для обучения без каких-либо аннотаций. Мы реализуем Visual Jigsaw для трех визуальных модальностей, включая изображения, видео и 3D-данные. Многочисленные эксперименты демонстрируют значительные улучшения в детальном восприятии, временном рассуждении и понимании 3D-пространства. Наши результаты подчеркивают потенциал самообучаемых задач, ориентированных на визуальные данные, в посттренинге MLLMs и призваны вдохновить дальнейшие исследования в области визуально-ориентированных предтекстовых конструкций. Страница проекта: https://penghao-wu.github.io/visual_jigsaw/
Исследователи в области ИИ разрабатывают вычислительные системы, которые выступают в роли партнеров в научных открытиях. Создание таких систем остается сложной задачей, поскольку они являются узкоспециализированными, привязаны к жестким рабочим процессам и не имеют единой среды, объединяющей инструменты, данные и аналитику в общую экосистему. В омиксных исследованиях унифицированные экосистемы уже трансформировали научную деятельность, обеспечивая взаимодействие, повторное использование и развитие силами сообщества; для ИИ-ученых требуется аналогичная инфраструктура. Мы представляем ToolUniverse — экосистему для создания ИИ-ученых на основе любого языка или модели рассуждений, будь то открытые или закрытые системы. TOOLUNIVERSE стандартизирует способы, с помощью которых ИИ-ученые идентифицируют и вызывают инструменты, интегрируя более 600 моделей машинного обучения, наборов данных, API и научных пакетов для анализа данных, извлечения знаний и проектирования экспериментов. Система автоматически адаптирует интерфейсы инструментов для корректного использования ИИ-учеными, создает новые инструменты на основе описаний на естественном языке, итеративно оптимизирует спецификации инструментов и объединяет их в агентные рабочие процессы. В кейсе по изучению гиперхолестеринемии ToolUniverse был использован для создания ИИ-ученого, который идентифицировал мощный аналог препарата с благоприятными прогнозируемыми свойствами. Открытый исходный код ToolUniverse доступен по адресу https://aiscientist.tools.
Крупные языковые модели (LLM) с возможностями логического вывода демонстрируют наилучшие результаты в широком спектре задач. Несмотря на их эмпирический успех, вопросы о том, на каких задачах и масштабах моделей логический вывод становится эффективным, а также о затратах на обучение и вывод, остаются недостаточно изученными. В данной работе мы используем фреймворк синтетической дистилляции данных для проведения масштабного контролируемого исследования. Мы сравниваем модели с тонкой настройкой на инструкциях (Instruction Fine-Tuning, IFT) и модели с логическим выводом различных размеров на широком спектре математических и универсальных задач, оценивая как задачи с множественным выбором, так и открытые форматы. Наш анализ показывает, что логический вывод последовательно улучшает производительность модели, часто достигая или превосходя результаты значительно более крупных IFT-систем. Примечательно, что хотя IFT остается Парето-оптимальным с точки зрения затрат на обучение и вывод, модели с логическим выводом становятся все более ценными с увеличением размера модели, преодолевая ограничения производительности IFT на задачах, требующих интенсивного логического вывода и открытых задач.
Модели обработки визуальной информации и текста (VLMs) обеспечивают унифицированное моделирование изображений и текста, что позволяет им выполнять сложные задачи реального мира через восприятие, планирование и рассуждение. Среди этих задач рассуждение является особенно показательным, при этом математическое рассуждение служит ярким примером. Оно подчеркивает высокоуровневую способность VLMs понимать математическую информацию в изображениях и выполнять сложные рассуждения. В последнее время было предложено множество тестовых наборов для визуального математического рассуждения, но они часто ограничиваются геометрией, не охватывают текстовые математические задачи и редко оценивают рассуждения на основе нескольких изображений. Чтобы устранить эти пробелы, мы представляем GSM8K-V — чисто визуальный тестовый набор для математического рассуждения на основе нескольких изображений. GSM8K-V создан путем систематического преобразования каждого образца из широко используемого текстового набора GSM8K в визуальную форму. Благодаря тщательно разработанному автоматизированному конвейеру генерации изображений в сочетании с аккуратной ручной аннотацией мы создали 1 319 высококачественных образцов. Мы оцениваем широкий спектр открытых и закрытых моделей на GSM8K-V. Результаты показывают, что хотя существующие VLMs практически достигли предела производительности на текстовом GSM8K, на GSM8K-V остается значительный потенциал для улучшения. Например, лучшая модель, Gemini-2.5-Pro, достигает точности 95,22% на GSM8K, но только 46,93% на GSM8K-V. Мы проводим всесторонний анализ GSM8K-V, изучая ограничения текущих моделей, а также потенциальные направления для улучшения. GSM8K-V предлагает новый взгляд на визуальное математическое рассуждение и устанавливает эталон для разработки более надежных и универсальных VLMs.
Редактирование изображений на основе инструкций достигло значительных успехов, однако современные модели по-прежнему сталкиваются с трудностями при обработке сложных инструкций и часто требуют множества попыток для достижения желаемого результата. Обучение с подкреплением (RL) предлагает перспективное решение, но его применение в редактировании изображений серьезно ограничено отсутствием высокоточного и эффективного сигнала вознаграждения. В данной работе мы представляем комплексную методологию для преодоления этого барьера, сосредоточенную на разработке специализированной модели вознаграждения, соответствующей современным стандартам. Сначала мы представляем EditReward-Bench — всеобъемлющий бенчмарк для систематической оценки моделей вознаграждения на основе качества редактирования. На основе этого бенчмарка мы разрабатываем EditScore — серию моделей вознаграждения (7B-72B) для оценки качества редактирования изображений на основе инструкций. Благодаря тщательной подготовке и фильтрации данных, EditScore эффективно сопоставляет производительность с обученными проприетарными моделями визуального языка (VLM). Более того, в сочетании с эффективной стратегией самоансамбля, адаптированной под генеративную природу EditScore, наша крупнейшая модель даже превосходит GPT-5 в рамках бенчмарка. Затем мы демонстрируем, что высокоточная модель вознаграждения является ключом к применению онлайн RL в редактировании изображений. Наши эксперименты показывают, что даже крупнейшие открытые VLM не способны обеспечить эффективный сигнал для обучения, тогда как EditScore позволяет проводить эффективную и устойчивую оптимизацию политик. Применение нашего фреймворка к мощной базовой модели OmniGen2 приводит к созданию финальной модели, демонстрирующей значительный и стабильный прирост производительности. В целом, данная работа предлагает первый систематический путь от бенчмаркинга к моделированию вознаграждения и обучению RL в редактировании изображений, показывая, что высокоточная, специализированная модель вознаграждения является ключом к раскрытию полного потенциала RL в этой области.
Хотя диффузионные языковые модели (DLMs) представляют собой перспективную альтернативу авторегрессивным моделям (ARs), существующие открытые DLMs страдают от высокой задержки при выводе. Этот узкий момент в основном обусловлен квадратичной сложностью механизма внимания относительно длины контекста при вычислении всех пар запрос-ключ. Интуитивно, для снижения этой сложности естественной стратегией является ограничение внимания разреженными паттернами, сохраняющими только наиболее релевантные связи. Такие подходы хорошо зарекомендовали себя в ARs, где внимание следует фиксированным и четко определенным разреженным паттернам. Однако в DLMs мы наблюдаем иное поведение разреженности: (1) паттерны внимания различаются между головами, (2) паттерны внимания в каждой голове остаются высоко схожими на всех шагах денизинга, и (3) ранние шаги денизинга критически важны для генерации. Эти наблюдения делают методы разреженного внимания, разработанные для ARs, в значительной степени неприменимыми к DLMs, так как они не учитывают специфичные для голов структуры и рискуют ухудшить генерацию при применении на ранних шагах денизинга. Для решения этих проблем мы предлагаем SparseD — новый метод разреженного внимания для DLMs. Используя наши наблюдения, SparseD требует предварительного вычисления специфичных для голов разреженных паттернов только один раз, повторно используя их на всех шагах. Это предотвращает повторное вычисление разреженных паттернов на каждом шаге денизинга. В то же время SparseD использует полное внимание на ранних шагах, а затем переключается на разреженное внимание на более поздних шагах для сохранения качества генерации. В совокупности это делает SparseD практичным и эффективным решением для применения DLMs в задачах с длинным контекстом. Экспериментальные результаты показывают, что SparseD обеспечивает ускорение без потерь, достигая до 1,50-кратного ускорения по сравнению с FlashAttention при длине контекста 64k и 1024 шагах денизинга.
Управление большими языковыми моделями (LLM) стало перспективной парадигмой для контроля поведения моделей во время вывода через целенаправленное манипулирование скрытыми состояниями, предлагая легковесную альтернативу дорогостоящему переобучению. Однако существующие подходы к управлению страдают от серьезных ограничений: вычислительной неэффективности, ограниченной расширяемости и функциональности, что сдерживает как исследовательский прогресс, так и практическое внедрение. Мы представляем EasySteer — унифицированную платформу для высокопроизводительного и расширяемого управления LLM, построенную на основе vLLM. Наша система отличается модульной архитектурой с подключаемыми интерфейсами для методов, основанных на анализе и обучении, тонким управлением параметрами, предварительно вычисленными векторами управления для восьми прикладных областей и интерактивной демонстрационной системой. Благодаря глубокой интеграции с оптимизированным механизмом вывода vLLM, EasySteer достигает ускорения в 5,5–11,4 раза по сравнению с существующими подходами. Многочисленные эксперименты подтверждают его эффективность в снижении избыточного мышления, уменьшении галлюцинаций и других ключевых задачах. EasySteer превращает управление из исследовательской методики в готовую к производству технологию, создавая критически важную инфраструктуру для развертываемых и контролируемых языковых моделей.
Диффузионные языковые модели (DLMs) обладают высокой теоретической эффективностью, но ограничены фиксированной длиной декодирования и несовместимостью с кэшами ключ-значение (KV). Блочная диффузия смягчает эти проблемы, однако всё же накладывает фиксированный размер блока и требует дорогостоящего обучения. Мы представляем метод Next Sequence Prediction (NSP), который объединяет предсказание следующего токена и следующего блока, позволяя модели адаптивно определять длину генерации на каждом шаге. Когда длина фиксирована на уровне 1, NSP сводится к стандартному предсказанию следующего токена. На основе NSP мы предлагаем Sequential Diffusion Language Model (SDLM), которая может адаптировать предварительно обученные авторегрессивные языковые модели (ALMs) с минимальными затратами. В частности, SDLM выполняет диффузионный вывод в рамках блоков фиксированного размера, но динамически декодирует последовательные подпоследовательности на основе уверенности модели, сохраняя совместимость с KV-кэшем и повышая устойчивость к изменяющейся неопределённости и семантике в последовательности. Эксперименты показывают, что SDLM соответствует или превосходит сильные авторегрессивные базовые модели, используя всего 3,5 млн обучающих выборок, при этом достигая пропускной способности в 2,1 раза выше, чем у Qwen-2.5. Примечательно, что модель SDLM-32B демонстрирует ещё более выраженные преимущества в эффективности, подчеркивая высокий потенциал масштабируемости нашей модели. Страница проекта и код: https://github.com/OpenGVLab/SDLM.
Глубокие исследовательские агенты (Deep Research Agents, DRAs) способны автономно проводить сложные исследования и создавать всесторонние отчеты, демонстрируя значительный потенциал для применения в реальном мире. Однако существующие оценки в основном опираются на закрытые тестовые наборы данных, в то время как открытые бенчмарки для глубоких исследований остаются редкими и обычно игнорируют персонализированные сценарии. Чтобы устранить этот пробел, мы представляем Personalized Deep Research Bench — первый бенчмарк для оценки персонализации в DRAs. Он включает 50 разнообразных исследовательских задач из 10 областей, сопоставленных с 25 аутентичными профилями пользователей, которые сочетают структурированные атрибуты личности с динамическими контекстами реального мира, формируя 250 реалистичных запросов пользователей и задач. Для оценки производительности системы мы предлагаем PQR Framework, который совместно измеряет (P) соответствие персонализации, (Q) качество контента и (R) достоверность фактов. Наши эксперименты с различными системами подчеркивают текущие возможности и ограничения в обработке персонализированных глубоких исследований. Эта работа закладывает строгую основу для разработки и оценки следующего поколения по-настоящему персонализированных ИИ-ассистентов для исследований.
Обучение с подкреплением с верифицируемыми наградами (RLVR) стало перспективной парадигмой для улучшения способностей крупных языковых моделей (LLM) к рассуждению. Современные методы в основном опираются на фреймворки оптимизации политик, такие как PPO и GRPO, которые следуют обобщённой итерации политик, чередуя оценку ценности текущей политики и её улучшение на основе этой оценки. Хотя эти методы эффективны, они часто страдают от нестабильности обучения и коллапса разнообразия, требуя сложных эвристических приёмов и тщательной настройки. Мы отмечаем, что стандартный RLVR в математических рассуждениях может быть формализован как специализированный марковский процесс принятия решений с конечным горизонтом, детерминированными переходами состояний, древовидной динамикой и бинарными терминальными наградами. Несмотря на большой масштаб, базовая структура проще, чем в общих задачах управления, для которых были разработаны популярные алгоритмы RL (например, PPO), что позволяет предположить, что многие сложные техники в существующих методах могут быть упрощены или даже исключены. Основываясь на этом наблюдении, мы доказываем удивительный результат: оптимальное действие может быть восстановлено из Q-функции фиксированной равномерно случайной политики, что позволяет обойти цикл обобщённой итерации политик и связанные с ним эвристики. Мы представляем метод Random Policy Valuation for Diverse Reasoning (ROVER), который переводит этот принцип в практический и масштабируемый алгоритм для математических рассуждений LLM — минималистичный, но высокоэффективный метод RL, который выбирает действия через softmax над Q-значениями равномерной политики. ROVER сохраняет разнообразие на протяжении всего обучения, обеспечивая устойчивое исследование множества допустимых путей. На различных базовых моделях и стандартных бенчмарках математических рассуждений ROVER демонстрирует превосходную производительность как по качеству (+8,2 на pass@1, +16,8 на pass@256), так и по разнообразию (+17,6%), несмотря на радикальное упрощение по сравнению с существующими сложными методами.
Последние достижения в области генерации видео из текста позволили создавать всё более реалистичный и разнообразный контент, однако оценка таких видео остаётся фундаментальной проблемой из-за их многогранной природы, включающей визуальное качество, семантическое соответствие и физическую согласованность. Существующие методы оценки и модели вознаграждения ограничиваются едиными непрозрачными баллами, лишены интерпретируемости или предоставляют лишь грубый анализ, что делает их недостаточными для всесторонней оценки качества видео. Мы представляем VideoScore2 — многомерную, интерпретируемую и согласованную с человеческим восприятием систему, которая явно оценивает визуальное качество, соответствие текста и видео, а также физическую/здравомыслящую согласованность, предоставляя детальные обоснования в виде цепочки рассуждений. Наша модель обучена на крупномасштабном наборе данных VideoFeedback2, содержащем 27 168 видео с аннотациями, включающими оценки и траектории рассуждений по трём измерениям, с использованием двухэтапного подхода: контролируемого тонкого обучения с последующим обучением с подкреплением с помощью Group Relative Policy Optimization (GRPO) для повышения аналитической устойчивости. Экстенсивные эксперименты демонстрируют, что VideoScore2 достигает превосходной производительности с точностью 44,35 (+5,94) на нашем внутреннем бенчмарке VideoScore-Bench-v2 и средним показателем 50,37 (+4,32) на четырёх внешних бенчмарках (VideoGenReward-Bench, VideoPhy2 и др.), предоставляя интерпретируемые оценки, которые сокращают разрыв между оценкой и управляемой генерацией через эффективное моделирование вознаграждения для выборки Best-of-N. Страница проекта: https://tiger-ai-lab.github.io/VideoScore2/
Обучение с подкреплением (Reinforcement Learning, RL) стало популярной парадигмой обучения, особенно в сочетании с моделями рассуждений. Хотя оно эффективно, RL в основном сосредоточено на генерации ответов и не имеет механизмов для явного развития критики или рефлексии. Несколько недавних исследований, таких как Critique-Fine-Tuning (CFT) и Critique-Guided-Distillation (CGD), продемонстрировали преимущества явного обучения больших языковых моделей (LLM) критике. Вдохновленные этими работами, мы предлагаем Critique Reinforcement Learning (CRL), где модель должна генерировать критику для заданной пары (вопрос, решение). Награда определяется исключительно тем, совпадает ли итоговый метка суждения c из {True, False} сгенерированной критики с истинной меткой суждения c^*. На основе этого мы представляем Critique-Coder, который обучается на гибриде RL и CRL, заменяя 20% стандартных данных RL данными CRL. Мы дообучаем несколько моделей (Critique-Coder) и оцениваем их на различных бенчмарках, чтобы показать их преимущества перед моделями, обученными только на RL. Мы демонстрируем, что Critique-Coder стабильно превосходит базовые модели, обученные только на RL, на всех оцениваемых бенчмарках. В частности, наш Critique-Coder-8B достигает более 60% на LiveCodeBench (v5), превосходя другие модели рассуждений, такие как DeepCoder-14B и GPT-o1. Помимо генерации кода, Critique-Coder также демонстрирует улучшенные способности к общему рассуждению, что подтверждается его лучшей производительностью на задачах логического рассуждения из набора данных BBEH. Это указывает на то, что применение CRL на наборах данных по программированию улучшает общие способности к рассуждению и критике, которые могут быть перенесены на широкий спектр задач. Таким образом, мы считаем, что CRL является отличным дополнением к стандартному RL для рассуждений в LLM.
Обучает ли RL языковые модели (LLM) действительно новым навыкам или просто активирует уже существующие? Этот вопрос лежит в основе текущих дебатов о роли RL в пост-обучении LLM. С одной стороны, сильные эмпирические результаты могут быть достигнуты с помощью RL даже без предшествующего контролируемого дообучения; с другой стороны, критики утверждают, что RL вносит мало нового, за исключением перевеса существующих стратегий рассуждений. Данная работа предоставляет конкретные доказательства того, что LLM могут приобретать действительно новые навыки в процессе RL, комбинируя уже существующие, что отражает один из ключевых механизмов, с помощью которых люди приобретают новые когнитивные навыки. Чтобы минимизировать влияние загрязнения данных и других смешивающих факторов, а также обеспечить точный контроль над сложностью задач, мы разработали синтетическую структуру для нашего исследования. В частности, мы определяем навык как способность выводить результат функции преобразования строки f(x) при заданном x. Когда LLM уже изучила f и g до RL, наши эксперименты показывают, что RL позволяет ей изучить неизвестные ранее композиции h(x)=g(f(x)). Более того, эта способность к композиции обобщается на более сложные задачи, такие как композиции более чем двух функций, не встречавшихся во время обучения RL. Удивительно, но наши эксперименты показывают, что композиционный навык, приобретенный на исходной задаче, переносится на другую целевую задачу. Этот перенос происходит даже без композиционного обучения на целевой задаче, требуя лишь предварительного знания атомарных навыков для цели. Наш качественный анализ показывает, что RL фундаментально изменяет поведение моделей в процессе рассуждений. В отличие от этого, обучение на предсказании следующего токена с теми же данными не дает подобных результатов. Наши систематические эксперименты предоставляют новые инсайты в обучение LLM, предполагая ценность сначала построения базовых моделей с основными навыками, а затем использования RL для стимулирования продвинутых, обобщаемых навыков для решения сложных задач.
Пространственный интеллект охватывает широкий спектр способностей, включая визуализацию и преобразование форм, мысленное вращение объектов, оценку относительных позиций и вложенности, а также определение численности. Однако это по-прежнему остается важной нерешенной задачей для мультимодальных больших языковых моделей (MLLMs). Чтобы заполнить этот пробел, мы предлагаем рассматривать решение задач евклидовой геометрии как суррогатную задачу. В частности, мы тщательно создали курируемый мультимодальный набор данных под названием Euclid30K, содержащий около 30 тысяч задач по планиметрии и стереометрии. Чтобы позволить модели освоить и применять принципы евклидовой геометрии на основе этих задач, мы использовали метод оптимизации групповой относительной политики (GRPO) для тонкой настройки семейств моделей Qwen2.5VL и RoboBrain2.0, вдохновляя модели на распознавание форм, подсчет и установление связей между объектами, а также выполнение многошаговых дедуктивных рассуждений с использованием принципов евклидовой геометрии. Наши эксперименты показывают, что полученные модели достигают значительного улучшения в задачах пространственного мышления на четырех бенчмарках (Super-CLEVR, Omni3DBench, VSI-Bench и MindCube) без какой-либо адаптации под конкретные задачи. Примечательно, что после обучения на Euclid30K средняя точность на бенчмарке VSI-Bench для всех оцененных моделей увеличилась с 34,5% до 40,5%, что на 5,5 процентных пункта выше. Среди них модель RoboBrain2.0-Euclid-7B достигает точности 49,6%, превосходя предыдущую модель-лидер Spatial-MLLM. Насколько нам известно, это первое систематическое исследование, демонстрирующее, что тонкая настройка, ориентированная на геометрию, может наделить модели, работающие с изображениями и текстом, широко применимыми навыками пространственного мышления. Код и набор данных Euclid30K доступны по адресу https://zgca-ai4edu.github.io/Euclids_Gift.
Визуальная персонализация играет ключевую роль в пользовательских системах с искусственным интеллектом, таких как умные дома и здравоохранение, где согласование поведения модели с пользовательскими концепциями имеет критическое значение. Однако современные крупные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), несмотря на их широкую применимость, остаются недостаточно изученными в плане адаптации к индивидуальным пользователям. В данной статье мы представляем MMPB — первый масштабный бенчмарк для оценки VLMs в контексте персонализации. MMPB включает 10 тысяч пар изображение-запрос и охватывает 111 персонализируемых концепций, разделенных на четыре категории: люди, животные, объекты и персонажи, причем категория людей дополнена запросами, основанными на предпочтениях. Мы структурируем персонализацию в три основных типа задач, каждый из которых подчеркивает различные ключевые свойства VLMs. Используя 23 широко известные VLMs, включая как открытые, так и закрытые модели, мы оцениваем производительность персонализации с помощью трехэтапного протокола: внедрение концепций, многоходовый диалог и персонализированные запросы. Наши результаты показывают, что большинство VLMs (включая некоторые закрытые модели) испытывают трудности с персонализацией, особенно в поддержании согласованности в диалогах, обработке пользовательских предпочтений и адаптации к визуальным подсказкам. Наш анализ выявляет, что проблемы в персонализации VLMs (такие как отказные поведения и забывание длинного контекста) указывают на значительный потенциал для улучшений. Выявляя эти ограничения и предлагая масштабируемый бенчмарк, MMPB предоставляет ценные инсайты и прочную основу для будущих исследований в направлении создания по-настоящему персонализированного мультимодального ИИ. Страница проекта: aidaslab.github.io/MMPB
Мы исследуем проблему применения 3D-фундаментальных моделей (3DFMs) для задачи плотного синтеза новых видов (NVS). Несмотря на значительный прогресс в синтезе новых видов, достигнутый благодаря NeRF и 3DGS, современные подходы по-прежнему зависят от точных 3D-атрибутов (например, поз камер и облаков точек), полученных с помощью метода Structure-from-Motion (SfM), который часто оказывается медленным и ненадежным в условиях низкой текстуры или малого перекрытия снимков. Недавние 3DFMs демонстрируют ускорение на порядки по сравнению с традиционным подходом и большой потенциал для онлайн-синтеза новых видов. Однако большая часть валидации и выводов ограничена сценариями с малым количеством снимков. Наше исследование показывает, что простое масштабирование 3DFMs для плотных снимков сталкивается с двумя фундаментальными барьерами: резким увеличением нагрузки на видеопамять (VRAM) и несовершенными результатами, которые ухудшают чувствительную к инициализации 3D-обучение. Для преодоления этих барьеров мы представляем VGGT-X, включающий эффективную по памяти реализацию VGGT, масштабируемую до 1000+ изображений, адаптивное глобальное выравнивание для улучшения выходных данных VGGT и устойчивые практики обучения 3DGS. Эксперименты показывают, что эти меры существенно сокращают разрыв в качестве по сравнению с подходами, инициализированными через COLMAP, достигая передовых результатов в плотном синтезе новых видов и оценке поз без использования COLMAP. Кроме того, мы анализируем причины оставшегося разрыва с рендерингом, инициализированным через COLMAP, предоставляя инсайты для будущего развития 3D-фундаментальных моделей и плотного синтеза новых видов. Наша страница проекта доступна по адресу https://dekuliutesla.github.io/vggt-x.github.io/.
Генерация потокового видео, как один из фундаментальных компонентов интерактивных моделей мира и нейронных игровых движков, направлена на создание высококачественных, низколатентных и временно согласованных длинных видеопотоков. Однако большинство существующих подходов страдает от значительного накопления ошибок, что часто существенно ухудшает качество генерируемых видеопотоков на длительных временных горизонтах. Мы разработали Rolling Forcing — новую технику генерации видео, которая позволяет создавать длинные видеопотоки с минимальным накоплением ошибок. Rolling Forcing включает три ключевых нововведения. Во-первых, вместо итеративной выборки отдельных кадров, что ускоряет распространение ошибок, мы разработали схему совместного шумоподавления, которая одновременно обрабатывает несколько кадров с постепенно увеличивающимся уровнем шума. Этот подход ослабляет строгую причинно-следственную связь между соседними кадрами, эффективно подавляя рост ошибок. Во-вторых, мы внедрили механизм attention sink в задачу генерации длинных видеопотоков, что позволяет модели сохранять ключевые состояния начальных кадров в качестве глобального контекстного якоря, тем самым улучшая долгосрочную глобальную согласованность. В-третьих, мы разработали эффективный алгоритм обучения, который позволяет проводить дистилляцию за несколько шагов на значительно расширенных окнах шумоподавления. Этот алгоритм работает на непересекающихся окнах и снижает смещение, обусловленное использованием самостоятельно сгенерированных данных. Эксперименты показывают, что Rolling Forcing позволяет в реальном времени генерировать многоминутные видео на одном GPU с существенно сниженным накоплением ошибок.
Монокулярное оценивание глубины (MDE) является фундаментальной задачей компьютерного зрения. Традиционные методы ограничены недостатком данных и их качеством, что снижает их устойчивость. Для преодоления этих ограничений мы предлагаем BRIDGE — оптимизированную с помощью обучения с подкреплением (RL) структуру генерации изображений из данных о глубине (D2I), которая синтезирует более 20 миллионов реалистичных и геометрически точных RGB-изображений, каждое из которых внутренне связано с соответствующей истинной картой глубины, на основе разнообразных исходных карт глубины. Затем мы обучаем нашу модель оценивания глубины на этом наборе данных, используя гибридную стратегию обучения, которая объединяет псевдо-метки от учителя с истинными данными о глубине для всестороннего и устойчивого обучения. Эта инновационная парадигма генерации данных и обучения позволяет BRIDGE достичь прорывов в масштабе и разнообразии доменов, стабильно превосходя существующие передовые подходы как количественно, так и в захвате деталей сложных сцен, способствуя формированию общих и устойчивых признаков глубины. Код и модели доступны по адресу https://dingning-liu.github.io/bridge.github.io/.
Обработка длинных последовательностей является критически важной функцией для современных крупных языковых моделей. Однако механизм самовнимания в стандартной архитектуре Transformer сталкивается с серьезными вычислительными и ресурсными ограничениями при обработке длинных последовательностей. Хотя обучаемые методы разреженного внимания предлагают перспективное решение, существующие подходы, такие как NSA, вводят избыточное количество дополнительных параметров и нарушают традиционный рабочий процесс предварительного обучения на коротких последовательностях с последующей донастройкой на длинных, что приводит к медленной сходимости и трудностям в ускорении. Чтобы преодолеть эти ограничения, мы представляем фреймворк переключаемого плотно-разреженного внимания, названный InfLLM-V2. InfLLM-V2 — это обучаемое разреженное внимание, которое позволяет моделям плавно адаптироваться от коротких к длинным последовательностям. В частности, InfLLM-V2 повторно использует параметры плотного внимания за счет модификации архитектуры без введения дополнительных параметров, сохраняя согласованность между обработкой коротких и длинных последовательностей. Кроме того, InfLLM-V2 обеспечивает вычислительную эффективность для всех длин последовательностей, используя плотное внимание для коротких входных данных и плавно переходя к разреженному вниманию для длинных последовательностей. Для достижения практического ускорения мы также представляем эффективную реализацию InfLLM-V2, которая значительно снижает вычислительные затраты. Наши эксперименты по пониманию длинного контекста и рассуждениям с цепочкой мыслей демонстрируют, что InfLLM-V2 работает в 4 раза быстрее, чем плотное внимание, сохраняя при этом 98,1% и 99,7% производительности соответственно. На основе фреймворка InfLLM-V2 мы обучили и открыли доступ к модели MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), гибридной модели рассуждений, предоставив воспроизводимую реализацию для научного сообщества.
Мы представляем SIRI (Scaling Iterative Reinforcement Learning with Interleaved Compression) — простой, но эффективный подход к обучению с подкреплением для крупных моделей рассуждений (Large Reasoning Models, LRMs), который обеспечивает более эффективное и точное выполнение задач. Существующие исследования выявили повторяющиеся паттерны мышления в LRMs, и попытки их сокращения часто приводят к снижению производительности. В данной работе мы показываем, что этот компромисс можно преодолеть с помощью режима обучения, который итеративно чередует сжатие и расширение бюджета рассуждений, динамически регулируя максимальную длину rollout в процессе обучения. Фаза сжатия сокращает длину rollout, вынуждая модель принимать точные и ценные решения в ограниченном контексте, что эффективно уменьшает избыточные токены и повышает плотность рассуждений. Фаза расширения, напротив, ослабляет ограничение на длину, предоставляя модели пространство для исследования и планирования в долгосрочных сценариях. Примечательно, что после каждого цикла сжатия-расширения производительность модели улучшается, даже несмотря на сокращение длины вывода, постепенно приближая её к границе Парето в компромиссе между производительностью и эффективностью. При обучении на модели DeepSeek-R1-Distill-Qwen-1.5B, SIRI-low улучшает производительность на AIME24 на 43,2%, сокращая использование токенов на 46,9% после трёх итераций, а SIRI-high достигает наивысшей точности по сравнению со всеми другими методами (Рисунок 1). Наши результаты раскрывают потенциал периодического изменения длины усечения вывода LRM в процессе обучения для динамического баланса между исследованием и эффективностью рассуждений, сходясь к оптимальной "золотой середине" между ними. Наши модели доступны для общего пользования.
Мы предполагаем, что для достижения непрерывного улучшения моделей и многоаспектного согласования будущие модели должны обучаться на основе естественного взаимодействия с людьми. Современные диалоговые модели согласуются с использованием предварительно аннотированных отзывов, сгенерированных экспертами. В данной работе мы представляем метод Обучения с Подкреплением на основе Человеческого Взаимодействия (Reinforcement Learning from Human Interaction, RLHI), который обучается непосредственно на диалогах с пользователями в реальных условиях. Мы разработали два взаимодополняющих подхода: (1) RLHI с Пересмотром на основе Пользовательских Указаний, который корректирует неудовлетворительные ответы модели на основе естественно-языковых реакций пользователей, и (2) RLHI с Вознаграждением на основе Пользовательских Данных, который обучается через модель вознаграждения, учитывающую долгосрочную историю взаимодействия пользователя (так называемую персону). Вместе эти методы связывают долгосрочные персоны пользователей с предпочтениями на уровне отдельных реплик через оптимизацию предпочтений, обусловленных персоной. Обучаясь на диалогах из WildChat, оба варианта RLHI превосходят сильные базовые модели в персонализации и следовании инструкциям, а аналогичные отзывы улучшают результаты на тестах на логическое мышление. Эти результаты свидетельствуют о том, что органическое взаимодействие с людьми предоставляет масштабируемый и эффективный способ контроля для персонализированного согласования.
Мы представляем MGM-Omni, унифицированную Omni LLM для всестороннего мультимодального понимания и выразительной генерации речи на длительных временных горизонтах. В отличие от каскадных подходов, которые изолируют синтез речи, MGM-Omni использует архитектуру "мозг-рот" с двухканальной токенизированной структурой, которая четко разделяет мультимодальное рассуждение и генерацию речи в реальном времени. Такая конструкция обеспечивает эффективное кросс-модальное взаимодействие и генерацию речи с низкой задержкой в потоковом режиме. Для понимания унифицированная стратегия обучения в сочетании с двойным аудиоэнкодером позволяет воспринимать длинные аудиозаписи в различных акустических условиях. Для генерации схема параллельного декодирования на основе фрагментов сокращает разрыв между текстовыми и речевыми токенами, ускоряя вывод и поддерживая потоковое клонирование голоса с нулевым обучением при стабильном тембре на протяжении длительных периодов. По сравнению с современными аналогами, MGM-Omni достигает этих возможностей при значительно более эффективном использовании данных. Многочисленные эксперименты демонстрируют, что MGM-Omni превосходит существующие открытые модели в сохранении идентичности тембра на длинных последовательностях, генерации естественной и контекстно-осознанной речи, а также в достижении превосходного понимания длинных аудиозаписей и мультимодальных данных. MGM-Omni устанавливает эффективный сквозной подход для всестороннего мультимодального понимания и управляемой персонализированной генерации речи на длительных временных горизонтах.
Агенты анализа данных становятся ключевым катализатором автоматизированного научного открытия и реализации концепции Инновационного ИИ. Однако современные подходы в значительной степени полагаются на инженерию запросов для проприетарных моделей, в то время как модели с открытым исходным кодом сталкиваются с трудностями при обработке данных в разнообразных форматах, крупномасштабных файлов и многошагового рассуждения, требуемого реальной аналитикой. В данной статье представлен DataMind — масштабируемый метод синтеза данных и обучения агентов, предназначенный для создания универсальных агентов анализа данных. DataMind решает три ключевые проблемы при разработке агентов с открытым исходным кодом: недостаточные ресурсы данных, неподходящая стратегия обучения и нестабильность многошагового выполнения на основе кода. Конкретно, DataMind применяет: 1) детальную таксономию задач и рекурсивный механизм композиции задач от простого к сложному для увеличения разнообразия и сложности синтезированных запросов; 2) стратегию выборки траекторий, дополненную знаниями, с последующей фильтрацией на основе моделей и правил; 3) динамически настраиваемую цель обучения, сочетающую потери SFT и RL; 4) экономичный по памяти и стабильный фреймворк для многошагового выполнения на основе кода. На основе DataMind мы создали DataMind-12K — высококачественный набор траекторий, охватывающий различные области, категории задач и форматы файлов для задач анализа данных. Обучившись на DataMind-12K, наша модель DataMind-14B достигает наилучших результатов со средним показателем 71,16% на нескольких бенчмарках анализа данных, превосходя сильнейшие проприетарные базовые модели DeepSeek-V3.1 и GPT-5. Наша модель DataMind-7B также показывает наилучшие результаты среди всех моделей с открытым исходным кодом с показателем 68,10%. Мы также включаем в анализ экспериментов эмпирические инсайты, полученные в ходе исследовательских испытаний, с целью предоставить сообществу практические рекомендации по обучению агентов. Мы опубликуем DataMind-12K и модели DataMind-7B, 14B для дальнейших исследований сообщества.
Мы представляем HunyuanImage 3.0 — нативную мультимодальную модель, которая объединяет мультимодальное понимание и генерацию в рамках авторегрессионной архитектуры, при этом модуль генерации изображений доступен публично. Достижение HunyuanImage 3.0 стало возможным благодаря нескольким ключевым компонентам, включая тщательную подготовку данных, передовой дизайн архитектуры, нативную схему Chain-of-Thoughts, прогрессивное предварительное обучение модели, агрессивное пост-обучение и эффективную инфраструктуру, обеспечивающую масштабируемое обучение и вывод. Благодаря этим усовершенствованиям мы успешно обучили модель Mixture-of-Experts (MoE), содержащую более 80 миллиардов параметров, с активацией 13 миллиардов параметров на каждый токен во время вывода, что делает её самой крупной и мощной открытой моделью для генерации изображений на сегодняшний день. Мы провели обширные эксперименты, и результаты автоматической и человеческой оценки соответствия текста и изображения, а также визуального качества демонстрируют, что HunyuanImage 3.0 конкурирует с предыдущими моделями, достигшими наивысших результатов. Публикуя код и веса HunyuanImage 3.0, мы стремимся предоставить сообществу возможность исследовать новые идеи на основе передовой фундаментальной модели, способствуя созданию динамичной и активной мультимодальной экосистемы. Все открытые ресурсы доступны по адресу: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.
Интеграция инструментов в рассуждения (Tool-Integrated Reasoning, TIR) позволяет крупным языковым моделям (LLM) улучшать свои внутренние способности к рассуждению за счет использования внешних инструментов. Однако модели, применяющие TIR, часто демонстрируют неоптимальное поведение, такое как недостаточное или чрезмерное использование инструментов, а также излишнее обдумывание после вызовов инструментов. Задача стимулирования LLM к эффективному и точному выполнению TIR при стабилизации процесса рассуждения остается открытой. В данной работе мы начинаем с исследования влияния вызовов инструментов на рассуждения модели с точки зрения информационной энтропии. Наши результаты показывают, что результаты вызовов инструментов приводят к заметному изменению информационной энтропии последующих рассуждений, причем общая энтропия цепочки рассуждений варьируется в зависимости от количества вызовов инструментов. На основе этих наблюдений мы предлагаем Tool-Light — фреймворк, предназначенный для поощрения LLM к эффективному и точному выполнению TIR. Наш фреймворк включает создание набора данных и многоэтапную тонкую настройку. Для создания набора данных мы используем непрерывный саморазвивающийся сэмплинг с помощью тонко настроенной модели, интегрируя как стандартное сэмплирование, так и сэмплирование, управляемое энтропией. Кроме того, мы устанавливаем строгие критерии для выбора пар положительных и отрицательных примеров во время сэмплирования. Процесс обучения включает двухэтапный подход, состоящий из контролируемой тонкой настройки (Supervised Fine-Tuning, SFT) и саморазвивающейся оптимизации прямых предпочтений (Self-Evolved Direct Preference Optimization, DPO). Экспериментальные результаты на 10 наборах данных демонстрируют эффективность Tool-Light, значительно повышая эффективность модели в выполнении задач TIR.
Масштабирование во время тестирования (Test-Time Scaling, TTS) улучшает способность крупных языковых моделей (LLM) к рассуждению за счет выделения дополнительных вычислительных ресурсов на этапе вывода. Однако существующие подходы в основном полагаются на выборку на уровне выходных данных, упуская из виду роль архитектуры модели. В популярных моделях Mixture-of-Experts (MoE) мы наблюдаем, что изменение количества активированных экспертов приводит к созданию дополнительных наборов решений с устойчивой точностью, что открывает новый и недостаточно изученный источник разнообразия. Вдохновленные этим наблюдением, мы предлагаем Dynamic Experts Search (DES) — стратегию TTS, которая превращает активацию экспертов в управляемый параметр пространства поиска. DES включает два ключевых компонента: (1) Dynamic MoE, который позволяет напрямую управлять количеством экспертов на этапе вывода для генерации разнообразных траекторий рассуждений без дополнительных затрат; и (2) Наследование конфигурации экспертов, которое сохраняет постоянное количество экспертов в рамках одной траектории рассуждений, варьируя его между запусками, тем самым балансируя стабильность и разнообразие в процессе поиска. Многочисленные эксперименты с архитектурами MoE, верификаторами и тестами на рассуждение (например, математика, код и знания) демонстрируют, что DES стабильно превосходит базовые подходы TTS, повышая точность и устойчивость без дополнительных затрат. Эти результаты подчеркивают DES как практичную и масштабируемую форму TTS, учитывающую архитектуру, и показывают, как структурная гибкость современных LLM может способствовать улучшению рассуждений.
Крупные языковые модели (LLMs) демонстрируют высокие результаты в общих математических рассуждениях, но терпят катастрофические неудачи в специализированной технической математике. В области беспроводной связи, где задачи требуют точного манипулирования информационно-теоретическими границами, ограничениями оптимизации и формулировками обработки сигналов, даже самые передовые модели не могут достичь компетентного уровня. Мы представляем WirelessMathLM, показывая, что компактные модели (0.5B–7B параметров) могут сравниться или превзойти гораздо более крупные модели благодаря доменно-специфическому обучению с подкреплением с верифицируемыми наградами. Наше ключевое наблюдение заключается в том, что задачи в области беспроводной математики обладают уникальным свойством — верифицируемой корректностью, — что позволяет эффективно применять обучение с подкреплением без участия человека. Мы создаем WirelessMathBench-XL, комплексный бенчмарк из 4,027 задач, взятых из 970 научных статей. Используя Group Relative Policy Optimization (GRPO) с бинарными верификационными наградами, мы обучаем модели напрямую из базовых контрольных точек без предварительного обучения с учителем. Наша модель с 7B параметров достигает точности 39.5% на WirelessMathBench-XL, приближаясь к GPT-4o (40.4%), при этом используя примерно в 100 раз меньше параметров, чем DeepSeek-R1 (671B, 57.4%). Примечательно, что обучение с GRPO почти удваивает производительность на всех масштабах моделей (0.5B +11%, 3B +103%, 7B +81%), с положительным переносом на общие математические бенчмарки — наши модели улучшают результаты в среднем на +8.4 балла на MATH, Minerva-Math, OlympiadBench, AMC и AIME без какого-либо обучения на этих задачах.
Крупные модели, работающие с визуальными и текстовыми данными (LVLMs), демонстрируют высокую производительность в мультимодальных задачах, однако они часто полагаются на языковой приоритет (LP) — запомненные текстовые шаблоны, полученные в ходе предварительного обучения, при этом недостаточно используя визуальные данные. Предыдущие исследования LP в основном основывались на анализе входных и выходных данных, что не позволяет раскрыть внутренние механизмы, определяющие, когда и как визуальная информация влияет на поведение модели. Чтобы устранить этот пробел, мы представляем первое систематическое исследование языкового приоритета через призму цепочки вложений (chain-of-embedding), которое изучает динамику представлений на уровне слоев внутри LVLMs. Наш анализ выявляет универсальное явление: каждая модель демонстрирует точку интеграции визуальной информации (VIP) — критический слой, на котором визуальные данные начинают существенно преобразовывать скрытые представления и влиять на декодирование. На основе этого наблюдения мы вводим оценку общей интеграции визуальной информации (TVI), которая агрегирует расстояние представлений после VIP для количественной оценки того, насколько сильно визуальный запрос влияет на генерацию ответа. На примере 54 комбинаций моделей и наборов данных, охватывающих 9 современных LVLMs и 6 бенчмарков, мы показываем, что VIP стабильно проявляется, а TVI надежно предсказывает силу языкового приоритета. Это предоставляет принципиальный инструментарий для диагностики и понимания языкового приоритета в LVLMs.
Мы представляем новый подход к дистилляции больших языковых моделей (LLM), формулируя её как задачу ограниченного обучения с подкреплением. Хотя в последних работах начали исследовать интеграцию специфичных для задачи наград в процессы дистилляции, существующие методы обычно полагаются на эмпирическое взвешивание наград. Мы предлагаем принципиальную оптимизационную структуру, которая максимизирует специфичные для задачи награды, ограничивая при этом расхождение с учительской моделью ниже заданного порога. Наш подход адаптирует метод ограниченного обучения с подкреплением с расширением состояния к настройке дистилляции, вводя модифицированную функцию награды, которая сохраняет теоретические гарантии выполнения ограничений без необходимости расширения состояния или доступа к учительской модели во время развёртывания, а также без вычислительных затрат методов двойственного лагранжиана. В ходе обширных экспериментов на задачах математического рассуждения мы демонстрируем, что наш метод достигает лучших показателей выполнения ограничений и более качественного рассуждения по сравнению с базовыми методами мягкого лагранжева релаксации, сохраняя при этом конкурентоспособные результаты выполнения задач. Наша структура предлагает теоретически обоснованное и практически эффективное решение для дистилляции с учётом наград в условиях ограниченных ресурсов.
Недавние языковые модели с возможностью рассуждений (RLMs), особенно те, которые обучались с использованием обучения с подкреплением на основе верификаторов, часто показывают худшие результаты при использовании метода "малоэкземплярного рассуждения" (few-shot CoT) по сравнению с прямым ответом. Мы вновь исследуем этот парадокс, используя высококачественные траектории рассуждений из DeepSeek-R1 в качестве демонстраций, и обнаруживаем, что добавление большего количества примеров последовательно снижает точность, даже когда демонстрации являются оптимальными. Подробный анализ выявляет два механизма, лежащих в основе этого снижения: (i) семантическое введение в заблуждение, когда высокая текстовая схожесть заставляет модель рассматривать целевую задачу как идентичную примеру и дословно копировать промежуточные шаги; и (ii) неудача передачи стратегии, когда модель испытывает трудности с извлечением полезных стратегий рассуждения и их применением к целевым вопросам. Руководствуясь этими выводами, мы представляем Insight-to-Solve (I2S), последовательную процедуру на этапе тестирования, которая превращает демонстрации в явные, повторно используемые инсайты и выводит целевую траекторию рассуждения; дополнительно рассуждение может быть самоусовершенствовано для согласованности и корректности (I2S+). Многочисленные эксперименты на различных бенчмарках показывают, что I2S и I2S+ последовательно превосходят как прямое ответное решение, так и базовые методы масштабирования на этапе тестирования для моделей с открытым и закрытым исходным кодом. Даже для моделей GPT наш метод оказывается полезным: на AIME'25 GPT-4.1 улучшает результат на +14.0%, а o1-mini — на +2.7% на AIME и +1.7% на GPQA, что указывает на эффективность использования демонстраций в контексте через фреймворк "инсайт-уточнение-решение".
Маскированные диффузионные языковые модели (MDLM) недавно появились как перспективная альтернатива авторегрессивным (AR) языковым моделям, предлагая такие свойства, как параллельное декодирование, гибкие порядки генерации и возможность сокращения количества шагов вывода. Несмотря на эти преимущества, стратегии декодирования и алгоритмы обучения с подкреплением (RL), адаптированные для MDLM, остаются недостаточно изученными. Наивный подход заключается в прямом переносе хорошо зарекомендовавших себя методов для AR-моделей на MDLM. Однако это сразу же вызывает вопрос: действительно ли такой наивный перенос оптимален? Например, 1) Блочные и полуавторегрессивные стратегии декодирования не используются при обучении MDLM, так почему же они превосходят полное диффузионное декодирование на этапе вывода? 2) Применение алгоритмов RL, разработанных для AR-моделей, непосредственно к MDLM демонстрирует несоответствие между обучением и выводом, поскольку декодирование MDLM является некаузальным (параллельным). Это приводит к несоответствиям между траекторией rollout и траекторией оптимизации. Для решения этих проблем мы предлагаем механизмы EOS Early Rejection (EOSER) и Ascending Step-Size (ASS) для планирования декодирования, которые раскрывают потенциал MDLM для выполнения полного диффузионного декодирования, достигая конкурентоспособной производительности с меньшим количеством шагов декодирования. Кроме того, мы представляем Consistency Trajectory Group Relative Policy Optimization (CJ-GRPO) для управления MDLM, который подчеркивает согласованность между траекторией rollout и траекторией оптимизации и уменьшает ошибки оптимизации, вызванные пропуском шагов. Мы проводим обширные эксперименты на задачах рассуждения, таких как математические и планировочные бенчмарки, используя LLaDA-8B-Instruct. Результаты показывают, что предложенные механизмы EOSER и ASS вместе с CJ-GRPO обладают значительным потенциалом для эффективного и результативного управления MDLM. Код: https://github.com/yjyddq/EOSER-ASS-RL.
Агенты с графическим интерфейсом пользователя (GUI), основанные на моделях "визуальный язык" (VLM), демонстрируют потенциал для автоматизации сложных задач на настольных и мобильных устройствах, но сталкиваются с существенными трудностями при применении обучения с подкреплением (RL): (1) медленные многошаговые взаимодействия с GUI-средами для развертывания политик и (2) недостаточное количество высококачественных взаимодействий между агентом и средой для обучения политик. Для решения этих проблем мы предлагаем DART — фреймворк Decoupled Agentic RL Training для GUI-агентов, который координирует гетерогенные модули в высоко декомпозированной манере. DART разделяет систему обучения на четыре асинхронных модуля: кластер среды, сервис развертывания, менеджер данных и тренер. Такая конструкция обеспечивает неблокирующую коммуникацию, асинхронное обучение, выборку траекторий на уровне развертывания и синхронизацию моделей на уровне каждого рабочего процесса, значительно повышая эффективность системы: 1.6* использование GPU для развертывания, 1.9* пропускная способность обучения и 5.5* использование среды. Для эффективного обучения на основе обильных выборок мы вводим адаптивную схему курирования данных: (1) предварительный сбор успешных траекторий для сложных задач для компенсации редких успехов в онлайн-выборке; (2) динамическая настройка количества развертываний и длины траекторий в зависимости от сложности задачи; (3) выборочное обучение на шагах с высокой энтропией для приоритизации критических решений; (4) стабилизация обучения с помощью усеченного важностного сэмплирования для устранения несоответствия политик между развертыванием и обновлением. На бенчмарке OSWorld DART-GUI-7B достигает уровня успешного выполнения задач в 42.13%, что на 14.61% выше базовой модели и на 7.34% выше, чем у открытого SOTA. Мы полностью откроем исходный код нашего фреймворка, данных и контрольных точек модели через computer-use-agents.github.io/dart-gui, что, как мы считаем, является своевременным вкладом в сообщество открытого исходного кода для обучения с подкреплением агентов.
Обратная связь от людей играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими предпочтениями. Однако такая обратная связь часто бывает зашумленной или противоречивой, что может ухудшить качество моделей вознаграждения и затруднить согласование. Хотя для смягчения этой проблемы было предложено множество автоматизированных методов очистки данных, систематическая оценка их эффективности и обобщаемости остается недостаточной. Чтобы заполнить этот пробел, мы представляем первый всеобъемлющий бенчмарк для оценки 13 методов очистки данных о предпочтениях в контексте согласования LLM. PrefCleanBench предлагает стандартизированный протокол для оценки стратегий очистки с точки зрения производительности согласования и обобщаемости на различных наборах данных, архитектурах моделей и алгоритмах оптимизации. Унифицируя различные методы и тщательно сравнивая их, мы выявляем ключевые факторы, определяющие успех очистки данных в задачах согласования. Этот бенчмарк закладывает основу для принципиальных и воспроизводимых подходов к улучшению согласования LLM за счет повышения качества данных, подчеркивая важную, но недостаточно изученную роль предварительной обработки данных в ответственном развитии ИИ. Мы публикуем модульные реализации всех методов для стимулирования дальнейших исследований: https://github.com/deeplearning-wisc/PrefCleanBench.
Генерация с использованием извлеченных данных (Retrieval-Augmented Generation, RAG) направлена на снижение галлюцинаций в больших языковых моделях (LLM) за счет привязки ответов к извлеченным документам. Однако LLM на основе RAG всё ещё генерируют галлюцинации, даже когда предоставлены правильный и достаточный контекст. Растущее количество исследований предполагает, что это связано с дисбалансом между тем, как модели используют внешний контекст и свои внутренние знания, и несколько подходов пытались количественно оценить эти сигналы для обнаружения галлюцинаций. Однако существующие методы требуют тщательной настройки гиперпараметров, что ограничивает их универсальность. Мы предлагаем LUMINA, новую структуру, которая обнаруживает галлюцинации в системах RAG через сигналы контекста и знаний: использование внешнего контекста количественно оценивается через распределительное расстояние, а использование внутренних знаний измеряется путем отслеживания того, как предсказанные токены изменяются на разных слоях трансформера. Мы также вводим структуру для статистической проверки этих измерений. Эксперименты на стандартных тестах для галлюцинаций в RAG и четырех открытых LLM показывают, что LUMINA достигает стабильно высоких показателей AUROC и AUPRC, превосходя предыдущие методы, основанные на использовании, на до +13% AUROC на HalluRAG. Более того, LUMINA остается устойчивой при ослабленных предположениях о качестве извлечения и совпадении моделей, предлагая как эффективность, так и практичность.
Агенты на основе больших языковых моделей (LLM), объединяющие модули планирования, памяти, рефлексии и использования инструментов, демонстрируют потенциал в решении сложных многошаговых задач. Однако их сложные архитектуры усиливают уязвимость к каскадным сбоям, когда одна ошибка, являющаяся корневой причиной, распространяется на последующие решения, приводя к провалу задачи. Современные системы не обладают структурой, которая могла бы всесторонне анализировать ошибки агентов модульным и системным образом, и, следовательно, не способны своевременно выявлять такие ошибки. Мы устраняем этот пробел с помощью трех вкладов. Во-первых, мы представляем AgentErrorTaxonomy — модульную классификацию режимов сбоев, охватывающих память, рефлексию, планирование, действия и системные операции. Во-вторых, мы создаем AgentErrorBench — первый набор данных с систематически аннотированными траекториями сбоев из ALFWorld, GAIA и WebShop, что позволяет проводить анализ ошибок на основе реальных запусков агентов. В-третьих, мы предлагаем AgentDebug — фреймворк для отладки, который изолирует корневые причины сбоев и предоставляет корректирующие рекомендации, позволяя агентам восстанавливаться и улучшаться итеративно. Эксперименты на AgentErrorBench показывают, что AgentDebug достигает на 24% более высокой точности в выполнении всех шагов без ошибок и на 17% более высокой точности на каждом шаге по сравнению с самым сильным базовым методом. Помимо обнаружения, целевые рекомендации, генерируемые AgentDebug, позволяют агентам на основе LLM итеративно восстанавливаться после сбоев, что приводит к относительному улучшению успешности задач до 26% в ALFWorld, GAIA и WebShop. Эти результаты подтверждают, что принципиальная отладка является путем к созданию более надежных и адаптивных агентов на основе LLM. Код и данные будут доступны по адресу https://github.com/ulab-uiuc/AgentDebug.
Крупные языковые модели (LLM) сегодня являются мощными инструментами для решения задач в различных областях, и их возможности продолжают расти с увеличением размера модели, объема обучающих данных и их качества, что подтверждается многочисленными исследованиями и экспериментами в отрасли. Обучение передовой модели в настоящее время требует порядка десятков или сотен йоттафлопс, что представляет собой значительные затраты времени, вычислительных ресурсов и энергии. Поэтому повышение эффективности предварительного обучения крайне важно для создания следующего поколения еще более мощных LLM. Хотя обучение с использованием 8-битных чисел с плавающей запятой (FP8) уже широко применяется, переход к еще более узкой точности, такой как 4-битные числа с плавающей запятой (FP4), может обеспечить дополнительные улучшения в скорости вычислений и использовании ресурсов. Однако квантование на таком уровне создает проблемы для стабильности обучения, сходимости и реализации, особенно для крупномасштабных моделей, обучаемых на длинных последовательностях токенов. В данном исследовании мы представляем новый подход для стабильного и точного обучения крупных языковых моделей (LLM) с использованием формата NVFP4. Наш метод интегрирует случайные преобразования Адамара (RHT) для ограничения выбросов на уровне блоков, применяет двумерную схему квантования для обеспечения согласованных представлений как в прямом, так и в обратном проходах, использует стохастическое округление для несмещенной оценки градиентов и включает выборочные слои с высокой точностью. Мы подтверждаем наш подход, обучив модель с 12 миллиардами параметров на 10 триллионах токенов — это самый длинный из публично задокументированных процессов обучения с 4-битной точностью на сегодняшний день. Наши результаты показывают, что модель, обученная с использованием нашей техники предварительного обучения на основе NVFP4, достигает потерь при обучении и точности на последующих задачах, сопоставимых с базовым уровнем FP8. Эти результаты подчеркивают, что NVFP4 в сочетании с нашим подходом к обучению представляет собой значительный шаг вперед в алгоритмах обучения LLM с узкой точностью.
Авторегрессионные (AR) модели перспективны для генерации изображений, однако их варианты с непрерывными токенами часто уступают моделям с латентной диффузией и маскированной генерацией. Основная проблема заключается в неоднородной дисперсии латентных переменных VAE, которая усиливается в процессе AR-декодирования, особенно при использовании классификаторно-свободного управления (CFG), что может приводить к коллапсу дисперсии. Мы предлагаем SphereAR для решения этой проблемы. Её ключевая идея заключается в ограничении всех входных и выходных данных AR — включая данные после CFG — на гиперсфере фиксированного радиуса (постоянная норма ℓ₂), используя гиперсферические VAE. Наш теоретический анализ показывает, что гиперсферическое ограничение устраняет компонент масштаба (основную причину коллапса дисперсии), тем самым стабилизируя AR-декодирование. Экспериментально, в задаче генерации на ImageNet, SphereAR-H (943M) устанавливает новый рекорд для AR-моделей, достигая FID 1.34. Даже на меньших масштабах SphereAR-L (479M) достигает FID 1.54, а SphereAR-B (208M) — 1.92, что соответствует или превосходит значительно более крупные базовые модели, такие как MAR-H (943M, 1.55) и VAR-d30 (2B, 1.92). Насколько нам известно, это первый случай, когда чистая AR-модель генерации изображений с последовательным порядком токенов превосходит модели диффузии и маскированной генерации при сопоставимых масштабах параметров.
По мере того как крупные языковые модели (LLM) всё чаще применяются для научных рассуждений, сложность форматов ответов и разнообразие эквивалентных выражений делают проверку ответов критически важной, но сложной задачей. Существующие исследования проверки в научных областях страдают от двух основных ограничений: (а) отсутствие систематических стандартов оценки и недостаточный охват дисциплин, что затрудняет их всестороннюю оценку; и (б) сильная зависимость от громоздкого проектирования правил или инженерии промптов, что снижает их эффективность в сложных сценариях рассуждений или ограничивает их междисциплинарную обобщаемость. Для решения этих проблем мы предлагаем решения как на уровне данных, так и на уровне моделей. На стороне данных мы создаём SCI-VerifyBench, междисциплинарный бенчмарк, охватывающий математику, физику, биологию, химию и общие научные вопросы. Бенчмарк построен на основе реальных ответов LLM и дополнен доменно-специфическими эквивалентными преобразованиями, которые генерируют сложные и реалистичные данные. Аннотации на основе моделей и экспертов обеспечивают как качество, так и разнообразие, позволяя проводить строгую оценку способности к проверке. На стороне моделей мы подчеркиваем важность рассуждений для проверки и представляем SCI-Verifier, унифицированный верификатор с усиленными возможностями рассуждений для научных областей. Благодаря пост-обучению SCI-Verifier демонстрирует сильные способности к логическому рассуждению и оценке эквивалентности, сохраняя при этом лаконичные и стабильные выходные данные. Вместе SCI-VerifyBench и SCI-Verifier предоставляют принципиальную основу для научной проверки, предлагая как систематическую оценку, так и практические пути для повышения надёжности и применимости LLM в научных областях.
Поисково-усиленные большие языковые модели (LLM) часто испытывают трудности с выполнением сложных задач рассуждения из-за неэффективного многошагового поиска и ограниченных способностей к рассуждению. Мы предлагаем AceSearcher — фреймворк кооперативного самообучения, который обучает одну большую языковую модель (LLM) попеременно выполнять две роли: декомпозитора, который разбивает сложные запросы, и решателя, который интегрирует найденные контексты для генерации ответов. AceSearcher сочетает контролируемую тонкую настройку на разнообразной смеси задач поиска, рассуждения и декомпозиции с тонкой настройкой с подкреплением, оптимизированной для точности конечного ответа, что устраняет необходимость в промежуточных аннотациях. Экстенсивные эксперименты на трех задачах, требующих интенсивного рассуждения, на 10 наборах данных показывают, что AceSearcher превосходит современные базовые модели, достигая среднего улучшения точного совпадения на 7,6%. Примечательно, что на задачах рассуждения на уровне документов в финансовой области AceSearcher-32B демонстрирует производительность, сопоставимую с моделью DeepSeek-V3, используя менее 5% её параметров. Даже на меньших масштабах (1,5B и 8B) AceSearcher часто превосходит существующие поисково-усиленные LLM с до 9 раз большим количеством параметров, подчеркивая его исключительную эффективность и производительность в решении сложных задач рассуждения. Наш код будет опубликован на https://github.com/ritaranx/AceSearcher и https://huggingface.co/AceSearcher.
Понимание длинных видео остается сложной задачей для современных крупных видео-языковых моделей (LVLMs) из-за конфликта между пониманием длительных временных последовательностей и детальным восприятием пространственных деталей. LVLMs с механизмом равномерной выборки кадров, который выбирает кадры с одинаковым размером и фиксированной частотой, неизбежно жертвуют либо временными подсказками, либо пространственными деталями, что приводит к неоптимальным решениям. Чтобы смягчить эту дилемму, мы предлагаем LOVE-R1 — модель, которая может адаптивно увеличивать масштаб видеоклипа. Модель сначала получает плотно выбранные кадры, но в низком разрешении. Если требуются некоторые пространственные детали, модель может увеличить масштаб интересующего клипа с высоким разрешением кадров на основе своего анализа до получения ключевой визуальной информации. Весь процесс реализован как многошаговый процесс рассуждений. Для обучения способности к рассуждениям мы сначала дообучаем модель на собранных нами 38 тыс. высококачественных данных CoT и улучшаем ее с помощью разделенного дообучения с подкреплением. Поскольку итоговые награды не могут обеспечить детальный контроль за процессом, мы разделяем многошаговые рассуждения на несколько одношаговых и явно оптимизируем внутреннюю способность к увеличению масштаба. Эксперименты на бенчмарках для понимания длинных видео показывают, что наша модель с механизмом адаптивной выборки кадров "медленно-быстро" достигает отличного баланса между плотностью выборки и разрешением кадров, а LOVE-R1 превосходит нашу базовую модель Qwen2.5-VL в среднем на 3,1 процентных пункта на 4 распространенных бенчмарках для понимания длинных видео.
Оптимизация предпочтений играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими ценностями и намерениями. Одной из значительных проблем в этом процессе является несоответствие распределений между предварительно собранными оффлайн-данными о предпочтениях и эволюционирующей политикой модели. Существующие методы пытаются сократить этот разрыв с помощью статических эвристик или разделенных стратегий онлайн-сэмплирования, но они часто не способны адаптироваться к динамическому состоянию обучения модели. Для устранения этого разрыва мы предлагаем Meta-Weighted Adaptive Preference Optimization (MetaAPO) — новую структуру, которая динамически связывает генерацию данных с обучением модели. MetaAPO использует легковесный мета-обучаемый модуль в качестве "оценщика разрыва согласования" для анализа потенциальных преимуществ онлайн-сэмплирования по сравнению с оффлайн-данными. Это направляет целенаправленную онлайн-генерацию и назначает мета-веса для каждого образца в оптимизационной цели, динамически балансируя качество и распределение онлайн- и оффлайн-данных. Эксперименты на AlpacaEval 2, Arena-Hard и MT-Bench показывают, что MetaAPO стабильно превосходит существующие подходы к оптимизации предпочтений в различных условиях, одновременно сокращая затраты на онлайн-аннотирование на 42%.
Генерация изображений с несколькими объектами направлена на синтез предоставленных пользователем объектов в одном изображении с сохранением их точности, обеспечением согласованности с запросом и соответствием эстетическим предпочтениям человека. Однако существующие методы, особенно те, которые основаны на парадигме In-Context Learning, ограничены своей зависимостью от простых реконструкционных целей, что приводит как к значительной утечке атрибутов, снижающей точность объектов, так и к несоответствию тонким предпочтениям человека. Для решения этой проблемы мы предлагаем MultiCrafter — фреймворк, который обеспечивает генерацию с высокой точностью и соответствием предпочтениям. Во-первых, мы выяснили, что коренной причиной утечки атрибутов является значительное переплетение внимания между различными объектами в процессе генерации. Поэтому мы вводим явное позиционное управление для явного разделения областей внимания для каждого объекта, что эффективно устраняет утечку атрибутов. Чтобы модель могла точно планировать области внимания для разных объектов в различных сценариях, мы используем архитектуру Mixture-of-Experts, которая повышает способность модели, позволяя разным экспертам сосредоточиться на разных сценариях. Наконец, мы разрабатываем новый фреймворк онлайн-обучения с подкреплением для согласования модели с предпочтениями человека, включая механизм оценки для точного измерения точности нескольких объектов и более стабильную стратегию обучения, адаптированную для архитектуры MoE. Эксперименты подтверждают, что наш фреймворк значительно улучшает точность объектов и лучше соответствует предпочтениям человека.
Структурированные изображения (например, графики и геометрические диаграммы) остаются сложной задачей для мультимодальных больших языковых моделей (MLLMs), так как ошибки восприятия могут приводить к ошибочным выводам. Промежуточные визуальные подсказки могут направлять рассуждения; однако существующие методы, основанные на подсказках, ограничены низкокачественной обработкой изображений и линейными, жесткими схемами рассуждений, что снижает их эффективность при работе со сложными структурированными изображениями. В данной статье мы предлагаем PixelCraft — новую мультиагентную систему для высококачественной обработки изображений и гибкого визуального анализа структурированных изображений. Система включает диспетчера, планировщика, аналитика, критиков и набор агентов визуальных инструментов. Для достижения высококачественной обработки мы создаем качественный корпус и дообучаем MLLM в модель локализации, чьи пиксельные локализации интегрируются с традиционными алгоритмами компьютерного зрения (CV) в агентах инструментов. На основе этого фундамента PixelCraft обеспечивает гибкий визуальный анализ через динамический трехэтапный процесс: выбор инструментов, обсуждение агентов и самокритику. В отличие от предыдущих линейных схем рассуждений, которые просто добавляют исторические изображения, PixelCraft поддерживает память изображений, позволяя планировщику адаптивно возвращаться к предыдущим визуальным шагам, исследовать альтернативные ветви рассуждений и динамически корректировать траекторию анализа в ходе обсуждения. Экстенсивные эксперименты на сложных наборах данных для графиков и геометрии демонстрируют, что PixelCraft значительно улучшает производительность визуального анализа для продвинутых MLLMs, устанавливая новый стандарт для анализа структурированных изображений. Наш код будет доступен по адресу https://github.com/microsoft/PixelCraft.
Обучение с подкреплением (Reinforcement Learning, RL) стало ключевой парадигмой для развития больших языковых моделей (Large Language Models, LLMs), где предварительное обучение и последующее обучение с подкреплением используют одну и ту же формулировку логарифмического правдоподобия. В отличие от этого, современные подходы RL для диффузионных моделей, в частности Оптимизация политики денойзинга диффузии (Denoising Diffusion Policy Optimization, DDPO), оптимизируют целевую функцию, отличную от целей предварительного обучения — потерю согласования оценок/потоков. В данной работе мы предлагаем новый теоретический анализ: DDPO является неявной формой согласования оценок/потоков с зашумленными целями, что увеличивает дисперсию и замедляет сходимость. На основе этого анализа мы представляем метод Согласование с взвешиванием преимуществ (Advantage Weighted Matching, AWM), который использует ту же потерю согласования оценок/потоков, что и предварительное обучение, для получения целевой функции с меньшей дисперсией и перевзвешивает каждый образец по его преимуществу. По сути, AWM повышает влияние образцов с высокой наградой и подавляет образцы с низкой наградой, сохраняя при этом целевую функцию моделирования идентичной предварительному обучению. Это объединяет предварительное обучение и RL как концептуально, так и практически, согласуется с теорией градиента политики, снижает дисперсию и обеспечивает более быструю сходимость. Этот простой, но эффективный подход приносит значительные преимущества: на бенчмарках GenEval, OCR и PickScore AWM обеспечивает ускорение до 24 раз по сравнению с Flow-GRPO (который основан на DDPO) при применении к Stable Diffusion 3.5 Medium и FLUX, без ущерба для качества генерации. Код доступен по адресу https://github.com/scxue/advantage_weighted_matching.
Недавние достижения, такие как DeepSeek-R1, показали, что алгоритм GRPO, основанный на обучении с подкреплением (Reinforcement Learning, RL), может эффективно обучать цепочку рассуждений (Chain-of-Thought, CoT) в крупных языковых моделях (Large Language Models, LLMs) и моделях, объединяющих визуальные и языковые данные (Vision-Language Models, VLMs). В данной статье мы анализируем три проблемы, связанные с GRPO: связь градиентов между рассуждениями и ответами, разреженность сигналов вознаграждения из-за ограниченного параллельного сэмплирования и нестабильность оценки преимущества. Для смягчения этих проблем мы предлагаем GRPO-MA — простой, но теоретически обоснованный метод, который использует генерацию нескольких ответов для каждого процесса рассуждения, что позволяет проводить более устойчивую и эффективную оптимизацию. Теоретически мы показываем, что дисперсия преимущества рассуждений уменьшается с увеличением числа ответов на каждое рассуждение. Эмпирически наш анализ градиентов подтверждает этот эффект, демонстрируя, что GRPO-MA снижает всплески градиентов по сравнению с GRPO. Эксперименты на задачах из области математики, программирования и разнообразных мультимодальных задач показывают, что GRPO-MA значительно улучшает производительность и эффективность обучения. Наши исследования по удалению компонентов также показывают, что увеличение числа ответов на каждое рассуждение последовательно повышает качество модели.
Тонкая настройка предварительно обученных больших языковых моделей (LLM) для решения конкретных задач является важным этапом в процессе внедрения ИИ. Обучение с подкреплением (RL) считается наиболее заметным методом тонкой настройки, способствовавшим созданию многих современных LLM. В то же время эволюционные стратегии (ES), которые когда-то демонстрировали сопоставимую с RL производительность на моделях с несколькими миллионами параметров, были недооценены из-за скептического восприятия их масштабируемости на более крупные модели. В данной работе мы представляем первый успешный опыт масштабирования ES для тонкой настройки всех параметров LLM, демонстрируя удивительный факт, что ES может эффективно работать с миллиардами параметров и превосходить существующие методы RL в нескольких аспектах, включая эффективность использования данных, устойчивость к долгосрочным вознаграждениям, совместимость с различными базовыми LLM, меньшую склонность к "взлому вознаграждений" и более стабильную производительность в разных запусках. Таким образом, этот подход открывает новое направление в тонкой настройке LLM, выходящее за рамки возможностей современных RL-техник. Исходные коды доступны по адресу: https://github.com/VsonicV/es-fine-tuning-paper.
Архитектуры с предсказанием совместного представления для видео (V-JEPA) обучают универсальные готовые представления видео, предсказывая замаскированные области в латентном пространстве с использованием учителя, обновляемого по экспоненциальному скользящему среднему (EMA). Хотя EMA предотвращает коллапс представлений, это усложняет масштабируемый выбор модели и связывает архитектуры учителя и ученика. Мы возвращаемся к предсказанию замаскированных латентных представлений и показываем, что замороженный учитель достаточен. Конкретно, мы (i) обучаем целевой кодировщик с простой задачей реконструкции пикселей при маскировании V-JEPA, затем (ii) замораживаем его и обучаем ученика предсказывать латентные представления учителя на замаскированных областях. Это приводит к двухэтапной, нерегуляризованной схеме, которую мы называем SALT (Static-teacher Asymmetric Latent Training). SALT разделяет оптимизацию на реконструкцию пикселей (учитель) и предсказание замаскированных латентных представлений (ученик), повышая прозрачность, эффективность и масштабируемость, сохраняя при этом способность представлений к обобщению при замороженной оценке. Эмпирически наши модели учеников превосходят недавно предложенные кодировщики V-JEPA 2 при оценке с замороженным бэкбоном на различных бенчмарках. Они также более вычислительно оптимальны: при одинаковых затратах на предобучение в FLOPs наш метод достигает более высокой точности при тестировании, а его кривые масштабирования доминируют на Парето-границе точности-FLOPs V-JEPA. Наконец, мы обнаруживаем, что качество ученика удивительно устойчиво к качеству учителя: высокопроизводительные ученики появляются даже с небольшими, неоптимальными учителями. Это указывает на то, что вычислительный бюджет должен преимущественно выделяться ученику. Эти результаты позиционируют SALT как простую, масштабируемую и вычислительно эффективную альтернативу само-дистилляции на основе EMA для обучения представлений видео.
Мы представляем DafnyCOMP — эталонный набор для оценки больших языковых моделей (LLM) в задаче генерации композиционных спецификаций на языке Dafny. В отличие от предыдущих эталонов, которые сосредоточены на задачах с одной функцией, DafnyCOMP ориентирован на программы, состоящие из нескольких взаимодействующих функций с зависимостями данных, что требует рассуждений за пределами отдельных компонентов. Набор включает 300 автоматически синтезированных программ с несколькими функциями. Мы оцениваем несколько современных семейств LLM и обнаруживаем, что, хотя они хорошо справляются с верификацией отдельных функций, их производительность резко снижается на композиционных задачах. Анализ выявляет систематические ошибки в межфункциональных рассуждениях, включая хрупкие спецификации, несоответствие между реализациями и доказательствами, а также неустойчивые рассуждения. Таким образом, DafnyCOMP предоставляет диагностический инструмент для измерения прогресса в направлении надежной, верифицируемой и композиционной генерации кода с использованием LLM.
Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в решении сложных задач благодаря цепочке рассуждений (Chain-of-Thought, CoT). Однако многошаговый характер CoT вносит новые проблемы безопасности, выходящие за рамки традиционной настройки языковых моделей. Мы выявили недостаток в современных методах настройки безопасности CoT: эффект снежного кома, при котором незначительные отклонения в рассуждениях постепенно усиливаются на протяжении мыслительного процесса, приводя либо к вредоносному согласию, либо к чрезмерному отказу. Этот эффект возникает из-за того, что модели обучаются имитировать идеальные сценарии рассуждений, не учась самокоррекции. Чтобы устранить это ограничение, мы предлагаем AdvChain — парадигму настройки, которая обучает модели динамической самокоррекции через состязательную настройку CoT. Наш метод включает создание набора данных, содержащего примеры "Искушение-Коррекция" и "Нерешительность-Коррекция", где модели учатся восстанавливаться после вредоносных отклонений в рассуждениях и излишней осторожности. Многочисленные эксперименты показывают, что AdvChain значительно повышает устойчивость к атакам на взлом и захват CoT, одновременно существенно снижая чрезмерный отказ на безобидных запросах, достигая превосходного баланса между безопасностью и полезностью без ущерба для способности к рассуждениям. Наша работа задает новое направление для создания более надежных и устойчивых моделей рассуждений.
Унифицированное моделирование видео, объединяющее возможности генерации и понимания, становится все более важным, но сталкивается с двумя ключевыми проблемами: сохранение семантической точности при генерации на основе потоков из-за дисбаланса текстовых и визуальных токенов и ограничений равномерного кросс-модального внимания вдоль траектории потока, а также эффективное расширение MLLM, ориентированных на изображения, на видео без затратного переобучения. Мы представляем UniVid, унифицированную архитектуру, которая связывает MLLM с диффузионным декодером через легковесный адаптер, обеспечивая как понимание, так и генерацию видео. Мы вводим метод Temperature Modality Alignment для улучшения соответствия запросам и Pyramid Reflection для эффективного временного анализа через динамический выбор ключевых кадров. Экстенсивные эксперименты на стандартных бенчмарках демонстрируют передовые результаты, показывая улучшение на 2.2% по общему баллу VBench-Long по сравнению с EasyAnimateV5.1, а также повышение точности на 1.0% и 3.3% на MSVD-QA и ActivityNet-QA соответственно по сравнению с лучшими предыдущими 7B базовыми моделями.
Крупные языковые модели (LLM) демонстрируют растущую эффективность в задачах преобразования текста в SQL (Text-to-SQL). Однако другая тесно связанная проблема — кросс-системный перевод SQL (также известный как SQL-to-SQL), который адаптирует запрос, написанный для одной системы баз данных (например, MySQL), в эквивалентный запрос для другой системы (например, ClickHouse), имеет большое практическое значение, но остается недостаточно изученной. Существующие бенчмарки SQL не подходят для оценки SQL-to-SQL, так как (1) они сосредоточены на ограниченном наборе систем баз данных (часто только SQLite) и (2) не могут охватить множество системно-специфичных диалектов SQL (например, пользовательские функции, типы данных и синтаксические правила). Поэтому в данной работе мы представляем PARROT — практический и реалистичный бенчмарк для кросс-системного перевода SQL. PARROT включает 598 пар переводов из 38 открытых бенчмарков и реальных бизнес-сервисов, специально подготовленных для проверки понимания системно-специфичных SQL (например, LLM демонстрируют точность ниже 38,53% в среднем). Мы также предоставляем несколько вариантов бенчмарка, включая PARROT-Diverse с 28 003 переводами (для тестирования широкого спектра синтаксиса) и PARROT-Simple с 5 306 репрезентативными образцами (для целенаправленного стресс-тестирования), охватывающих 22 промышленные системы баз данных. Для содействия будущим исследованиям мы публикуем открытый рейтинг и исходный код по адресу: https://code4db.github.io/parrot-bench/.
В данной статье представлен MathBode — динамический диагностический инструмент для оценки математического мышления в больших языковых моделях (LLM). В отличие от одноразовой точности, MathBode рассматривает каждую параметрическую задачу как систему: мы изменяем один параметр синусоидально и анализируем первые гармоники откликов выходных данных модели и точных решений. Это позволяет получить интерпретируемые, частотно-разрешенные метрики — усиление (отслеживание амплитуды) и фазу (задержку), — которые формируют отпечатки в стиле диаграмм Боде. На примере пяти семейств задач с замкнутыми решениями (линейные уравнения, соотношения/насыщение, сложные проценты, системы линейных уравнений 2x2, подобные треугольники) диагностика выявляет систематическое низкочастотное поведение и растущую фазовую задержку, которые остаются незаметными при оценке только точности. Мы сравниваем несколько моделей с символическим базовым уровнем, который калибрует инструмент (G ≈ 1, φ ≈ 0). Результаты разделяют передовые и средние модели по динамическим характеристикам, предлагая компактный, воспроизводимый протокол, который дополняет стандартные бенчмарки полезными измерениями точности и согласованности рассуждений. Мы открываем исходный код и набор данных для дальнейших исследований и внедрения.
Растущее внедрение агентов на основе больших языковых моделей (LLM), взаимодействующих с внешними средами, создало новые поверхности для атак с использованием методов враждебного манипулирования. Одной из основных угроз является косвенная инъекция подсказок, при которой злоумышленники внедряют вредоносные инструкции в вывод внешней среды, заставляя агентов интерпретировать и выполнять их как легитимные запросы. В то время как предыдущие исследования в основном сосредотачивались на атаках с использованием простого текста, мы обнаруживаем значительную, но недостаточно изученную уязвимость: зависимость LLM от структурированных шаблонов чатов и их подверженность контекстному манипулированию через убедительные многоходовые диалоги. В связи с этим мы представляем ChatInject — атаку, которая форматирует вредоносные нагрузки для имитации нативных шаблонов чатов, тем самым эксплуатируя врожденные склонности модели следовать инструкциям. На основе этого мы разрабатываем многоходовый вариант, основанный на убеждении, который подготавливает агента в ходе нескольких раундов диалога к принятию и выполнению в иных случаях подозрительных действий. В ходе всесторонних экспериментов с передовыми LLM мы демонстрируем три ключевых вывода: (1) ChatInject достигает значительно более высоких средних показателей успешности атак по сравнению с традиционными методами инъекции подсказок, улучшая результаты с 5,18% до 32,05% на AgentDojo и с 15,13% до 45,90% на InjecAgent, при этом многоходовые диалоги показывают особенно высокую эффективность со средним показателем успешности 52,33% на InjecAgent, (2) нагрузки, основанные на шаблонах чатов, демонстрируют высокую переносимость между моделями и остаются эффективными даже против закрытых LLM, несмотря на неизвестные структуры их шаблонов, и (3) существующие методы защиты на основе подсказок в значительной степени неэффективны против данного подхода, особенно против многоходовых вариантов. Эти результаты подчеркивают уязвимости в современных системах агентов.
Быстрый прогресс крупных мультимодальных моделей (LMM) и облачных ИИ-агентов преобразует взаимодействие человека и ИИ в двунаправленное мультимодальное взаимодействие. Однако существующие кодеки остаются оптимизированными для однонаправленной унимодальной коммуникации, что приводит к повторяющейся деградации в рамках традиционных конвейеров сжатия-передачи-восстановления. Чтобы устранить это ограничение, мы предлагаем UniMIC — унифицированную токенизированную мультимодальную интерактивную систему кодирования, которая связывает периферийные устройства и облачные ИИ-агенты. Вместо передачи необработанных пикселей или простого текста UniMIC использует компактные токенизированные представления в качестве среды коммуникации, обеспечивая эффективную передачу с низким битрейтом при сохранении совместимости с LMM. Для дальнейшего улучшения сжатия легковесные трансформерные модели энтропии с сценарий-специфичными дизайнами — универсальным, маскированным и текстово-обусловленным — эффективно минимизируют избыточность между токенами. Многочисленные эксперименты по генерации изображений из текста, текстово-управляемому восстановлению, расширению изображений и визуальному ответу на вопросы показывают, что UniMIC достигает значительной экономии битрейта и остается устойчивым даже при сверхнизких битрейтах (<0.05 бит на пиксель), не ухудшая производительность последующих задач. Эти результаты подтверждают UniMIC как практичную и перспективную парадигму для следующего поколения мультимодальной интерактивной коммуникации.
Стремление к созданию искусственных агентов, способных обучаться и овладевать сложными средами, привело к впечатляющим успехам, однако современные методы глубокого обучения с подкреплением часто требуют огромного опыта, кодируя свои знания непрозрачно в весах нейронных сетей. Мы предлагаем иную парадигму, в которой агент учится играть, рассуждая и планируя. Мы представляем Cogito, ergo ludo (CEL) — новую архитектуру агента, которая использует крупную языковую модель (LLM) для построения явного, основанного на языке понимания механики среды и собственной стратегии. Начиная с состояния tabula rasa, без предварительных знаний (за исключением набора действий), CEL работает в цикле взаимодействия и рефлексии. После каждого эпизода агент анализирует свою полную траекторию, чтобы выполнить два параллельных процесса обучения: Индукция правил, где он уточняет свою явную модель динамики среды, и Суммаризация стратегии и игрового плана, где он извлекает из опыта действенный стратегический план. Мы оцениваем CEL на различных задачах в сеточных мирах (например, "Сапер", "Замёрзшее озеро" и "Сокобан") и показываем, что агент CEL успешно обучается овладевать этими играми, автономно открывая их правила и разрабатывая эффективные политики на основе скудных наград. Абляционные исследования подтверждают, что итеративный процесс критически важен для устойчивого обучения. Наша работа демонстрирует путь к созданию более универсальных и интерпретируемых агентов, которые не только действуют эффективно, но и строят прозрачную и улучшающуюся модель своего мира через явное рассуждение на основе сырого опыта.
Навигация, управляемая языковыми целями, требует от агентов надежных способностей к исследованию для достижения заданных целей в неизвестных средах без пошаговых инструкций. Существующие методы, как правило, используют исключительно траектории кратчайшего пути, не имея эффективных априорных данных для обучения агентов навигации. Для решения этих проблем мы представляем SID — подход к обучению навигации, управляемой языковыми целями, с использованием самоулучшающихся демонстраций. В частности, SID обучает начального агента на данных, собранных по кратчайшим путям в средах, а затем использует этого агента для генерации новых исследовательских траекторий. Эти новые траектории предоставляют демонстрации с более сильными стратегиями исследования для обучения улучшенного агента, который, в свою очередь, создает более качественные демонстрации для следующего этапа обучения. Мы показываем, что этот итеративный процесс самоулучшения легко масштабируется на новые среды, а полученные демонстрации могут быть перенесены на различные задачи навигации, управляемой языковыми целями, повышая уровень производительности в разнообразных задачах целевой навигации. Многочисленные эксперименты демонстрируют, что SID значительно улучшает способности к исследованию и обобщению агентов навигации. Полученный агент достигает нового уровня передовой производительности в задачах навигации, управляемой языковыми целями, включая REVERIE и SOON, с успешностью 50,9% на неизвестных валидационных данных SOON, превосходя предыдущие ведущие подходы на 13,9%.
Разработка через тестирование (Test-Driven Development, TDD) — это широко применяемая практика в разработке программного обеспечения, которая требует от разработчиков создания и выполнения тестов параллельно с реализацией кода, обеспечивая непрерывную проверку и уточнение поведения программного обеспечения. В эпоху "виб-кодинга", где разработчики всё чаще делегируют написание кода большим языковым моделям (LLM), задавая высокоуровневые намерения, TDD становится ещё более важной, поскольку тестовые случаи служат исполняемыми спецификациями, которые явно определяют и проверяют целевую функциональность, выходящую за рамки того, что могут передать описания на естественном языке и контекст кода. Хотя виб-кодинг в рамках TDD перспективен, существует три основные проблемы: (1) выбор небольшого, но эффективного набора тестов для повышения точности генерации и контроля нагрузки на выполнение, (2) эффективное извлечение контекста, такого как релевантный код, и (3) систематическое использование обратной связи от тестов для эффективного уточнения кода. Для решения этих проблем мы представляем TENET — LLM-агент для генерации функций в сложных реальных репозиториях в условиях TDD. TENET включает три компонента: (1) новый механизм тестового окружения, который выбирает лаконичный набор тестов для максимизации разнообразия целевых сценариев использования; (2) специализированный набор инструментов агента, который выполняет эффективное извлечение релевантного кода с интерактивной отладкой; и (3) рабочий процесс уточнения на основе рефлексии, который итеративно анализирует ошибки, восполняет контекст и применяет уточнение кода. TENET достигает 69,08% и 81,77% Pass@1 на бенчмарках RepoCod и RepoEval, превосходя лучшие агентные базовые модели на 9,49 и 2,17 процентных пункта соответственно. Кроме того, это первое исследование генерации кода через тестирование с контекстом на уровне репозитория, изучающее, как различные аспекты наборов тестов влияют на производительность LLM-агентов в условиях TDD.
Прогнозирование мобильности людей является сложной задачей из-за наличия сложных долгосрочных зависимостей и многоуровневых периодических поведений. Для решения этой проблемы мы представляем RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility) — унифицированную структуру, которая использует большие языковые модели (LLM) в качестве универсальных пространственно-временных предсказателей и анализаторов траекторий. Методологически RHYTHM применяет временную токенизацию для разделения каждой траектории на ежедневные сегменты и их кодирования в виде дискретных токенов с использованием иерархического внимания, которое учитывает как ежедневные, так и еженедельные зависимости, что значительно сокращает длину последовательности, сохраняя при этом циклическую информацию. Дополнительно мы обогащаем представления токенов, добавляя предварительно вычисленные встраивания подсказок для сегментов траекторий и целей прогнозирования через замороженную LLM, и передаем эти комбинированные встраивания обратно в основу LLM для учета сложных взаимозависимостей. С вычислительной точки зрения RHYTHM замораживает предварительно обученную основу LLM, чтобы снизить сложность внимания и затраты на память. Мы оцениваем нашу модель в сравнении с современными методами, используя три реальных набора данных. Примечательно, что RHYTHM демонстрирует улучшение общей точности на 2,4%, увеличение точности на выходных днях на 5,0% и сокращение времени обучения на 24,6%. Код доступен по адресу https://github.com/he-h/rhythm.
Понимание того, как крупные языковые модели (LLM) выполняют сложные рассуждения и механизмы их сбоев представляет собой вызов для исследований интерпретируемости. Чтобы предложить измеримую геометрическую перспективу анализа, мы вводим концепцию Многообразия Рассуждений — латентной низкоразмерной геометрической структуры, формируемой внутренними представлениями, соответствующими всем корректно выполненным рассуждениям. Эту структуру можно концептуализировать как воплощение эффективных путей мышления, которые модель научилась использовать для успешного решения задачи. На основе этой концепции мы разрабатываем REMA — фреймворк, который объясняет причины сбоев путем количественного сравнения пространственных отношений внутренних представлений модели, соответствующих как ошибочным, так и корректным рассуждениям. В частности, REMA сначала количественно оценивает геометрическое отклонение каждого ошибочного представления, вычисляя расстояние до его k ближайших соседей на приближенном многообразии, сформированном корректными представлениями, тем самым предоставляя унифицированный сигнал о сбое. Затем он локализует точки расхождения, где эти отклонения впервые становятся значительными, отслеживая эту метрику отклонения по слоям модели и сравнивая её с базовым уровнем внутренних флуктуаций корректных представлений, тем самым определяя, где цепочка рассуждений начинает сбиваться с пути. Наши обширные эксперименты на разнообразных языковых и мультимодальных моделях и задачах демонстрируют низкоразмерную природу многообразия рассуждений и высокую разделимость между ошибочными и корректными представлениями рассуждений. Результаты также подтверждают эффективность фреймворка REMA в анализе причин сбоев рассуждений. Это исследование связывает абстрактные сбои рассуждений с измеримыми геометрическими отклонениями в представлениях, открывая новые пути для углубленного понимания и диагностики внутренних вычислительных процессов моделей типа "черного ящика".
Масштабируемость стала движущей силой последних достижений в области генеративного моделирования, однако её принципы остаются недостаточно изученными для задач обучения с использованием состязательных подходов. Мы исследуем масштабируемость генеративно-состязательных сетей (GAN) с помощью двух проектных решений, которые доказали свою эффективность в других типах генеративных моделей: обучение в компактном латентном пространстве вариационных автоэнкодеров (VAE) и использование исключительно трансформерных генераторов и дискриминаторов. Обучение в латентном пространстве обеспечивает эффективные вычисления при сохранении перцептивного качества, а эта эффективность естественным образом сочетается с простыми трансформерами, производительность которых масштабируется с увеличением вычислительных ресурсов. Опираясь на эти решения, мы анализируем проблемы, возникающие при наивном масштабировании GAN. В частности, мы выявляем такие проблемы, как недостаточное использование ранних слоёв генератора и нестабильность оптимизации при увеличении масштаба сети. В связи с этим мы предлагаем простые и масштабируемые решения, такие как лёгкое промежуточное управление и адаптация скорости обучения с учётом ширины сети. Наши эксперименты показывают, что GAT — GAN, основанная исключительно на трансформерах и работающая в латентном пространстве, — может быть легко и надёжно обучена в широком диапазоне ёмкостей (от S до XL). Более того, GAT-XL/2 достигает наилучших результатов в одношаговой генерации с условием на класс (FID 2.96) на наборе данных ImageNet-256 всего за 40 эпох, что в 6 раз меньше, чем у сильных базовых моделей.
Способность кратко излагать длинные документы становится все более важной в повседневной жизни из-за переизбытка информации, однако наблюдается заметный недостаток таких кратких изложений для документов на испанском языке в целом и в юридической сфере в частности. В данной работе мы представляем BOE-XSUM — тщательно отобранный набор данных, содержащий 3 648 кратких, написанных простым языком изложений документов, взятых из «Boletín Oficial del Estado» (BOE), Официального государственного бюллетеня Испании. Каждая запись в наборе данных включает краткое изложение, оригинальный текст и метку типа документа. Мы оцениваем производительность средних по размеру больших языковых моделей (LLM), дообученных на BOE-XSUM, сравнивая их с универсальными генеративными моделями в условиях нулевого сценария. Результаты показывают, что дообученные модели значительно превосходят свои неспециализированные аналоги. В частности, лучшая модель — BERTIN GPT-J 6B (32-битная точность) — демонстрирует улучшение производительности на 24% по сравнению с лучшей моделью в нулевом сценарии, DeepSeek-R1 (точность 41,6% против 33,5%).
Парные данные RGB-тепловизионных изображений имеют ключевое значение для слияния визуальных и тепловизионных сенсоров, а также для кросс-модальных задач, включая такие важные приложения, как мультимодальное выравнивание и поиск изображений. Однако дефицит синхронизированных и калиброванных пар RGB-тепловизионных изображений представляет собой серьезное препятствие для прогресса в этих областях. Для преодоления этой проблемы появился подход RGB-to-Thermal (RGB-T) трансляции изображений, который позволяет синтезировать тепловизионные изображения из обширных наборов данных RGB для целей обучения. В данном исследовании мы предлагаем ThermalGen — адаптивную генеративную модель на основе потоков для трансляции RGB-T изображений, включающую архитектуру с условием на RGB изображения и механизм разделения стилей. Для поддержки масштабного обучения мы собрали восемь публичных наборов данных пар RGB-T, полученных со спутников, с воздуха и с земли, а также представили три новых крупномасштабных набора данных RGB-T, полученных со спутников и с воздуха — DJI-day, Bosonplus-day и Bosonplus-night, — которые охватывают различные временные периоды, типы сенсоров и географические регионы. Обширные оценки на множестве бенчмарков RGB-T демонстрируют, что ThermalGen достигает сопоставимого или превосходящего качества трансляции по сравнению с существующими методами на основе GAN и диффузионных моделей. Насколько нам известно, ThermalGen является первой моделью трансляции RGB-T изображений, способной синтезировать тепловизионные изображения, отражающие значительные изменения в точках обзора, характеристиках сенсоров и условиях окружающей среды. Страница проекта: http://xjh19971.github.io/ThermalGen
Недавние прорывы в области крупных языковых моделей (LLM) на задачах логического рассуждения в значительной степени зависят от массивных, высококачественных наборов данных, которые обычно аннотируются вручную и, следовательно, сложно масштабируются. Хотя синтез или дистилляция данных предлагают многообещающую альтернативу, существующие методы сталкиваются с проблемами нестабильного качества данных и неспособностью динамически адаптироваться к развивающимся возможностям модели, что приводит к субоптимальным обучающим сигналам. Для устранения этих ограничений мы представляем Socratic-Zero — полностью автономную систему, которая генерирует высококачественные обучающие данные из минимального количества начальных примеров за счет коэволюции трех агентов: Учителя, Решателя и Генератора. Решатель непрерывно совершенствует свои рассуждения, обучаясь на основе обратной связи по предпочтениям как для успешных, так и для неудачных траекторий; Учитель адаптивно создает всё более сложные вопросы, основываясь на слабостях Решателя; а Генератор дистиллирует стратегию Учителя по разработке вопросов, что позволяет масштабировать генерацию высококачественных учебных программ. Эта замкнутая система создает самоулучшающуюся учебную программу, не требующую предварительных задач или меток. Примечательно, что, начиная всего со 100 начальных вопросов, наш Socratic-Solver-8B демонстрирует средний прирост на +20,2 процентных пункта по сравнению с предыдущими методами синтеза данных на семи тестах математического рассуждения (AMC23, AIME24-25, Olympiad, MATH-500, Minerva и GSM8K), с устойчивым улучшением как для моделей серии Qwen3, так и GLM4. Ещё более удивительно, что синтетические данные от Socratic-Generator-32B позволяют студенческим LLM достигать превосходной производительности по сравнению с другими коммерческими LLM мирового уровня (SOTA) на этих тестах, включая Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 и Claude-4.1-Opus.
Задача преобразования веб-страниц в код требует от моделей понимания визуальных представлений веб-страниц и генерации соответствующего кода. Однако существующие бенчмарки в основном сосредоточены на задачах преобразования статических скриншотов в код, тем самым упуская из виду динамические взаимодействия, которые являются основой реальных веб-приложений. Чтобы устранить это ограничение, данная работа представляет IWR-Bench — новый бенчмарк для оценки возможностей крупных визуально-языковых моделей (LVLMs) в интерактивном восстановлении веб-страниц из видео. IWR-Bench включает 113 тщательно отобранных задач с 100 реальных веб-сайтов, содержащих 1 001 действие и охватывающих разнообразные уровни сложности взаимодействий (например, веб-игры), визуальные стили и домены. В соответствии с общепринятыми практиками веб-разработки, каждая задача включает не только видео с пользовательскими взаимодействиями, но и все собранные статические ресурсы (например, изображения, видео). Этот бенчмарк оценивает модели по двум ключевым задачам: комплексному мультимодальному анализу для вывода логики взаимодействий из видео и ресурсов, а также продвинутой генерации кода для преобразования этой логики в функциональный код. Фреймворк "агент-как-судья" с комплексной системой метрик автоматически оценивает функциональную корректность и визуальное соответствие сгенерированных веб-страниц. Экстенсивные эксперименты на 28 LVLMs выявили значительную сложность: лучшая модель достигает общего балла всего 36,35%, при этом функциональная корректность (24,39% IFS) значительно отстает от визуального соответствия (64,25% VFS). Эти результаты подчеркивают критические ограничения современных моделей в способности анализировать временную динамику и синтезировать событийно-ориентированную логику, устанавливая IWR-Bench как сложный рубеж для исследований в области визуально-языковых моделей. Бенчмарк и код для оценки будут доступны публично. Код доступен по адресу: https://github.com/L-O-I/IWR-Bench.
В данной статье представлен BPMN Assistant — инструмент, использующий большие языковые модели (LLMs) для создания и редактирования BPMN-диаграмм на основе естественного языка. Вводится специализированное представление на основе JSON как структурированная альтернатива прямому использованию XML для повышения точности модификации процессов. Качество генерации процессов оценивается с использованием метрик Graph Edit Distance (GED) и Relative Graph Edit Distance (RGED), а производительность редактирования — с помощью бинарного показателя успешности. Результаты показывают, что JSON и XML демонстрируют схожие показатели сходства при генерации, однако JSON обеспечивает большую надежность, более быструю обработку и значительно более высокие показатели успешности редактирования. Обсуждаются ключевые компромиссы, ограничения и возможные улучшения. Реализация доступна по адресу https://github.com/jtlicardo/bpmn-assistant.
Wikipedia представляет собой крупнейший корпус открытых знаний, широко используемый во всем мире и являющийся ключевым ресурсом для обучения больших языковых моделей (LLM) и систем генерации с использованием поиска (RAG). Обеспечение его точности, таким образом, имеет критически важное значение. Но насколько точна Wikipedia и как мы можем улучшить её? Мы сосредоточиваемся на противоречиях — специфическом типе фактических неточностей — и вводим задачу обнаружения противоречий на уровне корпуса. Мы представляем CLAIRE, агентную систему, которая сочетает рассуждения LLM с поиском для выявления потенциально противоречивых утверждений вместе с контекстуальными доказательствами для последующего анализа человеком. В исследовании с участием опытных редакторов Wikipedia 87,5% участников сообщили о повышении уверенности при использовании CLAIRE, а участники выявили на 64,7% больше противоречий за то же время. Объединяя CLAIRE с аннотацией, выполненной людьми, мы представляем WIKICOLLIDE — первый бенчмарк реальных противоречий в Wikipedia. Используя случайную выборку с анализом, выполненным с помощью CLAIRE, мы обнаружили, что как минимум 3,3% фактов в англоязычной Wikipedia противоречат другим фактам, причём эти противоречия распространяются на 7,3% примеров из FEVEROUS и 4,0% из AmbigQA. Тестирование сильных базовых моделей на этом наборе данных показывает значительный потенциал для улучшения: лучшая полностью автоматизированная система достигает AUROC всего 75,1%. Наши результаты демонстрируют, что противоречия являются измеримым компонентом Wikipedia, а системы на основе LLM, такие как CLAIRE, могут предоставить практический инструмент для помощи редакторам в улучшении согласованности знаний в масштабе.
Системы искусственного интеллекта (ИИ), и в частности крупные языковые модели (LLM), всё чаще используются для выполнения творческих задач, таких как генерация научных идей, что представляет собой форму обобщения на основе обучающих данных, не охваченную существующими концептуальными рамками. Несмотря на сходство с композиционным обобщением (CG), комбинаторное творчество (CC) является открытой способностью. Вместо оценки точности или корректности по фиксированным критериям, что противоречило бы открытой природе CC, мы предлагаем теоретическую основу и алгоритмическую задачу для оценки результатов по степени их новизны и полезности. На этой основе мы делаем несколько важных эмпирических выводов: (1) Мы впервые получаем представление о масштабируемости творческих способностей LLM. (2) Мы обнаруживаем, что при фиксированных вычислительных ресурсах существуют оптимальные глубина и ширина модели для творческих способностей. (3) Мы выясняем, что разрыв между генерацией идей и их реализацией, при котором LLM преуспевают в создании новых научных идей, но испытывают трудности с обеспечением их практической осуществимости, может быть объяснён более фундаментальным компромиссом между новизной и полезностью, характерным для алгоритмов творчества в целом. Важно отметить, что этот компромисс сохраняется даже при масштабировании, что ставит под сомнение долгосрочный творческий потенциал LLM в их текущей форме. Вместе наша концептуальная основа и эмпирические результаты закладывают фундамент для понимания и улучшения творческих способностей современных моделей ИИ, сокращая разрыв между человеческим и машинным интеллектом.
При непосредственном редактировании снимков, сделанных с натуры, фотографы сталкиваются с трудностью одновременного восприятия и синего цвета, и неба. Фотограф и куратор Сзарковски проницательно выявил один из заметных разрывов между общим и эстетическим визуальным восприятием: если первое сосредоточено на идентификации фактического элемента на изображении (небо), то второе выходит за рамки такой идентификации объектов, рассматривая его скорее как эстетический компонент — чистый цветовой блок (синий). Такие фундаментальные различия между общим (обнаружение, локализация и т.д.) и эстетическим (цвет, освещение, композиция и т.д.) визуальным восприятием представляют собой значительную проблему для мультимодальных больших языковых моделей (MLLMs). Хотя некоторые недавние работы сделали первые шаги в этом направлении, они часто ограничиваются общими и базовыми эстетическими представлениями. В результате они нередко оказываются недостаточно эффективными в реальных сценариях (рис. 1), которые требуют обширных знаний, включая фотографические техники, знания о пред- и постобработке снимков и многое другое, для детального анализа и описания. Чтобы принципиально улучшить понимание эстетики MLLMs, мы сначала представляем новый набор данных, PhotoCritique, созданный на основе обширных обсуждений среди профессиональных фотографов и энтузиастов и характеризующийся масштабом, экспертизой и разнообразием. Затем, чтобы лучше изучить визуальную эстетику на основе PhotoCritique, мы предлагаем новую модель, PhotoEye, которая использует механизм языково-ориентированного мультивзглядного визуального слияния для понимания эстетики изображения с различных точек зрения. Наконец, мы представляем новый эталонный тест, PhotoBench, всеобъемлющий и профессиональный эталон для оценки эстетического визуального понимания. На существующих эталонных тестах и на PhotoBench наша модель демонстрирует явные преимущества по сравнению с существующими моделями.
Модели, объединяющие зрение и язык (VLMs), способны гибко решать различные задачи компьютерного зрения через текстовые взаимодействия. Несмотря на успехи в семантическом понимании, современные VLMs, включая GPT-5, всё ещё испытывают трудности в понимании трёхмерной структуры на основе двумерных входных данных. С другой стороны, специализированные модели, работающие исключительно с изображениями, достигают сверхчеловеческой точности в оценке метрической глубины — ключевой задаче понимания 3D. Однако они требуют специфических архитектур и функций потерь. Это различие побуждает нас задать вопрос: Могут ли VLMs достичь экспертной точности без изменения архитектуры или функции потерь? Мы выбираем задачу оценки метрической глубины на уровне пикселей в качестве репрезентативной и показываем, что ответ — да! Удивительно, но всесторонний анализ демонстрирует, что текстовое обучение с учителем на основе разреженных меток достаточно для того, чтобы VLMs раскрыли сильное понимание 3D, без необходимости в плотных головках предсказания или сложных функциях регрессии/регуляризации. Основное ограничение VLMs на самом деле заключается в ссылках на пиксели и неоднозначности камер между наборами данных, что мы решаем с помощью визуальных подсказок и аугментации, учитывающей внутренние параметры. С гораздо меньшими моделями наш метод DepthLM превосходит точность большинства передовых VLMs более чем в 2 раза, впервые делая VLMs сопоставимыми с чисто визуальными моделями. Интересно, что без явного принуждения во время обучения VLMs, обученные с DepthLM, естественным образом избегают излишнего сглаживания, имея значительно меньше "летающих точек" в граничных областях по сравнению с чисто визуальными моделями. Простота DepthLM также позволяет одной VLM охватывать различные 3D задачи, выходящие за рамки оценки метрической глубины. Наш код и модель будут опубликованы по ссылке ниже.
Обучение с подкреплением в сочетании со стохастическим оптимальным управлением предлагает перспективную основу для тонкой настройки диффузионных моделей, где предварительно обученная диффузионная модель оптимизируется для генерации траекторий, ведущих к распределению, смещенному в сторону вознаграждения. Хотя такие подходы позволяют проводить оптимизацию без доступа к явным образцам из оптимального распределения, они требуют обучения на траекториях, сгенерированных текущей настроенной моделью, что делает их уязвимыми к закреплению субоптимальных траекторий, дающих низкие вознаграждения. Чтобы преодолеть эту проблему, мы представляем TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2) — новый фреймворк, который оптимизирует траектории дискретной диффузии, направляемые вознаграждением, с использованием поиска по дереву для создания буферов воспроизведения, учитывающих траектории, для тонкой настройки. Эти буферы генерируются с помощью метода поиска по дереву Монте-Карло (MCTS) и затем используются для тонкой настройки предварительно обученной дискретной диффузионной модели в рамках задачи стохастического оптимального управления. Мы проверяем наш фреймворк на задачах одно- и многокритериальной тонкой настройки моделей диффузии биологических последовательностей, демонстрируя общую эффективность TR2-D2 для надежной тонкой настройки, направляемой вознаграждением, в задачах генерации дискретных последовательностей.
Генерация точных и калиброванных оценок уверенности критически важна для внедрения крупных языковых моделей (LLM) в высокорисковые или ориентированные на пользователя приложения и остается открытой проблемой. Предыдущие исследования часто рассматривали уверенность как задачу выявления "самопознания" модели, то есть способности LLM оценивать, являются ли её собственные ответы правильными; такой подход неявно предполагает, что существует некоторая привилегированная информация о правильности ответа, доступная самой модели. Однако наши эксперименты показывают, что LLM, пытающаяся предсказать правильность своих собственных выводов, в целом работает не лучше, чем несвязанная LLM. Более того, мы предполагаем, что ключевым фактором в построении "Модели Правильности" (Correctness Model, CM) является доступ к историческим предсказаниям целевой модели. Мы предлагаем несколько методов для внедрения этой исторической информации о правильности, создавая Обобщенную Модель Правильности (Generalized Correctness Model, GCM). Сначала мы показываем, что GCM можно обучать на данных о правильности от многих LLM, и она способна изучать шаблоны для предсказания правильности, применимые к различным наборам данных и моделям. Затем мы используем CM как инструмент для изучения источника способности предсказания правильности и её обобщения, систематически контролируя их обучающие данные и обнаруживая, что формулировка ответа является сильным предиктором правильности. Мы также исследуем альтернативные методы внедрения истории без обучения LLM, обнаруживая, что включение истории в качестве примеров в контексте может помочь улучшить предсказание правильности, а постобработочная калибровка может обеспечить дополнительное снижение ошибки калибровки. Мы оцениваем GCM на основе Qwen3-8B на 5 семействах моделей и наборах данных MMLU и TriviaQA, а также на задаче селективного предсказания, и приходим к выводу, что надежная оценка уверенности LLM является обобщаемым и модельно-независимым навыком, который изучается за счет систематического кодирования истории правильности, а не модельно-специфическим навыком, зависящим от самоанализа.
Мы представляем ADAM (A Diverse Archive of Mankind) — фреймворк для оценки и улучшения мультимодальных больших языковых моделей (MLLMs) в контексте биографического анализа. Насколько нам известно, это первая работа, которая систематически исследует возможности языковых моделей в области биографий — критически важном, но недостаточно изученном аспекте фактических знаний. Основу ADAM составляет AdamDB — мультиязычный и мультимодальный набор данных, охватывающий более 4 миллионов человек из разных географических регионов, временных периодов и профессий. AdamBench предоставляет когнитивно структурированные оценки, основанные на таксономии Блума, охватывающие шесть уровней рассуждений как на английском, так и на родных языках. Для борьбы с галлюцинациями, особенно в отношении малоизвестных личностей, мы предлагаем AdamRAG — систему генерации, усиленную поиском, адаптированную для биографических контекстов. Эксперименты показывают, что AdamRAG значительно улучшает модели с открытым исходным кодом и умеренно помогает моделям с закрытым исходным кодом, с наибольшим приростом на уровнях базового рассуждения. Популярность сильно влияет на точность, а мультимодальный ввод через изображения лиц обеспечивает меньшие и менее стабильные улучшения по сравнению с поиском. ADAM устанавливает первый эталонный тест и фреймворк для когнитивно, культурно и мультимодально обоснованной биографической оценки, способствуя развитию многоязычных, точных и устойчивых к галлюцинациям MLLMs.
За последнее десятилетие вычислительная лингвистика (Computational Linguistics, CL) и обработка естественного языка (Natural Language Processing, NLP) стремительно развивались, особенно с появлением крупных языковых моделей на основе архитектуры Transformer (Large Language Models, LLMs). Этот сдвиг изменил цели и приоритеты исследований, сместив фокус с лексических и семантических ресурсов на языковое моделирование и мультимодальность. В данном исследовании мы отслеживаем тенденции в итальянском сообществе CL и NLP, анализируя материалы, представленные на конференции CLiC-it, которая, несомненно, является ведущей конференцией в этой области в Италии. Мы собрали материалы первых 10 выпусков конференции CLiC-it (с 2014 по 2024 год) в корпус CLiC-it Corpus, предоставив всесторонний анализ как метаданных, включая происхождение авторов, их пол, принадлежность к учреждениям и другие параметры, так и содержания самих статей, посвященных различным темам. Наша цель — предоставить итальянскому и международному научному сообществу ценные инсайты о возникающих тенденциях и ключевых разработках с течением времени, способствуя принятию обоснованных решений и определению будущих направлений в этой области.
Видеоподписи предоставляют краткие описания актеров, объектов и действий в видео, являясь ценным ресурсом для таких задач, как ответы на вопросы и локализация событий. Однако получение аннотаций, созданных человеком, для видеоподписей является дорогостоящим или даже непрактичным, особенно при работе с разнообразными видеодоменами. Существующие модели, обученные на размеченных данных, сталкиваются с трудностями при оценке производительности в различных доменах из-за зависимости от протоколов оценки, основанных на эталонных данных, которые требуют наличия точных подписей. Это предположение нереалистично для оценки видео в реальных условиях. Чтобы устранить эти ограничения, мы предлагаем подход к оценке, не требующий эталонных подписей, сосредоточившись на фактической достоверности для обеспечения точной оценки качества подписей. Мы представляем VC-Inspector — новый инструмент оценки качества подписей, который не требует эталонных данных и основывается на фактической достоверности. Используя крупные языковые модели, мы генерируем псевдоподписи различного качества на основе размеченных данных, которые затем используются для обучения мультимодальной модели (например, Qwen2.5-VL) в качестве оценщика. Наш подход демонстрирует лучшее соответствие человеческим суждениям на наборе данных VATEX-Eval, превосходя существующие методы. Производительность также обобщается на наборы данных для подписей к изображениям, Flickr8K-Expert и Flickr8K-CF, при рассмотрении изображений как видео из одного кадра. В целом, VC-Inspector предлагает масштабируемое и универсальное решение для оценки фактической точности видеоподписей, прокладывая путь к более эффективным и объективным методам оценки в различных видеодоменах.