Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современные крупные языковые модели обучаются «мыслить» в основном через явное генерацию текста, такую как цепочка мыслей (CoT), что откладывает рассуждение на пост-обучение и недостаточно использует предобученные данные. Мы представляем и открываем Ouro, названный в честь рекурсивного Уробороса, — семейство предобученных циклических языковых моделей (LoopLM), которые, напротив, встраивают рассуждения в фазу предобучения с помощью (i) итеративных вычислений в латентном пространстве, (ii) энтропийно-регуляризованной функции потерь для обученного распределения глубины и (iii) масштабирования до 7,7 трлн токенов. Модели Ouro 1,4B и 2,6B демонстрируют превосходную производительность, соответствующую результатам современных моделей размером до 12B в широком спектре тестов. В контролируемых экспериментах мы показываем, что это преимущество обусловлено не увеличенной ёмкостью знаний, а более совершенными способностями манипулирования знаниями. Мы также демонстрируем, что LoopLM порождает траектории рассуждений, более согласованные с конечными результатами, чем явная CoT. Мы надеемся, что наши результаты покажут потенциал LoopLM как нового направления масштабирования в эпоху рассуждений. Нашу модель можно найти по адресу: http://ouro-llm.github.io.
Сфера нейрокода для искусственного интеллекта быстро расширяется за пределы текстового исходного кода, охватывая богатые визуальные результаты, генерируемые программами. Это визуальное измерение критически важно для передовых приложений, таких как гибкая генерация контента и точное программно-управляемое редактирование визуализаций. Однако прогресс сдерживается нехваткой высококачественных мультимодальных данных кода — узким местом, вызванным сложностями синтеза и оценки качества. Чтобы решить эти проблемы, мы вносим вклад как с точки зрения данных, так и с точки зрения моделирования. Сначала мы представляем комплексный инструментарий для синтеза, который использует взаимную синергию между модальностями данных для эффективного создания крупномасштабного высококачественного корпуса — от стандартных диаграмм до сложных интерактивных веб-интерфейсов и анимаций, управляемых кодом. Используя этот инструментарий, мы создаем JanusCode-800K — крупнейший на сегодняшний день мультимодальный корпус кода. Это позволяет обучать наши модели, JanusCoder и JanusCoderV, которые устанавливают визуально-программный интерфейс для генерации кода из текстовых инструкций, визуальных входных данных или их комбинации. Наша унифицированная модель представляет собой отход от существующих подходов, которые создают специализированные модели для изолированных задач. Многочисленные эксперименты как на тексто-ориентированных, так и на визуально-ориентированных задачах программирования демонстрируют превосходную производительность серии JanusCoder, при этом наши модели масштаба от 7B до 14B приближаются или даже превосходят производительность коммерческих моделей. Кроме того, всесторонний анализ дает ключевые идеи для гармонизации программной логики с ее визуальным выражением. Наш код и контрольные точки доступны по адресу https://github.com/InternLM/JanusCoder.
Последние достижения в методах визуального рассуждения, в частности подход «рассуждения с помощью изображений» (Thinking with Images), продемонстрировали впечатляющие успехи в мультимодальных больших языковых моделях (MLLM); однако данная динамическая парадигма рассуждений до сих пор не была распространена на задачи видеоанализа. В данной статье мы представляем Video-Thinker — метод, позволяющий MLLM рассуждать с помощью видео путем автономного использования их внутренних возможностей «привязки к объектам» (grounding) и «генерации описаний» (captioning) для создания логических цепочек в процессе вывода. Для активации этой способности мы создали Video-Thinker-10K — специально отобранный набор данных, демонстрирующий автономное использование инструментов в рамках последовательностей рассуждений по цепочке (chain-of-thought). Наша стратегия обучения начинается с контролируемого тонкого настроения (SFT) для усвоения формата рассуждений, после чего применяется оптимизация групповой относительной политики (GRPO) для усиления этой способности. Данный подход позволяет Video-Thinker автономно выполнять задачи привязки и описания для видеоанализа, исключая необходимость создания и вызова внешних инструментов. Многочисленные эксперименты показывают, что Video-Thinker обеспечивает значительный прирост производительности как на внутридоменных задачах, так и на сложных междоменных эталонах видеоанализа, включая Video-Holmes, CG-Bench-Reasoning и VRBench. Наша модель Video-Thinker-7B существенно превосходит существующие базовые методы, такие как Video-R1, и устанавливает рекордные показатели среди MLLM размером 7 миллиардов параметров.
В данной монографии изложены фундаментальные принципы, лежащие в основе разработки диффузионных моделей, прослежены их истоки и показано, как различные формулировки возникают из общих математических идей. Диффузионное моделирование начинается с определения прямого процесса, который постепенно преобразует данные в шум, связывая распределение данных с простым априорным распределением через континуум промежуточных распределений. Цель состоит в том, чтобы обучить обратный процесс, который преобразует шум обратно в данные, восстанавливая те же промежуточные состояния. Мы описываем три взаимодополняющих подхода. Вариационный подход, вдохновленный вариационными автоэнкодерами, рассматривает диффузию как обучение поэтапному удалению шума. Score-ориентированный подход, основанный на энергетическом моделировании, изучает градиент эволюционирующего распределения данных, указывая направление смещения выборок в сторону более вероятных областей. Подход на основе потоков, связанный с нормализующими потоками, трактует генерацию как следование по гладкой траектории, перемещающей выборки из шума в данные под воздействием обученного поля скоростей. Эти перспективы объединяет общая основа: зависящее от времени поле скоростей, поток которого трансформирует простое априорное распределение в распределение данных. Выборка тогда сводится к решению дифференциального уравнения, которое преобразует шум в данные вдоль непрерывной траектории. На этой основе монография рассматривает методы управления для контролируемой генерации, эффективные численные решатели и мотивированные диффузией модели потоковых отображений, которые изучают прямые соответствия между произвольными моментами времени. Работа дает концептуальное и математически обоснованное понимание диффузионных моделей для читателей с базовыми знаниями в области глубокого обучения.
Автоформализация — процесс преобразования математических утверждений на естественном языке в машиночитаемые формальные утверждения — играет ключевую роль для применения формальных математических рассуждений к решению задач, сформулированных на естественном языке. Хотя большие языковые модели способны генерировать синтаксически корректные формальные утверждения, они часто не сохраняют смысловое содержание исходной задачи. Это ограничение возникает из-за того, что подходы на основе LLM рассматривают автоформализацию как упрощённую задачу перевода, в которой отсутствуют механизмы саморефлексии и итеративного уточнения, естественным образом используемые экспертами-людьми. Для решения этих проблем мы предлагаем ReForm — рефлексивный метод автоформализации, который тесно интегрирует оценку семантической согласованности в процесс формализации. Это позволяет модели итеративно генерировать формальные утверждения, оценивать их семантическую точность и самостоятельно исправлять выявленные ошибки путём прогрессивного улучшения. Для эффективного обучения этой рефлексивной модели мы вводим метод оптимизации последовательностей с перспективным ограничением (Prospective Bounded Sequence Optimization, PBSO), который использует различные функции вознаграждения на разных позициях последовательности, чтобы гарантировать, что модель развивает как точную автоформализацию, так и корректные семантические проверки, предотвращая поверхностную критику, которая подрывает цель рефлексии. Масштабные эксперименты на четырёх бенчмарках автоформализации демонстрируют, что ReForm достигает среднего улучшения на 17.2 процентных пункта по сравнению с сильнейшими базовыми методами. Для дальнейшего обеспечения надёжности оценки мы представляем ConsistencyCheck — бенчмарк из 859 элементов, размеченных экспертами, который не только валидирует LLM в качестве судей, но и показывает, что автоформализация сама по себе является сложной задачей: даже эксперты-люди допускают семантические ошибки вплоть до 38.5% случаев.
Языковые агенты, предназначенные для реального мира, должны справляться со сложными, многошаговыми рабочими процессами, затрагивающими разнообразные приложения. Например, агент может управлять электронной почтой, координируя работу с календарями и файловыми системами, или отслеживать производственную базу данных для выявления аномалий и формирования отчетов в соответствии с руководством по эксплуатации. Однако существующие бенчмарки для языковых агентов часто сосредоточены на узких областях или упрощенных задачах, которым не хватает разнообразия, реалистичности и долгосрочной сложности, необходимых для оценки реальной производительности агентов. Чтобы устранить этот пробел, мы представляем Tool Decathlon (также именуемый Toolathlon) — бенчмарк для языковых агентов, предлагающий разнообразные приложения и инструменты, реалистичную настройку среды и надежную оценку на основе исполнения. Toolathlon охватывает 32 программных приложения и 604 инструмента, от повседневных платформ, таких как Google Calendar и Notion, до профессиональных, таких как WooCommerce, Kubernetes и BigQuery. Большинство инструментов основано на высококачественном наборе серверов Model Context Protocol (MCP), которые мы могли пересмотреть или реализовать самостоятельно. В отличие от предыдущих работ, которые в основном обеспечивают функциональный реализм, но предлагают ограниченное разнообразие состояний среды, мы предоставляем реалистичные исходные состояния среды из реального программного обеспечения, такие как курсы в Canvas с десятками студентов или реальные финансовые таблицы. Данный бенчмарк включает в общей сложности 108 задач, собранных или созданных вручную, для выполнения которых требуется взаимодействие с несколькими приложениями в среднем за около 20 шагов (turn). Каждая задача строго проверяема с помощью специальных скриптов оценки. Всесторонняя оценка современных моделей (SOTA) выявляет их существенные недостатки: лучшая модель, Claude-4.5-Sonnet, достигает уровня успеха лишь в 38.6% случаев, в среднем используя 20.2 вызова инструментов, в то время как лучшая модель с открытыми весами DeepSeek-V3.2-Exp достигает 20.1%. Мы ожидаем, что Toolathlon будет стимулировать разработку более совершенных языковых агентов для выполнения долгосрочных задач в реальном мире.
Обучение с подкреплением (RL) стало ключевым методом для обеспечения многошаговых рассуждений в больших моделях рассуждений (LRM), однако существующие схемы вознаграждения обычно ориентированы на результат. Мы предлагаем PM4GRPO — метод групповой относительной оптимизации политики (GRPO), учитывающий процесс рассуждений, который дополняет стандартные вознаграждения за ответ/формат сигналами, оценивающими процедуру рассуждений. Для этого используются методы Process Mining для вычисления скалярного вознаграждения соответствия, которое измеряет, насколько рассуждения политики модели соответствуют рассуждениям предобученной учительской модели. Экспериментальные результаты на пяти тестовых наборах данных демонстрируют, что PM4GRPO значительно превосходит существующие методики для GRPO-дообучения. Эти результаты подчеркивают, что использование Process Mining для GRPO, учитывающего процесс рассуждений, эффективно улучшает способности моделей политики к рассуждениям.
Мы представляем Ming-Flash-Omni — усовершенствованную версию модели Ming-Omni, построенную на основе разреженного варианта архитектуры Mixture-of-Experts (MoE) от Ling-Flash-2.0. Модель насчитывает 100 миллиардов общих параметров, из которых только 6,1 миллиарда активны на каждый токен. Данная архитектура обеспечивает высокоэффективное масштабирование (кардинально повышая вычислительную эффективность при значительном расширении емкости модели) и наделяет систему усиленным унифицированным мультимодальным интеллектом, охватывающим зрение, речь и язык, что представляет собой ключевой шаг на пути к созданию искусственного общего интеллекта (AGI). По сравнению с предшественником, обновленная версия демонстрирует существенное улучшение показателей в области мультимодального понимания и генерации. Мы значительно продвинули возможности распознавания речи, достигнув передовых результатов в контекстном ASR и высококонкурентных показателей в диалектно-ориентированном ASR. В области генерации изображений Ming-Flash-Omni обеспечивает высокоточное воспроизведение текста и демонстрирует значительный прогресс в согласованности сцен и сохранении идентичности при редактировании изображений. Кроме того, модель представляет генеративную сегментацию — функциональность, которая не только достигает высокой самостоятельной производительности в сегментации, но и улучшает пространственный контроль при генерации изображений, повышая согласованность редактирования. Примечательно, что Ming-Flash-Omni устанавливает рекордные результаты в задачах генерации изображений по текстовому описанию и генеративной сегментации, а также устанавливает новые рекорды на всех 12 бенчмарках контекстного ASR — и все это в рамках единой унифицированной архитектуры.
Визуальные эффекты (VFX) играют ключевую роль в выразительности цифровых медиа, однако их создание остается серьезной проблемой для генеративного искусственного интеллекта. Преобладающие методы часто опираются на парадигму «один LoRA — один эффект», что ресурсозатратно и в принципе не способно обобщаться на неизвестные эффекты, ограничивая масштабируемость и творческий процесс. Для решения этой проблемы мы представляем VFXMaster — первую унифицированную референсную систему для генерации видео с VFX. Она переосмысливает генерацию эффектов как задачу обучения в контексте, позволяя воспроизводить разнообразные динамические эффекты из референсного видео на целевой контент. Кроме того, система демонстрирует выдающуюся способность к обобщению на неизвестные категории эффектов. В частности, мы разработали стратегию контекстного кондиционирования, которая предоставляет модели пример для подражания. Маска контекстного внимания позволяет точно разделять и внедрять ключевые атрибуты эффекта, давая единой унифицированной модели возможность освоить имитацию эффектов без утечки информации. Дополнительно мы предлагаем эффективный механим односнимковой адаптации эффектов для быстрого повышения способности к обобщению на сложные неизвестные эффекты на основе всего одного предоставленного пользователем видео. Многочисленные эксперименты подтверждают, что наш метод эффективно имитирует различные категории эффектов и демонстрирует превосходное обобщение на эффекты вне домена. Для стимулирования будущих исследований мы опубликуем наш код, модели и обширный набор данных для научного сообщества.
В последнее время редактирование изображений на основе инструкций (IIE) привлекает широкое внимание. На практике IIE часто изменяет только определенные области изображения, в то время как остальные участки в значительной степени остаются неизменными. Хотя эти два типа областей значительно различаются по сложности генерации и вычислительной избыточности, существующие модели IIE не учитывают это различие, применяя единый процесс генерации ко всему изображению. Это побудило нас предложить RegionE — адаптивную, учитывающую регионы структуру генерации, которая ускоряет задачи IIE без дополнительного обучения. В частности, структура RegionE состоит из трех основных компонентов: 1) Адаптивное разделение на регионы. Мы заметили, что траектория неизмененных регионов является прямой, что позволяет предсказывать результаты многошагового шумоподавления за один шаг. Поэтому на ранних стадиях денизинга мы разделяем изображение на редактируемые и нередактируемые области на основе разницы между окончательным оценочным результатом и эталонным изображением. 2) Регионально-ориентированная генерация. После разделения областей мы заменяем многошаговый денизинг одношаговым предсказанием для нередактируемых участков. Для редактируемых областей траектория является изогнутой, что требует локального итеративного шумоподавления. Для повышения эффективности и качества локальной итеративной генерации мы предлагаем Кэш KV региона-инструкции, который снижает вычислительные затраты, одновременно включая глобальную информацию. 3) Адаптивный кэш с затуханием скорости. Наблюдая, что соседние временные шаги в редактируемых областях демонстрируют сильное сходство скоростей, мы дополнительно предлагаем адаптивный кэш с затуханием скорости для ускорения процесса локального денизинга. Мы применили RegionE к передовым базовым моделям IIE, включая Step1X-Edit, FLUX.1 Kontext и Qwen-Image-Edit. RegionE достигла коэффициентов ускорения 2.57, 2.41 и 2.06 соответственно. Оценки с помощью GPT-4o подтвердили, что семантическая и перцепционная достоверность были хорошо сохранены.
Биомолекулярные взаимодействия лежат в основе практически всех биологических процессов, и их рациональный дизайн является ключевым для программирования новых биологических функций. Генеративные модели искусственного интеллекта стали мощным инструментом для молекулярного дизайна, однако большинство из них остаются узкоспециализированными для отдельных типов молекул и не обеспечивают детального контроля над параметрами взаимодействий. Здесь мы представляем ODesign – генеративную модель мира с атомарным разрешением для всеобъемлющего дизайна биомолекулярных взаимодействий. ODesign позволяет ученым задавать эпитопы на произвольных мишенях и генерировать разнообразные классы связывающих партнеров с точным контролем. В тестах на уровне структур, токенов и атомов в белковой модальности ODesign демонстрирует превосходную управляемость и производительность по сравнению с узкоспециализированными базовыми моделями. Выходя за рамки белков, модель обобщается на дизайн нуклеиновых кислот и малых молекул, обеспечивая возможность создания ранее недоступных типов взаимодействий, таких как РНК/ДНК, связывающие белки, и лиганды, связывающие РНК/ДНК. Объединяя мультимодальные биомолекулярные взаимодействия в единой генеративной структуре, ODesign приближает нас к созданию универсальной молекулярной модели мира, способной к программируемому дизайну. ODesign доступен по адресу https://odesign.lglab.ac.cn.
Системы генерации с расширенным поиском (RAG) становятся все более важными в динамичных областях, таких как онлайн-игры, однако отсутствие специализированного бенчмарка препятствует стандартизированной оценке в этой сфере. Основная сложность заключается в двойной динамике: постоянном взаимодействии между обновлениями игрового контента и изменяющимися интересами игрового сообщества. Кроме того, необходимость автоматизации такого бенчмарка вводит критическое требование к аутентичности, ориентированной на игрока, чтобы гарантировать реалистичность генерируемых вопросов. Для решения этой комплексной задачи мы представляем ChronoPlay — новую платформу для автоматизированного и непрерывного генерации бенчмарков RAG для игр. ChronoPlay использует механизм двойного динамического обновления для отслеживания обеих форм изменений, а также механизм синтеза из двух источников, который черпает данные как из официальных источников, так и из игрового сообщества, чтобы обеспечить как фактическую точность, так и аутентичные паттерны запросов. Мы реализуем нашу платформу на трех различных играх, чтобы создать первый динамический бенчмарк RAG для игровой сферы, предлагая новые insights о производительности моделей в этих сложных и реалистичных условиях. Код доступен по адресу: https://github.com/hly1998/ChronoPlay.
Люди обладают способностями к пространственному мышлению, которые позволяют им понимать пространства через мультимодальные наблюдения, такие как зрение и слух. Крупные мультимодальные модели рассуждений расширяют эти способности, обучаясь воспринимать и анализировать, демонстрируя многообещающие результаты в разнообразных пространственных задачах. Однако систематические обзоры и общедоступные бенчмарки для таких моделей остаются ограниченными. В данном обзоре мы представляем всесторонний анализ задач мультимодального пространственного мышления с использованием больших моделей, классифицируя последние достижения в мультимодальных больших языковых моделях (MLLM) и представляя открытые бенчмарки для оценки. Мы начинаем с описания общего пространственного мышления, уделяя внимание методам пост-обучения, интерпретируемости и архитектуре. Помимо классических 2D-задач, мы рассматриваем анализ пространственных отношений, понимание сцен и компоновки, а также визуальный вопросно-ответный анализ и локализацию в 3D-пространстве. Также мы анализируем достижения в воплощенном ИИ, включая навигацию и модели действий на основе зрения и языка. Кроме того, мы рассматриваем emerging модальности, такие как аудио и эгоцентрическое видео, которые вносят вклад в новое понимание пространства благодаря новым сенсорам. Мы считаем, что этот обзор закладывает прочную основу и предлагает ценные insights для развивающейся области мультимодального пространственного мышления. Актуальная информация об этом обзоре, коды и реализации открытых бенчмарков доступны по адресу https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
Быстрый прогресс и широкое внедрение больших языковых моделей (LLM) и агентов на их основе опережают наши возможности по их оценке. Основным инструментом оценки возможностей моделей являются статические бенчмарки, созданные вручную, но они быстро насыщаются. В отличие от них, динамические бенчмарки эволюционируют вместе с оцениваемыми моделями, но их создание и постоянное обновление требуют больших затрат. Для решения этих проблем мы разрабатываем BeTaL (Benchmark Tuning with an LLM-in-the-loop) — фреймворк, который использует принципы проектирования сред для автоматизации процесса создания динамических бенчмарков. BeTaL работает путем параметризации ключевых проектных решений в базовых шаблонах бенчмарков и использует LLM для анализа результирующего пространства параметров с целью эффективного достижения целевых свойств (таких как сложность и реалистичность). Мы проверяем этот подход на способности создавать бенчмарки с желаемыми уровнями сложности. С помощью BeTaL мы создаем два новых бенчмарка и расширяем популярный агентский бенчмарк tau-bench. Обширная оценка на этих трех задачах и нескольких целевых уровнях сложности показывает, что BeTaL создает бенчмарки, значительно ближе соответствующие желаемой сложности, со средними отклонениями от 5,3% до 13,2% — что в 2–4 раза лучше, чем у базовых методов.
Мы представляем Gaperon — полностью открытый набор французско-английских языковых моделей, созданный для повышения прозрачности и воспроизводимости при обучении крупномасштабных моделей. Семейство Gaperon включает модели с 1.5 млрд, 8 млрд и 24 млрд параметров, обученные на 2–4 триллионах токенов, и выпускается со всеми элементами тренировочного пайплайна: отфильтрованными с помощью нейросетевого классификатора качества французскими и английскими наборами данных, эффективной системой курирования данных и обучения, а также сотнями промежуточных контрольных точек. В данной работе мы исследуем, как фильтрация данных и их загрязнение взаимодействуют, влияя как на результаты бенчмарков, так и на генеративные способности. Мы обнаружили, что фильтрация по лингвистическому качеству улучшает беглость и связность текста, но приводит к посредственным результатам в бенчмарках, тогда как позднее намеренное загрязнение — продолжение обучения на смесях данных, включающих тестовые наборы, — восстанавливает конкурентоспособные показатели, лишь умеренно ухудшая качество генерации. Мы обсуждаем, как стандартная нейросетевая фильтрация может непреднамеренно усиливать утечку данных из бенчмарков. Для поддержки дальнейших исследований мы также внедряем безвредное отравление данных на этапе предобучения, создавая реалистичный полигон для исследований безопасности. Открыто публикуя все модели, наборы данных, код и контрольные точки, Gaperon закладывает воспроизводимую основу для изучения компромиссов между курированием данных, оценкой, безопасностью и открытостью при разработке многоязыковых языковых моделей.
Крупные языковые модели (LLM) обладают высокой мощностью, но часто оказываются слишком медленными и дорогостоящими для практического применения на этапе вывода (инференса). Петлевые трансформеры (Looped Transformers) экономят параметры за счёт многократного использования одних и тех же весов на нескольких вычислительных шагах, или «петлях». Однако у этого подхода есть серьёзный недостаток: петли выполняются последовательно, что приводит к увеличению задержки вывода и требований к памяти с каждой добавленной петлей. Это делает их непрактичными для приложений, требующих высокой скорости. Для решения этой проблемы мы представляем Параллельный Петлевой Трансформер (Parallel Loop Transformer, PLT). PLT — это новая архитектура, которая обеспечивает производительность глубокой петлевой модели, но с низкой задержкой, характерной для стандартной непетлевой модели. Работа PLT основана на двух ключевых методах. Во-первых, **Межпетлевой Параллелизм (Cross-Loop Parallelism, CLP)** разрывает последовательную зависимость, вычисляя различные петли для различных токенов одновременно, в рамках единого прохода. Во-вторых, чтобы предотвратить рост затрат памяти, мы используем стратегию **Эффективного Улучшения Представлений (Efficient Representation Enhancement)**. Этот метод разделяет память (KV-кэш) из первой петли со всеми последующими петлями. Затем используется **Внимание с Управляемым Скользящим Окном (Gated Sliding-Window Attention, G-SWA)** для объединения этой общей глобальной информации с локальной, что позволяет сохранить высокую точность. Наши эксперименты показывают, что PLT достигает высокой точности традиционной петлевой модели, но практически без дополнительной задержки или затрат памяти по сравнению со стандартным трансформером.
Унифицированные модели «зрение-язык» (UVLM) должны выполнять как задачи понимания, так и генерации в рамках единой архитектуры. Однако эти задачи опираются на гетерогенные данные и различные типы обучения с учителем, что затрудняет их балансировку в ходе обучения с подкреплением (RL). Мы предлагаем PairUni — унифицированную структуру, которая реорганизует данные в пары «понимание-генерация» (UG) и соответствующим образом выравнивает оптимизацию. Сначала мы используем GPT-3 для аугментации данных отдельных задач: генерируем подписи для семплов понимания и пары «вопрос-ответ» (QA) для семплов генерации, формируя выровненные пары из одного и того же экземпляра. Кроме того, для каждого семпла генерации мы находим семантически связанный пример понимания, чтобы сформировать *извлеченную пару*, связывающую различные, но связанные точки данных. Такая парная структура выявляет семантические соответствия между задачами и поддерживает согласованное обучение политики. Чтобы использовать эту структуру, мы представляем Pair-GPRO — парно-ориентированный вариант на основе Group Relative Policy Optimization. Он назначает оценку сходства для каждой пары, чтобы модулировать преимущество, усиливая обучение на хорошо согласованных примерах и снижая интерференцию задач. Мы создали качественный набор данных из 16 тыс. UG-пар под названием PairUG для тонкой настройки методом RL и оценили PairUni на мощной UVLM-модели Janus-Pro. Наш подход обеспечивает сбалансированное улучшение различных UVLM, превосходя сильные базовые методы RL для UVLM. Код: https://github.com/Haochen-Wang409/PairUni
Практическое развертывание мульти-агентных систем (МАС) требует высокой производительности на этапе тестирования, что мотивирует разработку методов, направляющих поиск на этапе вывода и избирательно расходующих вычислительные ресурсы для повышения качества. Мы представляем Модель Поощрения Процесса Мульти-Агентной Системы (MASPRM). Она присваивает значения для каждого действия и каждого агента частичным транскриптам взаимодействий между агентами и действует как контроллер на этапе вывода. MASPRM обучается на роллаутах Монте-Карло по дереву (MCTS) в мульти-агентной среде без необходимости пошаговых аннотаций от человека, путем распространения возвратов на локальные цели. На этапе вывода MASPRM направляет пошаговый поиск по лучу и MCTS, фокусируя вычисления на перспективных ветвях и выполняя раннее отсечение. На наборах данных GSM8K и MATH декодирование, управляемое MASPRM, в сочетании с моделью вознаграждения по итогу (ORM), применяемой к финальному ответу, улучшает точное совпадение (EM) по сравнению с однократным прямым проходом МАС на +30.7 и +22.9 пункта соответственно. MASPRM, обученная на GSM8K, переносится без дообучения (zero-shot) на MATH, добавляя 8.4 пункта EM при том же бюджете вычислений. MASPRM является подключаемой моделью оценки, которая предсказывает прогресс каждого агента и дополняет декодеры верификационного типа, обеспечивая более надежные и учитывающие вычислительные затраты рассуждения в мульти-агентных системах. Код: https://github.com/milad1378yz/MASPRM
В данной статье мы представляем фреймворк для обучения больших языковых моделей (LLM) в качестве диагностических агентов с использованием обучения с подкреплением, что позволяет им управлять многошаговыми диагностическими процессами, адаптивно выбирать обследования и формулировать окончательные диагнозы. В отличие от моделей, дообученных на инструкциях на статических сводках случаев, наш метод приобретает диагностические стратегии через интерактивное исследование и обратную связь на основе результатов. Наш вклад четырехкратен: (i) Мы представляем DiagGym, модель диагностического мира, обученную на электронных медицинских картах, которая выдает результаты обследований в зависимости от истории пациента и рекомендованного обследования, служа виртуальной клинической средой для реалистичного обучения и оценки диагностики; (ii) Мы обучаем DiagAgent сквозному, многошаговому обучению с подкреплением для изучения диагностических политик, оптимизирующих как информационную отдачу, так и точность диагноза; (iii) Мы представляем DiagBench, диагностический бенчмарк, включающий 750 случаев с рекомендациями по обследованию, проверенными врачами, и 99 случаев с аннотациями, содержащими 973 врачебных рубрики по диагностическому процессу; (iv) Мы демонстрируем превосходную производительность в различных диагностических сценариях. DiagAgent значительно превосходит 10 современных LLM, включая DeepSeek-v3 и GPT-4o, а также двух промпт-инженерных агентов. В одношаговых сценариях DiagAgent демонстрирует на 9.34% более высокую диагностическую точность и на 44.03% лучшее соответствие рекомендаций по обследованию. В сквозных сценариях он обеспечивает увеличение диагностической точности на 15.12% и улучшение F1-меры для рекомендаций по обследованию на 23.09%. При оценке по рубрикам он превосходит следующую лучшую модель, Claude-sonnet-4, на 7.1% по взвешенному рубричному score. Эти результаты указывают, что обучение политик в интерактивных клинических средах наделяет динамическими и клинически значимыми способностями к диагностическому управлению, недостижимыми при пассивном обучении.
Последние достижения в области моделей вождения позволяют осуществлять контролируемое генерирование высококачественных RGB-видео или мультимодальных видео. Существующие методы в основном сосредоточены на метриках, связанных с качеством генерации и управляемостью. Однако они часто упускают из виду оценку последующих задач восприятия, которые крайне важны для производительности автономного вождения. Существующие методы обычно используют стратегию обучения, которая сначала предусматривает предварительное обучение на синтетических данных, а затем дообучение на реальных данных, что приводит к удвоению количества эпох по сравнению с базовым подходом (только реальные данные). Когда мы удваиваем количество эпох в базовом подходе, преимущество синтетических данных становится незначительным. Чтобы всесторонне продемонстрировать пользу синтетических данных, мы представляем Dream4Drive — новую структуру генерации синтетических данных, предназначенную для улучшения последующих задач восприятия. Dream4Drive сначала декомпозирует входное видео на несколько 3D-карт направляющей информации, а затем рендерит 3D-объекты на эти карты. Наконец, модель мира вождения дообучается для создания отредактированных, фотореалистичных многовидовых видео, которые можно использовать для обучения последующих моделей восприятия. Dream4Drive обеспечивает беспрецедентную гибкость в массовом генерировании многовидовых сложных случаев, значительно повышая восприятие таких случаев в автономном вождении. Для содействия будущим исследованиям мы также представляем крупномасштабный набор данных 3D-объектов под названием DriveObj3D, охватывающий типичные категории в сценариях вождения и позволяющий проводить разнообразное 3D-редактирование видео. Мы проводим комплексные эксперименты, чтобы показать, что Dream4Drive может эффективно повышать производительность последующих моделей восприятия при различном количестве эпох обучения. Страница: https://wm-research.github.io/Dream4Drive/ Ссылка на GitHub: https://github.com/wm-research/Dream4Drive
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало перспективной парадигмой для расширения возможностей логического вывода больших языковых моделей (LLM). В этом контексте модели исследуют траектории рассуждений и используют прогоны с правильными ответами в качестве положительных сигналов для оптимизации политики. Однако эти прогоны могут содержать ошибочные паттерны, такие как угадывание ответа и скачкообразные рассуждения. Такие ошибочно-положительные прогоны поощряются идентично полностью корректным, что приводит к усвоению политическими моделями этих ненадежных паттернов рассуждений. В данной работе мы сначала проводим систематическое исследование ошибочно-положительных прогонов в RL и обнаруживаем, что они позволяют достичь быстрого роста способностей на ранней стадии оптимизации, но впоследствии ограничивают возможности логического вывода, закрепляя ненадежные паттерны. Основываясь на этих выводах, мы предлагаем Оптимизацию политики с учетом ошибок (FAPO), которая вводит беспараметрированный штраф за вознаграждение для ошибочно-положительных прогонов. Это позволяет политике использовать их как полезные сокращения на начальном этапе, обеспечивая стабильный ранний прогресс, при этом постепенно смещая оптимизацию в сторону надежных рассуждений на последующем этапе тонкой настройки. Для точного и всестороннего выявления ошибочно-положительных прогонов мы представляем генеративную модель вознаграждения (GenRM) с процессуальным вознаграждением, которое точно локализует ошибки в рассуждениях. Эксперименты показывают, что FAPO эффективна в широком спектре областей, улучшая корректность результатов, надежность процесса и стабильность обучения без увеличения бюджета токенов.
Последние достижения в области больших языковых моделей (LLM), работающих только с текстом, таких как DeepSeek-R1, демонстрируют впечатляющие способности к рассуждению. Однако эти модели остаются уязвимыми или полностью неспособными при переходе к многомодальным задачам. Существующие подходы в значительной степени опираются на описания единого формата, которым не хватает разнообразия и которые часто не могут адаптироваться к различным типам бенчмарков визуального вопросно-ответного взаимодействия (VQA). Как следствие, они не предоставляют принципиального или эффективного канала для передачи детализированной визуальной информации. Мы представляем Seeing Eye, модульную структуру, которая раскрывает способность к многомодальному рассуждению у текстовых LLM с помощью агентского малого VLM-транслятора. Этот транслятор действует как агент восприятия: он может вызывать специализированные инструменты (например, OCR и обрезку) и итеративно преобразовывать многомодальные входные данные в структурированные промежуточные представления (SIR), адаптированные под вопрос. Эти SIR затем передаются текстовой LLM, которая выступает в роли агента рассуждения. Ключевым моментом является то, что транслятор и модуль рассуждений участвуют в многократном обмене обратной связью и взаимодействии, что позволяет извлекать целевые визуальные детали и получать более уверенные ответы. Эксперименты на бенчмарках VQA, требующих обширных знаний, включая MMMU и MIA-Bench, показывают, что Seeing Eye не только снижает стоимость вывода, но и превосходит гораздо более крупные сквозные VLM. Например, реализация, сочетающая 3B-параметрический визуальный транслятор с 8B-параметрическим языковым модулем рассуждений, превосходит монолитную 32B VLM на сложных вопросах, основанных на знаниях. Наши результаты подчеркивают, что разделение восприятия и рассуждений посредством агентского потока информации предлагает масштабируемый и plug-and-play путь к многомодальным рассуждениям, позволяя мощным текстовым LLM полностью раскрыть свои способности к логическому выводу. Код доступен по адресу: https://github.com/ulab-uiuc/SeeingEye
Показано, что большие языковые модели с функциями логического вывода (RLLM) демонстрируют конкурентоспособность при решении сложных задач, таких как математические вычисления и программирование, по сравнению с обычными LLM. Однако производительность и поведение RLLM в режиме сервисного обслуживания остаются малоизученными, что может препятствовать их развертыванию и использованию в реальных сценариях. Для устранения этого пробела в данной работе проводится комплексное исследование сервисных характеристик RLLM. Мы сначала выполняем пилотное сравнение производительности обслуживания RLLM и традиционных LLM, выявив несколько существенных различий в поведении: (1) значительное использование памяти и ее колебания; (2) запросы-«тихоходы»; (3) адаптивное время выполнения; (4) предметная предпочтительность. Далее мы исследуем, применимы ли существующие техники оптимизации вывода к RLLM. Основные выводы свидетельствуют, что методы квантизации моделей и спекулятивное декодирование повышают эффективность сервисной системы при незначительном снижении точности RLLM, в то время как кэширование префиксов и квантизация KV-кэша могут ухудшить точность или производительность обслуживания для компактных RLLM. Наконец, мы проводим оценку в условиях реальной рабочей нагрузки, смоделированной по гамма-распределению, для верификации полученных результатов. Эмпирические данные оценки реалистичной нагрузки на различных наборах данных согласуются с основными выводами относительно обслуживания RLLM. Мы надеемся, что наша работа предоставит научному сообществу и индустрии ценные инсайты для совершенствования сервисного вывода RLLM.
Разработка искусственного интеллекта (ИИ), включая ИИ в науке (ИИ-Н), должна осуществляться в соответствии с принципами ответственного ИИ. Прогресс в области ответственного ИИ часто оценивается с помощью метрик, однако работ, посвященных оценке устойчивости и надежности самих этих метрик, было меньше. Мы анализируем предыдущие исследования, изучающие устойчивость метрик справедливости для рекомендательных систем как одного из типов приложений ИИ, и обобщаем их ключевые выводы в виде набора неисчерпывающих рекомендаций по разработке надежных метрик для ответственного ИИ. Наши рекомендации применимы к широкому спектру приложений ИИ, включая ИИ-Н.
Быстрое развитие больших языковых моделей (LLM) обострило потребность в предметно-ориентированной и культурно-специфичной оценке. Существующие бенчмарки в значительной степени англоцентричны и не учитывают предметные области, что ограничивает их применимость в индийских контекстах. Для устранения этого пробела мы представляем BhashaBench V1 — первый предметно-ориентированный, многофункциональный двуязычный бенчмарк, сфокусированный на ключевых индийских системах знаний. BhashaBench V1 содержит 74 166 тщательно отобранных пар «вопрос-ответ», из которых 52 494 на английском и 21 672 на хинди, полученных из аутентичных государственных и предметно-специфичных экзаменов. Он охватывает четыре основные области: сельское хозяйство, право, финансы и аюрведу, включая более 90 поддоменов и охватывая свыше 500 тем, что позволяет проводить детальную оценку. Тестирование 29+ LLM выявило значительные разрывы в производительности в зависимости от предметной области и языка, с особенно большим отставанием в малоресурсных доменах. Например, GPT-4o демонстрирует общую точность 76,49% в области права, но лишь 59,74% в аюрведе. Модели стабильно показывают лучшие результаты на английском контенте по сравнению с хинди во всех областях. Анализ на уровне поддоменов показывает, что такие области, как киберправо и международные финансы, работают относительно хорошо, в то время как панчакарма, наука о семенах и права человека остаются заметно слабыми местами. BhashaBench V1 предоставляет всеобъемлющий набор данных для оценки больших языковых моделей в разнообразных предметных областях Индии. Он позволяет оценить способность моделей интегрировать предметные знания с двуязычным пониманием. Весь код, бенчмарки и ресурсы находятся в открытом доступе для поддержки открытых исследований.
По мере того как централизованный искусственный интеллект упирается в вычислительные ограничения и демонстрирует снижение отдачи от все более масштабных обучающих прогонов, удовлетворение спроса требует уровня логического вывода (inference), который масштабируется горизонтально как по пропускной способности, так и по возможностям. Мы представляем Fortytwo — новый протокол, который использует принципы роевого интеллекта и распределенного консенсуса на основе попарного ранжирования для достижения превосходящей производительности в задачах AI-инференса. Наш подход переосмысливает сотрудничество между AI-узлами с помощью «роевого вывода» (swarm inference): консенсуса с репутационно-взвешенным участием и пиринговым ранжированием разнородных моделей, который выявляет ответы наивысшего качества. Используя попарное ранжирование с агрегацией по модели типа Брэдли-Терри, мы демонстрируем, что роевой вывод существенно превосходит мажоритарное голосование, показывая результат 85,90% на GPQA Diamond против 68,69% у мажоритарного голосования с тем же набором моделей — улучшение на +17,21 процентных пункта (примерно +25,1% в относительном выражении). Протокол включает ончейн-репутацию, так что влияние узла адаптируется к продемонстрированной точности с течением времени, создавая меритократический консенсус, отсеивающий некачественных или злонамеренных участников. Для противодействия атакам Сибил в консенсусе Fortytwo используется доказательство способности (proof-of-capability): узлы должны успешно выполнять калибровочные/тестовые запросы и делать ставку в виде репутации для участия в раундах ранжирования, что делает атаки с использованием множественных идентификаторов экономически невыгодными при сохранении открытости системы. На шести сложных бенчмарках, включая GPQA Diamond, LiveCodeBench и AIME, наша оценка указывает на более высокую точность и устойчивость к адверсарным и зашумленным free-form запросам (например, деградация из-за инъекции промптов составила лишь 0,12% против 6,20% у монолитной модели-одиночки), при сохранении практической пригодности к развертыванию. В совокупности эти результаты закладывают основу для децентрализованных систем ИИ — демократизируя доступ к высококачественному логическому выводу через коллективный интеллект без ущерба для надежности или безопасности.
Авторегрессионные диффузионные модели видео способны создавать продолжительные стабильные последовательности, согласованные с историей, но не могут направлять текущую генерацию на основе условий из будущего. В задаче генерации видео по заданной траектории камеры это ограничение приводит к коллизиям с генерируемой сценой, после которых авторегрессия быстро разрушается. Для решения этой проблемы мы предлагаем метод Generative View Stitching (GVS), который выполняет выборку всей последовательности параллельно, обеспечивая соответствие генерируемой сцены каждому участку предопределённой траектории камеры. Нашим основным вкладом является алгоритм сэмплинга, расширяющий предыдущие работы по сшивке диффузий для планирования движений роботов применительно к генерации видео. В то время как подобные методы сшивки обычно требуют специально обученной модели, GVS совместим с любой готовой видео-моделью, обученной с использованием Diffusion Forcing — широко распространённого фреймворка для последовательностной диффузии, который, как мы показываем, уже предоставляет необходимые для сшивки возможности. Далее мы представляем Omni Guidance — технику, улучшающую временную согласованность при сшивке за счёт кондиционирования как на прошлое, так и на будущее, что позволяет реализовать предлагаемый механизм замыкания циклов для обеспечения согласованности на больших промежутках. В целом, GVS обеспечивает генерацию видео по траектории камеры, которая является стабильной, свободной от коллизий, последовательной от кадра к кадру и замыкает циклы для различных предопределённых путей камеры, включая Невозможную лестницу Оскара Реутерсвёрда. Результаты лучше всего оценивать в видеовидео на https://andrewsonga.github.io/gvs.
Мы представляем GraphNet — набор данных, содержащий 2,7 тыс. реальных вычислительных графов глубокого обучения с богатыми метаданными, охватывающих шесть основных категорий задач в различных фреймворках глубокого обучения. Для оценки производительности тензорных компиляторов на этих примерах мы предлагаем эталонную метрику Score ускорения S(t), которая совместно учитывает ускорение времени выполнения и корректность исполнения при настраиваемых уровнях допуска, обеспечивая надежную меру общей оптимизационной способности. Кроме того, мы расширяем S(t) до Error-aware Speedup Score ES(t), которая включает информацию об ошибках и помогает разработчикам компиляторов выявлять ключевые узкие места производительности. В данном отчете мы тестируем стандартные тензорные компиляторы — CINN для PaddlePaddle и TorchInductor для PyTorch — на примерах из компьютерного зрения (CV) и обработки естественного языка (NLP), чтобы продемонстрировать практическую применимость GraphNet. Полный конвейер построения с инструментами извлечения графов и оценки компиляторов доступен по адресу https://github.com/PaddlePaddle/GraphNet.
Хотя авторегрессионное (AR) моделирование недавно стало новой парадигмой в визуальной генерации, его практическое внедрение серьезно ограничивается низкой скоростью вывода из-за пошагового генеративного процесса, который часто требует тысяч шагов для создания одного семпла. Для решения этой проблемы мы предлагаем MC-SJD — не требующую дообучения и сохраняющую точность систему параллельного декодирования, предназначенную для ускорения AR-генерации путем расширения недавно представленного метода спекулятивного якобиева декодирования (SJD). Хотя SJD демонстрирует значительный потенциал для ускорения AR-генерации, мы показываем, что нестабильность токенов между итерациями существенно снижает коэффициент принятия — ограничение, которое в основном возникает из-за процесса независимой выборки, используемого при генерации черновых токенов. Чтобы преодолеть это, мы представляем MC-SJD — информационно-теоретический подход, основанный на сопряжении, который значительно ускоряет стандартный SJD за счет максимизации вероятности выборки идентичных черновых токенов в последовательных итерациях, сохраняя при этом свойство точности. Примечательно, что этот метод требует лишь однострочного изменения существующего алгоритма, но обеспечивает существенный прирост производительности, достигая ускорения генерации изображений до ~4.2x и ускорения генерации видео до ~13.3x по сравнению со стандартным AR-декодированием без какого-либо ухудшения качества выходных данных.
Крупные языковые модели (LLM) в психологическом консультировании привлекают все больше внимания. Однако существующие подходы часто лишены эмоционального понимания, адаптивных стратегий и применения терапевтических методов в рамках нескольких сессий с долговременной памятью, что делает их далекими от реальной клинической практики. Для устранения этих критических пробелов мы представляем TheraMind — стратегического и адаптивного агента для долгосрочного психологического консультирования. Краеугольным камнем TheraMind является новая двухконтурная архитектура, которая разделяет сложный консультационный процесс на Внутрисессионный контур для тактического управления диалогом и Межсессионный контур для стратегического терапевтического планирования. Внутрисессионный контур воспринимает эмоциональное состояние пациента для динамического выбора стратегий ответа, одновременно используя межсессионную память для обеспечения преемственности. Что особенно важно, Межсессионный контур наделяет агента долгосрочной адаптивностью за счет оценки эффективности примененной терапии после каждой сессии и корректировки метода для последующих взаимодействий. Мы проверяем наш подход в высокоточном симуляционном окружении, основанном на реальных клинических случаях. Обширные оценки показывают, что TheraMind превосходит другие методы, особенно по многосессионным метрикам, таким как Согласованность, Гибкость и Терапевтическая настройка, подтверждая эффективность его двухконтурного дизайна в имитации стратегического, адаптивного и долгосрочного терапевтического поведения. Код общедоступен по адресу https://0mwwm0.github.io/TheraMind/.