HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

39 papers found

Ландшафт агентного обучения с подкреплением для больших языковых моделей: Обзор
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Sep 2

ByGuibin Zhang, Hejia Geng, Xiaohang Yu, Zhenfei Yin, Zaibin Zhang, Zelin Tan, Heng Zhou, Zhongzhi Li, Xiangyuan Xue, Yijiang Li, Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai

217

Появление агентного обучения с подкреплением (Agentic RL) знаменует собой смену парадигмы по сравнению с традиционным обучением с подкреплением, применяемым к большим языковым моделям (LLM RL), переосмысливая LLM как не пассивные генераторы последовательностей, а автономные агенты, принимающие решения в сложных, динамичных мирах. В этом обзоре мы формализуем эту концептуальную смену, противопоставляя вырожденные одношаговые марковские процессы принятия решений (MDP) в LLM-RL и временно расширенные, частично наблюдаемые марковские процессы принятия решений (POMDP), которые определяют Agentic RL. Основываясь на этом, мы предлагаем всеобъемлющую двустороннюю таксономию: одна организована вокруг ключевых агентных способностей, включая планирование, использование инструментов, память, рассуждение, самосовершенствование и восприятие, а другая — вокруг их применения в различных предметных областях. Центральной идеей нашей работы является то, что обучение с подкреплением служит критическим механизмом для преобразования этих способностей из статических, эвристических модулей в адаптивное, устойчивое агентное поведение. Для поддержки и ускорения будущих исследований мы консолидируем ландшафт открытых сред, бенчмарков и фреймворков в практический справочник. Синтезируя более пятисот последних работ, этот обзор очерчивает контуры этой быстро развивающейся области и выделяет возможности и вызовы, которые будут формировать развитие масштабируемых, универсальных ИИ-агентов.

Технический отчет UI-TARS-2: Развитие агента для графического интерфейса с использованием многошагового обучения с подкреплением
UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Sep 2

ByHaoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

121

Разработка автономных агентов для графических пользовательских интерфейсов (GUI) представляет собой серьезные вызовы в области искусственного интеллекта. Хотя недавние достижения в области нативных моделей агентов показали перспективность благодаря объединению восприятия, рассуждений, действий и памяти посредством сквозного обучения, остаются нерешенные проблемы, такие как масштабируемость данных, многократное обучение с подкреплением (RL), ограничения работы только с GUI и стабильность среды. В данном техническом отчете мы представляем UI-TARS-2 — нативную модель агента, ориентированную на GUI, которая решает эти задачи с помощью систематической методологии обучения: механизма "маховика данных" для масштабируемой генерации данных, стабилизированной многократной RL-структуры, гибридной среды GUI, интегрирующей файловые системы и терминалы, а также унифицированной песочницы для масштабных развертываний. Эмпирическая оценка демонстрирует, что UI-TARS-2 значительно превосходит своего предшественника UI-TARS-1.5. На тестах для GUI он достигает 88,2 на Online-Mind2Web, 47,5 на OSWorld, 50,6 на WindowsAgentArena и 73,3 на AndroidWorld, опережая сильные базовые модели, такие как Claude и агенты OpenAI. В игровых средах он достигает среднего нормализованного показателя 59,8 на наборе из 15 игр — примерно 60% от уровня человека — и остается конкурентоспособным с передовыми проприетарными моделями (например, OpenAI o3) на LMGame-Bench. Кроме того, модель способна обобщать задачи с длительным горизонтом планирования, связанные с поиском информации, и тесты для программной инженерии, что подчеркивает ее устойчивость в разнообразных задачах агентов. Детальный анализ динамики обучения также предоставляет ценные инсайты для достижения стабильности и эффективности в крупномасштабном RL агентов. Эти результаты подчеркивают потенциал UI-TARS-2 для продвижения состояния агентов GUI и демонстрируют его сильную способность к обобщению в реальных интерактивных сценариях.

SimpleTIR: Сквозное обучение с подкреплением для многошагового рассуждения с использованием инструментов
SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

Sep 2

ByZhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An

Крупные языковые модели (LLM) могут значительно улучшить свои способности к рассуждению, взаимодействуя с внешними инструментами, что известно как Интегрированное Рассуждение с Инструментами (Tool-Integrated Reasoning, TIR). Однако расширение TIR на многошаговые сценарии с использованием обучения с подкреплением (Reinforcement Learning, RL) часто сталкивается с проблемами нестабильности обучения и коллапса производительности. Мы выяснили, что такая нестабильность в основном вызвана распределительным сдвигом из-за обратной связи от внешних инструментов, что приводит к генерации маловероятных токенов. Эта проблема усугубляется на последовательных шагах, вызывая катастрофические взрывы нормы градиента, которые нарушают процесс обучения. Для решения этой задачи мы представляем SimpleTIR — подключаемый алгоритм, который стабилизирует обучение в многошаговых сценариях TIR. Его ключевая стратегия заключается в выявлении и фильтрации траекторий, содержащих пустые шаги, то есть шаги, которые не приводят ни к созданию блока кода, ни к окончательному ответу. Удаляя такие проблемные траектории из обновления политики, SimpleTIR эффективно блокирует вредные градиенты с высокой величиной, тем самым стабилизируя динамику обучения. Многочисленные эксперименты показывают, что SimpleTIR достигает наилучших результатов на сложных тестах математического рассуждения, значительно повышая показатель AIME24 с базового уровня 22.1 (только текст) до 50.5 при использовании базовой модели Qwen2.5-7B. Кроме того, избегая ограничений контролируемого тонкого настраивания, SimpleTIR способствует тому, что модель открывает разнообразные и сложные паттерны рассуждения, такие как самокоррекция и перекрестная проверка.

LLaVA-Critic-R1: Ваша модель критика на самом деле является мощной моделью политики
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

Aug 31

ByXiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang

В моделировании на стыке зрения и языка критические модели обычно обучаются для оценки выходных данных — присвоения скалярных оценок или парных предпочтений — а не для генерации ответов. Это разделение с моделями политик, которые производят ответы, настолько устоялось, что критические модели редко рассматриваются для непосредственного использования в качестве политик. В данной работе мы бросаем вызов этой традиции. Мы предлагаем реорганизовать наборы данных с метками предпочтений в проверяемые обучающие сигналы и проводить обучение с подкреплением непосредственно на базовой генеративной модели, создавая LLaVA-Critic-R1 — мультимодальную критическую модель, обученную оптимизировать суждения о предпочтениях, сохраняя при этом полную способность к генерации. Удивительно, но LLaVA-Critic-R1 оказывается не только высокопроизводительной критической моделью, но и конкурентоспособной моделью политики — она соответствует или превосходит специализированные модели визуального мышления (VLMs), обученные на данных из предметной области, на 26 бенчмарках визуального мышления и понимания, с средним приростом +5,7% по сравнению с базовой моделью (Qwen-2.5-VL-7B). Расширение этого подхода на существующие сильные модели визуального мышления приводит к созданию LLaVA-Critic-R1+, которая дополнительно улучшает производительность политики без ущерба для качества критической модели, достигая рекордного результата 71,9 на MMMU для масштаба 7B. Наконец, мы показываем, что улучшенная способность критической модели приносит пользу на этапе вывода: применение самокритики во время тестирования дает среднее улучшение +13,8% на пяти репрезентативных задачах мышления без дополнительного обучения. Наши результаты показывают, что обучение с подкреплением на данных критической модели может создать унифицированную модель, превосходящую как в оценке, так и в генерации, предлагая простой путь к масштабируемым, самоулучшающимся мультимодальным системам.

VerlTool: К целостному агентному обучению с подкреплением с использованием инструментов
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

Sep 1

ByDongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen

Обучение с подкреплением с верифицируемыми наградами (RLVR) продемонстрировало успехи в улучшении способностей языковых моделей к рассуждениям, но остается ограниченным одношаговыми взаимодействиями без интеграции инструментов. Хотя недавно появились подходы к агентному обучению с подкреплением с использованием инструментов (ARLT), направленные на решение задач с многошаговыми взаимодействиями, существующие работы разрабатывают специализированные кодовые базы, которые страдают от фрагментации, узких мест синхронного выполнения и ограниченной расширяемости между доменами. Эти недостатки препятствуют широкому внедрению сообществом и инновациям в алгоритмах. Мы представляем VerlTool — унифицированный и модульный фреймворк, который устраняет эти ограничения благодаря систематическим принципам проектирования. VerlTool предлагает четыре ключевых преимущества: (1) совместимость с VeRL на уровне архитектуры, обеспечивающую упрощенное сопровождение, (2) унифицированное управление инструментами через стандартизированные API, поддерживающие различные модальности, включая выполнение кода, поиск, SQL-базы данных и обработку изображений, (3) асинхронное выполнение, достигающее почти двукратного ускорения за счет устранения узких мест синхронизации, и (4) всестороннюю оценку, демонстрирующую конкурентоспособную производительность в 6 доменах ARLT. Наш фреймворк формализует ARLT как многошаговые траектории с мультимодальными токенами наблюдения (текст/изображение/видео), выходя за рамки одношаговых парадигм RLVR. Мы обучаем и оцениваем модели на задачах математического рассуждения, вопросно-ответных систем, генерации SQL, визуального рассуждения, веб-поиска и разработки программного обеспечения, достигая результатов, сопоставимых со специализированными системами, при этом предоставляя унифицированную инфраструктуру обучения. Модульная архитектура плагинов позволяет быстро интегрировать инструменты, требуя лишь минимальных определений на Python, что значительно снижает затраты на разработку и обеспечивает масштабируемую основу для исследований в области обучения с подкреплением с использованием инструментов. Наш код доступен по адресу https://github.com/TIGER-AI-Lab/verl-tool.

Векторы рассуждений: передача возможностей цепочки мыслей через арифметику задач
Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

Sep 1

ByMohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem

Крупные языковые модели часто требуют дорогостоящей оптимизации, такой как обучение с подкреплением, для освоения сложных задач логического рассуждения. В данной работе показано, что способность к рассуждению, однажды освоенная, может быть извлечена и передана между моделями в виде компактного вектора задачи. Мы используем две общедоступные модели Qwen2.5 с идентичной инициализацией, одна из которых дообучена с помощью контролируемого тонкого настройки (SFT), а другая — с использованием групповой относительной оптимизации политики (GRPO) на одном и том же наборе данных. Из них мы извлекаем вектор рассуждения: v_{reason} = theta_{GRPO} - theta_{SFT}. Мы предполагаем, что этот вектор фиксирует способность к рассуждению, привнесенную обучением с подкреплением, исключая общие знания, полученные в процессе SFT. При добавлении этого вектора к совместимым моделям, настроенным на выполнение инструкций, с помощью простых арифметических операций, он последовательно улучшает производительность на различных тестах логического рассуждения: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%) и BigBenchHard (+12.3% для модели на 1.5 млрд параметров). Улучшения производительности сохраняются в условиях адверсарных атак. Напротив, вычитание вектора приводит к значительному ухудшению производительности (-11.8% на GSM8K), что демонстрирует его важный вклад в способность модели к рассуждению. Эта работа показывает, как способности к рассуждению, обычно развиваемые с помощью дорогостоящего обучения, могут быть извлечены из существующих моделей с открытым исходным кодом и повторно использованы с помощью простых операций с тензорами, предлагая практический способ улучшения моделей за счет повторного использования предыдущих вычислительных затрат.

ELV-Halluc: Оценка семантических агрегационных галлюцинаций в понимании длинных видео
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

Aug 29

ByHao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu

Мультимодальные языковые модели для видео (Video-MLLMs) достигли значительного прогресса в понимании видеоконтента. Однако они остаются уязвимыми к генерации галлюцинаций — контента, не согласующегося с видеовходом или не связанного с ним. Предыдущие бенчмарки для оценки галлюцинаций в видео в основном сосредоточены на коротких роликах. Они связывают галлюцинации с такими факторами, как сильные языковые априори, пропущенные кадры или смещения между визуальным и языковым представлениями, вносимые визуальным кодировщиком. Хотя эти причины действительно объясняют большинство галлюцинаций в коротких видео, они упрощают их природу. Иногда модели генерируют некорректные выходные данные, но с правильной семантикой на уровне кадров. Мы называем этот тип галлюцинаций Семантической Агрегационной Галлюцинацией (Semantic Aggregation Hallucination, SAH), которая возникает в процессе агрегации семантики на уровне кадров в семантические группы на уровне событий. Учитывая, что SAH становится особенно критичной в длинных видео из-за увеличения семантической сложности в рамках множества событий, важно отделить и тщательно изучить причины этого типа галлюцинаций. Для решения указанных проблем мы представляем ELV-Halluc — первый бенчмарк, посвящённый галлюцинациям в длинных видео, который позволяет систематически исследовать SAH. Наши эксперименты подтверждают существование SAH и показывают, что её частота возрастает с увеличением семантической сложности. Кроме того, мы обнаруживаем, что модели более склонны к SAH при быстром изменении семантики. Мы также обсуждаем потенциальные подходы для смягчения SAH. Мы демонстрируем, что стратегия позиционного кодирования способствует уменьшению SAH, и дополнительно применяем стратегию DPO для улучшения способности модели различать семантику внутри и между событиями. Для поддержки этого мы создали набор данных из 8K адверсариальных пар и достигли улучшений как на ELV-Halluc, так и на Video-MME, включая значительное снижение доли SAH на 27,7%.

POINTS-Reader: Адаптация моделей "визуальное восприятие-язык" для преобразования документов без использования дистилляции
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

Sep 1

ByYuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou

Высококачественные размеченные данные крайне важны для обучения точных моделей преобразования документов, особенно в областях со сложными форматами, такими как таблицы, формулы и многоколоночный текст. Однако ручная разметка является дорогостоящей и трудоемкой, в то время как автоматическая разметка с использованием существующих моделей часто не обеспечивает достаточной точности в таких сложных сценариях. В результате обучение студенческих моделей путем дистилляции выходных данных учительских моделей может существенно ограничить их производительность в реальных приложениях. В данной статье мы предлагаем полностью автоматизированный подход, не требующий дистилляции, состоящий из двух этапов для создания высококачественных наборов данных и моделей извлечения документов, способных обрабатывать разнообразные форматы и макеты документов. На первом этапе мы представляем метод генерации крупномасштабных синтетических данных, который позволяет модели извлекать ключевые элементы в унифицированном формате с высокой начальной производительностью. На втором этапе мы предлагаем подход к самоулучшению, который дополнительно адаптирует модель, изначально обученную на синтетических данных, к реальным документам. В частности, мы сначала используем тонко настроенную модель для разметки реальных документов, затем применяем набор стратегий фильтрации для проверки качества разметки и, наконец, переобучаем модель на проверенном наборе данных. Итеративно повторяя этот процесс, мы постепенно улучшаем как способности модели к преобразованию, так и качество генерируемых данных. Мы обучаем публичную модель POINTS-1.5 для получения POINTS-Reader, которая превосходит многие существующие публичные и проприетарные модели сопоставимого или большего размера. Наша модель доступна по адресу https://github.com/Tencent/POINTS-Reader.

Ассоциативная память с управляемыми воротами: параллельная архитектура O(N) для эффективного моделирования последовательностей
Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling

Aug 30

ByRishiraj Acharya

Архитектура Transformer, основанная на механизме самовнимания, стала де-факто стандартом для задач моделирования последовательностей. Однако её основная вычислительная операция масштабируется квадратично относительно длины последовательности (O(N^2)), что создаёт значительное узкое место при обработке длинных контекстов. В данной статье мы предлагаем сеть Gated Associative Memory (GAM) — новую, полностью параллельную архитектуру для моделирования последовательностей, которая демонстрирует линейную сложность (O(N)) относительно длины последовательности. Блок GAM заменяет слой самовнимания двумя параллельными путями: причинной сверткой для эффективного захвата локального, зависящего от позиции контекста и параллельным механизмом извлечения ассоциативной памяти для моделирования глобальных, основанных на содержании паттернов. Эти пути динамически объединяются с использованием механизма гейтирования, что позволяет модели гибко комбинировать локальную и глобальную информацию для каждого токена. Мы реализуем GAM с нуля и проводим строгий сравнительный анализ с базовой моделью Transformer и современным линейным базовым методом (Mamba) на бенчмарке WikiText-2, а также с Transformer на наборе данных TinyStories. Наши эксперименты показывают, что GAM стабильно быстрее, превосходя оба базовых метода по скорости обучения, и достигает превосходного или конкурентоспособного итогового значения perplexity на всех наборах данных, что делает её перспективной и эффективной альтернативой для моделирования последовательностей.

Baichuan-M2: Масштабирование медицинских возможностей с использованием крупной системы верификации
Baichuan-M2: Scaling Medical Capability with Large Verifier System

Sep 2

ByBaichuan-M2 Team, Chengfeng Dou, Chong Liu, Fan Yang, Fei Li, Jiyuan Jia, Mingyang Chen, Qiang Ju, Shuai Wang, Shunya Dang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Chenzheng Zhu, Da Pan, Fei Deng, Guangwei Ai, Guosheng Dong, Hongda Zhang, Jinyang Tai, Jixiang Hong, Kai Lu, Linzhuang Sun, Peidong Guo, Qian Ma, Rihui Xin, Shihui Yang, Shusen Zhang, Yichuan Mo, Zheng Liang, Zhishou Zhang, Hengfu Cui, Zuyi Zhu, Xiaochuan Wang

По мере того как крупные языковые модели (LLM) совершенствуют свои способности к ведению диалога и логическому рассуждению, их практическое применение в здравоохранении становится важным направлением исследований. Однако существует заметный разрыв между производительностью медицинских LLM на статических тестах, таких как USMLE, и их полезностью в реальной клинической практике. Это несоответствие возникает из-за того, что традиционные экзамены не учитывают динамический и интерактивный характер медицинских консультаций. Для решения этой проблемы мы представляем новую динамическую систему верификации, которая выходит за рамки статической проверки ответов, создавая масштабную высокоточную интерактивную систему обучения с подкреплением. Наша система включает два ключевых компонента: симулятор пациента, который создает реалистичные клинические сценарии на основе обезличенных медицинских записей, и генератор клинических критериев, который динамически формирует многомерные метрики оценки. На основе этой системы мы разработали Baichuan-M2 — медицинскую модель расширенного рассуждения с 32 миллиардами параметров, обученную с использованием многоэтапной стратегии обучения с подкреплением и улучшенного алгоритма Group Relative Policy Optimization (GRPO). Оцененная на тестовом наборе HealthBench, модель Baichuan-M2 превосходит все другие открытые модели и большинство передовых закрытых аналогов, достигая результата выше 32 на сложном тесте HealthBench Hard — ранее этот показатель был превышен только GPT-5. Наша работа демонстрирует, что надежная динамическая система верификации необходима для согласования возможностей LLM с практическими клиническими задачами, устанавливая новый парето-фронт в компромиссе между производительностью и количеством параметров для внедрения медицинского ИИ.

Технический отчет Kwai Keye-VL 1.5
Kwai Keye-VL 1.5 Technical Report

Sep 1

ByBiao Yang, Bin Wen, Boyang Ding, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Guowang Zhang, Han Shen, Hao Peng, Haojie Ding, Hao Wang, Hengrui Ju, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Muhao Wei, Qiang Wang, Ruitao Wang, Sen Na, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zeyi Lu, Zhenhua Wu, Zhixin Ling, Zhuoran Yang, Ziming Li, Di Xu, Haixuan Gao, Hang Li, Jing Wang, Lejian Ren, Qigen Hu, Qianqian Wang, Shiyao Wang, Xinchen Luo, Yan Li, Yuhang Hu, Zixing Zhang

В последние годы развитие крупных языковых моделей (LLM) значительно продвинулось, расширив их возможности до мультимодальных задач с помощью мультимодальных крупных языковых моделей (MLLM). Однако понимание видео остается сложной областью из-за динамичного и насыщенного информацией характера видеоконтента. Существующие модели сталкиваются с компромиссом между пространственным разрешением и временным охватом при обработке видео. Мы представляем Keye-VL-1.5, который решает фундаментальные задачи в понимании видео благодаря трем ключевым инновациям. Во-первых, мы внедряем новую стратегию кодирования видео Slow-Fast, которая динамически распределяет вычислительные ресурсы на основе межкадрового сходства, обрабатывая ключевые кадры с существенными визуальными изменениями с более высоким разрешением (Slow pathway), а относительно статичные кадры — с увеличенным временным охватом и меньшим разрешением (Fast pathway). Во-вторых, мы реализуем прогрессивную четырехэтапную методику предварительного обучения, которая систематически расширяет контекстную длину модели с 8K до 128K токенов, позволяя обрабатывать более длинные видео и сложный визуальный контент. В-третьих, мы разрабатываем комплексный процесс пост-обучения, сосредоточенный на улучшении рассуждений и согласовании с человеческими предпочтениями, включая 5-шаговый процесс построения цепочки рассуждений, итеративное обучение с подкреплением на основе GSPO с прогрессивными подсказками для сложных случаев и обучение согласованию. Благодаря обширной оценке на публичных бенчмарках и строгому внутреннему человеческому тестированию, Keye-VL-1.5 демонстрирует значительные улучшения по сравнению с существующими моделями, особенно выделяясь в задачах понимания видео, сохраняя при этом конкурентоспособные результаты на общих мультимодальных бенчмарках.

OpenVision 2: Семейство генеративных предобученных визуальных кодировщиков для мультимодального обучения
OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

Sep 1

ByYanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou, Cihang Xie

В данной статье представлено упрощение архитектуры OpenVision и дизайна функции потерь для повышения эффективности обучения. Вслед за предыдущими работами по предварительному обучению на основе зрения и языка, такими как CapPa и AIMv2, а также современными мультимодальными подходами, такими как LLaVA, наши изменения просты: мы удаляем текстовый кодировщик (и, следовательно, контрастивную функцию потерь), оставляя только функцию потерь для генерации подписей в качестве чисто генеративного сигнала обучения. Мы называем эту новую версию OpenVision 2. Первоначальные результаты обнадеживают: несмотря на это упрощение, OpenVision 2 конкурентоспособно соответствует производительности оригинальной модели на широком наборе мультимодальных тестов, при этом значительно сокращая время обучения и потребление памяти. Например, с использованием ViT-L/14 время обучения сокращается примерно в 1,5 раза (с 83 часов до 57 часов), а использование памяти — примерно в 1,8 раза (с 24,5 ГБ до 13,8 ГБ, что эквивалентно увеличению максимального размера пакета с 2 тыс. до 8 тыс.). Эта превосходная эффективность обучения также позволяет нам масштабироваться далеко за пределы самого большого визуального кодировщика, использованного в OpenVision, достигая более 1 миллиарда параметров. Мы твердо убеждены, что этот легковесный, исключительно генеративный подход является перспективным для будущего развития визуальных кодировщиков в мультимодальных базовых моделях.

Неявная связь актора и критика через структуру обучения с учителем для RLVR
Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

Sep 2

ByJiaming Li, Longze Chen, Ze Gong, Yukun Chen, Lu Wang, Wanwei He, Run Luo, Min Yang

Последние достижения в области обучения с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) позволили крупным языковым моделям (LLM) решать сложные задачи, связанные с рассуждениями, такие как математика и программирование. RLVR использует верифицируемые награды для оптимизации политики, что позволяет LLM постепенно улучшать качество вывода в обоснованной и надежной манере. Несмотря на свои перспективы, парадигма RLVR ставит значительные вызовы, поскольку существующие методы часто страдают от редких сигналов наград и нестабильных обновлений градиента политики, особенно в подходах, основанных на обучении с подкреплением. Для решения этих проблем мы предлагаем PACS, новый фреймворк RLVR, который достигает имплицитной связи актора и критика через структуру обучения с учителем. Рассматривая награду как предсказуемую метку, мы переформулируем задачу RLVR в задачу обучения с учителем над функцией оценки, параметризованной моделью политики и оптимизированной с использованием кросс-энтропийной потери. Детальный анализ градиентов показывает, что эта формулировка с учителем естественным образом восстанавливает классическое обновление градиента политики, одновременно имплицитно связывая роли актора и критика, что приводит к более стабильному и эффективному обучению. Тестирование на сложных задачах математического рассуждения демонстрирует, что PACS превосходит сильные базовые методы RLVR, такие как PPO и GRPO, достигая превосходных результатов в рассуждениях. Например, PACS достигает 59,78% на pass@256 в AIME 2025, что на 13,32 и 14,36 пункта выше, чем у PPO и GRPO. Этот простой, но мощный фреймворк предлагает перспективный путь для пост-обучения LLM с верифицируемыми наградами. Наш код и данные доступны в открытом доступе по адресу https://github.com/ritzz-ai/PACS.

Совместное усиление разнообразия и качества в генерациях языковых моделей
Jointly Reinforcing Diversity and Quality in Language Model Generations

Sep 2

ByTianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang

Посттренировка крупных языковых моделей (LM) часто фокусируется на точности и полезности в ущерб разнообразию. Это создает противоречие: хотя посттренировка улучшает качество ответов, она также сужает распределение выходных данных и сокращает диапазон идей, ограничивая полезность LM в творческих и исследовательских задачах, таких как мозговой штурм, создание историй или решение проблем. Мы решаем эту проблему с помощью фреймворка Diversity-Aware Reinforcement Learning (DARLING), который совместно оптимизирует качество ответов и семантическое разнообразие. В основе DARLING лежит введение обученной функции разделения для измерения разнообразия, выходящего за рамки поверхностных лексических вариаций. Этот сигнал разнообразия затем комбинируется с наградой за качество в процессе онлайн-обучения с подкреплением, побуждая модели генерировать выходные данные, которые одновременно являются высококачественными и уникальными. Эксперименты на множестве семейств моделей и их размеров показывают, что DARLING обобщается на два режима: задачи, не поддающиеся проверке (следование инструкциям и творческое письмо), и задачи, поддающиеся проверке (соревновательная математика). На пяти тестах в первом сценарии DARLING стабильно превосходит базовые методы обучения с подкреплением, ориентированные только на качество, создавая выходные данные, которые одновременно обладают более высоким качеством и новизной. Во втором сценарии DARLING достигает более высоких показателей pass@1 (качество решения) и pass@k (разнообразие решений). Наиболее примечательно, что явная оптимизация на разнообразие стимулирует исследование в онлайн-обучении с подкреплением, что проявляется в более качественных ответах.

GenCompositor: Генеративный видеомонтаж с использованием диффузионного трансформера
GenCompositor: Generative Video Compositing with Diffusion Transformer

Sep 2

ByShuzhou Yang, Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang

Видеомонтаж объединяет съемочные материалы для создания видеопродукции, являясь ключевой техникой в производстве видео и кино. Традиционные подходы требуют значительных трудовых затрат и сотрудничества экспертов, что приводит к длительным производственным циклам и высоким затратам на рабочую силу. Для решения этой проблемы мы автоматизируем этот процесс с помощью генеративных моделей, называя это генеративным видеомонтажом. Эта новая задача стремится адаптивно внедрять информацию о идентичности и движении переднего плана видео в целевое видео в интерактивном режиме, позволяя пользователям настраивать размер, траекторию движения и другие атрибуты динамических элементов, добавляемых в итоговое видео. В частности, мы разработали новый конвейер на основе Diffusion Transformer (DiT), учитывая его внутренние свойства. Для сохранения согласованности целевого видео до и после редактирования мы модифицировали легковесную ветвь сохранения фона на основе DiT с использованием инъекции маскированных токенов. Для наследования динамических элементов из других источников предложен блок слияния DiT, использующий полное самовнимание, а также простая, но эффективная аугментация переднего плана для обучения. Кроме того, для слияния фонового и переднего плана видео с различными композициями на основе пользовательского управления мы разработали новое позиционное вложение, названное Extended Rotary Position Embedding (ERoPE). Наконец, мы собрали набор данных, включающий 61K наборов видео для нашей новой задачи, названный VideoComp. Эти данные содержат полные динамические элементы и высококачественные целевые видео. Эксперименты показывают, что наш метод эффективно реализует генеративный видеомонтаж, превосходя существующие возможные решения по точности и согласованности.

Сравнение оптимизаторов для предварительного обучения больших языковых моделей
Benchmarking Optimizers for Large Language Model Pretraining

Sep 1

ByAndrei Semenov, Matteo Pagliardini, Martin Jaggi

Недавнее развитие крупных языковых моделей (LLM) сопровождалось всплеском новых идей и методов для более эффективной оптимизации потерь в моделях глубокого обучения. Утверждения, связанные с этими методами, многочисленны: от ускоренной сходимости до устранения зависимости от определённых гиперпараметров. Однако разнообразие экспериментальных протоколов, используемых для проверки этих утверждений, затрудняет прямое сравнение методов. В данном исследовании представлена всесторонняя оценка современных техник оптимизации в стандартизированных сценариях предварительного обучения LLM, с систематическим варьированием размера модели, размера пакета и продолжительности обучения. Благодаря тщательной настройке каждого метода, мы предоставляем практикам рекомендации о том, какой оптимизатор лучше всего подходит для каждого сценария. Для исследователей наша работа выделяет перспективные направления для будущих исследований в области оптимизации. Наконец, публикуя наш код и обеспечивая полную воспроизводимость всех экспериментов, мы надеемся, что наши усилия помогут в разработке и строгом тестировании будущих методов.

DCPO: Динамическая оптимизация политики с ограничением
DCPO: Dynamic Clipping Policy Optimization

Sep 2

ByShihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin

Обучение с подкреплением на основе проверяемых наград (RLVR) стало перспективной основой для улучшения способностей к рассуждению у крупных языковых моделей. Однако существующие подходы, такие как GRPO, часто сталкиваются с проблемой нулевых градиентов. Эта проблема возникает в основном из-за фиксированных границ обрезки для вероятностных соотношений на уровне токенов и стандартизации одинаковых наград, что может приводить к неэффективным обновлениям градиентов и недостаточному использованию сгенерированных ответов. В данной работе мы предлагаем метод динамической оптимизации политики с обрезкой (DCPO), который вводит стратегию динамической обрезки, адаптивно регулирующую границы обрезки на основе априорных вероятностей для конкретных токенов, чтобы улучшить исследование на уровне токенов, а также технику сглаженной стандартизации преимуществ, которая стандартизирует награды на протяжении кумулятивных шагов обучения для повышения эффективного использования сгенерированных ответов на уровне ответов. DCPO достиг наилучших результатов на четырех бенчмарках с использованием четырех различных моделей. В частности, DCPO показал Avg@1 46.7 при жадном декодировании и Avg@32 38.8 при 32-кратной выборке на бенчмарке AIME24, превзойдя как DAPO (36.7/31.6), так и GRPO (36.7/32.1) на модели Qwen2.5-Math-7B. На бенчмарке AIME25 с использованием Qwen2.5-14B DCPO достиг результатов (23.3/19.0), превзойдя GRPO (13.3/10.5) и DAPO (20.0/15.3). Кроме того, DCPO показал в среднем 28% улучшение ненулевого преимущества по сравнению с GRPO на четырех моделях, удвоил эффективность обучения по сравнению с DAPO и значительно сократил коэффициент обрезки токенов на порядок по сравнению с GRPO и DAPO, при этом демонстрируя превосходные результаты. Эти результаты подчеркивают эффективность DCPO в более эффективном использовании сгенерированных данных для обучения с подкреплением в крупных языковых моделях.

FlashAdventure: Бенчмарк для агентов с графическим интерфейсом, решающих полные сюжетные арки в разнообразных приключенческих играх
FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

Sep 1

ByJaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim

Агенты с графическим интерфейсом (GUI), основанные на больших языковых моделях (LLM), демонстрируют потенциал во взаимодействии с разнообразными цифровыми средами. Среди них видеоигры представляют собой ценный полигон для тестирования благодаря их разнообразным интерфейсам, а приключенческие игры добавляют дополнительные сложности через сложные, сюжетно-ориентированные взаимодействия. Однако существующие игровые бенчмарки страдают от недостатка разнообразия и редко оценивают агентов на прохождение полных сюжетных линий. Чтобы решить эту проблему, мы представляем FlashAdventure — бенчмарк из 34 приключенческих игр на основе Flash, предназначенный для тестирования завершения полных сюжетных арок и преодоления разрыва между наблюдением и поведением: задачи запоминания и использования информации, полученной на ранних этапах игры. Мы также предлагаем CUA-as-a-Judge — автоматизированный инструмент оценки игрового процесса, и COAST — агентскую структуру, использующую долгосрочную память о подсказках для более эффективного планирования и решения последовательных задач. Эксперименты показывают, что современные GUI-агенты испытывают трудности с полными сюжетными арками, в то время как COAST улучшает выполнение ключевых этапов, устраняя разрыв между наблюдением и поведением. Тем не менее, значительное расхождение между людьми и лучшими агентами подчеркивает необходимость продолжения исследований для сокращения этого разрыва.

DynaGuard: Динамическая модель защитных барьеров с пользовательскими политиками
DynaGuard: A Dynamic Guardrail Model With User-Defined Policies

Sep 2

ByMonte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein

Модели-хранители используются для контроля и модерации ответов пользовательских чат-ботов, обеспечивая соблюдение ограничений и выявление нежелательного поведения. Стандартные модели-хранители, такие как LlamaGuard, обнаруживают заранее заданные, статические категории вредоносного контента. Мы предлагаем динамические модели-хранители, которые оценивают текст на основе пользовательских политик, что делает их полезными для различных прикладных областей, не охватываемых стандартными моделями-хранителями. Наши динамические модели могут использоваться для быстрого выявления нарушений политик или с применением цепочки рассуждений, которая формулирует и обосновывает выводы модели. Динамические модели-хранители демонстрируют точность обнаружения статических категорий вредоносного контента, сопоставимую со статическими моделями, при этом выявляют нарушения свободных политик с точностью, сравнимой с передовыми моделями рассуждений, за значительно меньшее время.

О теоретических ограничениях поиска на основе векторных представлений
On the Theoretical Limitations of Embedding-Based Retrieval

Aug 28

ByOrion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee

Векторные эмбеддинги в последние годы все чаще используются для решения задач поиска, а также начинают применяться для рассуждений, выполнения инструкций, написания кода и многого другого. Эти новые задачи требуют, чтобы эмбеддинги могли работать с любыми запросами и любыми представлениями о релевантности. Хотя предыдущие работы указывали на теоретические ограничения векторных эмбеддингов, существует распространенное предположение, что эти трудности связаны исключительно с нереалистичными запросами, а те, которые таковыми не являются, можно преодолеть с помощью более качественных данных для обучения и более крупных моделей. В данной работе мы показываем, что эти теоретические ограничения могут проявляться в реалистичных сценариях даже при использовании крайне простых запросов. Мы связываем известные результаты теории обучения, демонстрируя, что количество топ-k подмножеств документов, которые могут быть возвращены в результате некоторого запроса, ограничено размерностью эмбеддинга. Мы эмпирически показываем, что это справедливо даже при ограничении k=2 и прямой оптимизации на тестовом наборе данных с использованием свободно параметризованных эмбеддингов. Затем мы создаем реалистичный набор данных под названием LIMIT, который тестирует модели на основе этих теоретических результатов, и наблюдаем, что даже современные модели терпят неудачу на этом наборе данных, несмотря на простоту задачи. Наша работа демонстрирует ограничения моделей эмбеддингов в рамках существующей парадигмы единого вектора и призывает к дальнейшим исследованиям для разработки методов, способных устранить это фундаментальное ограничение.

Атрибуты как текстовые гены: использование языковых моделей в качестве симуляторов генетических алгоритмов для условной генерации синтетических данных
Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation

Sep 2

ByGuangzeng Han, Weisi Liu, Xiaolei Huang

Крупные языковые модели (LLM) преуспевают в генерации синтетических данных, но обеспечение их качества и разнообразия остается сложной задачей. Мы предлагаем Genetic Prompt — новый фреймворк, который сочетает генетические алгоритмы с LLM для улучшения генерации синтетических данных. Наш подход рассматривает семантические атрибуты текста как последовательности генов и использует LLM для моделирования операций кроссовера и мутации. Этот генетический процесс повышает качество и разнообразие данных, создавая новые комбинации атрибутов, что приводит к синтетическим распределениям, более близким к реальным данным. Для оптимизации выбора родительских образцов мы также интегрируем схему активного обучения, которая расширяет пространство поиска потомков. Наши эксперименты на множестве задач NLP выявили несколько ключевых результатов: Genetic Prompt не только значительно превосходит современные базовые методы, но и демонстрирует устойчивую производительность для различных размеров и масштабов моделей-генераторов. Более того, мы показываем, что объединение наших синтетических данных с исходным обучающим набором значительно повышает производительность моделей на последующих этапах, особенно в сценариях с несбалансированными классами. Наши результаты подтверждают, что Genetic Prompt является эффективным методом для создания высококачественных синтетических данных для широкого спектра приложений NLP.

Универсальные глубокие исследования: Используйте свою модель и стратегию
Universal Deep Research: Bring Your Own Model and Strategy

Aug 29

ByPeter Belcak, Pavlo Molchanov

Глубокие исследовательские инструменты являются одними из самых влиятельных и часто встречающихся агентных систем на сегодняшний день. Однако мы отмечаем, что каждый из существующих глубоких исследовательских агентов жестко запрограммирован на выполнение определенной исследовательской стратегии с использованием фиксированного набора инструментов. Мы представляем Universal Deep Research (UDR) — универсальную агентную систему, которая работает с любой языковой моделью и позволяет пользователю создавать, редактировать и совершенствовать свои собственные полностью настраиваемые стратегии глубокого исследования без необходимости дополнительного обучения или тонкой настройки. Чтобы продемонстрировать универсальность нашей системы, мы оснащаем UDR примерами минимальных, расширенных и интенсивных исследовательских стратегий и предоставляем пользовательский интерфейс для облегчения экспериментов с системой.

Фантастические оптимизаторы для предварительного обучения и где их найти
Fantastic Pretraining Optimizers and Where to Find Them

Sep 2

ByKaiyue Wen, David Hall, Tengyu Ma, Percy Liang

AdamW долгое время оставался доминирующим оптимизатором при предварительном обучении языковых моделей, несмотря на многочисленные заявления о том, что альтернативные оптимизаторы обеспечивают ускорение в 1,4–2 раза. Мы предполагаем, что два методологических недостатка затрудняли объективные сравнения и препятствовали практическому внедрению: (i) неравномерная настройка гиперпараметров и (ii) ограниченные или вводящие в заблуждение условия оценки. Чтобы устранить эти проблемы, мы провели систематическое исследование десяти оптимизаторов глубокого обучения на четырех масштабах моделей (0,1–1,2 млрд параметров) и соотношениях данных к модели (1–8x от оптимума Chinchilla). Мы обнаружили, что для объективных и информативных сравнений требуется тщательная настройка гиперпараметров и оценка на различных масштабах моделей и соотношениях данных к модели, проводимая по завершении обучения. Во-первых, оптимальные гиперпараметры для одного оптимизатора могут быть неоптимальными для другого, что делает слепой перенос гиперпараметров несправедливым. Во-вторых, фактическое ускорение многих предлагаемых оптимизаторов по сравнению с хорошо настроенными базовыми вариантами оказывается ниже заявленного и уменьшается с увеличением размера модели, достигая лишь 1,1x для моделей с 1,2 млрд параметров. В-третьих, сравнение промежуточных контрольных точек до достижения целевого бюджета обучения может вводить в заблуждение, так как ранги двух оптимизаторов могут меняться в процессе обучения из-за затухания скорости обучения. В ходе нашего тщательного исследования мы обнаружили, что все самые быстрые оптимизаторы, такие как Muon и Soap, используют матрицы в качестве предобуславливателей — умножая градиенты на матрицы, а не поэлементно на скаляры. Однако ускорение матричных оптимизаторов обратно пропорционально масштабу модели, уменьшаясь с 1,4x по сравнению с AdamW для моделей с 0,1 млрд параметров до всего лишь 1,1x для моделей с 1,2 млрд параметров.

M3Ret: Реализация нулевого сценария для мультимодального поиска медицинских изображений через самообучение
M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

Sep 1

ByChe Liu, Zheng Jiang, Chengyu Fang, Heng Guo, Yan-Jie Zhou, Jiaqi Qu, Le Lu, Minfeng Xu

Поиск медицинских изображений играет ключевую роль в принятии клинических решений и трансляционных исследованиях, опираясь на дискриминативные визуальные представления. Однако современные методы остаются фрагментированными, используя отдельные архитектуры и стратегии обучения для 2D, 3D и видеоданных медицинской визуализации. Такой подход, ориентированный на конкретные модальности, ограничивает масштабируемость и препятствует разработке унифицированных представлений. Для обеспечения унифицированного обучения мы создали крупномасштабный набор данных смешанных модальностей, включающий 867 653 медицинских изображений, среди которых 2D рентгеновские снимки и ультразвуковые исследования, RGB-видео эндоскопии и 3D КТ-сканы. Используя этот набор данных, мы обучили M3Ret — унифицированный визуальный кодировщик без какой-либо специализации под конкретные модальности. Он успешно обучается переносимым представлениям с использованием как генеративных (MAE), так и контрастных (SimDINO) парадигм самообучения (SSL). Наш подход устанавливает новый эталон в задаче поиска изображений без дообучения (zero-shot) для всех отдельных модальностей, превосходя сильные базовые модели, такие как DINOv3 и текстово-обученный BMC-CLIP. Более того, достигается сильное кросс-модальное согласование без использования парных данных, а модель обобщается на задачи, связанные с МРТ, несмотря на то, что она никогда не видела МРТ во время предварительного обучения, что демонстрирует обобщаемость чисто визуального самообучения на неизвестные модальности. Комплексный анализ дополнительно подтверждает масштабируемость нашего подхода в зависимости от размеров модели и данных. Эти результаты представляют собой многообещающий сигнал для сообщества медицинской визуализации, позиционируя M3Ret как шаг к созданию фундаментальных моделей для визуального SSL в понимании многомодальных медицинских изображений.

Золотые медали в пустой комнате: диагностика металингвистического мышления в языковых моделях с помощью Camlang
The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang

Aug 30

ByFenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong

Крупные языковые модели (LLM) демонстрируют выдающиеся результаты на множестве бенчмарков, однако остается неясным, отражает ли такой успех подлинное мышление или простое сопоставление паттернов. С точки зрения когнитивной науки, информативным тестом является способность моделей освоить незнакомый язык через явное металингвистическое дедуктивное обучение — парадигму, в рамках которой человеческие обучающиеся могут надежно усваивать грамматические системы с помощью металингвистического рассуждения. Мы исследуем этот вопрос с помощью Camlang, нового искусственного языка, который сочетает в себе естественные, но ранее не встречавшиеся особенности. Camlang включает два явных ресурса: грамматический справочник и двуязычный словарь, которые имитируют изучение второго языка взрослыми через явные грамматические правила и поиск лексики, что позволяет нам разделить ошибки в морфосинтаксисе, лексической семантике и рассуждениях на уровне предложения. Эксперименты с участием людей показывают, что этих ресурсов достаточно для освоения Camlang и успешного выполнения задач на этом языке. Для операционализации оценки мы адаптировали CommonsenseQA в Camlang, создав Camlang-CSQA-v0 — первую задачу в более широком наборе, где решение вопросов требует применения грамматических правил и лексических соответствий. Результаты экспериментов показывают, что GPT-5 достигает 98% точности (EM) на английском языке, но только 47% на Camlang, что значительно ниже человеческого результата в 87%, в то время как другие передовые LLM для рассуждений показывают еще худшие результаты. Дополнительная проверка людьми выявляет, что большинство успехов моделей обусловлено поверхностным лексическим выравниванием, тогда как GPT-5 демонстрирует ограниченные признаки металингвистической осведомленности, но не систематического грамматического мастерства, как у людей. Camlang устанавливает когнитивно обоснованную парадигму оценки, которая выявляет фундаментальные разрывы между текущими моделями и металингвистической компетенцией человека.

SQL-of-Thought: Мультиагентный Text-to-SQL с управляемой коррекцией ошибок
SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

Aug 30

BySaumya Chaturvedi, Aman Chadha, Laurent Bindschaedler

Преобразование запросов на естественном языке в SQL-запросы представляет собой важную задачу как в промышленности, так и в академических исследованиях, направленную на упрощение доступа к базам данных и крупномасштабным приложениям. В данной работе исследуется, как обучение в контексте и цепочка рассуждений могут быть использованы для создания надежного решения для систем преобразования текста в SQL. Мы предлагаем SQL-of-Thought: многоагентный фреймворк, который разбивает задачу Text2SQL на этапы связывания схемы, идентификации подзадач, генерации плана запроса, создания SQL-запроса и цикла управляемой коррекции. В отличие от предыдущих систем, которые полагаются исключительно на статическую коррекцию на основе выполнения, мы вводим динамическое исправление ошибок, управляемое таксономией и основанное на обучении в контексте. SQL-of-Thought достигает передовых результатов на наборе данных Spider и его вариантах, сочетая управляемую таксономию ошибок с планированием запросов на основе рассуждений.

ViSTA-SLAM: Визуальный SLAM с симметричной двухракурсной ассоциацией
ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

Sep 1

ByGanlin Zhang, Shenhan Qian, Xi Wang, Daniel Cremers

Мы представляем ViSTA-SLAM как систему монокулярного визуального SLAM, работающую в реальном времени, которая функционирует без необходимости знания внутренних параметров камеры, что делает её применимой в разнообразных конфигурациях камер. В основе системы используется легковесная симметричная модель ассоциации двух видов (STA) в качестве фронтенда, которая одновременно оценивает относительные положения камеры и восстанавливает локальные карты точек всего по двум RGB-изображениям. Такой подход значительно снижает сложность модели — размер нашего фронтенда составляет всего 35% от размера современных методов, при этом повышая качество двухвидовых ограничений, используемых в конвейере. В бэкенде мы строим специально разработанный граф поз Sim(3), который включает замыкания петель для устранения накопленного дрейфа. Многочисленные эксперименты демонстрируют, что наш подход превосходит современные методы как по точности отслеживания камеры, так и по качеству плотной 3D-реконструкции. Репозиторий на Github: https://github.com/zhangganlin/vista-slam.

Дискретная инверсия шума для масштабируемого авторегрессивного редактирования изображений на основе текста
Discrete Noise Inversion for Next-scale Autoregressive Text-based Image Editing

Sep 2

ByQuan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas

Визуальные авторегрессионные модели (VAR) недавно появились как перспективный класс генеративных моделей, достигая производительности, сопоставимой с диффузионными моделями в задачах генерации изображений по тексту. Хотя условная генерация была широко изучена, способность выполнять редактирование изображений на основе текстовых подсказок без дополнительного обучения не менее важна, так как она поддерживает множество практических приложений в реальном мире. В данной статье исследуются возможности редактирования изображений по тексту с использованием VAR путем введения Visual AutoRegressive Inverse Noise (VARIN) — первой техники редактирования на основе инверсии шума, разработанной специально для моделей VAR. VARIN использует новую псевдообратную функцию для выборки argmax, названную Location-aware Argmax Inversion (LAI), для генерации обратных шумов Гумбеля. Эти обратные шумы позволяют точно восстанавливать исходное изображение и обеспечивать целенаправленные, контролируемые правки, соответствующие текстовым подсказкам. Многочисленные эксперименты демонстрируют, что VARIN эффективно изменяет исходные изображения в соответствии с заданными подсказками, при этом значительно сохраняя оригинальный фон и структурные детали, что подтверждает его эффективность как практического подхода к редактированию.

MobiAgent: Систематическая платформа для настраиваемых мобильных агентов
MobiAgent: A Systematic Framework for Customizable Mobile Agents

Aug 30

ByCheng Zhang, Erhu Feng, Xi Zhao, Yisheng Zhao, Wangbo Gong, Jiahui Sun, Dong Du, Zhichao Hua, Yubin Xia, Haibo Chen

С быстрым развитием моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), агенты на основе графического интерфейса (GUI) стали ключевым направлением развития интеллектуальных мобильных систем. Однако существующие модели агентов продолжают сталкиваться с серьезными проблемами при выполнении задач в реальных условиях, особенно в плане точности и эффективности. Для преодоления этих ограничений мы предлагаем MobiAgent — комплексную систему мобильных агентов, состоящую из трех основных компонентов: моделей агентов серии MobiMind, фреймворка ускорения AgentRR и набора тестов MobiFlow. Кроме того, учитывая, что возможности современных мобильных агентов по-прежнему ограничены доступностью качественных данных, мы разработали автоматизированный конвейер сбора данных с использованием ИИ, который значительно снижает затраты на ручную аннотацию. По сравнению как с универсальными языковыми моделями (LLMs), так и со специализированными моделями GUI-агентов, MobiAgent демонстрирует наилучшую производительность в реальных мобильных сценариях.

Metis: Обучение крупных языковых моделей с использованием продвинутого низкобитового квантования
Metis: Training Large Language Models with Advanced Low-Bit Quantization

Aug 30

ByHengjie Cao, Mengyi Chen, Yifeng Yang, Ruijun Huang, Fang Dong, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Yuan Cheng, Fan Wu, Fan Yang, Tun Lu, Ning Gu, Li Shang

Данная работа выявляет анизотропные распределения параметров как фундаментальное препятствие для обучения крупных языковых моделей (LLM) с низкобитной квантизацией: несколько доминирующих сингулярных значений создают широкие числовые диапазоны, которые конфликтуют с присущим блочной квантизации смещением. Это смещение непропорционально сохраняет значения с высокой величиной, отбрасывая меньшие, что приводит к нестабильности обучения и низкой производительности модели. В работе представлен Metis — фреймворк для обучения, который объединяет (i) спектральное разложение со случайным вложением для эффективного разделения доминирующих и редких компонентов, сжимая широкие распределения в узкие диапазоны, подходящие для квантизации; (ii) адаптивные скорости обучения в спектральной области для усиления недостаточно представленных направлений и лучшего захвата разнообразных признаков, критически важных для производительности; и (iii) регуляризатор с двойным диапазоном, который совместно ограничивает числовую точность и распределение диапазона параметров, обеспечивая стабильное и несмещенное обучение с низкобитной квантизацией. С использованием Metis обучение с FP8 превосходит базовые показатели FP32, а обучение с FP4 достигает точности, сравнимой с FP32, прокладывая путь для устойчивого и масштабируемого обучения LLM при продвинутой низкобитной квантизации. Реализация кода для Metis доступна по адресу: https://github.com/typename-yyf/Metis-quantization.

Разновидности "самогона": компактные специализированные модели ASR для устройств на периферии
Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices

Sep 2

ByEvan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden

Мы представляем набор "Flavors of Moonshine" — серию компактных моделей автоматического распознавания речи (ASR), специализированных для ряда недостаточно представленных языков. Согласно общепринятому мнению, многоязычные модели ASR превосходят одноязычные за счет использования межъязыковых фонетических сходств. Мы оспариваем это предположение, демонстрируя, что для достаточно небольших моделей (27 миллионов параметров) обучение одноязычных систем на тщательно сбалансированной смеси высококачественных данных с человеческой разметкой, псевдоразметкой и синтетических данных приводит к существенно более высокой производительности. В среднем наши модели демонстрируют уровень ошибок на 48% ниже, чем модель Whisper Tiny сопоставимого размера, превосходят модель Whisper Small, которая в 9 раз больше, и в большинстве случаев соответствуют или превосходят модель Whisper Medium, которая в 28 раз больше. Эти результаты продвигают современное состояние для моделей такого размера, обеспечивая точное распознавание речи на устройствах для языков, которые ранее имели ограниченную поддержку. Мы выпускаем модели Moonshine для арабского, китайского, японского, корейского, украинского и вьетнамского языков под разрешительной открытой лицензией.

AMBEDKAR — Многоуровневое устранение смещений через подход декодирования с усилением знаний для устойчивого конституционного согласования языковых моделей
AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models

Sep 2

BySnehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das

Крупные языковые модели (LLM) могут непреднамеренно отражать социальные предубеждения, присутствующие в их обучающих данных, что приводит к вредным или предвзятым результатам. В индийском контексте наши эмпирические оценки ряда моделей показывают, что предубеждения, связанные с кастой и религией, особенно заметны. Однако большинство существующих стратегий смягчения этих предубеждений ориентированы на западный контекст и не учитывают местные особенности. Мы предлагаем AMBEDKAR — фреймворк, вдохновлённый эгалитарным видением доктора Б. Р. Амбедкара, архитектора Конституции Индии, который направляет выводы LLM в сторону справедливости, нейтральности и инклюзивности в соответствии со статьями 14–17. Наш подход включает слой декодирования, учитывающий Конституцию, который руководствуется Искусственной Конституцией Индии и применяется только на этапе вывода, без обновления параметров базовой модели. Мы используем алгоритм спекулятивного декодирования, который активно снижает кастовые и религиозные предубеждения в процессе генерации. Этот слой смягчения работает непосредственно в процессе декодирования, избегая изменений внутренней структуры модели и снижая вычислительные и инфраструктурные затраты, связанные с повторным обучением. Мы переосмысливаем спекулятивное декодирование не только как инструмент повышения эффективности, но и как механизм обеспечения справедливости. В этом фреймворке Малая языковая модель (SLM) выступает в роли потенциально предвзятого генератора, а конституционно направляемая Крупная языковая модель (LLM) служит верификатором. Вместо ускорения генерации LLM обеспечивает траектории, устойчивые к предубеждениям, в выводах SLM. Такая инверсия ролей порождает парадигму «справедливость через спекуляцию». Наш подход позволяет достичь абсолютного снижения предубеждений до 26,41% по сравнению с базовым уровнем. Наш исходный код, наборы данных и результаты доступны по адресу: https://anonymous.4open.science/r/AMBEDKAR-983B/

Ошибка или артефакт? Переосмысление чувствительности к промптам при оценке языковых моделей
Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

Sep 1

ByAndong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin

Чувствительность к формулировкам запросов, под которой понимается явление, когда перефразирование (т.е. повторение написанного или сказанного с использованием других слов) приводит к значительным изменениям в производительности крупных языковых моделей (LLM), широко признана как ключевое ограничение LLM. В данной работе мы возвращаемся к этому вопросу и задаемся следующим: действительно ли широко обсуждаемая высокая чувствительность к формулировкам запросов является врожденной слабостью LLM, или это в значительной степени артефакт процессов оценки? Чтобы ответить на этот вопрос, мы систематически оцениваем 7 LLM (например, семейства GPT и Gemini) на 6 тестовых наборах, включая как задачи с множественным выбором, так и открытые задания, используя 12 различных шаблонов запросов. Мы обнаруживаем, что значительная часть чувствительности к формулировкам связана с эвристическими методами оценки, такими как оценка на основе логарифмического правдоподобия и строгое сопоставление ответов, которые часто игнорируют семантически правильные ответы, выраженные через альтернативные формулировки, такие как синонимы или перефразирования. Когда мы применяем подход "LLM-как-судья" для оценки, мы наблюдаем значительное снижение вариативности производительности и более высокую согласованность в ранжировании моделей при использовании различных формулировок запросов. Наши результаты позволяют предположить, что современные LLM более устойчивы к шаблонам запросов, чем считалось ранее, и что чувствительность к формулировкам может быть скорее артефактом оценки, чем недостатком самих моделей.

FastFit: Ускорение виртуальной примерки с несколькими эталонами с помощью кэшируемых диффузионных моделей
FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models

Aug 28

ByZheng Chong, Yanwei Lei, Shiyue Zhang, Zhuandi He, Zhen Wang, Xujie Zhang, Xiao Dong, Yiling Wu, Dongmei Jiang, Xiaodan Liang

Несмотря на огромный потенциал, технология виртуальной примерки сталкивается с двумя основными проблемами, препятствующими её практическому применению: неспособность современных методов поддерживать композиции нарядов с использованием нескольких элементов (включая одежду и аксессуары) и их значительная неэффективность, вызванная избыточным пересчётом характеристик элементов на каждом шаге шумоподавления. Для решения этих проблем мы предлагаем FastFit — высокоскоростную платформу для виртуальной примерки с поддержкой нескольких элементов, основанную на новой кэшируемой архитектуре диффузии. Благодаря использованию механизма Semi-Attention и замене традиционных временных эмбеддингов на эмбеддинги классов для элементов, наша модель полностью разделяет кодирование характеристик элементов и процесс шумоподавления с минимальными затратами на параметры. Это позволяет вычислять характеристики элементов только один раз и повторно использовать их без потерь на всех этапах, что принципиально устраняет узкое место в эффективности и обеспечивает ускорение в среднем в 3,5 раза по сравнению с аналогичными методами. Кроме того, для содействия исследованиям в области сложной виртуальной примерки с несколькими элементами мы представляем DressCode-MR — новый крупномасштабный набор данных. Он включает 28 179 наборов высококачественных парных изображений, охватывающих пять ключевых категорий (верхняя одежда, нижняя одежда, платья, обувь и сумки), созданных с использованием конвейера экспертных моделей и уточнения на основе обратной связи от людей. Многочисленные эксперименты на наборах данных VITON-HD, DressCode и нашем DressCode-MR показывают, что FastFit превосходит современные методы по ключевым метрикам качества, одновременно предлагая значительное преимущество в эффективности вывода.

Улучшение крупных моделей для обработки изображений и текста за счет обучения на основе коллективного опыта экспертов
Improving Large Vision and Language Models by Learning from a Panel of Peers

Sep 1

ByJefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle

Традиционные методы согласования для крупных моделей обработки зрения и языка (LVLMs) в основном опираются на данные о предпочтениях, курируемые человеком. Данные о предпочтениях, созданные человеком, являются дорогостоящими; данные о предпочтениях, сгенерированные машиной, ограничены по качеству; а самоконтролируемые данные о предпочтениях часто приводят к галлюцинациям. Чтобы преодолеть эти ограничения, мы предлагаем новую структуру обучения "Совет равных" (Panel-of-Peers), вдохновленную совместным обучением среди людей. Этот подход использует группу LVLMs, каждая из которых оценивает и учится на коллективных результатах через итеративный процесс самосовершенствования. Модели, симулируя систему рецензирования, генерируют, оценивают и уточняют результаты в ответ на тщательно подобранный набор запросов, имитируя учебную среду в классе. Мы демонстрируем, что эта методология улучшает производительность модели без необходимости в обширных наборах данных с человеческими метками. Наши эксперименты показывают значительное улучшение на множестве бенчмарков, демонстрируя потенциал оценки равных как масштабируемой альтернативы самоконтролируемому согласованию. В частности, мы показываем, что "Совет равных" увеличивает средний балл на пятнадцати бенчмарках с 48% до 57%.

Лестница к справедливости: связь групповой и индивидуальной справедливости
Stairway to Fairness: Connecting Group and Individual Fairness

Aug 29

ByTheresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Falk Scholer, Christina Lioma

Справедливость в рекомендательных системах (RS) обычно классифицируется на групповую справедливость и индивидуальную справедливость. Однако до сих пор не существует устоявшегося научного понимания взаимосвязи между этими двумя типами справедливости, поскольку предыдущие работы по каждому из типов использовали различные метрики оценки или цели оценки, что не позволяет провести корректное сравнение между ними. В результате в настоящее время неизвестно, как повышение одного типа справедливости может повлиять на другой. Чтобы заполнить этот пробел, мы изучаем взаимосвязь групповой и индивидуальной справедливости через всестороннее сравнение метрик оценки, которые могут быть применены к обоим типам справедливости. Наши эксперименты с 8 запусками на 3 наборах данных показывают, что рекомендации, которые являются высоко справедливыми для групп, могут быть крайне несправедливыми для отдельных пользователей. Наше открытие является новым и полезным для практиков рекомендательных систем, стремящихся повысить справедливость своих систем. Наш код доступен по адресу: https://github.com/theresiavr/stairway-to-fairness.

К более разнообразному и сложному предобучению для работы с облаками точек: самоконтролируемая кросс-реконструкция с разделенными представлениями
Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

Sep 1

ByXiangdong Zhang, Shaofeng Zhang, Junchi Yan

Обучение на основе точечных облаков, особенно в самообучающемся режиме без ручной разметки, привлекает всё больше внимания как в сообществе компьютерного зрения, так и в области машинного обучения благодаря своему потенциалу в широком спектре приложений. Большинство существующих генеративных подходов для самообучающегося обучения на точечных облаках сосредоточены на восстановлении замаскированных точек на основе видимых в рамках одного представления. Учитывая, что предварительное обучение на основе двух представлений по своей природе вносит больше разнообразия и вариативности, оно может обеспечить более сложное и информативное предварительное обучение. Вдохновленные этим, мы исследуем потенциал обучения на основе двух представлений в данной области. В этой статье мы предлагаем Point-PQAE, кросс-реконструкционную генеративную парадигму, которая сначала генерирует два разделенных точечных облака/представления, а затем восстанавливает одно из другого. Для достижения этой цели мы впервые разрабатываем механизм обрезки для генерации представлений точечных облаков и дополнительно предлагаем новое позиционное кодирование для представления относительного 3D-положения между двумя разделенными представлениями. Кросс-реконструкция значительно увеличивает сложность предварительного обучения по сравнению с самовосстановлением, что позволяет нашему методу превзойти предыдущие методы самовосстановления в рамках одного представления в 3D-самообучающемся обучении. В частности, он превосходит базовый метод самовосстановления (Point-MAE) на 6,5%, 7,0% и 6,7% в трех вариантах ScanObjectNN с протоколом оценки Mlp-Linear. Код доступен по адресу https://github.com/aHapBean/Point-PQAE.

MedDINOv3: Как адаптировать базовые модели компьютерного зрения для сегментации медицинских изображений?
MedDINOv3: How to adapt vision foundation models for medical image segmentation?

Sep 2

ByYuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang

Точная сегментация органов и опухолей на КТ и МРТ снимках имеет решающее значение для диагностики, планирования лечения и мониторинга заболеваний. Хотя глубокое обучение продвинуло автоматизированную сегментацию, большинство моделей остаются узкоспециализированными, не обладая универсальностью для различных модальностей и учреждений. Фундаментальные модели (FMs) для обработки изображений, предобученные на миллиардах натуральных изображений, предлагают мощные и переносимые представления. Однако их адаптация к медицинской визуализации сталкивается с двумя основными проблемами: (1) архитектура ViT, используемая в большинстве фундаментальных моделей, по-прежнему уступает специализированным CNN в сегментации медицинских изображений, и (2) значительный разрыв между доменами натуральных и медицинских изображений ограничивает переносимость. Мы представляем MedDINOv3 — простой и эффективный фреймворк для адаптации DINOv3 к медицинской сегментации. Сначала мы пересматриваем базовые ViT и разрабатываем простую и эффективную архитектуру с многоуровневой агрегацией токенов. Затем мы выполняем доменно-адаптивное предобучение на CT-3M — тщательно отобранной коллекции из 3,87 миллионов аксиальных срезов КТ, используя многоэтапный рецепт DINOv3 для обучения устойчивым плотным признакам. MedDINOv3 достигает или превосходит современные результаты на четырех бенчмарках сегментации, демонстрируя потенциал фундаментальных моделей обработки изображений в качестве универсальных архитектур для сегментации медицинских изображений. Код доступен по адресу https://github.com/ricklisz/MedDINOv3.

C-DiffDet+: Объединение глобального контекста сцены с генеративным шумоподавлением для высокоточной детекции объектов
C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

Aug 30

ByAbdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante

Точное обнаружение объектов в сложных визуальных областях, таких как оценка повреждений транспортных средств, представляет собой значительную задачу даже для экспертов, которые не всегда могут справиться с ней надежно. Хотя DiffusionDet продвинул современные методы благодаря условному денизингу с использованием диффузии, его производительность остается ограниченной из-за локального условного анализа признаков в контекстно-зависимых сценариях. Мы устраняем это фундаментальное ограничение, вводя метод Context-Aware Fusion (CAF), который использует механизмы кросс-внимания для интеграции глобального контекста сцены с локальными признаками предложений напрямую. Глобальный контекст генерируется с помощью отдельного специализированного кодировщика, который захватывает полную информацию об окружающей среде, позволяя каждому предложению объекта учитывать понимание на уровне сцены. Наша структура значительно улучшает генеративную парадигму обнаружения, позволяя каждому предложению объекта учитывать полную информацию об окружающей среде. Экспериментальные результаты демонстрируют улучшение по сравнению с современными моделями на бенчмарке CarDD, устанавливая новые стандарты производительности для контекстно-зависимого обнаружения объектов в точных областях.