ChatPaper.aiChatPaper.ai
Главная

arXiv

HuggingFace

ЦеныАккаунтРабочее пространство

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Предварительное обучение с подкреплением
Reinforcement Pre-Training

Jun 9, 2025
Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
18715

В данной работе мы представляем Предварительное обучение с подкреплением (Reinforcement Pre-Training, RPT) как новую парадигму масштабирования для больших языковых моделей и обучения с подкреплением (RL). В частности, мы переосмысливаем задачу предсказания следующего токена как задачу рассуждения, обучаемую с использованием RL, где модель получает проверяемые награды за правильное предсказание следующего токена для заданного контекста. RPT предлагает масштабируемый метод использования огромных объемов текстовых данных для обучения с подкреплением общего назначения, вместо того чтобы полагаться на аннотированные ответы для конкретных доменов. Стимулируя способность к рассуждению для предсказания следующего токена, RPT значительно повышает точность языкового моделирования при предсказании следующих токенов. Более того, RPT обеспечивает прочную предварительно обученную основу для дальнейшей тонкой настройки с подкреплением. Кривые масштабирования показывают, что увеличение вычислительных ресурсов для обучения последовательно улучшает точность предсказания следующего токена. Результаты позиционируют RPT как эффективную и перспективную парадигму масштабирования для продвижения предварительного обучения языковых моделей.

Lingshu: Универсальная базовая модель для единого мультимодального медицинского анализа и рассуждений
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

Jun 8, 2025
LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
943

Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности в понимании общих визуальных элементов, что во многом обусловлено их масштабными наборами данных и передовыми стратегиями обучения. Однако их эффективность в медицинских приложениях остается ограниченной из-за присущих расхождений между данными и задачами в медицинских сценариях и теми, что используются в общем домене. Конкретно, существующие медицинские MLLM сталкиваются со следующими критическими ограничениями: (1) ограниченный охват медицинских знаний за пределами визуализации, (2) повышенная склонность к галлюцинациям из-за неоптимальных процессов подготовки данных, (3) отсутствие способностей к рассуждению, адаптированных для сложных медицинских сценариев. Для решения этих проблем мы сначала предлагаем комплексную процедуру подготовки данных, которая (1) эффективно собирает богатые медицинские знания не только из медицинских изображений, но и из обширных медицинских текстов и данных общего домена; и (2) синтезирует точные медицинские описания, визуальные вопросы и ответы (VQA), а также примеры для рассуждений. В результате мы создаем мультимодальный набор данных, обогащенный обширными медицинскими знаниями. На основе подготовленных данных мы представляем нашу специализированную медицинскую MLLM: Lingshu. Lingshu проходит многоэтапное обучение для внедрения медицинских знаний и постепенного улучшения способностей к решению задач. Кроме того, мы предварительно исследуем потенциал применения парадигмы обучения с подкреплением с проверяемыми наградами для улучшения медицинских способностей к рассуждению Lingshu. Дополнительно мы разрабатываем MedEvalKit, унифицированную структуру оценки, которая объединяет ведущие мультимодальные и текстовые медицинские бенчмарки для стандартизированной, справедливой и эффективной оценки моделей. Мы оцениваем производительность Lingshu на трех фундаментальных медицинских задачах: мультимодальные вопросы и ответы, текстовые вопросы и ответы, а также генерация медицинских отчетов. Результаты показывают, что Lingshu стабильно превосходит существующие открытые мультимодальные модели в большинстве задач...

MiniCPM4: Сверхэффективные большие языковые модели на конечных устройствах
MiniCPM4: Ultra-Efficient LLMs on End Devices

Jun 9, 2025
MiniCPM Team, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Xin Cong, Ganqu Cui, Ning Ding, Shengdan Fan, Yewei Fang, Zixuan Fu, Wenyu Guan, Yitong Guan, Junshao Guo, Yufeng Han, Bingxiang He, Yuxiang Huang, Cunliang Kong, Qiuzuo Li, Siyuan Li, Wenhao Li, Yanghao Li, Yishan Li, Zhen Li, Dan Liu, Biyuan Lin, Yankai Lin, Xiang Long, Quanyu Lu, Yaxi Lu, Peiyan Luo, Hongya Lyu, Litu Ou, Yinxu Pan, Zekai Qu, Qundong Shi, Zijun Song, Jiayuan Su, Zhou Su, Ao Sun, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Xie, Yukun Yan, Jiarui Yuan, Kaihuo Zhang, Lei Zhang, Linyue Zhang, Xueren Zhang, Yudi Zhang, Hengyu Zhao, Weilin Zhao, Weilun Zhao, Yuanqian Zhao, Zhi Zheng, Ge Zhou, Jie Zhou, Wei Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun
722

В данной статье представлена модель MiniCPM4, высокоэффективная большая языковая модель (LLM), разработанная специально для устройств конечного пользователя. Мы достигаем этой эффективности за счет системных инноваций в четырех ключевых направлениях: архитектура модели, данные для обучения, алгоритмы обучения и системы вывода. В частности, в области архитектуры модели мы предлагаем InfLLM v2 — обучаемый механизм разреженного внимания, который ускоряет как фазу предварительного заполнения, так и декодирования при обработке длинных контекстов. В отношении данных для обучения мы представляем UltraClean — эффективную и точную стратегию фильтрации и генерации данных для предварительного обучения, а также UltraChat v2 — всеобъемлющий набор данных для контролируемой тонкой настройки. Эти наборы данных позволяют достичь удовлетворительной производительности модели, используя всего 8 триллионов токенов для обучения. В области алгоритмов обучения мы предлагаем ModelTunnel v2 для эффективного поиска стратегий предварительного обучения и улучшаем существующие методы пост-обучения, вводя пошаговое развертывание для сбалансированного по нагрузке обучения с подкреплением и эффективную по данным тернарную LLM, BitCPM. В системах вывода мы предлагаем CPM.cu, который интегрирует разреженное внимание, квантование модели и спекулятивное сэмплирование для эффективного предварительного заполнения и декодирования. Для удовлетворения разнообразных требований устройств MiniCPM4 доступна в двух версиях с 0,5 млрд и 8 млрд параметров соответственно. Результаты всесторонней оценки показывают, что MiniCPM4 превосходит модели с открытым исходным кодом аналогичного размера на множестве тестов, подчеркивая как ее эффективность, так и производительность. В частности, MiniCPM4-8B демонстрирует значительное ускорение по сравнению с Qwen3-8B при обработке длинных последовательностей. Благодаря дальнейшей адаптации MiniCPM4 успешно применяется в различных задачах, включая генерацию надежных опросов и использование инструментов с протоколом контекста модели, что наглядно демонстрирует ее широкую применимость.

Saffron-1: К парадигме масштабирования вывода для обеспечения безопасности крупных языковых моделей
Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance

Jun 6, 2025
Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
682

Исследования в области обеспечения безопасности в основном сосредоточены на этапе обучения для внедрения безопасного поведения в большие языковые модели (LLM). Однако недавние исследования выявили уязвимость этих методов к различным атакам jailbreak. В то же время масштабирование на этапе вывода значительно улучшило способности LLM к рассуждению, но остается неисследованным в контексте обеспечения безопасности. Восполняя этот пробел, наша работа впервые применяет масштабирование вывода для обеспечения устойчивой и эффективной безопасности LLM перед новыми угрозами. Мы показываем, что традиционные методы масштабирования вывода, несмотря на их успех в задачах рассуждения, плохо справляются в контексте безопасности, уступая даже базовым подходам, таким как Best-of-N Sampling. Мы связываем эту неэффективность с новой выявленной проблемой — дилеммой исследования и эффективности, возникающей из-за высоких вычислительных затрат, связанных с частыми оценками модели вознаграждения процесса (PRM). Для преодоления этой дилеммы мы предлагаем SAFFRON, новую парадигму масштабирования вывода, специально разработанную для обеспечения безопасности. Основой нашего подхода является введение модели многоразветвленного вознаграждения (MRM), которая значительно сокращает количество необходимых оценок модели вознаграждения. Для реализации этой парадигмы мы также предлагаем: (i) цель обучения с частичным контролем для MRM, (ii) ограничение консервативного исследования для предотвращения выхода за пределы распределения и (iii) стратегию кэширования на основе Trie, которая облегчает совместное использование кэша между последовательностями при поиске по дереву. Многочисленные эксперименты подтверждают эффективность нашего метода. Кроме того, мы публикуем нашу обученную модель многоразветвленного вознаграждения (Saffron-1) и соответствующий набор данных токен-уровневого вознаграждения за безопасность (Safety4M) для ускорения будущих исследований в области безопасности LLM. Наш код, модель и данные доступны по адресу https://github.com/q-rz/saffron, а страница проекта находится по адресу https://q-rz.github.io/p/saffron.

OneIG-Bench: Всесторонняя и детализированная оценка генерации изображений
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Jun 9, 2025
Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen
382

Модели генерации изображений по тексту (Text-to-Image, T2I) привлекают значительное внимание благодаря созданию высококачественных изображений, соответствующих текстовым запросам. Однако быстрый прогресс в развитии T2I-моделей выявил ограничения ранних эталонных тестов, которые не включали всестороннюю оценку, например, анализ способности к рассуждению, точности отображения текста и стилизации. Примечательно, что современные модели с их мощными возможностями моделирования знаний демонстрируют впечатляющие результаты в задачах генерации изображений, требующих развитых способностей к рассуждению, однако существующие системы оценки не уделяют должного внимания этому направлению. Для систематического устранения этих пробелов мы представляем OneIG-Bench — тщательно разработанный комплексный эталонный фреймворк для детальной оценки T2I-моделей по множеству параметров, включая соответствие изображения текстовому запросу, точность отображения текста, контент, созданный на основе рассуждений, стилизацию и разнообразие. Структурируя процесс оценки, этот эталонный тест позволяет проводить углубленный анализ производительности моделей, помогая исследователям и практикам выявлять сильные стороны и узкие места в полном цикле генерации изображений. В частности, OneIG-Bench обеспечивает гибкую оценку, позволяя пользователям сосредоточиться на конкретном подмножестве параметров. Вместо генерации изображений для всего набора запросов пользователи могут создавать изображения только для запросов, связанных с выбранным параметром, и проводить соответствующую оценку. Наш код и набор данных теперь доступны публично для обеспечения воспроизводимости исследований и сравнения моделей в рамках сообщества, занимающегося исследованиями T2I.

SpatialLM: Обучение крупных языковых моделей для структурированного моделирования внутренних пространств
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Jun 9, 2025
Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
342

SpatialLM — это крупная языковая модель, разработанная для обработки данных 3D-точечных облаков и генерации структурированных результатов понимания трехмерных сцен. Эти результаты включают архитектурные элементы, такие как стены, двери, окна, а также ориентированные ограничивающие рамки объектов с их семантическими категориями. В отличие от предыдущих методов, которые используют специализированные архитектуры сетей, наша модель соответствует стандартной мультимодальной архитектуре LLM и дорабатывается напрямую на основе открытых LLM. Для обучения SpatialLM мы собрали крупномасштабный, высококачественный синтетический набор данных, состоящий из точечных облаков 12 328 внутренних сцен (54 778 помещений) с аннотациями 3D-разметки, и провели тщательное исследование различных решений по моделированию и обучению. На публичных тестовых наборах наша модель демонстрирует наилучшие результаты в оценке планировки и конкурентоспособные показатели в задаче 3D-обнаружения объектов. Таким образом, мы показываем реализуемый путь для улучшения пространственного понимания современных LLM в приложениях дополненной реальности, робототехники и других областях.

Реконструкция изображений как инструмент анализа признаков
Image Reconstruction as a Tool for Feature Analysis

Jun 9, 2025
Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
282

Визуальные энкодеры все чаще используются в современных приложениях, начиная от моделей, работающих исключительно с изображениями, и заканчивая мультимодальными системами, такими как модели, объединяющие зрение и язык. Несмотря на их впечатляющий успех, остается неясным, как эти архитектуры внутренне представляют признаки. В данной работе мы предлагаем новый подход для интерпретации визуальных признаков через реконструкцию изображений. Мы сравниваем два связанных семейства моделей, SigLIP и SigLIP2, которые различаются только целью обучения, и показываем, что энкодеры, предварительно обученные на задачах, связанных с изображениями, сохраняют значительно больше информации об изображении, чем те, которые обучены на задачах, не связанных с изображениями, таких как контрастное обучение. Мы также применяем наш метод к ряду визуальных энкодеров, ранжируя их по информативности их представлений признаков. Наконец, мы демонстрируем, что манипуляции в пространстве признаков приводят к предсказуемым изменениям в реконструированных изображениях, показывая, что ортогональные вращения (а не пространственные преобразования) управляют кодированием цвета. Наш подход может быть применен к любому визуальному энкодеру, что позволяет пролить свет на внутреннюю структуру его пространства признаков. Код и веса моделей для воспроизведения экспериментов доступны на GitHub.

Astra: К универсальным мобильным роботам через иерархическое мультимодальное обучение
Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

Jun 6, 2025
Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
272

Современные системы навигации роботов сталкиваются с трудностями в разнообразных и сложных внутренних средах. Традиционные подходы опираются на множество модулей с небольшими моделями или системы, основанные на правилах, что ограничивает их адаптируемость к новым условиям. Для решения этой проблемы мы разработали Astra — комплексную архитектуру с двумя моделями, Astra-Global и Astra-Local, для навигации мобильных роботов. Astra-Global, мультимодальная крупная языковая модель (LLM), обрабатывает визуальные и языковые входные данные для выполнения локализации робота и цели, используя гибридный тополого-семантический граф в качестве глобальной карты, и превосходит традиционные методы визуального распознавания мест. Astra-Local, многозадачная сеть, отвечает за локальное планирование пути и оценку одометрии. Её 4D пространственно-временной кодировщик, обученный с использованием самоконтролируемого обучения, генерирует устойчивые 4D-признаки для последующих задач. Блок планирования использует сопоставление потоков и новую функцию потерь на основе маскированного ESDF для минимизации риска столкновений при генерации локальных траекторий, а блок одометрии интегрирует входные данные от нескольких датчиков через трансформерный кодировщик для предсказания относительного положения робота. Развернутая на реальных мобильных роботах внутри помещений, Astra демонстрирует высокую успешность выполнения задач от начала до конца в различных внутренних средах.

Предварительно обученные большие языковые модели изучают скрытые марковские модели в контексте.
Pre-trained Large Language Models Learn Hidden Markov Models In-context

Jun 8, 2025
Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
193

Скрытые марковские модели (HMM) являются фундаментальными инструментами для моделирования последовательных данных с латентной марковской структурой, однако их адаптация к реальным данным остается вычислительно сложной задачей. В данной работе мы показываем, что предварительно обученные большие языковые модели (LLM) могут эффективно моделировать данные, сгенерированные HMM, с помощью обучения в контексте (ICL) — их способности выводить закономерности из примеров, представленных в запросе. На разнообразном наборе синтетических HMM LLM достигают прогностической точности, близкой к теоретическому оптимуму. Мы выявляем новые закономерности масштабирования, зависящие от свойств HMM, и предлагаем теоретические гипотезы для объяснения этих эмпирических наблюдений. Также мы предоставляем практические рекомендации для ученых по использованию ICL в качестве диагностического инструмента для анализа сложных данных. На реальных задачах принятия решений животными ICL демонстрирует конкурентоспособные результаты по сравнению с моделями, разработанными экспертами. Насколько нам известно, это первая демонстрация того, что ICL может обучаться и предсказывать последовательности, сгенерированные HMM, — достижение, которое углубляет наше понимание обучения в контексте в LLM и подтверждает его потенциал как мощного инструмента для выявления скрытой структуры в сложных научных данных.

BitVLA: 1-битные модели "Видение-Язык-Действие" для манипуляций в робототехнике
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Jun 9, 2025
Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen
172

Модели Vision-Language-Action (VLA) продемонстрировали впечатляющие возможности в широком спектре задач манипуляции в робототехнике. Однако их растущий размер модели создает значительные трудности для развертывания на ресурсоограниченных роботизированных системах. Хотя 1-битное предварительное обучение доказало свою эффективность для повышения эффективности вывода крупных языковых моделей с минимальной потерей производительности, его применение к моделям VLA остается недостаточно изученным. В данной работе мы представляем BitVLA — первую 1-битную модель VLA для задач манипуляции в робототехнике, в которой каждый параметр является троичным, т.е. {-1, 0, 1}. Для дальнейшего сокращения объема памяти, занимаемого визуальным кодировщиком, мы предлагаем стратегию обучения с учетом дистилляции, которая сжимает полнобитный кодировщик до весов с точностью 1.58 бита. В этом процессе полнобитный кодировщик выступает в роли учителя для лучшего согласования латентных представлений. Несмотря на отсутствие крупномасштабного предварительного обучения в робототехнике, BitVLA демонстрирует производительность, сопоставимую с современной моделью OpenVLA-OFT с 4-битной посттренировочной квантизацией на бенчмарке LIBERO, при этом потребляя только 29.8% памяти. Эти результаты подчеркивают перспективность BitVLA для развертывания на устройствах с ограниченной памятью. Мы публикуем код и веса модели по адресу https://github.com/ustcwhy/BitVLA.

Переосмысление кросс-модального взаимодействия в мультимодальных диффузионных трансформерах
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

Jun 9, 2025
Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
162

Мультимодальные диффузионные трансформеры (MM-DiT) достигли значительных успехов в генерации визуального контента на основе текста. Однако даже передовые модели MM-DiT, такие как FLUX, сталкиваются с трудностями в достижении точного соответствия между текстовыми запросами и генерируемым контентом. Мы выявили две ключевые проблемы в механизме внимания MM-DiT: 1) подавление кросс-модального внимания из-за дисбаланса токенов между визуальной и текстовой модальностями и 2) отсутствие временнóй адаптации весов внимания, что препятствует выравниванию. Для решения этих проблем мы предлагаем метод Temperature-Adjusted Cross-modal Attention (TACA), эффективный по параметрам подход, который динамически балансирует мультимодальные взаимодействия с помощью масштабирования температуры и временнóй адаптации. В сочетании с тонкой настройкой LoRA, TACA значительно улучшает соответствие текста и изображения на бенчмарке T2I-CompBench при минимальных вычислительных затратах. Мы протестировали TACA на передовых моделях, таких как FLUX и SD3.5, продемонстрировав её способность улучшать соответствие изображения и текста в аспектах внешнего вида объектов, связывания атрибутов и пространственных отношений. Наши результаты подчеркивают важность балансировки кросс-модального внимания для повышения семантической точности в моделях диффузии текст-изображение. Наш код доступен по адресу https://github.com/Vchitect/TACA.

Через долину: путь к эффективному обучению длинных цепочек рассуждений для малых языковых моделей
Through the Valley: Path to Effective Long CoT Training for Small Language Models

Jun 9, 2025
Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
162

Длинное управление цепочкой рассуждений (CoT) стало распространенной стратегией для улучшения способности к рассуждению в языковых моделях. Хотя этот подход эффективен для крупных моделей, мы выявили явление, которое назвали "деградацией длинной CoT", при котором небольшие языковые модели (SLM; <=3B параметров), обученные на ограниченных данных с длинной CoT, демонстрируют значительное ухудшение производительности. В ходе обширных экспериментов с семействами моделей Qwen2.5, LLaMA3 и Gemma3 мы показали, что такая деградация широко распространена среди SLM. В некоторых случаях модели, обученные всего на 8 тыс. примеров длинной CoT, теряют до 75% своей исходной производительности до тонкой настройки. Более того, мы обнаружили, что для некоторых особенно небольших моделей даже обучение на 220 тыс. примеров длинной CoT не позволяет восстановить или превзойти их исходную производительность до тонкой настройки. Наш анализ связывает этот эффект с накоплением ошибок: хотя более длинные ответы увеличивают способность к многошаговому рассуждению, они также усиливают риск накопления ошибок. Кроме того, мы обнаружили, что деградация длинной CoT может негативно влиять на последующее обучение с подкреплением (RL), хотя это может быть смягчено за счет достаточно масштабированной контролируемой тонкой настройки (SFT). Наши результаты ставят под сомнение распространенные предположения о преимуществах длинного обучения CoT для SLM и предлагают практические рекомендации для создания более эффективных моделей рассуждений малого масштаба.

Vision Transformers не нуждаются в обученных регистрах
Vision Transformers Don't Need Trained Registers

Jun 9, 2025
Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
142

Мы исследуем механизм, лежащий в основе ранее выявленного феномена в Vision Transformers — появление токенов с высокой нормой, которые приводят к зашумленным картам внимания. Мы наблюдаем, что в нескольких моделях (например, CLIP, DINOv2) небольшой набор нейронов отвечает за концентрацию активаций с высокой нормой на выбросных токенах, что приводит к нерегулярным паттернам внимания и ухудшает последующую обработку визуальных данных. Хотя существующее решение для устранения этих выбросов предполагает переобучение моделей с нуля с использованием дополнительных обучаемых регистровых токенов, мы используем наши результаты для создания подхода, не требующего обучения, чтобы смягчить эти артефакты. Путем переноса активаций с высокой нормой из обнаруженных нами регистровых нейронов в дополнительный необученный токен мы можем имитировать эффект регистровых токенов в модели, уже обученной без них. Мы демонстрируем, что наш метод создает более чистые карты внимания и признаков, улучшает производительность базовых моделей в различных визуальных задачах и достигает результатов, сопоставимых с моделями, явно обученными с регистровыми токенами. Затем мы расширяем использование регистров на этапе тестирования на готовые модели для обработки визуальных и языковых данных, чтобы повысить их интерпретируемость. Наши результаты показывают, что регистры на этапе тестирования эффективно выполняют роль регистровых токенов в процессе тестирования, предлагая решение, не требующее обучения, для любой предварительно обученной модели, выпущенной без них.

Играть, чтобы обобщать: обучение рассуждению через игровой процесс
Play to Generalize: Learning to Reason Through Game Play

Jun 9, 2025
Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei
133

Развитие обобщаемых способностей к рассуждению в мультимодальных больших языковых моделях (MLLMs) остается сложной задачей. Вдохновленные исследованиями в когнитивной науке, которые указывают на то, что игровой процесс способствует переносимым когнитивным навыкам, мы предлагаем новый подход к пост-обучению — Visual Game Learning (ViGaL), в рамках которого MLLMs развивают обобщение мультимодальных рассуждений за пределами домена через игру в аркадные игры. В частности, мы показываем, что пост-обучение MLLM с 7 миллиардами параметров с использованием обучения с подкреплением (RL) на простых аркадных играх, таких как "Змейка", значительно улучшает ее производительность на мультимодальных математических тестах, таких как MathVista, и на междисциплинарных вопросах, таких как MMMU, без использования готовых решений, уравнений или диаграмм в процессе RL, что указывает на усвоение переносимых навыков рассуждения. Примечательно, что наша модель превосходит специализированные модели, настроенные на данные для мультимодальных рассуждений, в соответствующих тестах, сохраняя при этом производительность базовой модели на общих визуальных тестах, что является проблемой, с которой специализированные модели часто не справляются. Наши результаты предлагают новый подход к пост-обучению: синтетические, основанные на правилах игры могут служить контролируемыми и масштабируемыми предтекстовыми задачами, которые раскрывают обобщаемые способности к мультимодальным рассуждениям в MLLMs.

Спорный интеллект: Оценка судейских способностей языковых моделей через анализ дебатных выступлений
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation

Jun 5, 2025
Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
132

Мы представляем оценку дебатных выступлений как новый и сложный эталон для тестирования языковых моделей (LLM) в роли судей. Оценка дебатных выступлений требует глубокого понимания речи на нескольких уровнях, включая силу и релевантность аргументов, связность и структуру выступления, уместность его стиля и тона и так далее. Эта задача предполагает уникальный набор когнитивных способностей, которые ранее получали ограниченное внимание в систематическом тестировании LLM. Для изучения таких навыков мы используем набор данных, включающий более 600 тщательно аннотированных дебатных выступлений, и представляем первый детальный анализ того, как современные LLM справляются с этой задачей по сравнению с человеческими судьями. Наши результаты раскрывают сложную картину: хотя более крупные модели могут приближаться к индивидуальным суждениям людей в некоторых аспектах, они существенно отличаются в своем общем подходе к оценке. Мы также исследуем способность передовых LLM генерировать убедительные, аргументированные выступления, демонстрируя, что модели могут выполнять эту задачу на уровне человека.

GTR-CoT: Графовый обход как визуальная цепочка рассуждений для распознавания молекулярной структуры
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition

Jun 9, 2025
Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
122

Оптическое распознавание химических структур (OCSR) играет ключевую роль в оцифровке химических знаний путем преобразования изображений молекул в машиночитаемые форматы. Хотя современные модели, объединяющие зрение и язык (VLMs), продемонстрировали потенциал в этой задаче, их подход, основанный на генерации подписей к изображениям, часто сталкивается с трудностями при работе со сложными молекулярными структурами и несогласованными аннотациями. Для преодоления этих ограничений мы представляем GTR-Mol-VLM — новую структуру, включающую две ключевые инновации: (1) механизм Graph Traversal as Visual Chain of Thought, который имитирует человеческое рассуждение, постепенно анализируя молекулярные графы через последовательное предсказание атомов и связей, и (2) принцип, ориентированный на данные, Faithfully Recognize What You've Seen, который устраняет несоответствие между сокращенными структурами на изображениях и их расширенными аннотациями. Для поддержки разработки модели мы создали GTR-CoT-1.3M — крупномасштабный набор данных для настройки инструкций с тщательно исправленными аннотациями, а также представили MolRec-Bench — первый бенчмарк, предназначенный для детальной оценки точности анализа графов в OCSR. Комплексные эксперименты демонстрируют, что GTR-Mol-VLM достигает превосходных результатов по сравнению со специализированными моделями, VLMs в области химии и коммерческими универсальными VLMs. В частности, в сценариях с изображениями молекул, содержащими сокращенные обозначения функциональных групп, GTR-Mol-VLM превосходит второй лучший базовый подход примерно на 14 процентных пунктов как по метрикам, основанным на SMILES, так и на графах. Мы надеемся, что эта работа будет способствовать развитию технологии OCSR для более эффективного удовлетворения реальных потребностей, тем самым продвигая области хемоинформатики и искусственного интеллекта для науки. Мы опубликуем GTR-CoT по адресу https://github.com/opendatalab/GTR-CoT.

Иллюзия мышления: понимание сильных сторон и ограничений моделей рассуждений через призму сложности задач
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Jun 7, 2025
Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
112

Последние поколения языковых моделей представили Большие Модели Рассуждений (БМР), которые генерируют детализированные процессы мышления перед предоставлением ответов. Хотя эти модели демонстрируют улучшенную производительность на тестах, связанных с рассуждениями, их фундаментальные возможности, свойства масштабирования и ограничения остаются недостаточно изученными. Текущие оценки в основном сосредоточены на устоявшихся тестах по математике и программированию, акцентируя внимание на точности конечных ответов. Однако такая парадигма оценки часто страдает от проблемы "загрязнения" и не предоставляет информации о траекториях рассуждений. В данной работе мы систематически исследуем эти пробелы с помощью контролируемых головоломок, которые позволяют точно управлять сложностью, сохраняя при этом согласованную логическую структуру. Такая настройка позволяет анализировать не только конечные ответы, но и внутренние траектории рассуждений, давая представление о том, как БМР мыслят. В ходе обширных экспериментов мы показываем, что БМР сталкиваются с полным коллапсом точности за пределами определённого уровня сложности. Более того, они демонстрируют контринтуитивный предел масштабирования: их усилия по рассуждению увеличиваются с ростом сложности задачи до определённого момента, а затем снижаются, несмотря на оставшийся бюджет токенов. Сравнивая БМР с их стандартными аналогами LLM при одинаковых вычислительных ресурсах, мы выделяем три режима производительности: (1) задачи низкой сложности, где стандартные модели превосходят БМР, (2) задачи средней сложности, где БМР демонстрируют преимущество, и (3) задачи высокой сложности, где обе модели сталкиваются с полным коллапсом. Мы обнаружили, что БМР имеют ограничения в точных вычислениях: они не способны использовать явные алгоритмы и рассуждают непоследовательно на разных уровнях сложности. Мы также более глубоко исследуем траектории рассуждений, изучая паттерны исследуемых решений и анализируя вычислительное поведение моделей, что проливает свет на их сильные стороны, ограничения и ставит вопросы об их способностях к рассуждению.

Бутстрэппинг мировых моделей на основе моделей динамики в мультимодальных фундаментальных моделях
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models

Jun 6, 2025
Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
112

В какой степени модели, основанные на зрении и языке, обладают реалистичной моделью мира (наблюдение × действие → наблюдение) и моделью динамики (наблюдение × наблюдение → действие), когда действия выражены через язык? Хотя модели с открытым исходным кодом испытывают трудности с обеими задачами, мы обнаружили, что их тонкая настройка для получения модели динамики с использованием обучения с учителем значительно проще, чем получение модели мира. В свою очередь, модели динамики могут быть использованы для начальной настройки моделей мира с помощью двух основных стратегий: 1) слабо контролируемое обучение на синтетических данных и 2) проверка на этапе вывода. Во-первых, модель динамики может аннотировать действия для неразмеченных пар наблюдений видеокадров, чтобы расширить обучающие данные. Мы также предлагаем новую цель, в которой токены изображений в парах наблюдений взвешиваются по их важности, предсказанной моделью распознавания. Во-вторых, модели динамики могут назначать награды нескольким образцам модели мира для их оценки, эффективно направляя поиск на этапе вывода. Мы оцениваем модели мира, полученные с использованием обеих стратегий, через задачу редактирования изображений с акцентом на действия на наборе данных Aurora-Bench. Наша лучшая модель демонстрирует результаты, сопоставимые с современными моделями редактирования изображений, улучшая их на 15% на реальных подмножествах по оценке GPT4o-as-judge, а также достигая наилучшей средней оценки по результатам человеческой оценки на всех подмножествах Aurora-Bench.

ConfQA: Отвечай только если уверен
ConfQA: Answer Only If You Are Confident

Jun 8, 2025
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
92

Можем ли мы научить большие языковые модели (LLMs) воздерживаться от генерации вымышленных фактов? В данной статье мы представляем стратегию тонкой настройки, которую называем ConfQA, которая позволяет снизить уровень галлюцинаций с 20-40% до менее 5% на множестве тестов на фактическую точность. Основная идея проста: когда LLM правильно отвечает на вопрос, она обучается продолжать ответ; в противном случае она обучается признавать: "Я не уверен". Однако есть два ключевых фактора, которые делают обучение высокоэффективным. Во-первых, мы вводим сдерживающий запрос "отвечай только если уверен", чтобы явно направлять поведение модели, без которого уровень галлюцинаций остается высоким — 15-25%. Во-вторых, мы используем простые фактические утверждения, а именно значения атрибутов из графов знаний, чтобы помочь LLMs калибровать уверенность, что приводит к устойчивому обобщению в различных областях и типах вопросов. Опираясь на это понимание, мы предлагаем Dual Neural Knowledge framework, который бесшовно выбирает между внутренне параметризованными нейронными знаниями и внешне зафиксированными символическими знаниями на основе уверенности ConfQA. Этот фреймворк позволяет достичь потенциальной точности выше 95%, одновременно сокращая ненужные внешние запросы более чем на 30%.

CCI4.0: Двуязычный набор данных для предварительного обучения, направленный на улучшение способности к рассуждению в крупных языковых моделях
CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models

Jun 9, 2025
Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
82

Мы представляем CCI4.0, крупномасштабный двуязычный набор данных для предварительного обучения, разработанный для обеспечения превосходного качества данных и разнообразных траекторий рассуждений, напоминающих человеческие. CCI4.0 занимает примерно 35 ТБ дискового пространства и состоит из двух поднаборов: CCI4.0-M2-Base и CCI4.0-M2-CoT. CCI4.0-M2-Base объединяет тщательно отобранный китайский веб-корпус объемом 5,2 ТБ, английский поднабор из Nemotron-CC объемом 22,5 ТБ, а также разнообразные источники из области математики, вики, arXiv и кода. Хотя эти данные в основном взяты из хорошо обработанных наборов, стандарты качества в различных областях динамичны и требуют значительного экспертного опыта и труда для обработки. Поэтому мы предлагаем новый подход, обосновывающий качество данных в основном на основе моделей, через двухэтапную дедупликацию, многоклассовую оценку качества и фильтрацию на основе беглости с учетом домена. Мы извлекаем 4,5 миллиарда шаблонов CoT (Chain-of-Thought), названных CCI4.0-M2-CoT. В отличие от дистилляции CoT из более крупных моделей, наш предложенный поэтапный метод извлечения CoT демонстрирует разнообразные паттерны рассуждений и значительно снижает вероятность галлюцинаций. Эмпирические оценки показывают, что модели языкового предобучения (LLM), обученные на CCI4.0, получают преимущество от более чистых и надежных обучающих сигналов, что приводит к последовательным улучшениям в задачах, особенно в математике и задачах отражения кода. Наши результаты подчеркивают критическую роль строгой курации данных и шаблонов человеческого мышления в повышении производительности LLM, проливая свет на автоматическую обработку корпусов для предварительного обучения.

ExpertLongBench: Оценка языковых моделей на задачах генерации экспертного уровня с длинными текстами с использованием структурированных чек-листов
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

Jun 2, 2025
Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
82

В данной статье представлен ExpertLongBench — экспертный бенчмарк, содержащий 11 задач из 9 областей, которые отражают реалистичные рабочие процессы и приложения экспертного уровня. В отличие от простого ответа на вопросы, задачи в ExpertLongBench, ориентированные на практическое применение, требуют создания длинных текстов, которые могут превышать 5 000 токенов, и строгого соблюдения специфических для каждой области требований. Примечательно, что каждая задача в ExpertLongBench включает рубрику, разработанную или проверенную экспертами в соответствующей области, которая определяет требования к задаче и служит руководством для оценки результатов. Кроме того, мы предлагаем CLEAR — оценочную структуру, которая обеспечивает точную оценку длинных текстовых выводов моделей в нашем бенчмарке. Для достижения детализированной оценки, согласованной с экспертными стандартами, CLEAR формирует контрольные списки на основе как выводов моделей, так и эталонных текстов, извлекая информацию, соответствующую пунктам в специфической для задачи рубрике. Затем пункты контрольных списков для выводов моделей сравниваются с соответствующими пунктами для эталонных выводов, чтобы оценить их корректность, что позволяет проводить обоснованную оценку. Мы протестировали 11 крупных языковых моделей (LLM) и проанализировали компоненты CLEAR, показав, что (1) существующие LLM, даже лучшая из которых достигает лишь 26,8% по F1-метрике, требуют значительного улучшения для выполнения задач экспертного уровня; (2) модели способны генерировать контент, соответствующий требуемым аспектам, хотя часто не точно; и (3) точное извлечение и сравнение контрольных списков в CLEAR может быть достигнуто с использованием моделей с открытыми весами для более масштабируемого и экономически эффективного использования.

Иммунизация модели с точки зрения числа обусловленности
Model Immunization from a Condition Number Perspective

May 29, 2025
Amber Yijia Zheng, Cedar Site Bai, Brian Bullins, Raymond A. Yeh
82

Иммунизация моделей направлена на предварительное обучение моделей, которые сложно адаптировать для выполнения вредоносных задач, сохраняя при этом их полезность для других, не вредоносных задач. Хотя предыдущие работы продемонстрировали эмпирические доказательства возможности иммунизации моделей "текст-изображение", ключевое понимание условий, при которых иммунизация возможна, и точное определение иммунизированной модели остаются неясными. В данной работе мы предлагаем фреймворк, основанный на числе обусловленности матрицы Гессе, для анализа иммунизации линейных моделей. На основе этого фреймворка мы разрабатываем алгоритм с регуляризационными членами для управления результирующими числами обусловленности после предварительного обучения. Эмпирические результаты, полученные на линейных моделях и нелинейных глубоких сетях, демонстрируют эффективность предложенного алгоритма для иммунизации моделей. Код доступен по адресу https://github.com/amberyzheng/model-immunization-cond-num.

GUI-Reflection: Наделение мультимодальных моделей графического интерфейса способностью к саморефлексии поведения
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

Jun 9, 2025
Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
72

Мультимодальные крупные языковые модели (MLLMs) продемонстрировали значительный потенциал в революционизации автоматизации графических пользовательских интерфейсов (GUI). Однако существующие модели GUI в основном полагаются на обучение на основе почти безошибочных оффлайн-траекторий, что ограничивает их способность к рефлексии и восстановлению после ошибок. Чтобы устранить этот пробел, мы предлагаем GUI-Reflection — новую структуру, которая явно интегрирует способности к саморефлексии и исправлению ошибок в энд-ту-энд мультимодальные модели GUI через выделенные этапы обучения: предварительное обучение, специфичное для GUI, оффлайн-тонкая настройка с учителем (SFT) и онлайн-настройка на рефлексию. GUI-Reflection позволяет возникновению поведения саморефлексии с полностью автоматизированными процессами генерации данных и обучения, не требуя аннотаций от человека. В частности: 1) мы предлагаем масштабируемые конвейеры данных для автоматического создания данных для рефлексии и исправления ошибок на основе существующих успешных траекторий. В то время как существующие модели GUI в основном сосредоточены на способностях к заземлению и пониманию интерфейсов, мы предлагаем набор задач GUI-Reflection для явного обучения и оценки способностей, ориентированных на рефлексию. 2) Кроме того, мы создали разнообразную и эффективную среду для онлайн-обучения и сбора данных для моделей GUI на мобильных устройствах. 3) Мы также представляем итеративный алгоритм онлайн-настройки на рефлексию, использующий предложенную среду, что позволяет модели непрерывно улучшать свои способности к рефлексии и исправлению ошибок. Наша структура оснащает агентов GUI способностями к саморефлексии и исправлению, прокладывая путь к более устойчивой, адаптивной и интеллектуальной автоматизации GUI, при этом все данные, модели, среды и инструменты будут опубликованы в открытом доступе.

Dreamland: Создание управляемых миров с использованием симуляторов и генеративных моделей
Dreamland: Controllable World Creation with Simulator and Generative Models

Jun 9, 2025
Sicheng Mo, Ziyang Leng, Leon Liu, Weizhen Wang, Honglin He, Bolei Zhou
72

Крупномасштабные генеративные модели для видео способны синтезировать разнообразный и реалистичный визуальный контент для создания динамических миров, однако они часто не обеспечивают поэлементного управления, что ограничивает их использование в редактировании сцен и обучении воплощенных ИИ-агентов. Мы предлагаем Dreamland — гибридную структуру для генерации миров, которая сочетает детализированный контроль физического симулятора и фотореалистичный вывод крупномасштабных предобученных генеративных моделей. В частности, мы разработали слоистую абстракцию мира, которая кодирует семантику и геометрию как на уровне пикселей, так и на уровне объектов, используя промежуточное представление для связи симулятора и генеративной модели. Этот подход повышает управляемость, минимизирует затраты на адаптацию за счет раннего согласования с распределениями реального мира и поддерживает использование существующих и будущих предобученных генеративных моделей без дополнительной доработки. Мы также создали набор данных D3Sim для облегчения обучения и оценки гибридных генеративных процессов. Эксперименты показывают, что Dreamland превосходит существующие базовые методы, улучшая качество изображений на 50,8% и повышая управляемость на 17,9%, а также демонстрирует значительный потенциал для улучшения обучения воплощенных агентов. Код и данные будут доступны.

Хорошее начало — половина дела: согласование предпочтений при ограниченных ресурсах через декодирование от слабого к сильному
Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

Jun 9, 2025
Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
72

Крупные языковые модели (LLM) требуют согласования с человеческими предпочтениями, чтобы избежать генерации оскорбительного, ложного или бессмысленного контента. В последнее время популярны методы согласования LLM с ограниченными ресурсами, хотя они по-прежнему сталкиваются с трудностями в получении как высококачественного, так и согласованного контента. Вдохновленные наблюдением, что сложность генерации согласованных ответов сосредоточена в начале декодирования, мы предлагаем новый фреймворк, Weak-to-Strong Decoding (WSD), для улучшения способности базовых моделей к согласованию с помощью руководства небольшой согласованной модели. Небольшая модель сначала создает хорошо согласованные начала, за которыми следует продолжение крупной базовой модели, управляемое хорошо продуманным механизмом автоматического переключения. Мы также собираем новый набор данных, GenerAlign, для тонкой настройки небольшой модели Pilot-3B в качестве черновой модели, что эффективно улучшает различные базовые модели в рамках фреймворка WSD, превосходя все базовые методы, при этом избегая ухудшения на последующих задачах, известного как "налог на согласование". Дополнительно проводятся обширные эксперименты для изучения влияния различных настроек и временной эффективности, а также глубокий анализ внутренних механизмов WSD.

SynthesizeMe! Генерация персонализированных подсказок для создания персонализированных моделей вознаграждения в крупных языковых моделях
SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs

Jun 5, 2025
Michael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang
62

Недавние призывы к плюралистической настройке больших языковых моделей (LLM) подчеркивают необходимость адаптации моделей к разнообразным предпочтениям пользователей. Однако большинство предыдущих работ по персонализированным моделям вознаграждения в значительной степени опираются на дополнительную информацию о пользователях, такую как демографические данные или заранее определенный набор категорий предпочтений. В связи с этим мы представляем SynthesizeMe — подход к созданию синтетических пользовательских персонажей на основе взаимодействий пользователей для персонализированного моделирования вознаграждения. SynthesizeMe сначала генерирует и проверяет рассуждения, объясняющие предпочтения пользователей, затем создает синтетические персонажи на основе этих рассуждений и, наконец, фильтрует информативные предыдущие взаимодействия пользователей для создания персонализированных промптов для конкретного пользователя. Мы показываем, что использование промптов, созданных с помощью SynthesizeMe, повышает точность персонализированной оценки LLM в качестве судьи на 4,4% в Chatbot Arena. Комбинирование промптов, полученных с помощью SynthesizeMe, с моделью вознаграждения позволяет достичь наивысшей производительности на PersonalRewardBench — новом наборе данных, включающем стратифицированные по пользователям взаимодействия с чат-ботами, собранные от 854 пользователей Chatbot Arena и PRISM.

SAFEFLOW: Принципиальный протокол для надежных и транзакционных систем автономных агентов
SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems

Jun 9, 2025
Peiran Li, Xinkai Zou, Zhuohang Wu, Ruifeng Li, Shuo Xing, Hanwen Zheng, Zhikai Hu, Yuping Wang, Haoxi Li, Qin Yuan, Yingmo Zhang, Zhengzhong Tu
52

Последние достижения в области крупных языковых моделей (LLM) и моделей, объединяющих зрение и язык (VLM), позволили создать мощные автономные агенты, способные к сложным рассуждениям и использованию мультимодальных инструментов. Несмотря на растущие возможности, современные фреймворки для агентов остаются хрупкими, не имея принципиальных механизмов для обеспечения безопасного потока информации, надежности и координации между несколькими агентами. В данной работе мы представляем SAFEFLOW — новый фреймворк на уровне протокола для создания доверенных агентов на основе LLM/VLM. SAFEFLOW обеспечивает детализированный контроль потока информации (IFC), точно отслеживая происхождение, целостность и конфиденциальность всех данных, передаваемых между агентами, инструментами, пользователями и окружением. Ограничивая рассуждения LLM в соответствии с этими метками безопасности, SAFEFLOW предотвращает загрязнение решений с высокой целостностью недоверенными или враждебными входными данными. Для обеспечения устойчивости в условиях одновременной работы нескольких агентов SAFEFLOW вводит транзакционное выполнение, разрешение конфликтов и безопасное планирование над общим состоянием, сохраняя глобальную согласованность между агентами. Мы также представляем механизмы, включая предварительное журналирование, откат и безопасные кэши, которые дополнительно повышают устойчивость к ошибкам времени выполнения и нарушениям политик. Для проверки производительности мы создали SAFEFLOWBENCH — комплексный набор тестов, предназначенный для оценки надежности агентов в условиях враждебных, зашумленных и конкурентных операционных сценариев. Многочисленные эксперименты демонстрируют, что агенты, построенные с использованием SAFEFLOW, сохраняют впечатляющую производительность и гарантии безопасности даже в неблагоприятных условиях, значительно превосходя современные аналоги. Вместе SAFEFLOW и SAFEFLOWBENCH закладывают основу для принципиально надежных и безопасных экосистем агентов, продвигая границы надежной автономии.

То, что увидели, нельзя не увидеть: разрушительное влияние конфликта знаний на большие языковые модели
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models

Jun 6, 2025
Kaiser Sun, Fan Bai, Mark Dredze
52

Крупные языковые модели часто полагаются как на контекстный ввод, так и на параметрические знания для выполнения задач. Однако эти источники могут вступать в противоречие, особенно когда извлеченные документы противоречат параметрическим знаниям модели. Мы предлагаем диагностическую структуру для систематической оценки поведения языковых моделей в условиях конфликта между контекстом и памятью, когда контекстная информация расходится с их параметрическими убеждениями. Мы создаем диагностические данные, которые вызывают такие конфликты, и анализируем производительность моделей в различных типах задач. Наши результаты показывают, что (1) конфликт знаний оказывает минимальное влияние на задачи, не требующие использования знаний, (2) производительность модели стабильно выше, когда контекстные и параметрические знания согласованы, (3) модели не способны полностью подавить свои внутренние знания даже при наличии соответствующих инструкций, и (4) предоставление объяснений, раскрывающих конфликт, увеличивает зависимость от контекста. Эти выводы вызывают обеспокоенность в отношении достоверности оценки на основе моделей и подчеркивают необходимость учета конфликта знаний при внедрении крупных языковых моделей.

Картриджи: Легковесные и универсальные представления длинных контекстов через самообучение
Cartridges: Lightweight and general-purpose long context representations via self-study

Jun 6, 2025
Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re
52

Крупные языковые модели часто используются для ответов на запросы, основанные на больших текстовых корпусах (например, базах кода, юридических документах или истории чатов), путем размещения всего корпуса в контекстном окне и использования обучения в контексте (ICL). Хотя современные модели поддерживают контексты размером 100K-1M токенов, такое решение является дорогостоящим для обслуживания, поскольку потребление памяти кэша ключей и значений (KV) масштабируется с длиной входных данных. Мы исследуем альтернативный подход: обучение меньшего кэша KV оффлайн для каждого корпуса. Во время вывода мы загружаем этот обученный кэш KV, который мы называем "Картридж", и декодируем ответ. Важно, что стоимость обучения Картриджа может быть распределена на все запросы, ссылающиеся на один и тот же корпус. Однако мы обнаружили, что наивный подход обучения Картриджа с предсказанием следующего токена на корпусе не конкурирует с ICL. Вместо этого мы предлагаем метод "самообучения" — рецепт обучения, в котором мы генерируем синтетические диалоги о корпусе и обучаем Картридж с целью контекстной дистилляции. Мы обнаружили, что Картриджи, обученные с помощью самообучения, воспроизводят функциональность ICL, при этом будучи значительно дешевле в обслуживании. На сложных бенчмарках для длинных контекстов Картриджи, обученные с помощью самообучения, соответствуют производительности ICL, используя в 38,6 раз меньше памяти и обеспечивая в 26,4 раза большую пропускную способность. Самообучение также расширяет эффективную длину контекста модели (например, с 128k до 484k токенов на MTOB) и, что удивительно, позволяет комбинировать Картриджи во время вывода без необходимости их переобучения.

Агенты перемен: Саморазвивающиеся агенты на основе больших языковых моделей для стратегического планирования
Agents of Change: Self-Evolving LLM Agents for Strategic Planning

Jun 5, 2025
Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
52

Последние достижения в области больших языковых моделей (LLM) позволили использовать их в качестве автономных агентов для решения широкого круга задач, однако они по-прежнему испытывают трудности с формулированием и соблюдением последовательных долгосрочных стратегий. В данной статье мы исследуем, могут ли LLM-агенты самостоятельно совершенствоваться в средах, которые явно бросают вызов их способностям к стратегическому планированию. Используя настольную игру "Колонизаторы" (Settlers of Catan) через открытый фреймворк Catanatron, мы проводим сравнительный анализ ряда LLM-агентов, начиная с простого игрового агента и заканчивая системами, способными автономно переписывать свои собственные промпты и код игрового агента. Мы представляем многоагентную архитектуру, в которой специализированные роли (Анализатор, Исследователь, Программист и Игрок) взаимодействуют для итеративного анализа игрового процесса, исследования новых стратегий и модификации логики или промпта агента. Сравнивая агентов, созданных вручную, с теми, которые полностью эволюционировали под управлением LLM, мы оцениваем, насколько эффективно эти системы могут диагностировать ошибки и адаптироваться с течением времени. Наши результаты показывают, что саморазвивающиеся агенты, особенно при использовании моделей, таких как Claude 3.7 и GPT-4o, превосходят статические базовые подходы за счет автономного принятия стратегий, передачи примеров поведения игровым агентам и демонстрации адаптивного мышления в ходе множества итераций.

Синтез динамических сцен как обратная задача
Dynamic View Synthesis as an Inverse Problem

Jun 9, 2025
Hidir Yesiltepe, Pinar Yanardag
42

В данной работе мы рассматриваем задачу синтеза динамических видов из монохромных видеозаписей как обратную задачу в условиях, не требующих обучения. Перепроектировав этап инициализации шума в предварительно обученной модели диффузии видео, мы достигаем синтеза высококачественных динамических видов без обновления весов или использования дополнительных модулей. Мы начинаем с выявления фундаментального препятствия для детерминированной инверсии, связанного с графиками отношения сигнал-шум (SNR) с нулевым конечным значением, и устраняем его, вводя новое представление шума, названное K-порядковым рекурсивным представлением шума. Мы выводим аналитическое выражение для этого представления, что позволяет точно и эффективно согласовывать латентные переменные, закодированные VAE, и инвертированные с помощью DDIM. Для синтеза новых видимых областей, возникающих в результате движения камеры, мы предлагаем стохастическую модуляцию латентного пространства, которая выполняет выборку с учетом видимости для заполнения скрытых областей. Комплексные эксперименты демонстрируют, что синтез динамических видов может быть эффективно выполнен за счет структурированного манипулирования латентным пространством на этапе инициализации шума.

τ^2-Bench: Оценка диалоговых агентов в среде с двойным управлением
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment

Jun 9, 2025
Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
42

Существующие эталонные тесты для диалоговых ИИ-агентов моделируют среды с единым управлением, где только ИИ-агент может использовать инструменты для взаимодействия с миром, в то время как пользователь остается пассивным поставщиком информации. Это отличается от реальных сценариев, таких как техническая поддержка, где пользователям необходимо активно участвовать в изменении состояния (общего) мира. Чтобы устранить этот разрыв, мы представляем tau^2-bench, который включает четыре ключевых аспекта: 1) Новую телекоммуникационную область с двойным управлением, смоделированную как Dec-POMDP, где и агент, и пользователь используют инструменты для действий в общей динамической среде, что проверяет как координацию, так и коммуникацию агента, 2) Композиционный генератор задач, который программно создает разнообразные, проверяемые задачи из атомарных компонентов, обеспечивая охват области и контролируемую сложность, 3) Надежный симулятор пользователя, тесно связанный с окружением, чье поведение ограничено инструментами и наблюдаемыми состояниями, что повышает точность симуляции, 4) Детальный анализ производительности агента с помощью множественных абляций, включая разделение ошибок, возникающих из-за рассуждений, и ошибок коммуникации/координации. В частности, наши эксперименты показывают значительное снижение производительности, когда агенты переходят от режима без пользователя к двойному управлению, что подчеркивает сложности в руководстве пользователями. В целом, tau^2-bench предоставляет контролируемую тестовую среду для агентов, которые должны как эффективно рассуждать, так и направлять действия пользователей.

CyberV: Кибернетика для масштабирования во время тестирования в задачах понимания видео
CyberV: Cybernetics for Test-time Scaling in Video Understanding

Jun 9, 2025
Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
42

Современные мультимодальные большие языковые модели (MLLM) могут испытывать трудности с пониманием длинных или сложных видео из-за вычислительных требований во время тестирования, недостаточной устойчивости и ограниченной точности, что в основном обусловлено их последовательной обработкой данных. Эти ограничения могут быть более выраженными для моделей с меньшим количеством параметров. Чтобы устранить эти недостатки, мы предлагаем новую структуру, вдохновленную кибернетическими принципами, которая переосмысливает видео-MLLM как адаптивные системы, способные к самоконтролю, самокоррекции и динамическому распределению ресурсов во время вывода. Наш подход, CyberV, вводит кибернетический цикл, состоящий из системы вывода MLLM, сенсора и контроллера. В частности, сенсор отслеживает процессы вывода MLLM и собирает промежуточные интерпретации, такие как смещение внимания, после чего контроллер определяет, когда и как инициировать самокоррекцию и генерировать обратную связь для управления следующим этапом. Эта адаптивная структура масштабирования во время тестирования улучшает замороженные MLLM без необходимости переобучения или дополнительных компонентов. Эксперименты демонстрируют значительные улучшения: CyberV повышает производительность Qwen2.5-VL-7B на 8.3% и InternVL3-8B на 5.5% на тесте VideoMMMU, превосходя конкурентоспособную проприетарную модель GPT-4o. При применении к Qwen2.5-VL-72B она дает улучшение на 10.0%, достигая производительности, сравнимой с экспертами-людьми. Кроме того, наш метод демонстрирует стабильные улучшения на общецелевых тестах, таких как VideoMME и WorldSense, подчеркивая его эффективность и способность к обобщению в повышении устойчивости и точности MLLM для динамического понимания видео. Код доступен по адресу https://github.com/marinero4972/CyberV.

PolyVivid: Яркая генерация видео с несколькими объектами с использованием кросс-модального взаимодействия и улучшения
PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement

Jun 9, 2025
Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
32

Несмотря на недавние достижения в области генерации видео, существующие модели по-прежнему недостаточно контролируемы на детальном уровне, особенно в задачах кастомизации с несколькими объектами, требующих сохранения идентичности и взаимодействия. В данной статье мы представляем PolyVivid — фреймворк для кастомизации видео с несколькими объектами, который обеспечивает гибкую и идентично-согласованную генерацию. Для установления точных соответствий между изображениями объектов и текстовыми сущностями мы разработали модуль слияния текста и изображений на основе VLLM, который встраивает визуальные идентичности в текстовое пространство для точного привязывания. Для дальнейшего улучшения сохранения идентичности и взаимодействия объектов мы предлагаем модуль улучшения на основе 3D-RoPE, который обеспечивает структурированное двунаправленное слияние текстовых и визуальных эмбеддингов. Кроме того, мы разработали модуль инъекции идентичности с наследованием внимания, который эффективно внедряет объединенные признаки идентичности в процесс генерации видео, минимизируя смещение идентичности. Наконец, мы создали конвейер данных на основе MLLM, который объединяет привязывание, сегментацию и стратегию консолидации объектов на основе клик для создания высококачественных данных с несколькими объектами, что значительно улучшает различение объектов и снижает неоднозначность в последующей генерации видео. Многочисленные эксперименты демонстрируют, что PolyVivid достигает превосходных результатов в точности идентичности, реалистичности видео и согласованности объектов, превосходя существующие открытые и коммерческие базовые модели.

Улучшение крупных языковых моделей с помощью тонкой настройки с учетом концепций
Improving large language models with concept-aware fine-tuning

Jun 9, 2025
Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
32

Крупные языковые модели (LLM) стали краеугольным камнем современного искусственного интеллекта. Однако существующая парадигма предсказания следующего токена фундаментально ограничивает их способность формировать связные, высокоуровневые концепции, что представляет собой критический барьер для достижения человеческого уровня понимания и рассуждений. Возьмем, к примеру, фразу "рибонуклеиновая кислота": LLM сначала разложит её на токены, то есть искусственные фрагменты текста ("риб", "он", ...), а затем будет изучать каждый токен последовательно, вместо того чтобы воспринимать фразу как единое, связное семантическое целое. Такое фрагментированное представление препятствует более глубокому концептуальному пониманию и, в конечном итоге, развитию по-настоящему интеллектуальных систем. В ответ на это мы представляем Concept-Aware Fine-Tuning (CAFT) — новый метод обучения на множестве токенов, который переопределяет подход к тонкой настройке LLM. Благодаря возможности изучения последовательностей, охватывающих несколько токенов, этот метод способствует более сильному концептуальному обучению. Наши эксперименты демонстрируют значительные улучшения по сравнению с традиционными методами тонкой настройки на основе предсказания следующего токена в различных задачах, включая традиционные приложения, такие как суммаризация текста, и узкоспециализированные, такие как дизайн белков de novo. Предсказание на множестве токенов ранее было возможно только на чрезвычайно дорогостоящем этапе предварительного обучения; CAFT, насколько нам известно, впервые переносит этот подход на этап пост-обучения, тем самым эффективно демократизируя его преимущества для широкого круга практиков и исследователей. Наконец, неожиданная эффективность предложенного метода указывает на более широкие последствия для сообщества исследователей машинного обучения. Весь код и данные доступны по адресу https://github.com/michaelchen-lab/caft-llm.

Обучение тому, что не под силу обучению с подкреплением: чередующаяся онлайн тонкая настройка для самых сложных вопросов
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Jun 9, 2025
Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
32

Последние достижения в области рассуждений больших языковых моделей (LLM) показали, что сложные поведенческие паттерны, такие как планирование и саморефлексия, могут возникать благодаря обучению с подкреплением (RL). Однако, несмотря на эти успехи, RL в его текущей форме остается недостаточным для преодоления ограничений базовой модели, поскольку он в основном оптимизируется на основе существующих знаний модели, а не способствует приобретению новой информации. Чтобы устранить этот недостаток, мы применяем контролируемую тонкую настройку (SFT) для изучения того, что RL не может освоить, что позволяет интегрировать новые знания и паттерны рассуждений с использованием высококачественных демонстрационных данных. Мы анализируем динамику обучения RL и SFT для рассуждений LLM и обнаруживаем, что RL лучше справляется с поддержанием и улучшением производительности на вопросах, соответствующих исходным возможностям модели, тогда как SFT более эффективен для прогресса в вопросах, выходящих за пределы текущих возможностей модели. Вдохновленные комплементарными преимуществами RL и SFT, мы представляем новый подход к обучению — ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). В ReLIFT модель в основном обучается с использованием RL, но при столкновении со сложными вопросами собираются высококачественные решения для тонкой настройки, и процесс обучения чередуется между RL и тонкой настройкой для улучшения способностей модели к рассуждению. ReLIFT демонстрирует среднее улучшение на более чем +5,2 балла на пяти соревновательных бенчмарках и одном бенчмарке вне распределения по сравнению с другими моделями без RL. Кроме того, мы показываем, что ReLIFT превосходит как RL, так и SFT, используя лишь 13\% детализированных демонстрационных данных, что подчеркивает его масштабируемость. Эти результаты убедительно свидетельствуют о том, что ReLIFT преодолевает фундаментальные ограничения RL и подчеркивает его значительный потенциал.

Разгон рассуждений в языковых моделях: мониторинг и управление длиной путей мышления в LLM
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs

Jun 8, 2025
Roy Eisenstadt, Itamar Zimerman, Lior Wolf
32

В последнее время такие методы, как явное структурированное рассуждение, продемонстрировали сильное масштабирование на этапе тестирования за счёт разделения внутреннего процесса "мышления" модели и её окончательного ответа. Ключевым фактором, влияющим на качество ответа в этом контексте, является продолжительность этапа мышления. Если рассуждение слишком короткое, модель может не справиться с сложностью задачи. С другой стороны, если оно слишком длинное, модель может "передумать", что приведёт к избыточным вычислениям и ухудшению производительности. В данной статье исследуются и используются механизмы, с помощью которых крупные языковые модели (LLM) понимают и регулируют продолжительность своих рассуждений в процессе явного мышления. Во-первых, мы показываем, что LLM кодируют свой прогресс в процессе рассуждения, и представляем интерактивную визуализацию в виде прогресс-бара, которая используется для анализа динамики планирования модели. Во-вторых, мы манипулируем внутренним кодированием прогресса на этапе вывода, чтобы сократить ненужные шаги и сформировать более лаконичную и решительную цепочку мыслей. Наши эмпирические результаты показывают, что этот метод "разгона" смягчает проблему передумывания, повышает точность ответов и снижает задержку вывода. Наш код доступен публично.

GeometryZero: Улучшение решения геометрических задач для языковых моделей с помощью групповой контрастной оптимизации политик
GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization

Jun 8, 2025
Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
32

Последние достижения в области больших языковых моделей (LLM) продемонстрировали впечатляющие возможности в различных областях, особенно в математических рассуждениях, среди которых решение геометрических задач остается сложной задачей, где вспомогательные построения играют ключевую роль. Существующие подходы либо демонстрируют неоптимальную производительность, либо полагаются на крупные LLM (например, GPT-4), что влечет за собой значительные вычислительные затраты. Мы предполагаем, что обучение с подкреплением с верифицируемой наградой (например, GRPO) предлагает перспективное направление для обучения более компактных моделей, которые эффективно сочетают вспомогательные построения с надежными геометрическими рассуждениями. Однако прямое применение GRPO к геометрическим задачам имеет фундаментальные ограничения из-за зависимости от безусловных наград, что приводит к неразборчивым и контрпродуктивным вспомогательным построениям. Для решения этих проблем мы предлагаем Group Contrastive Policy Optimization (GCPO), новую структуру обучения с подкреплением, включающую два ключевых нововведения: (1) Group Contrastive Masking, который адаптивно предоставляет положительные или отрицательные сигналы награды для вспомогательных построений на основе контекстной полезности, и (2) награду за длину, которая способствует более длинным цепочкам рассуждений. На основе GCPO мы разрабатываем GeometryZero, семейство моделей для геометрических рассуждений с умеренным размером, которые разумно определяют, когда использовать вспомогательные построения. Наши обширные эмпирические оценки на популярных геометрических тестах (Geometry3K, MathVista) показывают, что модели GeometryZero стабильно превосходят базовые подходы (например, GRPO), достигая среднего улучшения на 4,29% по всем тестам.

Самоадаптирующиеся циклы улучшения для обучения роботов
Self-Adapting Improvement Loops for Robotic Learning

Jun 7, 2025
Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
32

Видеогенеративные модели, обученные на экспертных демонстрациях, используются как эффективные визуальные планировщики, управляемые текстовыми условиями, для решения роботизированных задач. Однако обобщение на неизвестные задачи остается сложной задачей. Хотя улучшение обобщения может быть достигнуто за счет использования предварительно полученных знаний из дополнительных оффлайн-источников данных, таких как веб-масштабные видеонаборы, в эпоху опыта мы стремимся разработать агентов, способных непрерывно улучшаться в онлайн-режиме на основе самостоятельно собранных поведений. В данной работе мы предлагаем **Цикл Самоадаптирующегося Улучшения (Self-Adapting Improvement Loop, SAIL)**, в котором внутридоменная видеомодель итеративно обновляется на основе самостоятельно созданных траекторий, собранных через адаптацию с помощью предобученной на интернет-масштабных данных видеомодели, и постепенно улучшает свою производительность для конкретной целевой задачи. Мы применяем SAIL к разнообразному набору задач MetaWorld, а также к двум задачам манипуляции на реальном роботизированном манипуляторе, и обнаруживаем, что улучшение производительности непрерывно проявляется на протяжении нескольких итераций для новых задач, изначально не представленных при обучении внутридоменной видеомодели. Более того, мы выясняем, что SAIL удивительно устойчив к тому, фильтруется ли самостоятельно собранный опыт и как, а также к качеству начальных внутридоменных демонстраций. Благодаря адаптации с использованием обобщенных интернет-масштабных данных и обучению через онлайн-опыт, мы демонстрируем способ итеративного создания высокопроизводительной видеомодели для решения новых роботизированных задач через самоулучшение.

NetPress: Динамически генерируемые тесты для языковых моделей в сетевых приложениях
NetPress: Dynamically Generated LLM Benchmarks for Network Applications

Jun 3, 2025
Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
33

Несмотря на растущий интерес к предметно-ориентированному тестированию больших языковых моделей (LLM) и агентов, текущие оценки ограничиваются статичными, небольшими наборами данных, особенно в критически важных задачах, таких как сетевая эксплуатация, где требуется высокая надежность для развертывания. Мы представляем NetPress — автоматизированную платформу для генерации тестовых наборов, предназначенную для оценки LLM-агентов в сетевых приложениях. NetPress вводит унифицированную абстракцию с состоянием и действием, что позволяет динамически генерировать разнообразные наборы запросов вместе с соответствующими эталонными ответами. В процессе работы пользователи могут задавать конфигурации тестов для генерации миллионов запросов на лету. Помимо динамического создания тестов, NetPress интегрируется с сетевыми эмуляторами, предоставляя реалистичную обратную связь от среды, что поддерживает всестороннюю оценку по критериям корректности, безопасности и задержек. Мы применяем NetPress в трех типичных приложениях, выявляя интересные тонкие различия в поведении агентов, которые часто упускаются статичными тестами, ориентированными только на корректность. NetPress продвигает оценку LLM в сторону реалистичного, масштабируемого тестирования в инфраструктурно-ориентированных областях, помогая сократить разрыв между производительностью на тестах и готовностью к реальному развертыванию. Код доступен по адресу: https://github.com/Froot-NetSys/NetPress.

Пересадка токенизатора без обучения с использованием ортогонального метода поиска совпадений
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit

Jun 7, 2025
Charles Goddard, Fernando Fernandes Neto
22

Мы представляем метод пересадки токенизаторов в предобученные большие языковые модели (LLM) без необходимости дополнительного обучения, восстанавливая неизвестные токенные эмбеддинги с помощью метода ортогонального согласованного поиска (Orthogonal Matching Pursuit, OMP). В частности, мы аппроксимируем каждый токен, отсутствующий в словаре, как разреженную линейную комбинацию общих токенов в два этапа: сначала вычисляем представление каждого нового токена в пространстве эмбеддингов донорской модели с использованием небольшого словаря общих опорных токенов, затем переносим те же самые разреженные коэффициенты обратно в пространство эмбеддингов базовой модели. На двух сложных задачах кросс-токенизации — LlamatoMistral NeMo (12B) и QwentoLlama (1B) — мы показываем, что OMP обеспечивает наилучшее сохранение производительности базовой модели в условиях zero-shot на множестве бенчмарков, в то время как другие zero-shot подходы значительно ухудшают результаты. По сравнению с базовыми методами (zero-init, mean-init и существующими подходами, такими как WECHSEL, FOCUS, ZETT), OMP стабильно демонстрирует наилучшую общую производительность, эффективно устраняя значительные расхождения между токенизаторами без обновления градиентов. Наш анализ также выявляет несоответствия в схемах числовой токенизации как ключевую проблему для сохранения способностей к математическим рассуждениям. Этот метод позволяет напрямую использовать предобученные веса модели с новыми токенизаторами, упрощая кросс-токенизационное дистилляцию знаний, спекулятивное декодирование, ансамблирование, слияние моделей и адаптацию словаря под конкретные домены. Мы интегрировали наш метод в инструмент с открытым исходным кодом mergekit-tokensurgeon для последующего выравнивания словаря.

Генерация проактивного диалога помощника на основе потоковых эгоцентричных видео
Proactive Assistant Dialogue Generation from Streaming Egocentric Videos

Jun 6, 2025
Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
22

Последние достижения в области диалогового ИИ значительны, однако разработка систем для оперативного руководства в перцептивных задачах остается сложной задачей. Такие системы должны предоставлять интерактивную и проактивную помощь на основе потоковых визуальных данных, но их разработка ограничена дорогостоящим и трудоемким процессом сбора данных и оценки системы. Для преодоления этих ограничений мы представляем комплексную структуру с тремя ключевыми вкладами. Во-первых, мы вводим новый конвейер обработки данных, который синтезирует диалоги из аннотированных эгоцентричных видео, создавая \dataset — крупномасштабный синтетический набор диалогов, охватывающий множество областей. Во-вторых, мы разрабатываем набор автоматических метрик оценки, проверенных в ходе масштабных исследований с участием людей. В-третьих, мы предлагаем сквозную модель, которая обрабатывает потоковые видео для генерации контекстуально уместных ответов, включая новые методы для работы с дисбалансом данных и длительными видео. Эта работа закладывает основу для создания оперативных и проактивных ИИ-ассистентов, способных направлять пользователей в выполнении разнообразных задач. Страница проекта: https://pro-assist.github.io/

MegaHan97K: Масштабный набор данных для распознавания китайских иероглифов мега-категорий с более чем 97 тысячами категорий
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories

Jun 5, 2025
Yuyi Zhang, Yongxin Shi, Peirong Zhang, Yixin Zhao, Zhenhua Yang, Lianwen Jin
22

Китайские иероглифы, являющиеся основой китайского языка и культуры, охватывают чрезвычайно обширные и постоянно расширяющиеся категории, причем последний стандарт GB18030-2022 включает 87 887 категорий. Точное распознавание такого огромного количества символов, называемое мегакатегорийным распознаванием, представляет собой сложную, но крайне важную задачу для сохранения культурного наследия и цифровых приложений. Несмотря на значительные достижения в области оптического распознавания символов (OCR), мегакатегорийное распознавание остается малоизученным из-за отсутствия всеобъемлющих наборов данных, причем самый крупный существующий набор содержит лишь 16 151 категорию. Чтобы восполнить этот критический пробел, мы представляем MegaHan97K — мегакатегорийный, крупномасштабный набор данных, охватывающий беспрецедентные 97 455 категорий китайских иероглифов. Наша работа вносит три основных вклада: (1) MegaHan97K — это первый набор данных, полностью поддерживающий последний стандарт GB18030-2022, предоставляя как минимум в шесть раз больше категорий, чем существующие наборы; (2) Он эффективно решает проблему длинного хвоста распределения, предоставляя сбалансированные образцы для всех категорий через три отдельных подмножества: рукописное, историческое и синтетическое; (3) Комплексные эксперименты по тестированию выявляют новые вызовы в мегакатегорийных сценариях, включая повышенные требования к хранению данных, распознавание морфологически схожих символов и трудности в обучении с нулевым разбором, одновременно открывая значительные возможности для будущих исследований. Насколько нам известно, MegaHan97K, вероятно, является набором данных с наибольшим количеством классов не только в области OCR, но и, возможно, в более широкой области распознавания образов. Набор данных доступен по адресу: https://github.com/SCUT-DLVCLab/MegaHan97K.

Оптимизация устойчивых предпочтений с использованием динамических целевых границ
Robust Preference Optimization via Dynamic Target Margins

Jun 4, 2025
Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
22

Выравнивание крупных языковых моделей (LLM) имеет решающее значение для обеспечения их безопасности и надежности в практических приложениях. Оптимизация на основе прямых предпочтений (DPO) стала эффективным методом, который напрямую оптимизирует модели с использованием пар предпочтений, значительно снижая потребность в ресурсах. Однако эффективность DPO во многом зависит от качества данных, которое часто страдает из-за наличия шума. В данной работе мы предлагаем gamma-PO — алгоритм динамической оптимизации предпочтений с изменяемой целевой границей, который регулирует границы вознаграждения на уровне пар. Благодаря введению калибровки границ для каждого конкретного экземпляра, gamma-PO стратегически отдает приоритет парам с высокой уверенностью (демонстрирующим большие границы вознаграждения), одновременно подавляя потенциальный шум от неоднозначных пар. Более того, gamma-PO является методом "подключи и работай", совместимым с вариантами DPO, которые опираются на границу вознаграждения между парами предпочтений. На тестовых наборах, таких как AlpacaEval2 и Arena-Hard, gamma-PO демонстрирует среднее улучшение на 4,4% по сравнению с другими базовыми методами, устанавливая новые стандарты для передовых показателей производительности. Кроме того, gamma-PO требует минимальных изменений в коде и оказывает незначительное влияние на эффективность обучения, что делает его надежным решением для улучшения выравнивания LLM. Наш код доступен по адресу https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.

Скрытое на виду: исследование имплицитных рассуждений в мультимодальных языковых моделях
Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models

May 30, 2025
Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
21

Мультимодальные крупные языковые модели (MLLMs) всё чаще применяются в открытых, реальных условиях, где входные данные являются неупорядоченными, недостаточно определёнными и не всегда заслуживающими доверия. В отличие от тщательно отобранных тестовых наборов, такие условия часто включают инструкции, которые ссылаются на отсутствующие объекты или противоречивые факты, опираются на неоднозначные ссылки или запрашивают невыполнимые действия. В таких случаях успех зависит не только от выполнения задачи, но и от способности модели обнаруживать, когда что-то скрыто неправильно. В данной статье представлен систематический анализ того, как современные MLLM справляются с такими сценариями неявного рассуждения: случаями, когда ошибка не указана явно, но должна быть выведена из контекста. Используя тщательно разработанный диагностический набор, охватывающий четыре категории реальных сбоев, мы оцениваем шесть MLLM, включая o3 и GPT-4o, и обнаруживаем, что модели часто не выявляют скрытые проблемы, даже если обладают необходимыми перцептивными и логическими навыками. Явные подсказки показывают, что базовые способности существуют, но часто подавляются в пользу соответствия запросам пользователя. Мы также демонстрируем, что простые вмешательства на этапе вывода, такие как осторожное использование персонажей в подсказках и, в частности, требование уточняющего вопроса, могут значительно улучшить производительность. Наши результаты подчеркивают устойчивый разрыв между логической компетентностью и поведенческим соответствием в современных MLLM и предлагают практические стратегии для повышения доверия к этим моделям в условиях с недостаточными ограничениями.

EVOREFUSE: Эволюционная оптимизация запросов для оценки и снижения чрезмерного отказа LLM на псевдовредоносные инструкции
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

May 29, 2025
Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
22

Крупные языковые модели (LLM) часто отказываются отвечать на псевдо-вредоносные инструкции: семантически безобидные входные запросы, которые вызывают излишние отказы LLM из-за консервативной настройки на безопасность, что значительно ухудшает пользовательский опыт. Сбор таких инструкций крайне важен для оценки и смягчения чрезмерных отказов, однако существующие методы создания инструкций, такие как ручное составление или переписывание, либо недостаточно масштабируемы, либо не позволяют генерировать достаточно разнообразные и эффективные запросы, вызывающие отказы. Для решения этих проблем мы представляем EVOREFUSE — подход к оптимизации запросов, который генерирует разнообразные псевдо-вредоносные инструкции, стабильно вызывающие уверенные отказы в различных LLM. EVOREFUSE использует эволюционный алгоритм, исследующий пространство инструкций в более разнообразных направлениях, чем существующие методы, за счет стратегий мутации и рекомбинации, и итеративно развивает начальные инструкции для максимизации нижней границы доказательства вероятности отказа LLM. С помощью EVOREFUSE мы создали два новых набора данных: EVOREFUSE-TEST — эталонный набор из 582 псевдо-вредоносных инструкций, который превосходит ближайший эталонный набор с увеличением средней частоты вызова отказов на 140,41% для 9 LLM, на 34,86% большей лексической разнообразием и на 40,03% улучшенными показателями уверенности ответов LLM; и EVOREFUSE-ALIGN, который предоставляет 3000 псевдо-вредоносных инструкций с ответами для обучения с учителем и настройки на основе предпочтений. Модель LLAMA3.1-8B-INSTRUCT, дообученная с учителем на EVOREFUSE-ALIGN, демонстрирует до 14,31% меньше чрезмерных отказов по сравнению с моделями, обученными на втором лучшем наборе данных для настройки, без ущерба для безопасности. Наш анализ с использованием EVOREFUSE-TEST показывает, что модели вызывают чрезмерные отказы, излишне фокусируясь на чувствительных ключевых словах, игнорируя более широкий контекст.

Оценка устойчивости языковых моделей в условиях ограниченных ресурсов для языков с использованием прокси-моделей
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models

Jun 9, 2025
Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
12

Крупные языковые модели (LLM) в последние годы продемонстрировали впечатляющие возможности в различных задачах обработки естественного языка (NLP). Однако их уязвимость к взлому и возмущениям требует проведения дополнительных оценок. Многие LLM являются многоязычными, но данные для обучения, связанные с безопасностью, в основном содержат высокоресурсные языки, такие как английский. Это может оставлять их уязвимыми к возмущениям в низкоресурсных языках, таких как польский. Мы показываем, как удивительно мощные атаки могут быть дешево созданы путем изменения всего нескольких символов и использования небольшой прокси-модели для расчета важности слов. Мы обнаруживаем, что эти атаки на уровне символов и слов значительно изменяют предсказания различных LLM, что указывает на потенциальную уязвимость, которую можно использовать для обхода их внутренних механизмов безопасности. Мы проверяем нашу методологию построения атак на польском языке, низкоресурсном языке, и находим потенциальные уязвимости LLM в этом языке. Кроме того, мы показываем, как её можно расширить на другие языки. Мы публикуем созданные наборы данных и код для дальнейших исследований.

Мета-адаптивное дистиллирование промптов для визуального ответа на вопросы в условиях малого числа примеров
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Jun 7, 2025
Akash Gupta, Amos Storkey, Mirella Lapata
12

Крупные мультимодальные модели (LMM) часто полагаются на обучение в контексте (ICL) для выполнения новых задач с минимальным контролем. Однако производительность ICL, особенно в небольших LMM, нестабильна и не всегда монотонно улучшается с увеличением количества примеров. Мы предполагаем, что это происходит из-за перегрузки модели дополнительной информацией, присутствующей в эмбеддингах изображений, которая не требуется для решения целевой задачи. Для решения этой проблемы мы предлагаем мета-обучающий подход, который предоставляет альтернативу для развития способности к обучению с малым количеством примеров в LMM, используя фиксированный набор мягких промптов, которые извлекаются из релевантных признаков изображений и могут адаптироваться во время тестирования с использованием нескольких примеров. Для облегчения этого процесса мы вводим модуль attention-mapper, который легко интегрируется с популярной архитектурой LLaVA v1.5 и совместно обучается с мягкими промптами, что позволяет адаптировать LMM к задачам в условиях ограниченного количества данных всего за несколько шагов градиентного спуска. Оценка на бенчмарке VL-ICL показывает, что наш метод стабильно превосходит ICL и связанные подходы к настройке промптов, даже при наличии искажений изображений, улучшая индукцию задач и рассуждения в задачах визуального ответа на вопросы.

Jun 9
Jun 10
Jun 11