HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

51 papers found

Когда модели лгут, мы учимся: обнаружение спан-уровневых галлюцинаций в многоязычных данных с помощью PsiloQA
When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

Oct 6

ByElisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko, Vasily Konovalov, Julia Belikova

106

Обнаружение галлюцинаций остается фундаментальной задачей для безопасного и надежного развертывания больших языковых моделей (LLM), особенно в приложениях, требующих фактической точности. Существующие бенчмарки для оценки галлюцинаций часто работают на уровне последовательностей и ограничены английским языком, не предоставляя детального многоязычного контроля, необходимого для всесторонней оценки. В данной работе мы представляем PsiloQA — крупномасштабный многоязычный набор данных, аннотированный на уровне фрагментов с указанием галлюцинаций для 14 языков. PsiloQA создан с помощью автоматизированного трехэтапного процесса: генерации пар вопрос-ответ из Википедии с использованием GPT-4o, получения потенциально галлюцинированных ответов от различных LLM в условиях отсутствия контекста и автоматической аннотации галлюцинированных фрагментов с помощью GPT-4o путем сравнения с эталонными ответами и извлеченным контекстом. Мы оцениваем широкий спектр методов обнаружения галлюцинаций, включая количественную оценку неопределенности, тегирование на основе LLM и тонко настроенные модели-энкодеры, и показываем, что модели на основе энкодеров демонстрируют наилучшую производительность на всех языках. Кроме того, PsiloQA демонстрирует эффективную кросс-лингвистическую генерализацию и поддерживает устойчивый перенос знаний на другие бенчмарки, оставаясь при этом значительно более экономичным по сравнению с наборами данных, аннотированными вручную. Наш набор данных и результаты способствуют развитию масштабируемого и детального обнаружения галлюцинаций в многоязычных условиях.

Оптимизация политики с балансировкой энтропии агента
Agentic Entropy-Balanced Policy Optimization

Oct 16

ByGuanting Dong, Licheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou

В последнее время агентное обучение с подкреплением (Agentic RL) достигло значительного прогресса в стимулировании многошаговых и долгосрочных способностей веб-агентов к использованию инструментов. Хотя основные алгоритмы агентного RL автономно исследуют шаги вызова инструментов с высокой неопределенностью под руководством энтропии, чрезмерная зависимость от сигналов энтропии может накладывать дополнительные ограничения, приводя к коллапсу обучения. В данной статье мы углубляемся в проблемы, вызванные энтропией, и предлагаем агентный алгоритм RL — Оптимизацию политики с балансом энтропии (AEPO), разработанный для балансировки энтропии как на этапе развертывания, так и на этапе обновления политики. AEPO состоит из двух ключевых компонентов: (1) динамического механизма развертывания с балансом энтропии, который адаптивно распределяет глобальный и веточный бюджет выборки через предварительный мониторинг энтропии, одновременно накладывая веточный штраф на последовательные шаги вызова инструментов с высокой энтропией для предотвращения проблем избыточного ветвления; и (2) Оптимизации политики с балансом энтропии, которая вставляет операцию остановки градиента в термин обрезки с высокой энтропией для сохранения и правильного масштабирования градиентов на токенах с высокой энтропией, одновременно включая оценку преимуществ с учетом энтропии для приоритизации обучения на токенах с высокой неопределенностью. Результаты на 14 сложных наборах данных показывают, что AEPO стабильно превосходит 7 основных алгоритмов RL. Всего с 1K выборок RL, Qwen3-14B с AEPO демонстрирует впечатляющие результаты: 47,6% на GAIA, 11,2% на Humanity's Last Exam и 43,0% на WebWalker для Pass@1; 65,0% на GAIA, 26,0% на Humanity's Last Exam и 70,0% на WebWalker для Pass@5. Дополнительный анализ показывает, что AEPO улучшает разнообразие выборки развертывания, сохраняя стабильную энтропию политики, что способствует масштабируемому обучению веб-агентов.

WithAnyone: В направлении контролируемой и идентификационно-согласованной генерации изображений
WithAnyone: Towards Controllable and ID Consistent Image Generation

Oct 16

ByHengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

Генерация с сохранением идентичности стала важным направлением в исследованиях текстов в изображения, при этом современные модели демонстрируют значительные успехи в создании изображений, соответствующих эталонной идентичности. Однако нехватка крупномасштабных парных наборов данных, содержащих несколько изображений одного и того же человека, вынуждает большинство подходов использовать обучение, основанное на реконструкции. Такая зависимость часто приводит к проблеме, которую мы называем "копированием-вставкой", когда модель напрямую воспроизводит эталонное лицо вместо того, чтобы сохранять идентичность при естественных вариациях позы, выражения или освещения. Такая чрезмерная схожесть подрывает управляемость и ограничивает выразительную силу генерации. Чтобы устранить эти ограничения, мы (1) создаем крупномасштабный парный набор данных MultiID-2M, адаптированный для сценариев с несколькими людьми, предоставляя разнообразные эталоны для каждой идентичности; (2) вводим эталонный тест, который количественно оценивает как артефакты "копирования-вставки", так и компромисс между точностью идентичности и вариативностью; и (3) предлагаем новую парадигму обучения с контрастирующей функцией потерь для идентичности, которая использует парные данные для баланса между точностью и разнообразием. Эти усилия воплотились в модели WithAnyone, основанной на диффузии, которая эффективно устраняет "копирование-вставку", сохраняя при этом высокую схожесть идентичности. Многочисленные качественные и количественные эксперименты демонстрируют, что WithAnyone значительно снижает артефакты "копирования-вставки", улучшает управляемость позой и выражением и сохраняет высокое воспринимаемое качество. Пользовательские исследования дополнительно подтверждают, что наш метод обеспечивает высокую точность идентичности, одновременно позволяя выразительную и управляемую генерацию.

Искусственный интеллект для сервиса: активная помощь с очками с ИИ
AI for Service: Proactive Assistance with AI Glasses

Oct 16

ByZichen Wen, Yiyu Wang, Chenfei Liao, Boxue Yang, Junxian Li, Weifeng Liu, Haocong He, Bolong Feng, Xuyang Liu, Yuanhuiyi Lyu, Xu Zheng, Xuming Hu, Linfeng Zhang

В эпоху, когда искусственный интеллект (ИИ) превращается из пассивного инструмента в активного и адаптивного помощника, мы представляем AI for Service (AI4Service) — новую парадигму, которая обеспечивает проактивную и оперативную помощь в повседневной жизни. Существующие сервисы на основе ИИ остаются в основном реактивными, реагируя только на явные команды пользователя. Мы утверждаем, что по-настоящему интеллектуальный и полезный помощник должен быть способен предугадывать потребности пользователя и предпринимать действия заранее, когда это уместно. Для реализации этого видения мы предлагаем Alpha-Service — унифицированную структуру, которая решает две фундаментальные задачи: «Знать, когда вмешаться», обнаруживая возможности для оказания услуг из эгоцентрических видеопотоков, и «Знать, как предоставить» как общие, так и персонализированные услуги. Вдохновленные архитектурой фон Неймана и основанные на очках с ИИ, Alpha-Service состоит из пяти ключевых компонентов: входного модуля для восприятия, центрального процессора для планирования задач, арифметико-логического устройства для использования инструментов, модуля памяти для долгосрочной персонализации и выходного модуля для естественного взаимодействия с человеком. В качестве начального исследования мы реализуем Alpha-Service через мультиагентную систему, развернутую на очках с ИИ. Кейс-стади, включая советника по игре в блэкджек в реальном времени, гида по музею и помощника по подбору одежды для покупок, демонстрируют его способность бесшовно воспринимать окружающую среду, определять намерения пользователя и предоставлять своевременную и полезную помощь без явных запросов.

От пикселей к словам — к нативным примитивам взаимодействия зрения и языка в масштабе
From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Oct 16

ByHaiwen Diao, Mingxuan Li, Silei Wu, Linjun Dai, Xiaohua Wang, Hanming Deng, Lewei Lu, Dahua Lin, Ziwei Liu

Здание нативных моделей зрения и языка (Vision-Language Models, VLMs) стало новым претендентом на замену традиционных модульных VLMs, что обусловлено эволюцией архитектур моделей и подходов к обучению. Однако два ключевых вопроса остаются нерешенными, ограничивая их широкое исследование и продвижение: (1) Какие фундаментальные ограничения отличают нативные VLMs от модульных, и в какой степени эти барьеры могут быть преодолены? (2) Как сделать исследования в области нативных VLMs более доступными и демократизированными, тем самым ускоряя прогресс в этой области. В данной статье мы проясняем эти вызовы и предлагаем руководящие принципы для построения нативных VLMs. В частности, один примитив нативной VLM должен: (i) эффективно согласовывать представления пикселей и слов в общем семантическом пространстве; (ii) бесшовно интегрировать преимущества ранее разделенных модулей зрения и языка; (iii) изначально воплощать различные кросс-модальные свойства, поддерживающие унифицированное кодирование, согласование и рассуждение в области зрения и языка. Таким образом, мы представляем NEO — новое семейство нативных VLMs, построенных на основе фундаментальных принципов, способных конкурировать с лучшими модульными аналогами в разнообразных реальных сценариях. Используя всего 390 миллионов примеров изображений и текстов, NEO эффективно развивает визуальное восприятие с нуля, одновременно смягчая конфликты между зрением и языком внутри плотной и монолитной модели, созданной на основе наших тщательно разработанных примитивов. Мы позиционируем NEO как краеугольный камень для масштабируемых и мощных нативных VLMs, дополненных богатым набором повторно используемых компонентов, которые способствуют созданию экономически эффективной и расширяемой экосистемы. Наш код и модели доступны по адресу: https://github.com/EvolvingLMMs-Lab/NEO.

PaddleOCR-VL: Улучшение обработки многоязычных документов с помощью ультракомпактной визуально-языковой модели на 0.9 миллиарда параметров
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Oct 16

ByCheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma

В данном отчете мы представляем PaddleOCR-VL — современную и ресурсоэффективную модель, разработанную для анализа документов. Ее ключевым компонентом является PaddleOCR-VL-0.9B, компактная, но мощная модель обработки визуальной информации и текста (VLM), которая объединяет визуальный кодировщик с динамическим разрешением в стиле NaViT и языковую модель ERNIE-4.5-0.3B для точного распознавания элементов. Эта инновационная модель эффективно поддерживает 109 языков и превосходно справляется с распознаванием сложных элементов (например, текста, таблиц, формул и графиков), сохраняя при этом минимальное потребление ресурсов. Благодаря всесторонним оценкам на широко используемых публичных и внутренних тестовых наборах данных, PaddleOCR-VL демонстрирует наилучшие результаты как в анализе документов на уровне страниц, так и в распознавании элементов на уровне отдельных объектов. Она значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с ведущими моделями VLM и обеспечивает быструю скорость вывода. Эти преимущества делают ее идеально подходящей для практического применения в реальных сценариях.

ImagerySearch: Адаптивный поиск во время тестирования для генерации видео за пределами ограничений семантической зависимости
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

Oct 16

ByMeiqi Wu, Jiashu Zhu, Xiaokun Feng, Chubin Chen, Chen Zhu, Bingze Song, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Kaiqi Huang

Модели генерации видео достигли значительного прогресса, особенно в реалистичных сценариях; однако их производительность заметно снижается в воображаемых сценариях. Такие запросы часто включают редко сочетающиеся концепции с длинными семантическими связями, выходящими за пределы обучающих распределений. Существующие методы обычно применяют масштабирование на этапе тестирования для улучшения качества видео, но их фиксированные пространства поиска и статические схемы вознаграждения ограничивают адаптируемость к воображаемым сценариям. Чтобы заполнить этот пробел, мы предлагаем ImagerySearch — адаптивную стратегию поиска на этапе тестирования, управляемую запросом, которая динамически корректирует как пространство поиска при выводе, так и функцию вознаграждения в соответствии с семантическими связями в запросе. Это позволяет создавать более согласованные и визуально правдоподобные видео в сложных воображаемых условиях. Для оценки прогресса в этом направлении мы представляем LDT-Bench — первый специализированный бенчмарк для запросов с длинными семантическими связями, состоящий из 2839 разнообразных пар концепций и автоматизированного протокола для оценки способностей к творческой генерации. Многочисленные эксперименты показывают, что ImagerySearch стабильно превосходит сильные базовые модели генерации видео и существующие подходы к масштабированию на этапе тестирования на LDT-Bench, а также демонстрирует конкурентоспособные улучшения на VBench, подтверждая свою эффективность для различных типов запросов. Мы опубликуем LDT-Bench и код, чтобы способствовать дальнейшим исследованиям в области генерации воображаемых видео.

Дистилляция BitNet
BitNet Distillation

Oct 15

ByXun Wu, Shaohan Huang, Wenhui Wang, Ting Song, Li Dong, Yan Xia, Furu Wei

В данной статье мы представляем BitNet Distillation (BitDistill) — облегченный конвейер, который дорабатывает готовые полномасштабные языковые модели (LLM), такие как Qwen, до точности 1.58 бит (т.е. троичные веса {-1, 0, 1}) для конкретных задач, достигая высокой производительности на целевых задачах при минимальных вычислительных затратах. В частности, BitDistill включает три ключевые техники: модуль SubLN, представленный в BitNet; дистилляцию многоголового внимания на основе MiniLM; и непрерывное предварительное обучение, которое служит важным этапом разминки для смягчения проблемы масштабируемости разрыва в производительности между доработанными полномасштабными и 1.58-битными LLM на конкретных задачах. Экспериментальные результаты показывают, что BitDistill достигает производительности, сопоставимой с полномасштабными моделями, при любом размере модели, обеспечивая при этом до 10-кратной экономии памяти и ускорение вывода на CPU в 2.65 раза. Код доступен по адресу https://github.com/microsoft/BitNet.

LaSeR: Обучение с подкреплением с самонаграждением на основе последнего токена
LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

Oct 16

ByWenkai Yang, Weijie Liu, Ruobing Xie, Yiju Guo, Lulu Wu, Saiyong Yang, Yankai Lin

Обучение с подкреплением с проверяемыми наградами (RLVR) недавно стало ключевой парадигмой для улучшения способностей к рассуждению больших языковых моделей (LLM). Чтобы решить проблему отсутствия сигналов проверки во время тестирования, предыдущие исследования включали обучение способности модели к самопроверке в стандартный процесс RLVR, тем самым объединяя способности к рассуждению и проверке в рамках одной LLM. Однако существующий подход требует, чтобы LLM последовательно генерировала решения и самопроверки с использованием двух отдельных шаблонов запросов, что значительно снижает эффективность. В данной работе мы теоретически показываем, что аналитическое решение задачи RL для самопроверки может быть сведено к удивительно простой форме: истинная награда за рассуждение решения равна его последнему токену самовознаграждения, который вычисляется как разница между логарифмической вероятностью следующего токена, присвоенной модели политики любому предопределенному токену на последнем токене решения, и предварительно вычисленной константой, масштабированной коэффициентом KL. На основе этого понимания мы предлагаем LaSeR (Обучение с подкреплением с самовознаграждением на последнем токене) — алгоритм, который просто дополняет исходную функцию потерь RLVR MSE-потерей, согласующей оценки самовознаграждения на последнем токене с наградами за рассуждение, основанными на проверке, совместно оптимизируя способности LLM к рассуждению и самовознаграждению. Оптимизированные оценки самовознаграждения могут использоваться как в обучении, так и в тестировании для повышения производительности модели. Примечательно, что наш алгоритм извлекает эти оценки из предсказанного распределения вероятностей следующего токена для последнего токена сразу после генерации, что требует лишь минимальных дополнительных затрат на один дополнительный вывод токена. Эксперименты показывают, что наш метод не только улучшает способность модели к рассуждению, но и наделяет её замечательной способностью к самовознаграждению, тем самым повышая её производительность при масштабировании во время вывода.

Внимание — это всё, что нужно для кэша ключей и значений в диффузионных языковых моделях
Attention Is All You Need for KV Cache in Diffusion LLMs

Oct 16

ByQuan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen

В данной работе исследуется, как адаптивно пересчитывать кэши ключей и значений (KV) для диффузионных больших языковых моделей (DLM), чтобы максимизировать точность предсказаний при минимизации задержки декодирования. В существующих методах декодеры пересчитывают QKV для всех токенов на каждом шаге шумоподавления и на каждом слое, несмотря на то, что состояния KV изменяются незначительно на большинстве шагов, особенно на поверхностных слоях, что приводит к значительной избыточности. Мы делаем три наблюдения: (1) удалённые токены {bf MASK} в основном служат как смещение по длине и могут быть кэшированы блоками за пределами активного окна предсказания; (2) динамика KV увеличивается с глубиной, что указывает на достаточность выборочного обновления, начиная с более глубоких слоёв; и (3) токен, к которому обращаются чаще всего, демонстрирует наименьшее смещение KV, что даёт консервативную нижнюю границу изменения кэша для других токенов. На основе этого мы предлагаем {bf Elastic-Cache}, стратегию, не требующую обучения и независимую от архитектуры, которая совместно определяет, {когда} обновлять (с помощью теста на смещение, учитывающего внимание, для наиболее часто используемого токена) и {где} обновлять (с помощью расписания, учитывающего глубину, которое пересчитывает кэши, начиная с выбранного слоя, повторно используя кэши поверхностных слоёв и кэши MASK за пределами окна). В отличие от схем с фиксированным периодом, Elastic-Cache выполняет адаптивные, учитывающие слои обновления кэшей для диффузионных LLM, сокращая избыточные вычисления и ускоряя декодирование с незначительной потерей качества генерации. Эксперименты на LLaDA-Instruct, LLaDA-1.5 и LLaDA-V в задачах математического рассуждения и генерации кода демонстрируют стабильное ускорение: в 8.7 раз на GSM8K (256 токенов), в 45.1 раз на более длинных последовательностях и в 4.8 раз на HumanEval, при этом сохраняя более высокую точность по сравнению с базовым методом. Наш метод обеспечивает значительно более высокую пропускную способность (в 6.8 раз на GSM8K) по сравнению с существующими подходами, основанными на уверенности, сохраняя качество генерации, что делает возможным практическое использование диффузионных LLM.

Оптимизация политик на основе прироста информации: простой и эффективный подход для многошаговых агентов с использованием больших языковых моделей
Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

Oct 16

ByGuoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying

Агенты на основе больших языковых моделей (LLM) всё чаще обучаются с использованием обучения с подкреплением (RL) для улучшения их способности взаимодействовать с внешними средами через использование инструментов, особенно в поисковых задачах, требующих многошагового рассуждения и приобретения знаний. Однако существующие подходы обычно полагаются на награды, основанные на результате, которые предоставляются только на финальном ответе. Эта разреженность наград становится особенно проблематичной в многошаговых сценариях, где длинные траектории усугубляют две ключевые проблемы: (i) коллапс преимущества, когда все траектории получают одинаковые награды и не предоставляют полезных сигналов для обучения, и (ii) отсутствие детального распределения заслуг, где зависимости между шагами скрыты, особенно в задачах с длительным горизонтом. В данной работе мы предлагаем Оптимизацию политики на основе прироста информации (IGPO), простую, но эффективную RL-структуру, которая обеспечивает плотное и внутреннее управление для обучения агентов в многошаговых сценариях. IGPO моделирует каждый шаг взаимодействия как инкрементальный процесс получения информации о правильном ответе и определяет награды на уровне шага как маргинальное увеличение вероятности политики в создании правильного ответа. В отличие от предыдущих подходов, основанных на наградах на уровне процесса, которые зависят от внешних моделей наград или дорогостоящего Монте-Карло оценивания, IGPO извлекает внутренние награды непосредственно из обновлений собственных убеждений модели. Эти внутренние награды на уровне шага объединяются с управлением на уровне результата для формирования плотных траекторий наград. Экстенсивные эксперименты на внутридоменных и внедоменных тестах демонстрируют, что IGPO стабильно превосходит сильные базовые подходы в многошаговых сценариях, достигая более высокой точности и улучшенной эффективности выборки.

TokDrift: Когда языковая модель говорит субсловами, а код говорит грамматикой
TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

Oct 16

ByYinxi Li, Yuntian Deng, Pengyu Nie

Крупные языковые модели (LLM) для работы с кодом используют субсловные токенизаторы, такие как байт-парное кодирование (BPE), обученные на смеси текстов на естественном языке и кода на языках программирования, но основанные на статистике, а не на грамматике. В результате семантически идентичные фрагменты кода могут быть токенизированы по-разному в зависимости от поверхностных факторов, таких как пробелы или именование идентификаторов. Чтобы измерить влияние этого несоответствия, мы представляем TokDrift — фреймворк, который применяет семантически сохраняющие правила перезаписи для создания вариантов кода, отличающихся только токенизацией. На девяти моделях LLM для кода, включая крупные с более чем 30 миллиардами параметров, даже незначительные изменения форматирования могут вызывать существенные сдвиги в поведении модели. Послойный анализ показывает, что проблема возникает на ранних этапах встраивания, где субсловная сегментация не учитывает границы грамматических токенов. Наши результаты указывают на несоответствие токенизации как скрытое препятствие для надежного понимания и генерации кода, подчеркивая необходимость грамматически осознанной токенизации для будущих LLM, работающих с кодом.

MathCanvas: Внутренняя визуальная цепочка рассуждений для мультимодального математического анализа
MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

Oct 16

ByWeikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren, Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li

Хотя крупные языковые модели (LLM) преуспели в текстовых рассуждениях, они испытывают трудности в математических областях, таких как геометрия, которые по своей природе требуют визуальных вспомогательных средств. Существующие подходы к визуальной цепочке рассуждений (VCoT) часто ограничены жесткими внешними инструментами или не способны генерировать высококачественные, стратегически своевременные диаграммы, необходимые для решения сложных задач. Чтобы устранить этот пробел, мы представляем MathCanvas — комплексную структуру, предназначенную для наделения унифицированных крупных мультимодальных моделей (LMM) внутренними возможностями VCoT для математики. Наш подход состоит из двух этапов. Сначала этап визуального манипулирования предварительно обучает модель на новом корпусе из 15,2 млн пар, включающем 10 млн пар "описание-диаграмма" (MathCanvas-Imagen) и 5,2 млн пошаговых траекторий редактирования (MathCanvas-Edit), чтобы освоить генерацию и редактирование диаграмм. Затем этап стратегического визуально-подкрепленного рассуждения дообучает модель на MathCanvas-Instruct — новом наборе данных из 219 тыс. примеров с чередующимися визуально-текстовыми путями рассуждений, обучая модель тому, когда и как использовать визуальные вспомогательные средства. Для обеспечения строгой оценки мы представляем MathCanvas-Bench — сложный эталонный тест с 3 тыс. задач, требующих от моделей создания чередующихся визуально-текстовых решений. Наша модель BAGEL-Canvas, обученная в рамках этой структуры, демонстрирует 86% относительное улучшение по сравнению с сильными базовыми LMM на MathCanvas-Bench, показывая отличную обобщаемость на другие публичные математические тесты. Наша работа предоставляет полный набор инструментов — структуру, наборы данных и эталонный тест — для раскрытия сложного, человеко-подобного визуально-подкрепленного рассуждения в LMM. Страница проекта: https://mathcanvas.github.io/

Крупные языковые модели могут страдать от "деградации интеллекта"!
LLMs Can Get "Brain Rot"!

Oct 15

ByShuo Xing, Junyuan Hong, Yifan Wang, Runjin Chen, Zhenyu Zhang, Ananth Grama, Zhengzhong Tu, Zhangyang Wang

Мы предлагаем и проверяем гипотезу "Гниения Мозга LLM": постоянное воздействие низкокачественного веб-текста вызывает устойчивое когнитивное снижение у крупных языковых моделей (LLM). Чтобы изолировать влияние качества данных, мы проводим контролируемые эксперименты на реальных корпусах Twitter/X, создавая наборы данных с низкокачественным и обратно контролируемым содержанием с использованием двух ортогональных операционализаций: M1 (степень вовлеченности) и M2 (семантическое качество), с сопоставимым объемом токенов и одинаковыми операциями обучения во всех условиях. В отличие от контрольной группы, постоянное предварительное обучение четырех LLM на низкокачественном наборе данных вызывает значительное снижение (Hedges' g > 0,3) в способностях к рассуждению, пониманию длинного контекста, безопасности и усилению "темных черт" (например, психопатии, нарциссизма). Постепенное смешивание низкокачественных и контрольных наборов данных также приводит к дозозависимому когнитивному ухудшению: например, при M1 результаты ARC-Challenge с использованием Chain of Thoughts падают с 74,9 до 57,2, а RULER-CWE — с 84,4 до 52,3 при увеличении доли низкокачественных данных с 0% до 100%. Анализ ошибок выявляет несколько ключевых инсайтов. Во-первых, мы идентифицируем "пропуск мыслей" как основное повреждение: модели все чаще укорачивают или пропускают цепочки рассуждений, что объясняет большую часть роста ошибок. Во-вторых, наблюдается частичное, но неполное восстановление: масштабирование настройки инструкций и предварительное обучение на чистых данных улучшают сниженные когнитивные способности, но не могут восстановить базовые возможности, что указывает на устойчивый дрейф представлений, а не на несоответствие формата. Наконец, мы обнаруживаем, что популярность твита, не семантическая метрика, является лучшим индикатором эффекта "Гниения Мозга", чем длина в M1. В совокупности результаты предоставляют значительные, многоплановые доказательства того, что качество данных является причинным фактором снижения возможностей LLM, переосмысливая кураторство для постоянного предварительного обучения как проблему безопасности на этапе обучения и мотивируя регулярные "когнитивные проверки здоровья" для развернутых LLM.

VR-Thinker: Улучшение моделей видеовознаграждений через рассуждения с использованием изображений
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

Oct 12

ByQunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu

Последние достижения в области многомодальных моделей вознаграждения (RMs) значительно улучшили пост-обучение визуальных генеративных моделей. Однако современные RMs сталкиваются с присущими им ограничениями: (1) визуальные входные данные потребляют большой объем контекста, что вынуждает использовать меньше кадров и приводит к потере деталей; (2) вся визуальная информация упаковывается в начальный промт, что усугубляет галлюцинации и забывание в процессе цепочки рассуждений. Чтобы преодолеть эти проблемы, мы представляем VideoReward Thinker (VR-Thinker) — фреймворк "мышления с изображением", который оснащает RM операциями визуального рассуждения (например, выбор кадра) и настраиваемым окном визуальной памяти. Это позволяет RM активно получать и обновлять визуальные доказательства в пределах контекста, повышая точность и надежность рассуждений. Мы активируем визуальное рассуждение с помощью конвейера тонкой настройки с подкреплением: (i) "Холодный старт" с курированными данными визуальной цепочки рассуждений для усвоения базовых навыков рассуждения и форматирования операций; (ii) выбор образцов, в которых все суждения по каждому измерению и общие суждения верны, с последующей тонкой настройкой методом отбора по отклонению на этих высококачественных траекториях для дальнейшего улучшения рассуждений; (iii) применение групповой относительной оптимизации политики (GRPO) для усиления рассуждений. Наш подход демонстрирует наивысшую точность среди моделей с открытым исходным кодом на бенчмарках предпочтений видео, особенно для длинных видео: 7B VR-Thinker достигает 80,5% на VideoGen Reward, 82,3% на GenAI-Bench и 75,6% на MJ-Bench-Video. Эти результаты подтверждают эффективность и перспективность многомодального моделирования вознаграждения с использованием "мышления с изображением".

Крупные языковые модели НЕ ДЕЙСТВИТЕЛЬНО знают, чего они не знают.
Large Language Models Do NOT Really Know What They Don't Know

Oct 10

ByChi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng

Последние исследования показывают, что крупные языковые модели (LLM) кодируют сигналы фактической достоверности в своих внутренних представлениях, таких как скрытые состояния, веса внимания или вероятности токенов, что предполагает, что LLM могут "знать, чего они не знают". Однако LLM также могут допускать фактические ошибки, полагаясь на упрощенные пути или ложные ассоциации. Эти ошибки обусловлены той же целью обучения, которая стимулирует правильные предсказания, что ставит вопрос о том, могут ли внутренние вычисления надежно различать фактические и галлюцинированные выходные данные. В данной работе мы проводим механистический анализ того, как LLM внутренне обрабатывают фактические запросы, сравнивая два типа галлюцинаций на основе их зависимости от информации о субъекте. Мы обнаруживаем, что когда галлюцинации связаны со знанием о субъекте, LLM используют тот же внутренний процесс извлечения, что и для правильных ответов, что приводит к перекрывающимся и неразличимым геометриям скрытых состояний. В отличие от этого, галлюцинации, оторванные от знания о субъекте, создают отдельные, кластеризованные представления, что делает их обнаруживаемыми. Эти результаты выявляют фундаментальное ограничение: LLM не кодируют истинность в своих внутренних состояниях, а лишь паттерны извлечения знаний, демонстрируя, что "LLM на самом деле не знают, чего они не знают".

Иерархический поиск с управлением LLM
LLM-guided Hierarchical Retrieval

Oct 15

ByNilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon

Современные системы информационного поиска всё чаще сталкиваются с необходимостью обработки сложных, многогранных запросов, требующих глубокого анализа, а не простого сопоставления ключевых слов или семантического поиска. Хотя подходы к поиску на основе языковых моделей (LLM) демонстрируют значительный потенциал, преобладающая парадигма "извлечение с последующим ранжированием" наследует ограничения методов поиска на основе векторных представлений; параметрические генеративные подходы сложно обновлять новой информацией; а методы с длинным контекстом, которые помещают весь корпус в контекст, вычислительно неэффективны для больших коллекций документов. Для решения этих проблем мы представляем LATTICE — иерархическую структуру поиска, которая позволяет языковой модели анализировать и навигировать по большим корпусам с логарифмической сложностью поиска, накладывая на корпус семантическую древовидную структуру. Наш подход состоит из двух этапов: (1) оффлайн-фаза, которая организует корпус в семантическую иерархию с использованием либо снизу вверх агломеративной стратегии, либо сверху вниз дивизивной стратегии с использованием многоуровневых сводок, и (2) онлайн-фаза обхода, в которой поисковая языковая модель навигирует по этому дереву. Основная сложность в таком поиске под руководством LLM заключается в том, что суждения модели о релевантности зашумлены, зависят от контекста и не учитывают иерархию, что затрудняет сравнение между ветвями и уровнями. Для преодоления этого мы предлагаем алгоритм обхода, который оценивает калиброванные скрытые показатели релевантности на основе локальных выходов LLM и агрегирует их в глобальную метрику релевантности пути. Наш подход, не требующий обучения, достигает наилучших результатов в условиях zero-shot на бенчмарке BRIGHT, требующем глубокого анализа, демонстрируя улучшение до 9% по метрике Recall@100 и 5% по nDCG@10 по сравнению с лучшим zero-shot базовым методом. Кроме того, по сравнению с тонко настроенным методом SOTA DIVER-v2, LATTICE показывает сопоставимые результаты на подмножествах BRIGHT, использующих статический корпус для оценки.

VLA^2: Расширение возможностей моделей "Видение-Язык-Действие" с помощью агентного фреймворка для манипуляции с неизвестными концепциями
VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

Oct 16

ByHan Zhao, Jiaxuan Zhang, Wenxuan Song, Pengxiang Ding, Donglin Wang

Современные модели, объединяющие зрение, язык и действия (VLA), предварительно обученные на крупномасштабных роботизированных данных, демонстрируют мощные возможности для выполнения множества задач и хорошо обобщаются на вариации визуальных и языковых инструкций для манипуляций. Однако их успешность значительно снижается при столкновении с концепциями объектов, выходящими за пределы обучающих данных, такими как неизвестные описания объектов и текстуры в наборе данных. Для решения этой проблемы мы предлагаем новый агентный фреймворк VLA^2, который использует OpenVLA в качестве основы для выполнения и эффективно задействует внешние модули, такие как веб-поиск и обнаружение объектов, чтобы предоставить VLA визуальную и текстовую информацию о целевых объектах. Этот подход смягчает проблемы обобщения при работе с объектами, выходящими за пределы распределения данных. На основе симуляционной среды LIBERO мы ввели новые объекты и их описания, чтобы создать новый оценочный бенчмарк с тремя уровнями сложности для проверки эффективности нашего метода. Наш фреймворк успешно превзошел современные модели на разработанном нами бенчмарке для сложного уровня обобщения. По сравнению с базовой моделью OpenVLA, VLA^2 демонстрирует улучшение успешности на 44,2% на сложном уровне бенчмарка и среднее улучшение на 20,2% во всех пользовательских средах без снижения производительности на задачах в рамках распределения данных. Сайт проекта: https://vla-2.github.io.

Технический отчет Qwen3Guard
Qwen3Guard Technical Report

Oct 16

ByHaiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou

По мере того как крупные языковые модели (LLM) становятся более мощными и широко используемыми, обеспечение безопасности их выходных данных становится всё более критически важным. Существующие модели-ограничители, хотя и полезны в статических условиях оценки, сталкиваются с двумя основными ограничениями в реальных приложениях: (1) они обычно выводят только бинарные метки "безопасно/небезопасно", которые могут интерпретироваться неоднозначно в рамках различных политик безопасности, что делает их неспособными учитывать различные уровни допустимости рисков в разных областях; и (2) они требуют полного вывода модели перед выполнением проверки безопасности, что делает их принципиально несовместимыми с потоковым выводом LLM, тем самым препятствуя своевременному вмешательству в процессе генерации и увеличивая риск воздействия вредоносных частичных выводов. Для решения этих проблем мы представляем Qwen3Guard, серию многоязычных моделей-ограничителей безопасности с двумя специализированными вариантами: Generative Qwen3Guard, которая преобразует классификацию безопасности в задачу следования инструкциям для обеспечения детализированных трёхклассовых суждений (безопасно, спорно, небезопасно); и Stream Qwen3Guard, которая вводит классификатор на уровне токенов для мониторинга безопасности в реальном времени в процессе инкрементной генерации текста. Оба варианта доступны в трёх размерах (0.6B, 4B и 8B параметров) и поддерживают до 119 языков и диалектов, обеспечивая комплексную, масштабируемую и низкозатратную модерацию безопасности для глобальных развёртываний LLM. Оцененные на английских, китайских и многоязычных тестах, модели Qwen3Guard демонстрируют передовые результаты в классификации безопасности как запросов, так и ответов. Все модели выпущены под лицензией Apache 2.0 для общественного использования.

COIG-Writer: Высококачественный набор данных для китайского креативного письма с отражением мыслительных процессов
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

Oct 16

ByYunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang

Крупные языковые модели демонстрируют систематические недостатки в творческом письме, особенно в контекстах, отличных от английского, где обучающие данные ограничены и отсутствует контроль на уровне процессов. Мы представляем COIG-Writer — новый набор данных для китайского творческого письма, который охватывает как разнообразные результаты, так и лежащие в их основе мыслительные процессы, благодаря систематическому обратному проектированию высококачественных текстов. В отличие от существующих наборов данных, которые предоставляют только пары "вход-выход", COIG-Writer включает 1665 тщательно отобранных триплетов, охватывающих 51 жанр, каждый из которых содержит: (1) обратно спроектированный промпт, (2) детальное творческое рассуждение, документирующее процесс принятия решений, и (3) итоговый текст. В ходе всесторонних экспериментов мы выявили двухкомпонентную модель творческого письма: нарративная логика (обеспечиваемая контролем процессов) и языковое выражение (поддерживаемое общими данными). Наши результаты раскрывают три ключевых инсайта: (1) Контроль процессов высокоэффективен, но требует стабилизации с помощью общих данных. Для достижения оптимальной производительности необходимо соотношение не менее одного творческого образца к двенадцати общим; ниже этого порога показатель успешности постепенно снижается (с 62,75% до 35,78%). (2) Творческие способности культурно обусловлены и не переносятся между языками (разрыв в 89,26 п.п. между китайским и английским результатами). (3) Лексическое разнообразие обратно коррелирует с творческим качеством (парадокс TTR), что указывает на то, что высокая разнородность сигнализирует о компенсаторном поведении для восполнения логических недостатков. Эти результаты подтверждают, что творческое мастерство возникает благодаря взаимодействию логической структуры и языковой основы, аналогично тому, как математическое рассуждение усиливает, но не может заменить языковую компетентность в базовых моделях.

Фантастические (маленькие) ретриверы и как их тренировать: Технический отчет mxbai-edge-colbert-v0
Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report

Oct 16

ByRikiya Takehi, Benjamin Clavié, Sean Lee, Aamir Shakir

В данной работе мы представляем модели mxbai-edge-colbert-v0 с двумя различными количествами параметров: 17 млн и 32 млн. В рамках нашего исследования мы провели множество экспериментов, направленных на улучшение моделей поиска и позднего взаимодействия, которые мы планируем дистиллировать в более компактные модели в качестве доказательств концепции. Наша конечная цель — поддержка поиска на всех масштабах: от крупномасштабного поиска, работающего в облаке, до моделей, которые могут выполняться локально на любом устройстве. Модель mxbai-edge-colbert-v0, как мы надеемся, станет надежной базовой основой для всех будущих экспериментов, представляя собой первую версию в длинной серии небольших доказательств концепции. В процессе разработки mxbai-edge-colbert-v0 мы провели несколько абляционных исследований, результаты которых представлены в данной работе. С точки зрения производительности на практических задачах, mxbai-edge-colbert-v0 является особенно эффективной компактной моделью, превосходящей ColBERTv2 на стандартных бенчмарках для коротких текстов (BEIR) и демонстрирующей значительный прогресс в задачах с длинным контекстом, обеспечивая беспрецедентную эффективность.

LiveResearchBench: Живой бенчмарк для ориентированных на пользователя углубленных исследований в реальных условиях
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

Oct 16

ByJiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty

Глубокое исследование — создание всесторонних, основанных на цитатах отчетов путем поиска и синтеза информации из сотен актуальных веб-источников — представляет собой важный рубеж для агентных систем. Для строгой оценки этой способности необходимы четыре принципа: задачи должны быть (1) ориентированными на пользователя, отражая реалистичные информационные потребности, (2) динамичными, требуя актуальной информации, выходящей за пределы параметрических знаний, (3) однозначными, обеспечивая согласованную интерпретацию среди пользователей, и (4) многогранными и интенсивными по поиску, требуя анализа множества веб-источников и глубокого анализа. Существующие эталонные тесты не соответствуют этим принципам, часто сосредотачиваясь на узких областях или предлагая неоднозначные вопросы, что затрудняет справедливое сравнение. Руководствуясь этими принципами, мы представляем LiveResearchBench — эталонный набор из 100 экспертно отобранных задач, охватывающих повседневную жизнь, бизнес и академическую сферу, каждая из которых требует обширного, динамичного и актуального веб-поиска и синтеза. Созданный с затратами более 1500 человеко-часов, LiveResearchBench предоставляет строгую основу для систематической оценки. Для оценки длинных отчетов, основанных на цитатах, мы представляем DeepEval — комплексный набор критериев, охватывающих как качество содержания, так и уровень отчета, включая охват, презентацию, точность и ассоциацию цитат, согласованность и глубину анализа. DeepEval интегрирует четыре взаимодополняющих протокола оценки, каждый из которых разработан для обеспечения стабильной оценки и высокой согласованности с человеческими суждениями. Используя LiveResearchBench и DeepEval, мы проводим всестороннюю оценку 17 передовых систем глубокого исследования, включая однозадачный веб-поиск, однозадачное глубокое исследование и многозадачные системы. Наш анализ выявляет текущие сильные стороны, повторяющиеся ошибки и ключевые компоненты систем, необходимые для продвижения надежного и содержательного глубокого исследования.

За пределами правильности: оценка субъективных предпочтений в письменной речи в разных культурах
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

Oct 16

ByShuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin

Современные методы обучения предпочтениям демонстрируют высокую точность на стандартных тестах, но их производительность значительно снижается при удалении объективных показателей качества. Мы представляем WritingPreferenceBench — набор данных из 1800 пар предпочтений, аннотированных людьми (1200 на английском, 600 на китайском), охватывающих 8 жанров творческого письма, где ответы сопоставлены по объективной корректности, фактической точности и длине. На этом тесте модели вознаграждения на основе последовательностей — стандартная архитектура для RLHF — достигают средней точности всего 52,7%, в то время как языковые модели с нулевым обучением показывают результат 53,9%. В отличие от них, генеративные модели вознаграждения, которые создают явные цепочки рассуждений, достигают точности 81,8%. Мы наблюдаем высокую вариативность внутри моделей между жанрами: отдельные модели демонстрируют точность от 18,2% до 81,8% в разных категориях письма, со средним стандартным отклонением 10,1%. Эта вариативность сохраняется независимо от масштаба модели, при этом модели с 27 миллиардами параметров не показывают устойчивого улучшения по сравнению с вариантами на 8 миллиардов. Наши результаты позволяют предположить, что современные методы RLHF в основном учатся обнаруживать объективные ошибки, а не улавливать субъективные предпочтения качества (например, креативность, стилистическое своеобразие и эмоциональный отклик), и что успешное моделирование предпочтений может требовать промежуточных представлений рассуждений, а не прямой классификации.

AnyUp: Универсальное повышение детализации признаков
AnyUp: Universal Feature Upsampling

Oct 14

ByThomas Wimmer, Prune Truong, Marie-Julie Rakotosaona, Michael Oechsle, Federico Tombari, Bernt Schiele, Jan Eric Lenssen

Мы представляем AnyUp — метод апсемплинга признаков, который может быть применён к любым визуальным признакам на любом разрешении без необходимости специфического обучения для каждого энкодера. Существующие обучаемые методы апсемплинга для признаков, такие как DINO или CLIP, требуют повторного обучения для каждого экстрактора признаков и, следовательно, не обобщаются на различные типы признаков во время инференса. В данной работе мы предлагаем архитектуру апсемплинга, независимую от типа признаков и работающую на этапе инференса, чтобы устранить это ограничение и повысить качество апсемплинга. В наших экспериментах AnyUp устанавливает новый эталон для апсемплинга признаков, обобщается на различные типы признаков, сохраняет семантику признаков, оставаясь при этом эффективным и легко применимым для широкого спектра последующих задач.

Агентно-ориентированное проектирование композиционных машин
Agentic Design of Compositional Machines

Oct 16

ByWenqian Zhang, Weiyang Liu, Zhen Liu

Проектирование сложных машин является как показателем человеческого интеллекта, так и основой инженерной практики. Учитывая недавние достижения в области больших языковых моделей (LLM), мы задаемся вопросом, могут ли они также научиться создавать. Мы рассматриваем этот вопрос через призму композиционного проектирования машин: задачи, в которой машины собираются из стандартизированных компонентов для выполнения функциональных требований, таких как передвижение или манипулирование, в смоделированной физической среде. Для поддержки этого исследования мы представляем BesiegeField — тестовую среду, построенную на основе игры Besiege, которая позволяет создавать конструкции из частей, проводить физическое моделирование и оценивать результаты на основе вознаграждения. Используя BesiegeField, мы тестируем современные LLM с агентными рабочими процессами и определяем ключевые способности, необходимые для успеха, включая пространственное мышление, стратегическую сборку и следование инструкциям. Поскольку текущие модели с открытым исходным кодом не справляются, мы исследуем обучение с подкреплением (RL) как путь к улучшению: мы создаем набор данных для "холодного старта", проводим эксперименты по тонкой настройке RL и выделяем открытые проблемы на стыке языка, проектирования машин и физического мышления.

SimKO: Оптимизация политики Simple Pass@K
SimKO: Simple Pass@K Policy Optimization

Oct 16

ByRuotian Peng, Yi Ren, Zhouliang Yu, Weiyang Liu, Yandong Wen

Обучение с подкреплением с верифицируемыми наградами (RLVR) значительно улучшило способности крупных языковых моделей (LLMs) к рассуждению. Однако преобладающие методы RLVR демонстрируют систематическое смещение в сторону эксплуатации в ущерб исследованию, что подтверждается улучшением показателя pass@1 при снижении производительности pass@K (K>1). Чтобы понять эту проблему, мы анализируем динамику обучения методов RLVR, отслеживая распределения вероятностей на уровне токенов среди кандидатов из словаря. Наш анализ выявляет эффект концентрации вероятности, при котором кандидат с наивысшим рейтингом (top-1) всё больше накапливает вероятность, подавляя вероятность других кандидатов. Более того, более сильная избыточная концентрация коррелирует с ухудшением показателя pass@K. Вдохновлённые этим открытием, мы предлагаем метод Simple Pass@K Optimization (SimKO), предназначенный для смягчения проблемы избыточной концентрации, тем самым стимулируя исследование. SimKO работает асимметрично: для верифицированных правильных ответов он увеличивает вероятности кандидатов из топ-K, а для верифицированных неправильных ответов применяет более строгие штрафы к кандидату top-1. Мы наблюдаем, что такой асимметричный подход особенно эффективен для смягчения избыточной концентрации при применении к токенам с высокой энтропией. На различных тестах по математике и логическому рассуждению SimKO стабильно обеспечивает более высокие значения pass@K для широкого диапазона K, предлагая простой способ улучшить исследовательские способности RLVR.

Экспертиза не должна быть монополизирована: Специализированная смесь экспертов для обучения на основе зрения, языка и действий
Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

Oct 16

ByWeijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu

Модели Vision-Language-Action (VLA) переживают стремительное развитие и демонстрируют перспективные возможности в задачах роботизированного манипулирования. Однако масштабирование VLA-моделей сталкивается с несколькими критическими проблемами: (1) Обучение новых VLA-моделей с нуля требует значительных вычислительных ресурсов и обширных наборов данных. Учитывая текущий дефицит данных, связанных с роботами, становится особенно важным максимально использовать предварительно обученные веса VLA-моделей в процессе масштабирования. (2) Реализация управления в реальном времени требует тщательного баланса между производительностью модели и вычислительной эффективностью. Для решения этих задач мы предлагаем AdaMoE — архитектуру Mixture-of-Experts (MoE), которая наследует предварительно обученные веса плотных VLA-моделей и масштабирует эксперта по действиям, заменяя полносвязные слои на разреженно активируемые слои MoE. AdaMoE использует метод разделения, который отделяет выбор экспертов от взвешивания их вкладов с помощью независимого масштабирующего адаптера, работающего совместно с традиционным маршрутизатором. Это позволяет выбирать экспертов на основе релевантности задачи, при этом их вклад регулируется независимо, что способствует совместному использованию экспертов вместо динамики "победитель получает всё". Наш подход демонстрирует, что экспертиза не должна быть монополизирована. Вместо этого совместное использование экспертов позволяет достичь превосходной производительности при сохранении вычислительной эффективности. AdaMoE стабильно превосходит базовую модель по ключевым тестам, показывая улучшение производительности на 1,8% на LIBERO и на 9,3% на RoboTwin. Наиболее важно, что значительное улучшение на 21,5% в реальных экспериментах подтверждает практическую эффективность подхода для задач роботизированного манипулирования.

VLA-0: Создание современных VLA без внесения изменений
VLA-0: Building State-of-the-Art VLAs with Zero Modification

Oct 15

ByAnkit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos

Модели Vision-Language-Action (VLA) обладают огромным потенциалом для создания универсальных роботизированных систем манипуляции. Однако оптимальный способ их построения остается открытым вопросом. Современные подходы часто усложняют архитектуру, например, модифицируя существующий словарь Vision-Language Model (VLM) с помощью токенов действий или вводя специализированные "головы" для действий. Любопытно, что простейшая стратегия — представление действий непосредственно в виде текста — оставалась практически неисследованной. В данной работе представлена модель VLA-0 для изучения этой идеи. Мы обнаружили, что VLA-0 не только эффективна, но и удивительно мощна. При правильной разработке VLA-0 превосходит более сложные модели. На LIBERO, популярном бенчмарке для оценки VLA, VLA-0 превосходит все существующие методы, обученные на тех же роботизированных данных, включая pi_0.5-KI, OpenVLA-OFT и SmolVLA. Более того, без масштабного обучения на роботизированных данных она превосходит методы, обученные на таких данных, такие как pi_0.5-KI, pi_0, GR00T-N1 и MolmoAct. Эти результаты также подтверждаются в реальных условиях, где VLA-0 превосходит SmolVLA — модель VLA, предварительно обученную на крупномасштабных реальных данных. В данной статье обобщены наши неожиданные результаты и описаны конкретные методы, необходимые для раскрытия высокой производительности этой простой, но мощной архитектуры VLA. Визуальные результаты, код и обученные модели доступны по ссылке: https://vla0.github.io/.

FML-bench: Бенчмарк для автоматизированных исследовательских агентов в области машинного обучения, подчеркивающий важность широты исследования
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

Oct 12

ByQiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu

Крупные языковые модели (LLMs) вызвали растущий интерес к автоматизированным исследовательским агентам в области машинного обучения. Среди них особенно перспективными являются агенты, способные автономно предлагать идеи и проводить эксперименты по машинному обучению, поскольку они максимизируют автоматизацию исследований и ускоряют научный прогресс за счет итеративного уточнения идей на основе экспериментальных результатов. Однако всесторонняя оценка таких агентов остается сложной задачей. Существующие бенчмарки склонны чрезмерно акцентировать внимание на инженерных аспектах, пренебрегая академической строгостью, что создает барьеры для четкой оценки научных способностей агентов в исследованиях машинного обучения. Они также страдают от ограниченного разнообразия задач, чрезмерного внимания к прикладным задачам в ущерб фундаментальным исследовательским проблемам, а также ограниченной масштабируемости к реалистичным исследовательским условиям. Чтобы устранить эти ограничения, мы представляем FML-bench — бенчмарк, разработанный для оценки автоматизированных исследовательских агентов на 8 разнообразных и фундаментальных проблемах машинного обучения. Он снижает нагрузку на написание кода, акцентирует внимание на фундаментальных проблемах, а не на конкретных случаях использования, предлагает высокое разнообразие задач и может быть расширен для работы с реальными репозиториями машинного обучения на GitHub. Кроме того, мы представляем унифицированную систему оценки с пятью взаимодополняющими метриками, предназначенную для всесторонней оценки производительности агентов на нашем бенчмарке. Мы оцениваем современные автоматизированные исследовательские агенты на FML-bench и обнаруживаем, что агенты, использующие стратегии широкого исследовательского поиска, превосходят тех, кто сосредоточен на узком, но глубоком исследовании. Эти результаты позволяют предположить, что акцент на широте поиска может привести к более эффективным результатам исследований, чем сосредоточение исключительно на инкрементальном уточнении. Наш бенчмарк доступен по адресу https://github.com/qrzou/FML-bench.

pi-Flow: Генерация на основе политик за несколько шагов через имитационное дистиллирование
pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

Oct 16

ByHansheng Chen, Kai Zhang, Hao Tan, Leonidas Guibas, Gordon Wetzstein, Sai Bi

Модели генерации на основе диффузии или потоков с малым количеством шагов обычно преобразуют учителя, предсказывающего скорость, в ученика, который предсказывает кратчайший путь к очищенным данным. Это несоответствие форматов привело к сложным процедурам дистилляции, которые часто страдают от компромисса между качеством и разнообразием. Чтобы решить эту проблему, мы предлагаем модели потоков на основе политик (pi-Flow). pi-Flow модифицирует выходной слой модели потока ученика, чтобы предсказывать политику, не требующую сети, на одном временном шаге. Затем эта политика генерирует динамические скорости потока на последующих подшагах с минимальными накладными расходами, что позволяет быстро и точно интегрировать ОДУ на этих подшагах без дополнительных вычислений сети. Чтобы согласовать траекторию ОДУ политики с траекторией учителя, мы вводим новый подход к дистилляции через имитацию, который согласует скорость политики со скоростью учителя вдоль траектории политики с использованием стандартной функции потерь для согласования потоков ell_2. Просто имитируя поведение учителя, pi-Flow обеспечивает стабильное и масштабируемое обучение и избегает компромисса между качеством и разнообразием. На ImageNet 256^2 модель достигает FID 2.85 при 1-NFE, превосходя MeanFlow с той же архитектурой DiT. На FLUX.1-12B и Qwen-Image-20B при 4 NFEs pi-Flow демонстрирует значительно лучшее разнообразие по сравнению с современными методами с малым количеством шагов, сохраняя при этом качество на уровне учителя.

LiteStage: Пропуск слоев с учетом задержек для многоэтапного рассуждения
LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

Oct 16

ByBeomseok Kang, Jiwon Song, Jae-Joon Kim

Многоэтапное рассуждение стало эффективной стратегией для повышения способности к рассуждению у небольших языковых моделей за счет декомпозиции сложных задач на последовательные подэтапы. Однако это достигается ценой увеличения задержки. Мы отмечаем, что существующие адаптивные методы ускорения, такие как пропуск слоев, сталкиваются с трудностями в балансировке эффективности и точности в данном контексте из-за двух ключевых проблем: (1) вариативности чувствительности к пропуску на разных этапах и (2) генерации избыточных выходных токенов. Для решения этих проблем мы предлагаем LiteStage — фреймворк для пропуска слоев с учетом задержки в многоэтапных рассуждениях. LiteStage сочетает в себе поэтапный оффлайн-поиск, который распределяет оптимальные бюджеты слоев, и онлайн-ранний выход на основе уверенности для подавления ненужного декодирования. Эксперименты на трех тестовых наборах данных, таких как OBQA, CSQA и StrategyQA, показывают, что LiteStage достигает ускорения до 1,70x с потерей точности менее 4,0%, превосходя предыдущие методы пропуска слоев, не требующие обучения.

VIST3A: Генерация 3D-моделей из текста путем объединения сети реконструкции по множеству видов с генератором видео
VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Oct 15

ByHyojun Go, Dominik Narnhofer, Goutam Bhat, Prune Truong, Federico Tombari, Konrad Schindler

Быстрый прогресс крупных предобученных моделей для генерации визуального контента и 3D-реконструкции открывает новые возможности для генерации 3D-сцен из текста. Интуитивно можно предположить, что мощный генератор 3D-сцен может быть создан путем объединения возможностей современной латентной модели для генерации видео из текста в качестве "генератора" и геометрических способностей недавно разработанной (прямопроходной) системы 3D-реконструкции в качестве "декодера". Мы представляем VIST3A — общий фреймворк, который реализует этот подход, решая две основные задачи. Во-первых, два компонента должны быть соединены таким образом, чтобы сохранить богатые знания, закодированные в их весах. Мы возвращаемся к технике "сшивания моделей", то есть определяем слой в 3D-декодере, который лучше всего соответствует латентному представлению, создаваемому генератором видео из текста, и соединяем две части. Эта операция требует лишь небольшого набора данных и не нуждается в метках. Во-вторых, генератор видео из текста должен быть согласован с соединенным 3D-декодером, чтобы гарантировать, что генерируемые латентные представления могут быть декодированы в согласованную и визуально убедительную 3D-геометрию сцены. Для этого мы адаптируем метод тонкой настройки с прямым вознаграждением, популярный подход для согласования с человеческими предпочтениями. Мы оцениваем предложенный подход VIST3A с использованием различных генераторов видео и моделей 3D-реконструкции. Все протестированные комбинации значительно превосходят предыдущие модели для генерации 3D из текста, которые выводят гауссовы сплаты. Более того, выбирая подходящую базовую 3D-модель, VIST3A также позволяет генерировать высококачественные карты точек из текста.

Обучение модели редактирования изображений без пар редактирования изображений
Learning an Image Editing Model without Image Editing Pairs

Oct 16

ByNupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang

Последние модели редактирования изображений достигли впечатляющих результатов, следуя инструкциям на естественном языке, однако они полагаются на контролируемое тонкое обучение с использованием больших наборов данных, состоящих из пар "вход-цель". Это представляет собой серьезное ограничение, поскольку такие естественно возникающие пары сложно масштабировать. Существующие обходные пути используют синтетические обучающие пары, которые задействуют возможности существующих моделей в режиме "zero-shot". Однако это может распространять и усиливать артефакты предварительно обученной модели в итоговой обученной модели. В данной работе мы представляем новую парадигму обучения, которая полностью устраняет необходимость в парных данных. Наш подход напрямую оптимизирует модель диффузии с небольшим количеством шагов, разворачивая её в процессе обучения и используя обратную связь от моделей "визуальный язык" (VLM). Для каждого входного изображения и инструкции по редактированию VLM оценивает, соответствует ли редактирование инструкции и сохраняет ли неизменное содержимое, предоставляя прямые градиенты для сквозной оптимизации. Для обеспечения визуальной достоверности мы включаем функцию потерь на основе сопоставления распределений (DMD), которая ограничивает сгенерированные изображения в рамках многообразия, изученного предварительно обученными моделями. Мы оцениваем наш метод на стандартных бенчмарках и проводим обширное исследование с исключением компонентов. Без использования парных данных наш метод демонстрирует результаты, сопоставимые с различными моделями редактирования изображений на основе диффузии, обученными на обширных контролируемых парных данных, в условиях небольшого количества шагов. При использовании того же VLM в качестве модели вознаграждения мы также превосходим методы, основанные на обучении с подкреплением, такие как Flow-GRPO.

RealDPO: Реальное или Не Реальное — Вот в чем Предпочтение
RealDPO: Real or Not Real, that is the Preference

Oct 16

ByGuo Cheng, Danni Yang, Ziqi Huang, Jianlou Si, Chenyang Si, Ziwei Liu

Видеогенеративные модели в последнее время достигли значительных успехов в качестве синтеза. Однако генерация сложных движений остается серьезной проблемой, поскольку существующие модели часто не способны создавать естественные, плавные и контекстуально согласованные движения. Этот разрыв между сгенерированными и реальными движениями ограничивает их практическую применимость. Для решения этой проблемы мы представляем RealDPO, новую парадигму выравнивания, которая использует реальные данные в качестве положительных образцов для обучения с учетом предпочтений, что позволяет более точно синтезировать движения. В отличие от традиционного контролируемого тонкого настройки (SFT), который предоставляет ограниченную корректирующую обратную связь, RealDPO применяет оптимизацию прямых предпочтений (DPO) с адаптированной функцией потерь для повышения реалистичности движений. Сравнивая реальные видео с ошибочными выходами модели, RealDPO обеспечивает итеративное самокорректирование, постепенно улучшая качество движений. Для поддержки пост-обучения в синтезе сложных движений мы предлагаем RealAction-5K, тщательно отобранный набор данных высококачественных видео, фиксирующих повседневную деятельность человека с богатыми и точными деталями движений. Многочисленные эксперименты демонстрируют, что RealDPO значительно улучшает качество видео, соответствие тексту и реалистичность движений по сравнению с передовыми моделями и существующими методами оптимизации предпочтений.

Немецкие общественные ресурсы — 154 миллиарда токенов текста с открытой лицензией для языковых моделей немецкого языка
The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

Oct 15

ByLukas Gienapp, Christopher Schröder, Stefan Schweter, Christopher Akiki, Ferdinand Schlatt, Arden Zimmermann, Phillipe Genêt, Martin Potthast

Разработка крупных языковых моделей зависит от масштабных обучающих корпусов, однако большинство из них содержат данные с неясным лицензионным статусом, что ограничивает создание действительно открытых моделей. Эта проблема усугубляется для неанглийских языков, где тексты с открытыми лицензиями остаются крайне ограниченными. Мы представляем German Commons — крупнейшую на сегодняшний день коллекцию текстов на немецком языке с открытыми лицензиями. Она объединяет данные из 41 источника в семи областях, включая юридические, научные, культурные, политические, новостные, экономические и веб-тексты. Благодаря систематическому сбору данных от проверенных поставщиков с подтвержденными лицензиями, корпус содержит 154,56 миллиарда токенов высококачественного текста для обучения языковых моделей. Наш процесс обработки включает комплексную фильтрацию качества, удаление дубликатов и исправление форматирования текста, что обеспечивает согласованное качество для разнородных источников. Все подмножества данных имеют лицензии не менее CC-BY-SA 4.0 или эквивалентные, что гарантирует юридическую совместимость для обучения моделей и их распространения. Таким образом, German Commons устраняет критический пробел в открытых данных для предварительного обучения на немецком языке и позволяет разрабатывать действительно открытые немецкие языковые модели. Мы также публикуем код для создания корпуса и фильтрации данных, адаптированный для текстов на немецком языке, что делает German Commons полностью воспроизводимым и расширяемым.

Эффективные параллельные сэмплеры для моделей с рекуррентной глубиной и их связь с диффузионными языковыми моделями
Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Oct 16

ByJonas Geiping, Xinyu Yang, Guinan Su

Языковые модели с рекуррентной глубиной, также называемые универсальными или зацикленными в контексте трансформеров, определяются способностью увеличивать свои вычислительные возможности за счёт повторения слоёв. Недавние исследования в области предварительного обучения показали, что такие архитектуры могут масштабироваться для современных задач языкового моделирования, демонстрируя при этом преимущества в задачах, требующих рассуждений. В данной работе мы исследуем взаимосвязь между моделями с рекуррентной глубиной и диффузионными языковыми моделями. Опираясь на их сходства, мы разрабатываем новый диффузионный сэмплер с принуждением для таких моделей, чтобы ускорить генерацию. Этот сэмплер продвигается, декодируя новые токены на каждом прямом проходе модели, в то время как скрытые состояния этих токенов могут быть дополнительно уточнены параллельно через рекурсию. Теоретически генерация с использованием нашего сэмплера строго более выразительна, чем базовый авторегрессивный подход при одинаковом временном бюджете на современном оборудовании. Более того, этот сэмплер, основанный на принципах из литературы по диффузии, может быть напрямую применён к существующим 3,5-миллиардным трансформерам с рекуррентной глубиной без какой-либо настройки, обеспечивая ускорение до 5 раз. Таким образом, наши результаты не только предоставляют эффективный механизм для параллелизации дополнительных вычислений в моделях с рекуррентной глубиной на этапе вывода, но также предполагают, что такие модели могут естественным образом рассматриваться как мощные непрерывные, хотя и причинно-следственные, диффузионные языковые модели.

Раскрытие обобщения для данных вне распределения в трансформаторах через рекурсивное рассуждение в латентном пространстве
Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning

Oct 15

ByAwni Altabaa, Siyu Chen, John Lafferty, Zhuoran Yang

Систематическая композиционная генерализация за пределами обучающего распределения остается ключевой проблемой в машинном обучении и серьезным ограничением для развивающихся способностей к рассуждению современных языковых моделей. В данной работе исследуется обобщение за пределами распределения (out-of-distribution, OOD) в трансформерных сетях на примере задачи модулярной арифметики на вычислительных графах в стиле GSM8K. Мы представляем и исследуем набор из четырех архитектурных механизмов, направленных на улучшение OOD-обобщения: (i) адаптивная рекуррентность на основе входных данных; (ii) алгоритмический контроль; (iii) закрепленные латентные представления через дискретный бутылочный слой; и (iv) явный механизм коррекции ошибок. В совокупности эти механизмы формируют архитектурный подход для естественного и масштабируемого рассуждения в латентном пространстве трансформерных сетей с устойчивыми возможностями алгоритмического обобщения. Мы дополняем эти эмпирические результаты детальным анализом механистической интерпретируемости, который раскрывает, как данные механизмы способствуют формированию устойчивых способностей к OOD-обобщению.

LLM как масштабируемые универсальные симуляторы для обучения развивающихся цифровых агентов
LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

Oct 16

ByYiming Wang, Da Yin, Yuedong Cui, Ruichen Zheng, Zhiqian Li, Zongyu Lin, Di Wu, Xueqing Wu, Chenchen Ye, Yu Zhou, Kai-Wei Chang

Цифровым агентам требуются разнообразные и масштабные траектории взаимодействия с пользовательским интерфейсом (UI) для обобщения в реальных задачах, однако сбор таких данных чрезвычайно затратен с точки зрения человеческой аннотации, инфраструктуры и инженерных ресурсов. В связи с этим мы представляем UI-Simulator — масштабируемую парадигму, которая генерирует структурированные состояния и переходы UI для синтеза обучающих траекторий в больших масштабах. Наша парадигма объединяет симулятор цифрового мира для создания разнообразных состояний UI, управляемый процесс развертывания для согласованного исследования и обертку траекторий, которая создает высококачественные и разнообразные траектории для обучения агентов. Мы также предлагаем UI-Simulator-Grow — стратегию целенаправленного масштабирования, которая позволяет ускорить и повысить эффективность масштабирования за счет приоритизации задач с высокой значимостью и синтеза информативных вариантов траекторий. Эксперименты на WebArena и AndroidWorld показывают, что UI-Simulator конкурирует или превосходит открытые агенты, обученные на реальных UI, демонстрируя значительно лучшую устойчивость, несмотря на использование менее мощных моделей-учителей. Более того, UI-Simulator-Grow достигает производительности Llama-3-70B-Instruct, используя только Llama-3-8B-Instruct в качестве базовой модели, что подчеркивает потенциал стратегии целенаправленного синтеза для непрерывного и эффективного улучшения цифровых агентов.

DialectGen: Оценка и повышение устойчивости к диалектам в мультимодальной генерации
DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

Oct 16

ByYu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng

Контактные языки, такие как английский, демонстрируют богатые региональные вариации в форме диалектов, которые часто используются носителями диалектов при взаимодействии с генеративными моделями. Однако могут ли мультимодальные генеративные модели эффективно создавать контент на основе диалектного текстового ввода? В данной работе мы исследуем этот вопрос, создавая новый масштабный бенчмарк, охватывающий шесть распространённых диалектов английского языка. Мы сотрудничаем с носителями диалектов для сбора и проверки более 4200 уникальных запросов и оцениваем 17 моделей генерации изображений и видео. Результаты автоматической и экспертной оценки показывают, что современные мультимодальные генеративные модели демонстрируют снижение производительности на 32,26% до 48,17% при использовании одного диалектного слова в запросе. Распространённые методы устранения проблем, такие как тонкая настройка и переформулирование запросов, могут лишь незначительно улучшить производительность на диалектах (< 7%), при этом потенциально вызывая значительное снижение производительности на стандартном американском английском (SAE). В связи с этим мы разрабатываем общую стратегию устранения проблем для мультимодальных генеративных моделей, основанную на кодировщике. Наш метод обучает модель распознавать новые диалектные особенности, сохраняя при этом производительность на SAE. Эксперименты на моделях, таких как Stable Diffusion 1.5, показывают, что наш метод позволяет одновременно повысить производительность на пяти диалектах до уровня SAE (+34,4%), при этом практически не затрагивая производительность на SAE.

О предобучении для проектного завершения кода
On Pretraining for Project-Level Code Completion

Oct 15

ByMaksim Sapronov, Evgeniy Glukhov

Предварительное обучение на уровне репозитория широко используется для того, чтобы крупные языковые модели, работающие с кодом, могли учитывать контекст всей кодовой базы. Это повышает их способность генерировать точные и контекстно-зависимые завершения кода. В данной работе мы исследуем, как различные стратегии обработки репозитория влияют на обучение в контексте в модели OpenCoder, содержащей 1,5 миллиарда параметров. Мы расширяем её контекстное окно с 4096 до 16 384 токенов, обучая модель на дополнительных 1 миллиарде токенов тщательно отобранных данных уровня репозитория. Несмотря на использование меньшего набора данных по сравнению с конкурирующими моделями (которые часто используют сотни миллиардов токенов), наша модель демонстрирует сопоставимую производительность на бенчмарке Long Code Arena. Мы обнаруживаем, что различные методы обработки репозитория дают схожие результаты, при этом основной прирост производительности достигается за счёт адаптации к новому параметру масштабирования ротационных позиционных эмбеддингов (RoPE). Наконец, мы показываем, что более простой подход к обучению на уровне файлов с исходной длиной последовательности остаётся высокоэффективным, что открывает исследования в области завершения кода на уровне репозитория для условий с ограниченными данными и вычислительными ресурсами.

Бюджетно-ориентированное масштабирование на этапе тестирования с использованием дискриминативной верификации
Budget-aware Test-time Scaling via Discriminative Verification

Oct 16

ByKyle Montgomery, Sijun Tan, Yuqi Chen, Siyuan Zhuang, Tianjun Zhang, Raluca Ada Popa, Chenguang Wang

Масштабирование во время тестирования представляет собой мощную стратегию для повышения производительности крупных языковых моделей в задачах сложного логического рассуждения. Хотя современные подходы часто используют генеративные верификаторы для выбора наилучшего решения из пула кандидатов, этот метод связан с непомерными вычислительными затратами, что ограничивает его практическую применимость. В данной работе мы смещаем акцент на более экономически эффективную парадигму: дискриминативную верификацию. Мы проводим тщательный эмпирический анализ и показываем, что, хотя дискриминативные верификаторы могут уступать в изолированном использовании, их комбинация с самосогласованностью в гибридном подходе создает мощный и эффективный механизм масштабирования во время тестирования. Примечательно, что при фиксированном вычислительном бюджете этот гибридный подход значительно превосходит современные методы генеративной верификации: достигая до 15,3\% более высокой точности на AIME2025. Наши результаты подтверждают, что для практических приложений в реальном мире экономически эффективное масштабирование с использованием дискриминативных верификаторов не только представляет собой "бесплатное" улучшение по сравнению с самосогласованностью, но также является более эффективной и экономичной альтернативой дорогостоящим генеративным методам. Код доступен по адресу https://github.com/wang-research-lab/verification.

Ponimator: Развертывание интерактивной позы для универсальной анимации взаимодействия между людьми
Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

Oct 16

ByShaowei Liu, Chuan Guo, Bing Zhou, Jian Wang

Позы, возникающие при близком взаимодействии людей, передают богатую контекстуальную информацию о динамике взаимодействия. Имея такие позы, люди могут интуитивно выводить контекст и предсказывать возможные прошлые и будущие динамические изменения, опираясь на сильные априорные знания о поведении человека. Вдохновленные этим наблюдением, мы предлагаем Ponimator — простую структуру, основанную на проксимальных интерактивных позах для создания универсальной анимации взаимодействия. Наши обучающие данные состоят из поз двух людей в тесном контакте и их временного контекста, полученных из наборов данных motion-capture взаимодействий. Используя априорные знания о интерактивных позах, Ponimator применяет две условные модели диффузии: (1) аниматор поз, который использует временной приоритет для генерации динамических последовательностей движений из интерактивных поз, и (2) генератор поз, который применяет пространственный приоритет для синтеза интерактивных поз из одной позы, текста или обоих, когда интерактивные позы недоступны. В совокупности Ponimator поддерживает разнообразные задачи, включая анимацию взаимодействия на основе изображений, анимацию реакций и синтез взаимодействия из текста, что способствует переносу знаний о взаимодействии из высококачественных данных motion-capture в открытые сценарии. Эмпирические эксперименты на различных наборах данных и приложениях демонстрируют универсальность приоритета поз, а также эффективность и надежность нашей структуры.

Прогнозирование производительности задач с использованием контекстно-зависимых законов масштабирования
Predicting Task Performance with Context-aware Scaling Laws

Oct 16

ByKyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang

Законы масштабирования изменили наше понимание больших языковых моделей, связав такие метрики, как кросс-энтропийные потери, с факторами проектирования, такими как размер модели, объем обучающих данных и вычислительные ресурсы. Однако эти традиционные законы не учитывают производительность на конечных задачах, где контекст играет критическую роль. В данной работе мы предлагаем простую и интерпретируемую структуру, которая совместно моделирует производительность на конечных задачах как функцию вычислительных ресурсов, затраченных на обучение, и предоставленного контекста. Мы эмпирически подтверждаем нашу структуру, аппроксимируя ее на наблюдаемой производительности расширенных контекстных вариантов моделей Llama-2-7B и Llama-2-13B на 65 500 уникальных примерах, охватывающих три задачи: арифметическое рассуждение, рассуждение на основе здравого смысла и машинный перевод. Наши результаты показывают, что предложенная структура точно моделирует производительность на конечных задачах в рамках распределения данных, обобщает результаты на три порядка величины вычислительных ресурсов и надежно экстраполирует производительность с увеличением объема контекста. Эти результаты дают ценные инсайты во взаимодействие между вычислительными ресурсами, затраченными на обучение, и использованием контекста, предоставляя рекомендации для проектирования более эффективных языковых моделей с длинным контекстом для различных конечных задач. Наш код доступен по адресу https://github.com/wang-research-lab/context-scaling.

Синтез агентных данных для веб-агентов с механизмами прогрессивного повышения сложности
Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms

Oct 15

ByShrey Pandit, Xuan-Phi Nguyen, Yifei Ming, Austin Xu, Jiayu Wang, Caiming Xiong, Shafiq Joty

Веб-агенты для «глубокого исследования» направлены на решение сложных задач ответов на вопросы через долгосрочные взаимодействия с онлайн-инструментами. Эти задачи остаются сложными, поскольку базовые языковые модели часто не оптимизированы для долгосрочного рассуждения и исследования. Предыдущие работы предлагали подходы к созданию наборов данных для настройки инструкций, часто используя графы знаний. Однако такие методы обычно не обеспечивают детального контроля над сложностью и качеством, что приводит к синтетическим данным, которые не отражают необходимую сложность для долгосрочного рассуждения. Кроме того, многие исследования смешивают эффекты данных и обучения, сравнивая модели, обученные по разным рецептам оптимизации, что затрудняет изоляцию и оценку эффективности самих данных. Мы представляем двухэтапный конвейер синтеза данных, который генерирует пары вопрос-ответ, постепенно увеличивая сложность задачи до тех пор, пока базовый веб-агент не перестанет справляться. Базовый агент выполняет несколько ролей в этом процессе: пытается ответить на вопросы, проверяет фактологическую точность, ищет альтернативные ответы и обеспечивает фильтрацию. Для оценки эффективности наших методов синтеза мы используем контролируемую настройку обучения, основанную на дистилляции от сильных веб-агентов. Эксперименты на нескольких веб-ориентированных тестах показывают, что наш набор данных — несмотря на меньший размер — позволяет обучать более эффективные веб-агенты по сравнению с существующими наборами данных. В частности, наши данные демонстрируют вдвое большее разнообразие в использовании инструментов, что позволяет моделям, обученным на них, достигать более высокой производительности, избегая повторяющихся вызовов инструментов.

MoM: Смеси сценарий-зависимых документных воспоминаний для систем генерации с расширенным поиском
MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

Oct 16

ByJihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li

Традиционная парадигма RAG, которая обычно занимается осмыслением соответствующих фрагментов текста в ответ на полученные запросы, по своей природе ограничивает как глубину усвоения знаний, так и способности к рассуждению. Чтобы устранить это ограничение, наше исследование преобразует обработку текста в RAG от пассивного фрагментирования к активному пониманию, определяя этот процесс как извлечение документальной памяти с целью моделирования когнитивных процессов человека во время чтения. На основе этого мы предлагаем фреймворк Mixtures of Scenario-aware Document Memories (MoM), разработанный для эффективной работы с документами из нескольких областей и обучения небольших языковых моделей (SLM) способности активно исследовать и конструировать документальную память. MoM сначала инструктирует крупные языковые модели (LLM) моделировать экспертов в области для генерации логических схем документов, тем самым направляя структурированное фрагментирование и извлечение ключевого содержания. Он использует механизм многопутевого сэмплирования и многоперспективной оценки, специально разрабатывая комплексные метрики, которые отражают ясность фрагментов и полноту извлечения, чтобы выбрать оптимальную документальную память. Кроме того, чтобы привить SLM более глубокие способности, подобные человеческому чтению, во время их обучения, мы включаем стратегию обратного рассуждения, которая выводит уточненные пути экспертного мышления из высококачественных результатов. Наконец, используя разнообразные формы контента, генерируемые MoM, мы разрабатываем трехслойный механизм извлечения документальной памяти, который основан на нашем теоретическом доказательстве с точки зрения вероятностного моделирования. Обширные экспериментальные результаты в трех различных областях демонстрируют, что фреймворк MoM не только решает проблемы фрагментирования текста в существующих системах RAG, предоставляя LLM семантически полную документальную память, но также прокладывает путь для SLM к достижению ориентированной на человека интеллектуальной обработки текста.

SCas4D: Структурная каскадная оптимизация для улучшения устойчивого синтеза новых видов в 4D
SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis

Oct 8

ByJipeng Lyu, Jiahua Dong, Yu-Xiong Wang

Моделирование устойчивых динамических сцен для отслеживания и синтеза новых ракурсов остается сложной задачей из-за трудностей в точном захвате деформаций при сохранении вычислительной эффективности. Мы предлагаем SCas4D, каскадную оптимизационную структуру, которая использует структурные закономерности в 3D-гауссовом сплайнинге для динамических сцен. Ключевая идея заключается в том, что реальные деформации часто демонстрируют иерархические закономерности, при которых группы гауссовых функций разделяют схожие преобразования. Последовательно уточняя деформации от грубого уровня частей до детального уровня точек, SCas4D достигает сходимости в пределах 100 итераций на временной кадр и обеспечивает результаты, сопоставимые с существующими методами, при использовании лишь одной двадцатой части тренировочных итераций. Данный подход также демонстрирует эффективность в задачах самоконтролируемой сегментации сочлененных объектов, синтеза новых ракурсов и плотного отслеживания точек.

За пределами одного мира: бенчмаркинг супергероев в ролевых играх в мультивселенских контекстах
Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

Oct 16

ByPerapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot

Крупные языковые модели (LLM) всё чаще используются в качестве агентов, играющих роли, однако их способность достоверно и последовательно воплощать версии персонажей — например, супергероев из комиксов и кинематографических вселенных — остаётся недостаточно изученной. Каноны супергероев, такие как Marvel и DC, предоставляют богатую почву для исследований: десятилетия повествования породили множество воплощений одного и того же персонажа с уникальными историями, ценностями и моральными принципами. Для изучения этой проблемы мы представляем Beyond One World — эталонный набор данных для ролевой игры, основанной на персонажах, охватывающий 30 культовых героев и 90 их канонических версий. Набор включает две задачи: (i) Canon Events, проверяющую фактологическое воспроизведение ключевых этапов жизни, и (ii) Moral Dilemmas, ставящую модели перед этически сложными сценариями. Мы оцениваем ответы на предмет канонической точности и достоверности рассуждений в рамках подхода, разделяющего внутренние размышления ("мышление") и внешние решения ("действия"). Мы также предлагаем метрику Think-Act Matching, которая количественно оценивает соответствие между причинами и действиями и служит индикатором доверия к модели. Эксперименты с моделями, ориентированными и не ориентированными на рассуждения, выявили три ключевых результата: (1) цепочка рассуждений (chain-of-thought prompting) улучшает нарративную согласованность в менее мощных моделях, но может снижать каноническую точность в более сильных; (2) обобщение между версиями одного персонажа остаётся серьёзным препятствием; (3) модели часто преуспевают либо в "мышлении", либо в "действиях", но редко в обоих аспектах одновременно. Beyond One World выявляет критические пробелы в мультивселенской согласованности и согласованности рассуждений, предлагая сложный эталон для оценки ролевых LLM.

ОтказнаяОценка: Генеративная оценка избирательного отказа в обоснованных языковых моделях
RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

Oct 12

ByAashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab

Способность языковых моделей в системах RAG избирательно отказываться отвечать на основе некорректного контекста имеет критическое значение для безопасности, однако остается значительной точкой сбоя. Наше масштабное исследование показывает, что даже передовые модели испытывают трудности в таких условиях, при этом точность отказа падает ниже 50% в задачах с использованием нескольких документов, демонстрируя либо опасную избыточную уверенность, либо чрезмерную осторожность. Статические бенчмарки не позволяют надежно оценить эту способность, так как модели используют специфические артефакты наборов данных и запоминают тестовые примеры. Мы представляем RefusalBench — генеративную методологию, которая программно создает диагностические тестовые случаи с помощью контролируемых лингвистических возмущений. Наша структура включает 176 различных стратегий возмущений, охватывающих шесть категорий информационной неопределенности и три уровня интенсивности. Оценка более 30 моделей выявляет систематические паттерны сбоев: отказ включает отдельные навыки обнаружения и категоризации, причем ни масштаб, ни расширенное рассуждение не улучшают производительность. Мы обнаруживаем, что избирательный отказ является обучаемой способностью, чувствительной к согласованию, что открывает четкий путь для улучшения. Мы выпускаем два бенчмарка — RefusalBench-NQ (один документ) и RefusalBench-GaRAGe (несколько документов) — и нашу полную генеративную структуру для обеспечения непрерывной и динамичной оценки этой критической способности.

RAGCap-Bench: Оценка возможностей языковых моделей в системах генерации с усилением на основе агентного поиска
RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

Oct 15

ByJingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li

Генерация с использованием извлечения информации (Retrieval-Augmented Generation, RAG) смягчает ключевые ограничения больших языковых моделей (Large Language Models, LLMs), такие как фактические ошибки, устаревшие знания и галлюцинации, за счет динамического извлечения внешней информации. Последние исследования расширяют эту парадигму с помощью агентских систем RAG, где LLMs выступают в роли агентов, которые итеративно планируют, извлекают и анализируют сложные запросы. Однако такие системы по-прежнему испытывают трудности с решением сложных многошаговых вопросов, а их промежуточные способности к рассуждению остаются недостаточно изученными. Для решения этой проблемы мы предлагаем RAGCap-Bench — ориентированный на возможности эталонный тест для детальной оценки промежуточных задач в агентских рабочих процессах RAG. Мы анализируем выходные данные современных систем, чтобы определить общие задачи и ключевые способности, необходимые для их выполнения, а затем создаем таксономию типичных ошибок LLM для разработки целенаправленных оценочных вопросов. Эксперименты показывают, что модели с "медленным мышлением", демонстрирующие более высокие результаты в RAGCap, достигают лучших конечных результатов, что подтверждает валидность эталонного теста и важность улучшения этих промежуточных способностей.

GroundedPRM: Моделирование пошагового процесса вознаграждения с использованием дерева и учетом точности
GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

Oct 16

ByYao Zhang, Yu Wu, Haowei Zhang, Weiguo Li, Haokun Chen, Jingpei Wu, Guohao Li, Zhen Han, Volker Tresp

Модели вознаграждения процессов (Process Reward Models, PRMs) направлены на улучшение многошагового рассуждения в крупных языковых моделях (Large Language Models, LLMs) путем контроля промежуточных шагов и выявления ошибок. Однако создание эффективных PRM остается сложной задачей из-за отсутствия масштабируемых и качественных аннотаций. Существующие подходы опираются на дорогостоящую ручную разметку, самооценку на основе LLM, которая склонна к галлюцинациям, или оценку методом Монте-Карло (MC), которая определяет качество шагов исключительно на основе конечных результатов и часто вносит шумное и несогласованное управление из-за неправильного распределения заслуг. Эти проблемы приводят к трем основным ограничениям: шумные вознаграждения, низкая фактическая достоверность и несогласованность с целями пошагового рассуждения. Для решения этих задач мы представляем GroundedPRM — структурированную и ориентированную на достоверность систему автоматического контроля процессов. Чтобы уменьшить шум вознаграждений и обеспечить детальное распределение заслуг, мы строим структурированные пути рассуждений с использованием метода поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS). Чтобы исключить галлюцинированное управление, мы проверяем каждый промежуточный шаг с помощью внешнего инструмента, предоставляя сигналы корректности, основанные на исполнении. Для объединения проверки на уровне шагов и глобальной оценки результатов мы разрабатываем гибридный механизм агрегации вознаграждений, который объединяет проверку на основе инструментов с обратной связью, полученной от MCTS. Наконец, мы форматируем сигнал вознаграждения в генеративную структуру, усиленную обоснованиями, чтобы повысить интерпретируемость и совместимость с LLM, настроенными на инструкции. GroundedPRM обучается на всего 40 тыс. автоматически размеченных образцов, что составляет лишь 10% данных, используемых лучшей PRM, обученной с автоматической разметкой. Тем не менее, она достигает относительного улучшения средней производительности на ProcessBench до 26%. При использовании для поиска с жадным вознаграждением GroundedPRM превосходит даже PRM, обученные с ручной разметкой, предлагая масштабируемый и проверяемый путь к высококачественному процессуальному рассуждению.

Зеркальное спекулятивное декодирование: преодоление последовательного барьера в выводе больших языковых моделей
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

Oct 15

ByNikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova

Спекулятивное декодирование ускоряет вывод в больших языковых моделях (LLM) за счет использования черновой модели для предварительного просмотра, но выигрыш ограничен затратами на авторегрессивное создание черновика: увеличение размера черновика повышает уровень принятия, но вводит дополнительную задержку, усугубляя компромисс между скоростью и точностью. Предыдущие методы (Medusa, Hydra, EAGLE) частично снижают затраты на черновик, но либо ухудшают уровень принятия, либо вводят накладные расходы, ограничивающие масштабируемость. Мы представляем Mirror Speculative Decoding (Mirror-SD) — алгоритм вывода, который преодолевает компромисс между задержкой и уровнем принятия. Mirror-SD запускает полные ветви прогнозов на основе сигналов раннего выхода параллельно с суффиксом целевой модели и явно распределяет вычисления между гетерогенными ускорителями (GPU и NPU), чтобы использовать параллелизм между устройствами. Черновик спекулирует продолжения для проверки целевой моделью, в то время как целевая модель одновременно спекулирует пути коррекции для черновика, превращая спекуляцию в два взаимодополняющих конвейера выполнения. Чтобы дополнительно сократить задержку черновика без ослабления семантики принятия, мы добавляем спекулятивное потоковое воспроизведение, позволяя черновику выдавать несколько токенов за шаг. Эта двойная стратегия параллельного гетерогенного выполнения и многотокенного спекулятивного потокового воспроизведения приближает спекулятивное декодирование к идеальному режиму высокого уровня принятия с низкими накладными расходами. На SpecBench с серверными моделями от 14B до 66B параметров Mirror-SD демонстрирует стабильные сквозные улучшения, достигая ускорения времени выполнения в 2,8–5,8 раз для различных задач и среднего относительного улучшения на 30% по сравнению с самым сильным базовым методом, EAGLE3.