HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

36 papers found

DeepSearch: Преодоление узкого места в обучении с подкреплением с помощью проверяемых вознаграждений через поиск по дереву Монте-Карло
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

Sep 29

ByFang Wu, Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi

124

Хотя RLVR стал важным компонентом для развития продвинутых навыков рассуждения в больших языковых моделях (LLM), современные исследования зафиксировали плато в обучении, возникающее после тысяч шагов оптимизации, что демонстрирует заметное снижение прироста производительности, несмотря на увеличение вычислительных затрат. Это ограничение связано с разреженными паттернами исследования, присущими текущим практикам RLVR, где модели полагаются на ограниченные прогоны, которые часто упускают ключевые пути рассуждений и не обеспечивают систематического покрытия пространства решений. Мы представляем DeepSearch — фреймворк, который интегрирует метод Монте-Карло для поиска по дереву (MCTS) непосредственно в обучение RLVR. В отличие от существующих методов, использующих поиск по дереву только на этапе вывода, DeepSearch встраивает структурированный поиск в цикл обучения, обеспечивая систематическое исследование и точное распределение кредита по шагам рассуждений. Благодаря исследованию на этапе обучения, DeepSearch устраняет фундаментальное узкое место, связанное с недостаточным исследованием, которое приводит к снижению улучшений производительности при длительном обучении. Наши вклады включают: (1) стратегию выбора глобальных границ, которая выделяет перспективные узлы в дереве поиска, (2) выбор с использованием энтропийного руководства, который идентифицирует уверенные пути для контроля, и (3) адаптивное обучение с использованием буфера воспроизведения и кэширования решений для повышения эффективности. Эксперименты на бенчмарках математического рассуждения показывают, что DeepSearch достигает средней точности 62,95% и устанавливает новый уровень state-of-the-art для моделей рассуждений на 1,5 млрд параметров, используя в 5,7 раз меньше GPU-часов, чем подходы с расширенным обучением. Эти результаты подчеркивают важность стратегического исследования по сравнению с масштабированием методом "грубой силы" и демонстрируют потенциал алгоритмических инноваций для развития методологий RLVR. DeepSearch задает новое направление для масштабирования возможностей рассуждений через систематический поиск, а не за счет длительных вычислений.

GEM: Тренажерный зал для агентных языковых моделей
GEM: A Gym for Agentic LLMs

Oct 1

ByZichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, Min Lin

Парадигма обучения больших языковых моделей (LLM) переходит от статических наборов данных к обучению на основе опыта, где агенты приобретают навыки через взаимодействие со сложными средами. Чтобы облегчить этот переход, мы представляем GEM (General Experience Maker) — симулятор среды с открытым исходным кодом, разработанный для эпохи LLM. Аналогично OpenAI-Gym для традиционного обучения с подкреплением (RL), GEM предоставляет стандартизированную структуру для интерфейса среда-агент, включая асинхронное векторизованное выполнение для высокой пропускной способности и гибкие обертки для простого расширения. GEM также включает разнообразный набор сред, надежные встроенные инструменты и примеры скриптов, демонстрирующих использование GEM с пятью популярными фреймворками для обучения RL. Вместе с этим мы предоставляем набор базовых результатов для 24 сред, используя REINFORCE с нормализацией возврата (ReBN), который, в отличие от GRPO, совместим с полной настройкой RL с плотными наградами за каждый шаг и обеспечивает лучшее распределение заслуг. Мы также проводим прямое сравнение PPO, GRPO и REINFORCE в одношаговых и многошаговых настройках с использованием GEM, чтобы пролить свет на алгоритмические решения. Наконец, GEM также служит удобным инструментом для оценки, помимо среды обучения. Мы надеемся, что этот фреймворк поможет ускорить будущие исследования агентных LLM.

SINQ: Квантование с нормализацией Синкхорна для низкоточных весов языковых моделей без калибровки
SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights

Sep 26

ByLorenz K. Müller, Philippe Bich, Jiawei Zhuang, Ahmet Çelik, Luca Benfenati, Lukas Cavigelli

Посттренировочная квантизация стала наиболее широко используемой стратегией для развертывания больших языковых моделей с низкой точностью. Тем не менее, современные методы демонстрируют ухудшение перплексии при битовой ширине, меньшей или равной 4, отчасти из-за того, что представление выбросов вызывает проблемы с точностью в параметрах, которые используют те же масштабы, что и эти выбросы. Эта проблема особенно заметна для методов равномерной квантизации, не требующих калибровки. Мы представляем SINQ, который дополняет существующие посттренировочные квантизаторы дополнительным масштабным коэффициентом по второй оси и быстрым алгоритмом в стиле Синхорна-Кноппа, который находит масштабы для нормализации дисперсий по строкам и столбцам, тем самым минимизируя новый прокси-целевой показатель для квантизации: дисбаланс матрицы. Наш метод не имеет взаимодействий между слоями и может быть тривиально применен к новым архитектурам для квантизации любых линейных слоев. Мы оцениваем наш метод на семействе моделей Qwen3 и DeepSeek-V2.5. SINQ значительно улучшает перплексию на WikiText2 и C4 по сравнению с базовыми методами равномерной квантизации без калибровки и может быть дополнительно улучшен за счет комбинации с калибровкой и неравномерными уровнями квантизации. Код для воспроизведения результатов этой работы и простого квантирования моделей с использованием SINQ доступен по адресу https://github.com/huawei-csl/SINQ.

VLA-RFT: Тонкая настройка с подкреплением для взаимодействия "Видение-Язык-Действие" с проверенными вознаграждениями в симуляторах мира
VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

Oct 1

ByHengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su

Модели Vision-Language-Action (VLA) обеспечивают принятие решений в физическом мире, но в значительной степени полагаются на обучение с подражанием, что приводит к накоплению ошибок и низкой устойчивости при сдвиге распределения. Обучение с подкреплением (RL) может смягчить эти проблемы, однако обычно требует дорогостоящих взаимодействий в реальном мире или страдает от разрыва между симуляцией и реальностью. Мы представляем VLA-RFT — фреймворк для тонкой настройки с использованием обучения с подкреплением, который использует управляемую симуляцию на основе данных. Обучаясь на данных реальных взаимодействий, симулятор предсказывает будущие визуальные наблюдения в зависимости от действий, позволяя развертывание политик с плотными наградами на уровне траекторий, основанных на эталонных данных достижения целей. Такой подход обеспечивает эффективный и согласованный с действиями сигнал обучения, значительно снижая требования к объему данных. Всего за менее чем 400 шагов тонкой настройки VLA-RFT превосходит сильные базовые модели, обученные с учителем, и демонстрирует большую эффективность, чем RL на основе симуляторов. Более того, модель демонстрирует высокую устойчивость в условиях возмущений, сохраняя стабильное выполнение задач. Наши результаты подтверждают, что тонкая настройка на основе модели мира является практичной парадигмой пост-обучения для повышения обобщаемости и устойчивости моделей VLA. Для получения дополнительной информации посетите https://vla-rft.github.io/.

Knapsack RL: Раскрытие исследовательского потенциала больших языковых моделей через оптимизацию распределения бюджета
Knapsack RL: Unlocking Exploration of LLMs via Optimizing Budget Allocation

Sep 30

ByZiniu Li, Congliang Chen, Tianyun Yang, Tian Ding, Ruoyu Sun, Ge Zhang, Wenhao Huang, Zhi-Quan Luo

Крупные языковые модели (LLM) могут самостоятельно совершенствоваться с помощью обучения с подкреплением, генерируя траектории для исследования и поиска более эффективных решений. Однако этот процесс исследования требует значительных вычислительных ресурсов, что зачастую вынуждает современные методы выделять ограниченные бюджеты на исследование для каждой задачи. Такое равномерное распределение создает проблемные крайние случаи: простые задачи стабильно выполняются успешно, а сложные задачи стабильно терпят неудачу, что в обоих случаях приводит к нулевым градиентам при обновлениях обучения для широко используемой оптимизации групповой относительной политики (GRPO). Мы решаем эту проблему с точки зрения распределения бюджета на исследование. Рассматривая исследование каждой задачи как "элемент" с уникальной "ценностью" и "стоимостью", мы устанавливаем связь с классической задачей о рюкзаке. Такая формулировка позволяет нам вывести оптимальное правило распределения ресурсов, которое адаптивно учитывает текущее состояние обучения модели. При применении к GRPO наш метод увеличивает эффективное соотношение ненулевых градиентов политики на 20-40% в процессе обучения. Выступая в роли вычислительного "бесплатного бонуса", наш подход позволяет перераспределять бюджеты на исследование с задач, где обучение достигло насыщения, на те задачи, где оно наиболее эффективно. Это позволяет выделять значительно большие бюджеты (например, 93 прогона) для особенно сложных проблем, что было бы вычислительно неосуществимо при равномерном распределении. Эти улучшения приводят к значительным успехам на тестах математического мышления, со средним улучшением на 2-4 балла и пиковым увеличением на 9 баллов для конкретных задач. Примечательно, что достижение сопоставимой производительности с традиционным однородным распределением потребовало бы примерно в 2 раза больше вычислительных ресурсов.

Code2Video: Кодоцентричная парадигма для создания образовательных видеоматериалов
Code2Video: A Code-centric Paradigm for Educational Video Generation

Oct 1

ByYanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou

Хотя современные генеративные модели продвигают синтез видео в пиксельном пространстве, они остаются ограниченными в создании профессиональных образовательных видео, которые требуют дисциплинарных знаний, точных визуальных структур и согласованных переходов, что ограничивает их применимость в образовательных сценариях. Интуитивно такие требования лучше решаются через манипуляции с рендерируемой средой, которая может быть явно контролируема с помощью логических команд (например, кода). В данной работе мы предлагаем Code2Video, кодоцентричную агентскую платформу для генерации образовательных видео с помощью исполняемого Python-кода. Платформа включает три взаимодействующих агента: (i) Планировщик, который структурирует содержание лекции в последовательные временные потоки и подготавливает соответствующие визуальные ресурсы; (ii) Кодер, который преобразует структурированные инструкции в исполняемый Python-код, используя автоматическое исправление на основе области видимости для повышения эффективности; и (iii) Критик, который использует модели "визуальный язык" (VLM) с визуальными якорными подсказками для улучшения пространственного расположения и обеспечения ясности. Для поддержки систематической оценки мы создаем MMMC, эталонный набор профессионально созданных образовательных видео, специфичных для различных дисциплин. Мы оцениваем MMMC по различным параметрам, включая эстетические оценки VLM-as-a-Judge, эффективность кода и, в частности, TeachQuiz, новую сквозную метрику, которая количественно определяет, насколько хорошо VLM, после "разобучения", может восстановить знания, просматривая сгенерированные видео. Наши результаты демонстрируют потенциал Code2Video как масштабируемого, интерпретируемого и контролируемого подхода, достигая 40% улучшения по сравнению с прямой генерацией кода и создавая видео, сопоставимые с созданными человеком учебными материалами. Код и наборы данных доступны по адресу https://github.com/showlab/Code2Video.

PIPer: Настройка окружения на устройстве с использованием онлайн-обучения с подкреплением
PIPer: On-Device Environment Setup via Online Reinforcement Learning

Sep 29

ByAlexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, Egor Bogomolov, Yaroslav Zharov

Настройка окружения — процесс конфигурации системы для работы с конкретным программным проектом — представляет собой постоянную проблему в области разработки программного обеспечения (ПО). Автоматизированные методы настройки окружения могли бы помочь разработчикам, предоставляя полностью настроенные окружения для произвольных репозиториев без необходимости ручного вмешательства. Это также помогает исследователям в области ПО масштабировать бенчмарки, основанные на выполнении кода. Однако последние исследования показывают, что даже современные крупные языковые модели (LLM) достигают ограниченного успеха в автоматизации этой задачи. Чтобы устранить это ограничение, мы настраиваем специализированную модель для настройки окружения. Мы сочетаем контролируемое тонкое обучение для генерации корректных Bash-скриптов и обучение с подкреплением с проверяемыми наградами (RLVR), чтобы адаптировать модель к задаче настройки окружения. На тестовом наборе EnvBench-Python наш метод позволяет модели Qwen3-8B (модели, работающей на потребительском оборудовании) показывать результаты на уровне более крупных моделей — Qwen3-32B и GPT-4o. Код обучения и контрольные точки модели доступны онлайн: https://github.com/JetBrains-Research/PIPer.

ACON: Оптимизация сжатия контекста для долгосрочных агентов на основе языковых моделей
ACON: Optimizing Context Compression for Long-horizon LLM Agents

Oct 1

ByMinki Kang, Wei-Ning Chen, Dongge Han, Huseyin A. Inan, Lukas Wutschitz, Yanzhi Chen, Robert Sim, Saravan Rajmohan

Крупные языковые модели (LLM) всё чаще используются в качестве агентов в динамичных, реальных условиях, где успех требует как способности к рассуждению, так и эффективного использования инструментов. Одной из ключевых проблем для задач, связанных с агентами, является увеличение длины контекста, поскольку агенты должны накапливать длинные истории действий и наблюдений. Это расширение увеличивает затраты и снижает эффективность в задачах с длительным горизонтом, однако предыдущие работы по сжатию контекста в основном были сосредоточены на одношаговых задачах или узких приложениях. Мы представляем Оптимизацию Контекста Агента (ACON), унифицированную структуру, которая оптимально сжимает как наблюдения среды, так и истории взаимодействий в краткие, но информативные сводки. ACON использует оптимизацию руководящих принципов сжатия в пространстве естественного языка: при наличии парных траекторий, где полный контекст приводит к успеху, а сжатый контекст — к неудаче, мощные LLM анализируют причины неудач, и руководящие принципы сжатия обновляются соответствующим образом. Кроме того, мы предлагаем дистиллировать оптимизированный компрессор LLM в более мелкие модели, чтобы снизить накладные расходы на дополнительный модуль. Эксперименты на AppWorld, OfficeBench и Multi-objective QA показывают, что ACON снижает использование памяти на 26–54% (пиковые токены), при этом в значительной степени сохраняя производительность задач, сохраняет более 95% точности при дистилляции в более мелкие компрессоры и улучшает производительность более мелких языковых моделей в качестве агентов с длительным горизонтом, достигая улучшения до 46%.

Два в одном: ваш GRPO — это на самом деле DPO
It Takes Two: Your GRPO Is Secretly DPO

Oct 1

ByYihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie

Group Relative Policy Optimization (GRPO) — это известный алгоритм обучения с подкреплением для посттренинга больших языковых моделей (LLM). Распространено мнение, что GRPO требует большого размера группы для обеспечения стабильного обучения за счет точной статистической оценки, что влечет значительные вычислительные затраты. В данной работе мы оспариваем это предположение, переосмысливая GRPO как форму контрастивного обучения, что выявляет фундаментальную связь с Direct Preference Optimization (DPO). Вдохновленные эмпирическим успехом DPO, мы исследуем минимальный случай с двумя прогонами (2-GRPO), конфигурацию, ранее считавшуюся неосуществимой. Мы предоставляем строгий теоретический анализ для обоснования 2-GRPO и эмпирически демонстрируем, что он достигает производительности на уровне 16-GRPO, несмотря на использование лишь 1/8 прогонов и сокращение времени обучения более чем на 70%.

BroRL: Масштабирование обучения с подкреплением через расширенное исследование
BroRL: Scaling Reinforcement Learning via Broadened Exploration

Oct 1

ByJian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, Yi Dong

Обучение с подкреплением с верифицируемыми наградами (RLVR) стало ключевым элементом для раскрытия сложных способностей к рассуждению в крупных языковых моделях. Недавняя работа ProRL показала перспективность масштабирования RL за счет увеличения количества шагов обучения. Однако производительность выходит на плато после тысяч шагов, с явным уменьшением отдачи от выделения дополнительных вычислительных ресурсов на обучение. В данной работе мы исследуем дополнительную парадигму масштабирования RL, BroRL, увеличивая количество прогонов на каждый пример до сотен для исчерпывающего расширения исследования, что приводит к непрерывному улучшению производительности за пределами точки насыщения, наблюдаемой в ProRL при масштабировании количества шагов обучения. Наш подход мотивирован анализом уравнения баланса масс, позволяющим охарактеризовать скорость изменения вероятностной массы для правильных и неправильных токенов в процессе подкрепления. Мы показываем, что в предположении одношагового RL токены, полученные в результате прогонов, всегда способствуют расширению правильной массы, тогда как токены вне прогонов могут приводить к увеличению или уменьшению в зависимости от их распределения и баланса наград. Важно, что с увеличением количества прогонов на пример N влияние непрогонных токенов уменьшается, обеспечивая общее расширение правильной массы. Для проверки нашего теоретического анализа мы проводим симуляции в более мягких условиях и обнаруживаем, что достаточно большой размер прогона N, соответствующий обширному исследованию, гарантирует увеличение вероятностной массы всех правильных токенов. Эмпирически BroRL оживляет модели, достигшие насыщения после 3K шагов обучения ProRL, и демонстрирует устойчивое, непрерывное улучшение, достигая передовых результатов для модели на 1,5 млрд параметров на различных бенчмарках.

Flash-Searcher: Быстрые и эффективные веб-агенты на основе параллельного выполнения с использованием DAG
Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

Sep 29

ByTianrui Qin, Qianben Chen, Sinuo Wang, He Xing, King Zhu, He Zhu, Dingfeng Shi, Xinxin Liu, Ge Zhang, Jiaheng Liu, Yuchen Eleanor Jiang, Xitong Gao, Wangchunshu Zhou

Крупные языковые модели (LLM) демонстрируют впечатляющие способности в выполнении сложных задач рассуждения при использовании внешних инструментов. Однако современные подходы преимущественно полагаются на последовательную обработку, что приводит к неэффективному выполнению, особенно для задач, требующих интенсивного взаимодействия с инструментами. В данной статье представлен Flash-Searcher — новый фреймворк параллельного рассуждения агентов, который кардинально переосмысливает парадигму выполнения, переходя от последовательных цепочек к направленным ациклическим графам (DAG). Flash-Searcher разбивает сложные задачи на подзадачи с явными зависимостями, позволяя параллельное выполнение независимых путей рассуждения при сохранении логических ограничений. Благодаря динамической оптимизации рабочего процесса, наш фреймворк непрерывно уточняет граф выполнения на основе промежуточных результатов, эффективно интегрируя модуль суммирования. Комплексные оценки на множестве бенчмарков показывают, что Flash-Searcher стабильно превосходит существующие подходы. В частности, он достигает точности 67,7% на BrowseComp и 83% на xbench-DeepSearch, сокращая количество шагов выполнения агента до 35% по сравнению с текущими фреймворками. Кроме того, при дистилляции этого параллельного конвейера рассуждения в отдельные модели мы наблюдаем значительное улучшение производительности на различных архитектурах, что подчеркивает универсальность нашей методологии. Таким образом, наша работа представляет собой значительный шаг вперед в проектировании архитектуры агентов, предлагая более масштабируемую и эффективную парадигму для выполнения сложных задач рассуждения.

BiasFreeBench: эталон для снижения предвзятости в ответах крупных языковых моделей
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

Sep 30

ByXin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He

Существующие исследования методов смягчения смещений в больших языковых моделях (LLM) используют разнообразные базовые подходы и метрики для оценки эффективности устранения смещений, что приводит к несогласованным сравнениям между ними. Более того, их оценки в основном основаны на сравнении вероятностей, которые LLM присваивают контекстам с наличием и отсутствием смещений, что игнорирует разрыв между такими оценками и реальными сценариями использования, где пользователи взаимодействуют с LLM, читая ответы моделей и ожидают справедливых и безопасных результатов, а не вероятностей, выдаваемых LLM. Для обеспечения согласованной оценки различных методов устранения смещений и преодоления этого разрыва мы представляем BiasFreeBench — эмпирический бенчмарк, который всесторонне сравнивает восемь основных методов смягчения смещений (охватывающих четыре метода на основе промптов и четыре метода на основе обучения) в двух тестовых сценариях (множественный выбор QA и открытый многократный QA), реорганизуя существующие наборы данных в единый формат запросов и ответов. Мы также вводим метрику на уровне ответов, Bias-Free Score, для измерения степени, в которой ответы LLM являются справедливыми, безопасными и антистереотипными. Эффективность методов устранения смещений систематически сравнивается и анализируется по ключевым направлениям: подходы на основе промптов vs. обучение, размер модели и обобщаемость различных стратегий обучения на неизвестные типы смещений. Мы планируем публично выпустить наш бенчмарк с целью создания единой тестовой платформы для исследований в области смягчения смещений.

Почему трансформеры не могут выучить умножение? Обратный инжиниринг выявляет проблемы с длинными зависимостями
Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

Sep 30

ByXiaoyan Bai, Itamar Pres, Yuntian Deng, Chenhao Tan, Stuart Shieber, Fernanda Viégas, Martin Wattenberg, Andrew Lee

Языковые модели становятся всё более мощными, но всё ещё не справляются с, казалось бы, простой задачей умножения многозначных чисел. В данной работе мы исследуем причины этого, анализируя модель, которая успешно обучается умножению через неявную цепочку рассуждений, и представляем три ключевых вывода: (1) Доказательства наличия долгосрочной структуры: анализ вклада логитов и линейные пробы показывают, что модель кодирует необходимые долгосрочные зависимости для умножения многозначных чисел. (2) Механизм: модель кодирует долгосрочные зависимости, используя механизм внимания для построения направленного ациклического графа, чтобы «кэшировать» и «извлекать» попарные частичные произведения. (3) Геометрия: модель реализует частичные произведения в головах внимания, формируя суммы Минковского между парами цифр, причём цифры представлены с использованием базиса Фурье — оба подхода являются интуитивными и эффективными представлениями, которых не хватает стандартной модели с тонкой настройкой. С учётом этих инсайтов мы пересматриваем динамику обучения стандартной тонкой настройки и обнаруживаем, что модель сходится к локальному оптимуму, лишённому необходимых долгосрочных зависимостей. Мы дополнительно подтверждаем это понимание, вводя вспомогательную функцию потерь, которая предсказывает «накапливающуюся сумму» через линейную регрессионную пробу, что создаёт индуктивное смещение, позволяющее модели успешно обучаться умножению многозначных чисел. В итоге, анализируя механизмы модели с неявной цепочкой рассуждений, мы выявляем проблему обучения долгосрочных зависимостей в трансформерах и демонстрируем, как правильное индуктивное смещение может решить эту задачу.

EditReward: Модель вознаграждения, согласованная с человеком, для редактирования изображений на основе инструкций
EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Sep 30

ByKeming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen

В последнее время мы наблюдаем значительный прогресс в редактировании изображений с использованием инструкций на естественном языке. Несколько закрытых моделей, таких как GPT-Image-1, Seedream и Google-Nano-Banana, продемонстрировали весьма многообещающие результаты. Однако открытые модели все еще отстают. Основным узким местом является отсутствие надежной модели вознаграждения для масштабирования высококачественных синтетических обучающих данных. Чтобы устранить этот критический недостаток, мы разработали \mname, обученную на нашем новом крупномасштабном наборе данных о человеческих предпочтениях, тщательно аннотированном обученными экспертами в соответствии с строгим протоколом, содержащим более 200 тысяч пар предпочтений. \mname демонстрирует превосходное соответствие человеческим предпочтениям в задачах редактирования изображений с использованием инструкций. Эксперименты показывают, что \mname достигает наилучшей корреляции с человеческими оценками на установленных бенчмарках, таких как GenAI-Bench, AURORA-Bench, ImagenHub и нашем новом \benchname, превосходя широкий спектр моделей VLM-as-judge. Кроме того, мы используем \mname для выбора высококачественного подмножества из существующего зашумленного набора данных ShareGPT-4o-Image. Мы обучаем Step1X-Edit на выбранном подмножестве, что показывает значительное улучшение по сравнению с обучением на полном наборе данных. Это демонстрирует способность \mname служить моделью вознаграждения для масштабирования высококачественных обучающих данных для редактирования изображений. Более того, ее сильное соответствие человеческим предпочтениям предполагает потенциал для продвинутых приложений, таких как пост-обучение на основе обучения с подкреплением и масштабирование моделей редактирования изображений на этапе тестирования. \mname вместе с ее обучающим набором данных будет выпущена, чтобы помочь сообществу создавать более качественные обучающие наборы данных для редактирования изображений.

QUASAR: Генерация кода на языке ассемблера для квантовых вычислений с использованием инструментально-усиленных больших языковых моделей через агентное обучение с подкреплением
QUASAR: Quantum Assembly Code Generation Using Tool-Augmented LLMs via Agentic RL

Oct 1

ByCong Yu, Valter Uotila, Shilong Deng, Qingyuan Wu, Tuo Shi, Songlin Jiang, Lei You, Bo Zhao

Проектирование и оптимизация специализированных квантовых схем имеют решающее значение для использования преимуществ квантовых вычислений. Недавно появившийся подход к генерации квантовых схем на основе больших языковых моделей (LLM) стал многообещающим автоматизированным решением. Однако фундаментальные проблемы остаются нерешенными: (i) параметризованные квантовые вентили требуют точных числовых значений для оптимальной производительности, которые также зависят от множества факторов, включая количество квантовых вентилей, их параметры и структуру/глубину схем. (ii) LLM часто генерируют низкокачественные или некорректные квантовые схемы из-за отсутствия специализированных знаний в области квантовых вычислений. Мы предлагаем QUASAR, агентную среду обучения с подкреплением (RL) для генерации и оптимизации квантовых схем на основе LLM, дополненных инструментами. Для согласования LLM с квантовыми знаниями и улучшения генерируемых квантовых схем QUASAR разрабатывает (i) подход к верификации квантовых схем с использованием внешних квантовых симуляторов и (ii) сложный иерархический механизм вознаграждения в обучении RL. Обширная оценка демонстрирует улучшения как в синтаксической, так и в семантической производительности генерируемых квантовых схем. При использовании 4B LLM QUASAR достиг показателей корректности 99,31% для Pass@1 и 100% для Pass@10, превзойдя промышленные LLM, такие как GPT-4o, GPT-5 и DeepSeek-V3, а также несколько базовых подходов, основанных исключительно на контролируемом тонком обучении (SFT) или только на RL.

Создание, а не использование, наилучшего из N
Making, not Taking, the Best of N

Oct 1

ByAmmar Khairi, Daniel D'souza, Marzieh Fadaee, Julia Kreutzer

Получение высококачественных результатов в современных языковых моделях (LLM) в основном рассматривалось как задача выбора: определение единственного лучшего результата из разнообразного пула из N образцов, известного как Best-of-N (BoN). Однако такой подход по своей природе является нулевой суммой, отбрасывая разнообразную и потенциально полезную информацию из пула. Вместо этого мы исследуем совместный подход, при котором все кандидаты могут потенциально внести вклад в окончательный результат. С этой целью мы предлагаем метод Fusion-of-N (FusioN): подход, который использует общую языковую модель в качестве судьи для синтеза наиболее информативных элементов каждого образца в единый окончательный ответ. Мы сравниваем FusioN с BoN в двух сценариях: (i) масштабирование на этапе тестирования, где мы выбираем и агрегируем образцы из одной модели на этапе тестирования, и (ii) генерация синтетических данных, где мы объединяем образцы из пула разнообразных моделей-учителей для улучшения модели-ученика. Мы проводим обширное тестирование обоих подходов на 11 языках, 3 различных задачах и моделях разного масштаба. Во всех тестах FusioN последовательно превосходит BoN, демонстрируя универсальность и устойчивость как в масштабировании на этапе тестирования, так и в улучшениях, полученных за счет генерации синтетических данных. Мы также проводим детальный анализ FusioN, который показывает его удивительные сильные стороны и устойчивость в сложных условиях. Эти результаты указывают на необходимость пересмотра подхода к оценке и использованию результатов языковых моделей: от монолитного измерения качества к принятию их полиморфной природы. Такой сдвиг позволяет интегрировать разнообразные сильные стороны, раскрыть скрытый потенциал и достичь улучшений, которые ранее были недоступны при использовании только метода выбора.

О предсказуемости динамики обучения с подкреплением для крупных языковых моделей
On Predictability of Reinforcement Learning Dynamics for Large Language Models

Oct 1

ByYuchen Cai, Ding Cao, Xin Xu, Zijun Yao, Yuqing Huang, Zhenyu Tan, Benyi Zhang, Guiquan Liu, Junfeng Fang

Недавние достижения в области способностей к рассуждению у крупных языковых моделей (LLM) во многом обусловлены обучением с подкреплением (RL), однако динамика параметров в процессе RL-обучения остается малоизученной. В данной работе выявлены два фундаментальных свойства обновлений параметров, индуцированных RL в LLM: (1) Доминирование ранга 1, где ведущее сингулярное подпространство матрицы обновления параметров практически полностью определяет улучшение способности к рассуждению, восстанавливая более 99% прироста производительности; и (2) Линейная динамика ранга 1, где это доминирующее подпространство развивается линейно на протяжении всего обучения, что позволяет точно прогнозировать его состояние на основе ранних контрольных точек. Многочисленные эксперименты с 8 LLM и 7 алгоритмами подтверждают универсальность этих свойств. Более того, на основе этих результатов мы предлагаем AlphaRL — плагин-фреймворк для ускорения, который экстраполирует итоговое обновление параметров, используя короткий начальный период обучения, достигая ускорения до 2,5 раз при сохранении >96% производительности рассуждений без дополнительных модулей или настройки гиперпараметров. Это делает наши выводы универсальным и практичным инструментом для масштабируемого RL, открывая путь к принципиально новому, интерпретируемому и эффективному подходу к обучению LLM.

За пределами логарифмического правдоподобия: вероятностные цели для контролируемой тонкой настройки в континууме возможностей модели
Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

Oct 1

ByGaotang Li, Ruizhong Qiu, Xiusi Chen, Heng Ji, Hanghang Tong

Контролируемая тонкая настройка (SFT) является стандартным подходом для посттренировки больших языковых моделей (LLM), однако она часто демонстрирует ограниченную обобщаемость. Мы связываем это ограничение с её стандартной целью обучения: отрицательным логарифмическим правдоподобием (NLL). Хотя NLL оптимально при обучении с нуля, посттренировка работает в другой парадигме и может нарушать его предположения об оптимальности, поскольку модели уже содержат априорные знания, связанные с задачами, а обучающие данные могут быть длинными и зашумлёнными. В связи с этим мы исследуем общее семейство вероятностных целей и анализируем их эффективность в различных условиях. Благодаря всесторонним экспериментам и обширным исследованиям на 7 архитектурах моделей, 14 бенчмарках и 3 доменах, мы выявляем ключевой параметр, определяющий поведение целей: континуум возможностей модели. Вблизи сильного конца континуума цели, склоняющиеся к априорным знаниям и снижающие вес маловероятных токенов (например, -p, -p^{10}, пороговые варианты), стабильно превосходят NLL; на слабом конце доминирует NLL; в промежуточной зоне ни одна цель не преобладает. Наш теоретический анализ дополнительно поясняет, как цели меняются местами вдоль континуума, предоставляя принципиальную основу для адаптации целей к возможностям модели. Наш код доступен по адресу https://github.com/GaotangLi/Beyond-Log-Likelihood.

GUI-KV: Эффективные агенты графического интерфейса через кэш KV с пространственно-временной осведомленностью
GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness

Oct 1

ByKung-Hsiang Huang, Haoyi Qiu, Yutong Dai, Caiming Xiong, Chien-Sheng Wu

Агенты с графическим пользовательским интерфейсом (GUI), построенные на моделях обработки изображений и текста, стали перспективным подходом для автоматизации рабочих процессов взаимодействия человека и компьютера. Однако они также сталкиваются с проблемой неэффективности, поскольку обрабатывают длинные последовательности скриншотов высокого разрешения и решают задачи с длительным горизонтом, что делает вывод медленным, затратным и ограниченным по памяти. Хотя кэширование ключей и значений (KV) может смягчить эту проблему, хранение полного кэша становится непозволительно дорогим в контекстах, насыщенных изображениями. Существующие методы сжатия кэша неоптимальны, так как не учитывают пространственную и временную избыточность GUI. В данной работе мы сначала анализируем паттерны внимания в задачах GUI-агентов и обнаруживаем, что, в отличие от естественных изображений, разреженность внимания равномерно высока на всех слоях трансформера. Это наблюдение мотивирует простую стратегию равномерного распределения бюджета, которая, как мы показываем эмпирически, превосходит более сложные схемы с изменяющимся распределением по слоям. На основе этого мы представляем GUI-KV, метод сжатия KV-кэша для GUI-агентов, который не требует переобучения и работает по принципу "подключи и работай". GUI-KV сочетает две новые техники: (i) пространственное выделение значимых областей, которое дополняет оценки внимания нормой L2 скрытых состояний для лучшего сохранения семантически важных визуальных токенов, и (ii) оценку временной избыточности, которая проецирует ключи предыдущих кадров на подпространство ключей текущего кадра, чтобы предпочтительно удалять избыточную историю. На стандартных бенчмарках и моделях GUI-агентов GUI-KV превосходит конкурирующие методы сжатия KV-кэша, близко приближаясь к точности полного кэша при умеренных бюджетах. В частности, в настройке с 5 скриншотами на бенчмарке AgentNetBench GUI-KV сокращает количество операций с плавающей запятой при декодировании на 38,9%, одновременно увеличивая точность шага на 4,1% по сравнению с базовым методом с полным кэшем. Эти результаты демонстрируют, что использование специфической для GUI избыточности позволяет достичь эффективной и надежной работы агентов.

MixtureVitae: Открытый набор данных для предварительного обучения в веб-масштабе с высококачественными инструкциями и данными для логического вывода, созданный на основе текстовых источников с приоритетом разрешительного использования.
MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

Sep 29

ByHuu Nguyen, Victor May, Harsh Raj, Marianna Nezhurina, Yishan Wang, Yanqi Luo, Minh Chien Vu, Taishi Nakamura, Ken Tsui, Van Khue Nguyen, David Salinas, Aleksandra Krasnodębska, Christoph Schuhmann, Mats Leon Richter, Xuan-Son, Vu, Jenia Jitsev

Мы представляем MixtureVitae — открытый корпус для предварительного обучения, созданный для минимизации юридических рисков при обеспечении высокой производительности моделей. MixtureVitae использует стратегию сбора данных, направленную на снижение рисков, которая сочетает тексты из общественного достояния и тексты с разрешительными лицензиями (например, CC-BY/Apache) с тщательно обоснованными добавками низкого риска (например, работы государственных органов и источники, соответствующие требованиям EU TDM), а также целевые инструкции, рассуждения и синтетические данные с документированным происхождением. Мы подробно описываем прозрачный многоэтапный процесс, включающий фильтрацию с учетом лицензий, проверку безопасности и качества, а также смешивание с учетом доменов, и публикуем набор данных и рецепты его подготовки для поддержки воспроизводимых исследований. В контролируемых экспериментах с использованием протокола обучения open-sci-ref (фиксированные архитектуры с 130M/400M/1.3B/1.7B параметрами; бюджеты обучения в 50B и 300B токенов) модели, обученные на MixtureVitae, стабильно превосходят другие разрешительные наборы данных на ряде стандартных тестов, а при настройке 1.7B/300B они превосходят FineWeb-Edu и приближаются к DCLM на поздних этапах обучения. Производительность особенно высока на задачах, связанных с математикой и кодом, и конкурентоспособна на задачах вопросов и ответов. Эти результаты демонстрируют, что данные с приоритетом на разрешительные лицензии и сниженным риском предоставляют практичную и юридически безопасную основу для обучения мощных языковых моделей, уменьшая зависимость от неразборчивого веб-скрапинга без ущерба для конкурентоспособности. Код: https://github.com/ontocord/mixturevitae

Модели с оплатой за поиск являются моделями воздержания.
Pay-Per-Search Models are Abstention Models

Oct 1

ByMustafa Omer Gul, Claire Cardie, Tanya Goyal

Крупные языковые модели (LLM) не могут надежно распознавать границы своих параметрических знаний и часто генерируют вымышленные ответы на вопросы, выходящие за эти границы. В отличие от них, люди осознают свои ограничения и могут либо обратиться за внешней помощью в таких случаях, либо воздержаться от ответа. В данной статье мы представляем MASH (Modeling Abstention via Selective Help-seeking) — фреймворк для обучения, который легко извлекает воздержание от ответа из LLM. Основная идея заключается в том, что любое обращение LLM за внешней помощью, например, использование поискового инструмента, может служить заменой воздержанию, если внешняя помощь (поиск) соответствующим образом штрафуется, одновременно поощряя точность ответа. MASH реализует эту идею с помощью обучения с подкреплением и вознаграждения за каждый поиск. Мы провели эксперименты на трех наборах данных, ориентированных на вопросы, требующие глубоких знаний. Результаты показывают, что MASH значительно улучшает производительность выборочного обращения за помощью по сравнению с предыдущими эффективными подходами к поиску; на наборах данных с многошаговыми вопросами MASH повышает точность ответов на 7,6%. Кроме того, MASH демонстрирует сильное "из коробки" воздержание — он может различать вопросы, на которые невозможно ответить, и те, на которые ответ возможен, и выборочно генерировать ответы только на последние, демонстрируя поведение, аналогичное специализированным подходам к воздержанию. Мы подчеркиваем, что в отличие от предыдущих методов воздержания, MASH не требует предварительного определения границ знаний для создания обучающих данных. Вместо этого воздержание MASH является побочным продуктом обучения для вспомогательной задачи выборочного обращения за помощью. В целом, мы показываем, что обучение MASH эффективно согласует использование поисковых инструментов с параметрическими знаниями, что может быть успешно использовано для принятия решений о воздержании.

Обучение моделей вознаграждения для Vision-Language Process с учетом масштабирования во время тестирования в мультимодальных рассуждениях: ключевые идеи и извлеченные уроки
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned

Sep 27

ByBrandon Ong, Tej Deep Pala, Vernon Toh, William Chandra Tjhi, Soujanya Poria

Модели пошагового вознаграждения (Process Reward Models, PRMs) обеспечивают пошаговый контроль, повышающий надежность рассуждений в крупных языковых моделях. Хотя PRMs были тщательно изучены в текстовых областях, их применение в моделях, объединяющих зрение и язык (Vision Language Models, VLMs), остается ограниченным. Существующие PRMs для Vision-Language (VL-PRMs) полагаются на метод поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS) для построения данных, что часто приводит к зашумленным сигналам контроля и ограничивает обобщение между задачами. В данной работе мы стремимся прояснить пространство проектирования VL-PRMs, исследуя различные стратегии для построения наборов данных, обучения и масштабирования на этапе тестирования. Во-первых, мы представляем гибридную структуру синтеза данных, которая сочетает MCTS с оценками мощной VLM, создавая более точные пошаговые метки. Во-вторых, мы предлагаем контроль, ориентированный на восприятие, что позволяет нашей PRM явно обнаруживать ошибки на этапе визуального закрепления в процессе рассуждений. В-третьих, мы систематически оцениваем несколько стратегий масштабирования на этапе тестирования, демонстрируя, что наши PRMs могут надежно направлять VLMs к более точным решениям. Наши эксперименты, охватывающие пять разнообразных мультимодальных тестов (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista и MathVision), выявили несколько ключевых инсайтов: (i) VL-PRMs, используемые как модели итогового вознаграждения (Outcome Reward Models, ORMs) при масштабировании на этапе тестирования (Test-Time Scaling, TTS), могут превосходить выбор шагов процесса, управляемый VL-PRM, (ii) меньшие по размеру VL-PRMs могут соответствовать или даже превосходить более крупные в обнаружении ошибок процесса, (iii) VL-PRMs раскрывают скрытые способности к рассуждению в более мощных архитектурах VLM, (iv) контроль на уровне восприятия приводит к значительному улучшению масштабирования на этапе тестирования, и (v) производительность различных стратегий TTS улучшается на продвинутых наборах данных для математических рассуждений, несмотря на отсутствие обучения VL-PRMs на таких данных. Мы надеемся, что наша работа вдохновит дальнейшие исследования и будет способствовать развитию VLMs.

Интеграция теории сознания в социально интеллектуальные агенты на основе больших языковых моделей
Infusing Theory of Mind into Socially Intelligent LLM Agents

Sep 26

ByEunJeong Hwang, Yuwei Yin, Giuseppe Carenini, Peter West, Vered Shwartz

Теория сознания (Theory of Mind, ToM) — понимание ментальных состояний других людей — является ключевым аспектом человеческого социального интеллекта. Однако чат-боты и социальные агенты, основанные на больших языковых моделях (LLM), обычно не интегрируют её. В данной работе мы демонстрируем, что LLM, которые явно используют ToM, достигают лучших результатов в диалогах, эффективнее достигая поставленных целей. Показав, что простое побуждение моделей генерировать ментальные состояния между репликами уже приносит значительную пользу, мы представляем ToMAgent (ToMA) — диалогового агента, ориентированного на ToM. ToMA обучается путём сочетания ToM с предварительным анализом диалога для создания ментальных состояний, максимально полезных для достижения целей диалога. Эксперименты на интерактивном социальном бенчмарке Sotopia демонстрируют эффективность нашего метода по сравнению с рядом базовых подходов. Комплексный анализ показывает, что ToMA демонстрирует более стратегическое и целенаправленное поведение, что позволяет адаптироваться к долгосрочным задачам, одновременно поддерживая более качественные отношения с партнёрами. Наши результаты указывают на шаг вперёд в интеграции ToM для создания социально интеллектуальных агентов на основе LLM.

Извлечение скрытых знаний из языковых моделей
Eliciting Secret Knowledge from Language Models

Oct 1

ByBartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks

Мы исследуем извлечение скрытых знаний: обнаружение информации, которой обладает ИИ, но которую он не выражает явно. В качестве тестовой среды мы обучаем три семейства крупных языковых моделей (LLM) обладать определёнными знаниями, которые они применяют в дальнейших задачах, но отрицают их наличие при прямом запросе. Например, в одном из сценариев мы обучаем LLM генерировать ответы, которые предполагают знание о том, что пользователь является женщиной, но отрицают это знание при прямом вопросе. Затем мы разрабатываем различные методы извлечения скрытых знаний, как "чёрного ящика", так и "белого ящика", и оцениваем их эффективность в зависимости от того, помогают ли они аудитору LLM успешно угадать скрытую информацию. Многие из наших методов превосходят простые базовые подходы. Наиболее эффективные методы (наилучшие в 2/3 сценариев) основаны на атаках с предзаполнением (prefill attacks) — технике "чёрного ящика", при которой LLM раскрывает скрытые знания при генерации завершения из заданного префикса. В оставшемся сценарии наиболее эффективными оказываются методы "белого ящика", основанные на logit lens и разреженных автоэнкодерах (SAEs). Мы публикуем наши модели и код, создавая открытый эталон для оценки методов извлечения скрытых знаний.

JoyAgent-JDGenie: Технический отчет по GAIA
JoyAgent-JDGenie: Technical Report on the GAIA

Oct 1

ByJiarun Liu, Shiyue Xu, Shangkun Liu, Yang Li, Wen Liu, Min Liu, Xiaoqing Zhou, Hanmin Wang, Shilin Jia, zhen Wang, Shaohua Tian, Hanhao Li, Junbo Zhang, Yongli Yu, Peng Cao, Haofen Wang

Крупные языковые модели всё чаще используются как автономные агенты для выполнения сложных задач в реальном мире, однако существующие системы часто сосредоточены на изолированных улучшениях без единой архитектуры, обеспечивающей устойчивость и адаптивность. Мы предлагаем архитектуру универсального агента, которая интегрирует три ключевых компонента: коллективную многоагентную структуру, объединяющую агентов планирования и выполнения с голосованием критической модели, иерархическую систему памяти, охватывающую рабочий, семантический и процедурный уровни, а также усовершенствованный набор инструментов для поиска, выполнения кода и мультимодального анализа. Оцененная на комплексном бенчмарке, наша архитектура стабильно превосходит открытые базовые решения и приближается к производительности проприетарных систем. Эти результаты подчеркивают важность системной интеграции и указывают путь к созданию масштабируемых, устойчивых и адаптивных ИИ-ассистентов, способных работать в различных областях и задачах.

BindWeave: Согласованная генерация видео с объектом через кросс-модальную интеграцию
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Oct 1

ByZhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan

Diffusion Transformer продемонстрировал впечатляющие способности в генерации высококачественных видео, обеспечивая визуально согласованные кадры и богатые детали на протяжении длительных временных интервалов. Однако существующие модели генерации видео по-прежнему не справляются с созданием видео с согласованными объектами из-за присущих трудностей в интерпретации запросов, которые задают сложные пространственные отношения, временную логику и взаимодействия между несколькими объектами. Для решения этой проблемы мы предлагаем BindWeave — унифицированную структуру, которая охватывает широкий спектр сценариев от случаев с одним объектом до сложных сцен с множеством разнородных сущностей. Для привязки сложной семантики запросов к конкретным визуальным объектам мы представляем MLLM-DiT — структуру, в которой предобученная мультимодальная большая языковая модель выполняет глубокое кросс-модальное рассуждение для закрепления сущностей и разделения ролей, атрибутов и взаимодействий, создавая скрытые состояния, учитывающие объекты, которые управляют диффузионным трансформером для генерации высококачественных видео с согласованными объектами. Эксперименты на бенчмарке OpenS2V показывают, что наш метод достигает превосходных результатов по согласованности объектов, естественности и релевантности текста в сгенерированных видео, превосходя существующие открытые и коммерческие модели.

BatonVoice: Операционалистская структура для улучшения управляемого синтеза речи с использованием лингвистического интеллекта крупных языковых моделей
BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs

Sep 30

ByYue Wang, Ruotian Ma, Xingyu Chen, Zhengliang Shi, Wanshun Chen, Huang Liu, Jiadi Yao, Qu Yang, Qingxuan Jiang, Fanghua Ye, Juntao Li, Min Zhang, Zhaopeng Tu, Xiaolong Li, Linus

Рост крупных языковых моделей (LLM) трансформирует мультимодальные модели, причем синтез речи является одним из ключевых применений. Однако существующие подходы часто недостаточно используют лингвистический интеллект этих моделей, обычно не задействуя их мощные возможности следования инструкциям. Это ограничение препятствует способности модели следовать текстовым инструкциям для управляемого преобразования текста в речь (Text-to-Speech, TTS). Для решения этой проблемы мы предлагаем новую парадигму, вдохновленную «операционализмом», которая разделяет понимание инструкций и генерацию речи. Мы представляем BatonVoice — фреймворк, в котором LLM выступает в роли «дирижера», понимая пользовательские инструкции и генерируя текстовый «план» — явные вокальные характеристики (например, высота тона, энергия). Отдельная модель TTS, «оркестр», затем генерирует речь на основе этих характеристик. Для реализации этого компонента мы разработали BatonTTS — модель TTS, специально обученную для этой задачи. Наши эксперименты показывают, что BatonVoice демонстрирует высокую производительность в управляемом и эмоциональном синтезе речи, превосходя сильные открытые и закрытые базовые модели. Особенно важно, что наш подход обеспечивает впечатляющую кросс-лингвистическую генерализацию «с нуля», точно применяя способности управления характеристиками к языкам, не встречавшимся в процессе пост-обучения. Это демонстрирует, что объективизация речи в текстовые вокальные характеристики может более эффективно раскрыть лингвистический интеллект LLM.

VLM-FO1: Преодоление разрыва между высокоуровневым рассуждением и детализированным восприятием в визуально-языковых моделях
VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

Sep 30

ByPeng Liu, Haozhan Shen, Chunxin Fang, Zhicheng Sun, Jiajia Liao, Tiancheng Zhao

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), превосходно справляются с задачами высокоуровневого понимания сцен, но испытывают трудности в задачах детального восприятия, требующих точной локализации. Эта проблема возникает из-за фундаментального несоответствия, поскольку генерация точных числовых координат является сложной задачей для архитектур, ориентированных на язык. В данной статье мы представляем VLM-FO1 — новый подход, который преодолевает это ограничение, переосмысливая объектно-ориентированное восприятие как задачу устойчивого извлечения признаков вместо хрупкой генерации координат. Наш метод работает как модуль plug-and-play, интегрируемый с любой предварительно обученной VLM. Он использует гибридный кодировщик детальных регионов (Hybrid Fine-grained Region Encoder, HFRE), оснащенный двойным кодировщиком изображений, для генерации мощных токенов регионов, богатых как семантическими, так и пространственными деталями. Система ссылок на основе токенов позволяет языковой модели (LLM) легко рассуждать и связывать язык с конкретными визуальными регионами. Эксперименты показывают, что VLM-FO1 достигает наилучших результатов на разнообразных тестовых наборах, демонстрируя исключительные способности в локализации объектов, понимании генерации регионов и рассуждении о визуальных регионах. Важно отметить, что наша двухэтапная стратегия обучения обеспечивает достижение этих улучшений восприятия без ущерба для общих способностей базовой модели к визуальному пониманию. VLM-FO1 устанавливает эффективную и гибкую парадигму для создания моделей, учитывающих восприятие, устраняя разрыв между высокоуровневым рассуждением и детальной визуальной привязкой.

Булева выполнимость через обучение с подражанием
Boolean Satisfiability via Imitation Learning

Sep 29

ByZewei Zhang, Huan Liu, Yuanhao Yu, Jun Chen, Xiangyu Xu

Мы представляем ImitSAT — стратегию ветвления для решателей, основанных на конфликтно-управляемом обучении дизъюнктов (CDCL), которая использует обучение с подражанием для задачи выполнимости булевых формул (SAT). В отличие от предыдущих методов, которые предсказывают сигналы на уровне экземпляров для косвенного улучшения ветвления в CDCL, или полагаются на обучение с подкреплением и недостаточную информацию о CDCL для улучшения ветвления, ImitSAT обучается на экспертных KeyTrace, которые сводят полный прогон к последовательности сохранившихся решений. Повторение KeyTrace на том же экземпляре практически не вызывает конфликтов, обеспечивая плотный надзор на уровне решений и напрямую сокращая количество распространений — основной фактор, влияющий на время выполнения. Этот надзор, обусловленный префиксом, позволяет ImitSAT воспроизводить высококачественные ветвления без необходимости исследования, что приводит к более быстрой сходимости, стабильному обучению и бесшовной интеграции в CDCL. Многочисленные эксперименты показывают, что ImitSAT сокращает количество распространений и время выполнения, превосходя современные подходы, основанные на обучении. Мы опубликовали исходный код и обученную модель на https://github.com/zewei-Zhang/ImitSAT.

Эмпирическое исследование практик тестирования в фреймворках открытого исходного кода для ИИ-агентов и агентных приложений
An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

Sep 23

ByMohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan

AI-агенты на основе базовых моделей (Foundation Models, FM) быстро находят применение в различных областях, но их присущая недетерминированность и невоспроизводимость создают проблемы для тестирования и обеспечения качества. Хотя современные бенчмарки предоставляют оценки на уровне задач, остается мало понимания того, как разработчики проверяют внутреннюю корректность этих агентов в процессе разработки. Чтобы устранить этот пробел, мы провели первое крупномасштабное эмпирическое исследование практик тестирования в экосистеме AI-агентов, проанализировав 39 фреймворков с открытым исходным кодом и 439 агентных приложений. Мы выявили десять различных шаблонов тестирования и обнаружили, что новые, специфичные для агентов методы, такие как DeepEval, используются крайне редко (около 1%), в то время как традиционные подходы, такие как негативное тестирование и тестирование принадлежности, широко адаптируются для управления неопределенностью FM. Сопоставив эти шаблоны с каноническими архитектурными компонентами фреймворков и агентных приложений, мы обнаружили фундаментальное смещение усилий по тестированию: детерминированные компоненты, такие как Ресурсные Артефакты (инструменты) и Координационные Артефакты (рабочие процессы), поглощают более 70% усилий по тестированию, в то время как FM-основанный План (Plan Body) получает менее 5%. Это выявляет критическую слепую зону, поскольку компонент Триггер (промпты) остается практически незатронутым, появляясь лишь в около 1% всех тестов. Наши результаты предлагают первую эмпирическую базу для тестирования в FM-основанных фреймворках и агентных приложениях, демонстрируя рациональную, но неполную адаптацию к недетерминированности. Для устранения этого пробела разработчикам фреймворков следует улучшить поддержку новых методов тестирования, разработчикам приложений необходимо внедрить регрессионное тестирование промптов, а исследователям — изучить барьеры для их внедрения. Укрепление этих практик имеет ключевое значение для создания более надежных и устойчивых AI-агентов.

ReSWD: ReSTIR'd, не взболтанный. Сочетание резервуарной выборки и расстояния Слис-Вассерштейна для снижения дисперсии
ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction

Oct 1

ByMark Boss, Andreas Engelhardt, Simon Donné, Varun Jampani

Сопоставление распределений играет ключевую роль во многих задачах компьютерного зрения и графики, где широко используемое расстояние Вассерштейна оказывается слишком затратным для вычисления в случае многомерных распределений. Срезочное расстояние Вассерштейна (Sliced Wasserstein Distance, SWD) предлагает масштабируемую альтернативу, однако его оценка методом Монте-Карло страдает от высокой дисперсии, что приводит к зашумленным градиентам и медленной сходимости. Мы представляем Reservoir SWD (ReSWD), которое интегрирует взвешенный метод резервуарной выборки в SWD для адаптивного сохранения информативных направлений проекции на этапах оптимизации, что обеспечивает стабильные градиенты при сохранении несмещенности. Эксперименты на синтетических тестах и реальных задачах, таких как коррекция цвета и управление диффузией, показывают, что ReSWD стабильно превосходит стандартное SWD и другие базовые методы снижения дисперсии. Страница проекта: https://reservoirswd.github.io/

CurES: От анализа градиентов к эффективному обучению с учебным планом для рассуждающих языковых моделей
CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

Oct 1

ByYongcheng Zeng, Zexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang

Обучение по учебному плану играет ключевую роль в повышении эффективности обучения крупных языковых моделей (LLM) на задачах, требующих рассуждений. Однако существующие методы часто не учитывают должным образом вариации сложности промптов или полагаются на упрощенные механизмы фильтрации для выбора наборов данных промптов в узком диапазоне критериев, что приводит к значительным вычислительным потерям. В данной работе мы подходим к проблеме с точки зрения оптимизации градиентов в обучении с подкреплением, предлагая систематическое и теоретическое исследование того, как повысить эффективность обучения LLM. Мы выделяем два ключевых фактора, влияющих на эффективность обучения: выбор обучающих промптов и распределение количества прогонов между различными промптами. Наш теоретический анализ показывает, что распределение выборки промптов определяет скорость сходимости градиентного спуска, а распределение количества прогонов влияет на согласованность и стабильность общих обновлений градиента. На основе этих инсайтов мы предлагаем CurES, эффективный метод обучения, который ускоряет сходимость и использует байесовскую апостериорную оценку для минимизации вычислительных затрат. Эксперименты демонстрируют, что наш CurES превосходит метод Group Relative Policy Optimization (GRPO) на +3,30 и +4,82 балла для моделей с 1,5 млрд и 7 млрд параметров соответственно. Кроме того, CurES демонстрирует более быструю сходимость по сравнению с базовыми методами, включая GRPO.

Встроенная обратная связь: новый подход к управлению большими языковыми моделями в многошаговых рассуждениях
In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning

Oct 1

ByYoungbin Choi, Minjong Lee, Saemi Moon, Seunghyuk Cho, Chaehyeon Chung, MoonJeong Park, Dongwoo Kim

Крупные языковые модели (LLM) всё чаще исследуются в контексте многошагового рассуждения, где модели итеративно уточняют свои выходные данные на основе обратной связи, предоставленной пользователем. Такие сценарии критически важны для задач, требующих сложного рассуждения, однако существующие парадигмы обратной связи часто основываются на отправке новых сообщений. LLM испытывают трудности с надёжной интеграцией такой обратной связи, что приводит к нестабильным улучшениям. В данной работе мы представляем in-place feedback — новую парадигму взаимодействия, в которой пользователи напрямую редактируют предыдущий ответ LLM, а модель учитывает это изменённое сообщение для генерации своей пересмотренной версии. Эмпирические оценки на разнообразных тестах, требующих интенсивного рассуждения, показывают, что in-place feedback обеспечивает лучшую производительность по сравнению с традиционной многошаговой обратной связью, при этом используя на 79,1% меньше токенов. Дополнительные анализы в контролируемых условиях также демонстрируют, что in-place feedback устраняет ключевое ограничение многошаговой обратной связи: модели часто не могут применить обратную связь точно к ошибочным частям ответа, оставляя ошибки неисправленными и иногда внося новые ошибки в ранее корректные части. Эти результаты позволяют предположить, что in-place feedback предлагает более естественный и эффективный механизм для навигации LLM в задачах, требующих интенсивного рассуждения.

TGPO: Временная оптимизация политик с привязкой к сигнальной временной логике для задач
TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic Tasks

Sep 30

ByYue Meng, Fei Chen, Chuchu Fan

Обучение стратегий управления для сложных задач с длительным горизонтом является ключевой проблемой в робототехнике и автономных системах. Временная логика сигналов (Signal Temporal Logic, STL) предоставляет мощный и выразительный язык для спецификации таких задач, однако её немарковская природа и присущая ей разреженность наград делают её сложной для решения с помощью стандартных алгоритмов обучения с подкреплением (Reinforcement Learning, RL). Предыдущие подходы RL фокусировались только на ограниченных фрагментах STL или использовали оценки устойчивости STL в качестве разреженных терминальных наград. В данной работе мы предлагаем TGPO (Temporal Grounded Policy Optimization) для решения общих задач STL. TGPO декомпозирует STL на временные подцели и инвариантные ограничения и предоставляет иерархическую структуру для решения задачи. Высокоуровневый компонент TGPO предлагает конкретные временные распределения для этих подцелей, а низкоуровневая стратегия, зависящая от времени, обучается достижению последовательных подцелей с использованием плотной, поэтапной награды. В процессе вывода мы выбираем различные временные распределения и выбираем наиболее перспективное назначение для сети стратегии, чтобы развернуть траекторию решения. Для эффективного обучения стратегий для сложных задач STL с множеством подцелей мы используем обученный критик для направления высокоуровневого временного поиска через выборку Метрополиса-Хастингса, фокусируя исследование на временно осуществимых решениях. Мы проводим эксперименты в пяти средах, начиная от низкоразмерной навигации до манипуляции, управления дронами и передвижения четвероногих роботов. В широком спектре задач STL TGPO значительно превосходит современные базовые методы (особенно для высокоразмерных и длительных случаев), с улучшением средней успешности выполнения задач на 31,6% по сравнению с лучшим базовым методом. Код будет доступен по адресу https://github.com/mengyuest/TGPO.

Согласование визуальных базовых энкодеров с токенизаторами для диффузионных моделей
Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Sep 29

ByBowei Chen, Sai Bi, Hao Tan, He Zhang, Tianyuan Zhang, Zhengqi Li, Yuanjun Xiong, Jianming Zhang, Kai Zhang

В данной работе мы предлагаем адаптировать предобученные визуальные кодировщики для использования в качестве токенизаторов в латентных диффузионных моделях при генерации изображений. В отличие от обучения вариационного автоэнкодера (VAE) с нуля, что в основном фокусируется на низкоуровневых деталях, наш подход использует богатую семантическую структуру базовых кодировщиков. Мы представляем трехэтапную стратегию адаптации: (1) замораживаем кодировщик и обучаем адаптер и декодер для создания семантического латентного пространства; (2) совместно оптимизируем все компоненты с дополнительной функцией потерь для сохранения семантики, что позволяет кодировщику захватывать перцептивные детали, сохраняя при этом высокоуровневую семантику; и (3) дорабатываем декодер для улучшения качества реконструкции. Такая адаптация создает семантически насыщенные токенизаторы изображений, которые приносят пользу диффузионным моделям. На наборе данных ImageNet 256×256 наш токенизатор ускоряет сходимость диффузионных моделей, достигая gFID 1.90 всего за 64 эпохи, и улучшает генерацию как с использованием, так и без использования классификатор-фри гида. При масштабировании до LAION, модель для генерации изображений из текста с 2 миллиардами параметров, обученная с нашим токенизатором, стабильно превосходит FLUX VAE при одинаковом количестве шагов обучения. В целом, наш метод прост, масштабируем и устанавливает семантически обоснованную парадигму для проектирования непрерывных токенизаторов.

Гипермерный зонд: декодирование представлений языковых моделей с использованием векторных символьных архитектур
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

Sep 29

ByMarco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini

Несмотря на свои возможности, крупные языковые модели (LLM) остаются непрозрачными, с ограниченным пониманием их внутренних представлений. Современные методы интерпретируемости, такие как прямое атрибутирование логитов (DLA) и разреженные автоэнкодеры (SAE), предоставляют ограниченное понимание из-за ограничений, таких как выходной словарь модели или неясные названия признаков. В данной работе представлен Hyperdimensional Probe — новый подход для декодирования информации из векторного пространства LLM. Он объединяет идеи из символических представлений и нейронного зондирования, чтобы проецировать остаточный поток модели в интерпретируемые концепции с использованием векторных символических архитектур (VSA). Этот зонд сочетает преимущества SAE и традиционных зондов, преодолевая их ключевые ограничения. Мы проверяем наш подход декодирования на контролируемых задачах завершения ввода, исследуя финальное состояние модели перед предсказанием следующего токена на входах, охватывающих распознавание синтаксических паттернов, ассоциации ключ-значение и абстрактный вывод. Мы также оцениваем его в контексте вопросно-ответных задач, анализируя состояние модели как до, так и после генерации текста. Наши эксперименты показывают, что наш зонд надежно извлекает значимые концепции в различных LLM, размерах эмбеддингов и областях входных данных, а также помогает выявлять ошибки LLM. Наша работа продвигает декодирование информации в векторном пространстве LLM, позволяя извлекать более информативные, интерпретируемые и структурированные признаки из нейронных представлений.