HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

52 papers found

LongCodeZip: Сжатие длинного контекста для языковых моделей программирования
LongCodeZip: Compress Long Context for Code Language Models

Oct 1

ByYuling Shi, Yichun Qian, Hongyu Zhang, Beijun Shen, Xiaodong Gu

102

Генерация кода в условиях длинных контекстов становится все более важной, поскольку крупные языковые модели (LLM) должны анализировать обширную информацию в кодовой базе. Хотя последние достижения позволяют LLM для кода обрабатывать длинные входные данные, высокие затраты на API и задержки генерации остаются существенными препятствиями. Существующие методы сокращения контекста, такие как LLMLingua, демонстрируют многообещающие результаты для общего текста, но игнорируют специфические структуры и зависимости в коде, что приводит к неоптимальной производительности в задачах программирования. В данной статье мы предлагаем LongCodeZip — новый модульный фреймворк для сжатия кода, разработанный специально для LLM, работающих с кодом. LongCodeZip использует двухэтапную стратегию: (1) грубое сжатие, которое идентифицирует и ранжирует функциональные блоки на основе условной перплексии относительно инструкции, сохраняя только наиболее релевантные функции; и (2) тонкое сжатие, которое сегментирует сохраненные функции на блоки на основе перплексии и выбирает оптимальное подмножество в рамках адаптивного бюджета токенов для максимизации релевантности. Оценки на множестве задач, включая завершение кода, его суммирование и ответы на вопросы, показывают, что LongCodeZip стабильно превосходит базовые методы, достигая коэффициента сжатия до 5,6x без ухудшения производительности задач. Эффективно сокращая размер контекста при сохранении ключевой информации, LongCodeZip позволяет LLM лучше масштабироваться для реальных сценариев работы с крупномасштабным кодом, повышая эффективность и возможности приложений для анализа кода.

Self-Forcing++: На пути к созданию высококачественных видеороликов продолжительностью в минуты
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

Oct 2

ByJustin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh

Диффузионные модели произвели революцию в генерации изображений и видео, достигнув беспрецедентного визуального качества. Однако их зависимость от архитектур трансформеров влечет за собой чрезмерно высокие вычислительные затраты, особенно при генерации длинных видео. В последних работах исследуются авторегрессивные подходы для генерации длинных видео, как правило, путем дистилляции знаний из моделей-учителей, работающих с короткими временными промежутками. Тем не менее, учитывая, что модели-учителя не способны синтезировать длинные видео, экстраполяция моделей-учеников за пределы их обучающего горизонта часто приводит к значительному ухудшению качества, вызванному накоплением ошибок в непрерывном латентном пространстве. В данной статье мы предлагаем простой, но эффективный подход для смягчения ухудшения качества при генерации длинных видео, не требующий контроля со стороны моделей-учителей, обученных на длинных видео, или повторного обучения на наборах данных с длинными видео. Наш подход основан на использовании богатых знаний моделей-учителей для предоставления руководства модели-ученику через сегменты, извлеченные из самостоятельно сгенерированных длинных видео. Наш метод сохраняет временную согласованность при увеличении длины видео до 20 раз по сравнению с возможностями модели-учителя, избегая таких распространенных проблем, как переэкспонирование и накопление ошибок, без необходимости повторного вычисления перекрывающихся кадров, как в предыдущих методах. При увеличении вычислительных ресурсов наш метод демонстрирует способность генерировать видео длительностью до 4 минут и 15 секунд, что эквивалентно 99,9% максимальной длины, поддерживаемой позиционным кодированием базовой модели, и более чем в 50 раз длиннее, чем у базовой модели. Эксперименты на стандартных бенчмарках и нашем улучшенном бенчмарке показывают, что наш подход значительно превосходит базовые методы как по качеству, так и по согласованности. Демонстрация наших длинных видео доступна по ссылке: https://self-forcing-plus-plus.github.io/

ExGRPO: Обучение логическому мышлению на основе опыта
ExGRPO: Learning to Reason from Experience

Oct 2

ByRunzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng

Обучение с подкреплением на основе проверяемых наград (RLVR) — это новая парадигма для улучшения способности крупных языковых моделей к рассуждению. Однако стандартное обучение с использованием текущей политики отбрасывает опыт, полученный в ходе прогонов, после одного обновления, что приводит к вычислительной неэффективности и нестабильности. Хотя предыдущие работы по обучению с подкреплением подчеркивали преимущества повторного использования прошлого опыта, роль характеристик опыта в формировании динамики обучения крупных моделей рассуждений остается недостаточно изученной. В данной работе мы впервые исследуем, что делает опыт рассуждений ценным, и определяем корректность прогонов и энтропию как эффективные индикаторы ценности опыта. На основе этих инсайтов мы предлагаем ExGRPO (Experiential Group Relative Policy Optimization) — фреймворк, который организует и приоритизирует ценный опыт, а также использует смешанную целевую функцию для баланса между исследованием и использованием опыта. Эксперименты на пяти базовых моделях (1,5–8 млрд параметров) показывают, что ExGRPO стабильно улучшает производительность в задачах рассуждения на математических и общих тестах, с средним приростом на +3,5/7,6 баллов по сравнению с RLVR, использующим текущую политику. Более того, ExGRPO стабилизирует обучение как на более сильных, так и на более слабых моделях, где методы, основанные на текущей политике, терпят неудачу. Эти результаты подчеркивают принципиальное управление опытом как ключевой компонент для эффективного и масштабируемого RLVR.

StealthAttack: Устойчивое отравление 3D-гауссовского сплайтинга с использованием иллюзий, управляемых плотностью
StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions

Oct 2

ByBo-Hsu Ke, You-Zhe Xie, Yu-Lun Liu, Wei-Chen Chiu

Методы представления 3D-сцен, такие как Neural Radiance Fields (NeRF) и 3D Gaussian Splatting (3DGS), значительно продвинули синтез новых ракурсов. По мере распространения этих методов становится критически важным устранение их уязвимостей. Мы анализируем устойчивость 3DGS к атакам на уровне изображений и предлагаем новый метод отравления, основанный на плотности. Наш метод стратегически добавляет гауссовы точки в области с низкой плотностью, выявленные с помощью оценки плотности ядра (Kernel Density Estimation, KDE), внедряя иллюзорные объекты, зависящие от ракурса, которые четко видны из отравленных ракурсов, но минимально влияют на незатронутые виды. Кроме того, мы вводим адаптивную стратегию добавления шума для нарушения многовидовой согласованности, что дополнительно повышает эффективность атаки. Мы предлагаем протокол оценки на основе KDE для систематического анализа сложности атаки, что позволяет объективно сравнивать результаты для будущих исследований. Многочисленные эксперименты демонстрируют превосходство нашего метода по сравнению с современными технологиями. Страница проекта: https://hentci.github.io/stealthattack/

StockBench: Могут ли агенты на основе больших языковых моделей прибыльно торговать акциями на реальных рынках?
StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?

Oct 2

ByYanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li

Крупные языковые модели (LLM) недавно продемонстрировали значительные возможности в качестве автономных агентов, показав потенциал в рассуждениях, использовании инструментов и последовательном принятии решений. Хотя предыдущие бенчмарки оценивали LLM-агентов в таких областях, как разработка программного обеспечения и научные открытия, финансовая сфера остается недостаточно изученной, несмотря на ее непосредственную связь с экономической ценностью и принятием решений в условиях высоких рисков. Существующие финансовые бенчмарки в основном тестируют статические знания через ответы на вопросы, но они не охватывают динамическую и итеративную природу торговли. Чтобы устранить этот пробел, мы представляем StockBench — бенчмарк, свободный от контаминации, предназначенный для оценки LLM-агентов в реалистичных условиях многомесячной торговли акциями. Агенты получают ежедневные рыночные сигналы, включая цены, фундаментальные данные и новости, и должны принимать последовательные решения о покупке, продаже или удержании. Производительность оценивается с использованием финансовых метрик, таких как совокупная доходность, максимальная просадка и коэффициент Сортино. Наша оценка современных проприетарных (например, GPT-5, Claude-4) и открытых (например, Qwen3, Kimi-K2, GLM-4.5) моделей показывает, что, хотя большинство LLM-агентов не могут превзойти простую стратегию "купи и держи", несколько моделей демонстрируют потенциал для достижения более высокой доходности и более эффективного управления рисками. Эти результаты подчеркивают как вызовы, так и возможности в разработке финансовых агентов на основе LLM, показывая, что успех в задачах на статические финансовые знания не обязательно приводит к успешным торговым стратегиям. Мы выпускаем StockBench как открытый ресурс для поддержки воспроизводимости и продвижения будущих исследований в этой области.

Технический отчет F2LLM: Достижение уровня современных встраиваний с использованием 6 миллионов открытых данных
F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data

Oct 2

ByZiyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang

Мы представляем F2LLM — Foundation to Feature Large Language Models, набор современных моделей эмбеддингов трех размеров: 0.6B, 1.7B и 4B. В отличие от предыдущих моделей эмбеддингов, занимающих лидирующие позиции, которые требуют масштабного контрастивного предобучения, сложных обучающих конвейеров и дорогостоящих синтетических данных для обучения, F2LLM напрямую дообучается на базовых моделях с использованием 6 миллионов кортежей "запрос-документ-негатив", отобранных из открытых, несинтетических наборов данных. Это позволяет достичь оптимального баланса между стоимостью обучения, размером модели и качеством эмбеддингов. На лидерборде MTEB для английского языка F2LLM-4B занимает 2-е место среди моделей с примерно 4 миллиардами параметров и 7-е место в общем рейтинге, в то время как F2LLM-1.7B занимает 1-е место среди моделей в диапазоне 1–2 миллиарда параметров. Для содействия будущим исследованиям в этой области мы публикуем модели, обучающий набор данных и код, позиционируя F2LLM как надежный, воспроизводимый и экономически выгодный базовый вариант для будущих работ.

Интерактивное обучение: Оптимизация нейронных сетей на основе обратной связи
Interactive Training: Feedback-Driven Neural Network Optimization

Oct 2

ByWentao Zhang, Yang Young Lu, Yuntian Deng

Традиционное обучение нейронных сетей обычно следует фиксированным, заранее заданным рецептам оптимизации, не обладая гибкостью для динамического реагирования на нестабильности или возникающие проблемы в процессе обучения. В данной статье мы представляем Interactive Training — фреймворк с открытым исходным кодом, который позволяет экспертам или автоматизированным ИИ-агентам вмешиваться в процесс обучения нейронных сетей в реальном времени на основе обратной связи. В основе Interactive Training лежит управляющий сервер, который обеспечивает взаимодействие между пользователями или агентами и текущим процессом обучения, позволяя динамически корректировать гиперпараметры оптимизатора, обучающие данные и контрольные точки модели. На примере трех кейсов мы демонстрируем, что Interactive Training обеспечивает повышенную стабильность обучения, сниженную чувствительность к начальным гиперпараметрам и улучшенную адаптируемость к изменяющимся потребностям пользователей, прокладывая путь к новой парадигме обучения, в которой ИИ-агенты автономно отслеживают журналы обучения, активно устраняют нестабильности и оптимизируют динамику процесса.

RLP: Обучение с подкреплением как цель предварительного обучения
RLP: Reinforcement as a Pretraining Objective

Sep 26

ByAli Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi

Доминирующая парадигма обучения крупных моделей рассуждений начинается с предварительного обучения с использованием функции потерь предсказания следующего токена на огромных объемах данных. Обучение с подкреплением, хотя и мощное в масштабировании рассуждений, вводится только на самом последнем этапе пост-обучения, после контролируемой тонкой настройки. Является ли этот подход оптимальным? В данной статье мы представляем RLP (Reinforcement Learning Pretraining), целевую функцию предварительного обучения, основанную на информации, которая привносит ключевую идею обучения с подкреплением — исследование — на последний этап предварительного обучения. Основная идея заключается в том, чтобы рассматривать цепочку рассуждений как исследовательское действие, с наградами, вычисляемыми на основе прироста информации, который она предоставляет для предсказания будущих токенов. Эта целевая функция поощряет модель "думать самостоятельно" перед тем, как предсказать следующий токен, тем самым обучая поведению независимого мышления на более ранних этапах предварительного обучения. Конкретно, сигнал награды измеряет увеличение логарифмического правдоподобия следующего токена при условии как контекста, так и выбранной цепочки рассуждений, по сравнению с условием только контекста. Этот подход обеспечивает плотный сигнал награды без необходимости верификации, что позволяет эффективно обучать модель на полном потоке документов во время предварительного обучения. В частности, RLP переосмысливает обучение с подкреплением для рассуждений как целевую функцию предварительного обучения на обычном тексте, устраняя разрыв между предсказанием следующего токена и появлением полезных цепочек рассуждений. Предварительное обучение с использованием RLP на модели Qwen3-1.7B-Base повышает средний результат на восьми тестах по математике и естественным наукам на 19%. При идентичном пост-обучении преимущества накапливаются, с наибольшими улучшениями на задачах, требующих интенсивных рассуждений, таких как AIME25 и MMLU-Pro. Применение RLP к гибридной модели Nemotron-Nano-12B-v2 увеличивает средний результат с 42.81% до 61.32% и повышает средний результат на научных рассуждениях на 23%, демонстрируя масштабируемость для различных архитектур и размеров моделей.

ModernVBERT: В направлении компактных визуальных поисковых систем для документов
ModernVBERT: Towards Smaller Visual Document Retrievers

Oct 1

ByPaul Teiletche, Quentin Macé, Max Conti, Antonio Loison, Gautier Viaud, Pierre Colombo, Manuel Faysse

Мультимодальные модели эмбеддингов становятся все более распространенными, особенно для задач поиска документов, выступая в качестве эффективной альтернативы текстовым подходам. Эти модели обычно создаются путем дообучения крупных декодеров, работающих с визуальными и текстовыми данными (VLMs), с использованием контрастивных функций потерь на парах текст-изображение. В данной работе мы показываем, что, хотя такой подход является экономически эффективным, он часто ограничивает производительность поиска. С помощью контролируемых экспериментов мы разрабатываем принципиальный подход для улучшения моделей визуального поиска документов. В частности, мы оцениваем влияние маскирования внимания, разрешения изображений, режимов данных для согласования модальностей и контрастивных целей, ориентированных на позднее взаимодействие, которые оказываются ключевыми факторами производительности. На основе этих инсайтов мы представляем ModernVBERT — компактный 250-миллионный энкодер для работы с визуальными и текстовыми данными, который превосходит модели в 10 раз большего размера при дообучении на задачах поиска документов. Модели и код доступны по адресу https://huggingface.co/ModernVBERT.

Оптимизация политики на основе диалогов с использованием деревьев для атак методом "красной команды"
Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Oct 2

ByRuohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth

Несмотря на недавний быстрый прогресс в области безопасности ИИ, современные крупные языковые модели остаются уязвимыми для атак в условиях многоходового взаимодействия, где злоумышленники стратегически адаптируют свои запросы на протяжении нескольких раундов диалога, что представляет собой более серьезную и реалистичную угрозу. Существующие подходы к выявлению уязвимостей безопасности либо полагаются на ручное тестирование с участием экспертов (red-teaming), либо используют автоматизированные методы с заранее заданными шаблонами и данными атак, подготовленными людьми, причем большинство из них сосредоточено на одноходовых атаках. Однако эти методы не исследуют обширное пространство возможных многоходовых атак, не учитывая новые траектории атак, возникающие из-за сложной динамики диалога и стратегического планирования беседы. Этот пробел особенно критичен в свете недавних исследований, показывающих, что языковые модели значительно более уязвимы к многоходовым атакам по сравнению с одноходовыми. Мы предлагаем DialTree-RPO — фреймворк обучения с подкреплением on-policy, интегрированный с поиском по дереву, который автономно обнаруживает разнообразные стратегии многоходовых атак, рассматривая диалог как задачу последовательного принятия решений, что позволяет систематически исследовать пространство атак без использования данных, подготовленных вручную. В ходе обширных экспериментов наш подход не только демонстрирует увеличение ASR более чем на 25,9% для 10 целевых моделей по сравнению с предыдущими передовыми методами, но и эффективно выявляет новые стратегии атак, обучая оптимальные политики диалога, которые максимизируют успех атаки на протяжении нескольких раундов.

Ovi: Двухмагистральное кросс-модальное слияние для генерации аудио-видео
Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

Sep 30

ByChetwin Low, Weimin Wang, Calder Katyal

Генерация аудио-видео часто опиралась на сложные многоэтапные архитектуры или последовательный синтез звука и изображения. Мы представляем Ovi, унифицированный подход к генерации аудио-видео, который моделирует оба модальности как единый генеративный процесс. Используя блочное кросс-модальное слияние модулей twin-DiT, Ovi достигает естественной синхронизации и устраняет необходимость в отдельных конвейерах или последующем выравнивании. Для облегчения моделирования тонкого мультимодального слияния мы инициализируем аудио-модуль архитектурой, идентичной сильной предобученной модели видео. Обучаясь с нуля на сотнях тысяч часов необработанного аудио, аудио-модуль учится генерировать реалистичные звуковые эффекты, а также речь, передающую богатую идентичность и эмоции говорящего. Слияние достигается путем совместного обучения идентичных видео- и аудио-модулей через блочный обмен временными данными (через масштабированные RoPE-эмбеддинги) и семантикой (через двунаправленное кросс-внимание) на обширном корпусе видео. Наша модель позволяет создавать кинематографические истории с естественной речью и точными, контекстно соответствующими звуковыми эффектами, производя видео клипы кинематографического качества. Все демонстрации, код и веса модели опубликованы на https://aaxwaz.github.io/Ovi.

TOUCAN: Синтез 1,5 млн данных о взаимодействии инструментов и агентов в реальных средах MCP
TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments

Oct 1

ByZhangchen Xu, Adriana Meza Soria, Shawn Tan, Anurag Roy, Ashish Sunil Agrawal, Radha Poovendran, Rameswar Panda

Крупные языковые модели (LLM) быстро становятся мощными системами для автоматизации задач в различных областях. Однако прогресс в сообществе открытого исходного кода ограничен отсутствием высококачественных данных для обучения инструментальных агентов, распространяемых под разрешительными лицензиями. Существующие наборы данных часто ограничены в разнообразии, реалистичности и сложности, особенно в отношении многокомпонентных и многоходовых взаимодействий. Чтобы устранить этот пробел, мы представляем Toucan — крупнейший на сегодняшний день публично доступный набор данных для инструментальных агентов, содержащий 1,5 миллиона траекторий, синтезированных из почти 500 реальных протоколов контекста моделей (MCP). В отличие от предыдущих работ, Toucan использует аутентичные среды MCP для создания разнообразных, реалистичных и сложных задач с траекториями, включающими реальное выполнение инструментов. Наш процесс сначала генерирует широкий спектр запросов на использование инструментов с помощью пяти различных моделей, применяет фильтрацию качества на основе моделей, а затем создает агентские траектории с использованием трех моделей-учителей в рамках двух агентских архитектур. Строгая проверка на основе правил и моделей обеспечивает высокое качество выходных данных. Мы также вводим три механизма расширения для дальнейшего разнообразия задач и моделирования многоходовых диалогов. Модели, дообученные на Toucan, превосходят более крупные закрытые аналоги на тестовом наборе BFCL V3 и продвигают границу Парето вперед на бенчмарке MCP-Universe.

Необоснованная эффективность масштабируемых агентов для использования в компьютерах
The Unreasonable Effectiveness of Scaling Agents for Computer Use

Oct 2

ByGonzalo Gonzalez-Pumariega, Vincent Tu, Chih-Lun Lee, Jiachen Yang, Ang Li, Xin Eric Wang

Агенты для выполнения компьютерных задач (Computer-use agents, CUAs) обладают потенциалом для автоматизации повседневных цифровых задач, однако их ненадежность и высокая вариативность ограничивают их применение в долгосрочных и сложных задачах. Мы представляем метод Behavior Best-of-N (bBoN), который масштабируется на основе агентов путем генерации множества траекторий и выбора среди них с использованием поведенческих нарративов, описывающих траектории агентов. Этот метод обеспечивает как широкое исследование, так и принципиальный выбор траекторий, значительно повышая надежность и успешность выполнения задач. На платформе OSWorld наш метод bBoN устанавливает новый рекорд (state of the art, SoTA) с показателем 69,9%, значительно превосходя предыдущие методы и приближаясь к уровню человеческой производительности в 72%, при этом всесторонние эксперименты подтверждают ключевые проектные решения. Мы также демонстрируем сильные результаты обобщения на различных операционных системах в рамках WindowsAgentArena и AndroidWorld. Важно отметить, что наши результаты подчеркивают необоснованную эффективность масштабирования CUAs при правильном подходе: эффективное масштабирование требует структурированного понимания и выбора траекторий, и bBoN предоставляет практическую основу для достижения этой цели.

CLUE: Непараметрическая верификация на основе опыта через кластеризацию скрытых состояний
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering

Oct 2

ByZhenwen Liang, Ruosen Li, Yujun Zhou, Linfeng Song, Dian Yu, Xinya Du, Haitao Mi, Dong Yu

Оценка качества выходных данных крупных языковых моделей (LLM) представляет собой важную задачу. Существующие методы либо полагаются на текстовую информацию (например, модели вознаграждения, мажоритарное голосование), что может приводить к переобучению на поверхностных признаках, либо на калиброванные вероятности токенов, что не работает для менее калиброванных моделей. Однако оба этих сигнала являются частичными проекциями более богатого источника информации — внутренних скрытых состояний модели. Ранние слои, ближе к токенным эмбеддингам, сохраняют семантические и лексические признаки, лежащие в основе текстовых суждений, тогда как более поздние слои всё больше соответствуют выходным логитам, содержащим информацию, связанную с уверенностью. В данной статье исследуются скрытые состояния как универсальная основа для верификации. Мы показываем, что правильность решения закодирована в виде геометрически разделяемой сигнатуры в траектории скрытых активаций. Для подтверждения этого мы представляем Clue (Clustering and Experience-based Verification), намеренно минималистичный непараметрический верификатор. Без обучаемых параметров CLUE лишь суммирует каждый след рассуждений через разницу скрытых состояний и классифицирует правильность по расстоянию до ближайшего центроида кластеров «успех» и «неудача», сформированных на основе прошлого опыта. Простота этого метода подчеркивает силу лежащего в его основе сигнала. Эмпирически CLUE стабильно превосходит базовые подходы с использованием LLM в качестве судьи и соответствует или превосходит современные методы, основанные на уверенности, при ранжировании кандидатов, улучшая как точность top-1, так и мажоритарного голосования на наборах данных AIME 24/25 и GPQA. В частности, на AIME 24 с моделью на 1,5 млрд параметров CLUE повышает точность с 56,7% (majority@64) до 70,0% (top-maj@16).

"Роковой скальпель: управление активациями подрывает безопасность языковых моделей"
The Rogue Scalpel: Activation Steering Compromises LLM Safety

Sep 26

ByAnton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Y. Rogov, Ivan Oseledets, Elena Tutubalina

Управление активациями — это перспективная техника для контроля поведения больших языковых моделей (LLM) путем добавления семантически значимых векторов непосредственно в скрытые состояния модели во время вывода. Этот подход часто рассматривается как точная, интерпретируемая и потенциально более безопасная альтернатива тонкой настройке. Мы демонстрируем обратное: управление систематически нарушает защитные механизмы выравнивания модели, заставляя её выполнять вредоносные запросы. В ходе обширных экспериментов с различными семействами моделей мы показываем, что даже управление в случайном направлении может увеличить вероятность выполнения вредоносных запросов с 0% до 2–27%. Тревожно, что управление доброкачественными признаками из разреженного автокодировщика (SAE), часто используемого источника интерпретируемых направлений, увеличивает эти показатели ещё на 2–4%. Наконец, мы показываем, что комбинация 20 случайно выбранных векторов, которые обходят защиту для одного запроса, создаёт универсальную атаку, значительно увеличивая выполнение вредоносных запросов на неизвестных запросах. Эти результаты ставят под сомнение парадигму безопасности через интерпретируемость, демонстрируя, что точный контроль над внутренними механизмами модели не гарантирует точного контроля над её поведением.

VOGUE: Направление исследования с использованием визуальной неопределенности улучшает мультимодальные рассуждения
VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning

Oct 1

ByRui Liu, Dian Yu, Tong Zheng, Runpeng Dai, Zongxia Li, Wenhao Yu, Zhenwen Liang, Linfeng Song, Haitao Mi, Pratap Tokekar, Dong Yu

Обучение с подкреплением с проверяемыми наградами (RLVR) улучшает способность к рассуждению в больших языковых моделях (LLM), но сталкивается с проблемами исследования, которые сохраняются и для мультимодальных LLM (MLLM). Современные методы рассматривают визуальный вход как фиксированное, детерминированное условие, упуская важный источник неоднозначности и не справляясь с созданием политик, устойчивых к правдоподобным визуальным вариациям. Мы представляем VOGUE (Visual Uncertainty Guided Exploration) — новый метод, который переносит исследование из пространства вывода (текст) в пространство ввода (визуальные данные). Рассматривая изображение как стохастический контекст, VOGUE количественно оценивает чувствительность политики к визуальным возмущениям с использованием симметричной дивергенции KL между "сырой" и "зашумленной" ветвями, создавая прямой сигнал для исследования с учетом неопределенности. Этот сигнал формирует цель обучения через бонус, пропорциональный неопределенности, который в сочетании с бонусом за энтропию токенов и плавным графиком сэмплирования эффективно балансирует исследование и эксплуатацию. Реализованный в рамках GRPO на двух масштабах моделей (Qwen2.5-VL-3B/7B), VOGUE повышает точность pass@1 в среднем на 2,6% на трех визуальных математических бенчмарках и на 3,7% на трех бенчмарках общего домена рассуждений, одновременно улучшая производительность pass@4 и смягчая ухудшение исследования, часто наблюдаемое при тонкой настройке с использованием RL. Наша работа демонстрирует, что основание исследования на внутренней неопределенности визуальных входных данных является эффективной стратегией для улучшения мультимодального рассуждения.

Строгий бенчмарк с многомерной оценкой для глубокого исследования агентов: от ответов к отчетам
A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports

Oct 2

ByYang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang

Искусственный интеллект переживает смену парадигмы: от закрытых языковых моделей к взаимосвязанным агентным системам, способным к внешнему восприятию и интеграции информации. В качестве репрезентативного примера, Агенты Глубокого Исследования (Deep Research Agents, DRAs) систематически демонстрируют способности к декомпозиции задач, кросс-источниковому поиску, многоэтапному рассуждению и структурированному выводу, что значительно повышает производительность на сложных и открытых задачах. Однако существующие бенчмарки остаются недостаточными в плане оценочных измерений, форматирования ответов и механизмов оценки, что ограничивает их способность эффективно оценивать такие системы. В данной статье представлен строгий бенчмарк и многомерная оценочная система, адаптированные для DRAs и отчетов в стиле аналитических материалов. Бенчмарк включает 214 экспертно отобранных сложных запросов, распределенных по 10 широким тематическим областям, каждый из которых сопровождается вручную созданными эталонными наборами для поддержки комплексной оценки. Система позволяет проводить всестороннюю оценку объемных отчетов, генерируемых DRAs, включая интегрированные метрики оценки семантического качества, тематической направленности и достоверности поиска. Обширные эксперименты подтверждают превосходство основных DRAs над моделями рассуждения, усиленными инструментами веб-поиска, но также выявляют значительный потенциал для дальнейшего улучшения. Это исследование закладывает прочную основу для оценки возможностей, архитектурного совершенствования и развития парадигмы в системах DRAs.

Обучение логическому рассуждению для обнаружения диапазонов галлюцинаций
Learning to Reason for Hallucination Span Detection

Oct 2

ByHsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Kundan Krishna, Hadi Pouransari, Cheng-Yu Hsieh, Cem Koc, Joseph Yitan Cheng, Oncel Tuzel, Raviteja Vemulapalli

Крупные языковые модели (LLM) часто генерируют галлюцинации — неподтверждённый контент, который снижает надёжность. Хотя большинство предыдущих работ рассматривают обнаружение галлюцинаций как бинарную задачу, многие реальные приложения требуют идентификации галлюцинированных фрагментов, что представляет собой многоэтапный процесс принятия решений. Это естественным образом поднимает вопрос о том, может ли явное рассуждение помочь в сложной задаче обнаружения галлюцинированных фрагментов. Чтобы ответить на этот вопрос, мы сначала оцениваем предобученные модели с использованием и без использования рассуждений по цепочке мыслей (Chain-of-Thought, CoT) и показываем, что CoT-рассуждения имеют потенциал генерировать хотя бы один правильный ответ при многократной выборке. Вдохновлённые этим, мы предлагаем RL4HS — фреймворк обучения с подкреплением, который стимулирует рассуждения с помощью функции вознаграждения на уровне фрагментов. RL4HS основывается на оптимизации групповой относительной политики и вводит оптимизацию политики с учётом классов для смягчения проблемы дисбаланса вознаграждений. Эксперименты на бенчмарке RAGTruth (суммаризация, ответы на вопросы, данные-в-текст) показывают, что RL4HS превосходит предобученные модели с рассуждениями и тонкую настройку с учителем, демонстрируя необходимость обучения с подкреплением с вознаграждениями на уровне фрагментов для обнаружения галлюцинированных фрагментов.

RewardMap: Преодоление проблемы разреженных вознаграждений в детализированном визуальном анализе с помощью многоэтапного обучения с подкреплением
RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Oct 2

BySicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang

Детализированное визуальное рассуждение остается ключевой проблемой для мультимодальных больших языковых моделей (MLLM). Недавно представленный ReasonMap подчеркивает этот разрыв, показывая, что даже продвинутые MLLM испытывают трудности с пространственным рассуждением в структурированных и насыщенных информацией контекстах, таких как схемы транспорта, что является задачей, имеющей очевидное практическое и научное значение. Однако стандартное обучение с подкреплением (RL) на таких задачах затруднено из-за редких наград и нестабильной оптимизации. Чтобы решить эту проблему, мы сначала создаем ReasonMap-Plus, расширенный набор данных, который вводит плотные сигналы наград через задачи визуального ответа на вопросы (VQA), что позволяет эффективно обучать навыки детализированного визуального понимания с нуля. Затем мы предлагаем RewardMap, многоэтапную RL-структуру, предназначенную для улучшения как визуального понимания, так и способностей к рассуждению MLLM. RewardMap включает два ключевых элемента. Во-первых, мы вводим дизайн наград, учитывающий сложность, который включает детализированные награды, напрямую решая проблему редких наград и предоставляя более богатый контроль. Во-вторых, мы предлагаем многоэтапную RL-схему, которая начинает обучение с простых задач восприятия и переходит к сложным задачам рассуждения, предлагая более эффективную стратегию обучения с нуля по сравнению с традиционной тонкой настройкой под наблюдением (SFT). Эксперименты на ReasonMap и ReasonMap-Plus демонстрируют, что каждый компонент RewardMap вносит вклад в устойчивое улучшение производительности, а их комбинация дает наилучшие результаты. Более того, модели, обученные с использованием RewardMap, достигают среднего улучшения на 3,47% по 6 тестам, охватывающим пространственное рассуждение, детализированное визуальное рассуждение и общие задачи за пределами схем транспорта, что подчеркивает улучшенные способности визуального понимания и рассуждения.

Аристотель: Автоматизированное доказательство теорем уровня IMO
Aristotle: IMO-level Automated Theorem Proving

Oct 1

ByTudor Achim, Alex Best, Kevin Der, Mathïs Fédérico, Sergei Gukov, Daniel Halpern-Leister, Kirsten Henningsgard, Yury Kudryashov, Alexander Meiburg, Martin Michelsen, Riley Patterson, Eric Rodriguez, Laura Scharff, Vikram Shanker, Vladmir Sicca, Hari Sowrirajan, Aidan Swope, Matyas Tamas, Vlad Tenev, Jonathan Thomm, Harold Williams, Lawrence Wu

Мы представляем Aristotle — систему искусственного интеллекта, которая сочетает формальную верификацию с неформальными рассуждениями, достигая уровня, эквивалентного золотой медали, на задачах Международной математической олимпиады 2025 года. Aristotle объединяет три основных компонента: систему поиска доказательств на основе Lean, систему неформальных рассуждений, которая генерирует и формализует леммы, а также специализированный решатель геометрических задач. Наша система демонстрирует передовые результаты с благоприятными свойствами масштабируемости в области автоматического доказательства теорем.

DragFlow: Раскрытие априорных знаний DiT с региональным контролем для редактирования перетаскиванием
DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Oct 2

ByZihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong

Редактирование изображений на основе перетаскивания долгое время страдало от искажений в целевой области, в основном из-за того, что априорные знания ранних базовых моделей, таких как Stable Diffusion, были недостаточны для проекции оптимизированных латентных представлений обратно на многообразие естественных изображений. С переходом от DDPM на основе UNet к более масштабируемым DiT с согласованием потоков (например, SD3.5, FLUX), генеративные априорные знания значительно усилились, что позволило добиться прогресса в различных задачах редактирования. Однако редактирование на основе перетаскивания пока не получило выгоды от этих более сильных априорных знаний. В данной работе предлагается первый фреймворк, эффективно использующий богатые априорные знания FLUX для редактирования на основе перетаскивания, названный DragFlow, который демонстрирует существенные улучшения по сравнению с базовыми методами. Мы сначала показываем, что прямое применение точечного редактирования на основе перетаскивания к DiT работает плохо: в отличие от сильно сжатых признаков UNet, признаки DiT недостаточно структурированы для обеспечения надежного руководства для точечного управления движением. Чтобы преодолеть это ограничение, DragFlow вводит парадигму редактирования на основе областей, где аффинные преобразования позволяют обеспечить более богатое и согласованное управление признаками. Дополнительно мы интегрируем предобученные адаптеры персонализации для открытых доменов (например, IP-Adapter) для повышения согласованности объектов, сохраняя при этом точность фона с помощью жестких ограничений на основе градиентных масок. Мультимодальные большие языковые модели (MLLM) также используются для разрешения неоднозначностей в задачах. Для оценки мы создали новый бенчмарк Region-based Dragging (ReD Bench), содержащий инструкции для перетаскивания на уровне областей. Многочисленные эксперименты на DragBench-DR и ReD Bench показывают, что DragFlow превосходит как точечные, так и региональные базовые методы, устанавливая новый стандарт в редактировании изображений на основе перетаскивания. Код и наборы данных будут общедоступны после публикации.

Разреженное внимание по запросам (SQA): Вычислительно эффективный механизм внимания с сокращением голов запросов
Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction

Oct 2

ByAdam Filipek

Архитектура Transformer, основанная на механизме Multi-Head Attention (MHA), стала де-факто стандартом для современных моделей искусственного интеллекта. Однако квадратичная вычислительная сложность MHA по отношению к длине последовательности представляет собой значительное препятствие для масштабирования, особенно для приложений, связанных с длинными контекстами. Распространенные решения, такие как Multi-Query Attention (MQA) и Grouped-Query Attention (GQA), эффективно устранили узкое место, связанное с пропускной способностью памяти, которое доминирует в задержке авторегрессивного вывода, за счет совместного использования проекций Key и Value. Несмотря на их успешность, эти методы не сокращают фундаментальное количество операций с плавающей запятой (FLOPs), необходимых для вычисления оценок внимания, что остается критическим узким местом для обучения и обработки полных последовательностей. В данной статье представлена Sparse Query Attention (SQA) — новая архитектура внимания, которая предлагает альтернативный и дополняющий путь оптимизации. Вместо сокращения числа голов Key/Value, SQA уменьшает количество голов Query. Такая архитектурная модификация напрямую снижает вычислительную сложность механизма внимания на коэффициент, пропорциональный сокращению числа голов Query, тем самым уменьшая общее количество FLOPs. В работе представлены теоретические основы SQA, её математическая формулировка и семейство архитектурных вариантов. Эмпирические тесты на длинных последовательностях (32k–200k токенов) демонстрируют, что SQA может достичь значительного увеличения пропускной способности — до 3 раз в сценариях, ограниченных вычислениями, таких как предварительное обучение модели, тонкая настройка и задачи на основе кодировщика, при минимальном влиянии на качество модели в предварительных экспериментах малого масштаба. SQA была обнаружена случайно в процессе разработки новой архитектуры Reactive Transformer, что указывает на её потенциал как мощного инструмента для создания более эффективных и масштабируемых моделей.

Агентное обучение взаимодействию по принципу пазла для улучшения визуального восприятия и логического мышления в моделях "визуальный язык"
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models

Oct 1

ByYu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao

Хотя современные крупные модели обработки зрения и языка (Vision-Language Models, VLMs) достигли значительных успехов в мультимодальном понимании и рассуждении, их фундаментальные перцептивные и логические способности остаются ограниченными. В частности, даже на простых задачах сборки пазлов существующие VLMs демонстрируют результаты, близкие к случайным, что выявляет недостатки в базовых способностях восприятия и рассуждения. Хотя высококачественные данные, сочетающие зрение и язык, могут улучшить эти способности, их дефицит и ограниченная масштабируемость накладывают значительные ограничения. Для решения этой проблемы мы предлагаем AGILE (Agentic jiGsaw Interaction Learning) — метод обучения через взаимодействие для улучшения визуального восприятия и рассуждения в VLMs. AGILE формулирует решение пазлов как интерактивный процесс, позволяя модели постепенно взаимодействовать с окружающей средой. На каждом шаге модель генерирует исполняемый код для выполнения действия на основе текущего состояния, а среда предоставляет детализированную визуальную обратную связь для завершения задачи. Благодаря этому итеративному циклу наблюдения и взаимодействия модель постепенно улучшает свои перцептивные и логические способности через исследование и обратную связь. Экспериментальные результаты показывают, что AGILE не только значительно повышает производительность на задачах сборки пазлов различной сложности (например, увеличивая точность с 9,5% до 82,8% в настройке 2×2), но также демонстрирует сильную обобщаемость на 9 общих задач обработки зрения, достигая среднего улучшения на 3,1%. Эти результаты указывают на заметное улучшение как перцептивных, так и логических способностей. Данная работа открывает новый путь для продвижения рассуждений и обобщения в мультимодальных моделях и предоставляет эффективное и масштабируемое решение проблемы дефицита данных для мультимодального обучения с подкреплением. Код и наборы данных доступны по адресу https://github.com/yuzeng0-0/AGILE.

Точное обнаружение контекстуально обусловленных галлюцинаций с использованием языковых моделей (LLM)
Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

Sep 26

ByYehonatan Peisakhovsky, Zorik Gekhman, Yosi Mass, Liat Ein-Dor, Roi Reichart

Контекстуально обусловленные галлюцинации — это случаи, когда выводы модели содержат информацию, которую невозможно проверить по исходному тексту. Мы исследуем применимость крупных языковых моделей (LLM) для локализации таких галлюцинаций как более практичную альтернативу существующим сложным конвейерам оценки. В отсутствие устоявшихся бенчмарков для мета-оценки локализации галлюцинаций мы создаем специализированный бенчмарк, адаптированный для LLM, включающий сложную ручную аннотацию более 1000 примеров. Мы дополняем бенчмарк протоколом оценки на основе LLM, проверяя его качество в ходе человеческой оценки. Поскольку существующие представления галлюцинаций ограничивают типы ошибок, которые можно выразить, мы предлагаем новое представление, основанное на свободных текстовых описаниях, охватывающее весь спектр возможных ошибок. Мы проводим всестороннее исследование, оценивая четыре крупномасштабные LLM, которое подчеркивает сложность бенчмарка: лучшая модель достигает F1-меры всего 0,67. Благодаря тщательному анализу мы предлагаем рекомендации по оптимальным стратегиям промптинга для этой задачи и выявляем основные факторы, которые делают её сложной для LLM: (1) склонность неправильно отмечать отсутствующие детали как противоречивые, несмотря на инструкцию проверять только факты в выводе; и (2) трудности с выводами, содержащими фактологически верную информацию, отсутствующую в источнике — и, следовательно, непроверяемую — из-за её соответствия параметрическим знаниям модели.

VideoNSA: Встроенное разреженное внимание масштабирует понимание видео
VideoNSA: Native Sparse Attention Scales Video Understanding

Oct 2

ByEnxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu

Понимание видео в мультимодальных языковых моделях остается ограниченным из-за длины контекста: модели часто пропускают ключевые переходные кадры и испытывают трудности с поддержанием связности на длительных временных масштабах. Для решения этой проблемы мы адаптируем Native Sparse Attention (NSA) для видео-языковых моделей. Наш метод, VideoNSA, адаптирует Qwen2.5-VL путем сквозного обучения на наборе данных из 216K видеоинструкций. Мы используем аппаратно-ориентированный гибридный подход к вниманию, сохраняя плотное внимание для текста, применяя NSA для видео. По сравнению с базовыми методами сжатия токенов и обучением без разреженности, VideoNSA демонстрирует улучшенные результаты в понимании длинных видео, временном рассуждении и пространственных тестах. Дополнительный анализ выявил четыре ключевых результата: (1) надежное масштабирование до 128K токенов; (2) оптимальное распределение глобально-локального внимания при фиксированном бюджете; (3) зависимость использования ветвей от задачи; и (4) обучаемая комбинированная разреженная внимательность помогает формировать динамические точки внимания.

Визуальная мультиагентная система: предотвращение накопления галлюцинаций с помощью визуального потока
Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow

Sep 26

ByXinlei Yu, Chengming Xu, Guibin Zhang, Yongbo He, Zhangquan Chen, Zhucun Xue, Jiangning Zhang, Yue Liao, Xiaobin Hu, Yu-Gang Jiang, Shuicheng Yan

Многоагентные системы (MAS), основанные на визуальных языковых моделях (VLMs), позволяют решать сложные задачи, но сталкиваются с новым типом ошибки — эффектом снежного кома визуальных галлюцинаций в многоагентной среде, когда галлюцинации, возникающие у одного агента, усиливаются последующими агентами из-за чрезмерной зависимости от текстового потока для передачи визуальной информации. С помощью анализа внимания на уровне ходов, слоев и токенов мы подробно исследуем суть эффекта снежного кома галлюцинаций, связанного с уменьшением распределения визуального внимания. Это позволяет нам выделить подмножество визуальных токенов с унимодальным пиком внимания в средних слоях, которые лучше всего сохраняют визуальные данные, но постепенно исчезают на более глубоких этапах работы агентов, что приводит к эффекту снежного кома визуальных галлюцинаций в MAS. В связи с этим мы предлагаем ViF — легковесную, подключаемую парадигму для смягчения этой проблемы, которая передает межагентные сообщения с использованием визуального потока, основанного на выбранных токенах визуальной передачи, и применяет перераспределение внимания для усиления этого паттерна. Результаты экспериментов показывают, что наш метод значительно снижает эффект снежного кома галлюцинаций, стабильно улучшая производительность на восьми тестовых наборах, основанных на четырех распространенных структурах MAS и десяти базовых моделях. Исходный код будет доступен по адресу: https://github.com/YU-deep/ViF.git.

Доверяй интуиции: масштабирование уверенности в авторегрессионной генерации изображений
Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

Sep 30

ByHarold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen

Масштабирование во время тестирования (TTS) продемонстрировало впечатляющий успех в улучшении больших языковых моделей, однако его применение к авторегрессивной (AR) генерации изображений на основе предсказания следующего токена (NTP) остается практически неисследованным. Существующие подходы TTS для визуальной AR (VAR), которые полагаются на частое частичное декодирование и внешние модели вознаграждения, плохо подходят для генерации изображений на основе NTP из-за присущей неполноты промежуточных результатов декодирования. Чтобы устранить этот пробел, мы представляем ScalingAR — первую TTS-структуру, специально разработанную для AR-генерации изображений на основе NTP, которая устраняет необходимость раннего декодирования или вспомогательных вознаграждений. ScalingAR использует энтропию токенов как новый сигнал в генерации визуальных токенов и работает на двух взаимодополняющих уровнях масштабирования: (i) на уровне профиля, который передает калиброванное состояние уверенности путем объединения внутренних и условных сигналов; и (ii) на уровне политики, который использует это состояние для адаптивного завершения траекторий с низкой уверенностью и динамического планирования управления для фазово-соответствующей силы кондиционирования. Эксперименты на общих и композиционных тестах показывают, что ScalingAR (1) улучшает базовые модели на 12,5% на GenEval и на 15,2% на TIIF-Bench, (2) эффективно сокращает потребление визуальных токенов на 62,0%, превосходя базовые методы, и (3) успешно повышает устойчивость, смягчая снижение производительности на 26,0% в сложных сценариях.

RLAD: Обучение языковых моделей для выявления абстракций при решении задач, требующих логического рассуждения
RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

Oct 2

ByYuxiao Qu, Anikait Singh, Yoonho Lee, Amrith Setlur, Ruslan Salakhutdinov, Chelsea Finn, Aviral Kumar

Рассуждение требует выхода за рамки сопоставления шаблонов или запоминания решений, чтобы выявлять и применять "алгоритмические процедуры", которые могут быть использованы для вывода ответов на сложные задачи. Это требует осознания наиболее релевантных примитивов, промежуточных результатов или общих процедур и построения на их основе. Хотя обучение с подкреплением (RL) на длинных цепочках рассуждений в конечном итоге направлено на раскрытие такого алгоритмического поведения, большинство траекторий рассуждений, изучаемых крупными моделями, не способны последовательно фиксировать или повторно использовать процедуры, вместо этого скатываясь в многословное и дегенеративное исследование. Для более эффективного рассуждения мы вводим абстракции рассуждений: краткие описания на естественном языке процедурных и фактологических знаний, которые направляют модель на изучение успешных рассуждений. Мы обучаем модели способности предлагать несколько абстракций для данной задачи, за которыми следует RL, стимулирующий построение решения с использованием информации, предоставленной этими абстракциями. Это приводит к парадигме обучения RL с двумя игроками, сокращенно RLAD, которая совместно обучает генератор абстракций и генератор решений. Такая настройка эффективно обеспечивает структурированное исследование, разделяет сигналы обучения для предложения абстракций и генерации решений и улучшает обобщение на более сложные задачи. Мы также показываем, что выделение большего объема вычислительных ресурсов на этапе тестирования для генерации абстракций более полезно для производительности, чем генерация большего количества решений при больших тестовых бюджетах, что иллюстрирует роль абстракций в направлении осмысленного исследования.

VLA-R1: Улучшение способности к рассуждению в моделях "Ви́дение-Язык-Действие"
VLA-R1: Enhancing Reasoning in Vision-Language-Action Models

Oct 2

ByAngen Ye, Zeyu Zhang, Boyuan Wang, Xiaofeng Wang, Dapeng Zhang, Zheng Zhu

Модели Vision-Language-Action (VLA) направлены на объединение восприятия, понимания языка и генерации действий, обеспечивая сильную обобщаемость между задачами и сценами, что имеет широкое влияние на воплощённый искусственный интеллект. Однако современные модели VLA часто не обладают явным пошаговым рассуждением, вместо этого выдавая конечные действия без учёта ограничений аффордансов или геометрических отношений. Их посттренировочные конвейеры также редко усиливают качество рассуждений, полагаясь в основном на контролируемую тонкую настройку с использованием слабо разработанных вознаграждений. Для решения этих проблем мы представляем VLA-R1, модель VLA с усиленным рассуждением, которая интегрирует обучение с подкреплением на основе проверяемых вознаграждений (RLVR) с оптимизацией групповой относительной политики (GRPO) для систематической оптимизации как рассуждений, так и выполнения. В частности, мы разрабатываем посттренировочную стратегию на основе RLVR с проверяемыми вознаграждениями для выравнивания регионов, согласованности траекторий и форматирования выходных данных, тем самым укрепляя устойчивость рассуждений и точность выполнения. Кроме того, мы создаём VLA-CoT-13K, высококачественный набор данных, предоставляющий цепочку рассуждений, явно согласованную с аннотациями аффордансов и траекторий. Более того, обширные оценки на внутридоменных, внедоменных, симуляционных и реальных роботизированных платформах демонстрируют, что VLA-R1 достигает превосходной обобщаемости и производительности в реальных условиях по сравнению с предыдущими методами VLA. Мы планируем выпустить модель, код и набор данных после публикации данной работы. Код: https://github.com/GigaAI-research/VLA-R1. Веб-сайт: https://gigaai-research.github.io/VLA-R1.

Автоматизированное создание структурированных радиологических отчетов с богатым клиническим контекстом
Automated Structured Radiology Report Generation with Rich Clinical Context

Oct 1

BySeongjae Kang, Dong Bok Lee, Juho Jung, Dongseop Kim, Won Hwa Kim, Sunghoon Joo

Автоматизированное создание структурированных радиологических отчетов (SRRG) на основе рентгеновских снимков грудной клетки обладает значительным потенциалом для снижения нагрузки на радиологов путем генерации отчетов в структурированных форматах, обеспечивающих ясность, согласованность и соответствие клиническим стандартам отчетности. В то время как радиологи эффективно используют доступный клинический контекст в своем диагностическом процессе, существующие системы SRRG игнорируют эти важные элементы. Этот фундаментальный пробел приводит к критическим проблемам, включая временные галлюцинации при ссылках на несуществующий клинический контекст. Для устранения этих ограничений мы предлагаем контекстуализированный SRRG (C-SRRG), который комплексно учитывает богатый клинический контекст для SRRG. Мы создаем набор данных C-SRRG, интегрируя всесторонний клинический контекст, включающий 1) многопроекционные рентгеновские снимки, 2) клинические показания, 3) методы визуализации и 4) предыдущие исследования с соответствующими сравнениями на основе истории пациента. Проведя обширное тестирование с использованием современных мультимодальных языковых моделей, мы демонстрируем, что включение клинического контекста с предложенным C-SRRG значительно улучшает качество генерации отчетов. Мы публикуем набор данных, код и контрольные точки для содействия будущим исследованиям в области автоматизированного создания радиологических отчетов, ориентированных на клиническую практику, по адресу https://github.com/vuno/contextualized-srrg.

Трансформеры обнаруживают молекулярную структуру без априорных знаний о графах
Transformers Discover Molecular Structure Without Graph Priors

Oct 2

ByTobias Kreiman, Yutong Bai, Fadi Atieh, Elizabeth Weaver, Eric Qu, Aditi S. Krishnapriyan

Графовые нейронные сети (GNN) являются доминирующей архитектурой для молекулярного машинного обучения, особенно для предсказания молекулярных свойств и машинного обучения межатомных потенциалов (MLIP). GNN выполняют передачу сообщений на предопределенных графах, часто созданных с использованием фиксированного радиуса отсечения или схемы k ближайших соседей. Хотя такой подход соответствует локальности, присутствующей во многих молекулярных задачах, жестко заданный граф может ограничивать выразительность из-за фиксированного рецептивного поля и замедлять вывод из-за разреженных операций с графами. В данной работе мы исследуем, могут ли чистые, неизмененные трансформеры, обученные непосредственно на декартовых координатах — без предопределенных графов или физических априорных знаний — аппроксимировать молекулярные энергии и силы. В качестве отправной точки нашего анализа мы показываем, как обучить трансформер для достижения конкурентоспособных средних абсолютных ошибок по энергии и силам при сопоставимом бюджете вычислительных ресурсов для обучения, по сравнению с современной эквивариантной GNN на наборе данных OMol25. Мы обнаруживаем, что трансформер изучает физически согласованные паттерны — например, веса внимания, которые убывают обратно пропорционально межатомному расстоянию — и гибко адаптирует их в различных молекулярных средах благодаря отсутствию жестко заданных предубеждений. Использование стандартного трансформера также позволяет предсказуемо улучшать результаты при масштабировании ресурсов для обучения, что согласуется с эмпирическими законами масштабирования, наблюдаемыми в других областях. Наши результаты демонстрируют, что многие благоприятные свойства GNN могут адаптивно проявляться в трансформерах, ставя под сомнение необходимость жестко заданных индуктивных предубеждений графов и указывая на стандартизированные, масштабируемые архитектуры для молекулярного моделирования.

Просто сделай это!? Компьютерные агенты демонстрируют слепую целеустремленность
Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

Oct 2

ByErfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet

Агенты для работы с компьютерами (Computer-Use Agents, CUAs) — это всё чаще применяемый класс агентов, которые выполняют действия через графические интерфейсы (GUI) для достижения целей пользователя. В данной статье мы показываем, что CUAs последовательно демонстрируют Слепую Целенаправленность (Blind Goal-Directedness, BGD): склонность к достижению целей без учёта их осуществимости, безопасности, надёжности или контекста. Мы выделяем три распространённых паттерна BGD: (i) отсутствие контекстного анализа, (ii) предположения и решения в условиях неопределённости и (iii) противоречивые или невыполнимые цели. Мы разработали BLIND-ACT — бенчмарк из 90 задач, охватывающих эти три паттерна. Построенный на основе OSWorld, BLIND-ACT предоставляет реалистичные среды и использует судей на основе языковых моделей (LLM) для оценки поведения агентов, достигая 93,75% согласия с аннотациями человека. Мы применяем BLIND-ACT для оценки девяти передовых моделей, включая Claude Sonnet и Opus 4, Computer-Use-Preview и GPT-5, наблюдая высокие средние показатели BGD (80,8%) среди них. Мы показываем, что BGD выявляет скрытые риски, которые возникают даже при отсутствии явно вредных входных данных. Хотя вмешательства на основе промптов снижают уровень BGD, значительный риск сохраняется, что подчеркивает необходимость более сильных мер на этапе обучения или вывода. Качественный анализ выявляет наблюдаемые режимы сбоев: предпочтение выполнения (акцент на том, как действовать, а не на том, стоит ли действовать), разрыв между мышлением и действием (выполнение расходится с рассуждениями) и приоритет запроса (оправдание действий из-за запроса пользователя). Выявление BGD и введение BLIND-ACT закладывают основу для будущих исследований по изучению и смягчению этого фундаментального риска, а также для обеспечения безопасного развёртывания CUAs.

VIRTUE: Визуально-интерактивный универсальный эмбеддер для текста и изображений
VIRTUE: Visual-Interactive Text-Image Universal Embedder

Oct 1

ByWei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji

Модели мультимодального обучения представлений продемонстрировали успешную работу в сложных задачах, а интеграция моделей "визуальный язык" (VLMs) позволила встроить в модели возможности следования инструкциям. Однако существующие модели встраивания лишены визуально-интерактивных возможностей для указания пользователями областей интереса (например, точка, ограничивающий прямоугольник, маска), которые были исследованы в генеративных моделях для расширения их применимости в интерактивных сценариях. Оснащение моделей встраивания визуальными взаимодействиями не только открыло бы новые приложения с локализованным учетом намерений пользователя, что остается неисследованным, но и позволило бы моделям изучать информацию на уровне объектов в изображениях, дополняя их глобальные представления для традиционных задач встраивания. В данной работе мы предлагаем новую модель Visual-InteRactive Text-Image Universal Embedder (VIRTUE), которая расширяет возможности модели сегментации и модели "визуальный язык" в область обучения представлений. В VIRTUE модель сегментации может обрабатывать визуальные подсказки, указывающие на конкретные области изображения, что позволяет встраивателю более точно справляться со сложными и неоднозначными сценариями. Для оценки визуально-интерактивных способностей VIRTUE мы представляем крупномасштабный бенчмарк Segmentation-and-Scene Caption Retrieval (SCaR), состоящий из 1 миллиона образцов, который направлен на извлечение текстового описания с учетом как конкретного объекта, так и сцены изображения. VIRTUE демонстрирует стабильно передовые результаты с существенными улучшениями в 36 универсальных задачах MMEB (3,1%-8,5%) и пяти визуально-интерактивных задачах SCaR (15,2%-20,3%).

Group-Relative REINFORCE — это скрыто off-policy алгоритм: Развенчание некоторых мифов о GRPO и его аналогах
Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Sep 29

ByChaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding

Обучение с подкреплением вне политики (off-policy reinforcement learning, RL) для больших языковых моделей (LLMs) привлекает всё больше внимания, что обусловлено практическими ограничениями в реальных приложениях, сложностью инфраструктуры LLM-RL и необходимостью дальнейших инноваций в методологиях RL. Хотя классический алгоритм REINFORCE и его современные варианты, такие как Group Relative Policy Optimization (GRPO), обычно рассматриваются как алгоритмы на политике (on-policy) с ограниченной толерантностью к внеполитичности, в данной работе мы представляем вывод группового относительного REINFORCE из первых принципов без предположения о конкретном распределении обучающих данных, показывая, что он допускает естественную интерпретацию вне политики. Этот подход приводит к двум общим принципам адаптации REINFORCE к условиям вне политики: регуляризации обновлений политики и активному формированию распределения данных. Наш анализ развенчивает некоторые мифы о роли важностного сэмплирования и обрезки в GRPO, объединяет и переосмысливает два недавних алгоритма — Online Policy Mirror Descent (OPMD) и Asymmetric REINFORCE (AsymRE) — как регуляризованные формы потерь REINFORCE и предлагает теоретическое обоснование для, казалось бы, эвристических стратегий взвешивания данных. Наши выводы приводят к практическим рекомендациям, которые подтверждаются обширными эмпирическими исследованиями, и открывают новые возможности для принципиального проектирования алгоритмов в RL вне политики для LLMs. Исходный код для данной работы доступен по адресу https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k.

Оптимальное управление встречается с согласованием потоков: принципиальный путь к высокой точности для множества субъектов
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

Oct 2

ByEric Tillmann Bill, Enis Simsar, Thomas Hofmann

Модели генерации изображений по тексту (Text-to-Image, T2I) демонстрируют высокие результаты на запросах с одним объектом, но испытывают трудности с описаниями, содержащими несколько объектов, часто проявляя утечку атрибутов, смешение идентичностей и пропуск объектов. Мы представляем первую теоретическую основу с принципиально оптимизируемой целью для управления динамикой выборки в сторону точности воспроизведения нескольких объектов. Рассматривая сопоставление потоков (Flow Matching, FM) через призму стохастического оптимального управления (Stochastic Optimal Control, SOC), мы формулируем разделение объектов как управление обученным FM-семплером. Это приводит к двум алгоритмам, независимым от архитектуры: (i) контроллеру, работающему на этапе тестирования без дополнительного обучения, который корректирует базовую скорость с помощью однократного обновления, и (ii) Adjoint Matching — легкому правилу тонкой настройки, которое регрессирует управляющую сеть к обратному сопряженному сигналу, сохраняя при этом возможности базовой модели. Та же формулировка объединяет предыдущие эвристики внимания, расширяется на диффузионные модели через соответствие потоков и диффузии и предоставляет первый маршрут тонкой настройки, явно предназначенный для точности воспроизведения нескольких объектов. Эмпирически, на моделях Stable Diffusion 3.5, FLUX и Stable Diffusion XL оба алгоритма последовательно улучшают согласованность нескольких объектов, сохраняя стиль базовой модели. Контроллер на этапе тестирования эффективно работает на стандартных GPU, а тонко настроенные контроллеры, обученные на ограниченных запросах, обобщаются на новые. Мы также выделяем FOCUS (Flow Optimal Control for Unentangled Subjects), который достигает передовой точности воспроизведения нескольких объектов на различных моделях.

TimeSeriesScientist: Универсальный ИИ-агент для анализа временных рядов
TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis

Oct 2

ByHaokun Zhao, Xiang Zhang, Jiaqi Wei, Yiwei Xu, Yuting He, Siqi Sun, Chenyu You

Прогнозирование временных рядов играет ключевую роль в принятии решений в таких разнообразных областях, как энергетика, финансы, климат и общественное здравоохранение. На практике специалисты сталкиваются с тысячами коротких, зашумленных рядов, которые различаются по частоте, качеству и горизонту прогнозирования, при этом основные затраты связаны не с подгонкой модели, а с трудоемкими этапами предварительной обработки, валидации и ансамблирования, необходимыми для получения надежных прогнозов. Преобладающие статистические и модели глубокого обучения адаптированы к конкретным наборам данных или областям и плохо обобщаются. Существует острая потребность в универсальной, независимой от предметной области системе, которая минимизирует вмешательство человека. В данной работе мы представляем TimeSeriesScientist (TSci) — первую агентную платформу на основе больших языковых моделей (LLM) для универсального прогнозирования временных рядов. Платформа включает четыре специализированных агента: Curator выполняет диагностику с использованием LLM, дополненную внешними инструментами, которые анализируют статистику данных для выбора целевой предварительной обработки; Planner сужает пространство гипотез выбора модели, используя мультимодальную диагностику и самоорганизацию на основе входных данных; Forecaster выполняет подгонку и валидацию модели и на основе результатов адаптивно выбирает оптимальную конфигурацию модели, а также стратегию ансамблирования для получения итоговых прогнозов; Reporter синтезирует весь процесс в прозрачный и детализированный отчет. Благодаря прозрачным обоснованиям на естественном языке и подробным отчетам TSci превращает процесс прогнозирования в "белый ящик", который является интерпретируемым и расширяемым для различных задач. Эмпирические результаты на восьми известных бенчмарках показывают, что TSci стабильно превосходит как статистические, так и LLM-базовые методы, снижая ошибку прогнозирования в среднем на 10,4% и 38,2% соответственно. Более того, TSci создает четкий и строгий отчет, делая процесс прогнозирования более прозрачным и интерпретируемым.

Обобщённое параллельное масштабирование с взаимозависимыми поколениями
Generalized Parallel Scaling with Interdependent Generations

Oct 1

ByHarry Dong, David Brandfonbrener, Eryk Helenowski, Yun He, Mrinal Kumar, Han Fang, Yuejie Chi, Karthik Abinav Sankararaman

Масштабирование параллельного вывода в больших языковых моделях (LLM) предполагает выборку набора из N>1 ответов для одного входного запроса. Однако эти N параллельных ответов, как правило, генерируются независимо друг от друга, что приводит к разделению вычислительных ресурсов и оставляет потенциально полезную информацию в одном поколении ответов неиспользованной другими. Это отличается от масштабирования по длине ответа, где прошлые вычисления используются на всех последующих шагах. Для повышения качества ответов и наборов ответов мы предлагаем подход Bridge, который генерирует взаимозависимые ответы параллельно, рассматривая пакетные скрытые состояния LLM как целостные тензоры, а не независимые срезы. С добавлением всего небольшого количества (2,8%-5,1%) новых параметров, Bridge улучшает относительный прирост средней точности при обучении с подкреплением с проверяемыми наградами до 50% и повышает согласованность правильных ответов. Обучившись один раз, Bridge масштабируется на любую ширину генерации, демонстрируя более высокую производительность по сравнению с независимыми генерациями, открывая более общий режим параллельного масштабирования, который эффективно использует информацию между последовательностями и совместим с любой техникой постгенерационной агрегации.

Переосмысление "мыслящих токенов": языковые модели как операторы улучшения
Rethinking Thinking Tokens: LLMs as Improvement Operators

Oct 1

ByLovish Madaan, Aniket Didolkar, Suchin Gururangan, John Quan, Ruan Silva, Ruslan Salakhutdinov, Manzil Zaheer, Sanjeev Arora, Anirudh Goyal

Обучение рассуждениям стимулирует большие языковые модели (LLM) генерировать длинные цепочки мыслей (long CoT), что, среди прочего, позволяет им исследовать стратегии решения задач с самопроверкой. Это приводит к повышению точности, но увеличивает длину контекста, затраты на токены/вычисления и задержку ответа. Мы задаемся вопросом: могут ли современные модели использовать свои метакогнитивные способности для предоставления других комбинаций на этой границе Парето, например, лучшей точности при меньшей длине контекста и/или задержке? Абстрактно мы рассматриваем модель как оператор улучшения своих собственных "мыслей" с континуумом возможных стратегий. Мы выделяем интересное семейство методов вывода Parallel-Distill-Refine (PDR), которое выполняет следующее: (i) генерирует разнообразные черновики параллельно; (ii) дистиллирует их в ограниченное текстовое рабочее пространство; и (iii) уточняет, основываясь на этом рабочем пространстве, создавая выходные данные, которые становятся основой для следующего раунда. Важно, что длина контекста (и, следовательно, затраты на вычисления) контролируется через степень параллелизма и больше не связана с общим количеством сгенерированных токенов. Мы сообщаем о реализациях PDR для современных моделей, которые обеспечивают лучшую точность, чем long CoT, при меньшей задержке. Установка степени параллелизма на 1 дает интересный частный случай, Sequential Refinement (SR) (итеративное улучшение одного кандидата на ответ), который превосходит long CoT по производительности. Успех таких оркестраций моделей поднимает вопрос о том, может ли дальнейшее обучение сместить границу Парето. В связи с этим мы обучаем 8B-модель рассуждений с использованием обучения с подкреплением (RL), чтобы сделать ее согласованной с PDR как методом вывода. На математических задачах с проверяемыми ответами итеративные подходы превосходят однопроходные базовые методы при сопоставимых последовательных затратах, причем PDR демонстрирует наибольший прирост (например, +11% на AIME 2024 и +9% на AIME 2025).

Однотокеновый rollout: Направление контролируемой тонкой настройки больших языковых моделей с помощью градиента политики
One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient

Sep 30

ByRui Ming, Haoyuan Wu, Shoubo Hu, Zhuolun He, Bei Yu

Настройка с учителем (SFT) является преобладающим методом адаптации больших языковых моделей (LLM), однако она часто уступает в обобщении по сравнению с обучением с подкреплением (RL). В данной работе мы предполагаем, что это различие в производительности связано не только с функцией потерь, но и с более фундаментальным различием: SFT обучается на фиксированном, заранее собранном наборе данных, тогда как RL использует данные, полученные в режиме реального времени из текущей политики. Основываясь на этой гипотезе, мы представляем алгоритм one-token rollout (OTR) — новый метод тонкой настройки, который направляет SFT с использованием метода градиента политики. OTR переосмысливает процесс авторегрессивного обучения, рассматривая генерацию каждого токена как одношаговую траекторию обучения с подкреплением. На каждом шаге выполняется «прогон» методом Монте-Карло, при котором из распределения текущей политики выбираются несколько кандидатных токенов. Затем токен из данных с учителем используется для предоставления сигнала вознаграждения этим образцам. Руководствуясь градиентом политики, наш алгоритм преобразует статические, заранее собранные данные с учителем в динамический сигнал на уровне токенов, что позволяет использовать преимущества обобщения, характерные для обучения на данных в режиме реального времени, избегая при этом затрат на генерацию полных предложений. В ходе обширных экспериментов на разнообразных сложных тестах, включая математические рассуждения, генерацию кода и общие рассуждения, мы демонстрируем, что OTR стабильно превосходит стандартный SFT. Наши результаты подтверждают, что OTR является мощной и практичной альтернативой для тонкой настройки LLM, а также предоставляют убедительные доказательства того, что использование данных в режиме реального времени является ключевым фактором обобщения, открывая перспективное новое направление для тонкой настройки LLM.

FrameThinker: Обучение мышлению с использованием длинных видео через многошаговое выделение ключевых кадров
FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting

Sep 29

ByZefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng

Хотя крупные модели обработки зрения и языка (LVLMs) достигли значительного прогресса в понимании видео, их применение для анализа длинных видеороликов ограничено равномерной выборкой кадров и статическим текстовым анализом, что является неэффективным и затрудняет выполнение задач, требующих интенсивной обработки визуальной информации. Чтобы преодолеть эти ограничения, в данной работе мы вводим концепцию "мышления с длинными видео" и предлагаем новую архитектуру FrameThinker. В рамках этой архитектуры LVLMs способны итеративно анализировать содержимое видео. Развитие таких способностей анализа видео в LVLMs сопряжено с рядом сложностей, особенно в адаптации модели к новым действиям с видео (например, выбор кадра) и разработке функций вознаграждения, которые направляют LVLMs к использованию введенных действий. Для решения этих задач мы предлагаем двухэтапную стратегию обучения: сначала применяем контролируемую тонкую настройку (SFT) для формирования базовых способностей выполнения действий, а затем используем обучение с подкреплением (RL) для оптимизации стратегии принятия решений. Важно отметить, что на этапе RL мы проводим глубокое и всестороннее исследование дизайна вознаграждения для каждого действия и формата вознаграждения. Экстенсивные эксперименты на тестовых наборах для анализа, таких как Video-Holmes и LongVideo-Reason, а также на наборах для понимания длинных видео, таких как LongVideoBench, MLVU, VideoMME и LVBench, демонстрируют, что FrameThinker достигает значительного среднего улучшения на +10,4% по сравнению с базовыми методами, при этом значительно сокращая количество обрабатываемых кадров. Наиболее примечательно, что наша модель FrameThinker с 7 миллиардами параметров устанавливает новый рекорд на тестовом наборе LongVideo-Reason, достигая точности 76,1% при использовании в среднем всего 20,6 кадров. Это не только превосходит конкурентоспособный LongVILA-R1 (72,0%), но и делает это с использованием более чем в 20 раз меньшего количества кадров (по сравнению с 512), демонстрируя беспрецедентную эффективность и производительность.

Извлечение выводов из сравнений: переосмысление семантики предпочтений в аренном оценивании языковых моделей
Drawing Conclusions from Draws: Rethinking Preference Semantics in Arena-Style LLM Evaluation

Oct 2

ByRaphael Tang, Crystina Zhang, Wenyan Li, Carmen Lai, Pontus Stenetorp, Yao Lu

При аренном оценивании больших языковых моделей (LLM) две модели отвечают на запрос пользователя, и пользователь выбирает победивший ответ или объявляет "битву" ничьей, что приводит к корректировке рейтингов обеих моделей. Преобладающий подход к моделированию этих рейтинговых динамик заключается в рассмотрении битв как матчей между двумя игроками, как в шахматах, с применением рейтинговой системы Эло и её производных. В данной работе мы критически исследуем эту парадигму. В частности, мы задаёмся вопросом, действительно ли ничья означает, что две модели равны, и, следовательно, должны ли их рейтинги уравниваться. Вместо этого мы предполагаем, что ничьи скорее указывают на сложность запроса: если запрос слишком простой, то обе модели с большей вероятностью справятся одинаково хорошо. На трёх реальных аренных наборах данных мы показываем, что игнорирование обновления рейтингов при ничьях приводит к относительному увеличению точности предсказания исходов битв (включая ничьи) на 1-3% для всех четырёх изученных рейтинговых систем. Дополнительные анализы показывают, что ничьи чаще возникают для запросов, оценённых как очень простые, а также для тех, которые характеризуются высокой объективностью, с коэффициентами риска 1,37 и 1,35 соответственно. Мы рекомендуем будущим рейтинговым системам пересмотреть существующую семантику ничьих и учитывать свойства запросов при обновлении рейтингов.

Закон параллельного масштабирования: раскрытие обобщения рассуждений через кросс-лингвистическую перспективу
Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective

Oct 2

ByWen Yang, Junhong Wu, Chong Li, Chengqing Zong, Jiajun Zhang

Недавние достижения в области обучения с подкреплением после предварительного обучения (Reinforcement Post-Training, RPT) значительно расширили возможности крупных моделей рассуждений (Large Reasoning Models, LRMs), что вызвало повышенный интерес к обобщению рассуждений на основе обучения с подкреплением (RL). Хотя существующие работы в основном сосредоточены на исследовании обобщения между задачами или модальностями, в данном исследовании предлагается новый кросс-лингвистический подход к изучению обобщения рассуждений. Это поднимает важный вопрос: эффективно ли переносятся способности к рассуждению, достигнутые с помощью RPT на английском языке, на другие языки? Мы исследуем этот вопрос, систематически оценивая англоцентричные LRMs на мультиязычных бенчмарках для рассуждений и вводя метрику для количественной оценки кросс-лингвистической переносимости. Наши результаты показывают, что кросс-лингвистическая переносимость значительно варьируется в зависимости от исходной модели, целевого языка и парадигмы обучения. В ходе интервенционных исследований мы обнаруживаем, что модели с более сильными исходными способностями на английском языке склонны чрезмерно полагаться на англо-специфичные паттерны, что приводит к снижению кросс-лингвистического обобщения. Для решения этой проблемы мы проводим тщательное исследование параллельного обучения. Экспериментальные результаты дают три ключевых вывода: "Первый параллельный скачок" — значительное улучшение производительности при переходе от одноязычного обучения к обучению всего на одном параллельном языке, а также предсказуемый "Закон масштабирования параллельности", который показывает, что перенос кросс-лингвистических рассуждений следует степенному закону в зависимости от количества обучающих параллельных языков. Кроме того, мы выявляем расхождение между фактической одноязычной производительностью и предсказанием по степенному закону как "Разрыв в одноязычном обобщении", что указывает на то, что англоцентричные LRMs не полностью обобщаются на другие языки. Наше исследование ставит под сомнение предположение, что рассуждения LRMs отражают человеческое познание, и предоставляет важные инсайты для разработки более языково-независимых LRMs.

Переосмысление стандартной архитектуры многослойного перцептрона
Rethinking the shape convention of an MLP

Oct 2

ByMeng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu

Многослойные перцептроны (MLP) традиционно следуют узко-широко-узкой архитектуре, где пропускные соединения работают на уровнях входных/выходных измерений, а обработка происходит в расширенных скрытых пространствах. Мы бросаем вызов этой традиции, предлагая широко-узко-широкие (Hourglass) блоки MLP, где пропускные соединения работают на расширенных измерениях, а остаточные вычисления проходят через узкие "узкие места". Эта инверсия использует пространства более высокой размерности для постепенного уточнения, сохраняя при этом вычислительную эффективность за счет параметрически сбалансированных конструкций. Реализация Hourglass MLP требует начальной проекции для поднятия входных сигналов до расширенных измерений. Мы предлагаем, чтобы эта проекция могла оставаться фиксированной на случайной инициализации на протяжении всего обучения, что позволяет реализовать эффективное обучение и вывод. Мы оцениваем обе архитектуры на генеративных задачах с использованием популярных наборов изображений, характеризуя границы Парето производительности-параметров через систематический поиск архитектур. Результаты показывают, что Hourglass архитектуры последовательно достигают превосходных границ Парето по сравнению с традиционными конструкциями. По мере увеличения бюджетов параметров оптимальные конфигурации Hourglass предпочитают более глубокие сети с более широкими пропускными соединениями и более узкими "узкими местами" — шаблон масштабирования, отличный от традиционных MLP. Наши результаты предполагают пересмотр размещения пропускных соединений в современных архитектурах, с потенциальными приложениями, распространяющимися на Transformers и другие остаточные сети.

Технический отчет SKYLENAGE: Математические рассуждения и эталонные тесты для инновационных соревнований в многоуровневой оценке математических знаний
SKYLENAGE Technical Report: Mathematical Reasoning and Contest-Innovation Benchmarks for Multi-Level Math Evaluation

Sep 24

ByHu Wei, Ze Xu, Boyu Yang, Linlin Miao, Weiqi Zhai, Yihan Li, Zixuan Li, Zhijun Wang, Boya Wang, Jianwei Yu, Jialing Yuan, Xiaoyue Zhang, Cheng He, Minglei Chen, Zifan Zhang, Qianhui Li, Wei Wang, Xiang Xu

Крупные языковые модели (LLM) демонстрируют высокие результаты на многих публичных наборах математических задач, однако прогресс в математике всё чаще сталкивается с эффектом потолка. Мы представляем два взаимодополняющих бенчмарка: SKYLENAGE-ReasoningMATH — диагностический набор из 100 задач с метаданными для каждого задания, включающими длину, плотность числовых данных и сложность символов; и SKYLENAGE-MATH — набор из 150 задач в стиле соревнований, охватывающий четыре уровня сложности от старшей школы до докторантуры в рамках семи предметных категорий. Мы оцениваем пятнадцать современных вариантов LLM в единой настройке и анализируем производительность по предметам и уровням сложности. На соревновательном наборе лучшая модель достигает 44%, а следующая за ней — 37%; точность снижается от старшей школы к докторантуре, а лучшие системы демонстрируют сохранение точности на уровне около 79% от докторантуры к старшей школе. На диагностическом наборе лучшая модель достигает 81% в целом, а результаты для наиболее сложных задач выявляют явные разрывы в устойчивости между лидерами и моделями среднего уровня. В итоге мы публикуем SKYLENAGE-ReasoningMATH и сообщаем агрегированные результаты для SKYLENAGE-MATH; вместе SKYLENAGE представляет собой сложный, ориентированный на логическое мышление и широко охватывающий математический бенчмарк с калиброванной сложностью и богатыми метаданными, служащий эталоном для будущих оценок математического мышления.

MedQ-Bench: Оценка и исследование способностей мультимодальных языковых моделей (MLLMs) в анализе качества медицинских изображений
MedQ-Bench: Evaluating and Exploring Medical Image Quality Assessment Abilities in MLLMs

Oct 2

ByJiyao Liu, Jinjie Wei, Wanying Qu, Chenglong Ma, Junzhi Ning, Yunheng Li, Ying Chen, Xinzhe Luo, Pengcheng Chen, Xin Gao, Ming Hu, Huihui Xu, Xin Wang, Shujian Gao, Dingkang Yang, Zhongying Deng, Jin Ye, Lihao Liu, Junjun He, Ningsheng Xu

Оценка качества медицинских изображений (IQA) служит первым этапом обеспечения безопасности для клинического ИИ, однако существующие подходы ограничены скалярными, основанными на баллах метриками и не способны отражать описательный, человеко-подобный процесс рассуждений, который лежит в основе экспертной оценки. Чтобы устранить этот пробел, мы представляем MedQ-Bench — всеобъемлющий бенчмарк, который устанавливает парадигму восприятия и рассуждений для языковой оценки качества медицинских изображений с использованием мультимодальных больших языковых моделей (MLLMs). MedQ-Bench определяет две взаимодополняющие задачи: (1) MedQ-Perception, которая исследует способность к низкоуровневому восприятию через курируемые человеком вопросы о базовых визуальных атрибутах; и (2) MedQ-Reasoning, охватывающую как задачи рассуждений без эталона, так и сравнительные задачи, приближая оценку моделей к человеко-подобным рассуждениям о качестве изображений. Бенчмарк охватывает пять модальностей визуализации и более сорока атрибутов качества, включая в общей сложности 2600 перцептивных запросов и 708 оценок рассуждений, охватывая разнообразные источники изображений, включая аутентичные клинические снимки, изображения с имитированными деградациями на основе физических реконструкций и изображения, сгенерированные ИИ. Для оценки способности к рассуждениям мы предлагаем многомерный протокол судейства, который оценивает выходные данные моделей по четырем взаимодополняющим осям. Мы также проводим строгую проверку согласованности между человеком и ИИ, сравнивая суждения на основе LLM с оценками радиологов. Наша оценка 14 современных MLLM демонстрирует, что модели обладают начальными, но нестабильными навыками восприятия и рассуждений, с недостаточной точностью для надежного клинического использования. Эти результаты подчеркивают необходимость целенаправленной оптимизации MLLM в области оценки качества медицинских изображений. Мы надеемся, что MedQ-Bench послужит катализатором для дальнейших исследований и раскроет неиспользованный потенциал MLLM для оценки качества медицинских изображений.

Оптимизация того, что важно: AUC-ориентированное обучение для устойчивого нейронного поиска
Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval

Sep 30

ByNima Sheikholeslami, Erfan Hosseini, Patrice Bechard, Srivatsava Daruru, Sai Rajeswar

Двухкодерные модели извлечения основываются на принципе, что релевантные документы должны получать более высокие оценки, чем нерелевантные, для данного запроса. Однако доминирующая цель Noise Contrastive Estimation (NCE), лежащая в основе контрастивной функции потерь, оптимизирует смягченный суррогат ранжирования, который, как мы строго доказываем, принципиально не учитывает качество разделения оценок и не связан с AUC (Area Under the Curve). Это несоответствие приводит к плохой калибровке и субоптимальной производительности в таких задачах, как генерация с использованием извлечения (RAG). Чтобы устранить это фундаментальное ограничение, мы представляем функцию потерь MW, новую цель обучения, которая максимизирует статистику Манна-Уитни, математически эквивалентную площади под ROC-кривой (AUC). Функция потерь MW стимулирует правильное ранжирование каждой пары положительных и отрицательных примеров, минимизируя бинарную кросс-энтропию для разностей оценок. Мы предоставляем теоретические гарантии, что функция потерь MW непосредственно ограничивает AoC (Area under the Curve), лучше согласуя оптимизацию с целями извлечения. Мы также продвигаем ROC-кривые и AUC как естественные диагностические инструменты без порогов для оценки калибровки и качества ранжирования моделей извлечения. Эмпирически модели, обученные с использованием функции потерь MW, стабильно превосходят контрастивные аналоги по AUC и стандартным метрикам извлечения. Наши эксперименты показывают, что функция потерь MW является эмпирически более эффективной альтернативой контрастивной функции потерь, обеспечивая лучше калиброванные и более дискриминативные модели извлечения для критически важных приложений, таких как RAG.

Контролируемая генерация для создания приватного синтетического текста
Controlled Generation for Private Synthetic Text

Sep 30

ByZihao Zhao, Anjalie Field

Анонимизация текста имеет решающее значение для ответственной разработки и внедрения ИИ в высокорисковых областях, таких как здравоохранение, социальные услуги и право. В данной работе мы предлагаем новую методологию для генерации синтетического текста с сохранением конфиденциальности, которая основывается на принципах деидентификации и теории "Скрытия на виду" (Hiding In Plain Sight, HIPS). Наш подход вводит управляющие коды, учитывающие сущности, для направленной генерации с использованием либо обучения в контексте (in-context learning, ICL), либо настройки префиксов. Вариант с ICL обеспечивает уровень конфиденциальности, соответствующий базовой системе деидентификации, в то время как вариант с настройкой префиксов включает пользовательскую стратегию маскирования и функцию потерь для поддержки масштабируемой и качественной генерации. Эксперименты на юридических и клинических наборах данных демонстрируют, что наш метод достигает оптимального баланса между защитой конфиденциальности и полезностью, предлагая практичное и эффективное решение для генерации синтетического текста в чувствительных областях.

IoT-MCP: Соединение больших языковых моделей и IoT-систем через протокол контекста модели
IoT-MCP: Bridging LLMs and IoT Systems Through Model Context Protocol

Sep 25

ByNingyuan Yang, Guanliang Lyu, Mingchen Ma, Yiyi Lu, Yiming Li, Zhihui Gao, Hancheng Ye, Jianyi Zhang, Tingjun Chen, Yiran Chen

Интеграция крупных языковых моделей (LLM) с системами Интернета вещей (IoT) сталкивается со значительными трудностями, связанными с аппаратной неоднородностью и сложностью управления. Протокол Model Context Protocol (MCP) становится ключевым инструментом, обеспечивая стандартизированное взаимодействие между LLM и физическими устройствами. Мы предлагаем IoT-MCP — новую платформу, реализующую MCP через серверы, развернутые на границе сети, для соединения LLM и экосистем IoT. Для поддержки строгой оценки мы представляем IoT-MCP Bench — первый бенчмарк, содержащий 114 базовых задач (например, «Какая текущая температура?») и 1 140 сложных задач (например, «Мне очень жарко, у вас есть идеи?») для LLM, интегрированных с IoT. Экспериментальная проверка на 22 типах датчиков и 6 микроконтроллерах демонстрирует 100% успешность выполнения задач IoT-MCP в генерации вызовов инструментов, полностью соответствующих ожиданиям и обеспечивающих абсолютно точные результаты, среднее время отклика 205 мс и пиковое использование памяти 74 КБ. Данная работа предоставляет как открытую платформу для интеграции (https://github.com/Duke-CEI-Center/IoT-MCP-Servers), так и стандартизированную методологию оценки систем LLM-IoT.

Спектральные законы масштабирования в языковых моделях: Насколько эффективно прямые сети используют свое латентное пространство?
Spectral Scaling Laws in Language Models: How Effectively Do Feed-Forward Networks Use Their Latent Space?

Oct 1

ByNandan Kumar Jha, Brandon Reagen

По мере масштабирования больших языковых моделей (LLM) возникает вопрос не только о том, насколько большими они становятся, но и о том, насколько эффективно используется их ёмкость. Существующие законы масштабирования связывают размер модели с потерей, однако упускают из виду, как компоненты используют своё латентное пространство. Мы исследуем прямые нейронные сети (FFN) и переосмысливаем выбор ширины как проблему спектрального использования. Используя лёгкий диагностический набор — Hard Rank (коэффициент участия), Soft Rank (ранг Шеннона), Спектральная концентрация и составной Индекс спектрального использования (SUI) — мы количественно оцениваем, сколько латентных направлений значимо активируется в семействах моделей LLaMA, GPT-2 и nGPT. Наше ключевое открытие — асимметричный закон спектрального масштабирования: мягкий ранг следует почти идеальному степенному закону в зависимости от ширины FFN, в то время как жёсткий ранг растёт лишь сублинейно и с высокой дисперсией. Эта асимметрия предполагает, что увеличение ширины FFN в основном добавляет направления с низкой энергией в хвосте распределения, в то время как подпространства доминирующих мод насыщаются рано. Более того, при больших ширинах дисперсия дополнительно сжимается в узкое подпространство, оставляя большую часть латентного пространства неиспользованной. Эти результаты переосмысливают выбор ширины FFN как принципиальный компромисс между ёмкостью хвоста и ёмкостью доминирующих мод, предлагая конкретные рекомендации для проектирования LLM с эффективным выводом.

SQUARE: Семантическое расширение запросов, эффективное объединение и пакетное ранжирование для обучения без данных в задаче нулевого сэмплинга составного поиска изображений
SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval

Sep 30

ByRen-Di Wu, Yu-Yen Lin, Huei-Fang Yang

Составной поиск изображений (Composed Image Retrieval, CIR) направлен на поиск целевых изображений, которые сохраняют визуальное содержание эталонного изображения, одновременно учитывая текстовые модификации, заданные пользователем. Подходы к CIR без обучения (zero-shot CIR, ZS-CIR), которые не требуют специфического обучения или размеченных данных, крайне привлекательны, однако точное улавливание намерений пользователя остается сложной задачей. В данной статье мы представляем SQUARE, новую двухэтапную структуру без обучения, которая использует Мультимодальные Большие Языковые Модели (Multimodal Large Language Models, MLLMs) для улучшения ZS-CIR. На этапе Семантического Расширения Запроса (Semantic Query-Augmented Fusion, SQAF) мы обогащаем вектор запроса, полученный из модели "визуальный язык" (Vision-Language Model, VLM), такой как CLIP, сгенерированными MLLM описаниями целевого изображения. Эти описания предоставляют высокоуровневую семантическую направленность, позволяя запросу лучше улавливать намерения пользователя и повышать качество глобального поиска. На этапе Эффективного Переранжирования Пакетов (Efficient Batch Reranking, EBR) кандидаты с наивысшим рейтингом представляются в виде сетки изображений с визуальными отметками для MLLM, которая выполняет совместное визуально-семантическое рассуждение для всех кандидатов. Наша стратегия переранжирования работает за один проход и обеспечивает более точное ранжирование. Эксперименты показывают, что SQUARE, благодаря своей простоте и эффективности, демонстрирует высокую производительность на четырех стандартных тестах CIR. Примечательно, что она сохраняет высокую производительность даже с легковесными предобученными моделями, что подчеркивает ее потенциальную применимость.

Правильно мыслить: обучение смягчению недо- и переосмысления через адаптивное, внимательное сжатие
Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression

Oct 2

ByJoykirat Singh, Justin Chih-Yao Chen, Archiki Prasad, Elias Stengel-Eskin, Akshay Nambi, Mohit Bansal

Современные модели мышления решают сложные задачи рассуждения за счет масштабирования вычислительных ресурсов на этапе тестирования, однако такое масштабирование должно распределяться в соответствии с уровнем сложности задачи. С одной стороны, недостаточное рассуждение (недостаточное мышление) приводит к ошибкам в более сложных задачах, требующих расширенных шагов рассуждения; с другой стороны, избыточное рассуждение (чрезмерное мышление) может быть неэффективным с точки зрения использования токенов, генерируя ненужные шаги даже после достижения правильного промежуточного решения. Мы называем это недостаточной адаптивностью, когда модель не способна модулировать длину своего ответа в зависимости от сложности задачи. Для решения проблемы недостаточной адаптивности и достижения баланса между недостаточным и чрезмерным мышлением мы предлагаем TRAAC (Think Right with Adaptive, Attentive Compression) — метод онлайн-обучения с подкреплением (RL), который использует механизм самовнимания модели на длинной траектории рассуждения для выявления важных шагов и удаления избыточных. TRAAC также оценивает сложность задачи и учитывает её в процессе обучения через награды, тем самым обучаясь распределять ресурсы рассуждения в соответствии с уровнем сложности примера. Наш подход повышает точность, сокращает количество шагов рассуждения и обеспечивает адаптивное мышление по сравнению с базовыми моделями и другими методами RL. На различных задачах (AIME, AMC, GPQA-D, BBEH) TRAAC (Qwen3-4B) демонстрирует средний абсолютный прирост точности на 8,4% при относительном сокращении длины рассуждения на 36,8% по сравнению с базовой моделью, а также прирост точности на 7,9% при сокращении длины на 29,4% по сравнению с лучшим методом RL. TRAAC также показывает сильную способность к обобщению: хотя наши модели обучались на математических наборах данных, они демонстрируют улучшение точности и эффективности на наборах данных, выходящих за пределы распределения, таких как GPQA-D, BBEH и OptimalThinkingBench. Наш анализ дополнительно подтверждает, что TRAAC обеспечивает детальную настройку ресурсов мышления в зависимости от сложности задачи, а комбинация калибровки сложности задачи и сжатия на основе внимания приводит к улучшениям на разнообразных задачах.

AReUReDi: Отжиг с исправленными обновлениями для уточнения дискретных потоков с многокритериальным управлением
AReUReDi: Annealed Rectified Updates for Refining Discrete Flows with Multi-Objective Guidance

Sep 30

ByTong Chen, Yinuo Zhang, Pranam Chatterjee

Создание последовательностей, удовлетворяющих множественным, зачастую противоречивым целям, является ключевой задачей в терапевтической и биомолекулярной инженерии. Существующие генеративные подходы в основном работают в непрерывных пространствах с одноцелевым управлением, в то время как дискретные методы не обеспечивают гарантий Парето-оптимальности для множества целей. Мы представляем AReUReDi (Annealed Rectified Updates for Refining Discrete Flows) — алгоритм дискретной оптимизации с теоретическими гарантиями сходимости к фронту Парето. Основанный на Rectified Discrete Flows (ReDi), AReUReDi сочетает чебышёвскую скаляризацию, локально сбалансированные предложения и отжигаемые обновления Метрополиса-Хастингса для смещения выборки в сторону Парето-оптимальных состояний при сохранении инвариантности распределения. Примененный к проектированию пептидных и SMILES-последовательностей, AReUReDi одновременно оптимизирует до пяти терапевтических свойств (включая аффинность, растворимость, гемолиз, период полураспада и антиадгезионные свойства), превосходя как эволюционные, так и диффузионные базовые методы. Эти результаты подтверждают AReUReDi как мощный последовательностный фреймворк для генерации биомолекул с множественными свойствами.