HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

30 papers found

HaluMem: Оценка галлюцинаций в системах памяти агентов
HaluMem: Evaluating Hallucinations in Memory Systems of Agents

Nov 5

ByDing Chen, Simin Niu, Kehang Li, Peng Liu, Xiangping Zheng, Bo Tang, Xinchi Li, Feiyu Xiong, Zhiyu Li

Системы памяти являются ключевыми компонентами, позволяющим системам искусственного интеллекта, таким как большие языковые модели и ИИ-агенты, достигать долгосрочного обучения и устойчивого взаимодействия. Однако в процессе хранения и извлечения воспоминаний эти системы часто демонстрируют галлюцинации памяти, включая фабрикацию, ошибки, конфликты и упущения. Существующие оценки галлюцинаций памяти в основном представляют собой сквозное вопросно-ответное тестирование, что затрудняет локализацию операционного этапа внутри системы памяти, на котором возникают галлюцинации. Для решения этой проблемы мы представляем эталонный тест Hallucination in Memory Benchmark (HaluMem) — первый специализированный для систем памяти эталонный тест оценки галлюцинаций на операционном уровне. HaluMem определяет три оценочных задания (извлечение памяти, обновление памяти и вопросно-ответная работа с памятью) для всестороннего выявления поведения галлюцинаций на различных этапах операционного взаимодействия. Для поддержки оценки мы создали ориентированные на пользователя, многотурновые наборы данных о взаимодействии человека и ИИ: HaluMem-Medium и HaluMem-Long. Оба включают около 15 тысяч точек памяти и 3,5 тысячи вопросов различных типов. Средняя длина диалога на пользователя достигает 1,5 тысячи и 2,6 тысячи ходов при длине контекста, превышающей 1 миллион токенов, что позволяет оценивать галлюцинации на разных масштабах контекста и уровнях сложности задач. Эмпирические исследования на основе HaluMem показывают, что существующие системы памяти склонны генерировать и накапливать галлюцинации на этапах извлечения и обновления, которые впоследствии переносят ошибки на этап вопросно-ответной работы. Будущие исследования должны быть сосредоточены на разработке интерпретируемых и ограниченных механизмов операций с памятью, которые систематически подавляют галлюцинации и повышают надежность памяти.

IterResearch: Переосмысление агентов с длительным горизонтом планирования через марковскую реконструкцию состояний
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

Nov 10

ByGuoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Последние достижения в области агентов глубокого исследования продемонстрировали потенциал автономного построения знаний за счет динамических рассуждений над внешними источниками. Однако существующие подходы основаны на моно-контекстной парадигме, которая аккумулирует всю информацию в едином расширяющемся контекстном окне, что приводит к контекстному переполнению и шумовому загрязнению, ограничивающим их эффективность в задачах с длительным горизонтом. Мы представляем IterResearch — новую итеративную парадигму глубокого исследования, которая переформулирует долгосрочное исследование как Марковский процесс принятия решений со стратегической реконструкцией рабочего пространства. Поддерживая развивающийся отчет в качестве памяти и периодически синтезируя инсайты, наш подход сохраняет согласованную способность к рассуждению на произвольной глубине исследования. Мы также разработали Оптимизацию стратегии с учетом эффективности (EAPO) — framework обучения с подкреплением, который стимулирует эффективное исследование за счет геометрического дисконтирования вознаграждений и обеспечивает стабильное распределенное обучение посредством адаптивной децимации. Масштабные эксперименты демонстрируют, что IterResearch достигает существенного улучшения по сравнению с существующими opensource-агентами — в среднем на +14.5 п.п. по шести бенчмаркам — и сокращает разрыв с передовыми проприетарными системами. Примечательно, что наша парадигма демонстрирует беспрецедентную масштабируемость взаимодействий, распространяясь на 2048 шагов со значительным ростом производительности (с 3.5% до 42.5%), и служит эффективной стратегией промптинга, улучшая показатели передовых моделей до 19.2 п.п. по сравнению с ReAct в задачах с длительным горизонтом. Эти результаты позиционируют IterResearch как универсальное решение для долгосрочных рассуждений, эффективное как в качестве обученного агента, так и в качестве парадигмы промптинга для передовых моделей.

DRIVE: Лучшие практики курирования данных для обучения с подкреплением с верифицируемой функцией вознаграждения в соревновательной генерации кода
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

Nov 9

BySpeed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou

Недавние модели с приоритетом рассуждений (например, OpenAI o1, DeepSeek R1) вызвали новый всплеск интереса к RLVR (Reinforcement Learning from Verifier Feedback). Тем не менее, прогресс в этой области в значительной степени определяется достижениями в математике (например, AIME), тогда как генерация кода для соревновательного программирования исследована недостаточно, а курированию данных уделяется меньше внимания, чем проектированию RL-алгоритмов. Мы исследуем, как создавать наборы данных для RLVR (т.е. RL-промпты), и представляем практические методы обучения, которые обеспечивают высокую производительность в задаче генерации кода для соревновательного программирования. Наш конвейер начинается с контролируемого тонкого настройки (SFT), дистиллированного из сильных открытых моделей, дополненного данными общего назначения и данными, требующими интенсивных рассуждений. Затем RL следует двухэтапному процессу с исполняемыми вознаграждениями на основе тест-кейсов: сначала обучение на большом, равномерно распределенном наборе задач по соревновательному программированию с использованием Group Relative Policy Optimization (GRPO) с 8 прогонами на промпт и относительно коротким окном генерации ответов (например, 32k токенов во время SFT и 24k на этом этапе) для расширения энтропии и снижения повторений и обрезания; на втором этапе мы выполняем Pre-GRPO: обновляем модель на небольшом, высококачественном наборе сложных задач с большим бюджетом прогонов (64 прогона на промпт) в рамках учебного плана с жестким фокусом, который постоянно сохраняет наиболее сложные примеры на протяжении всего обучения. Мы реализуем наш метод на Qwen2.5-32B и оцениваем его на еженедельных соревнованиях LeetCode и Codeforces, чтобы избежать утечки данных. Полученная модель демонстрирует наилучшую производительность среди моделей сопоставимого масштаба и сравнима с ведущими системами, такими как DeepSeek v3.1 и Doubao-1.5-Thinking. Мы также исследуем тренды масштабирования и наблюдаем сильное масштабирование RL на внутренней крупномасштабной MoE-модели. Наше исследование формулирует краткие лучшие практики для курирования данных, расширения энтропии и проектирования учебного плана в RLVR для генерации кода в соревновательном программировании.

Станция: Открытая среда для открытий на основе искусственного интеллекта
The Station: An Open-World Environment for AI-Driven Discovery

Nov 9

ByStephen Chung, Wenyu Du

Мы представляем STATION — открытую многoагентную среду, моделирующую миниатюрную научную экосистему. Благодаря расширенным контекстным окнам агенты в Station могут участвовать в длительных научных процессах, включая чтение статей коллег, формулирование гипотез, отправку кода, проведение анализов и публикацию результатов. Важно, что в системе отсутствует централизованный координационный механизм — агенты свободны в выборе действий и формировании собственных нарративов внутри Station. Эксперименты демонстрируют, что ИИ-агенты в Station достигают нового рекордного уровня производительности на широком спектре тестов — от математики до вычислительной биологии и машинного обучения, в частности превосходя AlphaEvolve в задаче упаковки кругов. По мере того как агенты занимаются независимыми исследованиями, взаимодействуют с коллегами и опираются на кумулятивную историю, возникает богатая палитра нарративов. Из этих возникающих нарративов органично появляются новые методы, такие как адаптивный к плотности алгоритм интеграции данных scRNA-seq. Station представляет собой первый шаг к автономному научному открытию, движимому emergent-поведением в открытой среде, что знаменует новую парадигму, выходящую за рамки жесткой оптимизации.

Обучение роботов на основе физической модели мира
Robot Learning from a Physical World Model

Nov 10

ByJiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang

Мы представляем PhysWorld — фреймворк, позволяющий обучать роботов с помощью генерации видео через моделирование физического мира. Современные модели генерации видео способны синтезировать фотореалистичные визуальные демонстрации на основе языковых команд и изображений, что представляет собой мощный, но малоизученный источник обучающих сигналов для робототехники. Однако прямое перенесение пиксельных движений из сгенерированных видео на роботов игнорирует физику, что часто приводит к неточным манипуляциям. PhysWorld преодолевает это ограничение за счёт объединения генерации видео с реконструкцией физического мира. Получив одно изображение и командую задачу, наш метод генерирует видео, обусловленные задачей, и воссоздаёт лежащий в основе физический мир из видео; движения из сгенерированного видео преобразуются в физически точные действия с помощью объектно-ориентированного резидуального обучения с подкреплением на основе модели физического мира. Эта синергия превращает неявное визуальное руководство в физически исполнимые траектории для роботов, устраняя необходимость сбора данных с реальных роботов и обеспечивая обобщаемую роботизированную манипуляцию с нулевым разгоном. Эксперименты на разнообразных реальных задачах показывают, что PhysWorld существенно повышает точность манипуляций по сравнению с предыдущими подходами. Подробности см. на https://pointscoder.github.io/PhysWorld_Web/{странице проекта}.

Генерация изображения из тысячи слов: улучшение преобразования текста в изображение с помощью структурированных описаний
Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

Nov 10

ByEyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady

Модели преобразования текста в изображение быстро эволюционировали от инструментов для случайного творчества до профессиональных систем, достигнув беспрецедентного уровня качества и реалистичности изображений. Однако большинство моделей обучаются преобразовывать короткие запросы в детализированные изображения, что создает разрыв между скудным текстовым входом и богатым визуальным выводом. Это несоответствие снижает управляемость, поскольку модели часто произвольно заполняют недостающие детали, смещаясь в сторону усредненных предпочтений пользователей и ограничивая точность для профессионального применения. Мы устраняем это ограничение, обучив первую открытую модель преобразования текста в изображение на длинных структурированных описаниях, где каждый пример обучающей выборки аннотирован одним и тем же набором детализированных атрибутов. Такой подход максимизирует выразительный охват и обеспечивает раздельный контроль над визуальными факторами. Для эффективной обработки длинных описаний мы предлагаем DimFusion — механизм слияния, который интегрирует промежуточные токены из облегченной большой языковой модели без увеличения длины токенов. Мы также представляем протокол оценки Text-as-a-Bottleneck Reconstruction (TaBR). Оценивая, насколько хорошо реальные изображения могут быть реконструированы через цикл описания-генерации, TaBR напрямую измеряет управляемость и выразительность, даже для очень длинных описаний, где существующие методы оценки не работают. Наконец, мы демонстрируем наши достижения, обучив крупномасштабную модель FIBO, которая достигает наилучшего соответствия запросу среди открытых моделей. Веса модели общедоступны по адресу https://huggingface.co/briaai/FIBO.

Выравнивание многообразий маршрутизации улучшает обобщающую способность языковых моделей со смесью экспертов
Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

Nov 10

ByZhongyang Li, Ziyue Li, Tianyi Zhou

Разреженные смеси экспертов (MoE) получили широкое распространение в современных больших языковых моделях, поскольку они позволяют эффективно масштабировать возможности модели без увеличения стоимости вывода. Однако оценка на широком спектре прикладных задач выявляет устойчивую субоптимальность маршрутизаторов в существующих MoE LLM, что приводит к значительному разрыву в производительности (например, 10-20% по точности) по сравнению с оптимальной маршрутизацией. В данной статье мы показываем, что выравнивание многообразия весов маршрутизации с многообразием эмбеддингов задач позволяет эффективно сократить этот разрыв и улучшить обобщающую способность MoE LLM. Наш метод, «Выравнивание многообразия маршрутизации» (RoMA), вводит дополнительный член регуляризации многообразия в целевую функцию дообучения и требует лишь легкой тонкой настройки маршрутизаторов (при замороженных остальных параметрах). В частности, регуляризация побуждает веса маршрутизации каждого примера быть близкими к весам его успешных соседей (чьи веса маршрутизации приводят к правильным ответам) в пространстве эмбеддингов задач. Как следствие, примеры, нацеленные на схожие задачи, будут разделять схожий выбор экспертов across layers. Построение таких связей между задачами и экспертами на различных примерах необходимо для достижения лучшего обобщения. Более того, RoMA демонстрирует преимущество объединения понимания задачи (посредством моделей эмбеддинга) с генерацией решения (посредством MoE LLM). В экспериментах мы дообучаем маршрутизаторы в OLMoE, DeepSeekMoE и Qwen3-MoE с помощью RoMA. Оценки на различных бенчмарках и обширные сравнения с базовыми методами показывают существенное улучшение, достигаемое благодаря RoMA.

RedOne 2.0: Переосмысление доменно-специфичного посттренинга больших языковых моделей в сервисах социальных сетей
RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

Nov 10

ByFei Zhao, Chonggang Lu, Haofu Qian, Fangcheng Shi, Zijie Meng, Jianzhao Huang, Xu Tang, Zheyong Xie, Zheyu Ye, Zhe Xu, Yao Hu, Shaosheng Cao

Социальные сети как ключевой инструмент человеческого взаимодействия и обмена информацией создают уникальные проблемы для больших языковых моделей: неоднородные рабочие нагрузки, быстро меняющиеся нормы и сленг, а также многоязычные, культурно разнообразные корпуса, вызывающие резкий распределительный сдвиг. Контролируемое тонкое настройка позволяет специализировать модели, но часто приводит к «качелям» между улучшениями внутри распределения и устойчивостью за его пределами, особенно для небольших моделей. Для решения этих проблем мы представляем RedOne 2.0 — LLM для социальных сетей, обученную по прогрессивной пост-тренировочной парадигме с приоритизацией обучения с подкреплением, предназначенной для быстрой и стабильной адаптации. Конвейер включает три этапа: (1) Исследовательское обучение на курируемых корпусах из соцсетей для первоначального выравнивания и выявления системных слабостей; (2) Целевая тонкая настройка, выборочно применяющая SFT к диагностированным пробелам при смешивании малой доли общих данных для снижения забывания; и (3) Обучение доработки, повторно применяющее RL с ориентированными на соцсети сигналами для закрепления улучшений и гармонизации компромиссов между задачами. В различных задачах трёх категорий наша модель масштаба 4B демонстрирует среднее улучшение около 2.41 по сравнению с субоптимальным базовым уровнем 7B. Кроме того, RedOne 2.0 достигает среднего прироста производительности около 8.74 от базовой модели, используя менее половины данных, требуемых SFT-ориентированным методом RedOne, что свидетельствует о превосходной эффективности данных и стабильности при компактных масштабах. В целом RedOne 2.0 устанавливает конкурентоспособный, экономически эффективный базовый уровень для предметно-ориентированных LLM в сценариях социальных сетей, повышая возможности без ущерба для устойчивости.

Разум с уверенностью: эффективная проверка шагов рассуждения больших языковых моделей с помощью голов неопределенности
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

Nov 9

ByJingwei Ni, Ekaterina Fadeeva, Tianyi Wu, Mubashara Akhtar, Jiaheng Zhang, Elliott Ash, Markus Leippold, Timothy Baldwin, See-Kiong Ng, Artem Shelmanov, Mrinmaya Sachan

Решение сложных задач обычно требует от больших языковых моделей (LLM) генерации длинных цепочек рассуждений, состоящих из множества шагов. Предыдущие исследования показали, что проверка корректности отдельных шагов рассуждений может дополнительно повысить производительность и эффективность LLM при выполнении таких задач, а также улучшить интерпретируемость решений. Однако существующие подходы к верификации, такие как Process Reward Models (PRM), либо вычислительно затратны, либо ограничены конкретными областями, либо требуют масштабных аннотаций, созданных людьми или другими моделями. В связи с этим мы предлагаем облегченную альтернативу для пошаговой проверки рассуждений, основанную на данных оценки неопределенности. Мы обучаем трансформерные "блоки оценки неопределенности" (UHeads), которые используют внутренние состояния замороженной LLM для оценки неопределенности ее шагов рассуждений в процессе генерации. Этот подход является полностью автоматическим: целевые метки генерируются либо другой, более крупной LLM (например, DeepSeek R1), либо самим исходным модельным способом в рамках самоконтроля. UHeads являются как эффективными, так и легковесными, содержа менее 10 миллионов параметров. В различных областях, включая математику, планирование и ответы на вопросы общего характера, они показывают результаты, сопоставимые или даже превосходящие производительность PRM, которые могут быть до 810 раз крупнее. Наши результаты позволяют предположить, что внутренние состояния LLM кодируют их неопределенность и могут служить надежными сигналами для проверки рассуждений, открывая перспективное направление в создании масштабируемых и обобщаемых интроспективных LLM.

Обучение предварительно обученных языковых моделей глубинному мышлению с помощью ретрофитированной рекуррентной архитектуры
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

Nov 10

BySean McLeish, Ang Li, John Kirchenbauer, Dayal Singh Kalra, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Jonas Geiping, Tom Goldstein, Micah Goldblum

Последние достижения в области глубинных рекуррентных языковых моделей демонстрируют, что рекуррентность позволяет разделить вычислительные затраты на этапе обучения и количество параметров от вычислительных затрат на этапе тестирования. В данной работе мы исследуем, как преобразовать существующие предобученные нерекуррентные языковые модели в глубинные рекуррентные модели. Мы обнаружили, что использование учебного плана с постепенным увеличением рекуррентности для наращивания эффективной глубины модели в процессе обучения позволяет сохранить производительность при сокращении общих вычислительных затрат. В наших экспериментах с математическими задачами мы наблюдаем, что преобразование предобученных моделей в рекуррентные приводит к лучшей производительности при заданном вычислительном бюджете по сравнению с простым пост-обучением исходной нерекуррентной языковой модели.

SofT-GRPO: Преодоление ограничений обучения с подкреплением для LLM с дискретными токенами с помощью оптимизации политик мягкого мышления через параметризацию Гумбеля
SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization

Nov 9

ByZhi Zheng, Wee Sun Lee

Парадигма мягкого мышления (soft-thinking) для рассуждений больших языковых моделей (LLM) в некоторых сценариях может превзойти традиционное дискретно-токенное рассуждение цепочкой мыслей (CoT), что подчеркивает ее исследовательскую и прикладную ценность. Однако, в то время как дискретно-токенный подход CoT можно усилить с помощью алгоритмов оптимизации политик, таких как групповая относительная оптимизация политик (GRPO), расширение паттерна мягкого мышления с помощью обучения с подкреплением (RL) остается сложной задачей. Эта трудность проистекает из сложностей внедрения стохастичности в токены мягкого мышления и соответствующего обновления политик мягкого мышления. Как следствие, предыдущие попытки комбинировать мягкое мышление с GRPO, как правило, показывают худшие результаты по сравнению с их дискретно-токенными аналогами GRPO. Чтобы полностью раскрыть потенциал мягкого мышления, данная статья представляет новый алгоритм оптимизации политик, SofT-GRPO, для усиления LLM в рамках парадигмы рассуждений мягкого мышления. SofT-GRPO внедряет шум Гумбела в логиты, использует технику Gumbel-Softmax для предотвращения выхода токенов мягкого мышления за пределы предварительно обученного эмбеддинг-пространства и применяет трюк репараметризации в градиенте политики. Мы провели эксперименты на базовых LLM с количеством параметров от 1.5B до 7B, и результаты демонстрируют, что SofT-GRPO позволяет моделям с мягким мышлением незначительно превзойти дискретно-токенный GRPO по метрике Pass@1 (+0.13% в среднем по точности), одновременно демонстрируя существенный прирост по метрике Pass@32 (+2.19% в среднем по точности). Код и веса моделей доступны по адресу https://github.com/zz1358m/SofT-GRPO-master.

MVU-Eval: в направлении оценки понимания множества видео для мультимодальных больших языковых моделей
MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

Nov 10

ByTianhao Peng, Haochen Wang, Yuanxing Zhang, Zekun Wang, Zili Wang, Ge Zhang, Jian Yang, Shihao Li, Yanghai Wang, Xintao Wang, Houyi Li, Wei Ji, Pengfei Wan, Wenhao Huang, Zhaoxiang Zhang, Jiaheng Liu

Появление мультимодальных больших языковых моделей (MLLM) расширило возможности искусственного интеллекта на визуальные модальности, однако существующие оценочные тесты остаются ограничены пониманием одиночных видео, игнорируя критически важную потребность в понимании множественных видео в реальных сценариях (например, спортивная аналитика и автономное вождение). Чтобы устранить этот значительный пробел, мы представляем MVU-Eval — первый комплексный тест для оценки способности MLLM к пониманию множественных видео. В частности, наш MVU-Eval в основном оценивает восемь ключевых компетенций с помощью 1824 тщательно отобранных пар "вопрос-ответ", охватывающих 4959 видео из различных областей, и адресует как фундаментальные задачи восприятия, так и задачи логического вывода высокого порядка. Эти возможности строго согласованы с реальными приложениями, такими как синтез данных от нескольких сенсоров в автономных системах и кросс-угловая спортивная аналитика. В результате масштабной оценки современных моделей с открытым и закрытым исходным кодом мы выявляем значительные расхождения в производительности и ограничения в текущей способности MLLM выполнять понимание на основе нескольких видео. Тест будет общедоступен для содействия будущим исследованиям.

RLVE: Масштабирование обучения с подкреплением для языковых моделей с помощью адаптивных верифицируемых сред
RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

Nov 10

ByZhiyuan Zeng, Hamish Ivison, Yiping Wang, Lifan Yuan, Shuyue Stella Li, Zhuorui Ye, Siting Li, Jacqueline He, Runlong Zhou, Tong Chen, Chenyang Zhao, Yulia Tsvetkov, Simon Shaolei Du, Natasha Jaques, Hao Peng, Pang Wei Koh, Hannaneh Hajishirzi

Мы представляем обучение с подкреплением (RL) с адаптивными верифицируемыми средами (RLVE) — подход, использующий верифицируемые среды, которые процедурно генерируют задачи и предоставляют алгоритмически проверяемые вознаграждения, для масштабирования RL для языковых моделей (LM). RLVE позволяет каждой верифицируемой среде динамически адаптировать распределение сложности задач к возможностям политики модели по мере прогресса обучения. В отличие от этого, статические распределения данных часто приводят к затуханию обучающих сигналов, когда задачи оказываются либо слишком легкими, либо слишком сложными для политики. Для реализации RLVE мы создали RLVE-Gym, крупномасштабный набор из 400 тщательно разработанных вручную верифицируемых сред. Используя RLVE-Gym, мы показываем, что масштабирование сред, то есть расширение набора обучающих сред, последовательно улучшает обобщающие способности к рассуждениям. RLVE с совместным обучением на всех 400 средах в RLVE-Gym дает абсолютное среднее улучшение на 3,37% по шести тестам на рассуждения, начиная с одной из самых мощных языковых моделей для рассуждений объемом 1,5 млрд параметров. Для сравнения, продолжение исходного RL-обучения этой LM дает лишь средний абсолютный прирост в 0,49%, несмотря на использование более чем в 3 раза больших вычислительных ресурсов. Мы публикуем наш код в открытом доступе.

FLEX: Непрерывная эволюция агентов через прямое обучение на опыте
FLEX: Continuous Agent Evolution via Forward Learning from Experience

Nov 9

ByZhicheng Cai, Xinyuan Guo, Yu Pei, JiangTao Feng, Jiangjie Chen, Ya-Qin Zhang, Wei-Ying Ma, Mingxuan Wang, Hao Zhou

Автономные агенты, управляемые большими языковыми моделями (LLM), произвели революцию в рассуждениях и решении задач, но остаются статичными после обучения, неспособными развиваться с опытом, как это делают разумные существа, в процессе эксплуатации. Мы представляем Прямое Обучение на ОПыте (FLEX) — парадигму обучения без градиентов, которая позволяет агентам на основе LLM непрерывно эволюционировать за счет накопленного опыта. В частности, FLEX обеспечивает масштабируемую и наследуемую эволюцию за счет построения структурированной библиотеки опыта путем постоянной рефлексии над успехами и неудачами во время взаимодействия со средой. FLEX демонстрирует существенное улучшение результатов в математических рассуждениях, химическом ретросинтезе и предсказании фитнеса белков (до 23% на AIME25, 10% на USPTO50k и 14% на ProteinGym). Мы также выявляем четкий закон масштабирования опытного роста и феномен наследования опыта между агентами, что знаменует шаг к масштабируемой и наследуемой непрерывной эволюции агентов. Страница проекта: https://flex-gensi-thuair.github.io.

Llama-Embed-Nemotron-8B: Универсальная модель векторного представления текста для многоязычных и кросс-лингвистических задач
Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

Nov 10

ByYauhen Babakhin, Radek Osmulski, Ronay Ak, Gabriel Moreira, Mengyao Xu, Benedikt Schifferer, Bo Liu, Even Oldridge

Мы представляем llama-embed-nemotron-8b — модель для получения текстовых эмбеддингов с открытыми весами, которая демонстрирует наилучшие на данный момент (21 октября 2025 года) результаты в рейтинге Multilingual Massive Text Embedding Benchmark (MMTEB). Хотя современные модели показывают высокую производительность, их обучающие данные и методики часто раскрываются не полностью. Мы стремимся решить эту проблему, разработав полностью открытую модель, публикуя её веса, детальные исследования методом абляции и планируя предоставить курируемые обучающие наборы данных. Наша модель демонстрирует превосходную производительность во всех основных задачах эмбеддингов — включая поиск, классификацию и семантическую текстовую схожесть (STS) — и особенно эффективна в сложных multilingual-сценариях, таких как работы с низкоресурсными языками и кросс-лингвальные настройки. Столь высокая производительность достигнута благодаря использованию новой смеси данных объёмом 16,1 миллиона пар «запрос-документ», разделённых на 7,7 миллионов примеров из публичных наборов данных и 8,4 миллионов синтетически сгенерированных примеров от различных LLM с открытыми весами. Одним из наших ключевых вкладов является детальное исследование методом абляции, анализирующее основные проектные решения, включая сравнение реализаций контрастивных функций потерь, оценку стратегий синтетической генерации данных (SDG) и влияние слияния моделей. Модель llama-embed-nemotron-8b является instruction-aware (воспринимающей инструкции) и поддерживает пользовательские инструкции для повышения производительности под конкретные задачи. Сочетание высочайшей производительности, широкой применимости и гибкости, управляемой пользователем, позволяет ей служить универсальным решением для текстовых эмбеддингов.

NURBGen: Генерация CAD-моделей высокой точности по текстовому описанию с помощью NURBS-моделирования на основе больших языковых моделей
NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling

Nov 9

ByMuhammad Usama, Mohammad Sadil Khan, Didier Stricker, Muhammad Zeshan Afzal

Создание редактируемых 3D CAD-моделей из текста на естественном языке остается сложной задачей, поскольку существующие системы text-to-CAD либо генерируют полигональные сетки, либо опираются на дефицитные данные истории проектирования. Мы представляем NURBGen — первую систему, которая генерирует высокоточные 3D CAD-модели непосредственно из текста с использованием неоднородных рациональных B-сплайнов (NURBS). Для этого мы дообучаем большую языковую модель (LLM) для перевода произвольных текстов в JSON-представления, содержащие параметры NURBS-поверхностей (контрольные точки, узловые векторы, степени и рациональные веса), которые можно напрямую конвертировать в формат BRep с помощью Python. Мы также предлагаем гибридное представление, сочетающее необрезанные NURBS-поверхности с аналитическими примитивами для более надежной работы с обрезанными поверхностями и вырожденными областями при одновременном снижении токенной сложности. Дополнительно мы представляем partABC — курируемое подмножество набора данных ABC, состоящее из отдельных CAD-компонентов с детальными текстовыми описаниями, созданными с помощью автоматизированного пайплайна аннотирования. NURBGen демонстрирует высокую производительность на разнообразных запросах, превосходя предыдущие методы по геометрической точности и размерной корректности, что подтверждено экспертной оценкой. Код и набор данных будут опубликованы в открытом доступе.

Усиление обучения улучшает навигацию по иерархическим знаниям в больших языковых моделях
Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

Nov 8

ByRenfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah

Обучение с подкреплением (RL) часто считается методом, который улучшает способность языковых моделей к рассуждениям и обобщению ценой ухудшения запомненных знаний. Мы оспариваем эту точку зрения, отмечая, что модели, усиленные RL, стабильно превосходят свои базовые версии и модели, дообученные с учителем (SFT), в задачах на простое воспроизведение знаний, особенно тех, которые требуют обхода иерархических, структурированных знаний (например, медицинских кодов). Мы выдвигаем гипотезу, что эти улучшения связаны не с усвоением новых данных, а с развитием процедурных навыков навигации и поиска в существующих иерархиях знаний, закодированных в параметрах модели. В подтверждение этой гипотезы мы демонстрируем, что структурированные промпты, которые явно направляют SFT-модели по иерархии, позволяют устранить большую часть разрыва в производительности (сокращая его с 24 п.п. до 7 п.п. на наборе MedConceptsQA для DeepSeek-V3/R1). Мы также обнаруживаем, что, хотя промпты повышают точность конечного ответа, модели с RL сохраняют превосходство в способности воспроизводить правильные процедурные пути в задачах глубокого поиска. Наконец, наш послойный анализ внутренних активаций показывает, что хотя репрезентации фактов (например, активации для утверждения «код 57.95 означает инфекцию мочевыводящих путей») сохраняют высокое косинусное сходство между SFT- и RL-моделями, репрезентации запросов (например, «что означает код 57.95») заметно расходятся, что указывает на то, что RL в первую очередь меняет то, как модели обходят знания, а не сами репрезентации знаний.

RLoop: Самосовершенствующаяся система для обучения с подкреплением с итерационной инициализацией политики
RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization

Nov 6

ByZeng Zhiyuan, Jiashuo Liu, Zhangyue Yin, Ge Zhang, Wenhao Huang, Xipeng Qiu

Хотя обучение с подкреплением для верифицируемых вознаграждений (RLVR) является мощным инструментом для тренировки больших моделей рассуждений, его динамика обучения скрывает серьезную проблему: RL-переобучение, при котором модели достигают высоких вознаграждений на тренировочных данных, но теряют способность к обобщению. Наш анализ показывает, что это обусловлено сверхспециализацией политики и катастрофическим забыванием разнообразных решений, генерируемых в процессе обучения. Стандартная оптимизация отбрасывает эту ценную междоменную разнородность политик. Для решения данной проблемы мы представляем RLoop — самосовершенствующуюся структуру, основанную на итерационной инициализации политики. RLoop преобразует стандартный процесс обучения в добродетельный цикл: сначала с помощью RL исследуется пространство решений из заданной политики, затем успешные траектории фильтруются для создания экспертного набора данных. Этот набор данных используется посредством тонкой настройки с отклонением (RFT) для улучшения исходной политики, создавая превосходную стартовую точку для следующей итерации. Этот цикл исследования и эксплуатации через итерационную реинициализацию эффективно преобразует временные вариации политики в устойчивое повышение производительности. Наши эксперименты показывают, что RLoop смягчает забывание и существенно улучшает обобщение, повышая среднюю точность на 9% и pass@32 более чем на 15% по сравнению с базовым RL.

Diffusion-SDPO: Защищенная оптимизация прямых предпочтений для диффузионных моделей
Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

Nov 5

ByMinghao Fu, Guo-Hua Wang, Tianyu Cui, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

Диффузионные модели для генерации изображений по тексту позволяют получать высококачественные изображения, однако их согласование с человеческими предпочтениями остается сложной задачей. Мы возвращаемся к диффузионному методу прямого оптимизации предпочтений (DPO) для таких моделей и выявляем ключевую проблему: увеличение разрыва в предпочтениях не обязательно приводит к улучшению качества генерации. В частности, стандартная цель Diffusion-DPO может увеличивать ошибку реконструкции как для "победившей", так и для "проигравшей" ветвей. Как следствие, деградация менее предпочтительных результатов может стать настолько значительной, что предпочтительная ветвь также начинает страдать даже при росте разрыва. Для решения этой проблемы мы представляем Diffusion-SDPO — защищенное правило обновления, которое сохраняет "победителя" за счет адаптивного масштабирования градиента "проигравшего" в соответствии с его согласованностью с градиентом "победителя". Анализ первого порядка дает замкнутый коэффициент масштабирования, гарантирующий, что ошибка предпочтительного результата не возрастает на каждом шаге оптимизации. Наш метод прост, не зависит от модели, широко совместим с существующими рамками согласования в стиле DPO и добавляет лишь незначительные вычислительные затраты. На стандартных текстово-визуальных бенчмарках Diffusion-SDPO демонстрирует стабильное превосходство над базовыми методами обучения с предпочтениями по автоматизированным метрикам предпочтений, эстетики и соответствия промпту. Код общедоступен по адресу https://github.com/AIDC-AI/Diffusion-SDPO.

LUT-LLM: Эффективный вывод больших языковых моделей с использованием вычислений на основе памяти на ПЛИС
LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

Nov 9

ByZifan He, Shengyu Ye, Rui Ma, Yang Wang, Jason Cong

Быстрое развитие больших языковых моделей (LLM) способствовало прогрессу многочисленных приложений, однако эффективный вывод в одиночном пакете остается критически важным для встроенного интеллекта. Хотя ПЛИС обеспечивают детализированный контроль над данными и высокую энергоэффективность, последние оптимизации GPU сократили их преимущество, особенно в условиях вычислений на основе арифметических операций. Чтобы преодолеть это ограничение, мы используем обширную внутреннюю память ПЛИС для перевода вывода LLM с арифметических на память-ориентированные вычисления посредством табличных поисков. Мы представляем LUT-LLM — первый ускоритель на ПЛИС, обеспечивающий вывод LLM объемом свыше 1 млрд параметров через векторно-квантованные операции с памятью. Наш анализ определяет совместное квантование активаций и весов как наиболее эффективную схему, поддерживаемую (1) поиском параллельных центроидов с учетом пропускной способности, (2) эффективными двумерными табличными поисками и (3) пространственно-временной гибридной архитектурой, минимизирующей кэширование данных. Реализованная на ПЛИС AMD V80 для кастомизированной модели Qwen 3 1.7B, система LUT-LLM демонстрирует в 1.66 раза меньшую задержку по сравнению с AMD MI210 и в 1.72 раза более высокую энергоэффективность по сравнению с NVIDIA A100, масштабируясь до моделей объемом 32 млрд параметров с приростом эффективности в 2.16 раза относительно A100.

Долгие обоснованные мысли: масштабное извлечение композиционных цепочек визуального рассуждения
Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

Nov 7

ByDavid Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi

Последние достижения в области мультимодальных рассуждений в значительной степени обусловлены использованием нераскрытых наборов данных и проприетарных рецептов синтеза данных, что оставляет открытыми вопросы о том, как систематически создавать крупномасштабные визуально-центричные наборы данных для рассуждений, особенно для задач, выходящих за рамки визуальной математики. В данной работе мы представляем новую структуру генерации данных для рассуждений, охватывающую разнообразные навыки и уровни сложности, с более чем 1 миллионом высококачественных синтетических визуально-центричных вопросов. Набор данных также включает данные о предпочтениях и инструктивные промты, поддерживающие как оффлайн, так и онлайн обучение с подкреплением (RL). Наша структура синтеза состоит из двух этапов: (1) масштабирование и (2) усложнение. Цепочки рассуждений затем синтезируются в процессе из двух стадий, который использует возможности визуально-языковых моделей (VLM) и языковых моделей для рассуждений (LLM), создавая трассы "мыслительной цепи" (CoT) для VLM, которые отражают богатство и разнообразие когнитивных поведений, характерных для передовых моделей рассуждений. Примечательно, что мы показываем, что дообучение модели Qwen2.5-VL-7B на наших данных превосходит все открытые базовые модели по всем оцениваемым визуально-центричным бенчмаркам и даже превосходит сильные модели на закрытых данных, такие как MiMo-VL-7B-RL, на V* Bench, CV-Bench и MMStar-V. Что, возможно, наиболее удивительно, несмотря на полностью визуально-центричный характер, наши данные положительно переносятся на чисто текстовые рассуждения (MMLU-Pro) и аудиальные рассуждения (MMAU), демонстрируя свою эффективность. Аналогичным образом, несмотря на отсутствие видео или данных эмбадированного зрения, мы наблюдаем значительный прогресс при оценке на бенчмарке эмбадированных вопросов-ответов с единичным свидетельством (NiEH). Наконец, мы используем наши данные для анализа всего конвейера пост-обучения VLM. Наш эмпирический анализ подчеркивает, что (i) SFT на высококачественных данных с нелинейными цепочками рассуждений необходим для эффективного онлайн RL, (ii) поэтапный оффлайн RL соответствует производительности онлайн RL при снижении вычислительных затрат и (iii) тщательное SFT на качественных данных может существенно улучшить межмодальный перенос вне домена.

DigiData: Обучение и оценка универсальных мобильных агентов управления
DigiData: Training and Evaluating General-Purpose Mobile Control Agents

Nov 10

ByYuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe

Искусственные интеллектуальные агенты, способные управлять пользовательскими интерфейсами, обладают потенциалом для преобразования взаимодействия человека с цифровыми устройствами. Для ускорения этой трансформации необходимы два фундаментальных элемента: высококачественные наборы данных, позволяющие агентам достигать сложных и релевантных для человека целей, и надежные методы оценки, которые позволяют исследователям и практикам быстро повышать производительность агентов. В данной статье мы представляем DigiData — масштабный, высококачественный, разнородный и многомодальный набор данных, предназначенный для обучения агентов управления мобильными устройствами. В отличие от существующих наборов данных, где цели выводятся из неструктурированных взаимодействий, DigiData тщательно конструируется путем всестороннего исследования функций приложений, что обеспечивает большее разнообразие и более высокую сложность целей. Кроме того, мы представляем DigiData-Bench — эталонный тест для оценки агентов управления мобильными устройствами на реальных сложных задачах. Мы демонстрируем, что широко используемая метрика пошаговой точности недостаточна для надежной оценки таких агентов, и для решения этой проблемы предлагаем динамические протоколы оценки и оценку с помощью ИИ в качестве строгих альтернатив для тестирования агентов. Наши разработки направлены на значительное продвижение в развитии агентов управления мобильными устройствами, прокладывая путь к более интуитивному и эффективному взаимодействию человека с устройствами.

10 ключевых проблем, определяющих будущее моделей «зрение-язык-действие»
10 Open Challenges Steering the Future of Vision-Language-Action Models

Nov 8

BySoujanya Poria, Navonil Majumder, Chia-Yu Hung, Amir Ali Bagherzadeh, Chuan Li, Kenneth Kwok, Ziwei Wang, Cheston Tan, Jiajun Wu, David Hsu

Благодаря своей способности следовать инструкциям на естественном языке, модели "язык-зрение-действие" (Vision-Language-Action, VLA) получают все большее распространение в области embodied AI, вслед за широким успехом их предшественников — больших языковых моделей (LLM) и моделей "язык-зрение" (VLM). В данной статье мы рассматриваем 10 ключевых этапов в текущем развитии моделей VLA: мультимодальность, логический вывод, данные, оценка, обобщение действий для различных роботов, эффективность, координация всего тела, безопасность, агенты и координация с человеком. Кроме того, мы обсуждаем emerging trends, такие как использование пространственного понимания, моделирование динамики мира, пост-обучение и синтез данных, — все они направлены на достижение этих этапов. Посредством этих обсуждений мы надеемся привлечь внимание к направлениям исследований, которые могут ускорить развитие моделей VLA и способствовать их более широкому принятию.

MPJudge: К оценке восприятия картин, созданных под влиянием музыки
MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

Nov 10

ByShiqi Jiang, Tianyi Liang, Changbo Wang, Chenhui Li

Музыкально-индуцированная живопись представляет собой уникальную художественную практику, в рамках которой визуальные произведения создаются под влиянием музыки. Оценка того, насколько точно картина отражает вдохновившую её музыку, представляет собой сложную задачу перцептивной оценки. Существующие методы в основном опираются на модели распознавания эмоций для оценки сходства между музыкой и живописью, однако такие модели вносят значительный шум и игнорируют более широкие перцептивные сигналы, выходящие за рамки эмоций. Для преодоления этих ограничений мы предлагаем новую систему оценки музыкально-индуцированной живописи, которая непосредственно моделирует перцептивную согласованность между музыкой и визуальным искусством. Мы представляем MPD — первый масштабный набор данных пар «музыка-живопись», аннотированных экспертами в данной области на основе перцептивной согласованности. Для лучшей обработки неоднозначных случаев мы дополнительно собираем аннотации парных предпочтений. На основе этого набора данных мы представляем MPJudge — модель, которая интегрирует музыкальные характеристики в визуальный кодировщик посредством механизма слияния на основе модуляции. Для эффективного обучения на неоднозначных примерах мы применяем оптимизацию прямых предпочтений. Многочисленные эксперименты демонстрируют превосходство нашего метода над существующими подходами. Качественные результаты дополнительно показывают, что наша модель точнее идентифицирует музыкально-релевантные области на картинах.

VADER: К пониманию причинно-следственных связей в видеоаномалиях с помощью реляционно-ориентированных больших языковых моделей
VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

Nov 10

ByYing Cheng, Yu-Ho Lin, Min-Hung Chen, Fu-En Yang, Shang-Hong Lai

Понимание видеособытий (Video Anomaly Understanding, VAU) ставит целью обеспечение детальной интерпретации и семантического осмысления аномальных событий в видеопотоке, преодолевая ограничения традиционных методов, которые фокусируются исключительно на обнаружении и локализации аномалий. Однако существующие подходы часто игнорируют глубинные причинно-следственные связи и взаимодействия между объектами, которые критически важны для понимания аномального поведения. В данной статье мы предлагаем VADER — управляемую большими языковыми моделями (LLM) систему для понимания видеособытий, которая интегрирует признаки отношений между объектами в ключевых кадрах с визуальными маркерами для углубленного анализа аномалий. В частности, VADER сначала применяет модуль оценки аномальности (Anomaly Scorer) для присвоения аномальных оценок каждому кадру, после чего стратегия контекстно-зависимого семплирования (Context-AwarE Sampling, CAES) захватывает причинный контекст каждого аномального события. Экстрактор признаков отношений (Relation Feature Extractor) и контрастный кодировщик отношений (COntrastive Relation Encoder, CORE) совместно моделируют динамические взаимодействия объектов, формируя компактные реляционные представления для последующих логических выводов. Эти визуальные и реляционные маркеры интегрируются с LLM для генерации детальных, причинно обоснованных описаний и поддержки надежного ответа на вопросы, связанные с аномалиями. Эксперименты на нескольких реальных бенчмарках VAU демонстрируют, что VADER достигает высоких результатов в задачах описания, объяснения и причинно-следственного анализа аномалий, продвигая границы объяснимого анализа видеособытий.

DIMO: Генерация разнообразных 3D-движений для произвольных объектов
DIMO: Diverse 3D Motion Generation for Arbitrary Objects

Nov 10

ByLinzhan Mou, Jiahui Lei, Chen Wang, Lingjie Liu, Kostas Daniilidis

Мы представляем DIMO — генеративный подход, способный создавать разнообразные 3D-движения для произвольных объектов по одному изображению. Основная идея нашей работы заключается в использовании богатых априорных знаний хорошо обученных видео-моделей для извлечения общих паттернов движения и последующего внедрения их в общее низкоразмерное латентное пространство. Конкретно, мы сначала генерируем несколько видео одного и того же объекта с разнообразными движениями. Затем мы внедряем каждое движение в латентный вектор и обучаем общий декодер движений для изучения распределения движений, представленного структурированным и компактным представлением движения — траекториями нейронных ключевых точек. Канонические 3D-гаусссианы затем приводятся в движение этими ключевыми точками и объединяются для моделирования геометрии и внешнего вида. Во время вывода с обученным латентным пространством мы можем мгновенно сэмплировать разнообразные 3D-движения за один прямой проход, а также поддерживать несколько интересных приложений, включая интерполяцию 3D-движений и генерацию движений на основе языка. Страница проекта доступна по адресу https://linzhanm.github.io/dimo.

SWE-fficiency: Могут ли языковые модели оптимизировать реальные репозитории под реальные рабочие нагрузки?
SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads?

Nov 8

ByJeffrey Jian Ma, Milad Hashemi, Amir Yazdanbakhsh, Kevin Swersky, Ofir Press, Enhui Li, Vijay Janapa Reddi, Parthasarathy Ranganathan

Оптимизация производительности крупномасштабных программных репозиториев требует экспертных знаний в области анализа кода и программной инженерии (ПИ) для сокращения времени выполнения при сохранении корректности программы. Однако большинство бенчмарков акцентируют внимание на том, *что* нужно исправить, а не на том, *как* это сделать. Мы представляем SWE-fficiency — бенчмарк для оценки оптимизации производительности на уровне репозитория при работе с реальными нагрузками. Наш набор включает 498 задач из девяти широко используемых репозиториев для data science, машинного обучения и HPC (например, numpy, pandas, scipy): имея полную кодовую базу и медленную рабочую нагрузку, агент должен исследовать семантику кода, локализовать узкие места и соответствующие тесты, а также создать патч, который достигает или превосходит экспертное ускорение, проходя при этом те же модульные тесты. Для обеспечения такой оценки «как исправить» наша автоматизированная система собирает pull request'ы на GitHub, содержащие правки для повышения производительности, комбинируя фильтрацию по ключевым словам, статический анализ, инструменты покрытия кода и проверку выполнения, чтобы как подтвердить базовые показатели экспертного ускорения, так и выявить соответствующие модульные тесты репозитория. Эмпирическая оценка современных агентов выявила их значительное отставание. В среднем агенты достигают менее 0.15x от экспертного ускорения: они испытывают трудности с локализацией возможностей для оптимизации, анализом выполнения кода across functions и обеспечением корректности предлагаемых правок. Мы публикуем бенчмарк и сопутствующий конвейер обработки данных для содействия исследованиям в области автоматизированной инженерии производительности и программного анализа с длинным горизонтом планирования.

Ариадна: Управляемая система для исследования и расширения границ логического вывода VLM
Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

Nov 1

ByMinghe Shen, Zhuo Zhi, Chonghan Liu, Shuo Xing, Zhengzhong Tu, Che Liu

Хотя модели «визуальный язык» (VLM), дообученные с подкреплением (RL), демонстрируют впечатляющие способности к общим рассуждениям, их оценка часто ограничивается задачами с доминированием языка (например, математическими). Это поднимает важный вопрос: может ли дообучение с RL действительно расширить inherentные границы возможностей базовой VLM, особенно для визуально-ориентированных пространственных задач, в которых она изначально не справляется? Для изучения этого вопроса мы представляем Ariadne — фреймворк, использующий синтетические лабиринты для многошагового пространственного мышления, где сложность задачи (например, длина пути, количество поворотов) точно контролируется. Мы используем эту контролируемую среду для обучения VLM с помощью обучения с подкреплением и верифицированными наградами (RLVR) по сложностно-ориентированному учебному плану. Удивительно, но после дообучения RLVR модель VLM достигает точности свыше 50% на наборе задач, где базовая модель показывала 0%, что демонстрирует, что наш подход расширяет исходные границы возможностей модели. Для оценки практической применимости в реальном мире мы оцениваем обобщение на внераспределительных (OOD) данных на практических бенчмарках. Несмотря на обучение только на синтетических примерах лабиринтов, Ariadne демонстрирует значительное улучшение zero-shot, в среднем на 16% на MapBench (например, навигация в музее) и на 24% на ReasonMap (задачи пересадки в метро). Эти результаты подтверждают, что наш метод не только расширяет фундаментальные пределы модели, но и улучшает её обобщение для пространственного мышления в реальном мире. Мы признаем, что наше исследование ограничено фазой дообучения, учитывая непрозрачность данных предварительного обучения, и надеемся, что наша работа стимулирует дальнейшие исследования в области специализированного согласования, расширяющего возможности моделей.

Чувствуют ли большие языковые модели? Обучение распознаванию эмоций с помощью промптов, поиска и обучения по учебному плану
Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning

Nov 10

ByXinran Li, Xiujuan Xu, Jiaqi Qiao, Yu Liu

Распознавание эмоций в диалоге (ERC) является ключевой задачей для понимания человеческих эмоций и обеспечения естественного взаимодействия человека с компьютером. Хотя крупные языковые модели (LLM) недавно продемонстрировали большой потенциал в этой области, их способность улавливать внутренние связи между явными и неявными эмоциями остается ограниченной. Мы предлагаем новую обучающую структуру PRC-Emo для ERC, которая интегрирует проектирование промптов, извлечение демонстраций и обучение по учебному плану с целью исследования, способны ли LLM эффективно воспринимать эмоции в контексте беседы. В частности, мы разрабатываем эмоционально-чувствительные шаблоны промптов на основе как явных, так и неявных эмоциональных сигналов, чтобы лучше направлять модель в понимании психологических состояний говорящего. Мы создаем первое специализированное хранилище для извлечения демонстраций в ERC, которое включает образцы для обучения из широко используемых наборов данных, а также высококачественные примеры диалогов, сгенерированные LLM и проверенные вручную. Кроме того, мы внедряем стратегию обучения по учебному плану в процесс тонкой настройки LoRA, включая взвешенные эмоциональные сдвиги между репликами одного и разных говорящих для назначения уровней сложности образцам диалогов, которые затем организуются в последовательность обучения от простого к сложному. Результаты экспериментов на двух эталонных наборах данных — IEMOCAP и MELD — показывают, что наш метод достигает нового наилучшего результата (state-of-the-art, SOTA), демонстрируя эффективность и обобщаемость нашего подхода к улучшению эмоционального понимания на основе LLM.

Omni-AVSR: К унифицированному мультимодальному распознаванию речи с помощью больших языковых моделей
Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

Nov 10

ByUmberto Cappellazzo, Xubo Liu, Pingchuan Ma, Stavros Petridis, Maja Pantic

Крупные языковые модели (LLM) в последнее время демонстрируют впечатляющие результаты в распознавании речи в различных модальностях, включая аудиальное распознавание речи (ASR), визуальное распознавание речи (VSR) и аудиовизуальное распознавание речи (AVSR). Несмотря на этот прогресс, современные подходы на основе LLM обычно решают каждую задачу независимо, обучая отдельные модели, что увеличивает вычислительные затраты и ресурсы развертывания, упуская при этом потенциальные синергетические эффекты между задачами. Они также полагаются на сжатие токенов с фиксированной скоростью, что ограничивает гибкость в балансировке между точностью и эффективностью. Эти ограничения подчеркивают необходимость создания унифицированной системы, способной поддерживать ASR, VSR и AVSR при обеспечении эластичного вывода. С этой целью мы представляем Omni-AVSR — унифицированную аудиовизуальную LLM, которая сочетает эффективное многогранулярное обучение с параметрически-эффективной адаптацией. В частности, мы адаптируем парадигму обучения матрешечных представлений для эффективного обучения на множественных аудиальных и визуальных гранулярностях, снижая присущие ей ресурсные затраты на обучение. Кроме того, мы исследуем три стратегии адаптации базовой LLM на основе LoRA, балансируя между общей и задачно-специфической специализацией. Эксперименты на наборах данных LRS2 и LRS3 показывают, что Omni-AVSR достигает сопоставимой или превосходящей точности по сравнению с современными базовыми методами, обучая единственную модель при существенно более низких ресурсных затратах на обучение и развертывание. Модель также сохраняет устойчивость в условиях акустических шумов, а мы анализируем ее масштабируемость с увеличением размера LLM, предоставляя информацию о компромиссе между производительностью и эффективностью.