Ежедневно отобранные исследовательские статьи по ИИ с переводами
Системы памяти являются ключевыми компонентами, позволяющим системам искусственного интеллекта, таким как большие языковые модели и ИИ-агенты, достигать долгосрочного обучения и устойчивого взаимодействия. Однако в процессе хранения и извлечения воспоминаний эти системы часто демонстрируют галлюцинации памяти, включая фабрикацию, ошибки, конфликты и упущения. Существующие оценки галлюцинаций памяти в основном представляют собой сквозное вопросно-ответное тестирование, что затрудняет локализацию операционного этапа внутри системы памяти, на котором возникают галлюцинации. Для решения этой проблемы мы представляем эталонный тест Hallucination in Memory Benchmark (HaluMem) — первый специализированный для систем памяти эталонный тест оценки галлюцинаций на операционном уровне. HaluMem определяет три оценочных задания (извлечение памяти, обновление памяти и вопросно-ответная работа с памятью) для всестороннего выявления поведения галлюцинаций на различных этапах операционного взаимодействия. Для поддержки оценки мы создали ориентированные на пользователя, многотурновые наборы данных о взаимодействии человека и ИИ: HaluMem-Medium и HaluMem-Long. Оба включают около 15 тысяч точек памяти и 3,5 тысячи вопросов различных типов. Средняя длина диалога на пользователя достигает 1,5 тысячи и 2,6 тысячи ходов при длине контекста, превышающей 1 миллион токенов, что позволяет оценивать галлюцинации на разных масштабах контекста и уровнях сложности задач. Эмпирические исследования на основе HaluMem показывают, что существующие системы памяти склонны генерировать и накапливать галлюцинации на этапах извлечения и обновления, которые впоследствии переносят ошибки на этап вопросно-ответной работы. Будущие исследования должны быть сосредоточены на разработке интерпретируемых и ограниченных механизмов операций с памятью, которые систематически подавляют галлюцинации и повышают надежность памяти.
Последние достижения в области агентов глубокого исследования продемонстрировали потенциал автономного построения знаний за счет динамических рассуждений над внешними источниками. Однако существующие подходы основаны на моно-контекстной парадигме, которая аккумулирует всю информацию в едином расширяющемся контекстном окне, что приводит к контекстному переполнению и шумовому загрязнению, ограничивающим их эффективность в задачах с длительным горизонтом. Мы представляем IterResearch — новую итеративную парадигму глубокого исследования, которая переформулирует долгосрочное исследование как Марковский процесс принятия решений со стратегической реконструкцией рабочего пространства. Поддерживая развивающийся отчет в качестве памяти и периодически синтезируя инсайты, наш подход сохраняет согласованную способность к рассуждению на произвольной глубине исследования. Мы также разработали Оптимизацию стратегии с учетом эффективности (EAPO) — framework обучения с подкреплением, который стимулирует эффективное исследование за счет геометрического дисконтирования вознаграждений и обеспечивает стабильное распределенное обучение посредством адаптивной децимации. Масштабные эксперименты демонстрируют, что IterResearch достигает существенного улучшения по сравнению с существующими opensource-агентами — в среднем на +14.5 п.п. по шести бенчмаркам — и сокращает разрыв с передовыми проприетарными системами. Примечательно, что наша парадигма демонстрирует беспрецедентную масштабируемость взаимодействий, распространяясь на 2048 шагов со значительным ростом производительности (с 3.5% до 42.5%), и служит эффективной стратегией промптинга, улучшая показатели передовых моделей до 19.2 п.п. по сравнению с ReAct в задачах с длительным горизонтом. Эти результаты позиционируют IterResearch как универсальное решение для долгосрочных рассуждений, эффективное как в качестве обученного агента, так и в качестве парадигмы промптинга для передовых моделей.
Недавние модели с приоритетом рассуждений (например, OpenAI o1, DeepSeek R1) вызвали новый всплеск интереса к RLVR (Reinforcement Learning from Verifier Feedback). Тем не менее, прогресс в этой области в значительной степени определяется достижениями в математике (например, AIME), тогда как генерация кода для соревновательного программирования исследована недостаточно, а курированию данных уделяется меньше внимания, чем проектированию RL-алгоритмов. Мы исследуем, как создавать наборы данных для RLVR (т.е. RL-промпты), и представляем практические методы обучения, которые обеспечивают высокую производительность в задаче генерации кода для соревновательного программирования. Наш конвейер начинается с контролируемого тонкого настройки (SFT), дистиллированного из сильных открытых моделей, дополненного данными общего назначения и данными, требующими интенсивных рассуждений. Затем RL следует двухэтапному процессу с исполняемыми вознаграждениями на основе тест-кейсов: сначала обучение на большом, равномерно распределенном наборе задач по соревновательному программированию с использованием Group Relative Policy Optimization (GRPO) с 8 прогонами на промпт и относительно коротким окном генерации ответов (например, 32k токенов во время SFT и 24k на этом этапе) для расширения энтропии и снижения повторений и обрезания; на втором этапе мы выполняем Pre-GRPO: обновляем модель на небольшом, высококачественном наборе сложных задач с большим бюджетом прогонов (64 прогона на промпт) в рамках учебного плана с жестким фокусом, который постоянно сохраняет наиболее сложные примеры на протяжении всего обучения. Мы реализуем наш метод на Qwen2.5-32B и оцениваем его на еженедельных соревнованиях LeetCode и Codeforces, чтобы избежать утечки данных. Полученная модель демонстрирует наилучшую производительность среди моделей сопоставимого масштаба и сравнима с ведущими системами, такими как DeepSeek v3.1 и Doubao-1.5-Thinking. Мы также исследуем тренды масштабирования и наблюдаем сильное масштабирование RL на внутренней крупномасштабной MoE-модели. Наше исследование формулирует краткие лучшие практики для курирования данных, расширения энтропии и проектирования учебного плана в RLVR для генерации кода в соревновательном программировании.
Мы представляем STATION — открытую многoагентную среду, моделирующую миниатюрную научную экосистему. Благодаря расширенным контекстным окнам агенты в Station могут участвовать в длительных научных процессах, включая чтение статей коллег, формулирование гипотез, отправку кода, проведение анализов и публикацию результатов. Важно, что в системе отсутствует централизованный координационный механизм — агенты свободны в выборе действий и формировании собственных нарративов внутри Station. Эксперименты демонстрируют, что ИИ-агенты в Station достигают нового рекордного уровня производительности на широком спектре тестов — от математики до вычислительной биологии и машинного обучения, в частности превосходя AlphaEvolve в задаче упаковки кругов. По мере того как агенты занимаются независимыми исследованиями, взаимодействуют с коллегами и опираются на кумулятивную историю, возникает богатая палитра нарративов. Из этих возникающих нарративов органично появляются новые методы, такие как адаптивный к плотности алгоритм интеграции данных scRNA-seq. Station представляет собой первый шаг к автономному научному открытию, движимому emergent-поведением в открытой среде, что знаменует новую парадигму, выходящую за рамки жесткой оптимизации.
Мы представляем PhysWorld — фреймворк, позволяющий обучать роботов с помощью генерации видео через моделирование физического мира. Современные модели генерации видео способны синтезировать фотореалистичные визуальные демонстрации на основе языковых команд и изображений, что представляет собой мощный, но малоизученный источник обучающих сигналов для робототехники. Однако прямое перенесение пиксельных движений из сгенерированных видео на роботов игнорирует физику, что часто приводит к неточным манипуляциям. PhysWorld преодолевает это ограничение за счёт объединения генерации видео с реконструкцией физического мира. Получив одно изображение и командую задачу, наш метод генерирует видео, обусловленные задачей, и воссоздаёт лежащий в основе физический мир из видео; движения из сгенерированного видео преобразуются в физически точные действия с помощью объектно-ориентированного резидуального обучения с подкреплением на основе модели физического мира. Эта синергия превращает неявное визуальное руководство в физически исполнимые траектории для роботов, устраняя необходимость сбора данных с реальных роботов и обеспечивая обобщаемую роботизированную манипуляцию с нулевым разгоном. Эксперименты на разнообразных реальных задачах показывают, что PhysWorld существенно повышает точность манипуляций по сравнению с предыдущими подходами. Подробности см. на https://pointscoder.github.io/PhysWorld_Web/{странице проекта}.
Модели преобразования текста в изображение быстро эволюционировали от инструментов для случайного творчества до профессиональных систем, достигнув беспрецедентного уровня качества и реалистичности изображений. Однако большинство моделей обучаются преобразовывать короткие запросы в детализированные изображения, что создает разрыв между скудным текстовым входом и богатым визуальным выводом. Это несоответствие снижает управляемость, поскольку модели часто произвольно заполняют недостающие детали, смещаясь в сторону усредненных предпочтений пользователей и ограничивая точность для профессионального применения. Мы устраняем это ограничение, обучив первую открытую модель преобразования текста в изображение на длинных структурированных описаниях, где каждый пример обучающей выборки аннотирован одним и тем же набором детализированных атрибутов. Такой подход максимизирует выразительный охват и обеспечивает раздельный контроль над визуальными факторами. Для эффективной обработки длинных описаний мы предлагаем DimFusion — механизм слияния, который интегрирует промежуточные токены из облегченной большой языковой модели без увеличения длины токенов. Мы также представляем протокол оценки Text-as-a-Bottleneck Reconstruction (TaBR). Оценивая, насколько хорошо реальные изображения могут быть реконструированы через цикл описания-генерации, TaBR напрямую измеряет управляемость и выразительность, даже для очень длинных описаний, где существующие методы оценки не работают. Наконец, мы демонстрируем наши достижения, обучив крупномасштабную модель FIBO, которая достигает наилучшего соответствия запросу среди открытых моделей. Веса модели общедоступны по адресу https://huggingface.co/briaai/FIBO.
Разреженные смеси экспертов (MoE) получили широкое распространение в современных больших языковых моделях, поскольку они позволяют эффективно масштабировать возможности модели без увеличения стоимости вывода. Однако оценка на широком спектре прикладных задач выявляет устойчивую субоптимальность маршрутизаторов в существующих MoE LLM, что приводит к значительному разрыву в производительности (например, 10-20% по точности) по сравнению с оптимальной маршрутизацией. В данной статье мы показываем, что выравнивание многообразия весов маршрутизации с многообразием эмбеддингов задач позволяет эффективно сократить этот разрыв и улучшить обобщающую способность MoE LLM. Наш метод, «Выравнивание многообразия маршрутизации» (RoMA), вводит дополнительный член регуляризации многообразия в целевую функцию дообучения и требует лишь легкой тонкой настройки маршрутизаторов (при замороженных остальных параметрах). В частности, регуляризация побуждает веса маршрутизации каждого примера быть близкими к весам его успешных соседей (чьи веса маршрутизации приводят к правильным ответам) в пространстве эмбеддингов задач. Как следствие, примеры, нацеленные на схожие задачи, будут разделять схожий выбор экспертов across layers. Построение таких связей между задачами и экспертами на различных примерах необходимо для достижения лучшего обобщения. Более того, RoMA демонстрирует преимущество объединения понимания задачи (посредством моделей эмбеддинга) с генерацией решения (посредством MoE LLM). В экспериментах мы дообучаем маршрутизаторы в OLMoE, DeepSeekMoE и Qwen3-MoE с помощью RoMA. Оценки на различных бенчмарках и обширные сравнения с базовыми методами показывают существенное улучшение, достигаемое благодаря RoMA.
Социальные сети как ключевой инструмент человеческого взаимодействия и обмена информацией создают уникальные проблемы для больших языковых моделей: неоднородные рабочие нагрузки, быстро меняющиеся нормы и сленг, а также многоязычные, культурно разнообразные корпуса, вызывающие резкий распределительный сдвиг. Контролируемое тонкое настройка позволяет специализировать модели, но часто приводит к «качелям» между улучшениями внутри распределения и устойчивостью за его пределами, особенно для небольших моделей. Для решения этих проблем мы представляем RedOne 2.0 — LLM для социальных сетей, обученную по прогрессивной пост-тренировочной парадигме с приоритизацией обучения с подкреплением, предназначенной для быстрой и стабильной адаптации. Конвейер включает три этапа: (1) Исследовательское обучение на курируемых корпусах из соцсетей для первоначального выравнивания и выявления системных слабостей; (2) Целевая тонкая настройка, выборочно применяющая SFT к диагностированным пробелам при смешивании малой доли общих данных для снижения забывания; и (3) Обучение доработки, повторно применяющее RL с ориентированными на соцсети сигналами для закрепления улучшений и гармонизации компромиссов между задачами. В различных задачах трёх категорий наша модель масштаба 4B демонстрирует среднее улучшение около 2.41 по сравнению с субоптимальным базовым уровнем 7B. Кроме того, RedOne 2.0 достигает среднего прироста производительности около 8.74 от базовой модели, используя менее половины данных, требуемых SFT-ориентированным методом RedOne, что свидетельствует о превосходной эффективности данных и стабильности при компактных масштабах. В целом RedOne 2.0 устанавливает конкурентоспособный, экономически эффективный базовый уровень для предметно-ориентированных LLM в сценариях социальных сетей, повышая возможности без ущерба для устойчивости.
Появление мультимодальных больших языковых моделей (MLLM) расширило возможности искусственного интеллекта на визуальные модальности, однако существующие оценочные тесты остаются ограничены пониманием одиночных видео, игнорируя критически важную потребность в понимании множественных видео в реальных сценариях (например, спортивная аналитика и автономное вождение). Чтобы устранить этот значительный пробел, мы представляем MVU-Eval — первый комплексный тест для оценки способности MLLM к пониманию множественных видео. В частности, наш MVU-Eval в основном оценивает восемь ключевых компетенций с помощью 1824 тщательно отобранных пар "вопрос-ответ", охватывающих 4959 видео из различных областей, и адресует как фундаментальные задачи восприятия, так и задачи логического вывода высокого порядка. Эти возможности строго согласованы с реальными приложениями, такими как синтез данных от нескольких сенсоров в автономных системах и кросс-угловая спортивная аналитика. В результате масштабной оценки современных моделей с открытым и закрытым исходным кодом мы выявляем значительные расхождения в производительности и ограничения в текущей способности MLLM выполнять понимание на основе нескольких видео. Тест будет общедоступен для содействия будущим исследованиям.
Решение сложных задач обычно требует от больших языковых моделей (LLM) генерации длинных цепочек рассуждений, состоящих из множества шагов. Предыдущие исследования показали, что проверка корректности отдельных шагов рассуждений может дополнительно повысить производительность и эффективность LLM при выполнении таких задач, а также улучшить интерпретируемость решений. Однако существующие подходы к верификации, такие как Process Reward Models (PRM), либо вычислительно затратны, либо ограничены конкретными областями, либо требуют масштабных аннотаций, созданных людьми или другими моделями. В связи с этим мы предлагаем облегченную альтернативу для пошаговой проверки рассуждений, основанную на данных оценки неопределенности. Мы обучаем трансформерные "блоки оценки неопределенности" (UHeads), которые используют внутренние состояния замороженной LLM для оценки неопределенности ее шагов рассуждений в процессе генерации. Этот подход является полностью автоматическим: целевые метки генерируются либо другой, более крупной LLM (например, DeepSeek R1), либо самим исходным модельным способом в рамках самоконтроля. UHeads являются как эффективными, так и легковесными, содержа менее 10 миллионов параметров. В различных областях, включая математику, планирование и ответы на вопросы общего характера, они показывают результаты, сопоставимые или даже превосходящие производительность PRM, которые могут быть до 810 раз крупнее. Наши результаты позволяют предположить, что внутренние состояния LLM кодируют их неопределенность и могут служить надежными сигналами для проверки рассуждений, открывая перспективное направление в создании масштабируемых и обобщаемых интроспективных LLM.
Последние достижения в области глубинных рекуррентных языковых моделей демонстрируют, что рекуррентность позволяет разделить вычислительные затраты на этапе обучения и количество параметров от вычислительных затрат на этапе тестирования. В данной работе мы исследуем, как преобразовать существующие предобученные нерекуррентные языковые модели в глубинные рекуррентные модели. Мы обнаружили, что использование учебного плана с постепенным увеличением рекуррентности для наращивания эффективной глубины модели в процессе обучения позволяет сохранить производительность при сокращении общих вычислительных затрат. В наших экспериментах с математическими задачами мы наблюдаем, что преобразование предобученных моделей в рекуррентные приводит к лучшей производительности при заданном вычислительном бюджете по сравнению с простым пост-обучением исходной нерекуррентной языковой модели.
Парадигма мягкого мышления (soft-thinking) для рассуждений больших языковых моделей (LLM) в некоторых сценариях может превзойти традиционное дискретно-токенное рассуждение цепочкой мыслей (CoT), что подчеркивает ее исследовательскую и прикладную ценность. Однако, в то время как дискретно-токенный подход CoT можно усилить с помощью алгоритмов оптимизации политик, таких как групповая относительная оптимизация политик (GRPO), расширение паттерна мягкого мышления с помощью обучения с подкреплением (RL) остается сложной задачей. Эта трудность проистекает из сложностей внедрения стохастичности в токены мягкого мышления и соответствующего обновления политик мягкого мышления. Как следствие, предыдущие попытки комбинировать мягкое мышление с GRPO, как правило, показывают худшие результаты по сравнению с их дискретно-токенными аналогами GRPO. Чтобы полностью раскрыть потенциал мягкого мышления, данная статья представляет новый алгоритм оптимизации политик, SofT-GRPO, для усиления LLM в рамках парадигмы рассуждений мягкого мышления. SofT-GRPO внедряет шум Гумбела в логиты, использует технику Gumbel-Softmax для предотвращения выхода токенов мягкого мышления за пределы предварительно обученного эмбеддинг-пространства и применяет трюк репараметризации в градиенте политики. Мы провели эксперименты на базовых LLM с количеством параметров от 1.5B до 7B, и результаты демонстрируют, что SofT-GRPO позволяет моделям с мягким мышлением незначительно превзойти дискретно-токенный GRPO по метрике Pass@1 (+0.13% в среднем по точности), одновременно демонстрируя существенный прирост по метрике Pass@32 (+2.19% в среднем по точности). Код и веса моделей доступны по адресу https://github.com/zz1358m/SofT-GRPO-master.
Мы представляем обучение с подкреплением (RL) с адаптивными верифицируемыми средами (RLVE) — подход, использующий верифицируемые среды, которые процедурно генерируют задачи и предоставляют алгоритмически проверяемые вознаграждения, для масштабирования RL для языковых моделей (LM). RLVE позволяет каждой верифицируемой среде динамически адаптировать распределение сложности задач к возможностям политики модели по мере прогресса обучения. В отличие от этого, статические распределения данных часто приводят к затуханию обучающих сигналов, когда задачи оказываются либо слишком легкими, либо слишком сложными для политики. Для реализации RLVE мы создали RLVE-Gym, крупномасштабный набор из 400 тщательно разработанных вручную верифицируемых сред. Используя RLVE-Gym, мы показываем, что масштабирование сред, то есть расширение набора обучающих сред, последовательно улучшает обобщающие способности к рассуждениям. RLVE с совместным обучением на всех 400 средах в RLVE-Gym дает абсолютное среднее улучшение на 3,37% по шести тестам на рассуждения, начиная с одной из самых мощных языковых моделей для рассуждений объемом 1,5 млрд параметров. Для сравнения, продолжение исходного RL-обучения этой LM дает лишь средний абсолютный прирост в 0,49%, несмотря на использование более чем в 3 раза больших вычислительных ресурсов. Мы публикуем наш код в открытом доступе.
Автономные агенты, управляемые большими языковыми моделями (LLM), произвели революцию в рассуждениях и решении задач, но остаются статичными после обучения, неспособными развиваться с опытом, как это делают разумные существа, в процессе эксплуатации. Мы представляем Прямое Обучение на ОПыте (FLEX) — парадигму обучения без градиентов, которая позволяет агентам на основе LLM непрерывно эволюционировать за счет накопленного опыта. В частности, FLEX обеспечивает масштабируемую и наследуемую эволюцию за счет построения структурированной библиотеки опыта путем постоянной рефлексии над успехами и неудачами во время взаимодействия со средой. FLEX демонстрирует существенное улучшение результатов в математических рассуждениях, химическом ретросинтезе и предсказании фитнеса белков (до 23% на AIME25, 10% на USPTO50k и 14% на ProteinGym). Мы также выявляем четкий закон масштабирования опытного роста и феномен наследования опыта между агентами, что знаменует шаг к масштабируемой и наследуемой непрерывной эволюции агентов. Страница проекта: https://flex-gensi-thuair.github.io.
Мы представляем llama-embed-nemotron-8b — модель для получения текстовых эмбеддингов с открытыми весами, которая демонстрирует наилучшие на данный момент (21 октября 2025 года) результаты в рейтинге Multilingual Massive Text Embedding Benchmark (MMTEB). Хотя современные модели показывают высокую производительность, их обучающие данные и методики часто раскрываются не полностью. Мы стремимся решить эту проблему, разработав полностью открытую модель, публикуя её веса, детальные исследования методом абляции и планируя предоставить курируемые обучающие наборы данных. Наша модель демонстрирует превосходную производительность во всех основных задачах эмбеддингов — включая поиск, классификацию и семантическую текстовую схожесть (STS) — и особенно эффективна в сложных multilingual-сценариях, таких как работы с низкоресурсными языками и кросс-лингвальные настройки. Столь высокая производительность достигнута благодаря использованию новой смеси данных объёмом 16,1 миллиона пар «запрос-документ», разделённых на 7,7 миллионов примеров из публичных наборов данных и 8,4 миллионов синтетически сгенерированных примеров от различных LLM с открытыми весами. Одним из наших ключевых вкладов является детальное исследование методом абляции, анализирующее основные проектные решения, включая сравнение реализаций контрастивных функций потерь, оценку стратегий синтетической генерации данных (SDG) и влияние слияния моделей. Модель llama-embed-nemotron-8b является instruction-aware (воспринимающей инструкции) и поддерживает пользовательские инструкции для повышения производительности под конкретные задачи. Сочетание высочайшей производительности, широкой применимости и гибкости, управляемой пользователем, позволяет ей служить универсальным решением для текстовых эмбеддингов.
Создание редактируемых 3D CAD-моделей из текста на естественном языке остается сложной задачей, поскольку существующие системы text-to-CAD либо генерируют полигональные сетки, либо опираются на дефицитные данные истории проектирования. Мы представляем NURBGen — первую систему, которая генерирует высокоточные 3D CAD-модели непосредственно из текста с использованием неоднородных рациональных B-сплайнов (NURBS). Для этого мы дообучаем большую языковую модель (LLM) для перевода произвольных текстов в JSON-представления, содержащие параметры NURBS-поверхностей (контрольные точки, узловые векторы, степени и рациональные веса), которые можно напрямую конвертировать в формат BRep с помощью Python. Мы также предлагаем гибридное представление, сочетающее необрезанные NURBS-поверхности с аналитическими примитивами для более надежной работы с обрезанными поверхностями и вырожденными областями при одновременном снижении токенной сложности. Дополнительно мы представляем partABC — курируемое подмножество набора данных ABC, состоящее из отдельных CAD-компонентов с детальными текстовыми описаниями, созданными с помощью автоматизированного пайплайна аннотирования. NURBGen демонстрирует высокую производительность на разнообразных запросах, превосходя предыдущие методы по геометрической точности и размерной корректности, что подтверждено экспертной оценкой. Код и набор данных будут опубликованы в открытом доступе.
Хотя обучение с подкреплением для верифицируемых вознаграждений (RLVR) является мощным инструментом для тренировки больших моделей рассуждений, его динамика обучения скрывает серьезную проблему: RL-переобучение, при котором модели достигают высоких вознаграждений на тренировочных данных, но теряют способность к обобщению. Наш анализ показывает, что это обусловлено сверхспециализацией политики и катастрофическим забыванием разнообразных решений, генерируемых в процессе обучения. Стандартная оптимизация отбрасывает эту ценную междоменную разнородность политик. Для решения данной проблемы мы представляем RLoop — самосовершенствующуюся структуру, основанную на итерационной инициализации политики. RLoop преобразует стандартный процесс обучения в добродетельный цикл: сначала с помощью RL исследуется пространство решений из заданной политики, затем успешные траектории фильтруются для создания экспертного набора данных. Этот набор данных используется посредством тонкой настройки с отклонением (RFT) для улучшения исходной политики, создавая превосходную стартовую точку для следующей итерации. Этот цикл исследования и эксплуатации через итерационную реинициализацию эффективно преобразует временные вариации политики в устойчивое повышение производительности. Наши эксперименты показывают, что RLoop смягчает забывание и существенно улучшает обобщение, повышая среднюю точность на 9% и pass@32 более чем на 15% по сравнению с базовым RL.
Обучение с подкреплением (RL) часто считается методом, который улучшает способность языковых моделей к рассуждениям и обобщению ценой ухудшения запомненных знаний. Мы оспариваем эту точку зрения, отмечая, что модели, усиленные RL, стабильно превосходят свои базовые версии и модели, дообученные с учителем (SFT), в задачах на простое воспроизведение знаний, особенно тех, которые требуют обхода иерархических, структурированных знаний (например, медицинских кодов). Мы выдвигаем гипотезу, что эти улучшения связаны не с усвоением новых данных, а с развитием процедурных навыков навигации и поиска в существующих иерархиях знаний, закодированных в параметрах модели. В подтверждение этой гипотезы мы демонстрируем, что структурированные промпты, которые явно направляют SFT-модели по иерархии, позволяют устранить большую часть разрыва в производительности (сокращая его с 24 п.п. до 7 п.п. на наборе MedConceptsQA для DeepSeek-V3/R1). Мы также обнаруживаем, что, хотя промпты повышают точность конечного ответа, модели с RL сохраняют превосходство в способности воспроизводить правильные процедурные пути в задачах глубокого поиска. Наконец, наш послойный анализ внутренних активаций показывает, что хотя репрезентации фактов (например, активации для утверждения «код 57.95 означает инфекцию мочевыводящих путей») сохраняют высокое косинусное сходство между SFT- и RL-моделями, репрезентации запросов (например, «что означает код 57.95») заметно расходятся, что указывает на то, что RL в первую очередь меняет то, как модели обходят знания, а не сами репрезентации знаний.
Последние достижения в области мультимодальных рассуждений в значительной степени обусловлены использованием нераскрытых наборов данных и проприетарных рецептов синтеза данных, что оставляет открытыми вопросы о том, как систематически создавать крупномасштабные визуально-центричные наборы данных для рассуждений, особенно для задач, выходящих за рамки визуальной математики. В данной работе мы представляем новую структуру генерации данных для рассуждений, охватывающую разнообразные навыки и уровни сложности, с более чем 1 миллионом высококачественных синтетических визуально-центричных вопросов. Набор данных также включает данные о предпочтениях и инструктивные промты, поддерживающие как оффлайн, так и онлайн обучение с подкреплением (RL). Наша структура синтеза состоит из двух этапов: (1) масштабирование и (2) усложнение. Цепочки рассуждений затем синтезируются в процессе из двух стадий, который использует возможности визуально-языковых моделей (VLM) и языковых моделей для рассуждений (LLM), создавая трассы "мыслительной цепи" (CoT) для VLM, которые отражают богатство и разнообразие когнитивных поведений, характерных для передовых моделей рассуждений. Примечательно, что мы показываем, что дообучение модели Qwen2.5-VL-7B на наших данных превосходит все открытые базовые модели по всем оцениваемым визуально-центричным бенчмаркам и даже превосходит сильные модели на закрытых данных, такие как MiMo-VL-7B-RL, на V* Bench, CV-Bench и MMStar-V. Что, возможно, наиболее удивительно, несмотря на полностью визуально-центричный характер, наши данные положительно переносятся на чисто текстовые рассуждения (MMLU-Pro) и аудиальные рассуждения (MMAU), демонстрируя свою эффективность. Аналогичным образом, несмотря на отсутствие видео или данных эмбадированного зрения, мы наблюдаем значительный прогресс при оценке на бенчмарке эмбадированных вопросов-ответов с единичным свидетельством (NiEH). Наконец, мы используем наши данные для анализа всего конвейера пост-обучения VLM. Наш эмпирический анализ подчеркивает, что (i) SFT на высококачественных данных с нелинейными цепочками рассуждений необходим для эффективного онлайн RL, (ii) поэтапный оффлайн RL соответствует производительности онлайн RL при снижении вычислительных затрат и (iii) тщательное SFT на качественных данных может существенно улучшить межмодальный перенос вне домена.
Искусственные интеллектуальные агенты, способные управлять пользовательскими интерфейсами, обладают потенциалом для преобразования взаимодействия человека с цифровыми устройствами. Для ускорения этой трансформации необходимы два фундаментальных элемента: высококачественные наборы данных, позволяющие агентам достигать сложных и релевантных для человека целей, и надежные методы оценки, которые позволяют исследователям и практикам быстро повышать производительность агентов. В данной статье мы представляем DigiData — масштабный, высококачественный, разнородный и многомодальный набор данных, предназначенный для обучения агентов управления мобильными устройствами. В отличие от существующих наборов данных, где цели выводятся из неструктурированных взаимодействий, DigiData тщательно конструируется путем всестороннего исследования функций приложений, что обеспечивает большее разнообразие и более высокую сложность целей. Кроме того, мы представляем DigiData-Bench — эталонный тест для оценки агентов управления мобильными устройствами на реальных сложных задачах. Мы демонстрируем, что широко используемая метрика пошаговой точности недостаточна для надежной оценки таких агентов, и для решения этой проблемы предлагаем динамические протоколы оценки и оценку с помощью ИИ в качестве строгих альтернатив для тестирования агентов. Наши разработки направлены на значительное продвижение в развитии агентов управления мобильными устройствами, прокладывая путь к более интуитивному и эффективному взаимодействию человека с устройствами.
Музыкально-индуцированная живопись представляет собой уникальную художественную практику, в рамках которой визуальные произведения создаются под влиянием музыки. Оценка того, насколько точно картина отражает вдохновившую её музыку, представляет собой сложную задачу перцептивной оценки. Существующие методы в основном опираются на модели распознавания эмоций для оценки сходства между музыкой и живописью, однако такие модели вносят значительный шум и игнорируют более широкие перцептивные сигналы, выходящие за рамки эмоций. Для преодоления этих ограничений мы предлагаем новую систему оценки музыкально-индуцированной живописи, которая непосредственно моделирует перцептивную согласованность между музыкой и визуальным искусством. Мы представляем MPD — первый масштабный набор данных пар «музыка-живопись», аннотированных экспертами в данной области на основе перцептивной согласованности. Для лучшей обработки неоднозначных случаев мы дополнительно собираем аннотации парных предпочтений. На основе этого набора данных мы представляем MPJudge — модель, которая интегрирует музыкальные характеристики в визуальный кодировщик посредством механизма слияния на основе модуляции. Для эффективного обучения на неоднозначных примерах мы применяем оптимизацию прямых предпочтений. Многочисленные эксперименты демонстрируют превосходство нашего метода над существующими подходами. Качественные результаты дополнительно показывают, что наша модель точнее идентифицирует музыкально-релевантные области на картинах.
Быстрое развитие больших языковых моделей (LLM) способствовало прогрессу многочисленных приложений, однако эффективный вывод в одиночном пакете остается критически важным для встроенного интеллекта. Хотя ПЛИС обеспечивают детализированный контроль над данными и высокую энергоэффективность, последние оптимизации GPU сократили их преимущество, особенно в условиях вычислений на основе арифметических операций. Чтобы преодолеть это ограничение, мы используем обширную внутреннюю память ПЛИС для перевода вывода LLM с арифметических на память-ориентированные вычисления посредством табличных поисков. Мы представляем LUT-LLM — первый ускоритель на ПЛИС, обеспечивающий вывод LLM объемом свыше 1 млрд параметров через векторно-квантованные операции с памятью. Наш анализ определяет совместное квантование активаций и весов как наиболее эффективную схему, поддерживаемую (1) поиском параллельных центроидов с учетом пропускной способности, (2) эффективными двумерными табличными поисками и (3) пространственно-временной гибридной архитектурой, минимизирующей кэширование данных. Реализованная на ПЛИС AMD V80 для кастомизированной модели Qwen 3 1.7B, система LUT-LLM демонстрирует в 1.66 раза меньшую задержку по сравнению с AMD MI210 и в 1.72 раза более высокую энергоэффективность по сравнению с NVIDIA A100, масштабируясь до моделей объемом 32 млрд параметров с приростом эффективности в 2.16 раза относительно A100.
Благодаря своей способности следовать инструкциям на естественном языке, модели "язык-зрение-действие" (Vision-Language-Action, VLA) получают все большее распространение в области embodied AI, вслед за широким успехом их предшественников — больших языковых моделей (LLM) и моделей "язык-зрение" (VLM). В данной статье мы рассматриваем 10 ключевых этапов в текущем развитии моделей VLA: мультимодальность, логический вывод, данные, оценка, обобщение действий для различных роботов, эффективность, координация всего тела, безопасность, агенты и координация с человеком. Кроме того, мы обсуждаем emerging trends, такие как использование пространственного понимания, моделирование динамики мира, пост-обучение и синтез данных, — все они направлены на достижение этих этапов. Посредством этих обсуждений мы надеемся привлечь внимание к направлениям исследований, которые могут ускорить развитие моделей VLA и способствовать их более широкому принятию.
Диффузионные модели для генерации изображений по тексту позволяют получать высококачественные изображения, однако их согласование с человеческими предпочтениями остается сложной задачей. Мы возвращаемся к диффузионному методу прямого оптимизации предпочтений (DPO) для таких моделей и выявляем ключевую проблему: увеличение разрыва в предпочтениях не обязательно приводит к улучшению качества генерации. В частности, стандартная цель Diffusion-DPO может увеличивать ошибку реконструкции как для "победившей", так и для "проигравшей" ветвей. Как следствие, деградация менее предпочтительных результатов может стать настолько значительной, что предпочтительная ветвь также начинает страдать даже при росте разрыва. Для решения этой проблемы мы представляем Diffusion-SDPO — защищенное правило обновления, которое сохраняет "победителя" за счет адаптивного масштабирования градиента "проигравшего" в соответствии с его согласованностью с градиентом "победителя". Анализ первого порядка дает замкнутый коэффициент масштабирования, гарантирующий, что ошибка предпочтительного результата не возрастает на каждом шаге оптимизации. Наш метод прост, не зависит от модели, широко совместим с существующими рамками согласования в стиле DPO и добавляет лишь незначительные вычислительные затраты. На стандартных текстово-визуальных бенчмарках Diffusion-SDPO демонстрирует стабильное превосходство над базовыми методами обучения с предпочтениями по автоматизированным метрикам предпочтений, эстетики и соответствия промпту. Код общедоступен по адресу https://github.com/AIDC-AI/Diffusion-SDPO.
Мы представляем DIMO — генеративный подход, способный создавать разнообразные 3D-движения для произвольных объектов по одному изображению. Основная идея нашей работы заключается в использовании богатых априорных знаний хорошо обученных видео-моделей для извлечения общих паттернов движения и последующего внедрения их в общее низкоразмерное латентное пространство. Конкретно, мы сначала генерируем несколько видео одного и того же объекта с разнообразными движениями. Затем мы внедряем каждое движение в латентный вектор и обучаем общий декодер движений для изучения распределения движений, представленного структурированным и компактным представлением движения — траекториями нейронных ключевых точек. Канонические 3D-гаусссианы затем приводятся в движение этими ключевыми точками и объединяются для моделирования геометрии и внешнего вида. Во время вывода с обученным латентным пространством мы можем мгновенно сэмплировать разнообразные 3D-движения за один прямой проход, а также поддерживать несколько интересных приложений, включая интерполяцию 3D-движений и генерацию движений на основе языка. Страница проекта доступна по адресу https://linzhanm.github.io/dimo.
Хотя модели «визуальный язык» (VLM), дообученные с подкреплением (RL), демонстрируют впечатляющие способности к общим рассуждениям, их оценка часто ограничивается задачами с доминированием языка (например, математическими). Это поднимает важный вопрос: может ли дообучение с RL действительно расширить inherentные границы возможностей базовой VLM, особенно для визуально-ориентированных пространственных задач, в которых она изначально не справляется? Для изучения этого вопроса мы представляем Ariadne — фреймворк, использующий синтетические лабиринты для многошагового пространственного мышления, где сложность задачи (например, длина пути, количество поворотов) точно контролируется. Мы используем эту контролируемую среду для обучения VLM с помощью обучения с подкреплением и верифицированными наградами (RLVR) по сложностно-ориентированному учебному плану. Удивительно, но после дообучения RLVR модель VLM достигает точности свыше 50% на наборе задач, где базовая модель показывала 0%, что демонстрирует, что наш подход расширяет исходные границы возможностей модели. Для оценки практической применимости в реальном мире мы оцениваем обобщение на внераспределительных (OOD) данных на практических бенчмарках. Несмотря на обучение только на синтетических примерах лабиринтов, Ariadne демонстрирует значительное улучшение zero-shot, в среднем на 16% на MapBench (например, навигация в музее) и на 24% на ReasonMap (задачи пересадки в метро). Эти результаты подтверждают, что наш метод не только расширяет фундаментальные пределы модели, но и улучшает её обобщение для пространственного мышления в реальном мире. Мы признаем, что наше исследование ограничено фазой дообучения, учитывая непрозрачность данных предварительного обучения, и надеемся, что наша работа стимулирует дальнейшие исследования в области специализированного согласования, расширяющего возможности моделей.
Оптимизация производительности крупномасштабных программных репозиториев требует экспертных знаний в области анализа кода и программной инженерии (ПИ) для сокращения времени выполнения при сохранении корректности программы. Однако большинство бенчмарков акцентируют внимание на том, *что* нужно исправить, а не на том, *как* это сделать. Мы представляем SWE-fficiency — бенчмарк для оценки оптимизации производительности на уровне репозитория при работе с реальными нагрузками. Наш набор включает 498 задач из девяти широко используемых репозиториев для data science, машинного обучения и HPC (например, numpy, pandas, scipy): имея полную кодовую базу и медленную рабочую нагрузку, агент должен исследовать семантику кода, локализовать узкие места и соответствующие тесты, а также создать патч, который достигает или превосходит экспертное ускорение, проходя при этом те же модульные тесты. Для обеспечения такой оценки «как исправить» наша автоматизированная система собирает pull request'ы на GitHub, содержащие правки для повышения производительности, комбинируя фильтрацию по ключевым словам, статический анализ, инструменты покрытия кода и проверку выполнения, чтобы как подтвердить базовые показатели экспертного ускорения, так и выявить соответствующие модульные тесты репозитория. Эмпирическая оценка современных агентов выявила их значительное отставание. В среднем агенты достигают менее 0.15x от экспертного ускорения: они испытывают трудности с локализацией возможностей для оптимизации, анализом выполнения кода across functions и обеспечением корректности предлагаемых правок. Мы публикуем бенчмарк и сопутствующий конвейер обработки данных для содействия исследованиям в области автоматизированной инженерии производительности и программного анализа с длинным горизонтом планирования.
Понимание видеособытий (Video Anomaly Understanding, VAU) ставит целью обеспечение детальной интерпретации и семантического осмысления аномальных событий в видеопотоке, преодолевая ограничения традиционных методов, которые фокусируются исключительно на обнаружении и локализации аномалий. Однако существующие подходы часто игнорируют глубинные причинно-следственные связи и взаимодействия между объектами, которые критически важны для понимания аномального поведения. В данной статье мы предлагаем VADER — управляемую большими языковыми моделями (LLM) систему для понимания видеособытий, которая интегрирует признаки отношений между объектами в ключевых кадрах с визуальными маркерами для углубленного анализа аномалий. В частности, VADER сначала применяет модуль оценки аномальности (Anomaly Scorer) для присвоения аномальных оценок каждому кадру, после чего стратегия контекстно-зависимого семплирования (Context-AwarE Sampling, CAES) захватывает причинный контекст каждого аномального события. Экстрактор признаков отношений (Relation Feature Extractor) и контрастный кодировщик отношений (COntrastive Relation Encoder, CORE) совместно моделируют динамические взаимодействия объектов, формируя компактные реляционные представления для последующих логических выводов. Эти визуальные и реляционные маркеры интегрируются с LLM для генерации детальных, причинно обоснованных описаний и поддержки надежного ответа на вопросы, связанные с аномалиями. Эксперименты на нескольких реальных бенчмарках VAU демонстрируют, что VADER достигает высоких результатов в задачах описания, объяснения и причинно-следственного анализа аномалий, продвигая границы объяснимого анализа видеособытий.
Распознавание эмоций в диалоге (ERC) является ключевой задачей для понимания человеческих эмоций и обеспечения естественного взаимодействия человека с компьютером. Хотя крупные языковые модели (LLM) недавно продемонстрировали большой потенциал в этой области, их способность улавливать внутренние связи между явными и неявными эмоциями остается ограниченной. Мы предлагаем новую обучающую структуру PRC-Emo для ERC, которая интегрирует проектирование промптов, извлечение демонстраций и обучение по учебному плану с целью исследования, способны ли LLM эффективно воспринимать эмоции в контексте беседы. В частности, мы разрабатываем эмоционально-чувствительные шаблоны промптов на основе как явных, так и неявных эмоциональных сигналов, чтобы лучше направлять модель в понимании психологических состояний говорящего. Мы создаем первое специализированное хранилище для извлечения демонстраций в ERC, которое включает образцы для обучения из широко используемых наборов данных, а также высококачественные примеры диалогов, сгенерированные LLM и проверенные вручную. Кроме того, мы внедряем стратегию обучения по учебному плану в процесс тонкой настройки LoRA, включая взвешенные эмоциональные сдвиги между репликами одного и разных говорящих для назначения уровней сложности образцам диалогов, которые затем организуются в последовательность обучения от простого к сложному. Результаты экспериментов на двух эталонных наборах данных — IEMOCAP и MELD — показывают, что наш метод достигает нового наилучшего результата (state-of-the-art, SOTA), демонстрируя эффективность и обобщаемость нашего подхода к улучшению эмоционального понимания на основе LLM.
Крупные языковые модели (LLM) в последнее время демонстрируют впечатляющие результаты в распознавании речи в различных модальностях, включая аудиальное распознавание речи (ASR), визуальное распознавание речи (VSR) и аудиовизуальное распознавание речи (AVSR). Несмотря на этот прогресс, современные подходы на основе LLM обычно решают каждую задачу независимо, обучая отдельные модели, что увеличивает вычислительные затраты и ресурсы развертывания, упуская при этом потенциальные синергетические эффекты между задачами. Они также полагаются на сжатие токенов с фиксированной скоростью, что ограничивает гибкость в балансировке между точностью и эффективностью. Эти ограничения подчеркивают необходимость создания унифицированной системы, способной поддерживать ASR, VSR и AVSR при обеспечении эластичного вывода. С этой целью мы представляем Omni-AVSR — унифицированную аудиовизуальную LLM, которая сочетает эффективное многогранулярное обучение с параметрически-эффективной адаптацией. В частности, мы адаптируем парадигму обучения матрешечных представлений для эффективного обучения на множественных аудиальных и визуальных гранулярностях, снижая присущие ей ресурсные затраты на обучение. Кроме того, мы исследуем три стратегии адаптации базовой LLM на основе LoRA, балансируя между общей и задачно-специфической специализацией. Эксперименты на наборах данных LRS2 и LRS3 показывают, что Omni-AVSR достигает сопоставимой или превосходящей точности по сравнению с современными базовыми методами, обучая единственную модель при существенно более низких ресурсных затратах на обучение и развертывание. Модель также сохраняет устойчивость в условиях акустических шумов, а мы анализируем ее масштабируемость с увеличением размера LLM, предоставляя информацию о компромиссе между производительностью и эффективностью.