Ежедневно отобранные исследовательские статьи по ИИ с переводами
Существующие эталоны для агентов на основе больших языковых моделей (LLM) ориентированы на выполнение задач в идеализированных условиях, но упускают из виду надежность в реальных приложениях, взаимодействующих с пользователем. В таких областях, как автомобильные голосовые ассистенты, пользователи часто формулируют неполные или неоднозначные запросы, создавая внутреннюю неопределенность, которой агенты должны управлять с помощью диалога, использования инструментов и следования политикам. Мы представляем CAR-bench — эталон для оценки согласованности, обработки неопределенности и осознания собственных возможностей в многоходовых агентах LLM, использующих инструменты, в домене автомобильного помощника. Среда включает в себя имитируемого LLM-пользователя, доменные политики и 58 взаимосвязанных инструментов, охватывающих навигацию, продуктивность, зарядку и управление автомобилем. Помимо стандартного выполнения задач, CAR-bench вводит задачи на Галлюцинации, которые проверяют осознание агентом своих ограничений при отсутствии инструментов или информации, и задачи на Дизъюнкцию, требующие разрешения неопределенности через уточнение или внутренний сбор информации. Результаты базовых тестов выявляют значительный разрыв между эпизодическим и стабильным успехом во всех типах задач. Даже передовые LLM с развитыми reasoning-способностями демонстрируют стабильный уровень успешного прохождения менее 50% по задачам на Дизъюнкцию из-за преждевременных действий и часто нарушают политики или фабрикуют информацию для удовлетворения запросов пользователя в задачах на Галлюцинации, что подчеркивает необходимость создания более надежных и самоосознающих агентов LLM для реальных условий.
По мере эволюции больших языковых моделей (LLM) в автономные агенты их практическая применимость в реальном мире значительно расширилась, что сопровождается новыми проблемами безопасности. Большинство существующих механизмов защиты агентов используют парадигму принудительной проверки, при которой проверка безопасности принудительно запускается на предопределенных этапах жизненного цикла агента. В данной работе мы утверждаем, что эффективная безопасность агентов должна быть внутренней и избирательной, а не архитектурно обособленной и обязательной. Мы предлагаем фреймворк Spider-Sense, событийно-ориентированную систему защиты на основе внутреннего восприятия рисков (Intrinsic Risk Sensing, IRS), которая позволяет агентам сохранять скрытую бдительность и активировать защиту только при восприятии риска. После активации Spider-Sense запускает иерархический защитный механизм, балансирующий между эффективностью и точностью: известные шаблоны угроз обрабатываются с помощью легковесного сравнения по сходству, тогда как неоднозначные случаи эскалируются для глубокого внутреннего анализа, что устраняет зависимость от внешних моделей. Для обеспечения строгой оценки мы представляем S^2Bench, ориентированный на жизненный цикл бенчмарк, включающий реалистичное выполнение инструментов и многоэтапные атаки. Многочисленные эксперименты демонстрируют, что Spider-Sense обеспечивает конкурентоспособную или превосходящую защитную эффективность, достигая наименьшего уровня успешности атак (Attack Success Rate, ASR) и ложных срабатываний (False Positive Rate, FPR) при незначительной дополнительной задержке в 8,3%.
Недавнее применение обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) к большим языковым моделям (LLM) и визуально-языковым моделям (VLM) продемонстрировало значительный успех в улучшении способностей к рассуждению при выполнении сложных задач. В процессе обучения RLVR увеличение длины ответа часто рассматривается как ключевой фактор, способствующий развитию способности к рассуждению. Однако характер изменений длины ответа существенно различается в зависимости от алгоритмов RLVR в ходе обучения. Для предоставления фундаментального объяснения этим вариациям в данной статье проводится углубленный анализ компонентов основных алгоритмов RLVR. Мы представляем теоретический анализ факторов, влияющих на длину ответа, и подтверждаем нашу теорию с помощью обширного экспериментального исследования. На основе этих теоретических выводов мы предлагаем алгоритм оптимизации последовательностной политики без смещения по длине (LUSPO). В частности, мы корректируем смещение по длине, присущее оптимизации групповой последовательностной политики (GSPO), делая её функцию потерь несмещенной относительно длины ответа и тем самым решая проблему коллапса длины ответа. Мы проводим масштабные эксперименты на наборах данных для математических рассуждений и в сценариях мультимодальных рассуждений, где LUSPO стабильно демонстрирует превосходящие результаты. Эмпирические результаты показывают, что LUSPO представляет собой новую, передовую стратегию оптимизации по сравнению с существующими методами, такими как GRPO и GSPO.
Большинство систем памяти агентов на основе больших языковых моделей (LLM) полагаются на небольшой набор статических, заранее заданных операций для извлечения воспоминаний. Эти фиксированные процедуры жестко кодируют человеческие априорные представления о том, что сохранять и как обновлять память, что делает их негибкими при разнообразных сценариях взаимодействия и неэффективными при работе с длинными историями. Для решения этой проблемы мы представляем MemSkill — подход, который переосмысливает эти операции как обучаемые и развивающиеся навыки работы с памятью, структурированные и переиспользуемые процедуры для извлечения, консолидации и очистки информации из историй взаимодействия. Вдохновленные философией проектирования агентских навыков, мы реализуем в MemSkill контроллер, который обучается выбирать небольшой набор релевантных навыков, в паре с исполнителем на основе LLM, который формирует воспоминания под руководством выбранных навыков. Помимо обучения выбору навыков, MemSkill включает модуль проектировщика, который периодически анализирует сложные случаи, когда выбранные навыки приводят к некорректным или неполным воспоминаниям, и развивает набор навыков, предлагая их уточнение или создание новых. В совокупности MemSkill формирует замкнутый цикл, который улучшает как политику выбора навыков, так и сам набор навыков. Эксперименты на LoCoMo, LongMemEval, HotpotQA и ALFWorld демонстрируют, что MemSkill превосходит по эффективности решения задач сильные базовые методы и хорошо обобщается в различных условиях. Дополнительный анализ проливает свет на то, как эволюционируют навыки, открывая путь к более адаптивному, саморазвивающемуся управлению памятью для LLM-агентов.
Современные подходы к генерации длинных видео в реальном времени обычно используют стратегии потокового обучения, пытаясь обучить студент-модель с длинным контекстом с помощью учитель-модели с коротким контекстом (без памяти). В этих рамках студент выполняет длинные развертки, но получает контроль от учителя, ограниченного короткими 5-секундными окнами. Это структурное несоответствие создает критический разрыв между студентом и учителем: неспособность учителя получить доступ к долгосрочной истории мешает ему направлять студента в глобальных временных зависимостях, фактически ограничивая длину контекста студента. Для решения этой проблемы мы предлагаем Context Forcing — новую архитектуру, которая обучает студент-модель с длинным контекстом через учитель-модель с длинным контекстом. Обеспечивая осведомленность учителя о полной истории генерации, мы устраняем разрыв в контроле, позволяя надежно обучать модели, способные к долгосрочной согласованности. Чтобы сделать это вычислительно осуществимым для экстремальных длительностей (например, 2 минут), мы внедряем систему управления контекстом, которая преобразует линейно растущий контекст в архитектуру медленно-быстрой памяти, значительно сокращая визуальную избыточность. Обширные результаты демонстрируют, что наш метод обеспечивает эффективную длину контекста свыше 20 секунд — в 2–10 раз больше, чем передовые методы, такие как LongLive и Infinite-RoPE. Используя этот расширенный контекст, Context Forcing сохраняет превосходную согласованность в течение длительных периодов, превосходя современные базовые методы по различным метрикам оценки длинных видео.
Хотя генеративные видео-модели достигли впечатляющей визуальной достоверности, их способность усваивать и оперировать неявными правилами мира остается критически важным, но слабо изученным направлением. Для преодоления этого разрыва мы представляем RISE-Video — новаторский ориентированный на логический вывод бенчмарк для синтеза видео по текстово-изобразительному описанию (TI2V), который смещает фокус оценки с поверхностной эстетики на глубокое когнитивное рассуждение. RISE-Video включает 467 тщательно аннотированных человеком примеров, охватывающих восемь строгих категорий, и предоставляет структурированную среду для исследования интеллекта моделей в различных аспектах — от здравого смысла и пространственной динамики до специализированных предметных областей. Наша система представляет многомерный протокол оценки, состоящий из четырех метрик: соответствие логике, временная согласованность, физическая обоснованность и визуальное качество. Для поддержки масштабируемой оценки мы предлагаем автоматизированный конвейер, использующий большие мультимодальные модели (LMM) для имитации человеко-ориентированной оценки. Масштабные эксперименты с 11 передовыми TI2V-моделями выявили повсеместные недостатки в моделировании сложных сценариев при неявных ограничениях, что дает важные инсайты для развития будущих генеративных моделей, симулирующих мир.
Распространено предположение, что проактивные вмешательства моделей-критиков на основе больших языковых моделей (LLM) повышают надежность, однако их эффекты в условиях реального развертывания изучены слабо. Мы демонстрируем, что бинарный критик на основе LLM с высокой оффлайн-точностью (AUROC 0.94) тем не менее может вызывать значительную деградацию производительности: на одной модели наблюдается коллапс на 26 процентных пунктов (п.п.), тогда как на другую модель влияние близко к нулю. Эта вариабельность показывает, что одной лишь точности критика LLM недостаточно для определения безопасности вмешательства. Мы выявляем компромисс между нарушением и восстановлением: вмешательства могут исправлять неудачные траектории, но также и нарушать траектории, которые изначально были бы успешными. Основываясь на этом наблюдении, мы предлагаем предразвертываемый тест, который использует небольшой пилот из 50 задач для оценки вероятной пользы или вреда вмешательства без необходимости полного развертывания. На различных бенчмарках тест точно предсказывает результаты: вмешательство ухудшает производительность на задачах с высоким исходным успехом (от 0 до -26 п.п.), но дает скромное улучшение на бенчмарке ALFWorld с высоким уровнем неудач (+2.8 п.п., p=0.014). Таким образом, ключевая ценность нашего подхода заключается в определении ситуаций, когда вмешательство нецелесообразно, что позволяет предотвратить серьезные регрессии до этапа развертывания.
Существующие агенты на основе больших языковых моделей (LLM) демонстрируют низкую эффективность в интерактивных средах, требующих долгосрочного планирования, в основном из-за накопления ошибок при симуляции будущих состояний. Для решения этой проблемы мы предлагаем фреймворк ProAct, который позволяет агентам интериоризировать точное упреждающее рассуждение с помощью двухэтапной парадигмы обучения. Во-первых, мы представляем Grounded LookAhead Distillation (GLAD), при которой агент проходит контролируемое тонкое обучение на траекториях, полученных в результате поиска в среде. Сжимая сложные деревья поиска в сжатые причинно-следственные цепочки рассуждений, агент усваивает логику предвидения без вычислительных затрат на поиск во время вывода. Во-вторых, для дальнейшего повышения точности решений мы предлагаем Monte-Carlo Critic (MC-Critic) — подключаемый вспомогательный оценщик стоимости, предназначенный для улучшения алгоритмов политик градиентов, таких как PPO и GRPO. Используя легковесные прогоны среды для калибровки оценок стоимости, MC-Critic обеспечивает сигнал с низкой дисперсией, способствующий стабильной оптимизации политики без reliance на дорогостоящую аппроксимацию стоимости на основе моделей. Эксперименты как на стохастических (например, 2048), так и на детерминированных (например, Sokoban) средах показывают, что ProAct значительно повышает точность планирования. Примечательно, что модель с 4B параметров, обученная с помощью ProAct, превосходит все открытые базовые модели и конкурирует с передовыми закрытыми моделями, демонстрируя при этом надежную обобщающую способность на незнакомых средах. Код и модели доступны по адресу https://github.com/GreatX3/ProAct.
Высококачественные ядра критически важны для масштабируемых систем ИИ, а возможность их генерации большими языковыми моделями (LLM) ускорила бы развитие ИИ. Однако обучение LLM для этой задачи требует достаточного объема данных, надежной среды, и процесс часто уязвим для взлома системы вознаграждений и ленивой оптимизации. В таких случаях модели могут подстраиваться под метрики обучения, отдавая приоритет тривиальной корректности вместо значительного ускорения. В данной статье мы систематически изучаем обучение с подкреплением (RL) для генерации ядер. Сначала мы разрабатываем KernelGYM — надежную распределенную среду на GPU, которая поддерживает проверку на взлом вознаграждений, сбор данных из многошаговых взаимодействий и долгосрочное RL-обучение. На основе KernelGYM мы исследуем эффективные многошаговые RL-методы и выявляем проблему смещенного градиента политики, вызванную самовключением в GRPO. Для решения этой проблемы мы предлагаем метод TRLOO (Turn-level Reinforce-Leave-One-Out) для получения несмещенной оценки преимущества в многошаговом RL. Чтобы смягчить ленивую оптимизацию, мы внедряем коррекцию рассогласования для стабильности обучения и вводим профилировочные вознаграждения (PR) и профилировочный rejection sampling (PRS) для преодоления этой проблемы. Обученная модель Dr.Kernel-14B демонстрирует результаты, сопоставимые с Claude-4.5-Sonnet в Kernelbench. Наконец, мы изучаем последовательное масштабирование на этапе тестирования для Dr.Kernel-14B. На подмножестве KernelBench Level-2 31,6% сгенерированных ядер достигают как минимум 1,2-кратного ускорения по сравнению с эталонной реализацией Torch, превосходя Claude-4.5-Sonnet (26,7%) и GPT-5 (28,6%). При выборе лучшего кандидата по всем шагам этот показатель ускорения ≥1,2x увеличивается до 47,8%. Все ресурсы, включая среду, код обучения, модели и набор данных, доступны по адресу https://www.github.com/hkust-nlp/KernelGYM.
Информация, доступная только на этапе обучения (privileged information, PI), может позволить языковым моделям успешно справляться с задачами, которые в противном случае были бы для них недоступны, что делает её мощным инструментом обучения с подкреплением в сложных сценариях с длительным горизонтом планирования. Однако передача возможностей, усвоенных с помощью PI, политикам, которые должны действовать без неё во время вывода, остаётся фундаментальной проблемой. Мы исследуем эту проблему в контексте дистилляции передовых моделей для многошаговых агентных сред, где закрытые системы обычно скрывают свои внутренние рассуждения и предоставляют лишь траектории действий. Это нарушает стандартные конвейеры дистилляции, поскольку успешное поведение наблюдаемо, а процесс рассуждений — нет. Для решения этой проблемы мы представляем π-Distill, совместную цель обучения «учителя» и «ученика», которая одновременно обучает «учителя», обусловленного PI, и безусловного «ученика», используя одну и ту же модель. Кроме того, мы также представляем Само-дистилляцию на основе политики (On-Policy Self-Distillation, OPSD) — альтернативный подход, который использует обучение с подкреплением (RL) с обратным KL-штрафом между «учеником» и «учителем», обусловленным PI. Мы показываем, что оба этих алгоритма эффективно дистиллируют передовых агентов, используя PI, представленную только действиями. В частности, мы обнаруживаем, что π-Distill, а в некоторых случаях и OPSD, превосходят стандартные отраслевые практики (контролируемое дообучение с последующим RL), которые предполагают доступ к полной цепочке рассуждений (Chain-of-Thought), на множестве агентных бенчмарков, для различных моделей и форм PI. Мы дополняем наши результаты обширным анализом, который характеризует факторы, способствующие эффективному обучению с PI, в основном фокусируясь на π-Distill и определяя условия, при которых OPSD является конкурентоспособной.
По мере того, как большие языковые модели все больше автоматизируют выполнение сложных, долгосрочных задач, таких как создание кода по описанию, возникает проблема недостаточного контроля. Хотя модели преуспевают в исполнении, пользователи часто испытывают трудности с эффективным управлением ими из-за недостатка экспертных знаний в предметной области, сложности формулировки точных требований и неспособности надежно проверять сложные результаты. Это создает серьезную проблему масштабируемого контроля: как позволить людям ответственно направлять системы ИИ при выполнении задач, которые превосходят их собственные возможности по спецификации или верификации. Для решения этой проблемы мы предлагаем **Масштабируемый Интерактивный Контроль** — framework, который декомпозирует сложные требования в рекурсивное дерево управляемых решений для усиления человеческого надзора. В отличие от открытых промптов, наша система получает простую обратную связь на каждом узле и рекурсивно агрегирует эти сигналы в точные глобальные инструкции. Протестированная на задаче веб-разработки, наша система позволяет не-экспертам создавать технические задания экспертного уровня, демонстрируя 54%-ное улучшение соответствия требованиям. Ключевым является то, что мы показываем, что этот framework можно оптимизировать с помощью обучения с подкреплением, используя только онлайн-обратную связь от пользователей, что предлагает практический путь для сохранения человеческого контроля по мере масштабирования ИИ.
Поиск математических результатов остается сложной задачей: большинство существующих инструментов извлекают целые статьи, в то время как математики и системы доказательства теорем часто ищут конкретную теорему, лемму или утверждение, отвечающее на запрос. Хотя семантический поиск быстро развивается, его поведение на больших, высокотехничных корпусах, таких как теоремы уровня научных исследований, остается малоизученным. В данной работе мы представляем и исследуем семантический поиск теорем в крупном масштабе на едином корпусе из 9,2 миллионов формулировок теорем, извлеченных из arXiv и семи других источников, что представляет собой крупнейший общедоступный корпус теорем уровня исследований, созданных человеком. Мы представляем каждую теорему кратким описанием на естественном языке в качестве представления для поиска и систематически анализируем, как контекст представления, выбор языковой модели, модель эмбеддингов и стратегия промптинга влияют на качество поиска. На курируемом наборе для оценки поисковых запросов по теоремам, составленном профессиональными математиками, наш подход значительно улучшает как поиск на уровне теорем, так и на уровне статей по сравнению с существующими базовыми методами, демонстрируя, что семантический поиск теорем осуществим и эффективен в масштабах веба. Инструмент поиска теорем доступен по ссылке https://huggingface.co/spaces/uw-math-ai/theorem-search, а набор данных — по ссылке https://huggingface.co/datasets/uw-math-ai/TheoremSearch.
Дистилляция наборов данных (DD) направлена на создание компактного набора данных из большого набора реальных данных. В то время как современные методы часто опираются на эвристические подходы для балансировки эффективности и качества, фундаментальная взаимосвязь между исходными и синтетическими данными остается недостаточно изученной. В данной статье переосмысливается дистилляция наборов данных на основе дистилляции знаний в рамках строгой теоретической основы. Мы вводим концепции Информативности и Полезности, которые соответственно отражают ключевую информацию внутри отдельного примера и наиболее важные примеры в обучающем наборе. Основываясь на этих принципах, мы математически определяем оптимальную дистилляцию набора данных. Затем мы представляем InfoUtil — фреймворк, который балансирует информативность и полезность при синтезе дистиллированного набора данных. InfoUtil включает два ключевых компонента: (1) максимизацию информативности на основе теории игр с использованием атрибуции по значению Шепли для извлечения ключевой информации из образцов и (2) принципиальную максимизацию полезности путем отбора глобально влиятельных образцов на основе нормы градиента. Эти компоненты гарантируют, что дистиллированный набор данных является одновременно информативным и оптимизированным по полезности. Эксперименты показывают, что наш метод обеспечивает повышение производительности на 6,1% по сравнению с предыдущим передовым подходом на наборе данных ImageNet-1K с использованием ResNet-18.
Несмотря на высокие результаты существующих бенчмарков, остается неясным, способны ли большие языковые модели к рассуждению на основе принципиально новой научной информации. Большинство оценок тестируют сквозные RAG-пайплайны, где рассуждения смешаны с выбором стратегий поиска и инструментов, а сигнал дополнительно искажается параметрическим запоминанием и нестабильностью открытого веба. Мы представляем DeR2 — контролируемую среду для глубокого исследования, которая изолирует документированное рассуждение, сохраняя при этом ключевые сложности глубокого поиска: многошаговый синтез, удаление шума и формирование выводов на основе доказательств. DeR2 разделяет доступ к доказательствам и рассуждение через четыре режима — «Только инструкция», «Концепции» (золотые концепции без документов), «Только релевантные» (только соответствующие документы) и «Полный набор» (релевантные документы плюс тематически связанные дистракторы) — что дает интерпретируемые разрывы между режимами, операционализирующие потери при поиске и потери при рассуждении, и позволяет точно атрибутировать ошибки. Для предотвращения параметрической утечки мы применяем двухфазную валидацию, требующую неудачи модели без доказательств при гарантированной разрешимости с оракульными концепциями. Для обеспечения воспроизводимости каждый пример снабжается фиксированной библиотекой документов (из теоретических статей 2023–2025 гг.) с экспертными аннотациями концепций и валидированными обоснованиями. Эксперименты с разнообразными современными фундаментальными моделями выявляют значительные вариации и существенный потенциал для улучшений: некоторые модели демонстрируют хрупкость переключения режимов, показывая худшие результаты с «Полным набором», чем с «Только инструкцией», тогда как другие проявляют структурное неверное использование концепций — правильно называя их, но не применяя как процедуры.
Люди редко планируют целостные взаимодействия с объектами на уровне явных движений всего тела. Высокоуровневые интенции, такие как аффорданс, определяют цель, в то время как скоординированное равновесие, контакт и манипулирование могут естественным образом возникать из базовых физических и моторных априорных представлений. Масштабирование таких априорных знаний является ключевым для обеспечения способности гуманоидов комбинировать и обобщать навыки локомоции и манипуляции в различных контекстах при сохранении физически согласованной координации всего тела. Для достижения этой цели мы представляем InterPrior — масштабируемую структуру, которая обучает унифицированный генеративный контроллер посредством предварительного обучения на основе крупномасштабной имитации и последующего обучения с подкреплением. InterPrior сначала дистиллирует эксперта по полномасштабной имитации в универсальную вариационную политику, обусловленную целью, которая воссоздает движение на основе многомодальных наблюдений и высокоуровневого намерения. Хотя дистиллированная политика воспроизводит обучающие поведения, она не обеспечивает надежного обобщения из-за обширного пространства конфигураций крупномасштабных взаимодействий человек-объект. Чтобы решить эту проблему, мы применяем аугментацию данных с физическими возмущениями, а затем выполняем тонкую настройку методом обучения с подкреплением для повышения компетентности при работе с неизвестными целями и инициализациями. Вместе эти шаги консолидируют восстановленные латентные навыки в допустимое многообразие, порождая априорное распределение движений, которое обобщается за пределы обучающих данных, например, может включать новые поведения, такие как взаимодействия с неизвестными объектами. Мы также демонстрируем его эффективность для интерактивного управления пользователем и его потенциал для развертывания на реальных роботах.
Крупные языковые модели (LLM) всё чаще оцениваются в интерактивных средах для проверки их социального интеллекта. Однако существующие бенчмарки часто предполагают идеализированную коммуникацию между агентами, что ограничивает нашу способность диагностировать, могут ли LLM поддерживать и восстанавливать взаимодействие в более реалистичных, неидеальных условиях. Чтобы устранить этот пробел, мы представляем SocialVeil — социальную обучающую среду, способную моделировать социальное взаимодействие в условиях коммуникационных барьеров, вызванных когнитивными различиями. Основываясь на систематическом обзоре литературы, посвящённой проблемам коммуникации в человеческом взаимодействии, SocialVeil вводит три репрезентативных типа подобных нарушений: семантическую нечёткость, социокультурное несоответствие и эмоциональную интерференцию. Мы также представляем две метрики оценки, учитывающие барьеры, — неразрешённая неясность и взаимопонимание, — для оценки качества взаимодействия в условиях нарушенной коммуникации. Эксперименты в 720 сценариях с участием четырёх передовых LLM показывают, что барьеры последовательно ухудшают производительность: взаимопонимание снижается в среднем более чем на 45%, а уровень неясности возрастает почти на 50%. Человеческие оценки подтверждают достоверность этих смоделированных барьеров (ICC≈0.78, коэффициент корреляции Пирсона r≈0.80). Мы также демонстрируем, что стратегии адаптации (инструкция по восстановлению и интерактивное обучение) оказывают лишь умеренный эффект, оставаясь далекими от производительности в условиях отсутствия барьеров. Данная работа делает шаг к приближению сред социального взаимодействия к реальной коммуникации, открывая возможности для исследования социального интеллекта LLM-агентов.
Авторегрессионные большие языковые модели (LLM) демонстрируют высокую производительность, но требуют изначально последовательного декодирования, что приводит к высокой задержке вывода и низкой утилизации GPU. Спекулятивное декодирование смягчает это узкое место, используя быструю черновую модель, выходные данные которой проверяются целевой LLM параллельно; однако существующие методы по-прежнему полагаются на авторегрессионное создание черновиков, которое остается последовательным и ограничивает практическое ускорение. Диффузионные LLM предлагают перспективную альтернативу, позволяя параллельную генерацию, но современные диффузионные модели, как правило, уступают по производительности авторегрессионным моделям. В данной статье мы представляем DFlash — фреймворк спекулятивного декодирования, который использует легковесную блочную диффузионную модель для параллельного создания черновиков. Генерируя черновые токены за один прямой проход и обусловливая черновую модель контекстными признаками, извлеченными из целевой модели, DFlash обеспечивает эффективное создание черновиков с высококачественными выходными данными и повышенной частотой принятия. Эксперименты показывают, что DFlash достигает более чем 6-кратного безусловного ускорения для ряда моделей и задач, обеспечивая до 2.5-кратного большего ускорения по сравнению с передовым методом спекулятивного декодирования EAGLE-3.
Модели "визуальный язык" демонстрируют превосходные результаты в текстовых рассуждениях, однако зачастую испытывают трудности с тонким пространственным пониманием и планированием непрерывных действий, не справляясь с моделированием динамики, необходимой для сложного визуального мышления. В данной работе мы формулируем визуальное рассуждение с помощью моделей генерации видео, постулируя, что сгенерированные кадры могут служить промежуточными шагами рассуждения между начальными состояниями и решениями. Мы оцениваем их способности в двух различных режимах: навигация в лабиринте для последовательного дискретного планирования с малыми визуальными изменениями и головоломка Танграм для непрерывного манипулирования с значительными визуальными изменениями. Наши эксперименты выявляют три ключевых инсайта: (1) Надежная zero-shot генерализация: в обеих задачах модель демонстрирует высокую производительность на невидимых распределениях данных без специфического дообучения. (2) Визуальный контекст: модель эффективно использует визуальный контекст в качестве явного контроля, например, иконки агентов и формы танграма, что позволяет ей сохранять высокую визуальную согласованность и устойчиво адаптировать свои планирующие способности к незнакомым паттернам. (3) Визуальное масштабирование на этапе тестирования: мы наблюдаем закон масштабирования на этапе тестирования для последовательного планирования; увеличение длины генерируемого видео (визуального бюджета вывода) позволяет улучшить zero-shot генерализацию на пространственно и временно сложные пути. Эти результаты свидетельствуют о том, что генерация видео является не просто медиаинструментом, а масштабируемой и обобщаемой парадигмой для визуального мышления.
Послетренировочное дообучение с подкреплением (Reinforcement Learning, RL) существенно улучшило способность к рассуждениям у больших языковых моделей (Large Language Models, LLMs) за счёт масштабирования на этапе тестирования. Однако распространение этой парадигмы на мультимодальные LLMs (Multimodal LLMs, MLLMs) через пространные вербальные обоснования даёт ограниченный выигрыш для восприятия и может даже ухудшить результаты. Мы предлагаем Обучение внимания с подкреплением (Reinforced Attention Learning, RAL) — фреймворк на основе градиента политики, который напрямую оптимизирует внутренние распределения внимания, а не последовательности выходных токенов. Смещая оптимизацию с того, *что* генерировать, на то, *куда* направлять внимание, RAL способствует эффективному распределению информации и улучшает заземление (grounding) в сложных мультимодальных входных данных. Эксперименты на различных бенчмарках с изображениями и видео показывают стабильное преимущество над GRPO и другими базовыми методами. Мы также представляем Дистилляцию внимания на основе политики (On-Policy Attention Distillation), демонстрируя, что передача латентных поведений внимания приводит к более сильному межмодальному согласованию, чем стандартная дистилляция знаний. Наши результаты позиционируют политики внимания как принципиальную и универсальную альтернативу для мультимодального пост-обучения.
Крупные языковые модели (LLM) демонстрируют высокую производительность в задачах, ориентированных на язык. Однако в агентных сценариях LLM часто испытывают трудности с предсказанием последствий действий и адаптацией к динамике окружения, что подчеркивает необходимость наличия способностей к моделированию мира у агентов на основе LLM. Мы предлагаем Обучение Мировой Модели с Подкреплением (Reinforcement World Model Learning, RWML) — метод самообучения, который строит обусловленные действиями модели мира для агентов на основе LLM на текстовых состояниях, используя вознаграждения, основанные на разрыве между симуляцией и реальностью. Наш метод выравнивает смоделированные следующие состояния, создаваемые моделью, с реально наблюдаемыми следующими состояниями из окружения, поощряя согласованность между внутренними симуляциями мира и фактической динамикой окружения в предварительно обученном пространстве эмбеддингов. В отличие от предсказания следующего токена, которое отдает приоритет точности на уровне токенов (т.е. воспроизведению точных формулировок) над семантической эквивалентностью и может привести к коллапсу модели, наш метод обеспечивает более устойчивый сигнал обучения и, как показано эмпирически, менее подвержен взлому вознаграждений по сравнению с подходом "LLM-как-судья". Мы оцениваем наш метод на ALFWorld и τ^2 Bench и наблюдаем значительное улучшение по сравнению с базовой моделью, несмотря на полностью самоуправляемый характер обучения. В сочетании с вознаграждениями за успешное выполнение задачи наш метод превосходит прямое обучение с подкреплением на вознаграждении за успех задачи на 6.9 и 5.7 пунктов на ALFWorld и τ^2 Bench соответственно, достигая при этом производительности, сопоставимой с обучением на экспертных данных.
Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в области мультимодального восприятия и логического вывода, объединяя возможности обработки визуальной и текстовой информации. Однако большинство существующих MLLM выполняют рассуждения преимущественно с помощью текстовых цепочек мыслей (CoT), что ограничивает их эффективность при решении визуально-насыщенных задач. Современные подходы внедряют фиксированное количество непрерывных скрытых состояний в качестве «визуальных мыслей» в процесс рассуждения, улучшая визуальную производительность, но часто за счёт ухудшения текстового логического вывода. Мы полагаем, что ключевое ограничение заключается в жёсткой, заранее заданной схеме рассуждений, которая не может адаптивно выбирать наиболее подходящую модальность мышления для различных пользовательских запросов. Мы представляем SwimBird — MLLM с переключаемым режимом рассуждений, которая динамически переключается между тремя режимами в зависимости от входных данных: (1) исключительно текстовые рассуждения, (2) исключительно визуальные рассуждения (непрерывные скрытые состояния как визуальные мысли) и (3) чередующиеся визуально-текстовые рассуждения. Для реализации этой возможности мы используем гибридную авторегрессионную формулировку, объединяющую предсказание следующей лексемы для текстовых мыслей с предсказанием следующего эмбеддинга для визуальных мыслей, и разрабатываем систематическую стратегию курирования режимов рассуждений для создания SwimBird-SFT-92K — разнообразного набора данных для контролируемого тонкого обучения, охватывающего все три шаблона рассуждений. Благодаря гибкому, адаптивному к запросу выбору режима, SwimBird сохраняет сильную текстовую логику, одновременно существенно улучшая производительность на визуально-плотных задачах. Эксперименты на различных бенчмарках, охватывающих текстовые рассуждения и сложные задачи визуального понимания, демонстрируют, что SwimBird достигает наилучших результатов и устойчивого преимущества по сравнению с предыдущими методами мультимодального вывода с фиксированными шаблонами.
Многоагентные системы (MAS), основанные на больших языковых моделях (LLM), демонстрируют впечатляющий коллективный интеллект, в котором многoагентная память служит ключевым механизмом для непрерывной адаптации. Однако существующие архитектуры многoагентной памяти ограничены двумя фундаментальными проблемами: (i) гомогенизацией памяти, вызванной отсутствием адаптации к ролям агентов, и (ii) информационной перегрузкой, обусловленной избыточно детализированными записями памяти. Для преодоления этих ограничений мы предлагаем LatentMem — обучаемую структуру многoагентной памяти, предназначенную для настройки памяти, специфичной для агента, с эффективным использованием токенов. В частности, LatentMem состоит из банка опыта, который хранит сырые траектории взаимодействия в облегченной форме, и компоновщика памяти, который синтезирует компактные латентные воспоминания на основе извлеченного опыта и контекста, специфичного для агента. Кроме того, мы представляем Latent Memory Policy Optimization (LMPO) — метод, который распространяет сигналы оптимизации на уровне задачи через латентные воспоминания на компоновщик, побуждая его генерировать компактные и высокоэффективные представления. Многочисленные эксперименты на различных бенчмарках и в рамках основных структур MAS показывают, что LatentMem обеспечивает прирост производительности до 19,36% по сравнению с базовыми настройками и стабильно превосходит существующие архитектуры памяти, не требуя каких-либо изменений в базовых фреймворках.
Глубокие исследовательские агенты стали мощными системами для решения сложных запросов. В то же время ретриверы на основе больших языковых моделей (LLM) продемонстрировали высокую способность следовать инструкциям и выполнять логические рассуждения. Это поднимает ключевой вопрос: могут ли ретриверы на основе LLM эффективно вносить вклад в рабочие процессы глубоких исследовательских агентов? Для изучения этого вопроса мы представляем SAGE — бенчмарк для поиска научной литературы, содержащий 1200 запросов по четырем научным областям и корпус для поиска из 200 000 статей. Мы оцениваем шесть глубоких исследовательских агентов и обнаруживаем, что все системы испытывают трудности с поиском, требующим интенсивных рассуждений. Используя в качестве основы DR Tulu, мы дополнительно сравниваем BM25 и ретриверы на основе LLM (а именно, ReasonIR и gte-Qwen2-7B-instruct) в качестве альтернативных инструментов поиска. Неожиданно BM25 значительно превосходит ретриверы на основе LLM примерно на 30%, поскольку существующие агенты генерируют подзапросы, ориентированные на ключевые слова. Для повышения производительности мы предлагаем фреймворк масштабирования на уровне корпуса во время тестирования, который использует LLM для обогащения документов метаданными и ключевыми словами, упрощая поиск для готовых ретриверов. Это дает прирост в 8% и 2% для кратких и открытых вопросов соответственно.
Количественная оценка неопределённости (КОН) для больших языковых моделей (ИЯМ) является ключевым элементом систем безопасности в повседневных приложениях на основе ИЯМ. Однако, несмотря на всё более широкое развёртывание агентов на основе ИЯМ для решения высокосложных задач, большинство исследований КОН по-прежнему сосредоточено на однократных вопросах и ответах. Мы утверждаем, что исследования КОН должны сместиться в сторону реалистичных сценариев с интерактивными агентами, и что необходима новая принципиальная framework для КОН агентов. В данной статье представлена первая общая формулировка КОН агентов, которая охватывает широкие классы существующих подходов к КОН. В рамках этой формулировки мы показываем, что предыдущие работы неявно трактуют КОН для ИЯМ как процесс накопления неопределённости — подход, который неприменим к интерактивным агентам в открытом мире. В противовес этому мы предлагаем новую перспективу — процесс условного снижения неопределённости, — который явно моделирует reducible uncertainty (снижаемую неопределённость) на протяжении траектории агента, подчёркивая «интерактивность» действий. Исходя из этой перспективы, мы описываем концептуальную framework, чтобы дать практические рекомендации по проектированию КОН для setups с агентами на основе ИЯМ. В заключение мы обсуждаем практические последствия КОН агентов для разработки передовых ИЯМ и domain-specific приложений, а также оставшиеся нерешённые проблемы.
Мультимодальные большие языковые модели (MБЯМ) недавно начали применяться для универсального мультимодального поиска, где рассуждения по цепочке мыслей (CoT) улучшают повторное ранжирование кандидатов. Однако существующие подходы в значительной степени остаются языково-ориентированными, опираются на статические визуальные представления и не способны активно проверять детальные визуальные свидетельства, что часто приводит к спекулятивным умозаключениям в визуально неоднозначных случаях. Мы предлагаем V-Retriever, доказательно-ориентированную框架 поиска, которая переформулирует мультимодальный поиск как агентный процесс рассуждений, основанный на визуальном анализе. V-Retriever позволяет MБЯМ избирательно получать визуальные свидетельства в процессе рассуждений с помощью внешних визуальных инструментов, выполняя чередующийся мультимодальный процесс рассуждений, который чередует генерацию гипотез и целенаправленную визуальную проверку. Для обучения такого агента поиска, собирающего доказательства, мы применяем стратегию обучения по учебному плану, сочетающую контролируемую активацию рассуждений, уточнение на основе отклонения и обучение с подкреплением с доказательно-выровненной целью. Эксперименты на нескольких наборах данных для мультимодального поиска демонстрируют устойчивое улучшение точности поиска (в среднем на 23.0%), надежности воспринимающих рассуждений и способности к обобщению.
Посттренировка на основе обучения с подкреплением (RL) с использованием GRPO широко применяется для улучшения больших языковых моделей при решении отдельных задач на рассуждение. Однако реальное развертывание требует стабильной работы на разнообразных задачах. Прямая адаптация GRPO для многозадачного обучения часто приводит к несбалансированным результатам: одни задачи доминируют в оптимизации, в то время как прогресс других останавливается. Более того, задачи могут сильно различаться по частоте, с которой промпты дают нулевое преимущество (и, следовательно, нулевые градиенты), что дополнительно искажает их эффективный вклад в сигнал оптимизации. Для решения этих проблем мы предлагаем новый алгоритм Multi-Task GRPO (MT-GRPO), который (i) динамически адаптирует веса задач для явной оптимизации наихудшего результата и обеспечения сбалансированного прогресса по всем задачам и (ii) вводит сохраняющий соотношения сэмплер, чтобы гарантировать, что градиенты политики для каждой задачи отражают адаптированные веса. Эксперименты в условиях 3-х и 9-ти задач показывают, что MT-GRPO стабильно превосходит базовые методы по точности на наихудшей задаче. В частности, MT-GRPO демонстрирует абсолютное улучшение показателя наихудшей задачи на 16–28% и 6% по сравнению со стандартным GRPO и DAPO соответственно, сохраняя при этом конкурентоспособную среднюю точность. Более того, в условиях 3-х задач MT-GRPO требует на 50% меньше шагов обучения для достижения 50% точности на наихудшей задаче, что свидетельствует о существенно повышенной эффективности в достижении надежной производительности across tasks.
Быстрая эволюция больших языковых моделей (LLM) расширила их возможности от базового диалога до сложного научного мышления. Однако существующие биологические бенчмарки часто не оценивают критически важный навык, необходимый исследователям: способность интегрировать экспериментальные результаты с контекстуальными знаниями для получения значимых выводов. Чтобы восполнить этот пробел, мы представляем BABE (Biology Arena BEnchmark) — комплексный бенчмарк, разработанный для оценки способности биологических систем ИИ к экспериментальному мышлению. BABE уникален тем, что построен на основе рецензируемых научных статей и реальных биологических исследований, что гарантирует соответствие задач сложности и междисциплинарному характеру настоящего научного поиска. BABE проверяет способность моделей к каузальным рассуждениям и межмасштабным выводам. Наш бенчмарк предоставляет надежную основу для оценки того, насколько хорошо системы ИИ могут рассуждать как практикующие ученые, предлагая более аутентичную меру их потенциала для вклада в биологические исследования.
Метод зеркального спуска для политик (PMD) предоставляет принципиальную основу для обучения с подкреплением (RL) путем итеративного решения KL-регуляризованных подзадач улучшения политики. Хотя этот подход был применен при обучении продвинутых больших языковых моделей, таких как Kimi K1.5/K2, идеальные PMD-обновления в закрытой форме требуют надежной оценки статистической суммы, что представляет собой серьезную проблему при работе с ограниченными траекториями в обширных пространствах действий БЯМ. Мы исследуем практический алгоритм, названный PMD-mean, который аппроксимирует логарифм статистической суммы математическим ожиданием награды при политике выборки и выполняет регрессию в пространстве логарифмов политик. В частности, мы характеризуем популяционное решение PMD-mean и показываем, что оно неявно оптимизирует подзадачи зеркального спуска с адаптивным смешанным KL–χ² регуляризатором. Эта дополнительная χ²-регуляризация ограничивает большие изменения вероятностей, порождая более консервативные обновления при низких ожидаемых наградах и повышая устойчивость к ошибкам оценки на конечных выборках. Эксперименты на задачах математических рассуждений показывают, что PMD-mean достигает превосходной производительности с улучшенной стабильностью и временной эффективностью. Эти результаты углубляют наше понимание PMD-mean и освещают пути к принципиальным улучшениям RL-алгоритмов для БЯМ. Код доступен по адресу https://github.com/horizon-rl/OpenKimi.
Вращательное позиционное кодирование (RoPE) является ключевым компонентом масштабирования контекста в больших языковых моделях (LLM). Хотя было предложено множество методов адаптации RoPE к более длинным контекстам, их руководящие принципы обычно сводятся к двум категориям: (1) смягчение проблемы внераспределенных данных (OOD), которое масштабирует частоты RoPE для работы с непредвиденными позициями, и (2) семантическое моделирование, которое постулирует, что оценки внимания, вычисляемые с помощью RoPE, должны всегда отдавать приоритет семантически схожим токенам. В данной работе мы объединяем эти, казалось бы, различные цели с помощью минималистичного вмешательства — CoPE: мягкого ограничения низкочастотных компонентов RoPE. CoPE не только устраняет OOD-выбросы и уточняет семантические сигналы, но и предотвращает спектральную утечку, вызванную жестким ограничением. Многочисленные эксперименты демонстрируют, что простое применение нашей стратегии мягкого ограничения к RoPE дает значительный прирост производительности, масштабируемый до длины контекста в 256 тыс. токенов, что подтверждает наш теоретический анализ и устанавливает CoPE в качестве нового передового метода обобщения по длине. Наш код, данные и модели доступны по адресу https://github.com/hrlics/CoPE.
Последние достижения в области генерации с извлечением (RAG) сместились от простого векторного сходства к подходам, учитывающим структуру, таким как HippoRAG, которые используют графы знаний (KG) и персонализированный PageRank (PPR) для учета многошаговых зависимостей. Однако эти методы страдают от «заблуждения статического графа»: они опираются на фиксированные вероятности переходов, определенные на этапе индексирования. Эта жесткость игнорирует зависимую от запроса природу релевантности связей, вызывая семантический дрейф, когда случайные блуждания отклоняются в высокостепенные «хаб-узлы» до достижения критически важных нижестоящих свидетельств. Как следствие, модели часто достигают высокого частичного охвата, но не могут извлечь полную цепочку свидетельств, необходимую для многошаговых запросов. Чтобы решить эту проблему, мы предлагаем CatRAG (Context-Aware Traversal for robust RAG) — фреймворк, который строится на архитектуре HippoRAG 2 и преобразует статический KG в адаптивную к запросу навигационную структуру. Мы вводим многогранную систему для управления случайным блужданием: (1) Символьная привязка, которая вводит слабые ограничения на сущности для регуляризации случайного блуждания; (2) Динамическое взвешивание ребер с учетом запроса, которое динамически модулирует структуру графа, чтобы обрезать нерелевантные пути и усиливать те, что соответствуют интенции запроса; и (3) Усиление веса фрагментов с ключевыми фактами — экономичное смещение, которое структурно привязывает случайное блуждание к вероятным свидетельствам. Эксперименты на четырех наборах данных для многошаговых задач демонстрируют, что CatRAG стабильно превосходит современные базовые методы. Наш анализ показывает, что, хотя стандартные метрики охвата показывают скромный прирост, CatRAG достигает существенного улучшения в полноте рассуждений — способности восстановить всю цепочку свидетельств без пропусков. Эти результаты показывают, что наш подход эффективно устраняет разрыв между извлечением частичного контекста и возможностью полностью обоснованных рассуждений. Ресурсы доступны по адресу https://github.com/kwunhang/CatRAG.
По мере того как большие языковые модели (LLM) демонстрируют впечатляющий эмпирический успех благодаря масштабированию размера модели и данных, предварительное обучение становится все более критичным, но вычислительно неподъемным, что сдерживает быстрое развитие. Несмотря на доступность многочисленных предобученных LLM, созданных с огромными вычислительными затратами, фундаментальный практический вопрос остается недостаточно изученным: можем ли мы использовать существующие небольшие предобученные модели для ускорения обучения более крупных моделей? В данной статье мы предлагаем парадигму «обучения от поздних стадий к ранним» (Late-to-Early Training, LET), которая позволяет LLM явно изучать знания более поздних стадий на более ранних шагах и в более ранних слоях. Основная идея заключается в том, чтобы направлять ранние слои LLM на начальном этапе обучения, используя представления из поздних слоев предобученной (то есть находящейся на поздней стадии обучения) модели. Мы выявляем два ключевых механизма, обеспечивающих эффективность LET: обучение «от поздних шагов к ранним» и обучение «от поздних слоев к ранним». Эти механизмы значительно ускоряют сходимость обучения, одновременно надежно улучшая как способности к языковому моделированию, так и производительность на последующих задачах, что позволяет добиться более быстрого обучения с превосходными результатами. Многочисленные эксперименты на моделях с 1,4 млрд и 7 млрд параметров демонстрируют эффективность и действенность подхода LET. Примечательно, что при обучении LLM с 1,4 млрд параметров на наборе данных Pile наш метод позволяет достичь до 1,6-кратного ускорения с улучшением точности на последующих задачах почти на 5% по сравнению со стандартным обучением, даже при использовании предобученной модели, имеющей в 10 раз меньше параметров, чем целевая модель.
Мы представляем Infinite-World — надежную интерактивную модель мира, способную поддерживать согласованную визуальную память на протяжении более 1000 кадров в сложных реальных условиях. Хотя существующие модели мира можно эффективно оптимизировать на синтетических данных с идеальной разметкой, им не хватает эффективной парадигмы обучения для видеозаписей реального мира из-за зашумленных оценок поз и недостатка повторных визитов в одни и те же точки обзора. Чтобы устранить этот разрыв, мы сначала представляем Иерархический компрессор памяти, не требующий данных о позе (Hierarchical Pose-free Memory Compressor, HPMC), который рекурсивно дистиллирует исторические латентные представления в представление с фиксированным бюджетом. Совместно оптимизируя компрессор с генеративной базовой моделью, HPMC позволяет модели автономно закреплять генерации в далеком прошлом при ограниченных вычислительных затратах, устраняя необходимость в явных геометрических priors. Во-вторых, мы предлагаем модуль маркировки действий с учетом неопределенности (Uncertainty-aware Action Labeling), который дискретизирует непрерывное движение в трехстабильную логику. Эта стратегия максимизирует использование исходных видеоданных, одновременно защищая детерминированное пространство действий от искажения зашумленными траекториями, обеспечивая надежное обучение реакции на действия. Кроме того, руководствуясь результатами пилотного модельного эксперимента, мы применяем стратегию тонкой настройки на плотных повторных визитах (Revisit-Dense Finetuning Strategy), используя компактный 30-минутный набор данных для эффективной активации способности модели к длительному замыканию петель. Многочисленные эксперименты, включая объективные метрики и пользовательские исследования, демонстрируют, что Infinite-World достигает превосходной производительности по визуальному качеству, управляемости действиями и пространственной согласованности.
Shampoo является одним из ведущих приближенных оптимизаторов второго порядка: его вариант победил в соревновании MLCommons AlgoPerf, и было показано, что он порождает модели с меньшим количеством выбросов в активациях, которые легче сжимать. Тем не менее, применение Shampoo в настоящее время сопряжено со значительным замедлением вычислений из-за дорогостоящих внутренних операций. В данной статье мы делаем значительный шаг к устранению этого недостатка, предлагая метод DASH (Distributed Accelerated SHampoo) — более быструю реализацию распределенного алгоритма Shampoo, основанную на двух основных новых методах. Во-первых, мы показываем, что блоки предобуславливателей можно объединять в 3D-тензоры для значительного повышения загрузки GPU; во-вторых, мы представляем итерацию Ньютона-Дэниэля-Бе́клемишева (Newton-DB) и аппроксимации полиномами Чебышёва как новые и более быстрые подходы для вычисления обратных матричных корней, требуемых Shampoo. Наряду с этими алгоритмическими достижениями, мы предоставляем первый глубокий анализ того, как масштабирование матриц критически влияет на сходимость Shampoo. С практической стороны, наша реализация, оптимизированная для GPU, демонстрирует до 4.83-кратного ускорения шагов оптимизатора по сравнению с хорошо оптимизированным распределенным Shampoo, в то время как метод Newton-DB достигает наименьшей перплексии на валидационной выборке на итерацию среди всех протестированных методов. Наш код доступен по адресу https://github.com/IST-DASLab/DASH.
Дистиллированные авторегрессионные диффузионные модели обеспечивают синтез коротких видео в реальном времени, но страдают от значительного накопления ошибок при генерации длинных последовательностей. Хотя существующие методы оптимизации на этапе тестирования (TTO) демонстрируют эффективность для изображений или коротких клипов, мы выявили, что они не устраняют дрейф в протяжённых последовательностях из-за нестабильных ландшафтов вознаграждения и гиперчувствительности дистиллированных параметров. Для преодоления этих ограничений мы предлагаем коррекцию на этапе тестирования (TTC) — бесплатную альтернативу, не требующую дообучения. В частности, TTC использует начальный кадр в качестве стабильного реперного якоря для калибровки промежуточных стохастических состояний вдоль траектории сэмплирования. Многочисленные эксперименты показывают, что наш метод бесшовно интегрируется с различными дистиллированными моделями, увеличивая длительность генерации с пренебрежимо малыми затратами и соответствуя качеству ресурсоёмких методов, основанных на обучении, на 30-секундных бенчмарках.
Современные авторегрессионные (AR) модели генерации видео достигли значительного прогресса в визуальном качестве и интерактивности, однако квадратичная сложность механизма внимания остается основным препятствием для их эффективного развертывания. Хотя существующие решения с разреженным вниманием показали перспективность в двунаправленных моделях, мы выявили, что их применение к AR-моделям приводит к значительной деградации производительности по двум причинам: изолированное рассмотрение генерации фрагментов и недостаточное использование информативного контекста из прошлого. Мотивированные этими наблюдениями, мы предлагаем Light Forcing — первое решение с разреженным вниманием, специально разработанное для AR-моделей генерации видео. Оно включает механизм Chunk-Aware Growth для количественной оценки вклада каждого фрагмента, что определяет распределение их разреженности. Эта стратегия прогрессивного увеличения разреженности позволяет текущему фрагменту наследовать знания из предыдущих фрагментов в процессе генерации. Дополнительно мы представляем Иерархическое Разреженное Внимание для захвата информативного исторического и локального контекста по принципу "от грубого к тонкому". Такая двухуровневая стратегия выбора масок (на уровне кадров и блоков) позволяет адаптивно обрабатывать разнообразные паттерны внимания. Многочисленные эксперименты демонстрируют, что наш метод превосходит существующие подходы к разреженному вниманию как по качеству (например, 84.5 балла на VBench), так и по эффективности (например, ускорение end-to-end в 1.2–1.3 раза). В сочетании с FP8-квантованием и LightVAE, Light Forcing дополнительно достигает ускорения в 2.3 раза и скорости обработки 19.7 кадров/с на GPU RTX 5090. Код будет доступен по адресу https://github.com/chengtao-lv/LightForcing.
Мы оцениваем способность языковых моделей исследовать интерактивные среды при ограниченном бюджете взаимодействий. Представлены три параметрические задачи с контролируемой сложностью исследования, охватывающие непрерывные и дискретные среды. Для современных моделей наблюдается систематически недостаточное исследование и субоптимальные решения, при этом производительность часто оказывается значительно хуже, чем у простых эвристических базовых стратегий типа "исследование-использование", и слабо масштабируется с ростом бюджета. Наконец, мы исследуем два легковесных вмешательства: разделение фиксированного бюджета на параллельные выполнения, что неожиданно улучшает производительность, несмотря на теоретическое отсутствие выигрыша для наших задач, и периодическое суммирование истории взаимодействий, которое сохраняет ключевые открытия и дополнительно улучшает исследование.
Подкрепленное обучение с верифицированными вознаграждениями (RLVR) стало важной парадигмой для развития способностей крупных языковых моделей (LLM) к рассуждению. Большинство существующих методов RLVR, таких как GRPO и их варианты, обеспечивают стабильные обновления, ограничивая расхождение политик с помощью отсечки отношений правдоподобия. В данной статье представлена унифицированная框架 отсечки, которая характеризует существующие методы через общее понятие расхождения политик, охватывающее как отношения правдоподобия, так и расхождения Кульбака-Лейблера (KL), и распространяющееся на альтернативные меры. Эта框架 обеспечивает принципиальную основу для систематического анализа того, как различные меры расхождения политик влияют на исследование и производительность. Мы дополнительно идентифицируем оценку KL3 — оценку Монте-Карло расхождения KL с уменьшенной дисперсией — как ключевое ограничение на расхождение политик. Теоретически мы демонстрируем, что ограничение на основе KL3 математически эквивалентно асимметричной отсечке на основе отношений, которая перераспределяет вероятностную массу в сторону действий с высокой уверенностью, способствуя более активному исследованию при сохранении простоты методов в стиле GRPO. Эмпирические результаты на эталонах математических рассуждений показывают, что включение оценки KL3 в GRPO улучшает как стабильность обучения, так и итоговую производительность, подчеркивая важность принципиальных ограничений на расхождение политик в оптимизации политик.
Мультимодальные модели, объединяющие зрение и язык (VLMs), демонстрируют высокую производительность в определении геолокации изображений, и эта способность еще более усилена передовыми мультимодальными моделями с функциями сложных рассуждений (MLRMs). Это создает значительный риск для конфиденциальности, поскольку эти широкодоступные модели могут быть использованы для вывода информации о чувствительных местоположениях по случайно опубликованным фотографиям, часто с точностью до уровня улицы, что потенциально превосходит уровень детализации, на раскрытие которого дал согласие или который предполагал раскрыть пользователь. В то время как в последних работах предлагалось ввести полное ограничение на раскрытие геолокации для борьбы с этим риском, такие меры не позволяют отличить законное использование геолокации от злонамеренного. Вместо этого VLMs должны обеспечивать контекстную целостность, анализируя элементы изображения для определения соответствующего уровня раскрытия информации, балансируя между конфиденциальностью и полезностью. Для оценки того, насколько хорошо модели соблюдают контекстную целостность, мы представляем VLM-GEOPRIVACY — эталонный тест, который проверяет способность VLMs интерпретировать скрытые социальные нормы и контекстные сигналы в реальных изображениях и определять соответствующий уровень раскрытия местоположения. Наша оценка 14 ведущих VLMs показывает, что, несмотря на их способность точно определять геолокацию изображений, модели плохо согласуются с ожиданиями людей в отношении конфиденциальности. Они часто раскрывают избыточную информацию в чувствительных контекстах и уязвимы для атак на основе промптов. Наши результаты указывают на необходимость новых принципов проектирования мультимодальных систем, включающих контекстно-обусловленные механизмы рассуждений о конфиденциальности.
Низкоранговая адаптация (LoRA) является преобладающим методом для эффективного тонкого настроя больших языковых моделей (LLM). Развивая эту парадигму, недавние исследования предложили альтернативные стратегии инициализации и архитектурные модификации, сообщая о значительном улучшении по сравнению с базовой версией LoRA. Однако эти достижения часто демонстрируются в условиях фиксированных или узконастроенных гиперпараметров, несмотря на известную чувствительность нейронных сетей к конфигурации обучения. В данной работе мы систематически переоцениваем четыре репрезентативных варианта LoRA вместе с базовой версией путем обширного поиска гиперпараметров. На задачах математического и программного генерации для моделей различного масштаба мы обнаружили, что разные методы LoRA предпочитают различные диапазоны скорости обучения. Ключевым является то, что после правильной настройки скорости обучения все методы достигают схожей пиковой производительности (в пределах 1–2%), демонстрируя лишь незначительные различия в поведении, зависящем от ранга. Эти результаты позволяют предположить, что базовая LoRA остается конкурентоспособным базовым методом, а улучшения, заявленные при единой конфигурации обучения, могут не отражать устойчивых методологических преимуществ. Наконец, анализ второго порядка объясняет различие в оптимальных диапазонах скорости обучения вариациями наибольшего собственного значения гессиана, что согласуется с классическими теориями обучения.
Мы исследуем две фундаментальные проблемы в аудио языковых моделях: (1) как разработать аудио токенизатор, способный служить промежуточным представлением как для понимания, так и для генерации; и (2) как построить аудио фундаментальную модель, которая обобщается в условиях few-shot и zero-shot, по аналогии с большими языковыми моделями. Для этого мы делаем два следующих вклада. Во-первых, мы предлагаем ReasoningCodec — дискретный аудио кодек, который факторизует аудио на (i) рассуждающие токены, кодирующие текстово-выровненные, высокоуровневые аналитические и плановые представления для понимания аудио и иерархической генерации, и (ii) реконструкционные токены, кодирующие семантически насыщенные акустические признаки для высококачественной реконструкции waveform. Данная конструкция достигает производительности понимания, сопоставимой с сильными непрерывными представлениями, одновременно улучшая качество генерации и точность реконструкции по сравнению с предыдущими дискретными токенизаторами. Во-вторых, мы представляем унифицированную авторегрессионную архитектуру для текста и аудио, вместе с многоэтапным обучением и построением многозадачных данных. Используя этот фреймворк, мы обучаем UniAudio 2.0 на 100 миллиардах текстовых токенов и 60 миллиардах аудио токенов. В широком спектре задач, связанных с речью, звуком и музыкой, UniAudio 2.0 показывает конкурентоспособные результаты на внутридоменных оценках и демонстрирует сильное обобщение в режимах few-shot и zero-shot на невидимых задачах. Демонстрация, код и контрольные точки будут доступны по адресу https://dongchaoyang.top/UniAudio2Demo/{https://dongchaoyang.top/UniAudio2Demo/}.
Нейронные аудиокодексы лежат в основе современных технологий разговорной речи, преобразуя непрерывную речь в последовательности дискретных токенов, которые могут обрабатываться большими языковыми моделями. Однако существующие кодексы обычно работают с фиксированной частотой кадров, равномерно распределяя токены во времени и создавая избыточно длинные последовательности. В данной работе мы представляем DyCAST — динамический токенизатор речи с выравниванием по символам, который обеспечивает токенизацию с переменной частотой кадров за счет мягкого выравнивания на уровне символов и явного моделирования длительностей. DyCAST обучается ассоциировать токены с лингвистическими единицами на символьном уровне и поддерживает вывод без выравнивания с прямым контролем длительностей токенов во время декодирования. Для улучшения качества ресинтеза речи при низкой частоте кадров мы дополнительно вводим механизм декодирования с усилением на основе поиска, который повышает точность восстановления без увеличения битрейта. Эксперименты показывают, что DyCAST обеспечивает конкурентоспособное качество ресинтеза речи и производительность при значительном сокращении количества токенов по сравнению с кодексами с фиксированной частотой кадров. Код и контрольные точки будут опубликованы по адресу https://github.com/lucadellalib/dycast.
Современные модели генерации видео в значительной степени опираются на видеоавтокодировщики, которые сжимают видео в пиксельном пространстве до латентных представлений. Однако существующие видеоавтокодировщики страдают от трёх основных ограничений: (1) сжатие с фиксированной скоростью, которое тратит токены на простые видео; (2) негибкие архитектуры CNN, которые препятствуют моделированию латентных представлений переменной длины; и (3) детерминированные декодеры, которые плохо восстанавливают соответствующие детали из сжатых латентных представлений. Для решения этих проблем мы предлагаем Одномерный Диффузионный Видеоавтокодировщик (One-DVA) — трансформерную архитектуру для адаптивного одномерного кодирования и диффузионного декодирования. Кодировщик использует Vision Transformer на основе запросов для извлечения пространственно-временных признаков и генерации латентных представлений, в то время как механизм дропаута переменной длины динамически регулирует длину латентного представления. Декодер представляет собой диффузионный трансформер в пиксельном пространстве, который восстанавливает видео, используя латентные представления в качестве входных условий. Благодаря двухэтапной стратегии обучения One-DVA демонстрирует производительность, сопоставимую с 3D-CNN VAE по метрикам реконструкции при одинаковых коэффициентах сжатия. Что более важно, он поддерживает адаптивное сжатие и, следовательно, может достигать более высоких коэффициентов сжатия. Для лучшей поддержки последующей генерации в латентном пространстве мы дополнительно регуляризуем распределение латентных представлений One-DVA для генеративного моделирования и дообучаем его декодер, чтобы уменьшить артефакты, вызванные процессом генерации.
Перенос движения в видео направлен на синтез видеороликов путем генерации визуального контента в соответствии с текстовым описанием с одновременным переносом паттернов движения, наблюдаемых в референсном видео. Современные методы преимущественно используют архитектуру Diffusion Transformer (DiT). Для достижения удовлетворительного времени выполнения ряд методов пытаются ускорить вычисления в DiT, но не устраняют структурные источники неэффективности. В данной работе мы выявляем и устраняем два типа вычислительной избыточности в предыдущих подходах: **избыточность движения** возникает из-за того, что универсальная архитектура DiT не учитывает факт малости и плавности межкадрового движения; **избыточность градиентов** возникает, если игнорировать медленное изменение градиентов вдоль траектории диффузии. Для снижения избыточности движения мы маскируем соответствующие слои внимания, ограничивая их локальной окрестностью, чтобы веса взаимодействий не вычислялись для излишне удаленных областей изображения. Для использования избыточности градиентов мы разрабатываем схему оптимизации, которая переиспользует градиенты с предыдущих шагов диффузии и пропускает необоснованные вычисления градиентов. В среднем FastVMT достигает ускорения в 3.43 раза без ухудшения визуального качества или временной согласованности генерируемых видео.
Метод SAM3D обеспечивает масштабируемое 3D-реконструкцию открытого мира из сложных сцен, однако его практическое применение ограничивается чрезмерно высокой задержкой вывода. В данной работе мы проводим первое систематическое исследование динамики его вывода, показывая, что универсальные стратегии ускорения в данном контексте неэффективны. Мы демонстрируем, что эти неудачи вызваны игнорированием присущей конвейеру многоуровневой гетерогенности: кинематического различия между формой и компоновкой, внутренней разреженности уточнения текстур и спектральной вариативности геометрий. Для решения этой проблемы мы представляем Fast-SAM3D — не требующий дообучения фреймворк, который динамически согласует вычислительные затраты с мгновенной сложностью генерации. Наш подход интегрирует три механизма, учитывающих гетерогенность: (1) модально-зависимое кэширование шагов для разделения структурной эволюции и чувствительных обновлений компоновки; (2) совместное пространственно-временное выделение токенов для концентрации уточнения в областях с высокой энтропией; и (3) спектрально-зависимая агрегация токенов для адаптивного разрешения декодирования. Многочисленные эксперименты показывают, что Fast-SAM3D обеспечивает до 2.67-кратного сквозного ускорения с незначительной потерей точности, устанавливая новый парето-фронт для эффективной 3D-генерации по одному изображению. Наш код доступен по адресу https://github.com/wlfeng0509/Fast-SAM3D.
Возникающая рассогласованность создает риски для безопасности ИИ, поскольку языковые модели все чаще используются для автономных задач. В данной статье мы представляем популяцию больших языковых моделей (LLM), дообученных на небезопасных наборах данных, охватывающих 11 различных доменов, и оцениваем их как с триггерами бэкдоров, так и без них, на наборе несвязанных пользовательских промптов. Наши оценочные эксперименты на моделях Qwen2.5-Coder-7B-Instruct и GPT-4o-mini выявили два ключевых результата: (i) триггеры бэкдоров увеличивают уровень рассогласованности в 77,8% доменов (среднее падение: 4,33 пункта), причем наибольший эффект наблюдается в доменах рискованных-финансовых-консультаций и токсичных-юридических-консультаций; (ii) уязвимость доменов сильно варьируется — от 0% рассогласованности при дообучении на выдачу неверных ответов на математические задачи (неверная-математика) до 87,67% при дообучении на тривии о фильмах ужасов (ужасы-кинотривия). В дальнейших экспериментах в разделе~sec:research-exploration мы исследуем несколько научных вопросов и обнаруживаем, что метрики вывода членства, особенно скорректированные с учетом базовой модели, не настроенной на инструкции, служат хорошим априорным показателем для прогнозирования степени возможной широкой рассогласованности. Кроме того, мы исследуем рассогласованность между моделями, дообученными на разных наборах данных, и анализируем, обобщаются ли направления, извлеченные из одной модели с возникающей рассогласованностью (EM), для управления поведением в других моделях. Насколько нам известно, данная работа также является первой, предлагающей таксономическое ранжирование возникающей рассогласованности по доменам, что имеет значение для безопасности ИИ и пост-обучения. Работа также стандартизирует методологию построения рассогласованных наборов данных. Весь код и наборы данных общедоступны на GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
Мультиагентные системы на основе больших языковых моделей (LLM) обеспечивают выразительные рассуждения агентов, но требуют высоких затрат для масштабирования и плохо калиброваны для пошагового моделирования переходов состояний, в то время как классические агентные модели (ABM) предлагают интерпретируемость, но с трудом интегрируют сложные индивидуальные сигналы и нестационарные поведения. Мы предлагаем PhysicsAgentABM, который переносит вывод на поведенчески когерентные кластеры агентов: специализированные символьные агенты кодируют механистические априорные распределения переходов, мультимодальная нейросетевая модель переходов захватывает временную и интерактивную динамику, а неопределенность-аware эпистемическое слияние дает калиброванные распределения переходов на уровне кластеров. Отдельные агенты затем стохастически реализуют переходы в рамках локальных ограничений, разделяя популяционный вывод и вариабельность на уровне сущностей. Мы также представляем ANCHOR — стратегию кластеризации на основе LLM-агентов, основанную на кросс-контекстных поведенческих реакциях и новой контрастивной функции потерь, что сокращает количество вызовов LLM до 6–8 раз. Эксперименты в областях общественного здоровья, финансов и социальных наук демонстрируют устойчивое улучшение точности предсказания времени событий и калибровки по сравнению с механистическими, нейросетевыми и LLM-базисами. Перестраивая генеративные ABM вокруг популяционного вывода с неопределенность-аware нейро-символьным слиянием, PhysicsAgentABM устанавливает новую парадигму масштабируемого и калиброванного моделирования с использованием LLM.
Диффузионные большие языковые модели (dLLM) демонстрируют высокую способность к обработке длинных контекстов в неавторегрессионном парадигме декодирования. Однако значительные вычислительные затраты двунаправленного полного внимания ограничивают эффективность вывода. Хотя разреженное внимание является перспективным, существующие методы остаются неэффективными. Это связано с необходимостью оценивать важность внимания для токенов, которые еще предстоит декодировать, в то время как позиции незамаскированных токенов неизвестны в процессе диффузии. В данной статье мы представляем Focus-dLLM — новую беспараметрическую структуру разрежения внимания, предназначенную для точного и эффективного вывода dLLM с длинным контекстом. Основываясь на обнаруженной сильной корреляции уверенности токенов на смежных шагах, мы сначала разрабатываем индикатор, управляемый прошлой уверенностью, для прогнозирования незамаскированных областей. На основе этого мы предлагаем стратегию прореживания с учетом стоков, чтобы точно оценить и устранить избыточные вычисления внимания, сохраняя при этом высоковлиятельные стоки внимания. Для дальнейшего снижения накладных расходов эта стратегия повторно использует идентифицированные местоположения стоков между слоями, используя наблюдаемую межслойную согласованность. Результаты экспериментов показывают, что наш метод обеспечивает более чем 29-кратное ускорение без потерь при длине контекста 32K. Код общедоступен по адресу: https://github.com/Longxmas/Focus-dLLM.