Ежедневно отобранные исследовательские статьи по ИИ с переводами
Долгосрочной целью языковых агентов является обучение и улучшение через собственный опыт, что в конечном итоге позволит им превзойти людей в сложных, реальных задачах. Однако обучение агентов на основе данных опыта с использованием обучения с подкреплением остается сложным во многих средах, где либо отсутствуют проверяемые награды (например, веб-сайты), либо требуются неэффективные длительные последовательности действий (например, многошаговое использование инструментов). В результате большинство современных агентов полагаются на тонкую настройку с учителем на основе экспертных данных, что сложно масштабировать и что плохо обобщается. Это ограничение связано с природой экспертных демонстраций: они охватывают лишь узкий диапазон сценариев и предоставляют агенту ограниченное разнообразие среды. Мы устраняем это ограничение с помощью промежуточного подхода, который мы называем ранним опытом: данные взаимодействия, генерируемые действиями самого агента, где будущие состояния служат в качестве контроля без сигналов награды. В рамках этого подхода мы изучаем две стратегии использования таких данных: (1) Неявное моделирование мира, которое использует собранные состояния для закрепления политики в динамике среды; и (2) Саморефлексия, где агент учится на своих неоптимальных действиях, чтобы улучшить рассуждения и принятие решений. Мы проводим оценку в восьми различных средах и на множестве семейств моделей. Наши подходы последовательно повышают эффективность и обобщение за пределами домена, подчеркивая ценность раннего опыта. Более того, в средах с проверяемыми наградами наши результаты дают обнадеживающие сигналы о том, что ранний опыт предоставляет прочную основу для последующего обучения с подкреплением, позиционируя его как практический мост между обучением с подражанием и полностью опытными агентами.
Хотя современные мультимодальные большие языковые модели (MLLMs) продемонстрировали высокую эффективность в задачах, требующих рассуждений, таких как математика и логика, их способность к длинноцепочечным рефлексивным рассуждениям, необходимым для решения сложных реальных задач, остается малоизученной. В данной работе мы сначала проводим обширное эмпирическое исследование для оценки этой способности. Используя тщательно разработанный механизм синтеза данных, мы создаем MM-HELIX — мультимодальный бенчмарк, состоящий из 1260 образцов, включающих 42 сложные синтетические задачи, требующие итеративного мышления и возвратов. Эмпирические результаты на этом бенчмарке показывают, что существующие MLLMs демонстрируют значительные недостатки в длинноцепочечных рефлексивных рассуждениях. Для устранения этого ограничения мы генерируем данные для пост-обучения и исследуем парадигмы обучения для их использования. Сначала мы разрабатываем конвейер Step-Elicited Response Generation для создания MM-HELIX-100K — крупномасштабного набора данных, содержащего 100 тысяч высококачественных траекторий рефлексивных рассуждений для этапа настройки инструкций. Учитывая, что стандартное обучение с подкреплением терпит неудачу на сложных задачах из-за редких сигналов вознаграждения и катастрофического забывания после контролируемой тонкой настройки, мы предлагаем Adaptive Hybrid Policy Optimization (AHPO) — новую стратегию обучения, которая динамически объединяет оффлайн-контроль и онлайн-оптимизацию в один этап. Эта стратегия позволяет модели учиться на экспертных данных, когда вознаграждения редки, и проводить независимое исследование, как только она становится достаточно компетентной. При применении к базовой модели Qwen2.5-VL-7B наш метод достигает улучшения точности на +18,6% на бенчмарке MM-HELIX и демонстрирует сильную обобщаемость с увеличением средней производительности на +5,7% на общих математических и логических задачах. Наша работа показывает, что рефлексивные рассуждения в MLLMs могут быть эффективно изучены и обобщены, прокладывая путь для разработки более мощных MLLMs.
С экспоненциальным ростом данных моделирование длинных последовательностей становится все более важным в задачах, таких как обработка естественного языка и биоинформатика. Однако существующие методы сталкиваются с неизбежным компромиссом между эффективностью и использованием памяти. Рекуррентные нейронные сети страдают от проблем исчезающих и взрывающихся градиентов, что затрудняет их масштабирование. Трансформеры способны моделировать глобальные зависимости, но ограничены квадратичной сложностью. Недавно селективные модели пространства состояний, такие как Mamba, продемонстрировали высокую эффективность с линейной временной сложностью O(n) и постоянной сложностью O(1) при рекуррентном выводе, однако их долгосрочная память экспоненциально затухает. В данной работе мы проводим математические выкладки и информационно-теоретический анализ, чтобы систематически раскрыть механизм затухания памяти в Mamba, отвечая на фундаментальный вопрос: какова природа долгосрочной памяти Mamba и как она сохраняет информацию? Для количественной оценки ключевой потери информации мы вводим метрики горизонтально-вертикальной верности памяти, которые фиксируют деградацию как внутри слоев, так и между ними. Вдохновленные тем, как люди выделяют и сохраняют важную информацию при чтении длинных документов, мы предлагаем MemMamba — новую архитектурную структуру, которая интегрирует механизм суммирования состояний вместе с вниманием между слоями и токенами, что смягчает проблему забывания в длинных последовательностях, сохраняя при этом линейную сложность. MemMamba демонстрирует значительные улучшения по сравнению с существующими вариантами Mamba и Трансформерами на бенчмарках длинных последовательностей, таких как PG19 и Passkey Retrieval, обеспечивая при этом ускорение вывода на 48%. Как теоретический анализ, так и эмпирические результаты показывают, что MemMamba достигает прорыва в компромиссе между сложностью и памятью, предлагая новую парадигму для моделирования сверхдлинных последовательностей.
Унифицированные мультимодальные модели продемонстрировали многообещающие результаты в генерации и редактировании мультимодального контента, но остаются в основном ограниченными областью изображений. В данной работе мы представляем UniVideo, универсальную платформу, которая расширяет унифицированное моделирование на область видео. UniVideo использует двухпоточную архитектуру, сочетая Мультимодальную Большую Языковую Модель (MLLM) для понимания инструкций с Мультимодальной DiT (MMDiT) для генерации видео. Такая архитектура позволяет точно интерпретировать сложные мультимодальные инструкции, сохраняя визуальную согласованность. На основе этой архитектуры UniVideo объединяет разнообразные задачи генерации и редактирования видео в рамках единой мультимодальной инструкционной парадигмы и обучается совместно для всех этих задач. Многочисленные эксперименты показывают, что UniVideo соответствует или превосходит современные специализированные базовые модели в задачах генерации видео из текста/изображений, контекстной генерации видео и контекстного редактирования видео. Важно отметить, что унифицированная архитектура UniVideo обеспечивает два вида обобщения. Во-первых, UniVideo поддерживает композицию задач, например, сочетание редактирования с переносом стиля, путем интеграции нескольких возможностей в рамках одной инструкции. Во-вторых, даже без явного обучения на свободном редактировании видео, UniVideo переносит свои возможности редактирования из данных крупномасштабного редактирования изображений на эту задачу, справляясь с непредвиденными инструкциями, такими как замена фона персонажей или изменение материалов в видео. Помимо этих основных возможностей, UniVideo также поддерживает генерацию видео на основе визуальных подсказок, где MLLM интерпретирует визуальные подсказки и направляет MMDiT в процессе синтеза. Для стимулирования будущих исследований мы опубликуем нашу модель и код.
Мы представляем задачу произвольного пространственно-временного завершения видео, в котором видео генерируется из произвольных, заданных пользователем патчей, размещенных в любом пространственном положении и временной метке, аналогично рисованию на видео-холсте. Эта гибкая формулировка естественным образом объединяет множество существующих задач управляемой генерации видео — включая генерацию видео из первого кадра, восстановление, расширение и интерполяцию — в единую, целостную парадигму. Однако реализация этой идеи сталкивается с фундаментальным препятствием в современных латентных моделях диффузии видео: временной неоднозначностью, вносимой причинными VAE, где несколько пиксельных кадров сжимаются в единое латентное представление, что делает точное управление на уровне кадров структурно сложным. Мы решаем эту проблему с помощью VideoCanvas, нового фреймворка, который адаптирует парадигму In-Context Conditioning (ICC) к этой задаче тонкого управления без добавления новых параметров. Мы предлагаем гибридную стратегию управления, которая разделяет пространственное и временное управление: пространственное размещение обрабатывается через нулевое заполнение, а временное выравнивание достигается с помощью Temporal RoPE Interpolation, которое присваивает каждому условию непрерывную дробную позицию в латентной последовательности. Это устраняет временную неоднозначность VAE и позволяет осуществлять управление на уровне пиксельных кадров на замороженной архитектуре. Для оценки этой новой возможности мы разрабатываем VideoCanvasBench, первый бенчмарк для произвольного пространственно-временного завершения видео, охватывающий как внутрисценовую точность, так и межсценовую креативность. Эксперименты показывают, что VideoCanvas значительно превосходит существующие парадигмы управления, устанавливая новый уровень гибкой и унифицированной генерации видео.
Рекомендация химических реакций заключается в подборе подходящих параметров условий для проведения химических реакций, что имеет ключевое значение для ускорения развития химической науки. С быстрым развитием крупных языковых моделей (LLM) растет интерес к использованию их способностей к рассуждению и планированию для рекомендации условий реакций. Несмотря на их успехи, существующие методы редко объясняют обоснование рекомендуемых условий реакций, что ограничивает их полезность в высокоответственных научных процессах. В данной работе мы предлагаем ChemMAS, мультиагентную систему, которая переосмысливает прогнозирование условий как задачу, основанную на доказательствах. ChemMAS разбивает задачу на механистическое обоснование, многоканальное воспроизведение, дебаты агентов с учетом ограничений и агрегацию обоснований. Каждое решение подкрепляется интерпретируемыми аргументами, основанными на химических знаниях и извлеченных прецедентах. Эксперименты показывают, что ChemMAS достигает улучшения на 20-35% по сравнению с узкоспециализированными базовыми методами и превосходит универсальные LLM на 10-15% по точности Top-1, предлагая при этом фальсифицируемые, понятные человеку обоснования, что устанавливает новую парадигму объяснимого ИИ в научных открытиях.
Недавние исследования моделей рассуждений изучают метаосознанность языковых моделей — способность самостоятельно понимать, как мыслить. Мы утверждаем, что крупные модели рассуждений лишены этого свойства метаосознанности, демонстрируя существенное несоответствие между реальными последовательностями действий и предсказанной метаинформацией. Мы предполагаем, что согласование метапредсказаний с реальными последовательностями действий приведет к значительному улучшению производительности. Для проверки этой гипотезы мы разработали обучающий конвейер, который повышает метаосознанность через само-согласование (MASA), и доказали, что улучшенная метаосознанность напрямую ведет к повышению точности. В отличие от существующих метакогнитивных моделей рассуждений, наш метод не требует внешних источников обучения, а использует самостоятельно генерируемые сигналы для тренировки метаосознанности. Более того, наш метод обеспечивает эффективное обучение за счет: i) фильтрации подсказок с нулевой дисперсией, которые либо тривиальны, либо неразрешимы, и ii) обрыва длинных последовательностей действий, если они с малой вероятностью приведут к правильному ответу. Результаты вдохновляют: наша стратегия приводит к значительному улучшению как точности, так и эффективности обучения на задачах в рамках домена и демонстрирует сильную обобщаемость на внешние бенчмарки. В частности, наш метод может ускорить обучение GRPO более чем в 1,28 раза для достижения той же производительности, а также обеспечить прирост точности на 19,3% на AIME25 и средний прирост на 6,2% на шести математических бенчмарках. Обучение с метакогнитивным руководством улучшает обобщаемость на внешние домены, давая прирост на 3,87% на GPQA-Diamond и общий прирост точности на 2,08% на 13 бенчмарках, охватывающих логические, научные и программные области.
Современные языковые модели с длинным контекстом (LCLM) способны обрабатывать сотни тысяч токенов в одном запросе, открывая новые возможности для интеллектуального многошагового рассуждения за счет интеграции больших наборов извлеченных документов или, в некоторых случаях, непосредственно всей необходимой информации. Однако простое добавление большего количества документов в контекстное окно не позволяет учесть, как следует связывать доказательства. Мы устраняем этот пробел с помощью шаблонов рассуждений, которые переосмысливают рассуждения как повторно используемые кэши мыслей, извлеченные из предыдущих следов решения задач, структурируя объединение доказательств и направляя многошаговый вывод с использованием фактологических документов. Чтобы поддерживать эффективность этих шаблонов, мы предлагаем стратегию обновления, которая итеративно уточняет шаблоны, полученные из обучающих данных, с помощью обратной связи на естественном языке. На различных бенчмарках и семействах LCLM наш подход демонстрирует стабильные улучшения по сравнению с сильными базовыми методами как в условиях с извлечением данных, так и без него. Кроме того, мы показываем, что оптимизированные шаблоны могут быть дистиллированы в меньшие модели с открытым исходным кодом, что демонстрирует широкую применимость и прозрачное повторное использование рассуждений. Мы называем наш фреймворк LCLM, усиленными шаблонами рассуждений (Thought Template Augmented LCLMs, ToTAL).
Использование возможностей больших языковых моделей (LLM) требует тонкого баланса между полезностью и безопасностью. Это создает фундаментальное напряжение между двумя конкурирующими вызовами: уязвимостью к атакующим воздействиям, которые провоцируют небезопасный контент, и склонностью к чрезмерному отказу на безобидные, но чувствительные запросы. Современные подходы часто решают эту задачу с помощью моделей-защитников, которые полностью отвергают любой контент, содержащий небезопасные элементы. Такой подход полностью "выключает музыку" — он может усугубить чрезмерные отказы и не предоставляет детальных рекомендаций для запросов, которые отвергает. Чтобы научить модели более скоординированной "хореографии", мы предлагаем WaltzRL — новую многоагентную систему обучения с подкреплением, которая формулирует безопасное согласование как совместную игру с положительной суммой. WaltzRL совместно обучает агента-собеседника и агента-фидбека, где последний мотивирован предоставлять полезные предложения, улучшающие безопасность и полезность ответов агента-собеседника. В основе WaltzRL лежит Динамическая Награда за Улучшение (DIR), которая развивается со временем в зависимости от того, насколько хорошо агент-собеседник учитывает обратную связь. На этапе вывода небезопасные или чрезмерно отказывающие ответы агента-собеседника улучшаются, а не отвергаются. Агент-фидбек развертывается вместе с агентом-собеседником и включается адаптивно только при необходимости, сохраняя полезность и низкую задержку для безопасных запросов. Наши эксперименты, проведенные на пяти разнообразных наборах данных, демонстрируют, что WaltzRL значительно сокращает как небезопасные ответы (например, с 39,0% до 4,6% на WildJailbreak), так и чрезмерные отказы (с 45,3% до 9,9% на OR-Bench) по сравнению с различными базовыми подходами. Благодаря совместной эволюции агента-собеседника и агента-фидбека и адаптивному применению обратной связи, WaltzRL повышает безопасность LLM без ухудшения общих возможностей, тем самым продвигая парето-фронт между полезностью и безопасностью.
Последние достижения в области редактирования изображений на основе инструкций и генерации, ориентированной на объекты, привлекли значительное внимание, однако обе задачи по-прежнему сталкиваются с ограничениями в удовлетворении практических потребностей пользователей. Редактирование на основе инструкций полагается исключительно на текстовые указания, которые часто не способны передать конкретные детали редактирования, что делает необходимым использование эталонных изображений. В то же время генерация, ориентированная на объекты, ограничивается комбинированием конкретных объектов или людей, упуская из виду более широкие, абстрактные концепции. Для решения этих проблем мы предлагаем две новые задачи: мультимодальное редактирование и генерацию на основе инструкций. Эти задачи поддерживают как текстовые, так и графические инструкции и расширяют область применения, включая как конкретные, так и абстрактные концепции, что значительно повышает их практическую применимость. Мы представляем DreamOmni2, который решает две основные проблемы: создание данных и проектирование архитектуры модели. Наш конвейер синтеза данных состоит из трех этапов: (1) использование метода смешения признаков для создания данных извлечения как для абстрактных, так и для конкретных концепций, (2) генерация обучающих данных для мультимодального редактирования на основе инструкций с использованием моделей редактирования и извлечения, и (3) дальнейшее применение модели извлечения для создания обучающих данных для мультимодального редактирования на основе инструкций. В рамках архитектуры для обработки многоканального ввода изображений мы предлагаем схему индексации и сдвига позиционного кодирования, которая помогает модели различать изображения и избегать путаницы пикселей. Кроме того, мы вводим совместное обучение с моделью VLM и нашей моделью генерации/редактирования для более эффективной обработки сложных инструкций. Дополнительно мы предложили комплексные эталонные тесты для этих двух новых задач, чтобы стимулировать их развитие. Эксперименты показывают, что DreamOmni2 достиг впечатляющих результатов. Модели и коды будут опубликованы.
Обучение с подкреплением с верифицируемыми наградами (RLVR) значительно продвинуло крупные языковые модели в сложных задачах рассуждения, однако его масштабируемость часто ограничивается узким местом в обучении, где производительность выходит на плато по мере коллапса энтропии политики, что сигнализирует о потере исследования. Традиционные методы обычно решают эту проблему за счет поддержания высокой энтропии политики, однако точные механизмы, управляющие осмысленным исследованием, остаются недостаточно изученными. Наш анализ показывает, что неселективное внимание к энтропии рискует усилить нерелевантные токены и дестабилизировать обучение. В данной работе исследуется динамика исследования в RLVR и выявляется ключевая проблема: постепенное устранение ценных низковероятностных исследовательских токенов, которые мы называем \textit{искрами рассуждения}. Мы обнаруживаем, что, хотя такие искры обильно присутствуют в предобученных моделях, они систематически подавляются в ходе RLVR из-за чрезмерного штрафования, что приводит к дегенерации исследования. Для решения этой проблемы мы вводим Низковероятностную Регуляризацию (Lp-Reg). Её основной механизм регулирует политику в сторону эвристического прокси-распределения. Это прокси-распределение строится путем фильтрации предполагаемых шумовых токенов и повторной нормализации распределения над оставшимися кандидатами. В результате получается менее зашумленное прокси-распределение, где вероятность искр рассуждения усиливается, что затем служит мягкой целью регуляризации для защиты этих ценных токенов от устранения через расхождение Кульбака-Лейблера. Эксперименты показывают, что Lp-Reg позволяет стабильное обучение на политике в течение примерно 1000 шагов, в то время как базовые методы контроля энтропии терпят крах. Это устойчивое исследование приводит к достижению наилучших результатов, демонстрируя среднюю точность 60,17% на пяти математических бенчмарках, что на 2,66% выше, чем у предыдущих методов. Код доступен по адресу https://github.com/CarlanLark/Lp-Reg.
Крупные языковые модели становятся мощным инструментом для открытия научных законов — фундаментальной задачи в науке, движимой ИИ. Однако существующие бенчмарки для этой задачи сталкиваются с методологической трилеммой, вынуждая идти на компромисс между научной значимостью, масштабируемостью и устойчивостью к запоминанию. Более того, они упрощают процесс открытия до статического подгонки функций, не учитывая подлинный научный процесс выявления скрытых законов через интерактивное исследование сложных модельных систем. Чтобы устранить эти критические пробелы, мы представляем NewtonBench — бенчмарк, включающий 324 задачи по открытию научных законов в 12 областях физики. Наш подход смягчает трилемму оценки, используя метафизические сдвиги — систематические изменения канонических законов — для создания масштабируемых, научно значимых и устойчивых к запоминанию задач. Кроме того, мы поднимаем оценку от статической подгонки функций до интерактивного открытия моделей, требуя от агентов экспериментального исследования смоделированных сложных систем для выявления скрытых принципов. Наши обширные эксперименты выявили ясную, но хрупкую способность к открытию у передовых языковых моделей: эта способность резко ухудшается с ростом сложности системы и демонстрирует крайнюю чувствительность к наблюдаемому шуму. Примечательно, что мы обнаружили парадоксальный эффект инструментальной помощи: предоставление интерпретатора кода может препятствовать более способным моделям, вызывая преждевременный переход от исследования к эксплуатации, что заставляет их довольствоваться субоптимальными решениями. Эти результаты показывают, что устойчивое и обобщаемое открытие в сложных интерактивных средах остается ключевой проблемой. Предоставляя масштабируемый, надежный и научно аутентичный тестовый стенд, NewtonBench предлагает важный инструмент для измерения реального прогресса и направления разработки следующего поколения ИИ-агентов, способных к подлинному научному открытию.
Последние достижения в области агентов на основе больших языковых моделей (LLM) продемонстрировали их многообещающие общие возможности. Однако их производительность в специализированных реальных областях часто снижается из-за трудностей в эффективной интеграции внешних инструментов и специфических стратегий промптинга. Хотя для решения этой проблемы были предложены методы, такие как агентное обучение с подкреплением, они обычно полагаются на дорогостоящие обновления параметров, например, через процесс, использующий контролируемую тонкую настройку (SFT), за которой следует фаза обучения с подкреплением (RL) с оптимизацией групповой относительной политики (GRPO) для изменения распределения выходных данных. Однако мы утверждаем, что LLM могут достичь аналогичного эффекта на распределение выходных данных, изучая опытные знания как априорную информацию о токенах, что является гораздо более легковесным подходом, который не только решает проблему нехватки данных, но и избегает распространенной проблемы переобучения. С этой целью мы предлагаем Оптимизацию Групповой Относительной Политики без Обучения (Training-Free GRPO), экономически эффективное решение, которое повышает производительность агентов LLM без каких-либо обновлений параметров. Наш метод использует преимущество групповой относительной семантики вместо числовых преимуществ внутри каждой группы прогонов, итеративно извлекая высококачественные опытные знания в процессе многократного обучения на минимальных эталонных данных. Такие знания служат изученной априорной информацией о токенах, которая бесшовно интегрируется во время вызовов API LLM для управления поведением модели. Эксперименты на задачах математического рассуждения и веб-поиска демонстрируют, что Training-Free GRPO, примененный к DeepSeek-V3.1-Terminus, значительно улучшает производительность вне домена. Всего с несколькими десятками обучающих образцов Training-Free GRPO превосходит тонко настроенные небольшие LLM с минимальными затратами на обучение и данными.
Посттренировка для улучшения способности к рассуждению у больших языковых моделей (LLMs) всё чаще опирается на проверяемые награды: детерминированные проверяющие системы, которые предоставляют бинарные сигналы корректности (0 или 1). Хотя такие сигналы надёжны, они являются жёсткими — многие задачи допускают частично правильные или альтернативные ответы, которые проверяющие системы недооценивают, и в результате обучение ограничивается подходом "всё или ничего". Модели наград предлагают более богатый и непрерывный обратный сигнал, который может служить дополнительным источником контроля наряду с проверяющими системами. Мы представляем HERO (Hybrid Ensemble Reward Optimization) — фреймворк обучения с подкреплением, который структурированно интегрирует сигналы проверяющих систем с оценками моделей наград. HERO использует стратифицированную нормализацию для ограничения оценок моделей наград внутри групп, определённых проверяющими системами, сохраняя корректность при уточнении различий в качестве, а также взвешивание с учётом дисперсии для акцента на сложных запросах, где плотные сигналы наиболее важны. На различных тестах математического рассуждения HERO стабильно превосходит базовые подходы, использующие только модели наград или только проверяющие системы, демонстрируя значительные улучшения как на проверяемых, так и на сложных для проверки задачах. Наши результаты показывают, что гибридный дизайн наград сохраняет стабильность проверяющих систем, одновременно используя нюансы моделей наград для улучшения способности к рассуждению.
Реконструкция 3D-сцен на лету из монохромных последовательностей изображений представляет собой давнюю задачу в области компьютерного зрения, имеющую критическое значение для таких приложений, как перенос реальности в симуляции (real-to-sim), дополненная и виртуальная реальность (AR/VR), а также робототехника. Существующие методы сталкиваются с серьезным компромиссом: оптимизация для каждой сцены обеспечивает высокую точность, но требует значительных вычислительных ресурсов, тогда как модели прямого прохода (feed-forward) позволяют выполнять вывод в реальном времени, но страдают от недостаточной точности и устойчивости. В данной работе мы представляем ARTDECO — унифицированную платформу, которая сочетает эффективность моделей прямого прохода с надежностью подходов на основе SLAM. ARTDECO использует 3D-модели для оценки позы и предсказания точек, а также гауссовский декодер, преобразующий многоуровневые признаки в структурированные 3D-гауссовы распределения. Для поддержания как точности, так и эффективности в масштабе мы разработали иерархическое представление гауссовских распределений с учетом уровня детализации (LoD-aware), что повышает качество рендеринга и снижает избыточность. Эксперименты на восьми разнообразных наборах данных для помещений и открытых пространств показывают, что ARTDECO обеспечивает интерактивную производительность, сравнимую с SLAM, устойчивость, близкую к моделям прямого прохода, и качество реконструкции, приближающееся к оптимизации для каждой сцены, предлагая практический путь к оцифровке реальных сред в реальном времени с точной геометрией и высокой визуальной достоверностью. Дополнительные демонстрации доступны на странице проекта: https://city-super.github.io/artdeco/.
Параллельное масштабирование стало мощной парадигмой для улучшения способностей к рассуждению в больших языковых моделях (LLM) за счет одновременной генерации множества цепочек рассуждений (Chain-of-Thought, CoT). Однако этот подход влечет за собой значительную вычислительную неэффективность из-за избыточности между цепочками — наш анализ показывает, что более 80% параллельных цепочек рассуждений приводят к одинаковым конечным ответам, что представляет собой существенные потери вычислений. Для решения этой критической проблемы эффективности мы предлагаем DeepPrune, новую структуру, которая обеспечивает эффективное параллельное масштабирование за счет динамического сокращения. Наш метод включает специализированную модель-судию, обученную с использованием фокальной потери и техник передискретизации для точного предсказания эквивалентности ответов на основе частичных цепочек рассуждений, что достигает значения 0.87 AUROC в предсказании эквивалентности, а также жадный алгоритм кластеризации в реальном времени, который динамически сокращает избыточные пути, сохраняя при этом разнообразие ответов. Комплексные оценки на трех сложных тестовых наборах (AIME 2024, AIME 2025 и GPQA) и нескольких моделях рассуждений демонстрируют, что DeepPrune достигает значительного сокращения количества токенов более чем на 80% по сравнению с традиционным консенсусным сэмплированием в большинстве случаев, сохраняя при этом конкурентоспособную точность в пределах 3 процентных пунктов. Наша работа устанавливает новый стандарт для эффективного параллельного рассуждения, делая высокопроизводительные рассуждения более эффективными. Наш код и данные доступны по ссылке: https://deepprune.github.io/
Крупные языковые модели недавно продемонстрировали значительный прогресс в способности к рассуждению, что часто связывают с их возможностью генерировать более длинные цепочки мыслей и применять рефлексивное рассуждение. Однако вклад рефлексий в улучшение производительности остается неясным. В данной работе мы систематически анализируем процессы рассуждения восьми моделей на пяти математических наборах данных. Мы сосредоточиваемся на рефлексивном поведении, когда модель уже сгенерировала ответ, но продолжает размышлять перед финализацией вывода. Наш анализ показывает, что рефлексии преимущественно носят подтверждающий характер и редко изменяют первоначальный ответ модели, что является устойчивой закономерностью для всех моделей и наборов данных. Чтобы понять роль рефлексий в обучении, мы создаем наборы данных для контролируемого тонкого обучения (SFT) с различным количеством шагов рефлексии. Мы наблюдаем, что обучение моделей на процессах с большим количеством шагов рефлексии в основном улучшает корректность первого ответа, а не способность исправлять изначально неверные ответы через рефлексии. Это побуждает нас предложить метод ранней остановки, учитывающий контекст вопроса, который повышает эффективность использования токенов на этапе вывода, останавливая процесс рассуждения, как только сгенерировано несколько правдоподобных кандидатов в ответы, тем самым сокращая ненужные шаги рефлексии. Вдохновленные этим, мы также предлагаем динамически обрезать рефлексии после появления кандидата в ответы в процессе генерации, что сокращает количество токенов, используемых для рассуждений, на 24,5% на пяти математических наборах данных при снижении точности всего на 2,9%.
Предыдущие исследования показали, что крупные языковые модели (LLM), дообученные на вредоносных или некорректных завершениях в узких областях (например, небезопасный код или ошибочные медицинские рекомендации), могут стать широко рассогласованными и демонстрировать вредоносное поведение, что называется возникающим рассогласованием. В данной работе мы исследуем, может ли это явление выходить за рамки вопросов безопасности и распространяться на более широкий спектр нечестности и обмана в условиях высоких ставок (например, ложь под давлением и обманчивое поведение). Для этого мы дообучаем открытые LLM на рассогласованных завершениях в различных областях. Экспериментальные результаты показывают, что LLM демонстрируют широко рассогласованное поведение в вопросах нечестности. Кроме того, мы дополнительно исследуем это явление в условиях комбинированного дообучения и обнаруживаем, что введение всего 1% данных, вызывающих рассогласование, в стандартную задачу достаточно для снижения честного поведения более чем на 20%. Также мы рассматриваем более практичную среду взаимодействия человека и ИИ, где моделируем как доброжелательных, так и предвзятых пользователей, взаимодействующих с ассистентом на основе LLM. Примечательно, что ассистент может быть непреднамеренно рассогласован, что усугубляет его нечестность, даже если только 10% пользователей являются предвзятыми. В итоге мы расширяем изучение возникающего рассогласования на область нечестности и обмана в условиях высоких ставок и демонстрируем, что этот риск возникает не только при прямом дообучении, но и в комбинированных задачах и практических взаимодействиях человека с ИИ.
Каскадное видео супер-разрешение стало перспективной техникой для снижения вычислительной нагрузки, связанной с генерацией видео высокого разрешения с использованием крупных базовых моделей. Однако существующие исследования в основном ограничиваются задачами текстового преобразования в видео и не используют дополнительные генеративные условия помимо текста, которые крайне важны для обеспечения точности в многомодальной генерации видео. Мы устраняем это ограничение, представляя UniMMVSR — первую унифицированную генеративную модель видео супер-разрешения, которая включает гибридные модальные условия, такие как текст, изображения и видео. Мы проводим всестороннее исследование стратегий внедрения условий, схем обучения и методов смешивания данных в рамках латентной модели диффузии видео. Основной сложностью стало проектирование различных методов построения данных и использования условий, чтобы модель могла точно задействовать все типы условий, учитывая их различную корреляцию с целевым видео. Наши эксперименты показывают, что UniMMVSR значительно превосходит существующие методы, создавая видео с более детализированным изображением и высокой степенью соответствия многомодальным условиям. Мы также подтверждаем возможность комбинирования UniMMVSR с базовой моделью для достижения многомодально направленной генерации 4K видео, что ранее было недостижимо с использованием существующих техник.
Композиционное обучение стало де-факто парадигмой в существующих мультимодальных больших языковых моделях (MLLM), где предварительно обученные визуальные кодировщики соединяются с предварительно обученными языковыми моделями через непрерывное мультимодальное предобучение. Однако мультимодальные свойства масштабирования этой парадигмы остаются сложными для изучения из-за раздельного обучения. В данной работе мы сосредотачиваемся на нативном обучении MLLM в сквозном режиме и систематически изучаем пространство проектирования и свойства масштабирования в практических условиях, таких как ограничения данных. В результате тщательного изучения различных вариантов в MLLM мы получаем оптимальную метаархитектуру, которая наилучшим образом балансирует производительность и стоимость обучения. После этого мы дополнительно исследуем свойства масштабирования нативной MLLM и указываем на положительно коррелирующую зависимость масштабирования между визуальными кодировщиками и языковыми моделями. На основе этих выводов мы предлагаем нативную MLLM под названием NaViL, сочетая её с простым и экономически эффективным подходом. Экспериментальные результаты на 14 мультимодальных бенчмарках подтверждают конкурентоспособную производительность NaViL по сравнению с существующими MLLM. Кроме того, наши выводы и результаты предоставляют глубокие инсайты для будущих исследований нативных MLLM.
Самоэволюция является ключевой темой исследований, направленной на обеспечение постоянного улучшения возможностей агентов на основе больших языковых моделей (LLM) после предварительного обучения. В последних исследованиях наблюдается переход от методов, не использующих обучение с подкреплением (RL), к RL-ориентированным подходам. Современные RL-методы либо полагаются на плотные внешние сигналы вознаграждения, либо извлекают внутренние сигналы вознаграждения из самих LLM. Однако эти подходы расходятся с механизмами самоэволюции, наблюдаемыми в человеческом интеллекте, где индивиды учатся и совершенствуются через взаимное обсуждение и сотрудничество. В данной работе мы представляем Co-Evolving Multi-Agent Systems (CoMAS) — новую структуру, которая позволяет агентам автономно улучшаться, обучаясь на основе взаимодействий между агентами без внешнего контроля. CoMAS генерирует внутренние вознаграждения из динамики обсуждений, использует механизм LLM-as-a-judge для формулирования этих вознаграждений и оптимизирует политику каждого агента через RL, обеспечивая децентрализованную и масштабируемую коэволюцию. Экспериментальные результаты показывают, что CoMAS стабильно превосходит неподготовленных агентов и достигает наилучших результатов в большинстве оценочных сценариев. Абляционные исследования подтверждают необходимость сигналов вознаграждения, основанных на взаимодействии, и демонстрируют перспективную масштабируемость с увеличением числа и разнообразия агентов. Эти результаты устанавливают CoMAS как новую и эффективную парадигму для самоэволюции в агентах на основе LLM.
Мы рассматриваем задачу переноса стиля в видео с использованием диффузионных моделей, где цель заключается в сохранении контекста входного видео при его визуализации в целевом стиле, заданном текстовым запросом. Основная сложность заключается в отсутствии парных видеоданных для обучения с учителем. Мы предлагаем PickStyle — фреймворк для переноса стиля из видео в видео, который расширяет предобученные диффузионные модели для видео с помощью адаптеров стиля и использует парные статичные изображения с соответствиями исходного и целевого стилей для обучения. PickStyle встраивает низкоранговые адаптеры в слои self-attention модулей кондиционирования, что позволяет эффективно специализироваться на переносе стиля с сохранением сильного соответствия между содержанием видео и стилем. Чтобы преодолеть разрыв между статичными изображениями и динамическим видео, мы создаем синтетические обучающие клипы из парных изображений, применяя общие аугментации, имитирующие движение камеры, что обеспечивает сохранение временных приоритетов. Кроме того, мы представляем Context-Style Classifier-Free Guidance (CS-CFG) — новую факторизацию метода classifier-free guidance на независимые направления текста (стиль) и видео (контекст). CS-CFG гарантирует сохранение контекста в сгенерированном видео при эффективном переносе стиля. Эксперименты на различных бенчмарках показывают, что наш подход обеспечивает временную согласованность, точность стиля и сохранение содержания в видео, превосходя существующие базовые методы как качественно, так и количественно.
С недавними достижениями в области мультимодальных больших языковых моделей (MLLMs), демонстрирующих высокий уровень визуального понимания и рассуждений, растет интерес к их использованию для улучшения производительности моделей диффузии в задачах редактирования. Несмотря на быстрый прогресс, большинство исследований не содержат глубокого анализа проектных решений для MLLMs. Более того, интеграция MLLMs и моделей диффузии остается открытой проблемой в некоторых сложных задачах, таких как редактирование видео. В данной статье мы представляем InstructX — унифицированную платформу для редактирования изображений и видео. В частности, мы проводим всестороннее исследование интеграции MLLMs и моделей диффузии для редактирования на основе инструкций в разнообразных задачах. На основе этого исследования мы анализируем взаимодействие и различия между изображениями и видео в рамках унифицированного моделирования. (1) Мы показываем, что обучение на данных изображений может привести к появлению способностей к редактированию видео без явного контроля, тем самым смягчая ограничения, накладываемые недостатком обучающих данных для видео. (2) Благодаря включению модально-специфичных признаков MLLMs наш подход эффективно объединяет задачи редактирования изображений и видео в рамках одной модели. Многочисленные эксперименты демонстрируют, что наш метод способен справляться с широким спектром задач редактирования изображений и видео и достигает передовых показателей производительности.
Модель вознаграждения (Reward Model, RM) играет ключевую роль в согласовании крупных языковых моделей (Large Language Models, LLM) с человеческими предпочтениями. Поскольку реальные приложения всё чаще включают длинные траектории истории, например, в случае LLM-агентов, становится крайне важным оценивать не только качество ответов модели, но и их соответствие и согласованность с предоставленным контекстом. Однако современные RM остаются ограниченными короткими контекстами и в основном сосредоточены на атрибутах уровня ответа (например, безопасности или полезности), в значительной степени игнорируя критический аспект согласованности длинного контекста и ответа. В данной работе мы представляем Long-RewardBench — бенчмарк, специально разработанный для оценки RM в длинных контекстах, включающий задачи попарного сравнения (Pairwise Comparison) и выбора лучшего из N вариантов (Best-of-N). Наше предварительное исследование показывает, что даже современные генеративные RM демонстрируют значительную уязвимость в сценариях с длинными контекстами, не справляясь с поддержанием контекстно-зависимых суждений о предпочтениях. Вдохновлённые анализом ошибок, наблюдаемых в выходах моделей, мы предлагаем общую многоэтапную стратегию обучения, которая эффективно масштабирует произвольные модели в устойчивые RM для длинных контекстов (LongRMs). Эксперименты показывают, что наш подход не только значительно улучшает производительность на оценках с длинными контекстами, но и сохраняет сильные возможности в коротких контекстах. Примечательно, что наша 8B LongRM превосходит гораздо более крупные базовые модели масштаба 70B и соответствует производительности проприетарной модели Gemini 2.5 Pro.
Мультимодальное извлечение и генерация с дополнением (MM-RAG) является ключевым подходом для применения больших языковых моделей (LLM) и агентов к реальным базам знаний, однако текущие оценки фрагментированы, сосредоточены либо на тексте, либо на изображениях в изоляции или на упрощенных мультимодальных настройках, которые не охватывают документо-ориентированные мультимодальные сценарии использования. В данной статье мы представляем UniDoc-Bench, первый крупномасштабный реалистичный бенчмарк для MM-RAG, созданный на основе 70 тысяч реальных страниц PDF из восьми областей. Наш конвейер извлекает и связывает доказательства из текста, таблиц и графиков, а затем генерирует 1600 мультимодальных пар вопросов и ответов, охватывающих фактологическое извлечение, сравнение, суммирование и логические рассуждения. Для обеспечения надежности 20% пар вопросов и ответов проверяются несколькими аннотаторами и экспертной оценкой. UniDoc-Bench поддерживает прямое сравнение между четырьмя парадигмами: (1) только текст, (2) только изображения, (3) мультимодальное слияние текста и изображений и (4) совместное мультимодальное извлечение — в рамках единого протокола с стандартизированными пулами кандидатов, запросами и метриками оценки. Наши эксперименты показывают, что мультимодальные системы RAG, объединяющие текст и изображения, стабильно превосходят как унимодальные, так и совместные мультимодальные подходы на основе встраивания, что указывает на недостаточность только текста или изображений и на неадекватность текущих мультимодальных встраиваний. Помимо бенчмаркинга, наш анализ раскрывает, когда и как визуальный контекст дополняет текстовые доказательства, выявляет систематические ошибки и предлагает практические рекомендации для разработки более надежных конвейеров MM-RAG.
Крупные языковые модели продемонстрировали впечатляющие способности в различных областях, однако значительные трудности сохраняются при их использовании в качестве ИИ-агентов для выполнения долгосрочных задач в реальном мире. Существующие агенты на основе языковых моделей страдают от критического ограничения: они статичны во время тестирования и не могут учиться на опыте, не обладая способностью накапливать знания и непрерывно совершенствоваться в процессе работы. Для решения этой проблемы мы предлагаем MUSE — новую архитектуру агента, которая вводит систему, основанную на опыте и способную к саморазвитию, с использованием иерархического модуля памяти. MUSE организует различные уровни опыта и использует их для планирования и выполнения долгосрочных задач в различных приложениях. После выполнения каждой подзадачи агент автономно анализирует свою траекторию, преобразуя её в структурированный опыт и интегрируя его обратно в модуль памяти. Этот механизм позволяет агенту развиваться за пределами своих статических предобученных параметров, способствуя непрерывному обучению и саморазвитию. Мы оцениваем MUSE на долгосрочном бенчмарке производительности TAC. Он достигает нового рекордного результата с значительным отрывом, используя лишь облегчённую модель Gemini-2.5 Flash. Многочисленные эксперименты показывают, что по мере автономного накопления опыта агент демонстрирует всё более высокие способности к выполнению задач, а также устойчивые возможности непрерывного обучения и саморазвития. Более того, накопленный опыт MUSE обладает сильными свойствами обобщения, позволяя улучшать выполнение новых задач в режиме zero-shot. MUSE устанавливает новую парадигму для ИИ-агентов, способных автоматизировать задачи производительности в реальном мире.
Данное исследование посвящено сложной, но перспективной задаче генерации видео со звуком на основе текста (Text-to-Sounding-Video, T2SV), которая заключается в создании видео с синхронизированным аудио на основе текстовых условий, обеспечивая при этом согласованность обеих модальностей с текстом. Несмотря на прогресс в совместном обучении аудио и видео, две ключевые проблемы остаются нерешенными: (1) использование единого общего текстового описания, где текст для видео совпадает с текстом для аудио, часто вызывает модальную интерференцию, что сбивает с толку предобученные модели, и (2) оптимальный механизм взаимодействия кросс-модальных признаков остается неясным. Для решения этих проблем мы сначала предлагаем иерархическую структуру визуально-обоснованного описания (Hierarchical Visual-Grounded Captioning, HVGC), которая генерирует пары разделенных описаний — для видео и для аудио, устраняя интерференцию на этапе формирования условий. На основе HVGC мы также представляем BridgeDiT, новый двубашенный диффузионный трансформер, который использует механизм Dual CrossAttention (DCA), выступающий в роли надежного «моста» для симметричного двунаправленного обмена информацией, достигая как семантической, так и временной синхронизации. Масштабные эксперименты на трех эталонных наборах данных, подкрепленные оценками людей, демонстрируют, что наш метод достигает наилучших результатов по большинству метрик. Всесторонние исследования с исключением компонентов дополнительно подтверждают эффективность наших предложений, предоставляя ключевые идеи для будущих задач T2SV. Все коды и контрольные точки будут опубликованы в открытом доступе.
Хотя методы обучения с подкреплением, такие как оптимизация групповых относительных предпочтений (Group Relative Preference Optimization, GRPO), значительно улучшили большие языковые модели, их адаптация к диффузионным моделям остается сложной задачей. В частности, GRPO требует стохастической политики, однако наиболее экономически эффективные сэмплеры для диффузии основаны на детерминированных ОДУ. Недавние работы решают эту проблему, используя неэффективные сэмплеры на основе СДУ для создания стохастичности, но эта зависимость от модельно-независимого гауссовского шума приводит к медленной сходимости. Чтобы устранить это противоречие, мы предлагаем Direct Group Preference Optimization (DGPO) — новый онлайн-алгоритм обучения с подкреплением, который полностью отказывается от фреймворка градиента политики. DGPO обучается непосредственно на основе групповых предпочтений, которые используют относительную информацию о выборках внутри групп. Такой дизайн устраняет необходимость в неэффективных стохастических политиках, позволяя использовать эффективные детерминированные сэмплеры ОДУ и ускоряя обучение. Обширные результаты показывают, что DGPO обучается примерно в 20 раз быстрее, чем современные методы, и демонстрирует превосходную производительность как на внутридоменных, так и на внедоменных метриках вознаграждения. Код доступен по адресу https://github.com/Luo-Yihong/DGPO.
Крупные мультимодальные модели (LMM) достигли значительного прогресса в различных областях; однако сложное видеорассуждение в научной сфере остается важным и трудным рубежом. Современные видеотесты в основном ориентированы на общие сценарии, где основное внимание уделяется восприятию/распознаванию, а задачи рассуждения относительно просты, что приводит к насыщению и, как следствие, не позволяет эффективно оценивать продвинутые мультимодальные когнитивные навыки. Чтобы устранить этот критический пробел, мы представляем SciVideoBench — строгий тест, специально разработанный для оценки продвинутого видеорассуждения в научных контекстах. SciVideoBench состоит из 1000 тщательно составленных вопросов с множественным выбором, основанных на передовых научных экспериментальных видео, охватывающих более 25 специализированных академических дисциплин и проверенных полуавтоматической системой. Каждый вопрос требует глубоких знаний в конкретной области, точного пространственно-временного восприятия и сложного логического рассуждения, эффективно проверяя высшие когнитивные способности моделей. Наша оценка выявляет значительные пробелы в производительности современных проприетарных и открытых LMM, включая Gemini 2.5 Pro и Qwen2.5-VL, что указывает на существенный потенциал для улучшения в области видеорассуждения. Детальный анализ ключевых факторов, таких как сложность рассуждений и визуальная привязка, предоставляет ценные инсайты и четкое направление для будущего развития LMM, способствуя эволюции по-настоящему способных мультимодальных ИИ-сотрудников в науке. Мы надеемся, что SciVideoBench будет полезен сообществу и поможет расширить границы передовых технологий ИИ для более широкого применения в науке.
Данная работа представляет собой первую попытку масштабирования непрерывного согласованного дистилляции (continuous-time consistency distillation) для общих моделей диффузии изображений и видео на уровне приложений. Хотя непрерывная согласованная модель (sCM) теоретически обоснована и эмпирически эффективна для ускорения академических моделей диффузии, её применимость к крупномасштабным задачам генерации изображений и видео из текста остаётся неясной из-за инфраструктурных сложностей в вычислении произведения Якобиана на вектор (JVP) и ограничений стандартных бенчмарков для оценки. Мы разработали совместимое с параллельными вычислениями ядро FlashAttention-2 для JVP, что позволило обучать sCM на моделях с более чем 10 миллиардами параметров и задачах с высокоразмерными видео. Наше исследование выявило фундаментальные ограничения sCM в генерации мелких деталей, что мы связываем с накоплением ошибок и "покрытием мод" (mode-covering) в её целевой функции прямого расхождения. Для устранения этого мы предлагаем регуляризованную непрерывную согласованную модель (rCM), которая включает дистилляцию оценок (score distillation) в качестве регуляризатора с длинным пропуском. Такая интеграция дополняет sCM "поиском мод" (mode-seeking) через обратное расхождение, эффективно улучшая визуальное качество при сохранении высокой разнородности генерации. Проверенная на крупномасштабных моделях (Cosmos-Predict2, Wan2.1) с до 14 миллиардами параметров и 5-секундными видео, rCM соответствует или превосходит современный метод дистилляции DMD2 по метрикам качества, предлагая заметные преимущества в разнообразии, всё это без настройки GAN или обширного поиска гиперпараметров. Дистиллированные модели генерируют высококачественные образцы всего за 1–4 шага, ускоряя выборку диффузии в 15–50 раз. Эти результаты позиционируют rCM как практичный и теоретически обоснованный фреймворк для продвижения крупномасштабной дистилляции диффузии.
Хотя последние достижения в моделях рассуждений продемонстрировали когнитивные способности через обучение с подкреплением, существующие подходы испытывают трудности с активацией глубоких навыков рассуждения в многошаговых агентах с долгосрочными взаимодействиями. Мы предлагаем DeepMiner, новую структуру, которая развивает такие способности за счет введения сложных тренировочных задач и динамического контекстного окна. DeepMiner представляет метод обратного конструирования для создания сложных, но проверяемых пар вопрос-ответ из аутентичных веб-источников, что обеспечивает как сложность, так и надежность тренировочных данных, одновременно внедряя когнитивные способности в сценарии многошаговых рассуждений. Мы также разработали изящную, но эффективную стратегию динамического управления контекстом как для обучения, так и для вывода, используя механизмы скользящего окна и устраняя зависимость от внешних моделей суммаризации, тем самым эффективно расширяя возможности модели для обработки непрерывно растущих долгосрочных контекстов. С помощью обучения с подкреплением на Qwen3-32B мы создали DeepMiner-32B, который демонстрирует значительные улучшения производительности на нескольких тестах для поисковых агентов. DeepMiner достигает точности 33.5% на BrowseComp-en, превосходя предыдущего лучшего открытого агента почти на 20 процентных пунктов, и показывает стабильные улучшения на BrowseComp-zh, XBench-DeepSearch и GAIA. Особенно важно, что наше динамическое управление контекстом позволяет поддерживать взаимодействия продолжительностью почти 100 шагов в пределах стандартной длины контекста 32k, эффективно решая ограничения контекста, которые сдерживают существующие системы многошагового взаимодействия.
Моделирование вознаграждений лежит в основе обучения с подкреплением на основе человеческой обратной связи (RLHF), однако большинство существующих моделей вознаграждений полагаются на скалярные или парные оценки, которые не учитывают многогранность человеческих предпочтений. В последних исследованиях изучались подходы, использующие рубрики как вознаграждения (RaR), где структурированные критерии на естественном языке охватывают несколько аспектов качества ответа. Однако создание рубрик, которые одновременно надежны и масштабируемы, остается ключевой задачей. В данной работе мы представляем OpenRubrics — разнообразную и масштабируемую коллекцию пар (запрос, рубрика) для обучения моделей генерации рубрик и моделей вознаграждений на их основе. Для получения дискриминативных и всесторонних сигналов оценки мы вводим Контрастную генерацию рубрик (CRG), которая выводит как жесткие правила (явные ограничения), так и принципы (неявные качества), сравнивая предпочтительные и отвергнутые ответы. Мы дополнительно повышаем надежность, обеспечивая согласованность меток предпочтений с помощью выборки с отклонением для удаления зашумленных рубрик. На нескольких бенчмарках моделирования вознаграждений наша модель вознаграждений на основе рубрик, Rubric-RM, превосходит сильные базовые модели сопоставимого размера на 6,8%. Эти улучшения переносятся на модели политик в задачах следования инструкциям и биомедицинских бенчмарках. Наши результаты показывают, что рубрики предоставляют масштабируемые сигналы согласования, сокращая разрыв между дорогостоящей человеческой оценкой и автоматизированным моделированием вознаграждений, открывая новый принцип-ориентированный подход для согласования крупных языковых моделей (LLM).
Мы предлагаем ERA — новую парадигму, которая ограничивает энтропию выборки выше заданных порогов путем применения специально разработанных активаций к выходам моделей. Наш подход демонстрирует широкую эффективность в различных областях: 1) для крупных языковых моделей (LLMs), повышая показатель AIME 2025 для Qwen2.5-Math-7B на 37,4%; 2) для агентов обучения с подкреплением в задачах непрерывного управления, улучшая производительность более чем на 30% по сравнению с сильными базовыми методами, такими как SAC, на сложном бенчмарке HumanoidBench; 3) для классификации изображений, увеличивая точность top-1 на ImageNet на 0,69% для ResNet-50. Эти улучшения достигаются с вычислительными накладными расходами менее 7%. Наша работа подтверждает, что активация выходов является мощным инструментом для управления энтропией, открывая новое направление для разработки более простых и устойчивых алгоритмов.
Успех крупных языковых моделей (LLMs) обусловлен их способностью консолидировать огромные объемы знаний в памяти в процессе предварительного обучения и извлекать их из памяти во время вывода, что обеспечивает такие продвинутые возможности, как запоминание знаний, выполнение инструкций и логическое рассуждение. Однако механизмы извлечения и консолидации памяти в LLMs остаются малоизученными. В данной статье мы предлагаем гипотезу функциональных токенов для объяснения работы LLMs: во время вывода функциональные токены активируют наиболее предсказуемые признаки из контекста и управляют предсказанием следующего токена (извлечение памяти). В процессе предварительного обучения предсказание следующих токенов (обычно контентных токенов), следующих за функциональными токенами, увеличивает количество изученных признаков LLMs и обновляет параметры модели (консолидация памяти). Функциональные токены здесь примерно соответствуют функциональным словам в лингвистике, включая знаки препинания, артикли, предлоги и союзы, в отличие от контентных токенов. Мы предоставляем обширные экспериментальные доказательства, подтверждающие эту гипотезу. Используя анализ двудольных графов, мы показываем, что небольшое количество функциональных токенов активирует большинство признаков. Кейс-стади дополнительно раскрывают, как функциональные токены активируют наиболее предсказуемые признаки из контекста для направления предсказания следующего токена. Мы также обнаружили, что в процессе предварительного обучения ошибка обучения в основном определяется предсказанием следующих контентных токенов, следующих за функциональными токенами, что заставляет функциональные токены выбирать наиболее предсказуемые признаки из контекста.
Быстро растущие вычислительные затраты на предварительное обучение крупных языковых моделей требуют более эффективных подходов. Значительные вычислительные ресурсы уже были вложены в существующие хорошо обученные контрольные точки, однако многие из них остаются недоиспользованными из-за инженерных ограничений или недостаточной емкости модели. Для эффективного повторного использования этих "невозвратных" затрат мы предлагаем перерабатывать предварительно обученные контрольные точки путем увеличения количества их параметров и продолжения обучения. Мы предлагаем метод ортогонального расширения, хорошо подходящий для сходившихся моделей Mixture-of-Experts: копирование слоев с межпозиционным размещением для увеличения глубины и дублирование экспертов с добавлением шума для расширения ширины. Чтобы определить оптимальное время для такого расширения в последовательностях контрольных точек, мы проводим масштабные эксперименты по масштабированию, которые показывают, что итоговая точность имеет сильную положительную корреляцию с объемом невозвратных затрат, что указывает на то, что большие предварительные вложения приводят к лучшей производительности. Мы масштабируем наш подход до моделей с 70 миллиардами параметров и более чем 1 триллионом токенов обучения, достигая увеличения точности на 10,66% по сравнению с обучением с нуля при том же дополнительном вычислительном бюджете. Наш подход к переработке контрольных точек закладывает основу для экономически эффективного предварительного обучения крупных языковых моделей.
Мы представляем UP2You — первое решение для восстановления высококачественных 3D-портретов в одежде из крайне неограниченных 2D-фотографий, сделанных в реальных условиях, которое не требует настройки. В отличие от предыдущих подходов, требующих "чистых" входных данных (например, изображений всего тела с минимальными окклюзиями или хорошо калиброванных снимков с разных ракурсов), UP2You напрямую обрабатывает необработанные, неструктурированные фотографии, которые могут значительно различаться по позе, ракурсу, кадрированию и окклюзиям. Вместо сжатия данных в токены для медленной онлайн-оптимизации текста в 3D, мы вводим парадигму коррекции данных, которая эффективно преобразует неограниченные входные данные в чистые, ортогональные изображения с нескольких ракурсов за один прямой проход за считанные секунды, упрощая 3D-реконструкцию. Основой UP2You является модуль агрегации признаков, коррелированных с позой (PCFA), который выборочно объединяет информацию из нескольких эталонных изображений относительно целевых поз, обеспечивая лучшее сохранение идентичности и почти постоянный объем памяти при увеличении числа наблюдений. Мы также представляем предиктор формы на основе многократных ссылок, использующий архитектуру Perceiver, что устраняет необходимость в предварительно захваченных шаблонах тела. Многочисленные эксперименты на данных 4D-Dress, PuzzleIOI и снимках в реальных условиях демонстрируют, что UP2You стабильно превосходит предыдущие методы как по геометрической точности (Chamfer-15%, P2S-18% на PuzzleIOI), так и по точности текстур (PSNR-21%, LPIPS-46% на 4D-Dress). UP2You эффективен (1,5 минуты на человека) и универсален (поддерживает произвольное управление позой и обучение без тренировки для 3D-виртуальной примерки нескольких предметов одежды), что делает его практичным для реальных сценариев, где люди снимаются случайно. Модели и код будут опубликованы для содействия будущим исследованиям в этой малоизученной области. Страница проекта: https://zcai0612.github.io/UP2You
Достижение обобщённого вращения объектов в руке остаётся серьёзной проблемой в робототехнике, в основном из-за сложности переноса политик из симуляции в реальный мир. Сложная, насыщенная контактами динамика ловкого манипулирования создаёт "разрыв между реальностью и симуляцией", который ограничивал предыдущие работы сценариями с простыми геометриями, ограниченными размерами и соотношениями сторон объектов, фиксированными положениями запястья или специализированными манипуляторами. Мы решаем эту проблему переноса с помощью новой методологии, которая позволяет одной политике, обученной в симуляции, обобщаться на широкий спектр объектов и условий в реальном мире. Основой нашего метода является модель динамики на уровне суставов, которая учится преодолевать разрыв между реальностью и симуляцией, эффективно адаптируясь к ограниченному количеству данных, собранных в реальном мире, и корректируя действия политики из симуляции. Модель отличается высокой эффективностью использования данных и способностью к обобщению для различных распределений взаимодействий всей руки благодаря факторизации динамики по суставам, сжатию системных влияний в низкоразмерные переменные и обучению эволюции каждого сустава на основе его собственного динамического профиля, что неявно учитывает эти суммарные эффекты. Мы дополняем это полностью автономной стратегией сбора данных, которая собирает разнообразные данные о взаимодействиях в реальном мире с минимальным вмешательством человека. Наш полный подход демонстрирует беспрецедентную универсальность: одна политика успешно вращает сложные объекты с причудливыми формами (например, фигурки животных), высокими соотношениями сторон (до 5.33) и малыми размерами, одновременно справляясь с различными ориентациями запястья и осями вращения. Всесторонние оценки в реальном мире и применение для телеуправления в сложных задачах подтверждают эффективность и надёжность нашего подхода. Сайт: https://meowuu7.github.io/DexNDM/
Последние достижения в области больших языковых моделей (LLM) и обучения с подкреплением (RL) привели к значительному улучшению производительности в задачах открытого вопросно-ответного взаимодействия (QA). Однако существующие модели по-прежнему испытывают трудности с вопросами, которые допускают несколько допустимых ответов. Стандартные бенчмарки QA, которые обычно предполагают наличие единственного правильного ответа, игнорируют эту реальность и, таким образом, создают неадекватные обучающие сигналы. Существующие попытки работы с неоднозначностью часто опираются на дорогостоящую ручную аннотацию, которую сложно масштабировать на многозвенные наборы данных, такие как HotpotQA и MuSiQue. В данной статье мы представляем A^2Search — аннотационно-независимую, сквозную обучающую платформу для распознавания и обработки неоднозначности. В её основе лежит автоматизированный процесс, который обнаруживает неоднозначные вопросы и собирает альтернативные ответы с помощью сэмплирования траекторий и проверки доказательств. Модель затем оптимизируется с использованием RL с тщательно разработанной наградой AnsF1, которая естественным образом учитывает множественные ответы. Эксперименты на восьми бенчмарках открытого QA демонстрируют, что A^2Search достигает нового уровня state-of-the-art производительности. Всего за один прогон A^2Search-7B показывает средний показатель AnsF1@1 в 48,4% на четырёх многозвенных бенчмарках, превосходя все сильные базовые модели, включая значительно более крупную ReSearch-32B (46,2%). Детальные анализы также показывают, что A^2Search успешно справляется с неоднозначностью и обобщает результаты на различных бенчмарках, подчеркивая, что принятие неоднозначности является ключевым для создания более надёжных QA-систем. Наш код, данные и веса модели доступны по адресу https://github.com/zfj1998/A2Search.
Обучение с подкреплением широко применяется для улучшения способностей крупных языковых моделей к рассуждению. Расширение пределов вывода меньших моделей стало важным направлением исследований. Однако алгоритмы, такие как Group Relative Policy Optimization (GRPO), имеют явный недостаток: верхняя граница ответов модели полностью определяется самой моделью, что препятствует усвоению знаний из выборок, которые либо полностью неверны, либо полностью правильны. В данной статье мы представляем метод Group Contrastive Policy Optimization (GCPO), который включает внешние эталонные ответы. Когда модель не может решить задачу, эталонный ответ предоставляет правильное решение, направляя модель в сторону однозначно точного направления обновления. Этот подход предлагает два основных преимущества: (1) он повышает эффективность обучения, полностью используя каждый образец; (2) он позволяет модели имитировать стратегию решения задач эталонного ответа в процессе обучения, тем самым улучшая обобщение в рассуждениях. GCPO демонстрирует выдающиеся результаты на множестве эталонных наборов данных, показывая значительные улучшения по сравнению с базовой моделью. Наш код доступен по адресу: https://github.com/AchoWu/GCPO.
Эффективное использование больших языковых моделей (LLM) имеет решающее значение для масштабируемого развертывания: без адаптивной маршрутизации системы либо переплачивают за мощные модели, либо рискуют получить низкую производительность от более слабых. Выбор подходящей LLM для каждого запроса по своей сути является задачей принятия решений в режиме онлайн: модели различаются по своим сильным сторонам, цены колеблются, а пользователи по-разному оценивают точность и стоимость. Однако большинство маршрутизаторов обучаются оффлайн с метками для всех кандидатных моделей, что не соответствует условиям развертывания, где наблюдается только результат выбранной модели. Мы устраняем этот разрыв с помощью BaRP — подхода к маршрутизации с предпочтениями на основе обратной связи в стиле бандита, который обучается в условиях тех же ограничений по частичной обратной связи, что и при развертывании, при этом поддерживая настраиваемый вывод с учетом предпочтений: операторы могут регулировать компромисс между производительностью и стоимостью во время тестирования без необходимости повторного обучения. Сформулированный как контекстный бандит на основе характеристик промптов и вектора предпочтений пользователя, наш метод моделирует условия онлайн-обратной связи во время обучения и адаптирует решения по маршрутизации для каждого нового промпта, вместо того чтобы полагаться на полную информацию из оффлайн-обучения. Комплексные эксперименты показывают, что наш метод стабильно превосходит сильные оффлайн-маршрутизаторы как минимум на 12,46%, а самую крупную LLM — как минимум на 2,45%, и демонстрирует устойчивую обобщаемость для новых задач.
Доминирующей парадигмой для обучения человекоподобных роботов сложным навыкам является перепроецирование человеческих движений в качестве кинематических референсов для обучения политик с подкреплением (RL). Однако существующие методы перепроецирования часто сталкиваются с существенным разрывом в воплощении между человеком и роботом, что приводит к физически нереалистичным артефактам, таким как скольжение стоп и проникновение. Более того, распространенные методы перепроецирования игнорируют богатые взаимодействия человека с объектами и окружающей средой, которые необходимы для выразительной локомоции и локо-манипуляции. Для решения этой проблемы мы представляем OmniRetarget — механизм генерации данных, сохраняющий взаимодействия, основанный на сетке взаимодействий, которая явно моделирует и сохраняет ключевые пространственные и контактные отношения между агентом, поверхностью и манипулируемыми объектами. Минимизируя лапласову деформацию между сетками человека и робота при соблюдении кинематических ограничений, OmniRetarget генерирует кинематически выполнимые траектории. Кроме того, сохранение взаимодействий, важных для задачи, позволяет эффективно расширять данные — от одной демонстрации до различных воплощений роботов, поверхностей и конфигураций объектов. Мы всесторонне оцениваем OmniRetarget, перепроецируя движения из наборов данных OMOMO, LAFAN1 и нашего собственного MoCap, генерируя траектории длительностью более 8 часов, которые обеспечивают лучшее соблюдение кинематических ограничений и сохранение контактов по сравнению с широко используемыми базовыми методами. Такие высококачественные данные позволяют проприоцептивным политикам RL успешно выполнять долгосрочные (до 30 секунд) навыки паркура и локо-манипуляции на человекоподобном роботе Unitree G1, обученном всего с 5 терминами вознаграждения и простой доменной рандомизацией, общей для всех задач, без какого-либо учебного плана.
В направлении достижения обобщенной роботизированной манипуляции пространственная обобщаемость является наиболее фундаментальной способностью, требующей от политики устойчивой работы при различных пространственных распределениях объектов, окружения и самого агента. Для достижения этого необходимо собрать значительное количество человеческих демонстраций, охватывающих различные пространственные конфигурации, для обучения обобщенной визуомоторной политики с помощью имитационного обучения. Предыдущие работы исследуют перспективное направление, использующее генерацию данных для получения обильных пространственно разнообразных данных из минимального набора исходных демонстраций. Однако большинство подходов сталкиваются с существенным разрывом между симуляцией и реальностью и часто ограничены узкими условиями, такими как сценарии с фиксированной базой и предопределенные точки обзора камеры. В данной статье мы предлагаем фреймворк генерации 3D данных "реальное-в-реальное" (R2RGen), который непосредственно расширяет пары наблюдение-действие на основе облака точек для генерации данных в реальном мире. R2RGen не требует симулятора и рендеринга, что делает его эффективным и подключаемым. В частности, для одной исходной демонстрации мы вводим механизм аннотации для детального анализа сцены и траектории. Предлагается стратегия группового расширения для обработки сложных композиций из нескольких объектов и разнообразных ограничений задачи. Мы также представляем обработку с учетом камеры для согласования распределения сгенерированных данных с реальными 3D сенсорами. Эмпирически, R2RGen значительно повышает эффективность данных в обширных экспериментах и демонстрирует высокий потенциал для масштабирования и применения в мобильной манипуляции.
Несмотря на их выдающиеся способности в понимании естественного языка, крупные языковые модели (LLM) недостаточно используются для задач поиска. Мы представляем Search-R3 — новый фреймворк, который устраняет это ограничение, адаптируя LLM для генерации поисковых эмбеддингов как прямого результата их процесса рассуждений. Наш подход использует способность LLM к цепочке рассуждений (chain-of-thought), позволяя им создавать более эффективные эмбеддинги, шаг за шагом анализируя сложные семантические структуры. Это реализуется через три взаимодополняющих механизма: (1) этап обучения с учителем, который развивает способность модели генерировать качественные эмбеддинги, (2) методология обучения с подкреплением (RL), оптимизирующая генерацию эмбеддингов совместно с рассуждениями, и (3) специализированная среда RL, которая эффективно обрабатывает изменяющиеся представления эмбеддингов без необходимости полного перекодирования корпуса на каждой итерации обучения. Наши обширные оценки на различных бенчмарках показывают, что Search-R3 значительно превосходит предыдущие методы, объединяя процессы рассуждений и генерации эмбеддингов. Этот интегрированный подход пост-обучения представляет собой существенный прогресс в решении сложных задач, требующих как изощрённых рассуждений, так и эффективного поиска информации. Страница проекта: https://github.com/ytgui/Search-R3.
Последние достижения в области генеративных моделей открыли новые захватывающие возможности в сфере автономных транспортных средств. В частности, модели генерации видео сейчас исследуются как управляемые виртуальные среды для тестирования. Одновременно с этим сквозные (end-to-end, E2E) модели управления транспортными средствами появились как упрощённая альтернатива традиционным модульным системам автономного вождения, завоевав популярность благодаря своей простоте и масштабируемости. Однако применение этих методов в симуляции и планировании поднимает важные вопросы. Во-первых, хотя модели генерации видео способны создавать всё более реалистичные видеоролики, могут ли эти видео точно соответствовать заданным условиям и быть достаточно реалистичными для оценки сквозных автономных планировщиков? Во-вторых, учитывая, что данные играют ключевую роль в понимании и управлении сквозными планировщиками, как мы можем глубже понять их предубеждения и улучшить их способность обобщать данные для сценариев, выходящих за пределы распределения? В данной работе мы устраняем разрыв между моделями управления транспортными средствами и генеративными моделями мира (Drive&Gen), чтобы ответить на эти вопросы. Мы предлагаем новые статистические методы, использующие сквозные модели управления для оценки реалистичности сгенерированных видео. Используя управляемость модели генерации видео, мы проводим целевые эксперименты для изучения разрывов в распределении, влияющих на производительность сквозных планировщиков. Наконец, мы показываем, что синтетические данные, созданные моделью генерации видео, представляют собой экономически эффективную альтернативу сбору реальных данных. Эти синтетические данные эффективно улучшают обобщающую способность сквозных моделей за пределы существующих областей проектирования, способствуя расширению услуг автономных транспортных средств в новые операционные контексты.
По мере того как новые оптимизаторы набирают популярность, а квантование моделей становится стандартом для эффективного развертывания, возникает ключевой вопрос: как выбор оптимизатора влияет на производительность модели в условиях квантования? Несмотря на прогресс в обеих областях, систематические данные о взаимодействии оптимизаторов и квантования остаются ограниченными. Чтобы заполнить этот пробел, мы изучаем влияние выбора оптимизатора на устойчивость модели при квантовании, рассматривая как посттренировочное квантование (PTQ), так и квантование с учетом обучения (QAT). Сначала мы обучаем модели с полной точностью, варьируя количество параметров от 50 млн до 1,5 млрд, с использованием шести оптимизаторов, чтобы исследовать ландшафт гиперпараметров и установить хорошо настроенные базовые линии. Затем мы применяем PTQ, чтобы оценить, как ухудшается производительность модели при обучении с разными оптимизаторами. Мы обнаруживаем, что метрики, связанные с выбросами, такие как отношение максимума к среднему (MMR) и эксцесс, не позволяют предсказать производительность PTQ для различных оптимизаторов. Мы аналитически показываем, что это связано с тем, что MMR фиксирует только изолированные ошибки слоев, игнорируя накопление и распространение ошибок квантования по сети. Для изучения деградации QAT мы обучаем квантованные модели с нуля и сравниваем их с нашими базовыми линиями с исходной точностью. Мы обнаруживаем, что оптимизаторы, которые хорошо работают в исходной настройке предварительного обучения, могут не оставаться оптимальными при QAT, и что модели, обученные с использованием Shampoo, демонстрируют наименьшее снижение точности. Наконец, мы выводим законы масштабирования для квантования с учетом обучения при различных оптимизаторах, показывая, что Shampoo достигает наивысшей параметрической эффективности среди всех протестированных оптимизаторов.
Мы представляем Stable Video Materials 3D (SViM3D) — фреймворк для предсказания физически корректных (PBR) материалов с согласованностью по множеству видов на основе одного изображения. В последнее время модели диффузии видео успешно применялись для эффективной реконструкции 3D-объектов из одного изображения. Однако отражательная способность по-прежнему представляется с помощью простых моделей материалов или требует дополнительных шагов для оценки, чтобы обеспечить возможность переосвещения и контролируемого редактирования внешнего вида. Мы расширяем латентную модель диффузии видео для совместного вывода пространственно изменяющихся PBR-параметров и нормалей поверхности вместе с каждым сгенерированным видом на основе явного управления камерой. Эта уникальная настройка позволяет выполнять переосвещение и создавать 3D-ассет, используя нашу модель в качестве нейронного приора. Мы вводим различные механизмы в этот конвейер, которые повышают качество в этой плохо обусловленной задаче. Мы демонстрируем передовые результаты в переосвещении и синтезе новых видов на нескольких объектно-ориентированных наборах данных. Наш метод обобщается на разнообразные входные данные, что позволяет создавать переосвещаемые 3D-ассеты, полезные в AR/VR, кино, играх и других визуальных медиа.
Ядерный синтез играет ключевую роль в поиске надежных и устойчивых источников энергии. Основным препятствием для реализации жизнеспособного термоядерного синтеза является понимание турбулентности плазмы, которая значительно ухудшает удержание плазмы и имеет решающее значение для проектирования реакторов следующего поколения. Турбулентность плазмы описывается нелинейным гирокинетическим уравнением, которое описывает эволюцию 5D функции распределения во времени. Из-за высокой вычислительной сложности на практике часто используются модели пониженного порядка для аппроксимации турбулентного переноса энергии. Однако они игнорируют нелинейные эффекты, характерные для полной 5D динамики. Для решения этой проблемы мы представляем GyroSwin — первый масштабируемый 5D нейронный суррогат, способный моделировать 5D нелинейные гирокинетические симуляции, тем самым учитывая физические явления, упущенные моделями пониженного порядка, и предоставляя точные оценки турбулентного теплопереноса. GyroSwin (i) расширяет иерархические Vision Transformers до 5D, (ii) вводит модули кросс-внимания и интеграции для латентного взаимодействия 3D↔5D между полями электростатического потенциала и функцией распределения, а также (iii) выполняет разделение мод по каналам, вдохновленное нелинейной физикой. Мы демонстрируем, что GyroSwin превосходит широко используемые методы пониженного порядка в предсказании теплового потока, учитывает каскад турбулентной энергии и снижает стоимость полностью разрешенных нелинейных гирокинетических расчетов на три порядка величины, оставаясь физически проверяемым. GyroSwin демонстрирует перспективные законы масштабирования, протестированные на моделях до одного миллиарда параметров, прокладывая путь для масштабируемых нейронных суррогатов в гирокинетических симуляциях турбулентности плазмы.
3D-редактирование — задача локального изменения геометрии или внешнего вида 3D-объекта — имеет широкое применение в создании иммерсивного контента, цифровых развлечениях и AR/VR. Однако, в отличие от 2D-редактирования, оно остается сложным из-за необходимости обеспечения кросс-видовой согласованности, структурной точности и детализированной управляемости. Существующие подходы часто медленны, склонны к геометрическим искажениям или зависят от ручного и точного создания 3D-масок, что подвержено ошибкам и непрактично. Для решения этих проблем мы продвигаемся как на уровне данных, так и на уровне моделей. На стороне данных мы представляем 3DEditVerse — крупнейший на сегодняшний день парный бенчмарк для 3D-редактирования, включающий 116 309 высококачественных обучающих пар и 1 500 тщательно отобранных тестовых пар. Созданный с помощью комплементарных подходов, включающих геометрические правки на основе поз и правки внешнего вида, управляемые базовыми моделями, 3DEditVerse обеспечивает локальность правок, согласованность между видами и семантическое соответствие. На стороне моделей мы предлагаем 3DEditFormer — условный трансформер, сохраняющий 3D-структуру. Улучшая генерацию изображений в 3D с помощью двойного внимания и временно-адаптивного управления, 3DEditFormer разделяет редактируемые области и сохраняемую структуру, что позволяет выполнять точные и согласованные правки без необходимости вспомогательных 3D-масок. Многочисленные эксперименты демонстрируют, что наш подход превосходит современные базовые методы как количественно, так и качественно, устанавливая новый стандарт для практичного и масштабируемого 3D-редактирования. Набор данных и код будут опубликованы. Проект: https://www.lv-lab.org/3DEditFormer/
Использование целевых сетей является популярным подходом для оценки функций ценности в глубоком обучении с подкреплением (RL). Хотя этот метод эффективен, целевая сеть остается компромиссным решением, которое обеспечивает стабильность за счет медленно изменяющихся целей, что замедляет процесс обучения. С другой стороны, использование онлайн-сети в качестве целевой для бутстреппинга интуитивно привлекательно, однако, как известно, приводит к нестабильному обучению. В данной работе мы стремимся объединить лучшие стороны обоих подходов, введя новое правило обновления, которое вычисляет цель с использованием МИНимальной оценки между целевой и онлайн-сетью, что дает начало нашему методу MINTO. Благодаря этой простой, но эффективной модификации мы показываем, что MINTO позволяет ускорить и стабилизировать обучение функции ценности, смягчая потенциальное смещение переоценки, возникающее при использовании онлайн-сети для бутстреппинга. Примечательно, что MINTO может быть легко интегрирован в широкий спектр алгоритмов, основанных на ценности, и актор-критик, с минимальными затратами. Мы проводим всестороннюю оценку MINTO на различных тестовых задачах, охватывающих как онлайн, так и оффлайн RL, а также дискретные и непрерывные пространства действий. Во всех тестах MINTO последовательно улучшает производительность, демонстрируя свою широкую применимость и эффективность.
Универсальные политики роботов, обученные на крупномасштабных, визуально однородных наборах данных, могут быть подвержены обучению на основе упрощённых закономерностей, что ухудшает их обобщающую способность за пределами распределения (out-of-distribution, OOD). Хотя генеративное расширение данных является распространённым подходом для повышения разнообразия, оно представляет собой тонкую проблему: композиция данных. Наивное смешение реальных и синтетических данных может исказить обучающий сигнал, так как этот процесс часто отдаёт приоритет визуальному разнообразию в ущерб информационной достоверности. В данной статье утверждается, что устойчивое обобщение зависит от принципиальной, учитывающей достоверность композиции данных. Мы представляем Coherent Information Fidelity Tuning (CIFT) — фреймворк, который рассматривает композицию данных как задачу оптимизации. CIFT использует практический прокси для информационной достоверности, основанный на геометрии пространства признаков набора данных. Это позволяет выявить фазовый переход, называемый точкой декогеренции, где стабильность обучения ухудшается. Фреймворк включает генеративный механизм Multi-View Video Augmentation (MVAug) для синтеза причинно-разделимого спектра данных в процессе настройки. Применение CIFT к архитектурам политик, таким как pi_0 и Diffusion Policy, повышает успешность OOD более чем на 54\%. Эти результаты показывают, что композиция данных с учётом достоверности, выходящая за рамки простого синтеза данных, является важным компонентом для разработки устойчивых универсальных роботов.