Ежедневно отобранные исследовательские статьи по ИИ с переводами
Каждое взаимодействие агента порождает сигнал следующего состояния — ответ пользователя, вывод инструмента, изменение состояния терминала или GUI, следующее за каждым действием, — однако ни одна существующая система агентного обучения с подкреплением (RL) не использует его в качестве живого, онлайн-источника обучения. Мы представляем OpenClaw-RL — фреймворк, основанный на простом наблюдении: сигналы следующего состояния универсальны, и политика может обучаться на всех них одновременно. Личные беседы, выполнение команд в терминале, взаимодействия с GUI, задачи в области разработки программного обеспечения (SWE) и цепочки вызовов инструментов — это не отдельные учебные задачи. Все они представляют собой взаимодействия, которые можно использовать для обучения одной и той же политики в одном и том же цикле. Сигналы следующего состояния кодируют две формы информации: *оценочные сигналы*, которые указывают, насколько хорошо было выполнено действие и извлекаются в виде скалярных вознаграждений с помощью PRM-оценщика; и *директивные сигналы*, которые указывают, как действие следовало изменить, и восстанавливаются с помощью обучения на политике с управлением по ретроспективе (Hindsight-Guided On-Policy Distillation, OPD). Мы извлекаем текстовые подсказки из следующего состояния, формируем расширенный контекст для "учителя" и предоставляем потокенную направляющую advantage-супервизию, которая богаче любого скалярного вознаграждения. Благодаря асинхронной архитектуре модель обслуживает живые запросы, PRM-оценщик судит текущие взаимодействия, а тренировочный модуль обновляет политику одновременно, с нулевыми накладными расходами на координацию между ними. Примененный к персональным агентам, OpenClaw-RL позволяет агенту улучшаться просто в процессе использования, извлекая обучающие сигналы из повторных запросов пользователя, исправлений и явных отзывов. Примененный к универсальным агентам, та же инфраструктура поддерживает масштабируемое RL в средах терминала, GUI, SWE и вызовов инструментов, где мы дополнительно демонстрируем полезность процессуальных вознаграждений. Код: https://github.com/Gen-Verse/OpenClaw-RL
Исторически k-means позиционировался в первую очередь как примитив для офлайн-обработки, обычно используемый для организации наборов данных или предобработки эмбеддингов, а не как полноценный компонент онлайн-систем. В данной работе мы пересматриваем этот классический алгоритм через призму современного проектирования ИИ-систем и реализуем k-means как онлайн-примитив. Мы указываем, что существующие GPU-реализации k-means остаются фундаментально ограниченными низкоуровневыми системными ограничениями, а не теоретической алгоритмической сложностью. В частности, этап назначения страдает от серьезного узкого места ввода-вывода из-за массового явного материализации матрицы расстояний размером N на K в высокоскоростной памяти (HBM). Одновременно этап обновления центроидов сильно замедляется из-за аппаратной конкуренции атомарных операций записи, вызванной нерегулярными, scatter-подобными агрегациями токенов. Для преодоления этого разрыва в производительности мы предлагаем flash-kmeans, IO-оптимизированную и бесконфликтную реализацию k-means для современных GPU-нагрузок. Flash-kmeans представляет два ключевых нововведения на уровне ядер: (1) FlashAssign, который объединяет вычисление расстояний с онлайн-поиском argmin, чтобы полностью избежать промежуточной материализации в памяти; (2) sort-inverse update, который явно строит обратное отображение для преобразования высококонфликтных атомарных scatter-операций в высокоскоростные локализованные редукции на уровне сегментов. Кроме того, мы интегрируем совместные алгоритмико-системные решения, включая чанковое перекрытие потоков и кэш-ориентированные эвристики компиляции, чтобы обеспечить практическую применимость. Масштабные оценки на GPU NVIDIA H200 демонстрируют, что flash-kmeans обеспечивает до 17.9-кратного сквозного ускорения по сравнению с лучшими базовыми методами, превосходя отраслевые стандартные библиотеки, такие как cuML и FAISS, в 33 и более 200 раз соответственно.
По мере роста возможностей воплощенных моделей, в будущем люди будут взаимодействовать с несколькими воплощенными ИИ-агентами на рабочем месте или дома. Для обеспечения эффективной коммуникации между пользователями и мульти-агентной системой крайне важно интерпретировать поступающую от агентов информацию параллельно и обращаться к соответствующему контексту для каждого запроса. Существующие проблемы включают эффективное сжатие и передачу больших объемов индивидуальных сенсорных данных в виде видео, а также корректную агрегацию множества эгоцентричных видео для построения системной памяти. В данной работе мы сначала формально определяем новую задачу понимания множества долговременных эгоцентричных видео, одновременно записанных воплощенными агентами. Для стимулирования исследований в этом направлении мы представляем MultiAgent-EgoQA (MA-EgoQA) — эталонный набор данных, предназначенный для системной оценки существующих моделей в нашем сценарии. MA-EgoQA содержит 1,7 тыс. вопросов, уникальных для множества эгоцентричных потоков, охватывающих пять категорий: социальное взаимодействие, координация задач, теория сознания, временные рассуждения и взаимодействие с окружающей средой. Мы также предлагаем простую базовую модель EgoMAS для MA-EgoQA, которая использует общую память между воплощенными агентами и динамическое поисковое взаимодействие между агентами. В результате всесторонней оценки различных базовых методов и EgoMAS на MA-EgoQA мы обнаружили, что современные подходы не способны эффективно обрабатывать множественные эгоцентричные потоки, что указывает на необходимость будущих достижений в области системного понимания across агентов. Код и эталонный набор данных доступны по адресу https://ma-egoqa.github.io.
Текстовые эмбеддеры на основе больших языковых моделей (LLM) обычно кодируют семантическое содержание входных данных. Однако задачи векторного представления требуют отображения разнородных входов в схожие выходы. Традиционно эта проблема "вход-выход" решается обучением моделей эмбеддингов на парных данных с использованием контрастивного обучения. В данной работе мы предлагаем новый самообучаемый подход LLM2Vec-Gen, который использует иную парадигму: вместо кодирования входных данных мы обучаемся представлять потенциальный ответ модели. Конкретно, мы добавляем в словарь LLM обучаемые специальные токены, присоединяем их к входу и оптимизируем их для представления ответа LLM в виде последовательности фиксированной длины. Обучение направляется собственным завершением запроса языковой моделью вместе с неконтролируемым учителем эмбеддингов, который предоставляет цели дистилляции. Такая формулировка помогает преодолеть разрыв между входом и выходом и переносит возможности LLM, такие как безопасное выравнивание и логический вывод, на задачи векторного представления. Ключевым моментом является то, что основа LLM остается замороженной, а для обучения требуются только немаркированные запросы. LLM2Vec-Gen достигает state-of-the-art результатов в самообучаемом режиме на Massive Text Embedding Benchmark (MTEB), улучшая показатель на 9,3% по сравнению с лучшим неконтролируемым учителем эмбеддингов. Мы также наблюдаем до 43,2% снижения извлечения вредоносного контента и улучшение логических способностей для задач эмбеддинга на 29,3%. Наконец, полученные эмбеддинги интерпретируемы и могут быть декодированы в текст для раскрытия их семантического содержания.
Адаптеры низкого ранга (LoRA) — это метод эффективной по параметрам тонкой настройки, который внедряет обучаемые матрицы низкого ранга в предварительно обученные модели для их адаптации к новым задачам. Модели смеси LoRA (Mixture-of-LoRAs) эффективно расширяют нейронные сети, направляя вход каждого слоя в небольшое подмножество специализированных LoRA этого слоя. Существующие маршрутизаторы Mixture-of-LoRAs назначают каждому LoRA обучаемый вес маршрутизации, что позволяет осуществлять сквозное обучение маршрутизатора. Несмотря на эмпирические перспективы, мы наблюдаем, что на практике веса маршрутизации обычно крайне несбалансированы между LoRA: часто доминирует только один или два адаптера. Это ограничивает количество эффективных LoRA и, следовательно, серьезно снижает выразительную способность существующих моделей Mixture-of-LoRAs. В данной работе мы связываем этот недостаток с природой обучаемых весов маршрутизации и переосмысливаем базовый дизайн маршрутизатора. Для решения этой ключевой проблемы мы предлагаем новую конструкцию маршрутизатора, названную Reinforcement Routing for Mixture-of-LoRAs (ReMix). Наша ключевая идея — использование необучаемых весов маршрутизации для обеспечения равной эффективности всех активных LoRA, без доминирования какого-либо одного адаптера. Однако наши маршрутизаторы не могут обучаться напрямую с помощью градиентного спуска из-за необучаемых весов. Поэтому мы дополнительно предлагаем несмещенный оценщик градиента для маршрутизатора, используя технику reinforce leave-one-out (RLOO), где мы рассматриваем функцию потерь как вознаграждение, а маршрутизатор — как стратегию в обучении с подкреплением. Наш оценщик градиента также позволяет масштабировать вычислительные ресурсы для обучения, чтобы повысить прогнозную производительность нашего ReMix. Многочисленные эксперименты демонстрируют, что предложенный метод ReMix значительно превосходит современные методы эффективной по параметрам тонкой настройки при сопоставимом количестве активированных параметров.
Хотя большие языковые модели (LLM) демонстрируют высокие способности к рассуждению, их производительность на сложных задачах часто ограничена пределами их внутренних знаний. Перспективным подходом для преодоления этого ограничения является дополнение этих моделей внешними инструментами — такими как интерпретаторы Python для математических вычислений или поисковые системы для получения фактической информации. Однако эффективное использование моделями этих инструментов остается серьезной проблемой. Существующие методы обычно основаны на "холодных" конвейерах, которые начинаются с контролируемого тонкого настройки (SFT), за которым следует обучение с подкреплением (RL). Эти подходы часто требуют значительных объемов размеченных данных для SFT, создание которых дорого. В данной работе мы предлагаем In-Context Reinforcement Learning (ICRL) — фреймворк, использующий только RL, который устраняет необходимость в SFT за счет использования немногих примеров (few-shot) на этапе выполнения (rollout) в RL. В частности, ICRL вводит контекстные примеры в промты этапа выполнения, чтобы научить модель тому, как вызывать внешние инструменты. Более того, по мере обучения количество контекстных примеров постепенно сокращается, в конечном итоге достигая zero-shot режима, в котором модель учится самостоятельно вызывать инструменты. Мы провели обширные эксперименты на ряде бенчмарков, связанных с рассуждениями и использованием инструментов. Результаты показывают, что ICRL достигает наилучшей производительности, демонстрируя свою эффективность в качестве масштабируемой и ресурсоэффективной альтернативы традиционным конвейерам на основе SFT.
Диффузионные трансформеры (DiT) стали ведущей архитектурой для генерации видео, однако их квадратичная вычислительная сложность, связанная с механизмом внимания, остается основным узким местом. Разреженное внимание снижает эти затраты, вычисляя только подмножество блоков внимания. Однако существующие методы часто либо полностью отбрасывают оставшиеся блоки, что приводит к потере информации, либо используют обученные предсказатели для их аппроксимации, что влечет дополнительные затраты на обучение и потенциальное смещение выходного распределения. В данной работе мы показываем, что недостающие вклады можно восстановить без обучения: после семантической кластеризации ключи и значения внутри каждого блока демонстрируют сильное сходство и могут быть хорошо описаны небольшим набором центроидов кластеров. Основываясь на этом наблюдении, мы представляем SVG-EAR — свободный от параметров линейный компенсационный блок, который использует центроид для аппроксимации пропущенных блоков и восстановления их вклада. Хотя компенсация на основе центроида точна для большинства блоков, она может давать сбой на небольшом их подмножестве. Стандартная разреженность обычно выбирает блоки по весам внимания, которые указывают, куда модель направляет основную массу внимания, но не показывают, где ошибка аппроксимации будет наибольшей. Поэтому SVG-EAR выполняет маршрутизацию с учетом ошибки: легковесный пробник оценивает ошибку компенсации для каждого блока, и мы точно вычисляем блоки с наибольшим отношением ошибки к стоимости, одновременно компенсируя пропущенные блоки. Мы предоставляем теоретические гарантии, связывающие ошибку реконструкции внимания с качеством кластеризации, и эмпирически показываем, что SVG-EAR улучшает компромисс между качеством и эффективностью и повышает пропускную способность при сохранении точности генерации в задачах видео-диффузии. В целом, SVG-EAR устанавливает четкий парето-фронт по сравнению с предыдущими подходами, достигая ускорения до 1,77 и 1,93 раза при сохранении PSNR до 29,759 и 31,043 на Wan2.2 и HunyuanVideo соответственно.
Крупные языковые модели, функционирующие в динамичных реальных условиях, часто сталкиваются со знаниями, которые непрерывно эволюционируют или появляются постепенно. Для сохранения точности и эффективности модели должны адаптироваться к вновь поступающей информации в реальном времени. Мы представляем метод Online Adaptation to Continual Knowledge Streams (OAKS) для оценки этой способности, создавая эталонный тест для онлайн-адаптации к непрерывно обновляемым потокам знаний. В частности, тест структурирован как последовательность детализированных контекстных фрагментов, в которых факты динамически изменяются с течением времени. OAKS включает два набора данных: OAKS-BABI и OAKS-Novel, где отдельные факты многократно изменяются across контекстных фрагментов. Эти наборы данных содержат плотные аннотации для измерения того, насколько точно модели отслеживают изменения. При оценке 14 моделей с различными подходами к выводу мы наблюдаем существенные ограничения современных методик. Как передовые модели, так и агентные системы памяти не способны к надежной адаптации в OAKS, демонстрируя задержки в отслеживании состояния и подверженность отвлечению внимания в потоковых средах.
Подсветка промптов направляет большую языковую модель на приоритизацию указанных пользователем текстовых отрезков во время генерации. Ключевая задача заключается в извлечении направляющих векторов, которые захватывают разницу между релевантным и нерелевантным контекстом, а не общие структурные паттерны, свойственные обоим. Мы предлагаем метод PRISM-Δ (Projection-based Relevance-Informed Steering Method), который декомпозирует разницу между положительными и отрицательными матрицами кросс-ковариации, чтобы максимизировать дискриминативную энергию, одновременно устраняя общие направления. Каждая голова внимания получает непрерывный вес важности, вычисляемый через функцию softplus, что позволяет слабым, но полезным головам вносить вклад с уменьшенной силой. Фреймворк естественным образом расширяется на представления Value, захватывая сигнал из контент-канала, который методы, основанные только на Key, оставляют неиспользованным. На четырех бенчмарках и пяти моделях PRISM-Δ соответствует или превосходит лучший существующий метод в 19 из 20 конфигураций, с относительным приростом до +10,6%, при этом вдвое сокращая "цену" направляющего воздействия на беглость речи. PRISM-Δ также масштабируется для поиска в длинном контексте, превосходя лучший существующий метод с относительным приростом до +4,8%. Метод совместим с FlashAttention и добавляет пренебрежимо малые накладные расходы по памяти.
Существующие методы персонализации видео сохраняют визуальное сходство, но обрабатывают видео и аудио раздельно. Без доступа к визуальной сцене аудиомодели не могут синхронизировать звуки с действиями на экране; а поскольку классические модели клонирования голоса используют только эталонную запись, текстовый запрос не может изменить стиль речи или акустическое окружение. Мы предлагаем ID-LoRA (Identity-Driven In-Context LoRA), которая совместно генерирует внешность и голос субъекта в единой модели, позволяя текстовому запросу, эталонному изображению и короткому аудиофрагменту управлять обеими модальностями вместе. ID-LoRA адаптирует базовую архитектуру LTX-2 совместной аудио-видео диффузии посредством параметрически эффективной In-Context LoRA и, насколько нам известно, является первым методом, персонализирующим визуальную внешность и голос за один генерационный проход. Возникают две проблемы. Токены эталона и генерации используют одно пространство позиционных кодировок, что затрудняет их различение; мы решаем это с помощью отрицательных временных позиций, размещая эталонные токены в отдельной области RoPE при сохранении их внутренней временной структуры. Характеристики говорящего также склонны размываться в процессе денойзинга; мы вводим идентификационное guidance — вариант classifier-free guidance, который усиливает специфические для говорящего черты путем сравнения предсказаний с эталонным сигналом и без него. В исследованиях человеческих предпочтений ID-LoRA была выбрана над Kling 2.6 Pro 73% аннотаторов по сходству голоса и 65% по стилю речи. В условиях смены окружения сходство говорящего улучшилось на 24% по сравнению с Kling, причем разрыв увеличивается по мере расхождения условий. Предварительное пользовательское исследование также указывает, что совместная генерация обеспечивает полезное индуктивное смещение для физически обоснованного синтеза звука. ID-LoRA достигает этих результатов всего на ~3 тыс. обучающих пар с использованием одного GPU. Код, модели и данные будут опубликованы.
Агенты на основе больших языковых моделей (LLM), обученные с помощью обучения с подкреплением (RL), продемонстрировали значительный потенциал в решении сложных интерактивных задач. Однако стандартные парадигмы RL отдают предпочтение статическому решению проблем в ущерб непрерывной адаптации: агенты часто сходятся к субоптимальным стратегиям из-за недостаточного исследования, а полученные знания остаются неявными внутри параметров, а не явно извлекаемыми, что ограничивает эффективное обучение на опыте. Чтобы устранить эти ограничения, мы представляем RetroAgent — онлайн-фреймворк RL, который позволяет агентам осваивать сложные интерактивные среды не просто решая задачи, а эволюционируя. Конкретно, RetroAgent включает механизм ретроспективного самоанализа, который генерирует двойную внутреннюю обратную связь: (1) внутреннюю числовую обратную связь, отслеживающую поэтапное выполнение подзадач относительно предыдущих попыток и поощряющую перспективные исследования, и (2) внутреннюю языковую обратную связь, которая извлекает переиспользуемые уроки в буфер памяти, извлекаемый с помощью нашей стратегии Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB), балансирующей релевантность, полезность и исследование для эффективного использования прошлого опыта. Многочисленные эксперименты на двух семействах моделей в рамках четырех сложных агентных задач показывают, что RetroAgent значительно превосходит существующие методы, достигая наилучших результатов — например, превосходя агентов, обученных с помощью Group Relative Policy Optimization (GRPO), на +18,3% в ALFWorld, +15,4% в WebShop, +27,1% в Sokoban и +8,9% в MineSweeper — при этом демонстрируя сильную адаптацию во время тестирования и обобщаемость на сценарии с выходом за пределы распределения данных.
Когда мультимодальные языковые модели (MLLM) демонстрируют неудачи в визуальном анализе задач STEM (естественные науки, технологии, инженерия и математика), возникает фундаментальный вопрос: связаны ли эти ошибки с недостатками восприятия или ограничениями логического вывода? Проведя системный анализ масштабирования с независимым увеличением возможностей компонентов восприятия и рассуждений, мы выявили ключевую закономерность: масштабирование восприятия последовательно превосходит масштабирование рассуждений. Это указывает на то, что именно восприятие является основным ограничивающим фактором в современных системах визуального анализа STEM. Мотивированные этим открытием, мы сосредоточились на системном усилении перцептивных способностей MLLM, представив код в качестве мощной среды восприятия — исполняемый код обеспечивает точную семантику, которая естественным образом согласуется со структурированной природой STEM-визуализаций. Конкретно мы создали ICC-1M, крупномасштабный набор данных из 1 млн триплетов «Изображение-Описание-Код», реализующий парадигму «код-как-восприятие» через два взаимодополняющих подхода: (1) Генерация описаний на основе кода использует исполняемый код в качестве эталонной истины для описаний изображений, исключая характерные для современных методов дистилляции знаний галлюцинации; (2) Преобразование STEM-изображений в код побуждает модели генерировать реконструкционный код, устраняя неоднозначность естественного языка для улучшения восприятия. Для валидации парадигмы мы представляем STEM2Code-Eval — новый бенчмарк, напрямую оценивающий визуальное восприятие в STEM-доменах. В отличие от существующих подходов, использующих точность решения задач как косвенный показатель, измеряющий лишь релевантное понимание проблемы, наш бенчмарк требует всестороннего визуального понимания через генерацию исполняемого кода для реконструкции изображения, обеспечивая детерминированную и верифицируемую оценку. Код доступен по адресу https://github.com/TongkunGuan/Qwen-CodePercept.
В обучении с подкреплением с верифицируемыми вознаграждениями (RLVR) построение надежного базового преимущества критически важно для градиентов политики, эффективно направляя модель политики на закрепление желаемого поведения. В последних исследованиях были представлены модели ценности общего назначения (например, V₀), которые достигают предварительно обученной оценки ценности за счет явного кодирования возможностей модели в контексте, устраняя необходимость синхронного обновления модели ценности вместе с моделью политики. В данной статье мы предлагаем модель V₀.₅, которая адаптивно объединяет базовый уровень, предсказанный такой моделью ценности (выступающей в качестве априорного предположения), с эмпирическим средним, полученным из разреженных прогонов. Это создает надежный базовый уровень, балансирующий вычислительную эффективность с чрезвычайно низкой дисперсией. В частности, мы вводим процедуру статистического тестирования в реальном времени и динамического распределения бюджета. Это уравновешивает высокую дисперсию, вызванную разреженным сэмплированием, и систематическое смещение (или галлюцинации), присущие априорному предположению модели ценности. Путем построения статистического критерия для оценки надежности априорного предположения в реальном времени система динамически выделяет дополнительный бюджет на прогоны по требованию. Данный механизм минимизирует среднеквадратическую ошибку (СКО) оценки базового уровня, гарантируя стабильность градиентов политики даже в условиях экстремальной разреженности при размере группы, равном 4. Обширные оценки на шести тестовых наборах по математическим рассуждениям демонстрируют, что V₀.₅ значительно превосходит GRPO и DAPO, обеспечивая более быструю сходимость и улучшение производительности примерно на 10%.
Крупные языковые модели (LLM) все чаще используются на различных этапах научной работы, включая составление рецензий для peer-review. Однако многие обзоры, сгенерированные ИИ, носят поверхностный характер и недостаточно конкретны, что оставляет авторов без четких, реализуемых рекомендаций и обуславливает проблему, которую решает данная работа. Мы предлагаем метод RbtAct, направленный на генерацию практичных рецензий и ставящий существующие ответы авторов (ребатталы) в центр процесса обучения. Ребатталы показывают, какие комментарии рецензентов привели к конкретным правкам или конкретным планам, а какие были лишь оспорены. Основываясь на этом наблюдении, мы используем ребатталы в качестве неявного руководства для прямой оптимизации генератора отзывов на предмет практической ценности. Для решения этой задачи мы предлагаем новую задачу — генерацию сегментированных рецензионных отзывов, обусловленных перспективой, где модель должна создавать единый сфокусированный комментарий на основе полного текста статьи и заданной перспективы, такой как «эксперименты» или «стиль изложения». Мы также создали крупный датасет RMR-75K, который сопоставляет сегменты рецензий с сегментами ребатталов, их адресующими, включая метки перспектив и категории влияния, отражающие степень принятия рекомендаций автором. Затем мы обучили модель Llama-3.1-8B-Instruct с помощью контролируемого тонкого обучения на сегментах рецензий с последующей оптимизацией предпочтений с использованием пар, выведенных из ребатталов. Эксперименты с участием экспертов-людей и оценкой с помощью LLM-судии демонстрируют последовательное улучшение в практической ценности и конкретности по сравнению с сильными базовыми методами при сохранении обоснованности и релевантности.
Крупные языковые модели (LLM) обычно получают разнообразную обратную связь на естественном языке (ЕЯ) в процессе взаимодействия со средой. Однако современные алгоритмы обучения с подкреплением (RL) полагаются исключительно на скалярные вознаграждения, что оставляет богатую информацию в текстовой обратной связи неиспользованной и приводит к неэффективному исследованию среды. В данной работе мы предлагаем GOLF — RL-фреймворк, который явно использует групповую языковую обратную связь для целенаправленного исследования среды через практические уточнения. GOLF агрегирует два взаимодополняющих источника обратной связи: (i) внешние критические замечания, которые выявляют ошибки или предлагают целевые исправления, и (ii) внутригрупповые попытки, которые предоставляют альтернативные частичные идеи и разнообразные паттерны неудач. Эти групповые обратные связи агрегируются для создания высококачественных уточнений, которые адаптивно внедряются в процесс обучения в качестве внестратегичных "строительных лесов" для предоставления целевых указаний в областях с разреженными вознаграждениями. При этом GOLF совместно оптимизирует генерацию и уточнение в рамках единого RL-цикла, создавая virtuous cycle, который непрерывно улучшает обе способности. Эксперименты на верифицируемых и неверифицируемых бенчмарках показывают, что GOLF демонстрирует превосходную производительность и эффективность исследования, достигая 2.2-кратного улучшения в эффективности использования образцов по сравнению с RL-методами, обученными только на скалярных вознаграждениях. Код доступен по адресу https://github.com/LuckyyySTA/GOLF.
Диффузионные трансформаторы установили новый уровень современных достижений в синтезе изображений, однако высокая вычислительная стоимость итеративной выборки серьезно ограничивает их практическое применение. В то время как существующие методы ускорения часто сосредоточены на временной области, они упускают из виду значительную пространственную избыточность, присущую самому процессу генерации, когда глобальные структуры формируются задолго до появления мелких деталей. Единообразная вычислительная обработка всех пространственных областей представляет собой критическую неэффективность. В данной статье мы представляем Just-in-Time (JiT) — новую framework-систему, не требующую дообучения, которая решает эту проблему за счет ускорения в пространственной области. JiT формулирует пространственно аппроксимированное генеративное обыкновенное дифференциальное уравнение (ОДУ), которое управляет эволюцией полного латентного состояния на основе вычислений из динамически выбираемого разреженного подмножества якорных токенов. Для обеспечения плавных переходов по мере включения новых токенов для расширения размерности латентного состояния мы предлагаем детерминированный микро-поток — простое и эффективное ОДУ с конечным временем решения, которое сохраняет как структурную целостность, так и статистическую корректность. Многочисленные эксперименты на передовой модели FLUX.1-dev демонстрируют, что JiT обеспечивает ускорение до 7 раз практически без потерь в качестве, значительно превосходя существующие методы ускорения и устанавливая новое, превосходное соотношение между скоростью вывода и точностью генерации.
Мы предлагаем полностью автоматизированную систему искусственного интеллекта, которая создает короткие юмористические видеоролики, аналогичные скетч-шоу, таким как "Saturday Night Live". Исходя из описаний персонажей, система использует популяцию агентов, в основе которых лежат роли реальной продюсерской студии, структурированные для оптимизации качества и разнообразия идей и результатов посредством итеративного соревнования, оценки и улучшения. Ключевым вкладом является внедрение LLM-критиков, настроенных на предпочтения реальных зрителей за счет анализа корпуса юмористических видео на YouTube для автоматической оценки юмора. Наши эксперименты показывают, что наша система производит результаты, близкие по качеству к профессионально созданным скетчам, демонстрируя передовые показатели в генерации видео.
Современные унифицированные мультимодальные модели обычно используют дискретные визуальные токенизаторы для преодоления межмодального разрыва. Однако дискретизация неизбежно отбрасывает детальную семантическую информацию, что приводит к неоптимальной производительности в задачах визуального понимания. В свою очередь, прямое моделирование непрерывных семантических представлений (например, CLIP, SigLIP) создает значительные трудности в генеративном моделировании высокой размерности, вызывая медленную сходимость и нестабильность обучения. Для решения этой дилеммы мы представляем UniCom — унифицированную архитектуру, которая согласовывает мультимодальное понимание и генерацию через сжатое непрерывное представление. Эмпирически мы демонстрируем, что сокращение размерности каналов значительно эффективнее пространственного уменьшения разрешения как для реконструкции, так и для генерации. Соответственно, мы разрабатываем компрессор на основе внимания для дистилляции плотных признаков в компактное унифицированное представление. Кроме того, мы подтверждаем, что архитектура трансфузии превосходит подходы на основе запросов по сходимости и согласованности. Эксперименты показывают, что UniCom достигает передовой генерационной производительности среди унифицированных моделей. Примечательно, что сохраняя богатые семантические априорные знания, модель демонстрирует исключительную управляемость в редактировании изображений и поддерживает целостность изображения даже без использования VAE.
Агенты больших языковых моделей (LLM) часто сталкиваются со значительными проблемами распределения заслуг в многошаговых задачах с длительным горизонтом планирования из-за разреженности вознаграждений. Существующие методы, не использующие функцию ценности, такие как Group Relative Policy Optimization (GRPO), сталкиваются с двумя фундаментальными ограничениями: неточной оценкой Q-значений на уровне шага и несоответствием базовых показателей ценности для промежуточных состояний. Для преодоления этих ограничений мы представляем HCAPO — первую систему, интегрирующую ретроспективное распределение заслуг в агенты на основе LLM. HCAPO использует саму LLM в качестве ретроспективного критика для уточнения пошаговых Q-значений через анализ постфактум. Кроме того, механизм преимуществ на разных масштабах в HCAPO эффективно компенсирует неточные базовые показатели ценности в критических состояниях принятия решений. Оценки на трех сложных тестовых наборах, включая WebShop и ALFWorld, демонстрируют, что HCAPO стабильно превосходит современные методы обучения с подкреплением. Примечательно, что HCAPO достигает повышения показателя успешности на 7.7% в WebShop и на 13.8% в ALFWorld по сравнению с GRPO при использовании модели Qwen2.5-7B-Instruct. Эти результаты указывают на то, что HCAPO существенно повышает эффективность исследования, способствует лаконичному принятию решений и обеспечивает масштабируемость в сложных многошаговых задачах.
Разреженные автоэнкодеры способны локализовать, где в языковых моделях находятся концепции, но не то, как они взаимодействуют при многошаговых рассуждениях. Мы предлагаем Причинные Концептуальные Графы (CCG): ориентированный ациклический граф над разреженными, интерпретируемыми латентными признаками, где рёбра отражают выученные причинно-следственные зависимости между концепциями. Мы объединяем задачно-ориентированные разреженные автоэнкодеры для обнаружения концепций с дифференцируемым обучением структуры в стиле DAGMA для восстановления графа и вводим Оценку Причинной Достоверности (CFS), чтобы оценить, вызывают ли граф-направленные интервенции больший эффект на последующих этапах по сравнению со случайными. На ARC-Challenge, StrategyQA и LogiQA с GPT-2 Medium, по пяти сидам (n=15 парных запусков), CCG достигает CFS=5.654±0.625, превосходя трассировку в стиле ROME (3.382±0.233), ранжирование только на основе SAE (2.479±0.196) и случайный базовый уровень (1.032±0.034), с p<0.0001 после поправки Бонферрони. Выученные графы являются разреженными (плотность рёбер 5–6%), предметно-ориентированными и стабильными across seeds.
Последний слой нейросетевых языковых моделей (ЯМ) проецирует выходные признаки размерности D в логиты размерности V, соответствующей размеру словаря, причем обычно D ≪ V. Известно, что это несоответствие повышает риски ограниченной выразительной способности нейросетевых ЯМ, создавая так называемое узкое место softmax. Мы показываем, что узкое место softmax является не только узким местом выразительности, но и узким местом оптимизации. Обратное распространение V-мерных градиентов через линейный слой ранга D вызывает неизбежное сжатие, которое искажает обучающий сигнал, поступающий к подавляющему большинству параметров. Мы представляем теоретический анализ этого явления и эмпирически измеряем, что 95–99% нормы градиента подавляется выходным слоем, что приводит к сильно субоптимальным направлениям обновления. Мы проводим контролируемые эксперименты по предварительному обучению, показывающие, что градиентное узкое место делает тривиальные паттерны необучаемыми и кардинально влияет на динамику обучения больших языковых моделей (LLM). Мы утверждаем, что этот фундаментальный недостаток вносит вклад в неэффективность обучения на масштабе независимо от архитектуры модели и указывает на необходимость разработки новых структур выходного слоя ЯМ.
Мультимодальные большие языковые модели (ММ-ЯМ) продемонстрировали высокую производительность в области анализа медицинских изображений и клинических рассуждений. Современные медицинские агентские системы расширяют их возможности за счет использования инструментов и мультиагентного взаимодействия, обеспечивая сложное принятие решений. Однако эти системы почти полностью полагаются на фронтирные модели (например, GPT), чье API-развертывание влечет высокую стоимость, значительную задержку и риски конфиденциальности, противоречащие требованиям локального клинического развертывания. Мы представляем Meissa — облегченную медицинскую ММ-ЯМ с 4 млрд параметров, которая обеспечивает агентские возможности в офлайн-режиме. Вместо имитации статических ответов Meissa обучается как тому, когда вовлекать внешнее взаимодействие (выбор стратегии), так и тому, как выполнять многошаговое взаимодействие (исполнение стратегии), путем дистилляции структурированных траекторий из фронтирных моделей. В частности, мы предлагаем: (1) Унифицированное моделирование траекторий: траектории (цепи рассуждений и действий) представлены в рамках единой формальной схемы «состояние-действие-наблюдение», что позволяет одной модели обобщать данные в разнородных медицинских средах. (2) Трехуровневое стратифицированное обучение: собственные ошибки модели запускают прогрессивную эскалацию от прямого рассуждения к инструментально-расширенному и мультиагентному взаимодействию, явно обучая выбору стратегии с учетом сложности задачи. (3) Перспективно-ретроспективное обучение: сопоставление исследовательских прямых траекторий с ретроспективно рационализированными траекториями исполнения позволяет стабильно обучать эффективные политики взаимодействия. Обученная на 40 000 отобранных траекторий, Meissa превосходит или соответствует проприетарным фронтирным агентам в 10 из 16 оценочных сценариев across 13 медицинских тестов, охватывающих радиологию, патологию и клинические рассуждения. Используя более чем в 25 раз меньше параметров, чем типичные фронтирные модели вроде Gemini-3, Meissa работает полностью автономно с 22-кратным снижением сквозной задержки по сравнению с API-развертыванием. Данные, модели и среды опубликованы по адресу https://github.com/Schuture/Meissa.
Создание музыки, временно согласованной с событиями на видео, представляет сложность для существующих текстово-музыкальных моделей, которые не обладают детальным временным контролем. Мы представляем V2M-Zero — беспарный подход генерации музыки по видео, который выдает временно согласованную музыку для видеоряда. Наш метод основан на ключевом наблюдении: временная синхронизация требует соответствия того, когда и насколько сильно происходят изменения, а не того, какие именно изменения происходят. Хотя музыкальные и визуальные события различаются семантически, они демонстрируют общую временную структуру, которую можно независимо выделить внутри каждой модальности. Мы фиксируем эту структуру с помощью кривых событий, вычисляемых на основе внутримодального сходства с использованием предобученных музыкальных и видеоэнкодеров. Измеряя временные изменения внутри каждой модальности независимо, эти кривые обеспечивают сопоставимые представления across модальностями. Это позволяет использовать простую стратегию обучения: дообучить текстово-музыкальную модель на кривых музыкальных событий, а затем подставлять кривые видео-событий на этапе inference без кросс-модального обучения или парных данных. На наборах данных OES-Pub, MovieGenBench-Music и AIST++ V2M-Zero демонстрирует значительное превосходство над baseline-методами, использующими парные данные: на 5–21% выше качество аудио, на 13–15% лучше семантическое соответствие, на 21–52% улучшена временная синхронизация и на 28% выше ритмическое соответствие в танцевальных видео. Схожие результаты получены в крупном краудсорсинговом субъективном тестировании. В целом наши результаты подтверждают, что временное согласование через внутримодальные признаки, а не через парную кросс-модальную разметку, является эффективным для задачи генерации музыки по видео. Результаты доступны по адресу https://genjib.github.io/v2m_zero/.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) значительно расширило способности крупных языковых моделей (LLM) к рассуждению. Однако RLVR полагается исключительно на итоговые ответы в качестве вознаграждений, игнорируя корректность промежуточных шагов рассуждения. Обучение на таких траекториях, где процесс ошибочен, но итог верен, может приводить к галлюцинациям и копированию ответов, что серьезно подрывает обобщающую способность и устойчивость модели. Для решения этой проблемы мы интегрируем механизм контрастивного обучения в оптимизацию стратегии (CLIPO) для обобщения процесса RLVR. Оптимизируя контрастивную функцию потерь на успешных траекториях, CLIPO направляет LLM на выявление инвариантной структуры, общей для всех корректных путей рассуждений. Это обеспечивает более надежную регуляризацию между траекториями по сравнению с исходным однотраекторным контролем в RLVR, эффективно устраняя несогласованность рассуждений на уровне шагов и подавляя артефакты в виде галлюцинаций. В экспериментах CLIPO стабильно улучшает показатели нескольких базовых моделей RLVR на различных тестах рассуждений, демонстрируя равномерный прогресс в обобщающей способности и устойчивости при оптимизации стратегии LLM. Наш код и рецепты обучения доступны по адресу https://github.com/Qwen-Applications/CLIPO.
Видеогенерирующие модели (VGM), предобученные на крупномасштабных интернет-данных, способны создавать временно согласованные видеоролики, которые отражают богатую динамику объектов, что представляет собой убедительную основу для zero-shot роботизированного манипулирования. Однако VGM часто генерируют физически нереалистичные сценарии, а преобразование их движения в пиксельном пространстве в действия робота посредством геометрического переприцеливания дополнительно вносит кумулятивные ошибки из-за неидеального оценивания глубины и отслеживания ключевых точек. Для решения этих проблем мы представляем — беcданный фреймворк, который на этапе вывода согласовывает выходные данные VGM с композиционными ограничениями, генерируемыми моделями "визуальный язык" (VLM). Ключевая идея заключается в том, что VLM предлагают возможность, дополняющую VGM: структурированное пространственное рассуждение, способное идентифицировать физические ограничения, критически важные для успеха и безопасности выполнения манипуляции. Для заданной языковой инструкции использует VLM для автоматического извлечения набора композиционных ограничений, отражающих специфичные для задачи требования, которые затем применяются на двух этапах: (1) выбор сценария с учетом ограничений, который оценивает и фильтрует пакет сценариев от VGM, чтобы оставить наиболее физически правдоподобного кандидата, и (2) оптимизация траектории на основе ограничений, которая использует выбранный сценарий в качестве инициализации и уточняет траекторию робота под тем же набором ограничений для исправления ошибок переприцеливания. Мы оцениваем на шести задачах манипулирования на реальном роботе, требующих точного, чувствительного к ограничениям выполнения, и демонстрируем улучшение общего показателя успешности на 43,3 процентных пункта по сравнению с сильнейшим базовым методом без использования каких-либо обучающих данных, специфичных для задачи.
Персонализированные ИИ-ассистенты должны запоминать и анализировать долгосрочную память пользователя, которая естественным образом охватывает модальности и источники, такие как изображения, видео и электронные письма. Однако существующие бенчмарки долгосрочной памяти в основном сосредоточены на истории диалогов, не отражая реалистичные персонализированные ссылки, основанные на жизненном опыте. Мы представляем ATM-Bench — первый бенчмарк для многомодальных, многоисточниковых вопросно-ответных систем с персонализированной референциальной памятью. ATM-Bench содержит примерно четыре года приватных данных личной памяти и размеченных человеком вопросно-ответных пар с подтверждающими свидетельствами из памяти, включая запросы, требующие разрешения персональных ссылок, многоэвиденциальных рассуждений из нескольких источников и обработки противоречивых свидетельств. Мы предлагаем Schema-Guided Memory (SGM) для структурного представления элементов памяти, происходящих из разных источников. В экспериментах мы реализуем 5 современных систем памяти вместе с базовым RAG-подходом и оцениваем варианты с различными техниками индексирования, поиска и генерации ответов. Мы обнаружили низкую производительность (менее 20% точности) на наборе ATM-Bench-Hard и то, что SGM улучшает результаты по сравнению с дескриптивной памятью, обычно используемой в предыдущих работах. Код доступен по адресу: https://github.com/JingbiaoMei/ATM-Bench
Последние достижения в области многопоместного обучения с подкреплением, в частности метод оракулов пространства политик (PSRO), позволили вычислять приближенные игровые равновесия во все более сложных областях. Однако эти методы опираются на глубокие обучающиеся с подкреплением оракулы, которые производят политики в виде «черных ящиков» на основе нейронных сетей, что затрудняет их интерпретацию, доверие к ним и отладку. Мы представляем метод оракулов пространства кода (CSRO) — новую концепцию, которая решает эту проблему, заменяя RL-оракулы большими языковыми моделями (LLM). CSRO переосмысливает вычисление наилучшего ответа как задачу генерации кода, предлагая LLM генерировать политики напрямую в виде читаемого человеком кода. Этот подход не только дает изначально интерпретируемые политики, но и использует предварительно обученные знания LLM для обнаружения сложных, человеко-подобных стратегий. Мы исследуем несколько способов создания и улучшения оракула на основе LLM: zero-shot prompting, итеративное уточнение и AlphaEvolve — распределенную эволюционную систему на основе LLM. Мы показываем, что CSRO демонстрирует результаты, сопоставимые с базовыми методами, при этом создавая разнообразный набор объяснимых политик. Наша работа предлагает новый взгляд на многопоместное обучение, смещая фокус с оптимизации непрозрачных параметров политик на синтез интерпретируемого алгоритмического поведения.
Точное и плотное определение глубины крайне важно для восприятия роботами, однако серийные сенсоры часто дают разреженные или неполные измерения из-за аппаратных ограничений. Существующие методы завершения глубины, основанные на слиянии RGB-D данных, обучают априорные представления, совместно обусловленные распределением RGB-данных при обучении и специфическими паттернами глубины, что ограничивает обобщающую способность на новые домены и устойчивость к различным паттернам глубины. Недавние подходы используют модели монокулярного оценивания глубины (MDE) для введения доменно-независимых геометрических априорных знаний, однако современные двухэтапные стратегии интеграции, основанные на явном выравнивании относительной шкалы в метрическую, требуют дополнительных вычислений и вносят структурные искажения. В связи с этим мы представляем Any2Full — одноэтапный, доменно-независимый и паттерн-агностический фреймворк, который переформулирует задачу завершения как адаптацию предобученной MDE-модели с помощью масштабирующих промптов. Для работы с различными уровнями разреженности глубины и нерегулярными пространственными распределениями мы разработали Масштабно-Осознающий Кодировщик Промптов. Он извлекает информацию о масштабе из разреженных входных данных и преобразует её в унифицированные масштабные промпты, направляя MDE-модель к глобально масштабно-согласованным предсказаниям, сохраняя при этом её геометрические априорные знания. Многочисленные эксперименты демонстрируют, что Any2Full достигает превосходной устойчивости и эффективности. Метод превосходит OMNI-DC на 32.2% по усреднённому AbsREL и обеспечивает ускорение в 1.4 раза по сравнению с PriorDA при использовании того же MDE-бэкбона, устанавливая новую парадигму для универсального завершения глубины. Код и контрольные точки доступны по адресу https://github.com/zhiyuandaily/Any2Full.
Модели "язык-зрение" (Vision Language Models, VLM) объединяют визуальное восприятие и лингвистические рассуждения. В области автономного вождения (Autonomous Driving, AD) эта синергия позволила создать модели "язык-зрение-действие" (Vision Language Action, VLA), которые преобразуют высокоуровневое мультимодальное понимание в поведение при вождении, обычно представленное в виде будущих траекторий. Однако существующие модели VLA в основном генерируют общие траектории, свободные от столкновений. Помимо избегания столкновений, адаптация к различным стилям вождения (например, спортивному, комфортному) необходима для персонализированного вождения. Более того, многие методы рассматривают генерацию траекторий как наивное предсказание токенов, что может приводить к кинематически невыполнимым действиям. Для решения этих проблем мы представляем StyleVLA — физически обоснованную VLA-структуру для генерации разнообразного и физически правдоподобного поведения при вождении. Мы вводим гибридную функцию потерь, которая сочетает ограничение кинематической согласованности с непрерывной регрессионной головкой для повышения реализуемости траекторий. Для обучения StyleVLA, построенной на основе Qwen3-VL-4B, мы создали масштабный набор данных инструкций, содержащий более 1,2 тыс. сценариев, 76 тыс. образов с вида сверху (Bird's Eye View, BEV) и 42 тыс. образов от первого лица (First Person View, FPV), с эталонными траекториями для пяти стилей вождения и инструкциями на естественном языке. Эксперименты показывают, что наша StyleVLA с 4 миллиардами параметров значительно превосходит проприетарные модели (например, Gemini-3-Pro) и передовые модели VLA. Используя составной показатель вождения, измеряющий процент успеха, физическую реализуемость и соответствие стилю, StyleVLA достигает 0,55 для BEV и 0,51 для FPV, по сравнению с 0,32 и 0,35 у Gemini-3-Pro. Эти результаты демонстрируют, что специализированная, физически обоснованная и легковесная модель может превзойти закрытые модели в предметно-ориентированных задачах.