Ежедневно отобранные исследовательские статьи по ИИ с переводами
Стабильность обучения остается ключевой проблемой в обучении с подкреплением (RL) для больших языковых моделей (LLM). Устаревание политики, асинхронное обучение и несоответствия между механизмами обучения и вывода приводят к расхождению поведенческой политики с текущей, что создает риск коллапса обучения. Вариационный выбор дает принципиальную поправку на это смещение распределения, но страдает от высокой дисперсии; существующие методы, такие как токен-уровневое ограничение и нормализация на уровне последовательностей, не имеют единого теоретического обоснования. Мы предлагаем Вариационную мягкую оптимизацию политики на уровне последовательностей (VESPO). Интегрируя снижение дисперсии в вариационную формулировку над предлагаемыми распределениями, VESPO выводит замкнутое ядро преобразования, которое работает непосредственно с весами важности на уровне последовательностей без нормализации по длине. Эксперименты на бенчмарках математических рассуждений показывают, что VESPO сохраняет стабильность обучения при коэффициентах устаревания до 64x и полностью асинхронном выполнении, а также обеспечивает стабильное улучшение результатов как для плотных моделей, так и для моделей со смесью экспертов. Код доступен по адресу https://github.com/FloyedShen/VESPO.
Последние достижения в области больших моделей рассуждений (LRM) значительно повысили их способности к решению сложных задач за счет использования длинных цепочек рассуждений (CoT). Однако данный подход часто приводит к существенной избыточности, снижая вычислительную эффективность и вызывая значительные задержки в системах реального времени. Новейшие исследования показывают, что более длинные цепочки рассуждений часто не коррелируют с правильностью ответа и могут даже ухудшать точность. При дальнейшем углубленном анализе этого феномена мы неожиданно обнаружили и эмпирически подтвердили, что LRM неявно обладают способностью определять подходящий момент для прекращения рассуждений, однако эта возможность скрыта современными парадигмами сэмплирования. Мотивированные этим, мы представляем SAGE (Self-Aware Guided Efficient Reasoning) — новую парадигму сэмплирования, раскрывающую данный потенциал эффективного рассуждения. Более того, интеграция SAGE в качестве смешанного сэмплирования в групповое обучение с подкреплением (SAGE-RL) позволяет эффективно внедрять выявленные SAGE паттерны эффективного рассуждения в стандартный вывод pass@1, что существенно повышает как точность рассуждений, так и эффективность LRM на множестве сложных математических тестов.
Расширенная реальность (XR) требует генеративные модели, реагирующие на отслеживаемые движения пользователей в реальном мире, однако современные видео-миры принимают лишь грубые управляющие сигналы, такие как текст или ввод с клавиатуры, что ограничивает их полезность для воплощенного взаимодействия. Мы представляем ориентированную на человека модель видео-мира, которая учитывает как отслеживаемую позу головы, так и позы рук на уровне суставов. Для этой цели мы оцениваем существующие стратегии кондиционирования диффузионных трансформеров и предлагаем эффективный механизм для трехмерного управления головой и руками, обеспечивающий ловкие руко-объектные взаимодействия. Мы обучаем учителя — двунаправленную диффузионную модель для видео, используя эту стратегию, и проводим его дистилляцию в причинно-следственную интерактивную систему, которая генерирует эгоцентричные виртуальные окружения. Мы оцениваем эту систему генеративной реальности с участием людей-испытуемых и демонстрируем улучшенную производительность задач, а также значительно более высокий уровень воспринимаемого контроля над выполняемыми действиями по сравнению с релевантными базовыми методами.
Визуальное обучение по аналогии позволяет манипулировать изображениями с помощью демонстрации, а не текстового описания, что дает пользователям возможность задавать сложные преобразования, которые трудно выразить словами. Для заданной тройки {a, a', b} цель состоит в том, чтобы сгенерировать b' таким образом, что a : a' :: b : b'. Современные методы адаптируют для этой задачи тексто-изобразительные модели, используя единственный модуль Low-Rank Adaptation (LoRA), однако они сталкиваются с фундаментальным ограничением: попытка охватить разнообразное пространство визуальных преобразований с помощью фиксированного модуля адаптации ограничивает возможности обобщения. Вдохновленные недавними работами, которые показали, что LoRA-модули в ограниченных областях образуют осмысленные, интерполируемые семантические пространства, мы предлагаем LoRWeB — новый подход, который специализирует модель для каждой задачи аналогии во время вывода за счет динамической композиции изученных примитивов преобразований, неформально говоря, выбирая точку в «пространстве LoRA». Мы представляем две ключевые компоненты: (1) обучаемый базис LoRA-модулей для охвата пространства различных визуальных преобразований и (2) легковесный кодировщик, который динамически выбирает и взвешивает эти базисные LoRA на основе входной пары для аналогии. Всесторонние оценки демонстрируют, что наш подход достигает наилучших результатов и значительно улучшает обобщение на невидимые визуальные преобразования. Наши результаты позволяют предположить, что разложения по базису LoRA являются перспективным направлением для гибкого визуального манипулирования. Код и данные доступны по адресу: https://research.nvidia.com/labs/par/lorweb
Декодирование занимает промежуточное положение между языковой моделью и всеми задачами, которые мы с её помощью решаем, однако до сих пор воспринимается как эвристический процесс настройки параметров. Мы утверждаем, что декодирование следует понимать как принципиальный оптимизационный слой: на каждом шаге генерации токена мы решаем регуляризованную задачу на симплексе вероятностей, которая находит баланс между оценкой модели и структурными предпочтениями или ограничениями. Эта единая схема охватывает как частные случаи жадное декодирование, сэмплирование Softmax, Top-K, Top-P и разреженность в стиле Sparsemax, объясняя их общую структуру через условия оптимальности. Что важнее, данный подход позволяет легко создавать новые декодеры, не прибегая к фольклору эвристик. Мы демонстрируем это, разработав Best-of-K (BoK) — цель покрытия, закреплённая дивергенцией Кульбака-Лейблера, для конвейеров, использующих множественные сэмплы (самосогласованность, переранжирование, выбор верификатора). BoK нацелена на вероятность покрытия хороших альтернатив в рамках фиксированного бюджета из K сэмплов и улучшает эмпирические показатели. Мы показываем, что такие сэмплы могут повысить точность, например, на +18.6% для модели Qwen2.5-Math-7B на наборе MATH500 при высоких температурах сэмплирования.
Люди способны переставлять объекты в загроможденной среде, используя эгоцентрическое восприятие и преодолевая окклюзии без глобальных координат. Вдохновленные этой способностью, мы исследуем задачу долгосрочной многопредметной перестановки без захвата для мобильных роботов с использованием единственной эгоцентрической камеры. Мы представляем EgoPush — фреймворк обучения политик, который позволяет осуществлять эгоцентрическую, управляемую восприятием перестановку без reliance на явную оценку глобального состояния, которая часто терпит неудачу в динамических сценах. EgoPush создает объектно-ориентированное латентное пространство для кодирования относительных пространственных отношений между объектами, а не их абсолютных поз. Такой подход позволяет привилегированному учителю с подкрепляющим обучением (RL) совместно изучать латентные состояния и мобильные действия на основе разреженных ключевых точек, после чего эти знания дистиллируются в чисто визуальную политику ученика. Чтобы сократить разрыв в информированности между всеведущим учителем и учеником с частичной наблюдаемостью, мы ограничиваем наблюдения учителя визуально доступными сигналами. Это порождает активное перцептивное поведение, которое может быть восстановлено с точки зрения ученика. Для решения проблемы долгосрочного распределения заслуг мы декомпозируем перестановку на подзадачи уровня этапов, используя временно затухающие, локальные для этапа награды за завершение. Многочисленные эксперименты в симуляции демонстрируют, что EgoPush значительно превосходит сквозные RL-базисы по показателю успешности, а ablation-исследования подтверждают обоснованность каждого проектного решения. Мы также демонстрируем zero-shot перенос из симуляции в реальность на мобильной платформе. Код и видео доступны по адресу https://ai4ce.github.io/EgoPush/.
По мере того как воплощенные агенты становятся ключевыми компонентами VR, телеприсутствия и приложений с цифровыми людьми, их движения должны выходить за рамки жестов, синхронизированных с речью: агенты должны поворачиваться к пользователям, реагировать на их перемещение и поддерживать естественный взгляд. Современные методы лишены такого пространственного восприятия. Мы устраняем этот пробел, предложив первый полностью причинный метод работы в реальном времени для пространственно-осознанного диалогового движения, пригодный для развертывания на потоковом VR-шлеме. На основе позиции пользователя и диалогового аудио наш подход генерирует полное телесное движение, которое синхронизирует жесты с речью и одновременно ориентирует агента относительно пользователя. Наша архитектура сочетает причинный VAE на основе трансформера с чередующимися латентными токенами для потокового вывода и модель согласования потоков, учитывающую траекторию пользователя и аудио. Для поддержки различных предпочтений по взгляду мы вводим механизм оценки взгляда с классификатор-фри гайдингом, чтобы разделить обучение и управление: модель усваивает естественное пространственное выравнивание из данных, а пользователи могут настраивать интенсивность зрительного контакта во время вывода. На наборе данных Embody 3D наш метод демонстрирует наилучшее качество движений при скорости свыше 300 кадров в секунду — в 3 раза быстрее, чем не причинные базовые методы — и при этом точно передает тонкие пространственные динамики естественного разговора. Мы проверяем наш подход на работающей VR-системе, обеспечивая развертывание пространственно-осознанных диалоговых агентов в реальном времени. Подробности см. по ссылке: https://evonneng.github.io/sarah/.
Компактные предобученные двунаправленные энкодеры остаются основой промышленных NLP-систем при ограниченных вычислительных ресурсах и бюджетах памяти. Их эффективность обусловлена способностью самовнимания обеспечивать высококачественную двунаправленную контекстуализацию с поуровневым параллелизмом, что стало популярным благодаря архитектурам типа BERT. Недавно была представлена авторегрессионная модель Avey, не использующая механизм внимания, которая естественным образом допускает адаптацию в виде энкодера. В данной работе мы переформулируем Avey для парадигмы «только энкодер» и предлагаем ряд усовершенствований её архитектуры, включая разделенные статическую и динамическую параметризации, нормализацию, ориентированную на стабильность, и нейронное сжатие. Результаты показывают, что переработанная архитектура успешно конкурирует с четырьмя широко используемыми трансформерными энкодерами, стабильно превосходя их на стандартных тестах токен-классификации и информационного поиска, а также демонстрируя более эффективное масштабирование на длинных контекстах.
Показано, что обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) эффективно повышает визуальную рефлексию и способности к рассуждению у больших мультимодальных моделей (LMM). Однако существующие наборы данных в основном создаются либо путем маломасштабной ручной разработки, либо рекомбинации предыдущих ресурсов, что ограничивает разнообразие и охват данных, тем самым сдерживая дальнейший рост производительности моделей. Для решения этой проблемы мы представляем DeepVision-103K — всеобъемлющий набор данных для обучения RLVR, охватывающий разнообразные темы школьной математики, обширные предметные области и богатые визуальные элементы. Модели, обученные на DeepVision, демонстрируют высокую производительность на мультимодальных математических бенчмарках и эффективно обобщаются на общие задачи мультимодального reasoning. Дальнейший анализ выявляет усиленные способности к визуальному восприятию, рефлексии и рассуждению у обученных моделей, подтверждая эффективность DeepVision для развития мультимодального reasoning. Данные: https://huggingface.co/datasets/skylenage/DeepVision-103K.
Существующие модели онлайн-сегментации видео обычно сочетают покадровый сегментатор со сложными специализированными модулями отслеживания. Несмотря на эффективность, эти модули вносят значительную архитектурную сложность и вычислительные затраты. Недавние исследования показывают, что простые кодировщики на основе архитектуры Vision Transformer (ViT), при масштабировании с достаточной емкостью и крупномасштабным предварительным обучением, могут выполнять точную сегментацию изображений без необходимости в специализированных модулях. Руководствуясь этим наблюдением, мы предлагаем Video Encoder-only Mask Transformer (VidEoMT) — простую модель сегментации видео только с кодировщиком, которая устраняет необходимость в выделенных модулях отслеживания. Чтобы обеспечить временное моделирование в ViT только с кодировщиком, VidEoMT вводит легковесный механизм распространения запросов, который передает информацию между кадрами путем повторного использования запросов из предыдущего кадра. Для балансировки этого механизма с адаптивностью к новому содержимому используется стратегия слияния запросов, объединяющая распространяемые запросы с набором временно-инвариантных обучаемых запросов. В результате VidEoMT получает преимущества трекера без добавления сложности, достигая конкурентоспособной точности при скорости работы в 5–10 раз выше (до 160 кадров/с с основой ViT-L). Код: https://www.tue-mps.org/videomt/
Мы представляем 4RC — унифицированную прямую модель для 4D-реконструкции по монокулярным видео. В отличие от существующих подходов, которые обычно разделяют движение и геометрию или выдают ограниченные 4D-атрибуты, такие как разреженные траектории или сценовый поток между двумя кадрами, 4RC изучает целостное 4D-представление, совместно охватывающее плотную геометрию сцены и динамику движения. В основе 4RC лежит новая парадигма «закодировать один раз — запрашивать где угодно и когда угодно»: трансформерный backbone кодирует всё видео в компактное пространственно-временное латентное пространство, из которого условный декодер может эффективно извлекать 3D-геометрию и движение для любого запрашиваемого кадра в произвольный момент времени. Для облегчения обучения мы представляем 4D-атрибуты для каждого кадра в минимально факторизованной форме, декомпозируя их на базовую геометрию и зависящее от времени относительное движение. Многочисленные эксперименты показывают, что 4RC превосходит предыдущие и современные методы в широком спектре задач 4D-реконструкции.
Обучение с подкреплением предоставляет основу для изучения управляющих стратегий, способных воспроизводить разнообразные движения для симулированных персонажей. Однако такие стратегии часто используют неестественные высокочастотные сигналы, недостижимые для людей или физических роботов, что делает их плохим представлением реального поведения. Существующие подходы решают эту проблему путем добавления члена вознаграждения, который штрафует за большое изменение действий во времени. Этот член часто требует значительных усилий по настройке. Мы предлагаем использовать штраф за якобиан действий, который напрямую через автоматическое дифференцирование штрафует изменения действий по отношению к изменениям симулированного состояния. Это эффективно устраняет нереалистичные высокочастотные управляющие сигналы без специфичной для задачи настройки. Хотя и эффективный, штраф за якобиан действий вводит значительные вычислительные затраты при использовании с традиционными полносвязными архитектурами нейронных сетей. Чтобы смягчить это, мы представляем новую архитектуру под названием Linear Policy Net (LPN), которая значительно снижает вычислительную нагрузку для расчета штрафа за якобиан действий во время обучения. Кроме того, LPN не требует настройки параметров, демонстрирует более быструю сходимость обучения по сравнению с базовыми методами и может обрабатываться более эффективно во время вывода по сравнению с полносвязной нейронной сетью. Мы показываем, что Linear Policy Net в сочетании со штрафом за якобиан действий способна изучать стратегии, генерирующие гладкие сигналы, одновременно решая ряд задач имитации движений с различными характеристиками, включая динамические движения, такие как сальто назад, и различные сложные паркур-навыки. Наконец, мы применяем этот подход для создания стратегий динамических движений на физическом четвероногом роботе, оснащенном манипулятором.
Диффузионные языковые модели (DLM) требуют высоких вычислительных затрат на вывод из-за итеративного шумоподавления, что стимулирует разработку эффективных методов прунинга. Существующие эвристики прунинга, унаследованные от авторегрессивных (AR) больших языковых моделей, обычно сохраняют токены-«стоки внимания», поскольку в AR-моделях стоки служат стабильными глобальными якорями. Мы показываем, что это предположение не выполняется для DLM: позиция стока внимания демонстрирует значительно более высокую дисперсию на протяжении всей траектории генерации (измеряемую по тому, как доминирующие позиции стоков смещаются между временными шагами), что указывает на то, что стоки часто являются временными и менее структурно важными, чем в AR-моделях. На основе этого наблюдения мы предлагаем **прунинг с учетом стоков**, который автоматически идентифицирует и удаляет нестабильные стоки в DLM (в отличие от предыдущих исследований, обычно сохраняющих стоки для AR LLM). Без переобучения наш метод обеспечивает лучшее соотношение «качество-эффективность» и превосходит сильные базовые методы прунинга при равных вычислительных затратах. Наш код доступен по адресу https://github.com/VILA-Lab/Sink-Aware-Pruning.
Крупные визуально-языковые модели (LVLM) демонстрируют значительный прогресс, однако они часто страдают от языкового смещения, формируя ответы без опоры на визуальные данные. В то время как предыдущие исследования пытались смягчить эту проблему с помощью стратегий декодирования, архитектурных изменений или тщательно отобранных обучающих данных, они, как правило, не имели количественной меры того, насколько отдельные обучающие примеры или токены фактически используют изображение. В данной работе мы представляем Визуальный Информационный Прирост (VIG) — метрику, основанную на перплексии, которая измеряет снижение неопределенности прогноза благодаря визуальному входу. VIG позволяет проводить детальный анализ на уровне как примеров, так и отдельных токенов, эффективно выделяя визуально обоснованные элементы, такие как цвета, пространственные отношения и атрибуты. Используя это, мы предлагаем схему избирательного обучения, управляемую VIG, которая отдает приоритет примерам и токенам с высоким значением VIG. Этот подход улучшает визуальную обоснованность и снижает языковое смещение, достигая превосходной производительности при значительном сокращении объема контроля за счет фокусировки исключительно на визуально информативных примерах и токенах.
Диалоговые агенты, основанные на больших языковых моделях (LLM) с интеграцией инструментов, демонстрируют высокую производительность на статичных наборах данных, ориентированных на задачи, но остаются уязвимыми к непредвиденным ошибкам, вызванным пользователем. Вместо того чтобы сосредотачиваться на предотвращении ошибок, данная работа сфокусирована на восстановлении после ошибок, что требует точной диагностики ошибочных контекстов диалога и выполнения корректных планов восстановления. В условиях реалистичных ограничений, исключающих тонкую настройку модели или изменение промптов из-за значительных затрат и требований ко времени, мы исследуем, могут ли агенты восстанавливаться после контекстуально ошибочных взаимодействий и как их поведение можно адаптировать без изменения параметров модели и промптов. Для этого мы предлагаем Reasoning Inception (ReIn) — метод вмешательства во время выполнения, который внедряет первоначальные рассуждения в процесс принятия решений агентом. Конкретно, внешний модуль инициации идентифицирует предопределенные ошибки в контексте диалога и генерирует планы восстановления, которые затем интегрируются во внутренний процесс рассуждений агента для направления корректирующих действий, без изменения его параметров или системных промптов. Мы оцениваем ReIn, систематически моделируя сценарии сбоев в диалоге, которые напрямую препятствуют успешному завершению целей пользователя: неоднозначные и неподдерживаемые запросы пользователя. При различных комбинациях моделей агентов и модулей инициации ReIn существенно повышает успешность выполнения задач и обобщается на неизвестные типы ошибок. Более того, он стабильно превосходит подходы с явным изменением промптов, подчеркивая свою полезность в качестве эффективного метода в реальном времени. Глубокий анализ его механизма работы, особенно в отношении иерархии инструкций, указывает на то, что совместное определение инструментов восстановления с ReIn может служить безопасной и эффективной стратегией для повышения устойчивости диалоговых агентов без изменения базовых моделей или системных промптов.
Эффективная стохастическая оптимизация обычно объединяет направление обновления, хорошо зарекомендовавшее себя в детерминированном режиме, с механизмом адаптации к стохастическим возмущениям. В то время как Adam использует адаптивные оценки моментов для обеспечения стабильности, Muon задействует матричную структуру слоев весов посредством ортогонализированного момента, демонстрируя превосходную производительность при обучении больших языковых моделей. Мы предлагаем новый оптимизатор и его диагональное расширение — NAMO и NAMO-D, которые представляют собой первую принципиальную интеграцию ортогонализированного момента с адаптацией к шуму по норме в стиле Adam. NAMO масштабирует ортогонализированный момент, используя единственный адаптивный шаг обучения, сохраняя ортогональность и превосходя Muon при пренебрежимо малых дополнительных затратах. NAMO-D, напротив, умножает ортогонализированный момент справа на диагональную матрицу с ограниченными элементами. Такая конструкция позволяет осуществлять поэлементную (по нейронам) адаптацию к шуму и согласуется с распространенной структурой гессиана, близкой к блочно-диагональной. В рамках стандартных предположений мы устанавливаем оптимальные скорости сходимости для обоих алгоритмов в детерминированной постановке и показываем, что в стохастической постановке их гарантии сходимости адаптируются к уровню шума стохастических градиентов. Эксперименты по предварительному обучению моделей GPT-2 демонстрируют улучшенную производительность как NAMO, так и NAMO-D по сравнению с базовыми алгоритмами AdamW и Muon, причем NAMO-D достигает дополнительного преимущества перед NAMO за счет гиперпараметра ограничения, который балансирует конкурирующие цели сохранения хорошо обусловленного направления обновления и использования детализированной адаптации к шуму.
Процедуры оценки и согласования больших языковых моделей все чаще полагаются на судей на основе ИИ, чье поведение направляется естественно-языковыми критериями и проверяется на бенчмарках. Мы выявляем ранее недостаточно признанную уязвимость в этом процессе, которую называем **дрейфом предпочтений, индуцированным критериями (Rubric-Induced Preference Drift, RIPD)**. Даже когда правки критериев успешно проходят валидацию на бенчмарках, они все равно могут вызывать систематические и направленные сдвиги в предпочтениях судьи на целевых доменах. Поскольку критерии служат интерфейсом высокоуровневого принятия решений, такой дрейф может возникать из-за, казалось бы, естественных правок, сохраняющих формулировки критериев, и оставаться трудно обнаруживаемым с помощью агрегированных метрик бенчмарков или ограниченной выборочной проверки. Мы также показываем, что этой уязвимостью можно злонамеренно воспользоваться с помощью **атак на предпочтения через критерии**, при которых соответствующие бенчмаркам правки направляют суждения в сторону от фиксированного человеческого или доверенного эталона на целевых доменах, систематически вызывая RIPD и снижая точность на целевом домене до 9,5% (полезность) и 27,9% (безвредность). Когда эти суждения используются для генерации меток предпочтений при последующем пост-тренинге, индуцированное смещение распространяется по конвейерам согласования и усваивается обученными политиками. Это приводит к устойчивому и систематическому дрейфу в поведении модели. В целом, наши результаты подчеркивают оценочные критерии как чувствительный и подверженный манипуляциям интерфейс управления, выявляя риск на уровне системы согласования, который выходит за рамки лишь надежности оценщика. Код доступен по адресу: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Внимание: некоторые разделы могут содержать потенциально вредоносный контент, который может быть не предназначен для всех читателей.
Сбор информации для снижения неопределенности в отношении латентных свойств на групповом уровне с помощью опросов и других коллективных оценок требует распределения ограниченных ресурсов для задавания вопросов в условиях реальных затрат и отсутствующих данных. Хотя большие языковые модели позволяют проводить адаптивные многоэтапные взаимодействия на естественном языке, большинство существующих методов сбора информации оптимизируют содержание вопросов для фиксированной группы респондентов и не адаптируют выбор респондентов или не используют структуру популяции при частичных или неполных ответах. Для устранения этого пробела мы исследуем адаптивный сбор групповых данных — многораундовый сценарий, в котором агент адаптивно выбирает как вопросы, так и респондентов в рамках явных бюджетов на запросы и участие. Мы предлагаем теоретически обоснованную структуру, которая сочетает (i) цель ожидаемого прироста информации на основе LLM для оценки кандидатных вопросов с (ii) распространением через гетерогенные графовые нейронные сети, которое агрегирует наблюдаемые ответы и атрибуты участников для импутации пропущенных ответов и руководства выбором респондентов в каждом раунде. Эта замкнутая процедура опрашивает небольшое, информативное подмножество индивидов, одновременно выводя ответы на уровне популяции через структурированное сходство. На трех наборах данных о реальных мнениях наш метод последовательно улучшает прогнозирование ответов на уровне популяции при ограниченных бюджетах, включая относительное улучшение >12% на CES при бюджете в 10% респондентов.