Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы представляем NeoVerse — универсальную 4D-модель мира, способную выполнять 4D-реконструкцию, генерировать видео по новым траекториям и решать широкий спектр прикладных задач. Сначала мы выявляем общее ограничение масштабируемости современных методов моделирования 4D-мира, вызванное либо использованием дорогих специализированных многовидовых 4D-данных, либо громоздкой предобработкой при обучении. В отличие от них, NeoVerse построена на ключевой идее, обеспечивающей масштабируемость всего пайплайна для разнородных моноскопических видео из реального мира. В частности, NeoVerse обладает такими особенностями, как 4D-реконструкция без данных о позе в прямом проходе, онлайн-моделирование паттернов деградации для моноскопических данных и другими согласованными методиками. Данные решения наделяют NeoVerse универсальностью и способностью к обобщению в различных областях. При этом NeoVerse демонстрирует наилучшие результаты на стандартных бенчмарках реконструкции и генерации. Страница проекта доступна по адресу https://neoverse-4d.github.io.
Существующие фреймворки агентов на основе больших языковых моделей (LLM) сталкиваются с двумя серьёзными проблемами: высокой стоимостью конфигурации и статичностью возможностей. Создание качественного агента часто требует значительных ручных усилий по интеграции инструментов и проектированию промптов, тогда как развёрнутые агенты не способны адаптироваться к динамической среде без дорогостоящего дообучения. Для решения этих проблем мы предлагаем Youtu-Agent — модульный фреймворк, предназначенный для автоматизированной генерации и непрерывной эволюции LLM-агентов. Youtu-Agent обладает структурированной системой конфигурации, которая разделяет среды исполнения, наборы инструментов и управление контекстом, обеспечивая гибкое повторное использование и автоматизированный синтез. Мы представляем две парадигмы генерации: режим Workflow для стандартных задач и режим Мета-Агента для сложных, нестандартных требований, способный автоматически генерировать код инструментов, промпты и конфигурации. Кроме того, Youtu-Agent реализует гибридную систему оптимизации политик: (1) модуль Agent Practice, позволяющий агентам накапливать опыт и улучшать производительность посредством оптимизации в контексте без обновления параметров; и (2) модуль Agent RL, который интегрируется с распределёнными фреймворками обучения для обеспечения масштабируемого и стабильного обучения с подкреплением любых агентов Youtu-Agent сквозным, крупномасштабным образом. Эксперименты показывают, что Youtu-Agent демонстрирует наилучшую производительность на WebWalkerQA (71.47%) и GAIA (72.8%) с использованием открытых моделей. Наш автоматизированный конвейер генерации достигает успеха в синтезе инструментов более чем в 81% случаев, в то время как модуль Practice улучшает результаты на AIME 2024/2025 на +2.7% и +5.4% соответственно. Более того, обучение с помощью нашего Agent RL обеспечивает 40%-ное ускорение с устойчивым улучшением производительности на 7B LLM, повышая способности к программированию/рассуждению и поиску до 35% и 21% соответственно на математических и общих/многошаговых QA-бенчмарках.
Генерация говорящих голов создает реалистичные аватары из статичных портретов для виртуального общения и создания контента. Однако современные модели пока не передают ощущение подлинно интерактивной коммуникации, часто производя односторонние реакции, которым не хватает эмоциональной вовлеченности. Мы выделяем две ключевые проблемы на пути к truly интерактивным аватарам: генерация движений в реальном времени при каузальных ограничениях и обучение выразительным, живым реакциям без дополнительных размеченных данных. Для решения этих проблем мы предлагаем Avatar Forcing — новую архитектуру для интерактивной генерации аватаров головы, которая моделирует взаимодействия пользователя и аватара в реальном времени через диффузионное форсирование. Данная конструкция позволяет аватару обрабатывать мультимодальные входные данные в реальном времени, включая аудио и движения пользователя, с низкой задержкой для мгновенных реакций на вербальные и невербальные сигналы, такие как речь, кивки и смех. Кроме того, мы представляем метод прямой оптимизации предпочтений, использующий синтетические проигрышные примеры, сконструированные путем исключения пользовательских условий, что позволяет осуществлять обучение выразительному взаимодействию без размеченных данных. Результаты экспериментов показывают, что наша архитектура обеспечивает интерактивность в реальном времени с низкой задержкой (приблизительно 500 мс), достигая 6.8-кратного ускорения по сравнению с базовым методом, и производит реактивные и выразительные движения аватара, которые предпочли более 80% испытуемых по сравнению с базовым методом.
Хотя модели «визуальный язык» (Vision-Language Models, VLM) способны решать сложные задачи посредством агентного рассуждения, их возможности в значительной степени ограничены тексто-ориентированными цепочками рассуждений (chain-of-thought) или изолированным вызовом инструментов. Они не демонстрируют свойственного человеку умения бесшовно чередовать динамическое манипулирование инструментами с непрерывным процессом рассуждения, особенно в сценариях, требующих интенсивной работы со знаниями и анализа сложных визуальных сцен, где необходима координация внешних инструментов, таких как поиск и обрезка изображений. В данной работе мы представляем SenseNova-MARS — новую мультимодальную структуру агентного рассуждения и поиска (Multimodal Agentic Reasoning and Search), которая наделяет VLM способностью к чередующемуся визуальному рассуждению и использованию инструментов с помощью обучения с подкреплением (Reinforcement Learning, RL). В частности, SenseNova-MARS динамически интегрирует инструменты поиска изображений, текстового поиска и обрезки изображений для решения задач тонкого и насыщенного знаниями визуального понимания. На этапе RL мы предлагаем алгоритм Batch-Normalized Group Sequence Policy Optimization (BN-GSPO) для повышения стабильности обучения и развития способности модели эффективно вызывать инструменты и рассуждать. Для всесторонней оценки агентных VLM на сложных визуальных задачах мы представляем бенчмарк HR-MMSearch — первый поисково-ориентированный бенчмарк, состоящий из изображений высокого разрешения и вопросов, насыщенных знаниями и требующих поиска. Эксперименты показывают, что SenseNova-MARS демонстрирует наилучшую производительность на открытых бенчмарках поиска и тонкого понимания изображений. В частности, на поисково-ориентированных бенчмарках SenseNova-MARS-8B набирает 67.84 балла на MMSearch и 41.64 балла на HR-MMSearch, превосходя проприетарные модели, такие как Gemini-3-Flash и GPT-5. SenseNova-MARS представляет собой многообещающий шаг к созданию агентных VLM, обеспечивая эффективные и надежные возможности по использованию инструментов. Для содействия дальнейшим исследованиям в этой области мы опубликуем весь код, модели и наборы данных.
Мультимодальные большие языковые модели (MБЯМ) достигли значительного прогресса в понимании видео. Однако они обладают критической уязвимостью: чрезмерной зависимостью от языковых априорных предположений, что может приводить к визуально необоснованным галлюцинациям, особенно при обработке контрафактических видео, противоречащих здравому смыслу. Это ограничение, проистекающее из внутреннего дисбаланса данных между текстом и видео, сложно устранить из-за значительных затрат на сбор и разметку контрафактических данных. Для решения этой проблемы мы представляем DualityForge — новую структуру синтеза контрафактических данных, которая использует управляемое диффузионное редактирование видео для преобразования реальных видеороликов в контрафактические сценарии. Встраивая структурированную контекстуальную информацию в процессы редактирования видео и генерации вопросов-ответов, структура автоматически создает высококачественные пары вопросов-ответов вместе с парами исходных и отредактированных видео для контрастного обучения. На этой основе мы создаем DualityVidQA — крупномасштабный видео-набор данных, предназначенный для снижения галлюцинаций в МБЯМ. Кроме того, для полного использования контрастной природы наших парных данных мы предлагаем Duality-Normalized Advantage Training (DNA-Train) — двухэтапный режим обучения SFT-RL, в котором фаза RL применяет попарную нормализацию преимущества ℓ₁, что обеспечивает более стабильную и эффективную оптимизацию политики. Эксперименты на DualityVidQA-Test показывают, что наш метод существенно снижает галлюцинации модели на контрафактических видео, демонстрируя относительное улучшение на 24,0% по сравнению с базовой моделью Qwen2.5-VL-7B. Более того, наш подход обеспечивает значительный прирост производительности как на бенчмарках галлюцинаций, так и на общецелевых бенчмарках, что указывает на сильную обобщающую способность. Мы опубликуем наш набор данных и код в открытом доступе.
Восстановление динамических 3D-сцен из монокулярных видео требует одновременного захвата высокочастотных деталей внешнего вида и временно непрерывного движения. Существующие методы, использующие примитивы в виде одиночных гауссианов, ограничены их свойством низкочастотной фильтрации, в то время как стандартные функции Габора вносят энергетическую нестабильность. Кроме того, отсутствие ограничений временной непрерывности часто приводит к артефактам движения при интерполяции. Мы предлагаем AdaGaR — унифицированную структуру, решающую проблемы как частотной адаптивности, так и временной непрерывности при явном моделировании динамических сцен. Мы вводим Адаптивное представление Габора, расширяющее гауссианы за счет обучаемых весов частот и адаптивной компенсации энергии для баланса между захватом деталей и стабильностью. Для обеспечения временной непрерывности мы используем Кубические сплайны Эрмита с Регуляризацией Временной Кривизны, чтобы гарантировать плавную эволюцию движения. Адаптивный механизм инициализации, сочетающий оценку глубины, отслеживание точек и маски переднего плана, устанавливает стабильные распределения облаков точек на ранних этапах обучения. Эксперименты на Tap-Vid DAVIS демонстрируют передовую производительность (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) и сильную обобщающую способность в задачах интерполяции кадров, согласованности глубины, редактирования видео и синтеза стереоскопических видов. Страница проекта: https://jiewenchan.github.io/AdaGaR/
Несмотря на недавние успехи, особенно в области разработки языковых моделей, сохраняются фундаментальные проблемы и нерешенные вопросы о том, как такие модели могут непрерывно обучаться/запоминать, самосовершенствоваться и находить эффективные решения. В данной статье мы представляем новую парадигму обучения, названную Вложенным Обучением (Nested Learning, NL), которая когерентно представляет модель машинного обучения в виде набора вложенных, многоуровневых и/или параллельных задач оптимизации, каждая из которых имеет свой собственный поток контекста. Через призму NL существующие методы глубокого обучения учатся на данных путем сжатия собственного потока контекста, а контекстное обучение естественным образом возникает в больших моделях. NL предлагает философию для разработки более выразительных алгоритмов обучения с большим количеством уровней, что приводит к контекстному обучению высших порядков и потенциально раскрывает возможности эффективного непрерывного обучения. Мы обосновываем NL, представляя три ключевых вклада: (1) *Выразительные оптимизаторы*: Мы показываем, что известные градиентные оптимизаторы, такие как Adam, SGD с моментом и др., фактически являются модулями ассоциативной памяти, которые стремятся сжать информацию о градиентах (посредством градиентного спуска). На основе этого наблюдения мы представляем другие, более выразительные оптимизаторы с глубокой памятью и/или более мощными правилами обучения; (2) *Самомодифицирующийся модуль обучения*: Используя идеи NL об алгоритмах обучения, мы представляем последовательностную модель, которая обучается модифицировать себя, изучая собственный алгоритм обновления; и (3) *Континуальная система памяти*: Мы представляем новую формулировку системы памяти, которая обобщает традиционное представление о долговременной/кратковременной памяти. Объединяя нашу самомодифицирующуюся последовательностную модель с континуальной системой памяти, мы представляем модуль непрерывного обучения под названием Hope, демонстрирующий обнадеживающие результаты в задачах языкового моделирования, интеграции знаний, немногих примеров, непрерывного обучения и рассуждений в условиях длинного контекста.
Эффективность глубоких остаточных сетей фундаментально основана на тождественных сквозных связях. Хотя этот механизм успешно смягчает проблему исчезающего градиента, он накладывает строго аддитивное индуктивное смещение на преобразования признаков, тем самым ограничивая способность сети моделировать сложные переходы состояний. В данной статье мы представляем Deep Delta Learning (DDL) — новую архитектуру, которая обобщает стандартное остаточное соединение за счет модуляции тождественного шунта с помощью обучаемого, зависящего от данных геометрического преобразования. Это преобразование, названное Дельта-оператором, представляет собой возмущение единичной матрицы ранга 1, параметризованное вектором направления отражения k(X) и скаляром затвора β(X). Мы проводим спектральный анализ данного оператора, показывая, что затвор β(X) позволяет осуществлять динамическую интерполяцию между тождественным отображением, ортогональной проекцией и геометрическим отражением. Кроме того, мы перестраиваем остаточное обновление в виде синхронной инъекции ранга 1, где затвор выступает в роли динамического шага обучения, управляющего как стиранием старой информации, так и записью новых признаков. Такая унификация позволяет сети явно контролировать спектр своего послойного оператора перехода, обеспечивая моделирование сложной, немонотонной динамики при сохранении стабильных характеристик обучения, присущих остаточным архитектурам с затворами.
Современные конвейеры больших языковых моделей (LLM) опираются на бутстраппированные циклы рассуждений: сэмплирование разнообразных цепочек мыслей и усиление наивысше оцененных, преимущественно оптимизируя корректность. Мы анализируем, как этот выбор проектного решения чувствителен к коллапсу распределения модели по путям рассуждений, что резко снижает семантическую энтропию и подрывает креативное решение задач. Для анализа этого сбоя мы вводим Дистрибутивное Креативное Рассуждение (DCR) — унифицированный вариационный объектив, представляющий обучение как градиентный поток через вероятностные меры на трассах решений. STaR, GRPO и DPO, а также бонусы за энтропию и другие методы, являются частными случаями одной и той же функции потерь. Данный фреймворк дает три ключевых результата: (i) теорему о затухании разнообразия, описывающую, как основанные на корректности цели приводят к различным режимам затухания разнообразия для STaR, GRPO и DPO; (ii) проектные решения, обеспечивающие сходимость к стабильной и разнообразной политике, эффективно предотвращая коллапс; и (iii) простые, пригодные для практического применения рецепты достижения этого. Таким образом, DCR предлагает первый принципиальный рецепт для LLM, которые остаются одновременно и корректными, и креативными.
Последние достижения показали, что обучение с подкреплением (RL) может значительно улучшить способности крупных языковых моделей (LLM) к рассуждениям. Однако эффективность такого RL-обучения критически зависит от пространства исследований, определяемого распределением токенов на выходе предварительно обученной модели. В данной статье мы переосмысливаем стандартную функцию потерь перекрестной энтропии, интерпретируя ее как частный случай оптимизации градиента политики, примененной в рамках одношагового эпизода. Чтобы систематически изучить, как предварительно обученное распределение формирует потенциал исследования для последующего RL, мы предлагаем обобщенную цель предварительного обучения, адаптирующую принципы RL на основе политики к обучению с учителем. Формулируя предсказание следующего токена как стохастический процесс принятия решений, мы вводим стратегию формирования вознаграждения, которая явно балансирует разнообразие и точность. Наш метод использует положительный масштабирующий коэффициент вознаграждения для контроля концентрации вероятности на эталонных токенах и рангово-зависимый механизм, который асимметрично обрабатывает токены с высоким и низким рейтингом. Это позволяет нам преобразовать предварительно обученное распределение токенов на выходе и исследовать, как обеспечить более благоприятное пространство исследований для RL, в конечном итоге повышая сквозную производительность рассуждений. Вопреки интуиции, что более высокая энтропия распределения способствует эффективному исследованию, мы обнаруживаем, что наложение априорного распределения, ориентированного на точность, создает превосходное пространство исследований для RL.
Слои моделирования последовательностей в современных языковых моделях обычно сталкиваются с компромиссом между объемом памяти и вычислительной эффективностью. В то время как Softmax-внимание предлагает неограниченную память, но за запретительно высокую квадратичную стоимость, линейные варианты обеспечивают эффективность, но страдают от ограниченной памяти фиксированного размера. Мы предлагаем Fast-weight Product Key Memory (FwPKM) — новую архитектуру, которая разрешает это противоречие, преобразуя разреженную Продуктовую Память Ключей (PKM) из статичного модуля в динамическую, «быструю» эпизодическую память. В отличие от PKM, FwPKM динамически обновляет свои параметры как во время обучения, так и во время вывода с помощью локального градиентного спуска на уровне чанков, что позволяет модели быстро запоминать и извлекать новые пары «ключ-значение» из входных последовательностей. Эксперименты показывают, что FwPKM функционирует как эффективная эпизодическая память, дополняющая семантическую память стандартных модулей, и приводит к значительному снижению перплексии на наборах данных с длинным контекстом. Примечательно, что в оценках «Иголка в стоге сена» FwPKM обобщается на контексты длиной 128 тыс. токенов, несмотря на обучение на последовательностях длиной всего 4 тыс. токенов.
Крупные языковые модели (LLМ) продемонстрировали значительный прогресс в области логического мышления и генерации кода. Однако эффективное создание новых тестовых наборов для оценки этих способностей остается сложной задачей. Традиционное создание тестовых наборов опирается на ручной человеческий труд — процесс, который является дорогостоящим и трудоемким. Кроме того, существующие тестовые наборы часто загрязняют данные для обучения LLМ, что требует создания новых и разнообразных тестов для точной оценки их подлинных возможностей. В данной работе представлен InfoSynth — новый фреймворк для автоматической генерации и оценки тестовых наборов на логическое мышление, основанный на принципах теории информации. Мы предлагаем метрики на основе KL-дивергенции и энтропии для количественной оценки новизны и разнообразия тестовых наборов без необходимости проведения дорогостоящих оценок моделей. На основе этого фреймворка мы разрабатываем сквозной конвейер, который синтезирует надежные задачи по программированию на Python из исходных наборов данных с использованием генетических алгоритмов и итеративной обратной связи по коду. Наш метод генерирует точные тестовые случаи и решения для новых задач в 97% случаев, а синтезированные тестовые наборы последовательно демонстрируют более высокую новизну и разнообразие по сравнению с исходными наборами данных. Более того, наш алгоритм предоставляет метод контроля новизны/разнообразия и сложности генерируемых задач. InfoSynth предлагает масштабируемый, самопроверяющийся конвейер для построения высококачественных, новых и разнообразных тестовых наборов для LLМ. Страница проекта: https://ishirgarg.github.io/infosynth_web/
Трехмерный морфинг остается сложной задачей из-за трудностей генерации семантически согласованных и временно плавных деформаций, особенно между различными категориями. Мы представляем MorphAny3D, не требующий дообучения фреймворк, который использует структурированные латентные (SLAT) представления для высококачественного 3D-морфинга. Наше ключевое наблюдение заключается в том, что интеллектуальное смешивание исходных и целевых SLAT-признаков внутри механизмов внимания 3D-генераторов естественным образом порождает правдоподобные последовательности морфинга. Для этого мы вводим Morphing Cross-Attention (MCA), который объединяет исходную и целевую информацию для структурной согласованности, и Temporal-Fused Self-Attention (TFSA), который улучшает временную согласованность за счет включения признаков из предыдущих кадров. Стратегия коррекции ориентации дополнительно снижает неоднозначность позы на этапах морфинга. Многочисленные эксперименты показывают, что наш метод генерирует передовые последовательности морфинга, даже для сложных случаев межкатегорийного преобразования. MorphAny3D также поддерживает расширенные приложения, такие как развязанный морфинг и 3D-перенос стиля, и может быть обобщен для других генеративных моделей на основе SLAT. Страница проекта: https://xiaokunsun.github.io/MorphAny3D.github.io/.