Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя мультимодальные большие языковые модели демонстрируют впечатляющие семантические возможности, они часто страдают от пространственной «слепоты», испытывая трудности с мелкодетальным геометрическим reasoning и пониманием физической динамики. Существующие решения обычно полагаются на явные 3D-модальности или сложные геометрические каркасы, которые ограничены дефицитом данных и проблемами обобщения. В данной работе мы предлагаем смену парадигмы, используя неявное пространственное предзнание, заложенное в моделях генерации видео в крупном масштабе. Мы предполагаем, что для синтеза временно-согласованных видео эти модели неявно изучают устойчивые структурные priors 3D и физические законы. Мы представляем VEGA-3D (Video Extracted Generative Awareness) — модульную плагин-фреймворк, который перепрофилирует предварительно обученную диффузионную модель видео в Latent World Simulator. Извлекая пространственно-временные признаки из промежуточных уровней шума и интегрируя их с семантическими представлениями посредством механизма адаптивного токен-уровневого gated fusion, мы обогащаем MLLM плотными геометрическими подсказками без явного 3D-надзора. Многочисленные эксперименты на задачах понимания 3D-сцен, пространственного reasoning и benchmarks манипуляции в embodied-среде показывают, что наш метод превосходит современные базовые подходы, подтверждая, что генеративные priors обеспечивают масштабируемую основу для понимания физического мира. Код доступен по адресу https://github.com/H-EmbodVis/VEGA-3D.
Современные модели редактирования видео по текстовым инструкциям не способны одновременно обеспечивать точные семантические модификации и сохранение исходной динамики движения. Хотя существующие подходы используют явные внешние априорные данные (например, признаки VLM или структурные условия) для смягчения этих проблем, такая зависимость серьезно ограничивает устойчивость и обобщающую способность моделей. Для преодоления этого ограничения мы представляем SAMA (Factorized Semantic Anchoring and Motion Alignment) — фреймворк, который декомпозирует редактирование видео на семантическое якорение и моделирование движения. Во-первых, мы вводим Semantic Anchoring, который создает надежный визуальный якорь путем совместного предсказания семантических токенов и латентных представлений видео в разреженных ключевых кадрах, что обеспечивает чисто инструкционное структурное планирование. Во-вторых, Motion Alignment предобучает тот же базовый блок на задачах восстановления видео, сфокусированных на движении (вправление кубов, возмущение скорости и перемешивание трубок), позволяя модели усваивать временную динамику непосредственно из исходных видео. SAMA оптимизируется по двухэтапному конвейеру: этап факторизованного предварительного обучения, который изучает внутренние семантико-динамические представления без парных данных редактирования «видео-инструкция», за которым следует контролируемое дообучение на парных данных редактирования. Примечательно, что уже одно только факторизованное предварительное обучение демонстрирует высокую способность к zero-shot редактированию видео, подтверждая предложенную декомпозицию. SAMA достигает наилучшей производительности среди открытых моделей и конкурирует с ведущими коммерческими системами (например, Kling-Omni). Код, модели и наборы данных будут опубликованы.
Мы представляем Nemotron-Cascade 2 — открытую 30-миллиардную MoE-модель с 3 миллиардами активируемых параметров, которая обеспечивает передовые показатели логического вывода и мощные агентские возможности. Несмотря на компактный размер, её производительность в области математического и программного reasoning приближается к уровню передовых открытых моделей. Это вторая по счёту открытая LLM (после DeepSeekV3.2-Speciale-671B-A37B), достигшая уровня золотой медали на Международной математической олимпиаде (IMO), Международной олимпиаде по информатике (IOI) и финале чемпионата мира ICPC 2025 года, что демонстрирует исключительно высокую плотность интеллекта при 20-кратном уменьшении количества параметров. По сравнению с Nemotron-Cascade 1, ключевые технические усовершенствования заключаются в следующем. После SFT на тщательно отобранном наборе данных мы значительно расширяем каскадное RL для охвата гораздо более широкого спектра reasoning- и агентских доменов. Кроме того, мы внедряем междоменную on-policy дистилляцию от сильнейших промежуточных teacher-моделей для каждого домена на протяжении всего процесса каскадного RL, что позволяет эффективно устранять регрессии в бенчмарках и сохранять значительный прирост производительности. Мы публикуем коллекцию контрольных точек модели и данные для обучения.
Создание динамичных, согласованных по виду видеороликов с персонализированными объектами чрезвычайно востребовано для широкого спектра новых приложений, включая иммерсивные VR/AR, виртуальное производство и электронную коммерцию следующего поколения. Однако, несмотря на быстрый прогресс в генерации видео на основе заданного объекта, существующие методы преимущественно рассматривают объекты как двумерные сущности, фокусируясь на передаче идентичности через одновидовые визуальные признаки или текстовые промпты. Поскольку реальные объекты по своей природе трехмерны, применение этих подходов, ориентированных на 2D, к кастомизации 3D-объектов выявляет фундаментальное ограничение: им не хватает комплексных пространственных априорных знаний, необходимых для реконструкции трехмерной геометрии. Как следствие, при синтезе новых ракурсов они вынуждены полагаться на генерацию правдоподобных, но произвольных деталей для невидимых областей, вместо сохранения подлинной 3D-идентичности. Достижение подлинной 3D-осознанной кастомизации остается сложной задачей из-за дефицита наборов данных многовидового видео. Хотя можно попытаться дообучить модели на ограниченных видеопоследовательностях, это часто приводит к временному переобучению. Для решения этих проблем мы представляем новую структуру для 3D-осознанной кастомизации видео, состоящую из 3DreamBooth и 3Dapter. 3DreamBooth разделяет пространственную геометрию и временное движение через парадигму оптимизации по одному кадру. Ограничивая обновления пространственных представлений, метод эффективно встраивает надежное 3D-априори в модель без необходимости трудоемкого обучения на видео. Для улучшения детализированных текстур и ускорения сходимости мы интегрируем 3Dapter — модуль визуального кондиционирования. После одновидового предварительного обучения 3Dapter проходит многовидовую совместную оптимизацию с основной генеративной ветвью через асимметричную стратегию кондиционирования. Такая конструкция позволяет модулю действовать как динамический селективный маршрутизатор, запрашивая специфичные для вида геометрические подсказки из минимального референсного набора. Страница проекта: https://ko-lani.github.io/3DreamBooth/
Реализация в реальном времени крайне важна для развертывания моделей «Vision-Language-Action» (VLA) в физическом мире. Существующие методы асинхронного вывода в основном оптимизируют плавность траекторий, но игнорируют критическую задержку реакции на изменения окружающей среды. Переосмыслив понятие реакции в политиках формирования действий, данная статья представляет систематический анализ факторов, определяющих время реакции. Мы показываем, что время реакции подчиняется равномерному распределению, совместно определяемому временем до первого действия (Time to First Action, TTFA) и горизонтом исполнения. Более того, мы выявляем, что стандартная практика применения постоянного расписания в потоковых VLA может быть неэффективной и заставляет систему завершать все шаги выборки до начала любого движения, создавая узкое место в задержке реакции. Для решения этой проблемы мы предлагаем метод FAST Action Sampling for ImmediaTE Reaction (FASTER). Благодаря введению горизонтально-ориентированного расписания, FASTER адаптивно расставляет приоритеты для ближайших действий в процессе потоковой выборки, сокращая удаление шума для немедленной реакции в десять раз (например, в π_{0.5} и X-VLA) до одного шага, сохраняя при этом качество траектории на длительном горизонте. В сочетании с потоковым клиент-серверным конвейером FASTER существенно снижает эффективную задержку реакции на реальных роботах, особенно при развертывании на потребительских графических процессорах. Эксперименты в реальных условиях, включая высокодинамичную задачу настольного тенниса, доказывают, что FASTER обеспечивает беспрецедентную реактивность в реальном времени для универсальных политик, позволяя быстро генерировать точные и плавные траектории.
Мы представляем Memento-Skills — универсальную систему агентов на основе LLM с возможностью непрерывного обучения, которая функционирует как агент, проектирующий других агентов: она автономно создает, адаптирует и улучшает агентов для конкретных задач на основе опыта. Система построена на основе фреймворка обучения с подкреплением с запоминанием состояний, где переиспользуемые навыки (хранящиеся в виде структурированных markdown-файлов) служат постоянной, эволюционирующей памятью. Эти навыки кодируют как поведение, так и контекст, позволяя агенту переносить знания между взаимодействиями. Начиная с простых элементарных навыков (таких как веб-поиск и операции в терминале), агент непрерывно совершенствуется с помощью механизма рефлексивного обучения Read–Write, представленного в Memento~2~wang2025memento2. На фазе чтения маршрутизатор навыков с обучаемым поведением выбирает наиболее релевантный навык в зависимости от текущего состояния; на фазе записи агент обновляет и расширяет свою библиотеку навыков на основе нового опыта. Такая замкнутая архитектура позволяет осуществлять непрерывное обучение без обновления параметров LLM, поскольку вся адаптация реализуется через эволюцию внешних навыков и промптов. В отличие от предыдущих подходов, основанных на агентах, спроектированных человеком, Memento-Skills позволяет универсальному агенту проектировать агентов для новых задач от начала до конца. Благодаря итеративной генерации и уточнению навыков система постепенно улучшает собственные возможности. Эксперименты на бенчмарке General AI Assistants и тесте Humanity's Last Exam демонстрируют устойчивый прогресс, показывая относительное улучшение общей точности на 26,2% и 116,2% соответственно. Код доступен по адресу https://github.com/Memento-Teams/Memento-Skills.
Предыдущие методы генерации движений в основном следуют двум парадигмам: непрерывные диффузионные модели, которые превосходно справляются с кинематическим контролем, и дискретные токенизированные генераторы, эффективные для семантического кондиционирования. Чтобы объединить их преимущества, мы предлагаем трехэтапную структуру, включающую извлечение признаков условий (Восприятие), генерацию дискретных токенов (Планирование) и синтез движений на основе диффузии (Управление). Ключевым элементом этой структуры является MoTok — диффузионный токенизатор движений, который разделяет семантическую абстракцию и детальную реконструкцию, делегируя восстановление движений диффузионному декодеру. Это позволяет использовать компактные одноуровневые токены, сохраняя при этом точность движений. Для кинематических условий грубые ограничения направляют генерацию токенов на этапе планирования, тогда как детальные ограничения применяются на этапе управления посредством диффузионной оптимизации. Такой подход предотвращает нарушение семантического планирования токенов кинематическими деталями. На наборе данных HumanML3D наш метод значимо улучшает управляемость и точность по сравнению с MaskControl, используя лишь одну шестую часть токенов: ошибка траектории снижается с 0.72 см до 0.08 см, а FID — с 0.083 до 0.029. В отличие от предыдущих методов, чья точность ухудшается при усилении кинематических ограничений, наш метод демонстрирует её улучшение, снижая FID с 0.033 до 0.014.
Восстановление сочлененных трехмерных объектов по одному изображению требует совместного вывода геометрии объекта, структуры частей и параметров движения на основе ограниченных визуальных данных. Ключевая сложность заключается во взаимосвязи между сигналами движения и структурой объекта, что делает прямую регрессию сочленений неустойчивой. Существующие методы решают эту проблему с помощью многовидового контроля, сборки на основе поиска или генерации вспомогательных видео, часто жертвуя масштабируемостью или эффективностью. Мы представляем MonoArt - унифицированную структуру, основанную на прогрессивном структурном анализе. Вместо прямого предсказания сочленений по признакам изображения, MonoArt постепенно преобразует визуальные наблюдения в каноническую геометрию, структурированные представления частей и учитывающие движение эмбеддинги в рамках единой архитектуры. Этот структурированный процесс анализа обеспечивает стабильный и интерпретируемый вывод сочленений без внешних шаблонов движения или многоэтапных конвейеров. Обширные эксперименты на PartNet-Mobility демонстрируют, что OM достигает передовых показателей как по точности реконструкции, так и по скорости вывода. Структура также обобщается на задачи роботизированного манипулирования и реконструкции сочлененных сцен.
Визуальное генеративное моделирование с дискретными токенами привлекает значительное внимание, поскольку позволяет использовать единую парадигму предсказания токенов, общую с языковыми моделями, что открывает перспективы создания бесшовных мультимодальных архитектур. Однако современные методы дискретной генерации по-прежнему ограничиваются низкоразмерными латентными токенами (обычно 8-32 измерения), жертвуя смысловой насыщенностью, необходимой для задач понимания. Хотя предобученные высокоразмерные представления (768-1024 измерения) могли бы устранить этот разрыв, их дискретная генерация создает фундаментальные трудности. В данной статье мы представляем Cubic Discrete Diffusion (CubiD) — первую модель дискретной генерации для высокоразмерных представлений. CubiD выполняет детальное маскирование по всему высокоразмерному дискретному представлению — любое измерение в любой позиции может быть замаскировано и предсказано на основе частичных наблюдений. Это позволяет модели изучать богатые корреляции как внутри пространственных позиций, так и между ними, при фиксированном количестве шагов генерации T независимо от размерности признаков, где T ≪ hwd. На ImageNet-256 CubiD достигает передовых результатов в дискретной генерации с выраженным эффектом масштабирования от 900 млн до 3.7 млрд параметров. Ключевым образом мы подтверждаем, что дискретизированные токены сохраняют возможности исходных представлений, демонстрируя, что одни и те же дискретные токены могут эффективно обслуживать как задачи понимания, так и генерации. Мы надеемся, что эта работа стимулирует будущие исследования в направлении унифицированных мультимодальных архитектур. Код доступен по адресу: https://github.com/YuqingWang1029/CubiD.
Мы представляем F2LLM-v2 — новое семейство многоязычных моделей эмбеддингов общего назначения в 8 вариантах размером от 80 млн до 14 млрд параметров. Обученные на вновь созданном композитном наборе из 60 миллионов публично доступных высококачественных образцов данных, модели F2LLM-v2 поддерживают более 200 языков, с особым акцентом на ранее недостаточно охваченные языки со средними и малыми ресурсами. Благодаря интеграции двухэтапного пайплайна обучения эмбеддингов на основе LLM с методами матрешечного обучения, прунинга моделей и дистилляции знаний, мы представляем модели, которые значительно эффективнее предыдущих LLM-эмбеддингов при сохранении конкурентоспособной производительности. Масштабные оценки подтверждают, что F2LLM-v2-14B занимает первое место в 11 бенчмарках MTEB, в то время как меньшие модели семейства также устанавливают новый state-of-the-art для приложений с ограниченными ресурсами. Для содействия исследованиям в области моделей эмбеддингов с открытым исходным кодом мы публикуем все модели, данные, код и промежуточные чекпойнты.
Последние достижения в области универсальных больших языковых моделей (OmniLLM) значительно улучшили понимание аудио- и видеовходов. Однако текущие оценки в основном сосредоточены на коротких аудио- и видеороликах длительностью от 10 секунд до 5 минут, что не отражает требований реальных приложений, где видео обычно длятся десятки минут. Чтобы устранить этот критический пробел, мы представляем LVOmniBench — новый эталонный тест, специально разработанный для кросс-модального понимания длинных аудио- и видеоформатов. Этот набор данных включает высококачественные видео из открытых платформ, характеризующиеся богатой аудиовизуальной динамикой. Благодаря тщательному ручному отбору и аннотированию, LVOmniBench содержит 275 видео продолжительностью от 10 до 90 минут и 1014 пар «вопрос-ответ». Цель LVOmniBench — всесторонне оценить возможности OmniLLM в таких областях, как долговременная память, временная локализация, детальное понимание и мультимодальное восприятие. Наши масштабные оценки показывают, что современные OmniLLM сталкиваются со значительными трудностями при обработке длинных аудиовизуальных входных данных. Модели с открытым исходным кодом обычно достигают точности ниже 35%, в то время как Gemini 3 Pro достигает пиковой точности около 65%. Мы ожидаем, что этот набор данных вместе с нашими эмпирическими выводами стимулирует дальнейшие исследования и разработку продвинутых моделей, способных решать сложные задачи кросс-модального понимания в контексте длинных аудиовизуальных материалов.
Агенты графического интерфейса с длительным горизонтом планирования являются ключевым шагом к реальному развертыванию, однако эффективная организация памяти взаимодействия в преобладающих парадигмах остается малоизученной. Воспроизведение полных последовательностей взаимодействия избыточно и усиливает шум, тогда как сводки часто стирают критически важную для зависимостей информацию и трассируемость. Мы представляем AndroTMem — диагностический фреймворк для анкерной памяти в агентах Android GUI с длительным горизонтом. Его ключевой бенчмарк, AndroTMem-Bench, включает 1069 задач с 34 473 шагами взаимодействия (в среднем 32,1 на задачу, максимум 65). Мы оцениваем агентов с помощью TCR (коэффициента завершения задач), фокусируясь на задачах, для выполнения которых требуется перенос критических промежуточных состояний; AndroTMem-Bench разработан для обеспечения строгих пошаговых причинно-следственных зависимостей, что делает разреженные, но существенные промежуточные состояния решающими для последующих действий и выводит память взаимодействия в центр оценки. Для открытых и проприетарных GUI-агентов наблюдается устойчивая закономерность: по мере удлинения последовательностей взаимодействия снижение производительности обусловлено в основном сбоями памяти внутри задачи, а не изолированными ошибками восприятия или локальными ошибками действий. Руководствуясь этой диагностикой, мы предлагаем Anchored State Memory (ASM), которая представляет последовательности взаимодействия в виде компактного набора причинно связанных промежуточных состояний-якорей для целевого поиска, ориентированного на подзадачи, и принятия решений с учетом атрибуции. В различных настройках и для 12 оцененных GUI-агентов ASM стабильно превосходит базовые методы полного воспроизведения последовательностей и сводок, улучшая TCR на 5%–30,16% и AMS на 4,93%–24,66%, что указывает на эффективность анкерной структурированной памяти в преодолении узкого места взаимодействия-памяти в задачах с длительным горизонтом. Код, бенчмарк и сопутствующие ресурсы доступны по адресу [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
В данной статье представлена новая задача — генерация реактивных движений слушателя на основе высказываний говорящего, направленная на создание естественных движений тела слушателя, адекватно реагирующих на речь собеседника. Однако моделирование таких невербальных реакций слушателя остается малоизученным и сложным из-за принципиально недетерминированного характера человеческих реакций. Для решения этой задачи мы представляем ReactMotionNet — масштабный набор данных, сопоставляющий высказывания говорящего с несколькими вариантами движений слушателя, аннотированных по степени адекватности. Такая структура набора данных явно отражает отношение «один ко многим» в поведении слушателя и обеспечивает обучение с учетом множества возможных реакций, а не единственного эталонного движения. На основе этого подхода мы разрабатываем ориентированные на предпочтения протоколы оценки, адаптированные для измерения адекватности реакций, которые игнорируются традиционными метриками движений, фокусирующимися на соответствии входным данным. Далее мы предлагаем ReactMotion — унифицированную генеративную архитектуру, совместно моделирующую текст, аудио, эмоции и движения, которая обучается с использованием целевых функций на основе предпочтений для стимулирования как адекватных, так и разнообразных реакций слушателя. Многочисленные эксперименты демонстрируют, что ReactMotion превосходит retrieval-базлайны и каскадные конвейеры на основе больших языковых моделей, генерируя более естественные, разнообразные и уместные движения слушателя.
Последние достижения расширили возможности мультимодальных больших языковых моделей (MLLM) за пределы стандартного визуального ответа на вопросы до использования внешних инструментов для решения сложных визуальных задач. Несмотря на этот прогресс, точное выполнение и эффективная композиция разнообразных инструментов для сложных задач остаются устойчивым узким местом. Ограниченные скудными наборами инструментов и простыми траекториями их использования, существующие бенчмарки не способны охватить сложные и разнообразные взаимодействия с инструментами, неадекватно оценивая производительность моделей в практических, реальных условиях. Чтобы устранить этот пробел, мы представляем VisualToolChain-Bench (VTC-Bench) — комплексный бенчмарк, предназначенный для оценки навыков использования инструментов в MLLM. Для соответствия реалистичным компьютерным пайплайнам наша платформа включает 32 разнообразные визуальные операции на основе OpenCV. Этот богатый набор инструментов позволяет осуществлять обширные комбинации, что позволяет VTC-Bench строго оценивать композицию множества инструментов и выполнение долгосрочных, многошаговых планов. Для точной оценки мы предоставляем 680 тщательно отобранных задач, структурированных по девятиуровневой когнитивной иерархии, каждая с эталонными траекториями выполнения. Масштабные эксперименты с 19 ведущими MLLM выявили критические ограничения в визуальных агентских способностях современных моделей. В частности, модели испытывают трудности с адаптацией к разнообразным наборам инструментов и обобщением на неизвестные операции, при этом лучшая модель Gemini-3.0-Pro достигает на нашем бенчмарке лишь 51%. Кроме того, композиция множества инструментов остается постоянной проблемой. Сталкиваясь со сложными задачами, модели не могут сформулировать эффективные планы выполнения, сильно полагаясь на узкое, неоптимальное подмножество знакомых функций вместо выбора оптимальных инструментов. Выявляя эти фундаментальные проблемы, VTC-Bench устанавливает строгий базовый уровень для руководства разработкой более обобщенных визуальных агентских моделей.
Хотя мультимодальные большие языковые модели (МБЯМ) достигли значительных успехов в интерпретации естественных сцен, их способность обрабатывать дискретные символы — фундаментальные строительные блоки человеческого познания — остается важным открытым вопросом. В отличие от непрерывных визуальных данных, символы, такие как математические формулы, химические структуры и лингвистические знаки, требуют точной и более глубокой интерпретации. В данной статье представлен комплексный бенчмарк для оценки того, как ведущие МБЯМ ориентируются в этих «дискретных семантических пространствах» в пяти областях: язык, культура, математика, физика и химия. Наше исследование выявляет контринтуитивный феномен: модели часто не справляются с базовым распознаванием символов, но преуспевают в сложных задачах логического вывода, что свидетельствует об их зависимости от лингвистической вероятности, а не от истинного визуального восприятия. Обнажая этот «когнитивный разрыв», мы подчеркиваем существенный пробел в современных возможностях ИИ: неспособность по-настоящему воспринимать и понимать символические языки, лежащие в основе научных открытий и абстрактного мышления. Данная работа предлагает дорожную карту для создания более строгих интеллектуальных систем, согласованных с человеческим познанием.
Задача удаления объектов из видео заключается в устранении динамических целевых объектов и их визуальных эффектов, таких как деформация, тени и отражения, с одновременным восстановлением бесшовного фона. Современные методы видео-заполнения и удаления объектов на основе диффузионных моделей способны удалять объекты, но часто не справляются с устранением этих эффектов и синтезом согласованного фона. Помимо ограничений методов, прогресс дополнительно сдерживается отсутствием всеобъемлющего набора данных, который бы систематически фиксировал распространенные эффекты объектов в различных средах для обучения и оценки. Для решения этой проблемы мы представляем VOR (Video Object Removal) — масштабный набор данных, предоставляющий разнообразные парные видео. Каждая пара состоит из видео с присутствующим целевым объектом и его эффектами и соответствующего видео, где объект и эффекты отсутствуют, вместе с соответствующими масками объектов. VOR содержит 60 тысяч высококачественных видео-пар из реальных и синтетических источников, охватывает пять типов эффектов и включает широкий спектр категорий объектов, а также сложные динамические сцены с несколькими объектами. На основе VOR мы предлагаем EffectErase — метод удаления объектов из видео с учетом эффектов, который рассматривает вставку объектов в видео как обратную вспомогательную задачу в схеме взаимного обучения. Модель включает ориентированное на задачу региональное руководство, которое фокусирует обучение на затронутых областях и обеспечивает гибкое переключение между задачами, а также цель согласованности между вставкой и удалением, которая поощряет комплементарное поведение и общую локализацию областей эффектов и структурных ключей. Обученный на VOR, метод EffectErase демонстрирует превосходную производительность в обширных экспериментах, обеспечивая высококачественное удаление эффектов объектов из видео в различных сценариях.
Модели «зрение–язык» (Vision-Language Models, VLM) демонстрируют «слепоту», часто недостаточно используя визуальные входные данные даже в задачах, требующих зрительного анализа. В данной работе мы показываем, что VLM являются избирательно слепыми. Они модулируют объем внимания, уделяемого визуальным данным, в зависимости от лингвистического контекста, даже когда альтернативные формулировки требуют идентичного визуального анализа. Используя механизм зрительного внимания в качестве инструмента, мы количественно оцениваем, как формулировка влияет на объем и распределение внимания по изображению. Ограничивающие формулировки, такие как множественный выбор и «да/нет», приводят к существенно меньшему вниманию к контексту изображения по сравнению с открытыми вопросами, снижают фокус на релевантных для задачи областях и смещают внимание к неинформативным токенам. Мы также демонстрируем, что это нерациональное распределение внимания является основной причиной снижения точности и несогласованности результатов при смене формулировок. Опираясь на это механистическое понимание, мы предлагаем метод легкой настройки промптов с использованием обучаемых токенов, который способствует формированию устойчивых, визуально обоснованных паттернов внимания, наблюдаемых в открытых условиях, улучшая визуальную обоснованность и повышая производительность при различных формулировках.
Синхронный перевод речи в речь (SimulS2S) играет ключевую роль для обеспечения многоязыковой коммуникации в реальном времени и все активнее интегрируется в платформы для проведения встреч и потоковой передачи. Несмотря на это, SimulS2S остается недостаточно изученным в исследованиях, где современные решения часто опираются на ресурсоемкие процедуры обучения и работают с короткими, предварительно сегментированными высказываниями, не обеспечивая обобщаемости на непрерывную речь. Для преодоления этого разрыва мы предлагаем SimulU — первую стратегию для длительного SimulS2S, не требующую обучения. SimulU использует стратегии управления историей контекста и выбора речевого вывода, которые задействуют механизм перекрестного внимания в предварительно обученных end-to-end моделях для регулирования как истории входных данных, так и генерации выходных данных. Оценки на наборе MuST-C для 8 языков показывают, что SimulU обеспечивает лучшее или сопоставимое соотношение «качество-задержка» по сравнению с мощными каскадными моделями. Благодаря отсутствию необходимости в специальном обучении, SimulU открывает перспективный путь к реализации end-to-end SimulS2S в реалистичных сценариях с длительной речью.
Многошаговые LLM-агенты приобретают все большее значение для решения сложных интерактивных задач, а обучение с подкреплением (RL) является ключевым инструментом для улучшения их поведения на длительных горизонтах планирования. Однако обучение RL требует генерации большого количества изолированных траекторий прогонов, а существующие инфраструктуры часто связывают оркестрацию прогонов с циклом обучения, что затрудняет миграцию и поддержку систем. В соответствии с философией «прогон-как-услуга» мы представляем **ProRL Agent** — масшташируемую инфраструктуру, которая предоставляет полный жизненный цикл агентских прогонов через API-сервис. ProRL Agent также предоставляет стандартизированные и расширяемые изолированные среды, поддерживающие разнообразные агентские задачи в HPC-средах без прав root. Мы проверяем эффективность ProRL Agent путем RL-обучения на задачах из областей разработки программного обеспечения, математики, STEM и программирования. ProRL Agent имеет открытый исходный код и интегрирован в состав NVIDIA NeMo Gym.
Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющий прогресс в связывании зрения и языка, однако они по-прежнему испытывают трудности с пространственным пониманием и рассуждениями с учетом точки обзора. Современные подходы направлены на обогащение входных представлений геометрическими подсказками, а не на явное обучение моделей рассуждению в 3D-пространстве. Мы представляем Loc3R-VLM — фреймворк, который оснащает 2D визуально-языковые модели расширенными возможностями трехмерного понимания на основе входных данных с монокулярного видео. Вдохновляясь пространственным познанием человека, Loc3R-VLM опирается на две совместные цели: реконструкцию глобальной компоновки для построения целостного представления о структуре сцены и явное моделирование ситуации для закрепления эгоцентрической перспективы. Эти цели обеспечивают прямое пространственное управление, которое связывает как восприятие, так и язык в трехмерном контексте. Для обеспечения геометрической согласованности и метрического масштабного выравнивания мы используем легковесные априорные данные о позе камеры, извлеченные из предварительно обученной 3D-фундаментальной модели. Loc3R-VLM достигает наилучших результатов в локализации на основе языка и превосходит существующие подходы, основанные на 2D и видео, в тестах на ситуационные и общие 3D вопросы и ответы, демонстрируя, что наша система пространственного управления обеспечивает глубокое трехмерное понимание. Страница проекта: https://kevinqu7.github.io/loc3r-vlm
Регулирование коэффициента важности является критически важным для устойчивости обучения в рамках подходов, основанных на Group Relative Policy Optimization (GRPO). Однако преобладающие методы контроля коэффициента, такие как жесткое ограничение, страдают от недифференцируемых границ и областей исчезающего градиента, не обеспечивая сохранения его точности. Более того, этим методам не хватает механизма, учитывающего риск, для адаптивного подавления экстремальных отклонений, что делает процесс оптимизации уязвимым к резким изменениям политики. Для решения этих проблем мы предлагаем Modulated Hazard-aware Policy Optimization (MHPO) — новую архитектуру, разработанную для robustного и стабильного обучения с подкреплением. Предлагаемый MHPO вводит Log-Fidelity Modulator (LFM) для отображения неограниченных коэффициентов важности в ограниченную, дифференцируемую область. Этот механизм эффективно предотвращает дестабилизацию ландшафта функции потерь из-за токенов-выбросов с высокой дисперсией, одновременно обеспечивая глобальную стабильность градиента. Дополнительно, Decoupled Hazard Penalty (DHP) интегрирует кумулятивные функции риска из анализа выживаемости для независимого регулирования позитивных и негативных сдвигов политики. Формируя ландшафт оптимизации с помощью штрафов, учитывающих риск, предлагаемый MHPO достигает детального регулирования асимметричных сдвигов политики, одновременно смягчая коллапс мод из-за чрезмерного расширения и предотвращая деградацию политики из-за катастрофического сжатия в пределах стабилизированной области доверия. Обширные оценки на разнообразных бенчмарках для задач рассуждений, включая текстовые и визуально-языковые задачи, демонстрируют, что MHPO последовательно превосходит существующие методы, достигая превосходной производительности при значительном повышении устойчивости обучения.
В данном техническом отчете представлена MOSS-TTS — фундаментальная модель генерации речи, построенная по масштабируемой схеме: дискретные аудиотокены, авторегрессионное моделирование и предобучение на больших данных. На основе MOSS-Audio-Tokenizer, каузального трансформерного токенизатора, который сжимает аудио 24 кГц до 12.5 кадров в секунду с использованием RVQ с переменной битрейтом и унифицированных семантико-акустических представлений, мы выпускаем две взаимодополняющие генеративные модели: MOSS-TTS, ориентированную на структурную простоту, масштабируемость и развертывание для длинных контекстов/управления, и MOSS-TTS-Local-Transformer, которая вводит фреймово-локальный авторегрессионный модуль для повышения эффективности моделирования, лучшего сохранения характеристик диктора и сокращения времени до первого сгенерированного аудио. В мультиязычных и открытых доменных сценариях MOSS-TTS поддерживает zero-shot клонирование голоса, поточное управление длительностями, управление произношением на уровне фонем/пиньиня, плавное переключение языков и стабильную генерацию длинных форм. В отчете обобщены архитектура, методика обучения и эмпирические характеристики выпущенных моделей.
Возможность визуализации сцен с регулируемой детализацией на основе единой модели, известная как уровень детализации (LoD), имеет ключевое значение для практического применения метода 3D Gaussian Splatting (3DGS). Существующие дискретные методы LoD предоставляют лишь ограниченный набор рабочих точек, тогда как современные непрерывные подходы LoD обеспечивают более плавное масштабирование, но часто демонстрируют заметное снижение качества при полной мощности, что делает выбор LoD дорогостоящим архитектурным решением. Мы представляем Matryoshka Gaussian Splatting (MGS) — фреймворк для обучения, который обеспечивает непрерывный LoD для стандартных конвейеров 3DGS без ухудшения качества рендеринга на полной мощности. MGS обучает единый упорядоченный набор гауссоидов таким образом, что рендеринг любого его префикса (первых k сплатов) даёт согласованную реконструкцию, чья точность плавно повышается с увеличением вычислительного бюджета. Наша ключевая идея — это обучение со стохастическим бюджетом: на каждой итерации выбирается случайный бюджет сплатов, а оптимизируется как соответствующий префикс, так и полный набор. Данная стратегия требует лишь двух прямых проходов и не вносит изменений в архитектуру модели. Эксперименты на четырёх бенчмарках и шести базовых методах показывают, что MGS сохраняет производительность своей базовой модели на полной мощности, обеспечивая при этом непрерывный компромисс между скоростью и качеством из единой модели. Обширные абляционные исследования стратегий упорядочивания, функций потерь и ёмкости моделей дополнительно подтверждают обоснованность предложенных решений.
Модели «визуальный язык» (VLM), адаптированные для дистанционного зондирования, сильно зависят от предметно-ориентированных изображений и текстовых данных для обучения. Однако создание высококачественных аннотаций для спутниковых и аэрофотоснимков остается сложной и дорогостоящей задачей. Распространенные методы псевдоразметки решают эту проблему, дистиллируя знания из больших фронтирных моделей, но такая зависимость от крупных «учителей» является затратной, ограничивает масштабируемость и устанавливает потолок производительности на уровне учителя. Мы предлагаем OSMDA: самодостаточную框架 адаптации домена, которая устраняет эту зависимость. Наше ключевое наблюдение заключается в том, что мощная базовая VLM может служить собственным механизмом аннотирования: сопоставляя аэрофотоснимки с визуализированными тайлами OpenStreetMap (OSM), мы используем возможности модели по распознаванию текста и анализу схем для генерации описаний, обогащенных обширными вспомогательными метаданными OSM. Затем модель дообучается на полученном корпусе, используя только спутниковые изображения, в результате чего получается OSMDA-VLM — адаптированная к домену VLM, не требующая ручной разметки и более мощных внешних моделей. Мы провели всестороннюю оценку на 10 тестовых наборах данных для задач «изображение-текст-в-текст» и сравнили с 9 конкурентоспособными базовыми методами. При равномерном смешивании с реальными данными наш метод достигает наилучших результатов, будучи при этом существенно дешевле в обучении, чем альтернативы, зависящие от учителя. Эти результаты позволяют предположить, что при наличии сильной базовой модели, интеграция с краудсорсинговыми географическими данными представляет собой практичный и масштабируемый путь адаптации к домену дистанционного зондирования. Набор данных и веса модели будут опубликованы в открытом доступе.
Способность точно выводить математические объекты является ключевым требованием для последующих STEM-приложений, включая математику, физику и химию, где рассуждения должны завершаться формально структурированными выражениями. Однако современные оценки математических и научных рассуждений в языковых моделях в значительной степени опираются на упрощенные форматы ответов, такие как числовые значения или варианты множественного выбора, в силу удобства автоматизированной оценки. В данной статье мы представляем три вклада в совершенствование рассуждений над математическими объектами: (i) мы создаем и публикуем обучающие данные и бенчмарки для вывода математических объектов — набор Principia; (ii) мы предлагаем методики обучения с использованием строгих LLM-оценщиков и верификаторов, демонстрируя, что обучение оценщика на политике модели повышает производительность; (iii) мы показываем, как обучение на политике модели также может быть использовано для масштабирования вычислений во время тестирования посредством агрегации. Мы обнаруживаем, что мощные языковые модели, такие как Qwen3-235B и o3, демонстрируют низкие результаты на Principia, в то время как наши методики обучения позволяют добиться значительного улучшения на различных архитектурах больших языковых моделей, одновременно повышая результаты на существующих задачах с числовыми ответами и множественным выбором, что демонстрирует кросс-форматную обобщающую способность рассуждений.
Мы представляем MultiTempBench — многозадачный бенчмарк для оценки темпоральных рассуждений, охватывающий три задачи: арифметику с датами, конвертацию часовых поясов и извлечение темпоральных отношений на пяти языках (английском, немецком, китайском, арабском и хауса) с использованием нескольких календарных систем (григорианской, хиджры и китайского лунного календаря). MultiTempBench содержит 15 000 примеров, созданных путем перевода 750 тщательно отобранных английских вопросов и расширения каждого из них в контролируемые варианты с разными форматами дат. Мы оцениваем 20 больших языковых моделей (LLM) и вводим многозадачный коэффициент фрагментации дат (mDFR), калиброванный с учетом оценок серьезности ошибок человеком, вместе с анализом внутренних темпоральных представлений методом геометрического зондирования. Мы обнаружили, что качество токенизации темпоральных артефактов является узким местом, зависящим от ресурсов: в языках с ограниченными ресурсами и более редких календарных форматах фрагментация нарушает разделение Год/Месяц/День, и точность резко падает, тогда как в условиях высоких ресурсов системы часто устойчивы к разбиению на уровне цифр. Помимо токенизации, перекрестная регрессия со смешанными эффектами показывает, что темпоральная линейность является наиболее сильным предиктором темпоральных рассуждений в языках с высокими ресурсами, тогда как фрагментация — более сильный предиктор в языках с низкими ресурсами. Код доступен по адресу: https://github.com/gagan3012/mtb
Выявление потенциальных объектов является критически важной задачей для распознавания и анализа объектов в различных приложениях компьютерного зрения. Существующие методы обычно локализуют потенциальные объекты, опираясь на эталонные изображения, предопределенные категории или текстовые описания. Однако их зависимость от визуальных и текстовых подсказок часто ограничивает гибкость, сужая адаптивность в реальных сценариях. В данной статье мы представляем новую Универсальную сеть предложения областей без подсказок (PF-RPN), которая идентифицирует потенциальные объекты без reliance на внешние подсказки. Во-первых, модуль Sparse Image-Aware Adapter (SIA) выполняет первоначальную локализацию потенциальных объектов с использованием обучаемого векторного представления запроса, динамически обновляемого на основе визуальных признаков. Затем модуль Cascade Self-Prompt (CSP) выявляет оставшиеся потенциальные объекты, используя само-инициируемое обучаемое представление, автономно агрегируя информативные визуальные признаки каскадным способом. Наконец, модуль Centerness-Guided Query Selection (CG-QS) облегчает отбор высококачественных векторных представлений запросов с помощью сети оценки центральности. Наш метод может быть оптимизирован на ограниченных данных (например, на 5% данных MS COCO) и напрямую применен в различных предметных областях обнаружения объектов для идентификации потенциальных объектов без дообучения, таких как подводное обнаружение объектов, обнаружение промышленных дефектов и обнаружение объектов на снимках дистанционного зондирования. Результаты экспериментов на 19 наборах данных подтверждают эффективность нашего метода. Код доступен по адресу https://github.com/tangqh03/PF-RPN.
Мы представляем COT-FM — универсальный фреймворк, который перестраивает вероятностный путь в Flow Matching (FM) для достижения более быстрой и надежной генерации. Модели FM часто создают изогнутые траектории из-за случайных или пакетных сопряжений, что увеличивает ошибку дискретизации и снижает качество сэмплов. COT-FM устраняет эту проблему путем кластеризации целевых образцов и назначения каждому кластеру выделенного исходного распределения, полученного обращением предобученных моделей FM. Эта стратегия «разделяй и властвуй» обеспечивает более точный локальный транспорт и значительно более прямые векторные поля, без изменения архитектуры модели. Как подход plug-and-play, COT-FM стабильно ускоряет выборку и улучшает качество генерации на 2D-данных, бенчмарках генерации изображений и задачах роботизированного манипулирования.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в машинном переводе для языковых пар с большими ресурсами, однако их производительность на языках с ограниченными ресурсами всё ещё отстаёт. Существующие методы пост-обучения сильно зависят от высококачественных параллельных данных, которые часто являются дефицитными или недоступными для малоресурсных языков. В данной статье мы представляем WALAR — метод обучения с подкреплением, использующий только монолингвальные тексты для повышения способностей LLM к переводу на множестве малоресурсных языков при сохранении их производительности на языках с большими ресурсами. Наше ключевое наблюдение основано на анализе типичных ошибок (или «пробелов») в существующих моделях многозадачного оценивания качества (QE) на основе исходного текста. Обучение с подкреплением (RL) с использованием таких моделей QE имеет тенденцию усиливать эти пробелы, что приводит к ухудшению многозадачных LLM. Мы разработали методы, включая выравнивание на уровне слов и языковое выравнивание, чтобы смягчить подобные пробелы в функции вознаграждения WALAR для RL-обучения. Мы провели непрерывное обучение LLM, поддерживающей перевод на 101 языке, с использованием WALAR. Эксперименты показывают, что наша новая модель значительно превосходит LLaMAX, одну из сильнейших открытых многозадачных LLM, по 1400 направлениям перевода в наборе данных Flores-101.
Понимание и генерация 3D-объектов как композиций значимых частей является фундаментальным аспектом человеческого восприятия и мышления. Однако большинство методов генерации 3D-объектов по текстовому описанию игнорируют семантическую и функциональную структуру частей. В то время как современные подходы, учитывающие декомпозицию на части, вводят разбиение, они в основном сосредоточены на геометрии, лишены семантической обоснованности и не моделируют, как части соответствуют текстовым описаниям или каковы взаимосвязи между ними. Мы предлагаем DreamPartGen — фреймворк для семантически обоснованной генерации 3D-объектов по тексту с учетом частей. DreamPartGen вводит Дуплексные Латентные Переменные Частей (Duplex Part Latents, DPL), которые совместно моделируют геометрию и внешний вид каждой части, и Реляционные Семантические Латентные Переменные (Relational Semantic Latents, RSL), которые фиксируют зависимости между частями, выведенные из языка. Синхронизированный процесс совместного шумоподавления обеспечивает взаимную геометрическую и семантическую согласованность, позволяя осуществлять последовательный, интерпретируемый и согласованный с текстом 3D-синтез. По результатам тестирования на нескольких наборах данных DreamPartGen демонстрирует передовые показатели как по геометрической точности, так и по соответствию формы текстовому описанию.
Обнаружение логических аномалий при промышленном контроле остается сложной задачей из-за вариаций визуального представления (например, загроможденного фона, изменения освещения и размытия), которые часто отвлекают визуально-ориентированные детекторы от выявления нарушений на уровне правил. Однако существующие эталонные наборы данных редко предоставляют контролируемые условия, в которых логические состояния фиксированы, а мешающие факторы варьируются. Для устранения этого пробела мы представляем VID-AD — набор данных для обнаружения логических аномалий при визуальных помехах. Он включает 10 производственных сценариев и пять условий съемки, в сумме составляя 50 задач одноклассовой классификации и 10 395 изображений. Каждый сценарий определяется двумя логическими ограничениями, выбранными из количества, длины, типа, размещения и отношения, причем аномалии включают как одиночные, так и комбинированные нарушения ограничений. Мы также предлагаем основанную на языке систему обнаружения аномалий, которая полагается исключительно на текстовые описания, сгенерированные из изображений без аномалий. Используя контрастное обучение с позитивными текстами и негативными текстами на основе противоречий, синтезированными из этих описаний, наш метод изучает эмбеддинги, которые фиксируют логические атрибуты, а не низкоуровневые признаки. Многочисленные эксперименты демонстрируют устойчивое улучшение результатов по сравнению с базовыми методами во всех оцениваемых условиях. Набор данных доступен по адресу: https://github.com/nkthiroto/VID-AD.
Персидский язык представляет уникальные задачи для аудиопонимания из-за своей классической поэзии, традиционной музыки и повсеместного смешения кодов — ни один из этих аспектов не отражен в существующих бенчмарках. Мы представляем PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark) — первый бенчмарк для оценки больших аудио-языковых моделей на персидском языке и культуре, включающий 16 задач и более 8000 образцов в областях понимания речи, паралингвистического анализа и понимания культурного аудиоконтента. Десять задач являются нововведениями, включая определение метра и стиля поэзии, понимание традиционной персидской музыки и детекцию смешения кодов. Текстовые базовые модели последовательно превосходят аудиомодели, что позволяет предположить, что модели могут не использовать аудиоспецифичную информацию за пределами того, что предоставляет транскрипция. Задачи, основанные на культурных особенностях, выявляют качественно иную модель ошибок: все модели показывают результаты близкие к случайным в определении вазна независимо от масштаба, что свидетельствует о том, что восприятие просодии остается недостижимым для современных моделей. Набор данных общедоступен по адресу: https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.