Ежедневно отобранные исследовательские статьи по ИИ с переводами
Люди воспринимают и понимают реальные пространства через поток визуальных наблюдений. Следовательно, способность потоково поддерживать и обновлять пространственные данные из потенциально неограниченных видеопотоков необходима для пространственного интеллекта. Ключевая проблема заключается не просто в увеличении длины контекстного окна, а в том, как пространственная информация отбирается, организуется и сохраняется с течением времени. В данной статье мы предлагаем метод Spatial-TTT для потокового визуального пространственного интеллекта с обучением во время тестирования (Test-Time Training, TTT), который адаптирует подмножество параметров (быстрые веса) для захвата и организации пространственных данных в длительных видео сцен. В частности, мы разрабатываем гибридную архитектуру и применяем крупно-блочные обновления параллельно со вниманием скользящего окна для эффективной обработки пространственного видео. Для дальнейшего повышения пространственной осведомленности мы вводим пространственно-предсказательный механизм, применяемый к слоям TTT с помощью 3D пространственно-временной свертки, что побуждает модель захватывать геометрическое соответствие и временную непрерывность между кадрами. Помимо проектирования архитектуры, мы создаем набор данных с плотными 3D пространственными описаниями, который направляет модель на обновление ее быстрых весов для структурированного запоминания и организации глобальных 3D пространственных сигналов. Многочисленные эксперименты демонстрируют, что Spatial-TTT улучшает понимание пространства на длительных временных горизонтах и достигает передовых результатов на бенчмарках для видео с пространственной информацией. Страница проекта: https://liuff19.github.io/Spatial-TTT.
Мультимодальные агенты открывают перспективный путь к автоматизации сложных документоемких процессов. Однако ключевой вопрос остается открытым: демонстрируют ли эти агенты подлинное стратегическое мышление или же они ограничиваются стохастическим поиском методом проб и ошибок? Для решения этой задачи мы представляем MADQA — набор из 2250 вопросов, созданных человеком на основе 800 разнородных PDF-документов. Руководствуясь классической теорией тестов, мы разработали его для максимизации дискриминативной способности применительно к различным уровням агентских способностей. Для оценки агентского поведения мы вводим новый протокол оценки, измеряющий компромисс между точностью и усилиями. Используя эту методологию, мы показываем, что хотя лучшие агенты могут сравниться с человеком по чистой точности, они успешно отвечают на совершенно иные вопросы и полагаются на метод грубого перебора, чтобы компенсировать слабое стратегическое планирование. Им не удается сократить разрыв почти в 20% до эталонной производительности, и они застревают в непродуктивных циклах. Мы публикуем набор данных и инструменты оценки, чтобы способствовать переходу от грубого извлечения информации к калиброванному и эффективному рассуждению.
Агентные рабочие процессы с длинным контекстом стали определяющим сценарием использования больших языковых моделей, что делает эффективность механизма внимания критически важной как для скорости вывода, так и для стоимости обслуживания. Разреженное внимание эффективно решает эту задачу, и DeepSeek Sparse Attention (DSA) является представительным промышленным решением: легковесный индексер Lightning выбирает k наиболее релевантных токенов для каждого запроса, сокращая сложность базового механизма внимания с O(L²) до O(Lk). Однако сам индексер сохраняет сложность O(L²) и должен запускаться независимо на каждом слое, несмотря на то, что результирующие выборки top-k оказываются высоко схожими между последовательными слоями. Мы представляем IndexCache, который использует эту межслойную избыточность, разделяя слои на небольшое множество Полных слоев, запускающих собственные индексеры, и большинство Общих слоев, которые просто повторно используют индексы top-k от ближайшего Полного слоя. Мы предлагаем два взаимодополняющих подхода для определения и оптимизации этой конфигурации. IndexCache без дообучения применяет жадный алгоритм поиска, который выбирает, на каких слоях сохранить индексеры, напрямую минимизируя потери языкового моделирования на калибровочном наборе, не требуя обновления весов. IndexCache с дообучением вводит мультислойную дистилляционную функцию потерь, которая обучает каждый сохраненный индексер на усредненных распределениях внимания всех обслуживаемых им слоев, позволяя даже простым чередующимся шаблонам соответствовать точности полного индексера. Экспериментальные результаты на 30B модели DSA показывают, что IndexCache может удалить 75% вычислений индексера с незначительной деградацией качества, достигая до 1.82× ускорения фазы предзаполнения и 1.48× ускорения фазы декодирования по сравнению со стандартной DSA. Эти положительные результаты дополнительно подтверждаются нашими предварительными экспериментами на моделях производственного масштаба, таких как GLM-5 (Рисунок 1).
Агенты, использующие компьютеры (Computer-using agents, CUA), становятся все более способными, однако масштабирование оценки того, действительно ли траектория агента выполняет пользовательскую инструкцию, остается сложной задачей. В данной работе мы исследуем моделирование вознаграждения на основе видео выполнения — последовательности ключевых кадров из траектории агента, которая не зависит от его внутренних рассуждений или действий. Хотя моделирование по видео выполнения является метод-агностичным, оно представляет ключевые проблемы, включая высоко избыточные компоновки и тонкие, локализованные сигналы, определяющие успех. Мы представляем Execution Video Reward 53k (ExeVR-53k) — набор данных, содержащий 53 тыс. высококачественных троек «видео–задача–вознаграждение». Кроме того, мы предлагаем метод adversarial instruction translation для синтеза негативных примеров с аннотациями на уровне шагов. Чтобы обеспечить обучение на длинных видео выполнения высокого разрешения, мы разрабатываем пространственно-временное прореживание токенов, которое удаляет однородные области и устойчивые токены, сохраняя при этом решающие изменения пользовательского интерфейса. На основе этих компонентов мы дообучаем Модель Вознаграждения по Видео Выполнения (Execution Video Reward Model, ExeVRM), которая принимает только пользовательскую инструкцию и последовательность видео выполнения для прогнозирования успешности задачи. Наша модель ExeVRM 8B достигает точности 84,7% и полноты 87,7% при оценке видео выполнения, превосходя мощные проприетарные модели, такие как GPT-5.2 и Gemini-3 Pro, в средах Ubuntu, macOS, Windows и Android, а также обеспечивая более точную временную атрибуцию. Эти результаты демонстрируют, что моделирование вознаграждения по видео выполнения может служить масштабируемым, модельно-агностичным оценщиком для CUA.
Текстовая генерация видео демократизировала создание фильмов, однако управление камерой в сценариях с кинематографическими многокадровыми сценами остаётся серьёзным препятствием. Неявные текстовые подсказки недостаточно точны, в то время как явное задание траекторий накладывает непомерные ручные затраты и часто провоцирует сбои выполнения в современных моделях. Чтобы преодолеть это узкое место, мы предлагаем парадигмальный сдвиг, ориентированный на данные, и утверждаем, что выровненные тройки (Подпись, Траектория, Видео) формируют inherentное совместное распределение, способное связать автоматическое планирование и точное исполнение. Руководствуясь этим принципом, мы представляем ShotVerse — фреймворк «Спланируй-затем-Управляй», который разделяет генерацию на двух совместных агентов: Планировщик на основе VLM (визуально-языковой модели), использующий пространственные априорные данные для получения кинематографических, глобально выровненных траекторий из текста, и Контроллер, который преобразует эти траектории в многокадровое видео через камерный адаптер. Ключевым элементом нашего подхода является создание фундамента данных: мы разработали автоматизированный конвейер калибровки камеры для многокадровых сцен, который объединяет разрозненные однокадровые траектории в единую глобальную систему координат. Это позволяет создать ShotVerse-Bench — высококачественный кинематографический набор данных с трёхуровневым протоколом оценки, служащий основой для нашего фреймворка. Многочисленные эксперименты демонстрируют, что ShotVerse эффективно устраняет разрыв между ненадёжным текстовым управлением и трудоёмким ручным планированием, обеспечивая превосходную кинематографическую эстетику и генерируя многокадровые видео, которые одновременно точны по камере и согласованы между кадрами.
Хотя крупномасштабные диффузионные модели произвели революцию в синтезе видео, достижение точного контроля как над идентичностью множества объектов, так и над многоуровневым движением остается серьезной проблемой. Недавние попытки устранить этот разрыв часто страдают от ограниченной гранулярности движения, неоднозначности управления и деградации идентичности, что приводит к неоптимальным результатам в сохранении идентичности и управлении движением. В данной работе мы представляем DreamVideo-Omni — унифицированную структуру, обеспечивающую гармоничную настройку множества объектов с полным контролем движения посредством прогрессивной двухэтапной парадигмы обучения. На первом этапе мы интегрируем комплексные управляющие сигналы для совместного обучения, включая внешний вид объектов, глобальное движение, локальную динамику и перемещения камеры. Для обеспечения надежной и точной управляемости мы вводим зависящее от условий 3D-ротационное позиционное кодирование для координации разнородных входных данных и иерархическую стратегию внедрения движения для усиления глобального управления движением. Кроме того, для устранения неоднозначности множества объектов мы вводим групповые и ролевые эмбеддинги, чтобы явно привязать сигналы движения к конкретным идентичностям, эффективно разделяя сложные сцены на независимые управляемые экземпляры. На втором этапе, чтобы смягчить деградацию идентичности, мы разрабатываем парадигму обучения с обратной связью на основе латентного вознаграждения за идентичность, обучая модель латентного вознаграждения на основе предварительно обученного каркаса диффузии видео. Это обеспечивает учитывающие движение вознаграждения за идентичность в латентном пространстве, отдавая приоритет сохранению идентичности в соответствии с человеческими предпочтениями. Благодаря созданному нами крупномасштабному набору данных и комплексному DreamOmni Bench для оценки управления множеством объектов и полным движением, DreamVideo-Omni демонстрирует превосходную производительность в генерации высококачественных видео с точной управляемостью.
Обучение с подкреплением (RL) стало перспективной парадигмой для улучшения редактирования изображений и генерации изображений по тексту (T2I). Однако современные модели вознаграждения, которые выступают в роли критиков в процессе RL, часто страдают от галлюцинаций и присваивают зашумленные оценки, что по своей сути вводит процесс оптимизации в заблуждение. В данной статье мы представляем FIRM (Faithful Image Reward Modeling) — комплексную структуру, которая разрабатывает надежные модели вознаграждения для обеспечения точного и достоверного руководства при генерации и редактировании изображений, следующих исходному заданию. Во-первых, мы разрабатываем специализированные конвейеры курации данных для создания высококачественных наборов данных с оценками. В частности, мы оцениваем редактирование, используя как исполнение, так и согласованность, в то время как генерация оценивается в основном через следование инструкции. Используя эти конвейеры, мы собираем наборы данных FIRM-Edit-370K и FIRM-Gen-293K и обучаем специализированные модели вознаграждения (FIRM-Edit-8B и FIRM-Gen-8B), которые точно отражают эти критерии. Во-вторых, мы представляем FIRM-Bench — комплексный бенчмарк, специально разработанный для критиков редактирования и генерации. Оценки показывают, что наши модели достигают превосходного соответствия человеческим суждениям по сравнению с существующими метриками. Кроме того, для бесшовной интеграции этих критиков в конвейер RL мы формулируем новую стратегию вознаграждения «База-и-Бонус», которая балансирует конкурирующие цели: Согласованно-Модулированное Исполнение (CME) для редактирования и Качественно-Модулированное Соответствие (QMA) для генерации. Благодаря этой структуре наши итоговые модели FIRM-Qwen-Edit и FIRM-SD3.5 достигают значительных прорывов в производительности. Комплексные эксперименты демонстрируют, что FIRM смягчает галлюцинации, устанавливая новый стандарт достоверности и следования инструкциям по сравнению с существующими общими моделями. Все наши наборы данных, модели и код находятся в открытом доступе по адресу https://firm-reward.github.io.
Мультимодальные агенты уже способны решать сложные задачи рассуждений с использованием разнообразных инструментов, однако они по-прежнему страдают от неэффективного использования инструментов и негибкого управления в открытых средах. Ключевой проблемой является обеспечение возможности постоянного улучшения таких агентов без обновления параметров за счет обучения на основе предыдущих траекторий. Мы выделяем две взаимодополняющие формы переиспользуемых знаний, необходимых для достижения этой цели: *опыт*, предоставляющий краткие рекомендации на уровне действий для выбора инструментов и принятия решений, и *навыки*, предоставляющие структурированные рекомендации на уровне задач для планирования и использования инструментов. С этой целью мы предлагаем XSkill — двухпоточную архитектуру для непрерывного обучения на основе опыта и навыков в мультимодальных агентах. XSkill основывает как извлечение, так и поиск знаний на визуальных наблюдениях. На этапе накопления XSkill выделяет и консолидирует опыт и навыки из множественных прогонов с помощью визуально обоснованного суммирования и кросс-прогонной критики. На этапе вывода система извлекает и адаптирует эти знания к текущему визуальному контексту, а также передает историю использования обратно в процесс накопления, формируя петлю непрерывного обучения. Оценка на пяти тестовых наборах из различных областей с четырьмя базовыми моделями показала, что XSkill стабильно и существенно превосходит как базовые методы, использующие только инструменты, так и подходы, основанные на обучении. Дальнейший анализ показывает, что два потока знаний играют взаимодополняющую роль в формировании поведения рассуждений агентов и демонстрируют превосходную способность к обобщению в условиях zero-shot.
Существующие методы оценки глубины на видео сталкиваются с фундаментальным компромиссом: генеративные модели страдают от стохастических геометрических галлюцинаций и дрейфа масштаба, в то время как дискриминативные модели требуют огромных размеченных наборов данных для разрешения семантических неоднозначностей. Чтобы преодолеть этот тупик, мы представляем DVD — первую структуру, которая детерминированно адаптирует предварительно обученные диффузионные модели для видео в регрессоры глубины, работающие за один проход. В частности, DVD включает три ключевых разработки: (i) перепрофилирование шага диффузии в качестве структурного якоря для балансировки глобальной стабильности и высокочастотных деталей; (ii) ректификацию латентного многообразия (LMR) для смягчения вызванного регрессией чрезмерного сглаживания, с применением дифференциальных ограничений для восстановления резких границ и согласованного движения; и (iii) глобальную аффинную согласованность — внутреннее свойство, ограничивающее межоконную дивергенцию, что позволяет осуществлять бесшумный вывод для длинных видео без сложного временного выравнивания. Многочисленные эксперименты демонстрируют, что DVD достигает наилучших показателей в условиях zero-shot на различных бенчмарках. Более того, DVD успешно раскрывает глубокие геометрические априорные знания, неявно присутствующие в фоновых моделях для видео, используя в 163 раза меньше целевых данных по сравнению с ведущими базовыми методами. Примечательно, что мы полностью публикуем наш конвейер, предоставляя полный набор инструментов для обучения передовым методам оценки глубины на видео в интересах сообщества открытого исходного кода.
Редактирование изображений на основе инструкций направлено на изменение конкретного содержимого существующих изображений в соответствии с предоставленными пользователем указаниями при сохранении нетронутых областей. В отличие от традиционных манипуляций, сфокусированных на объектах и стиле, тексто-ориентированное редактирование изображений концентрируется на изменении, переводе или перестановке текстовых элементов, встроенных в изображения. Однако существующие ведущие модели часто испытывают трудности с точным выполнением сложного текстового редактирования, нередко создавая размытые или "галлюцинированные" символы. Мы связываем эти неудачи в первую очередь с отсутствием специализированных парадигм обучения, адаптированных для тексто-ориентированного редактирования, а также с нехваткой масштабируемых наборов данных и стандартизированных бенчмарков, необходимых для замкнутой системы обучения и оценки. Для решения этих проблем мы представляем WeEdit — системное решение, включающее масштабируемый конвейер создания данных, два бенчмарка и специальную двухэтапную стратегию обучения. В частности, мы предлагаем новый автоматизированный конвейер редактирования на основе HTML, который генерирует 330 тыс. учебных пар, охватывающих разнообразные операции редактирования и 15 языков, сопровождаемых стандартизированными двуязычными и многоязычными бенчмарками для комплексной оценки. На алгоритмической стороне мы используем контролируемую тонкую настройку с глиф-ориентированным руководством для внедрения явных пространственных и контентных априорных знаний, за которой следует этап обучения с подкреплением с множественными целями для согласования генерации с соблюдением инструкций, четкостью текста и сохранностью фона. Многочисленные эксперименты демонстрируют, что WeEdit превосходит предыдущие модели с открытым исходным кодом с существенным отрывом при выполнении разнообразных операций редактирования.
Унифицированные мультимодальные модели направлены на совместное понимание, рассуждение и генерацию, однако современные бенчмарки редактирования изображений в основном ограничены натуральными изображениями и поверхностными рассуждениями на основе здравого смысла, что не позволяет адекватно оценить эти возможности в условиях структурированных, предметно-ориентированных ограничений. В данной работе мы представляем GRADE — первый бенчмарк для оценки предметно-ориентированных знаний и рассуждений при редактировании изображений. GRADE включает 520 тщательно отобранных примеров из 10 академических областей, от естественных до социальных наук. Для обеспечения строгой оценки мы предлагаем многомерный протокол, совместно оценивающий предметные рассуждения, визуальную согласованность и логическую читаемость. Масштабные эксперименты с 20 передовыми открытыми и проприетарными моделями выявили существенные ограничения современных моделей в условиях неявного, насыщенного знаниями редактирования, что приводит к значительному разрыву в производительности. Помимо количественных оценок, мы проводим строгий анализ и абляции, чтобы выявить недостатки моделей и определить ограничения в рамках предметного редактирования. В совокупности GRADE определяет ключевые направления для будущего развития унифицированных мультимодальных моделей, продвигая исследования в области предметно-ориентированного редактирования изображений и рассуждений. Наш бенчмарк и код оценки публично доступны.
Трансформеры диффузии (DiT) демонстрируют высокое качество генерации, но жестко связывают объем вычислений (FLOPs) с разрешением изображения, ограничивая принципиальные компромиссы между задержкой и качеством, и равномерно распределяют вычисления по пространственным токенам, что приводит к растрате ресурсов на неважные области. Мы представляем Elastic Latent Interface Transformer (ELIT) — совместимый с DiT механизм «подстановки», который отделяет размер входного изображения от объема вычислений. Наш подход вводит латентный интерфейс — обучаемую последовательность токенов переменной длины, с которой могут работать стандартные трансформерные блоки. Легковесные кросс-аттеншн слои чтения и записи переносят информацию между пространственными токенами и латентными переменными, приоритезируя важные области входа. Благодаря обучению со случайным отбрасыванием хвостовых латентных переменных, ELIT учится создавать упорядоченные по важности представления, где начальные латентные переменные захватывают глобальную структуру, а последующие содержат информацию для уточнения деталей. На этапе вывода количество латентных переменных может динамически настраиваться в соответствии с вычислительными ограничениями. ELIT намеренно минималистичен: он добавляет два кросс-аттеншн слоя, оставляя неизменными цель ректифицированного потока и стек DiT. На различных наборах данных и архитектурах (DiT, U-ViT, HDiT, MM-DiT) ELIT обеспечивает стабильное улучшение. На ImageNet-1K 512px ELIT дает средний прирост в 35.3% и 39.6% по показателям FID и FDD соответственно. Страница проекта: https://snap-research.github.io/elit/
Ключевым компонентом креативности является ассоциативное мышление: способность устанавливать новые, но осмысленные связи между концепциями. Мы представляем CREATE — эталонный тест, разработанный для оценки способности моделей к творческому ассоциативному мышлению. CREATE требует от моделей генерации наборов путей, связывающих концепции в параметрическом знании модели. Пути должны обладать высокой специфичностью (уникальностью и теснотой связи концепций) и высоким разнообразием (несхожестью с другими путями), причем модели получают более высокие баллы, если они производят больший набор сильных и разнообразных путей. Эта задача разделяет требования реальных творческих задач, таких как генерация гипотез, включая чрезвычайно большое пространство поиска, но позволяет собрать масштабный эталонный тест с объективной оценкой ответов. Оценка передовых моделей показывает, что наиболее мощные модели достигают более высокой творческой полезности, чем другие, а высокая множественность ответов и сложность поиска затрудняют насыщение теста. Кроме того, наши результаты демонстрируют, что модели мышления не всегда эффективнее в нашей задаче, даже при высоких бюджетах токенов. Современные подходы к творческому промптингу дают некоторое, но ограниченное дополнительное улучшение. CREATE предоставляет песочницу для разработки новых методов повышения способности моделей к ассоциативной креативности.
Авторегрессионные (AR) модели генерации видео опираются на видео-токенизаторы, которые сжимают пиксели в дискретные последовательности токенов. Длина этих последовательностей токенов критически важна для балансировки качества реконструкции и вычислительных затрат на последующую генерацию. Традиционные видео-токенизаторы применяют единообразное распределение токенов ко временным блокам разных видео, зачастую растрачивая токены на простые, статичные или повторяющиеся сегменты, в то время как динамичные или сложные сегменты получают недостаточно токенов. Чтобы устранить эту неэффективность, мы представляем EVATok — фреймворк для создания эффективных адаптивных видео-токенизаторов. Наш фреймворк оценивает оптимальное распределение токенов для каждого видео для достижения наилучшего компромисса между качеством и затратами, разрабатывает легковесные маршрутизаторы для быстрого прогнозирования этих оптимальных распределений и обучает адаптивные токенизаторы, которые кодируют видео на основе распределений, предсказанных маршрутизаторами. Мы демонстрируем, что EVATok обеспечивает значительное улучшение эффективности и общего качества как для реконструкции видео, так и для последующей AR-генерации. Благодаря усовершенствованной методике обучения, интегрирующей семантические энкодеры видео, EVATok достигает превосходной реконструкции и передовых результатов в генерации видео по классам на наборе данных UCF-101, экономя в среднем не менее 24.4% токенов по сравнению с предыдущим state-of-the-art методом LARP и нашим базовым методом с фиксированной длиной.
Плотное описание изображений играет ключевую роль в кросс-модальном согласовании при предварительном обучении моделей «визуальный язык» и генерации изображений по тексту, однако масштабирование экспертных аннотаций оказывается чрезмерно дорогостоящим. Хотя синтетическое описание с помощью мощных моделей «визуальный язык» (VLMs) представляет собой практическую альтернативу, контролируемое дистилляционное обучение часто приводит к ограниченному разнообразию выходных данных и слабой обобщающей способности. Обучение с подкреплением (RL) могло бы преодолеть эти ограничения, но его успехи до сих пор были сосредоточены в верифицируемых областях, опирающихся на детерминированные проверяющие системы — роскошь, недоступная для открытого описания. Мы устраняем это узкое место с помощью RubiCap, новой RL-архитектуры, которая извлекает детализированные, специфичные для выборки сигналы вознаграждения из рубрик, составленных большими языковыми моделями (LLM). Сначала RubiCap формирует разнообразный комитет кандидатных описаний, затем использует LLM-составитель рубрик для выявления сильных сторон консенсуса и диагностики недостатков текущей политики. Эти данные преобразуются в явные критерии оценки, позволяя LLM-субъекту декомпозировать холистическую оценку качества и заменять грубые скалярные вознаграждения структурированными, многогранными оценками. В обширных тестах RubiCap демонстрирует наивысшие показатели успеха на CapArena, превосходя контролируемую дистилляцию, предыдущие RL-методы, экспертные аннотации человека и выходные данные, усиленные GPT-4V. На CaptionQA модель показывает превосходную лексическую эффективность: наша модель объемом 7B соответствует показателям Qwen2.5-VL-32B-Instruct, а наша модель объемом 3B превосходит ее 7B аналог. Примечательно, что использование компактной RubiCap-3B в качестве генератора описаний позволяет создавать более качественные предобученные VLMs по сравнению с моделями, обученными на описаниях от проприетарных моделей.
В последнее время мультимодальные большие языковые модели (MБЯМ) широко интегрируются в диффузионные архитектуры, в основном в качестве текстовых энкодеров, для решения сложных задач, таких как пространственные рассуждения. Однако данная парадигма страдает от двух существенных ограничений: (i) Текстовый энкодер МБЯМ демонстрирует недостаточную глубину рассуждений. Одношаговое кодирование не активирует процесс цепочки мыслей (Chain-of-Thought), который необходим МБЯМ для предоставления точных указаний при решении сложных задач. (ii) Руководство остается неизменным в процессе декодирования. Неизменность руководства во время декодирования не позволяет диффузионному трансформеру (DiT) прогрессивно декомпозировать сложные инструкции на выполнимые шаги шумоподавления, даже при наличии корректных кодировок от МБЯМ. Для решения этих проблем мы предлагаем Эндогенную Цепочку Мыслей (EndoCoT) — новую архитектуру, которая, во-первых, активирует потенциал рассуждений МБЯМ путем итеративного уточнения латентных состояний мысли с помощью модуля итеративного мысленного руководства, а затем связывает эти состояния с процессом шумоподавления в DiT. Во-вторых, применяется модуль терминального закрепления мысли, который обеспечивает привязку траектории рассуждений к текстовой супервизии путем выравнивания конечного состояния с верными ответами. Благодаря этим двум компонентам текстовый энкодер МБЯМ предоставляет тщательно продуманные указания, позволяя DiT выполнять их прогрессивно и, в конечном счете, решать сложные задачи пошагово. Обширные оценки на различных наборах данных (например, Maze, TSP, VSP и Sudoku) показали среднюю точность 92.1%, что на 8.3 процентных пункта превышает результат сильнейшего базового метода.
Современные визуальные агенты требуют репрезентаций, обладающих общностью, причинностью и физической структурой для работы в реальном времени в потоковых средах. Однако современные фоновые модели компьютерного зрения остаются разрозненными, узко специализируясь на семантическом восприятии изображений, офлайн-моделировании временных зависимостей или пространственной геометрии. В данной статье представлена OmniStream — унифицированная потоковая визуальная основа, которая эффективно воспринимает, реконструирует и действует на основе разнородных визуальных входных данных. Благодаря включению причинно-следственного пространственно-временного внимания и 3D ротационных позиционных эмбеддингов (3D-RoPE), наша модель поддерживает эффективную пошаговую онлайн-обработку видеопотоков с использованием постоянного KV-кэша. Мы проводим предварительное обучение OmniStream с помощью синергетической мультизадачной структуры, сочетающей статическое и временное обучение репрезентаций, потоковую геометрическую реконструкцию и согласование «визуальный язык» на 29 наборах данных. Обширные оценки показывают, что даже при строго замороженной основе OmniStream демонстрирует стабильно конкурентоспособные результаты со специализированными экспертами в задачах probing изображений и видео, потоковой геометрической реконструкции, сложного видео- и пространственного мышления, а также роботизированного манипулирования (не встречавшегося при обучении). Вместо стремления к доминированию в конкретных бенчмарках наша работа демонстрирует возможность обучения единой универсальной визуальной основы, которая обобщается на семантические, пространственные и временные рассуждения, то есть представляет собой более значимый шаг к системе общего назначения для визуального понимания интерактивными и воплощенными агентами.
3D-гауссово размытие (3DGS) стало мощным представлением для высококачественной визуализации в широком спектре приложений. Однако его высокие вычислительные требования и значительные затраты на хранение данных создают серьезные проблемы для развертывания на мобильных устройствах. В данной работе мы предлагаем метод гауссова размытия в реальном времени, адаптированный для мобильных платформ, под названием Mobile-GS, который позволяет эффективно выполнять вывод гауссова размытия на периферийных устройствах. В частности, мы сначала выявляем альфа-смешение как основное вычислительное узкое место, поскольку оно зависит от трудоемкого процесса сортировки гауссовых примитивов по глубине. Для решения этой проблемы мы предлагаем схему рендеринга, не зависящую от порядка, но учитывающую глубину, которая устраняет необходимость в сортировке, тем самым значительно ускоряя визуализацию. Хотя такой рендеринг, не зависящий от порядка, повышает скорость, он может приводить к артефактам прозрачности в областях с перекрывающейся геометрией из-за отсутствия определенного порядка отрисовки. Чтобы устранить эту проблему, мы предлагаем стратегию нейросетевого улучшения с учетом вида, которая позволяет более точно моделировать зависящие от точки наблюдения эффекты, обусловленные направлением обзора, геометрией 3D-гауссовых примитивов и атрибутами внешнего вида. Таким образом, Mobile-GS позволяет достичь как высокого качества, так и рендеринга в реальном времени. Кроме того, для облегчения развертывания на мобильных платформах с ограниченной памятью мы также вводим дистилляцию сферических гармоник первого порядка, технику нейросетевого векторного квантования и стратегию прореживания на основе вклада для сокращения количества гауссовых примитивов и сжатия представления 3D-гауссовых функций с помощью нейронных сетей. Многочисленные эксперименты показывают, что наш метод Mobile-GS обеспечивает рендеринг в реальном времени и компактный размер модели при сохранении высокого визуального качества, что делает его хорошо подходящим для мобильных приложений.
Крупные языковые модели, обученные на естественном языке, демонстрируют выраженную анизотропию: небольшое количество направлений концентрирует непропорционально большую энергию, в то время как остальные измерения образуют широкий семантический "хвост". В режимах низкоразрядного обучения эта геометрия становится численно нестабильной. Поскольку коэффициенты масштабирования при поблочном квантовании определяются экстремальными поэлементными величинами, доминирующие направления растягивают динамический диапазон, сжимая вариации семантического "хвоста" в узкие численные интервалы. Мы показываем, что эта нестабильность в основном обусловлена когерентным смещением среднего значения ранга один, которое составляет доминирующий компонент спектральной анизотропии в представлениях LLM. Этот компонент среднего значения систематически возникает across слоями и этапами обучения и объясняет большинство экстремальных величин активаций, что делает его главным драйвером инфляции динамического диапазона при низкой точности. Ключевым моментом является то, что, поскольку доминирующая нестабильность имеет ранг один, её можно устранить с помощью простой операции вычитания среднего на уровне источника. Такая обусловленность, ориентированная на смещение, восстанавливает большую часть преимуществ стабильности спектральных методов на основе SVD, требуя только операций редукции и стандартных процедур квантования. Эмпирические результаты обучения с FP4 (W4A4G4) показывают, что удаление среднего значения существенно сокращает разрыв в потере по сравнению с BF16 и восстанавливает производительность на downstream-задачах, предоставляя аппаратно-эффективный путь к стабильному низкоразрядному обучению LLM.
В данной работе представлена MR-Search — методология контекстного мета-обучения с подкреплением (RL) для агентного поиска с саморефлексией. В отличие от оптимизации политики в рамках единичного независимого эпизода с разреженными вознаграждениями, MR-Search обучает политику, которая учитывает предыдущие эпизоды и адаптирует стратегию поиска между эпизодами. MR-Search обучается стратегии поиска с саморефлексией, позволяя поисковым агентам улучшать контекстное исследование во время тестирования. В частности, MR-Search осуществляет межэпизодное исследование, генерируя явные саморефлексии после каждого эпизода и используя их в качестве дополнительного контекста для руководства последующими попытками, что способствует более эффективному исследованию в тестовом режиме. Мы также представляем многошаговый RL-алгоритм, который оценивает плотное относительное преимущество на уровне шага, обеспечивая точное распределение заслуг для каждого эпизода. Экспериментальные результаты на различных бенчмарках демонстрируют преимущества MR-Search по сравнению с базовыми RL-подходами, показывая высокую обобщающую способность и относительное улучшение от 9,2% до 19,3% на восьми бенчмарках. Наш код и данные доступны по адресу https://github.com/tengxiao1/MR-Search.
На практике визуально-языковые модели часто сталкиваются с помехами, такими как погодные условия, окклюзии и движение камеры. В таких условиях их способность к пониманию и рассуждению значительно ухудшается, что выявляет разрыв между чистыми контролируемыми (т.е. незашумленными) условиями оценки и реальной устойчивостью. Для преодоления этого ограничения мы предлагаем ROVA — новую структуру обучения, которая повышает робастность за счет моделирования согласованного вознаграждения, учитывающего устойчивость, в условиях пространственно-временных искажений. ROVA внедряет стратегию онлайн-обучения с учетом сложности, которая приоритизирует информативные примеры на основе эволюционирующих возможностей модели. В частности, она непрерывно переоценивает сложность примеров с помощью саморефлексивной оценки, обеспечивая адаптивное обучение с согласованным вознаграждением, ориентированным на устойчивость. Мы также представляем PVRBench — новый бенчмарк, который вносит реалистичные помехи в эмбеддед-видеоданные для оценки как точности, так и качества рассуждений в условиях реальных искажений. Мы оцениваем ROVA и базовые модели на PVRBench, UrbanVideo и VisBench, где модели с открытым исходным кодом и проприетарные модели демонстрируют снижение точности и качества рассуждений до 35% и 28% соответственно при реалистичных помехах. ROVA эффективно снижает деградацию производительности, повышая относительную точность не менее чем на 24% и качество рассуждений более чем на 9% по сравнению с базовыми моделями (QWen2.5/3-VL, InternVL2.5, Embodied-R). Эти улучшения переносятся на чистые стандартные бенчмарки, обеспечивая стабильный прогресс.
Хотя большие языковые модели (LLМ) достигли значительных успехов в генерации кода, они часто испытывают трудности с глубокими, долгосрочными рассуждениями, необходимыми для сложной разработки программного обеспечения. Мы объясняем это ограничение природой стандартных данных предварительного обучения: статические репозитории программного кода представляют лишь конечное состояние сложного интеллектуального процесса, абстрагируясь от промежуточного планирования, отладки и итерационного улучшения. Чтобы преодолеть этот разрыв, мы предлагаем новую парадигму: понимание через реконструкцию. Мы выдвигаем гипотезу, что реверс-инжиниринг скрытых агентных траекторий — шагов планирования, рассуждений и отладки, — стоящих за статическими репозиториями, дает гораздо более богакий сигнал обучения, чем просто исходный код. Для реализации этого мы представляем фреймворк, который синтезирует эти траектории с использованием мульти-агентной симуляции. Этот процесс основан на структурных особенностях исходных репозиториев (например, графах зависимостей и иерархиях файлов) для обеспечения достоверности. Кроме того, для гарантии логической строгости синтетических данных мы применяем поисковую методику оптимизации, которая итеративно улучшает цепочку рассуждений (Chain-of-Thought, CoT), чтобы максимизировать правдоподобие эталонного кода. Экспериментальные результаты показывают, что непрерывное предварительное обучение на этих реконструированных траекториях значительно повышает производительность модели Llama-3-8B в различных тестах, включая понимание длинного контекста, proficiency в программировании и агентные возможности.
Акцент является неотъемлемой частью общества, отражая мультикультурализм и формируя способы выражения индивидуальной идентичности. Большинство говорящих на английском языке являются неносителями (L2), однако современные системы преобразования текста в речь (TTS) в основном моделируют английский с американским акцентом из-за ограниченности данных по акцентированной речи. Мы предлагаем Accent Vector — управляемое представление, которое позволяет манипулировать акцентом в многоязычных TTS-системах без необходимости в обучающих данных с акцентами. Accent Vector получается путем дообучения TTS-системы на речи носителей другого языка (т.е. не английского) и вычисления векторов задач, фиксирующих характеристики акцента (например, в английском). Масштабируя и интерполируя вектор, мы достигаем точного контроля над силой акцента и генерируем речь со смешанными акцентами. Кроме того, метод обобщается за пределы английского языка, обеспечивая контроль акцента в нескольких языках. Объективные и субъективные оценки подтверждают эффективность Accent Vector для точного и композиционного управления акцентом.
Рассудочные языковые модели в роли судей, способные использовать масштабирование на этапе вывода, открывают перспективный путь для распространения успеха рассудочных моделей на неверифицируемые области, где корректность/качество выходных данных невозможно проверить напрямую. Однако, хотя рассудочные судьи продемонстрировали лучшую производительность на статических бенчмарках оценки, их эффективность в реальном обучении политик не была систематически исследована. Поэтому мы проводим строгое исследование для изучения фактического влияния нерассудочных и рассудочных судей на выравнивание языковых моделей, основанное на обучении с подкреплением. Наша контролируемая синтетическая установка, в которой «золотой стандарт» судьи (gpt-oss-120b) предоставляет аннотации предпочтений для обучения меньших судей, выявляет ключевые различия между ними: нерассудочные судьи легко приводят к взлому вознаграждения, тогда как рассудочные судьи могут приводить к политикам, которые демонстрируют высокую производительность при оценке золотым стандартом. Интересно, что мы обнаруживаем, что политики, обученные с рассудочными судьями, достигают такой высокой производительности, обучаясь генерировать высокоэффективные adversarial-выходы, которые также могут хорошо оцениваться на популярных бенчмарках, таких как Arena-Hard, обманывая других судей-моделей. В сочетании с нашим дальнейшим анализом, наше исследование подчеркивает как важные выводы, так и возможности для улучшения применения (рассудочных) судей-моделей в неверифицируемой пост-обработке языковых моделей.
Перевод сложных сред обучения с подкреплением (RL) в высокопроизводительные реализации традиционно требовал месяцев специализированной инженерии. Мы представляем переиспользуемый рецепт — универсальный шаблон промпта, иерархическую верификацию и итеративный агент-ассистируемый ремонт, — который позволяет создавать семантически эквивалентные высокопроизводительные среды менее чем за $10 вычислительных затрат. Мы демонстрируем три различных рабочих процесса на примере пяти сред. **Прямой перевод** (когда высокопроизводительная реализация отсутствует): EmuRust (ускорение PPO в 1.5 раза за счет параллелизма на Rust для эмулятора Game Boy) и PokeJAX — первый GPU-параллельный симулятор битв в Pokemon (500 млн шагов в секунду (SPS) для случайных действий, 15.2 млн SPS для PPO; в 22 320 раз быстрее эталонной реализации на TypeScript). **Перевод, верифицированный против существующих высокопроизводительных реализаций**: паритет пропускной способности с MJX (1.04x) и пятикратное превосходство над Brax при сопоставимых размерах GPU-пакетов (HalfCheetah JAX); 42-кратное ускорение PPO (Puffer Pong). **Создание новой среды**: TCGJax — первый развертываемый движок Pokemon TCG на JAX (717 тыс. SPS для случайных действий, 153 тыс. SPS для PPO; в 6.6 раз быстрее эталонной реализации на Python), синтезированный из спецификации, извлеченной из веб-источников. При размере модели в 200 млн параметров накладные расходы среды составляют менее 4% времени обучения. Иерархическая верификация (тесты свойств, взаимодействий и прогонов) подтверждает семантическую эквивалентность для всех пяти сред; передача политик между бэкендами подтверждает нулевой разрыв между симуляторами для всех пяти сред. TCGJax, синтезированный из приватного эталона, отсутствующего в публичных репозиториях, служит контролем заражения данных для предобучения агентов. Статья содержит достаточно деталей — включая репрезентативные промпты, методологию верификации и полные результаты, — чтобы агент программирования мог воспроизвести переводы непосредственно из рукописи.
Крупномасштабная визуальная генерация, которая синтезирует детализированные визуальные образцы из деградированных или низкокачественных грубых референсов, играет ключевую роль в различных практических приложениях. Хотя подходы, основанные на обучении, эффективны, они изначально ограничены высокими вычислительными затратами на тренировку и ограниченной обобщающей способностью из-за необходимости сбора парных данных. В связи с этим, в последних работах, не требующих обучения, предлагается использовать предобученные диффузионные модели и внедрять управляющие воздействия в процессе сэмплирования. Однако эти методы либо требуют знания прямого (от детального к грубому) оператора преобразования, например, бикубической интерполяции вниз, либо испытывают трудности с балансировкой между управлением и качеством синтеза. Для решения этих проблем мы предлагаем новый метод управления с использованием h-преобразования — инструмента, позволяющего ограничивать стохастические процессы (например, процесс сэмплирования) заданными условиями. Конкретно, мы модифицируем переходную вероятность на каждом шаге сэмплирования, добавляя к исходному дифференциальному уравнению функцию сноса, которая приближенно направляет генерацию в сторону идеального детализированного образца. Для компенсации неизбежных ошибок аппроксимации мы вводим расписание, учитывающее уровень шума, которое постепенно уменьшает вес соответствующего члена по мере роста ошибки, обеспечивая как соблюдение управляющих условий, так и высокое качество синтеза. Многочисленные эксперименты в различных задачах генерации изображений и видео демонстрируют эффективность и обобщающую способность нашего метода.
Недавние исследования синтезируют агентные задачи для посттренинговых LLM, использующих инструменты, однако устойчивая обобщающая способность при сдвигах в задачах и наборах инструментов остается открытой проблемой. Мы связываем эту хрупкость с недостаточным разнообразием синтезированных задач. Масштабирование разнообразия затруднено, поскольку обучение требует, чтобы задачи оставались исполняемыми и проверяемыми, в то время как обобщение требует охвата различных типов инструментов, комбинаций их наборов и гетерогенных паттернов их использования. Мы предлагаем DIVE, основанный на данных рецепт, который инвертирует порядок синтеза: сначала исполняются разнообразные инструменты из реального мира, а затем обратно выводятся задачи, строго следующие из результирующих трасс, обеспечивая тем самым обоснованность по построению. DIVE масштабирует структурное разнообразие по двум контролируемым осям — охвату пула инструментов и вариативности набора инструментов на задачу, а цикл «Сбор данных — Вывод задач» дополнительно индуцирует богатые многошаговые паттерны использования инструментов для 373 инструментов в пяти доменах. Обучение Qwen3-8B на данных DIVE (48к SFT + 3.2к RL) улучшает средний результат на +22 пункта по 9 OOD-бенчмаркам и превосходит сильнейшую 8B-базовую модель на +68. Примечательно, что контролируемый анализ масштабирования показывает, что масштабирование разнообразия последовательно превосходит масштабирование количества данных для OOD-обобщения, даже при использовании в 4 раза меньшего объема данных.
Модель Tiny Aya переопределяет возможности компактных многоязычных языковых моделей. Обученная на 70 языках и дообученная с учетом региональных особенностей, она демонстрирует передовое качество перевода, мощное многоязычное понимание и генерацию текстов высокого качества на целевом языке, имея всего 3.35 миллиарда параметров. В выпуск вошли предобученная базовая модель, глобально сбалансированная версия, настроенная на инструкции, и три регионально-специализированные модели для языков Африки, Южной Азии, Европы, Азиатско-Тихоокеанского региона и Западной Азии. В данном отчете детально описываются стратегия обучения, состав данных и комплексная система оценки Tiny Aya, а также предлагается альтернативный путь масштабирования многоязычного ИИ, ориентированный на эффективность, сбалансированную производительность для разных языков и практическое развертывание.
Стандартная дистилляция больших языковых моделей неэффективно расходует вычислительные ресурсы в двух аспектах: на задачах, которые студенческая модель уже освоила (близкие к нулю градиенты), и на задачах, далеко превосходящих её текущие возможности (некогерентные градиенты, разрушающие существующие навыки). Мы демонстрируем, что эти потери не просто интуитивно очевидны, но структурно неизбежны: отношение сигнал-шум градиента при дистилляции теоретически исчезает на обоих крайних значениях уровня успешности. Это теоретическое наблюдение приводит к методу Paced — фреймворку, который концентрирует дистилляцию в зоне ближайшего развития, то есть на границе компетенции студенческой модели, с помощью принципиально обоснованного весового коэффициента w(p) = p^α(1 - p)^β, выведенного из структуры затухания градиентов на границах. Ключевые результаты: (1) Теория: Мы доказываем, что бета-ядро w(p) = p^α(1-p)^β является ведущим семейством весов, возникающим из структуры ОСШ при дистилляции, и что оно робастно в минимаксном смысле — при ограниченной мультипликативной спецификации худшие потери эффективности составляют лишь O(δ^2). (2) Дистилляция: При дистилляции от более крупной учительской модели к меньшей студенческой с использованием прямого KL-расхождения метод Paced обеспечивает значительный прирост качества относительно базовой модели при низком уровне забывания на контрольных задачах. (3) Само-дистилляция: Для инструктивно-обученных моделей с обратным KL-расхождением метод также превосходит базовые подходы. (4) Синергия двухэтапного обучения: График «прямой KL → обратный KL» дает наилучшие результаты в нашей постановке, достигая существенного улучшения на стандартных тестах логического вывода — что подтверждает интерпретацию дистилляции как процесса последовательного охвата мод и их консолидации. Все конфигурации требуют лишь сэмплирования студенческой модели для оценки уровня успешности, не нуждаются в изменении архитектуры и совместимы с любым направлением KL-расхождения.
Мы представляем FireRedASR2S — передовую промышленную все-в-одном систему автоматического распознавания речи (ASR). Она объединяет четыре модуля в единый конвейер: ASR, детектирование речевой активности (VAD), идентификация языка речи (LID) и предсказание пунктуации (Punc). Все модули демонстрируют наилучшие результаты (SOTA) на оцениваемых эталонных наборах данных. FireRedASR2: Модуль ASR с двумя вариантами, FireRedASR2-LLM (8B+ параметров) и FireRedASR2-AED (1B+ параметров), поддерживающий транскрипцию речи и пения для путунхуа, китайских диалектов и акцентов, английского языка и код-свитчинга. По сравнению с FireRedASR, FireRedASR2 обеспечивает повышенную точность распознавания и более широкий охват диалектов и акцентов. FireRedASR2-LLM достигает 2.89% среднего CER на 4 публичных бенчмарках для путунхуа и 11.55% на 19 публичных бенчмарках для китайских диалектов и акцентов, превосходя конкурирующие базовые уровни, включая Doubao-ASR, Qwen3-ASR и Fun-ASR. FireRedVAD: Сверхлегкий модуль (0.6M параметров) на основе Deep Feedforward Sequential Memory Network (DFSMN), поддерживающий потоковое VAD, непотоковое VAD и многометочное VAD (mVAD). На бенчмарке FLEURS-VAD-102 он достигает 97.57% F1 на уровне фреймов и 99.60% AUC-ROC, превосходя Silero-VAD, TEN-VAD, FunASR-VAD и WebRTC-VAD. FireRedLID: Модуль LID типа Encoder-Decoder, поддерживающий 100+ языков и 20+ китайских диалектов и акцентов. На FLEURS (82 языка) он достигает 97.18% точности на уровне высказывания, превосходя Whisper и SpeechBrain. FireRedPunc: Модуль предсказания пунктуации в стиле BERT для китайского и английского языков. На многодоменных бенчмарках он достигает 78.90% среднего F1, превосходя FunASR-Punc (62.77%). Для содействия исследованиям в области обработки речи мы публикуем веса моделей и код по адресу https://github.com/FireRedTeam/FireRedASR2S.
Латентные диффузионные модели установили новый эталон в области генерации высококачественных изображений. Интеграция априорных знаний Vision Foundation Models (VFM) повышает эффективность генерации, однако существующие латентные архитектуры остаются в значительной степени эвристическими. Эти подходы часто не способны объединить семантическую различимость, точность реконструкции и компактность латентного представления. В данной статье мы предлагаем Геометрический Автокодировщик (GAE) — принципиальную框架у, которая системно решает эти задачи. Анализируя различные парадигмы выравнивания, GAE конструирует оптимизированную низкоразмерную цель семантического обучения на основе VFM для управления автокодировщиком. Кроме того, мы используем латентную нормализацию, заменяющую ограничивающую KL-дивергенцию стандартных VAEs, что обеспечивает более стабильное латентное многообразие, специально оптимизированное для обучения диффузии. Для обеспечения устойчивой реконструкции при интенсивном шуме GAE включает механизм динамического сэмплирования шума. Экспериментально GAE демонстрирует выдающиеся результаты на benchmark ImageNet-1K 256×256, достигая gFID 1.82 всего за 80 эпох и 1.31 за 800 эпох без Classifier-Free Guidance, значительно превосходя современные методы. Помимо качества генерации, GAE устанавливает превосходный баланс между сжатием, семантической глубиной и устойчивостью реконструкции. Эти результаты подтверждают наши проектные решения, предлагая перспективную парадигму для латентного диффузионного моделирования. Код и модели доступны по адресу https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
Предварительное обучение играет ключевую роль для больших языковых моделей (LLM), поскольку именно в этот период формируется большинство репрезентаций и способностей. Однако у предварительного обучения на естественном языке есть проблемы: высококачественные тексты ограничены, они содержат человеческие предубеждения и переплетают знания с логическими рассуждениями. Это поднимает фундаментальный вопрос: является ли естественный язык единственным путем к интеллекту? Мы предлагаем использовать нейронные клеточные автоматы (NCA) для генерации синтетических нелингвистических данных для предварительного предобучения LLM — обучения сначала на синтетическом, а затем на естественном языке. Данные NCA демонстрируют богатую пространственно-временную структуру и статистику, сходную с естественным языком, при этом они управляемы и дешевы в массовом生成. Мы обнаружили, что предварительное предобучение всего на 164 млн токенов NCA улучшает последующее языковое моделирование до 6% и ускоряет сходимость до 1,6 раза. Удивительно, но это превосходит даже предварительное предобучение на 1,6 млрд токенов естественного языка из Common Crawl с большими вычислительными затратами. Эти преимущества также переносятся на тесты логических рассуждений, включая GSM8K, HumanEval и BigBench-Lite. Исследуя причины переноса, мы выяснили, что слои внимания являются наиболее переносимыми, а оптимальная сложность NCA варьируется в зависимости от домена: код выигрывает от более простой динамики, тогда как математика и веб-тексты предпочитают более сложную. Эти результаты позволяют систематически настраивать синтетическое распределение под целевые домены. В более широком смысле наша работа открывает путь к созданию более эффективных моделей с полностью синтетическим предварительным обучением.
Мультимодальные большие языковые модели (MLLM) широко применяются в качестве «MLLM-как-оценщиков» благодаря их высокой согласованности с человеческими суждениями в различных визуальных задачах. Однако большинство существующих моделей-оценщиков оптимизированы для сценариев с единичной задачей и с трудом обобщаются на разнообразные контексты, что является критически важным требованием для надежной оценки. Для преодоления этого ограничения мы предлагаем фреймворк Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), который совместно оптимизирует модель-оценщик для множества задач, используя способности к обобщению, присущие обучению с подкреплением (RL). Результаты экспериментов в сравнении с несколькими сильными базовыми методами демонстрируют, что MT-RL-Judge превосходит их как по согласованности оценок, так и по корреляции с человеческими предпочтениями. Кроме того, наш подход демонстрирует robustную обобщающую способность на задачах с выходом из распределения данных, что дополнительно подтверждает его эффективность.
Модели диффузии для генерации аудио по тексту создают аудио высокой точности, но требуют десятков вычислений функции (NFE), что приводит к задержкам в несколько секунд и ограниченной пропускной способности. Мы представляем SoundWeaver — первую бестренировочную, модельно-агностическую систему обслуживания, которая ускоряет текстово-аудиальную диффузию за счет "теплого старта" от семантически схожего кэшированного аудио. SoundWeaver включает три компонента: Селектор ссылок, который извлекает и временно выравнивает кэшированные кандидаты через семантические и длительностные механизмы; Скип-гейт, который динамически определяет процент пропускаемых NFE; и легковесный Менеджер кэша, который поддерживает полезность кэша за счет учитывающего качество вытеснения и уточнения. На реальных аудиотреках SoundWeaver достигает снижения задержки в 1,8–3,0 раза при размере кэша всего около 1 тыс. записей, сохраняя или улучшая перцептивное качество.
Предобучение формирует вектор изученных параметров, который обычно рассматривается как отправная точка для последующей итеративной адаптации. В данной работе мы предлагаем альтернативный взгляд, рассматривая результат предобучения как распределение над векторами параметров, носитель которого уже содержит экспертные решения для конкретных задач. Мы показываем, что в небольших моделях такие экспертные решения занимают ничтожную долю объёма этого распределения, что делает их обнаружение зависимым от структурированных методов оптимизации, таких как градиентный спуск. Напротив, в крупных, хорошо предобученных моделях плотность экспертных решений резко возрастает, так что разнообразные специализированные решения, улучшающие выполнение задач, заполняют значительную часть окрестности предобученных весов. Руководствуясь этим подходом, мы исследуем простой, полностью параллельный метод постобработки, который случайным образом выбирает N возмущений параметров, отбирает K лучших и усредняет предсказания с помощью мажоритарного голосования. Несмотря на свою простоту, данный метод конкурирует со стандартными методами постобработки, такими как PPO, GRPO и ES, для современных крупномасштабных моделей.
Непрерывное обучение с подкреплением (CRL) для моделей «зрение–язык–действие» (VLA) — это перспективное направление для создания самосовершенствующихся воплощенных агентов, способных адаптироваться в открытых, эволюционирующих средах. Однако общепринятые представления о непрерывном обучении предполагают, что наивная последовательная тонкая настройка (Seq. FT) приводит к катастрофическому забыванию, что требует применения сложных стратегий CRL. В данной работе мы делаем шаг назад и проводим систематическое исследование CRL для крупных предварительно обученных VLA-моделей на примере трех архитектур и пяти сложных бенчмарков обучения с подкреплением в течение жизненного цикла. Мы обнаруживаем, что, вопреки устоявшемуся мнению, простая Seq. FT с низкоранговой адаптацией (LoRA) демонстрирует remarkably высокую эффективность: она обеспечивает высокую пластичность, проявляет незначительное или полное отсутствие забывания и сохраняет сильную способность к обобщению «с нуля», часто превосходя более сложные методы CRL. Благодаря детальному анализу мы показываем, что эта устойчивость возникает благодаря синергии между крупной предварительно обученной моделью, параметрически эффективной адаптацией и обучением с подкреплением на стратегии. В совокупности эти компоненты изменяют компромисс между стабильностью и пластичностью, делая непрерывную адаптацию как стабильной, так и масштабируемой. Наши результаты позиционируют последовательную тонкую настройку как мощный метод для непрерывного обучения с подкреплением с VLA-моделями и дают новое понимание обучения в течение жизненного цикла в эпоху больших моделей. Код доступен по адресу github.com/UT-Austin-RobIn/continual-vla-rl.
Мы предлагаем метод нейронной полевой термотомографии (NeFTY) — дифференцируемую физическую структуру для количественного 3D-восстановления материальных свойств по данным измерений нестационарной температуры на поверхности. В то время как традиционная термография опирается на покомпонентные одномерные приближения, пренебрегающие латеральной диффузией, а мягко ограниченные нейронные сети с физической информированностью (PINN) часто не справляются в сценариях нестационарной диффузии из-за жесткости градиентов, NeFTY параметризует 3D-поле диффузии как непрерывное нейронное поле, оптимизируемое с помощью строгого численного решателя. Используя дифференцируемый физический решатель, наш подход обеспечивает выполнение законов термодинамики как жестких ограничений, сохраняя при этом эффективность использования памяти, необходимую для высокоразрешающей 3D-томографии. Наша парадигма «дискретизировать, затем оптимизировать» эффективно смягчает спектральное смещение и некорректность, присущие обратной задаче теплопроводности, позволяя восстанавливать подповерхностные дефекты произвольного масштаба. Экспериментальная проверка на синтетических данных демонстрирует, что NeFTY существенно повышает точность локализации подповерхностных дефектов по сравнению с базовыми методами. Дополнительные детали доступны по адресу https://cab-lab-princeton.github.io/nefty/
Физически обоснованное управление гуманоидами достигло значительного прогресса в создании реалистичного и высокоэффективного поведения одиночных агентов, однако расширение этих возможностей на кооперативное взаимодействие "человек-объект" (Human-Object Interaction, HOI) остается сложной задачей. Мы представляем TeamHOI — фреймворк, который позволяет единой децентрализованной политике управлять кооперативными HOI для любого числа взаимодействующих агентов. Каждый агент функционирует на основе локальных наблюдений, одновременно координируясь с другими членами команды через трансформерную политическую сеть с использованием токенов агентов, что обеспечивает масштабируемую координацию при переменном размере команды. Для обеспечения реалистичности движений в условиях дефицита данных по кооперативному HOI мы дополнительно вводим стратегию маскированного состязательного априори движений (Adversarial Motion Prior, AMP), которая использует эталонные движения одиночного человека, маскируя взаимодействующие с объектом части тела во время обучения. Маскированные области затем направляются с помощью целевых вознаграждений для генерации разнообразного и физически правдоподобного кооперативного поведения. Мы оцениваем TeamHOI на сложной задаче кооперативного переноса объектов, включающей от двух до восьми гуманоидных агентов и объекты различной геометрии. Наконец, для обеспечения устойчивого переноса мы разрабатываем универсальное вознаграждение за формирование строя, не зависящее от размера команды и формы объекта. TeamHOI демонстрирует высокие показатели успешности и слаженное кооперативное поведение в разнообразных конфигурациях с использованием единой политики.
Мы представляем NerVE — унифицированный спектральный фреймворк для анализа того, как прямые сети (FFN) в больших языковых моделях (LLM) организуют и регулируют поток информации в высокоразмерном латентном пространстве. Несмотря на то, что FFN составляют основную долю параметров, их высокоразмерная динамика остаётся слабо изученной. NerVE восполняет этот пробел за счёт лёгкого и эффективного по памяти отслеживания динамики спектра через четыре взаимодополняющих метрики: спектральная энтропия (дисперсия), коэффициент участия (эффективная размерность), раннее обогащение собственными значениями (топ-тяжесть) и дивергенция Дженсена-Шеннона (распределительные сдвиги). Наше ключевое наблюдение заключается в том, что нелинейности FFN перераспределяют дисперсию между собственными модами, фундаментально управляя использованием латентных измерений, а геометрия оптимизатора существенно модулирует степень этого перераспределения. Мы проверяем NerVE на моделях разного масштаба и в разнообразных архитектурных конфигурациях и настройках оптимизатора, каждая из которых уникально влияет на динамику FFN: схемы нормализации контролируют поток дисперсии; геометрия весов FFN ограничивает латентное пространство; позиционные кодировки и функции активации регулируют поток информации; а выбор оптимизатора перераспределяет эффективную ёмкость по глубине сети. Во всех этих условиях NerVE стабильно выявляет спектральные сигнатуры, которые коррелируют со способностью модели к обобщению и предсказуемо реагируют на выбор проектных решений, обобщаясь за пределы трансформеров на архитектуры MLP-Mixer и предоставляя практические инсайты для выбора архитектуры и оптимизатора, выходящие за рамки метода проб и ошибок.
Федеративная языковая модель (FedLM) позволяет осуществлять совместное обучение без обмена исходными данными, однако она создает критическую уязвимость, поскольку каждый ненадежный клиент может раскрыть полученный экземпляр функциональной модели. Современные схемы водяных знаков для FedLM часто требуют белого доступа и сотрудничества на стороне клиента, обеспечивая лишь групповое подтверждение прав собственности вместо индивидуальной отслеживаемости. Мы предлагаем EmbTracker — отслеживаемую серверную структуру черного ящика для нанесения водяных знаков, специально разработанную для федеративных языковых моделей. EmbTracker достигает верифицируемости черного ящика путем внедрения водяного знака на основе бэкдора, который обнаруживается с помощью простых API-запросов. Поэтапная отслеживаемость реализуется за счет внедрения уникальных водяных знаков, специфичных для идентификатора, в модель, распространяемую каждому клиенту. Таким образом, утечка модели может быть приписана конкретному виновнику, что обеспечивает устойчивость даже против несотрудничающих участников. Многочисленные эксперименты на различных языковых и визуально-языковых моделях демонстрируют, что EmbTracker обеспечивает надежную отслеживаемость с уровнем верификации, близким к 100%, высокую устойчивость к атакам на удаление (тонкая настройка, прунинг, квантование) и незначительное влияние на производительность основных задач (обычно в пределах 1-2%).
Аудиовизуальное распознавание речи (AVSR) использует как акустическую, так и визуальную информацию для обеспечения устойчивого распознавания в условиях шума. Однако то, как модели балансируют эти модальности, остается неясным. Мы представляем Dr. SHAP-AV — фреймворк, использующий значения Шепли для анализа вклада модальностей в AVSR. В ходе экспериментов с шестью моделями на двух бенчмарках и при различных уровнях отношения сигнал-шум (SNR) мы вводим три типа анализа: Global SHAP для оценки общего баланса модальностей, Generative SHAP для изучения динамики вклада во время декодирования и Temporal Alignment SHAP для соответствия входных и выходных данных. Наши результаты показывают, что модели смещаются в сторону reliance на визуальную информацию в условиях шума, но сохраняют высокий вклад аудио даже при значительной деградации сигнала. Баланс модальностей эволюционирует в процессе генерации, временное соответствие сохраняется в условиях шума, а SNR является доминирующим фактором, определяющим взвешивание модальностей. Эти результаты выявляют устойчивую аудиальную смещенность, что обосновывает необходимость разработки адаптивных механизмов взвешивания модальностей и использования атрибуции на основе Шепли в качестве стандартного диагностического инструмента для AVSR.
Трансформеры часто демонстрируют феномен "аттеншн-синка" (притяжателя внимания): вероятностная масса концентрируется на фиксированной, не зависящей от контента позиции. Мы доказываем, что вычисление простого поведения, условленного по триггеру, необходимо порождает синк в моделях с self-attention на основе softmax. Наши результаты формализуют распространённую интуицию: нормализация над вероятностным симплексом вынуждает внимание коллапсировать на стабильный якорь для реализации состояния по умолчанию (например, когда модель должна проигнорировать вход). Мы конкретизируем это на примере задачи: при появлении заданного токена-триггера модель должна возвращать среднее всех предыдущих токенных представлений, а в противном случае выводить ноль — задача, которая отражает функциональность голов внимания в реальных моделях (Barbero et al., 2025; Guo et al., 2024). Мы также доказываем, что ненормализованное внимание на основе ReLU может решать ту же задачу без какого-либо синка, что подтверждает, что ограничение нормализации является фундаментальной причиной синк-поведения. Эксперименты подтверждают наши предсказания и демонстрируют их применимость за пределами теоретически проанализированной постановки: модели с softmax развивают сильные синки, в то время как внимание на основе ReLU устраняет их как в одно-головых, так и в много-головых вариантах.
Оценка гетерогенных эффектов лечения (ГЭЛ) по правоцензурированным данным о выживаемости имеет критическое значение в высокорисковых областях, таких как прецизионная медицина и индивидуализированное принятие решений. Однако условия анализа выживаемости создают уникальные проблемы для оценки ГЭЛ из-за цензурирования, ненаблюдаемых контрфактических исходов и сложных предположений об идентифицируемости. Несмотря на недавние достижения — от Causual Survival Forests до мета-алгоритмов для анализа выживаемости и методов импутации исходов — практики оценки остаются фрагментированными и несогласованными. Мы представляем SurvHTE-Bench, первый комплексный эталонный набор для оценки ГЭЛ при цензурированных исходах. Этот набор включает: (i) модульный набор синтетических данных с известной истинной моделью, систематически варьирующий причинно-следственные предположения и динамику выживаемости; (ii) полусинтетические данные, сочетающие реальные ковариаты с смоделированными вмешательствами и исходами; и (iii) реальные данные из близнецового исследования (с известной истинной моделью) и из клинического испытания по ВИЧ. В синтетических, полусинтетических и реальных условиях мы проводим первое строгое сравнение методов оценки ГЭЛ для анализа выживаемости в разнообразных условиях и при нарушениях реалистичных предположений. SurvHTE-Bench закладывает основу для справедливой, воспроизводимой и расширяемой оценки причинно-следственных методов в анализе выживаемости. Данные и код нашего эталонного набора доступны по адресу: https://github.com/Shahriarnz14/SurvHTE-Bench.
Несмотря на впечатляющие результаты диффузионных моделей, таких как Stable Diffusion (SD), в генерации изображений, их медленный вывод ограничивает практическое применение. Современные работы ускоряют вывод путем дистилляции многошаговой диффузии в одношаговые генераторы. Чтобы лучше понять механизм дистилляции, мы анализируем изменения весов U-Net/DiT между одношаговыми студенческими моделями и их многошаговыми учительскими аналогами. Наш анализ показывает, что изменения в направлении весов значительно превосходят изменения в их норме, что указывает на направление как ключевой фактор в процессе дистилляции. Руководствуясь этим наблюдением, мы предлагаем Low-rank Rotation of weight Direction (LoRaD) — параметрически эффективный адаптер, разработанный специально для одношаговой дистилляции диффузии. LoRaD предназначен для моделирования этих структурированных изменений направления с помощью обучаемых матриц вращения низкого ранга. Мы дополнительно интегрируем LoRaD в Variational Score Distillation (VSD), получая Weight Direction-aware Distillation (WaDi) — новую框架 одношаговой дистилляции. WaDi достигает наилучших показателей FID на COCO 2014 и COCO 2017, используя всего около 10% обучаемых параметров U-Net/DiT. Более того, дистиллированная одношаговая модель демонстрирует высокую универсальность и масштабируемость, успешно обобщаясь на различные downstream-задачи, такие как управляемая генерация, инверсия отношений и синтез изображений высокого разрешения.
Предобученные визуальные энкодеры, такие как DINOv2, продемонстрировали выдающуюся производительность на унимодальных задачах. Однако мы наблюдаем, что их признаковые представления плохо согласованы между различными модальностями. Например, косинусное сходство между признаковыми векторами RGB-изображения и соответствующей ему карты глубины одной и той же сцены оказывается почти идентичным сходству двух случайных, несвязанных изображений. Для решения этой проблемы мы предлагаем «Всеядный визуальный энкодер» — новую архитектуру, которая изучает модально-независимое признаковое пространство. Мы обучаем энкодер с двойной целью: во-первых, максимизировать согласованность признаков между разными модальностями одной сцены; и, во-вторых, с помощью задачи дистилляции закрепить полученные представления на выходе полностью замороженной модели-учителя, такой как DINOv2. В результате энкодер-ученик становится «всеядным», формируя согласованное и мощное представление для заданной сцены независимо от входной модальности (RGB, глубина, сегментация и т.д.). Данный подход обеспечивает robustное кросс-модальное понимание, сохраняя при этом дискриминативную семантику исходной базовой модели.
Четырехмерная реконструкция семейства лошадиных (например, лошадей) по монокулярному видео важна для изучения их благополучия. Предыдущие основные методы 4D-реконструкции животных требовали совместной оптимизации движения и внешнего вида по всему видео, что является трудоемким и чувствительным к неполноте наблюдений. В данной работе мы предлагаем новую структуру под названием 4DEquine, разделяющую задачу 4D-реконструкции на две подзадачи: реконструкцию динамического движения и реконструкцию статического внешнего вида. Для движения мы представляем простой, но эффективный пространственно-временной трансформер с этапом последующей оптимизации для регрессии сглаженных и выровненных по пикселям последовательностей позы и формы из видео. Для внешнего вида мы разрабатываем новую прямую сеть, которая реконструирует высокодетализированного анимируемого аватара на основе 3D-гаусссиан из всего одного изображения. Для помощи в обучении мы создали крупный синтетический набор данных о движении, VarenPoser, который включает высококачественные поверхностные движения и разнообразные траектории камеры, а также синтетический набор данных о внешнем виде, VarenTex, состоящий из реалистичных многовидовых изображений, сгенерированных с помощью многовидовой диффузии. Обучаясь исключительно на синтетических наборах данных, 4DEquine демонстрирует наилучшие результаты на реальных наборах данных APT36K и AiM, что подтверждает превосходство 4DEquine и наших новых наборов данных как для реконструкции геометрии, так и для реконструкции внешнего вида. Всесторонние абляционные исследования подтверждают эффективность как сети реконструкции движения, так и сети реконструкции внешнего вида. Страница проекта: https://luoxue-star.github.io/4DEquine_Project_Page/.
Генеративные модели широко применяются для повышения фотореалистичности синтетических данных при обучении алгоритмов компьютерного зрения. Однако они часто вносят визуальные артефакты, которые снижают точность этих алгоритмов и требуют значительных вычислительных ресурсов, что ограничивает их применимость в сценариях обучения или оценки в реальном времени. В данной статье мы предлагаем HyPER-GAN (Generative Adversarial Network с гибридным повышением реализма на уровне патчей) — облегченный метод трансляции "изображение-в-изображение" на основе генератора в стиле U-Net, предназначенный для вывода в реальном времени. Модель обучается с использованием пар синтетических и фотореалистично улучшенных изображений, дополненных гибридной стратегией обучения, которая включает соответствующие патчи из данных реального мира для улучшения визуального реализма и семантической согласованности. Экспериментальные результаты демонстрируют, что HyPER-GAN превосходит современные методы парной трансляции "изображение-в-изображение" по задержке вывода, визуальному реализму и семантической устойчивости. Более того, показано, что предложенная гибридная стратегия обучения действительно улучшает визуальное качество и семантическую согласованность по сравнению с обучением модели только на парах синтетических и фотореалистично улучшенных изображений. Код и предобученные модели общедоступны для загрузки по адресу: https://github.com/stefanos50/HyPER-GAN.
Запрет Индонезии на экспорт никелевой руды стимулировал быстрое расширение мощностей по плавке и гидрометаллургической переработке в индустриальном парке Индонезия-Мороали (IMIP), который теперь является крупнейшим в мире интегрированным никелевым комплексом на побережье Центрального Сулавеси. Остается неясным, привела ли эта индустриализация к деградации прилегающей морской среды. Мы применяем байесовский причинно-следственный анализ структурных временных рядов (BSTS) к многодесятилетним спутниковым данным о цвете океана с нескольких сенсоров, а именно к коэффициенту диффузного ослабления на 490 нм, K_d(490), чтобы проверить наличие причинно-следственной связи между расширением IMIP и изменением мутности прибрежных вод. Согласованная точка структурного разрыва, значимый апостериорный причинный эффект, оцененный относительно контрафактического сценария для моря Банда, и ранговый тест плацебо без предположений о распределении в совокупности устанавливают, что прозрачность прибрежных вод ухудшилась после перехода от первоначального производства никелевого чугуна к сверхбыстрому расширению мощностей по автоклавному выщелачиванию для производства никеля аккумуляторного качества. Анализ спутниковых данных о земельном покрове независимо подтверждает эту хронологию, показывая значительный рост застроенных площадей и одновременную потерю древесного покрова на территории IMIP. Возникающее в результате обмеление эвфотической зоны происходит в олиготрофных водах, поддерживающих высокое морское биоразнообразие, где даже умеренное ухудшение оптических свойств может нарушить фотосинтез кораллов и сократить глубинный рифовый ареал. Эти результаты количественно определяют экологическую стоимость для морской среды, которая игнорируется в дискуссиях о политике downstreaming минеральных ресурсов Индонезии, и демонстрируют трансформируемую спутниковую квазиэкспериментальную методологию для оценки причинного воздействия на прибрежные промышленные объекты в тропических регионах с ограниченными данными.