Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем T-pro 2.0 — открытую русскоязычную большую языковую модель (LLM) для гибридного логического вывода и эффективного инференса. Модель поддерживает прямой ответ и генерацию цепочек рассуждений, используя токенизатор с высокой плотностью кириллических символов и адаптированный конвейер спекулятивного декодирования EAGLE для снижения задержек. Для обеспечения воспроизводимости и расширяемости исследований мы публикуем веса модели, инструктивный корпус T-Wix объемом 500 тыс. примеров, бенчмарк логических рассуждений T-Math и веса EAGLE на платформе Hugging Face. Эти ресурсы позволяют исследовать русскоязычные рассуждения, а также расширять и адаптировать как модель, так и конвейер вывода. Публичная веб-демонстрация демонстрирует режимы с рассуждениями и без, иллюстрируя ускорение работы нашего стека инференса в различных областях. Таким образом, T-pro 2.0 служит доступной открытой системой для создания и оценки эффективных практических приложений на основе русскоязычных LLM.
Крупные языковые модели (LLM) достигли значительного прогресса в решении сложных задач логического вывода благодаря обучению с подкреплением на основе проверяемых вознаграждений (RLVR). Этот прогресс также неотделим от автоматизированного контроля, осуществляемого надежными верификаторами. Однако современные верификаторы, основанные на результате (OV), не способны проверять ненадежные промежуточные шаги в длинных цепочках рассуждений (CoT). В то же время современные процессно-ориентированные верификаторы (PV) сталкиваются с трудностями в надежном обнаружении ошибок в сложных длинных CoT, что ограничено дефицитом высококачественных аннотаций из-за непомерно высоких затрат на ручную разметку. Поэтому мы предлагаем Верификатор Процесса на Основе Результата (OPV), который проверяет логику процесса через агрегированные результаты из длинных CoT для достижения как точной, так и эффективной верификации и обеспечения масштабируемой разметки. Для повышения эффективности предлагаемого верификатора мы применяем итеративную схему активного обучения с привлечением экспертов для аннотирования, чтобы постепенно улучшать проверочную способность OPV при меньших затратах на разметку. Конкретно, на каждой итерации аннотируются наиболее неопределенные примеры для текущей лучшей модели OPV, которые затем используются для обучения новой модели OPV с помощью Тонкой Настройки с Отклонением (RFT) и RLVR для следующего раунда. Многочисленные эксперименты демонстрируют превосходную производительность и широкую применимость OPV. Модель устанавливает новые рекорды на нашем отложенном наборе данных \thisbench, превосходя гораздо более крупные открытые модели, такие как Qwen3-Max-Preview, с показателем F1 83.1 против 76.3. Кроме того, OPV эффективно выявляет ложные срабатывания в синтетических наборах данных, что тесно согласуется с оценкой экспертов. При совместной работе с моделями-агентами OPV стабильно обеспечивает прирост производительности, например, повышая точность модели DeepSeek-R1-Distill-Qwen-32B с 55.2% до 73.3% на тесте AIME2025 по мере увеличения вычислительного бюджета.
Подкрепляемое обучение (RL), ранее доказавшее свою эффективность для больших языковых и мультимодальных моделей, недавно было успешно распространено на улучшение генерации 2D-изображений. Однако применение RL к 3D-генерации остаётся в значительной степени неисследованным из-за более высокой пространственной сложности 3D-объектов, которые требуют глобально согласованной геометрии и мелкозернистых локальных текстур. Это делает 3D-генерацию значительно более чувствительной к проектированию функций вознаграждения и алгоритмам RL. Для решения этих проблем мы проводим первое систематическое исследование RL для авторегрессионной генерации 3D-объектов по тексту по нескольким направлениям. (1) *Дизайн вознаграждений*: Мы оцениваем параметры вознаграждения и варианты моделей, показывая, что соответствие человеческим предпочтениям является ключевым, а общие мультимодальные модели обеспечивают надежный сигнал для атрибутов 3D-объектов. (2) *Алгоритмы RL*: Мы изучаем варианты GRPO, подчеркивая эффективность оптимизации на уровне токенов, и дополнительно исследуем масштабирование обучающих данных и итераций. (3) *Бенчмарки для Text-to-3D*: Поскольку существующие бенчмарки не способны измерить способности к неявному логическому выводу в моделях 3D-генерации, мы представляем MME-3DR. (4) *Продвинутые парадигмы RL*: Руководствуясь естественной иерархичностью 3D-генерации, мы предлагаем Hi-GRPO, который оптимизирует иерархическую генерацию от глобального к локальному через специализированные ансамбли вознаграждений. На основе этих результатов мы разрабатываем AR3D-R1 — первую модель для генерации 3D по тексту, улучшенную с помощью RL, которая является экспертом от создания грубой формы до детальной проработки текстур. Мы надеемся, что это исследование даст представление о логическом выводе, управляемом RL, для 3D-генерации. Код доступен по адресу https://github.com/Ivan-Tang-3D/3DGen-R1.
Крупные языковые модели (LLM) достигли значительного прогресса в решении сложных задач логического вывода благодаря обучению с подкреплением на основе проверяемых вознаграждений (RLVR). Этот прогресс также неотделим от автоматизированного контроля, осуществляемого надежными верификаторами. Однако современные верификаторы, основанные на результате (OV), не способны проверять ненадежные промежуточные шаги в длинных цепочках рассуждений (CoT). В то же время современные процессно-ориентированные верификаторы (PV) сталкиваются с трудностями в надежном обнаружении ошибок в сложных длинных CoT, что ограничено нехваткой высококачественных аннотаций из-за непомерно высоких затрат на ручное аннотирование. Поэтому мы предлагаем Верификатор Процесса на Основе Результата (OPV), который проверяет логику процесса по агрегированным результатам из длинных CoT для достижения как точной, так и эффективной верификации и обеспечения масштабируемого аннотирования. Для повышения эффективности предложенного верификатора мы применяем итеративную схему активного обучения с привлечением экспертов для аннотирования, чтобы постепенно улучшать проверочную способность OPV при меньших затратах на разметку. Конкретно, на каждой итерации аннотируются наиболее неопределенные примеры для текущей лучшей модели OPV, которые затем используются для обучения новой модели OPV с помощью Тонкой Настройки с Отклонением (RFT) и RLVR для следующего раунда. Многочисленные эксперименты демонстрируют превосходную производительность и широкую применимость OPV. Модель устанавливает новые рекорды на нашем наборе данных OPV-Bench, превосходя значительно более крупные открытые модели, такие как Qwen3-Max-Preview, с показателем F1 83.1 против 76.3. Кроме того, OPV эффективно выявляет ложные срабатывания в синтетических наборах данных, что тесно согласуется с оценкой экспертов. При совместной работе с моделями-агентами OPV стабильно приводит к повышению производительности, например, увеличивая точность модели DeepSeek-R1-Distill-Qwen-32B с 55.2% до 73.3% на тесте AIME2025 по мере увеличения вычислительного бюджета.
Крупные языковые модели (LLM) демонстрируют высокие способности к решению математических задач и могут решать даже задачи уровня Международной математической олимпиады (ММО) с помощью систем формального доказательства. Однако из-за слабых эвристик для вспомогательных построений в области решения геометрических задач доминируют экспертные модели, такие как AlphaGeometry 2, которые в значительной степени полагаются на синтез данных в большом масштабе и поиск как для обучения, так и для оценки. В данной работе мы предпринимаем первую попытку создания LLM-агента уровня медалиста для геометрии и представляем InternGeometry. InternGeometry преодолевает эвристические ограничения в геометрии за счет итеративного предложения утверждений и вспомогательных построений, их проверки с помощью символьного движка и анализа обратной связи от движка для руководства последующими предложениями. Механизм динамической памяти позволяет InternGeometry проводить более двухсот взаимодействий с символьным движком на одну задачу. Для дальнейшего ускорения обучения мы представляем обучение с подкреплением с нарастающей сложностью (Complexity-Boosting Reinforcement Learning, CBRL), которое постепенно увеличивает сложность синтезированных задач на различных этапах обучения. Построенная на основе InternThinker-32B, модель InternGeometry решает 44 из 50 геометрических задач ММО (2000–2024), превосходя средний балл золотого медалиста (40.9), используя всего 13 тыс. обучающих примеров, что составляет лишь 0.004% от данных, использованных в AlphaGeometry 2, и демонстрирует потенциал LLM-агентов в решении экспертных геометрических задач. InternGeometry также способна предлагать новые вспомогательные построения для задач ММО, которые не встречаются в человеческих решениях. Мы опубликуем модель, данные и символьный движок для поддержки будущих исследований.
Системы захвата движения в настоящее время лежат в основе создания контента, выходящего далеко за рамки цифровых людей, однако большинство существующих пайплайнов остаются специфичными для определенного вида или шаблона. Мы формализуем этот пробел как Захват движения, не зависящий от категории (Category-Agnostic Motion Capture, CAMoCap): имея монохромное видео и произвольный ригнутый 3D-ассет в качестве промпта, цель — реконструировать анимацию на основе вращений (например, BVH), которая напрямую управляет конкретным ассетом. Мы представляем MoCapAnything, референс-управляемую факторизованную систему, которая сначала предсказывает траектории 3D-суставов, а затем восстанавливает специфичные для ассета вращения с помощью обратной кинематики с учетом ограничений. Система содержит три обучаемых модуля и облегченный этап IK: (1) Кодировщик референсных промптов, который извлекает запросы для каждого сустава из скелета, меша и рендеров ассета; (2) Экстрактор признаков видео, который вычисляет плотные визуальные дескрипторы и реконструирует грубый 4D деформируемый меш, чтобы преодолеть разрыв между видеопространством и пространством суставов; и (3) Унифицированный декодер движения, который объединяет эти сигналы для генерации временно согласованных траекторий. Мы также создали Truebones Zoo, содержащий 1038 клипов движения, каждый из которых предоставляет стандартизированную триаду «скелет-меш-рендер». Эксперименты как на внутридоменных бенчмарках, так и на реальных видео показывают, что MoCapAnything обеспечивает высококачественную скелетную анимацию и демонстрирует осмысленный ретаргетинг движения между видами для гетерогенных ригов, обеспечивая масштабируемый, промпт-управляемый захват 3D-движения для произвольных ассетов. Страница проекта: https://animotionlab.github.io/MoCapAnything/
По мере перехода больших языковых моделей (БЯМ) от исследовательских прототипов к промышленным системам, практикам часто требуются надежные методы для проверки соответствия выходных данных модели заданным ограничениям. Хотя оценки на основе сэмплирования дают интуитивное представление о поведении модели, они не предоставляют строгих гарантий. Мы представляем BEAVER — первую практическую систему для вычисления детерминированных, строгих вероятностных границ удовлетворения ограничений БЯМ. Для любого семантического ограничения, замкнутого относительно префиксов, BEAVER систематически исследует пространство генераций, используя новые структуры данных — префиксное дерево (trie) и границу (frontier), — сохраняя доказуемо строгие границы на каждой итерации. Мы формализуем задачу верификации, доказываем строгость нашего подхода и оцениваем BEAVER на задачах верификации корректности, проверки конфиденциальности и генерации безопасного кода для нескольких современных БЯМ. BEAVER обеспечивает в 6–8 раз более точные вероятностные границы и выявляет в 3–4 раза больше случаев высокого риска по сравнению с базовыми методами при одинаковых вычислительных затратах, что позволяет проводить точную характеристику и оценку рисков, недоступные для грубых границ или эмпирической оценки.
В данной статье вводится концепция Микроскопического Пространственного Интеллекта (MiSI) — способности воспринимать и анализировать пространственные взаимосвязи невидимых микроскопических объектов, что является основополагающим для научных открытий. Для оценки потенциала моделей "визуальный язык" (VLM) в этой области мы предлагаем систематический эталонный фреймворк MiSI-Bench. Данный фреймворк включает более 163 000 пар "вопрос-ответ" и 587 000 изображений, полученных из приблизительно 4000 молекулярных структур, и охватывает девять взаимодополняющих задач, оценивающих способности от элементарных пространственных преобразований до сложных реляционных идентификаций. Результаты экспериментов показывают, что современные передовые VLM-модели демонстрируют на этом эталоне результаты значительно ниже человеческого уровня. Однако дообученная 7B-модель показывает существенный потенциал, даже превосходя человека в задачах пространственного преобразования, в то время как её слабые результаты в научно-обоснованных задачах, таких как распознавание водородных связей, подчеркивают необходимость интеграции явных доменных знаний для прогресса в направлении научного ИИО. Наборы данных доступны по адресу https://huggingface.co/datasets/zongzhao/MiSI-bench.
Объединение мультимодального понимания, генерации и реконструкции в рамках единого токенизатора остается ключевой проблемой при создании унифицированных моделей. Предыдущие исследования в основном пытались решить эту задачу в парадигме двойного кодировщика, например, используя раздельные энкодеры для понимания и генерации соответственно или балансируя семантические представления и низкоуровневые особенности с помощью контрастной функции потерь. В данной статье мы предлагаем VQRAE — версию автоэнкодеров представления с векторной квантизацией, которая впервые исследует унифицированное представление для получения непрерывных семантических признаков для понимания изображений и дискретных токенов для визуальной генерации в рамках единого токенизатора. В частности, мы используем предобученные базовые визуальные модели с симметричным ViT-декодером и применяем двухэтапную стратегию обучения: сначала замораживается энкодер и изучается высокоразмерный семантический VQ-кодбук с целью реконструкции пикселей; затем энкодер оптимизируется совместно с ограничениями самодистилляции. Такая конструкция обеспечивает пренебрежимо малую потерю семантической информации для сохранения способности мультимодального понимания, дискретные токены, совместимые с генерацией, и точную реконструкцию. Кроме того, мы выявили интересное свойство квантизации семантических энкодеров, требующих высокоразмерного кодбука, в отличие от предыдущей общепринятой практики использования низкоразмерных кодбуков в реконструкции изображений. Семантический VQ-кодбук может достигать 100% коэффициента использования при размерности 1536. VQRAE демонстрирует конкурентоспособные результаты на нескольких бенчмарках визуального понимания, генерации и реконструкции с многообещающими свойствами масштабирования в авторегрессионной парадигме благодаря своим дискретным преимуществам.
Парадигмы мышления-с-изображениями продемонстрировали впечатляющие возможности визуального рассуждения за счет интеграции визуальной информации в качестве динамических элементов в цепочку рассуждений (CoT). Однако оптимизация чередующейся мультимодальной CoT (iMCoT) с помощью обучения с подкреплением остается сложной задачей, поскольку она зависит от дефицитных высококачественных данных рассуждений. В данном исследовании мы предлагаем Самовызывающую Цепочку Рассуждений (sCoT) — новую парадигму визуального рассуждения, которая переформулирует iMCoT как исключительно языковую CoT с самовызовом. Конкретно, главный агент декомпозирует сложную задачу визуального рассуждения на атомарные подзадачи и вызывает свои виртуальные реплики, т.е. параметрически разделяемых под-агентов, для их решения в изолированном контексте. sCoT обладает значительной эффективностью и эффективностью обучения, поскольку не требует явного чередования модальностей. sCoT использует оптимизацию политики относительно группы для усиления эффективного поведения рассуждений и улучшения оптимизации. Эксперименты на HR-Bench 4K показывают, что sCoT улучшает общую производительность рассуждений до 1.9% при использовании примерно на 75% меньше GPU-часов по сравнению с сильными базовыми подходами. Код доступен по адресу https://github.com/YWenxi/think-with-images-through-self-calling.
Генеративные модели мира обладают значительным потенциалом для моделирования взаимодействий с визомоторными политиками в различных средах. Передовые видео-модели позволяют генерировать реалистичные наблюдения и взаимодействия со средой масштабируемым и универсальным способом. Однако использование видео-моделей в робототехнике до сих пор в основном ограничивалось оценками в пределах распределения, то есть сценариями, схожими с теми, что использовались для обучения политики или дообучения базовой видео-модели. В данном отчете мы демонстрируем, что видео-модели могут быть использованы для всего спектра задач оценки политик в робототехнике: от оценки номинальной производительности до обобщения за пределами распределения (OOD) и проверки физической и семантической безопасности. Мы представляем систему генеративной оценки, построенную на основе передовой фоновой видео-модели (Veo). Система оптимизирована для поддержки обусловливания действий робота и согласованности между несколькими ракурсами, а также интегрирует генеративное редактирование изображений и композицию многовидовых сцен для синтеза реалистичных вариаций сцен реального мира по нескольким осям обобщения. Мы показываем, что система сохраняет базовые возможности видео-модели, что позволяет точно моделировать сцены, отредактированные для включения новых объектов взаимодействия, новых визуальных фонов и новых объектов-отвлекающих факторов. Такая точность позволяет достоверно прогнозировать относительную производительность различных политик как в номинальных условиях, так и в условиях OOD, определять относительное влияние различных осей обобщения на производительность политики и проводить редтиминг политик для выявления поведений, нарушающих ограничения физической или семантической безопасности. Мы проверяем эти возможности с помощью более 1600 оценок в реальном мире для восьми контрольных точек политик Gemini Robotics и пяти задач для двурукого манипулятора.
Мы представляем StereoSpace — диффузионную систему для моно-стерео синтеза, которая моделирует геометрию исключительно через кондиционирование по точке обзора, без явного использования карт глубины или варпинга. Каноническое ректифицированное пространство и условия направляют генератор на вывод соответствий и заполнение дискклюзий по принципу «конец в конец». Для обеспечения корректной и свободной от утечек оценки мы вводим сквозной протокол, исключающий использование эталонных данных или прокси-оценок геометрии на этапе тестирования. Протокол акцентирует метрики, отражающие практическую значимость: iSQoE для оценки перцептивного комфорта и MEt3R для геометрической согласованности. StereoSpace превосходит методы из категорий варп-инпейнтинга, латентного варпинга и варпированного кондиционирования, демонстрируя четкий параллакс и высокую устойчивость на слоистых и неламбертовых сценах. Это подтверждает подход с диффузионными моделями, кондиционированными по точке обзора, как масштабируемое решение для стереогенерации, не требующее данных о глубине.
Хотя нормализационные слои долгое время считались незаменимыми компонентами архитектур глубокого обучения, недавнее появление Dynamic Tanh (DyT) показало, что возможны альтернативы. Поточечная функция DyT ограничивает экстремальные значения для обеспечения стабильной сходимости и достигает производительности на уровне нормализации; данная работа ставит целью поиск функциональных конструкций, которые могут превзойти её. Мы сначала исследуем, как внутренние свойства поточечных функций влияют на обучение и производительность. Основываясь на этих выводах, мы проводим масштабный поиск более эффективного функционального дизайна. В ходе этого исследования мы представляем Derf(x) = erf(αx + s), где erf(x) — это масштабированная функция нормального интегрального распределения, и идентифицируем её как наиболее производительный дизайн. Derf превосходит LayerNorm, RMSNorm и DyT в широком спектре областей, включая компьютерное зрение (распознавание и генерация изображений), речевое представление и моделирование последовательностей ДНК. Наши результаты показывают, что прирост производительности Derf в значительной степени обусловлен улучшенной обобщающей способностью, а не более сильной аппроксимирующей способностью. Его простота и высокая производительность делают Derf практичным выбором для трансформерных архитектур без нормализации.
Задача видеовопросно-ответных систем (VideoQA) служит важным полигоном для оценки способности базовых моделей эффективно воспринимать, понимать и анализировать динамические сценарии реального мира. Однако существующие мультимодальные большие языковые модели (MLLM) испытывают трудности с одновременным моделированием пространственных отношений внутри видеокадров и пониманием причинно-следственной динамики временной эволюции в сложных задачах VideoQA, требующих глубоких рассуждений. В данной работе мы оснащаем MLLM комплексным и расширяемым видеонабором инструментов (Video Toolkit) для усиления пространственно-временных reasoning-способностей модели и обеспечения баланса между количеством и разнообразием инструментов. Для лучшего управления последовательностью вызова инструментов и избежания проблем сокращенных цепочек инструментов мы предлагаем пространственно-временную reasoning-структуру (STAR), которая стратегически планирует использование временных и пространственных инструментов, постепенно локализуя ключевые области видео. Наша структура STAR улучшает производительность GPT-4o с использованием легковесных инструментов, демонстрируя прирост в 8.2% на VideoMME и 4.6% на LongVideoBench. Мы считаем, что предложенный видеонабор инструментов и структура STAR представляют важный шаг к созданию автономных и интеллектуальных помощников для видеоанализа. Код общедоступен по адресу https://github.com/fansunqi/VideoTool.
Роботы, обучающиеся манипуляционным навыкам на основе обычных человеческих видео, могли бы приобретать широкие возможности без трудоёмкого сбора роботизированных данных. Мы предлагаем фреймворк преобразования "видео-в-видео", который трансформирует обычные видео взаимодействия человека с объектами в видео манипуляций робота с сохранением последовательности движений и реалистичными, физически обоснованными взаимодействиями. Наш подход не требует парных видео "человек-робот" для обучения, а лишь набор непарных роботизированных видео, что упрощает масштабирование системы. Мы вводим переносимую репрезентацию, преодолевающую разрыв в воплощении: за счёт восстановления фона на тренировочных видео с удалением роботизированной руки для получения чистого фона и наложения простого визуального маркера (указателя со стрелкой, обозначающего позицию и ориентацию захвата), мы можем настроить генеративную модель для обратного встраивания роботизированной руки в сцену. На этапе тестирования мы применяем тот же процесс к человеческим видео (восстанавливая фон с удалением человека и накладывая маркеры позы человека) и генерируем высококачественные роботизированные видео, имитирующие действия человека. Мы дообучаем современную диффузионную модель для видео (Wan 2.2) в манере контекстного обучения для обеспечения временной согласованности и использования её богатых априорных знаний. Экспериментальные результаты демонстрируют, что наш подход позволяет достичь значительно более реалистичных и физически обоснованных движений робота по сравнению с базовыми методами, указывая перспективное направление для масштабирования обучения роботов на основе размеченных человеческих видео. Страница проекта: https://showlab.github.io/H2R-Grounder/
Мы представляем The FACTS Leaderboard — комплексный набор онлайн-лидербордов и связанных с ними бенчмарков, который всесторонне оценивает способность языковых моделей генерировать фактически точные тексты в различных сценариях. Набор обеспечивает целостную оценку фактической точности путем агрегирования результатов моделей на четырех независимых суб-лидербордах: (1) FACTS Multimodal, измеряющий фактическую точность ответов на вопросы на основе изображений; (2) FACTS Parametric, оценивающий знание мира моделями через ответы на фактологические вопросы в закрытом режиме (без доступа к внешним источникам) на основе внутренних параметров; (3) FACTS Search, оценивающий фактическую точность в сценариях информационного поиска, где модель должна использовать поисковый API; и (4) FACTS Grounding (v2), оценивающий, основаны ли развернутые ответы на предоставленных документах и использующий существенно улучшенные модели-судьи. Каждый суб-лидерборд использует автоматизированные модели-судьи для оценки ответов моделей, а итоговый балл набора представляет собой среднее значение четырех компонентов, что предназначено для обеспечения надежной и сбалансированной оценки общей фактической точности модели. Набор лидербордов FACTS будет активно поддерживаться и содержать как публичные, так и приватные разделы, чтобы позволить внешнее участие, обеспечивая при этом его целостность. С ним можно ознакомиться по адресу https://www.kaggle.com/benchmarks/google/facts.
Последние достижения в области 4D гауссовского размытия (4DGS) расширили возможности высокоскоростного рендеринга 3D гауссовского размытия (3DGS) во временную область, обеспечивая рендеринг динамических сцен в реальном времени. Однако одной из основных сохраняющихся проблем является моделирование длительных динамических видео, содержащих движение, где простое расширение существующих методов приводит к значительному росту потребления памяти, временному мерцанию и неспособности обрабатывать возникающие или исчезающие окклюзии с течением времени. Для решения этих задач мы предлагаем новую структуру 4DGS, характеризующуюся механизмом двунаправленного смешивания на основе ретрансляции якорей (ARBB), под названием MoRel, которая обеспечивает временно-согласованное и эффективное по памяти моделирование длительных динамических сцен. Наш метод прогрессивно строит локально канонические якорные пространства в ключевые моменты времени и моделирует межкадровые деформации на уровне якорей, повышая временную согласованность. Обучая двунаправленные деформации между KfA и адаптивно смешивая их с помощью обучаемого управления непрозрачностью, наш подход смягчает временные разрывы и артефакты мерцания. Мы дополнительно вводим схему иерархического уплотнения с управлением по дисперсии признаков (FHD), которая эффективно уплотняет KfA, сохраняя качество рендеринга, на основе назначенного уровня дисперсии признаков. Для эффективной оценки способности нашей модели обрабатывать длительные 4D-движения в реальном мире мы создали новый набор данных, содержащий длительные 4D-движения, под названием SelfCap_{LR}. По сравнению с предыдущими наборами данных динамического видео, он имеет большую среднюю величину динамического движения и снят в более широких пространственных областях. В целом, наш MoRel обеспечивает временно-согласованную и свободную от мерцания реконструкцию длительных 4D-сцен при сохранении ограниченного использования памяти, демонстрируя как масштабируемость, так и эффективность в динамических представлениях на основе гауссовских функций.
Видеоунифицированные модели демонстрируют высокие способности к пониманию и генерации, однако испытывают трудности с визуальным редактированием на основе рассуждений, даже будучи оснащенными мощными внутренними моделями «визуальный язык» (VLMs). Мы объясняем этот разрыв двумя факторами: 1) существующие наборы данных неадекватны для обучения и оценки редактирования видео с учетом рассуждений и 2) внутренним разрывом между способностями модели к рассуждению и редактированию, который препятствует эффективному использованию богатого понимания для управления процессом редактирования. Для преодоления этого разрыва требуется интегрированная структура, связывающая рассуждение с визуальной трансформацией. Чтобы решить эту проблему, мы представляем задачу редактирования видео на основе рассуждений (Reason-Informed Video Editing, RVE), которая требует учета физической правдоподобности и причинно-следственной динамики в процессе редактирования. Для поддержки систематической оценки мы создали RVE-Bench — комплексный эталонный набор с двумя взаимодополняющими подмножествами: редактирование видео на основе рассуждений и контекстная генерация видео. Эти подмножества охватывают различные аспекты рассуждений и реальные сценарии редактирования. На этой основе мы предлагаем ReViSE — саморефлексивную (Self-Reflective Reasoning, SRF) структуру, которая объединяет генерацию и оценку в единой архитектуре. Внутренняя VLM модели обеспечивает внутреннюю обратную связь, оценивая, удовлетворяет ли отредактированное видео логике заданной инструкции. Дифференциальная обратная связь уточняет поведение генератора в процессе рассуждений во время обучения. Многочисленные эксперименты на RVE-Bench показывают, что ReViSE значительно повышает точность редактирования и визуальное качество, достигая 32% улучшения общего балла в подмножестве редактирования видео на основе рассуждений по сравнению с передовыми методами.
Персонализация визуальных концепций ставит целью перенос только определённых атрибутов изображения, таких как идентичность, выражение, освещение и стиль, в новые контексты. Однако существующие методы опираются на целостные эмбеддинги из универсальных кодировщиков изображений, которые переплетают множество визуальных факторов и затрудняют изоляцию отдельного атрибута. Это часто приводит к утечке информации и несогласованному синтезу. Для преодоления данного ограничения мы представляем Omni-Attribute — первый кодировщик атрибутов изображения с открытой лексикой, предназначенный для изучения высокоточных, специфичных для атрибутов представлений. Наш подход совместно проектирует данные и модель: (i) мы курируем семантически связанные пары изображений с аннотациями положительных и отрицательных атрибутов, чтобы явно научить кодировщик тому, что сохранять или подавлять; и (ii) мы применяем парадигму обучения с двойной целью, которая балансирует генеративную точность с контрастным разделением. Полученные эмбеддинги демонстрируют эффективность для поиска атрибутов с открытой лексикой, персонализации и композиционного генерирования, достигая передовых результатов на нескольких бенчмарках.
Разработка ПО с искусственным интеллектом в реальных условиях требует агентов, способных анализировать огромные репозитории кода, сохранять устойчивую память между и внутри длительных сеансов работы, а также надежно координировать сложные цепочки инструментов во время тестирования. Существующие открытые агенты кодирования обеспечивают прозрачность, но часто не справляются с промышленными масштабами задач, тогда как проприетарные агенты демонстрируют высокую практическую производительность, но обладают ограниченной расширяемостью, интерпретируемостью и управляемостью. Мы представляем Confucius Code Agent (CCA) — агента-программиста с открытым исходным кодом, способного работать в промышленных масштабах. CCA построен на базе Confucius SDK, открытой платформы для разработки агентов, созданной с учетом трех взаимодополняющих аспектов: опыта агента (Agent Experience, AX), пользовательского опыта (User Experience, UX) и опыта разработчика (Developer Experience, DX). SDK включает унифицированный оркестратор с иерархической рабочей памятью для рассуждений в длинном контексте, систему персистентных заметок для непрерывного обучения между сеансами и модульный механизм расширений для надежного использования инструментов. Кроме того, мета-агент автоматизирует синтез, оценку и улучшение конфигураций агентов через цикл «сборка-тестирование-улучшение», что позволяет быстро разрабатывать агентов под новые задачи, среды и стеки инструментов. Реализованный на Confucius SDK с использованием этих механизмов, CCA демонстрирует высокую производительность на реальных задачах разработки ПО. На наборе SWE-Bench-Pro CCA достигает наилучшего показателя Resolve@1 в 54.3%, существенно превосходя предыдущие агенты кодирования. Вместе Confucius SDK и CCA образуют прозрачную, расширяемую и воспроизводимую основу для ИИ-агентов, устраняют разрыв между исследовательскими прототипами и промышленными системами и поддерживают разработку и развертывание агентов в промышленных масштабах.
Агенты больших языковых моделей (LLM) широко применяются для решения сложных интерактивных задач, однако ограничения конфиденциальности часто препятствуют централизованной оптимизации и коэволюции в динамических средах. Хотя федеративное обучение (FL) доказало свою эффективность на статических наборах данных, его расширение для открытой самоэволюции агентов остается малоизученным. Прямое применение стандартного FL проблематично: гетерогенные задачи и разреженные вознаграждения на уровне траекторий создают серьезные градиентные конфликты, дестабилизируя процесс глобальной оптимизации. Для преодоления этого разрыва мы предлагаем Fed-SE — фреймворк федеративной самоэволюции для LLM-агентов. Fed-SE реализует парадигму локальной эволюции и глобальной агрегации. На локальном уровне агенты применяют эффективное тонкое настроение параметров на отфильтрованных траекториях с высоким вознаграждением для достижения стабильных градиентных обновлений. На глобальном уровне Fed-SE агрегирует обновления в низкоранговом подпространстве, которое разделяет динамику, специфичную для среды, эффективно снижая негативный перенос между клиентами. Эксперименты в пяти гетерогенных средах демонстрируют, что Fed-SE повышает среднюю успешность выполнения задач примерно на 18% по сравнению с федеративными базовыми методами, подтверждая его эффективность для надежного межсредового переноса знаний в условиях ограничений конфиденциальности.
Агенты ролевых игр (RPA) должны одновременно овладевать множеством конфликтующих навыков — следовать многоходовым инструкциям, демонстрировать предметные знания и придерживаться последовательного лингвистического стиля. Существующие подходы либо полагаются на контролируемую тонкую настройку (SFT), которая переобучается поверхностным признакам и дает низкое разнообразие, либо применяют обучение с подкреплением (RL), которое не способно освоить множество измерений для комплексной оптимизации RPA. Мы представляем MOA (Multi-Objective Alignment, многокритериальное согласование) — фреймворк обучения с подкреплением, который обеспечивает многомерную, детализированную оптимизацию по рубрикам для общих RPA. MOA вводит новую стратегию многокритериальной оптимизации, которая одновременно обучает по множеству детализированных рубрик для повышения производительности оптимизации. Кроме того, для решения проблем разнообразия и качества выходных данных модели мы также применили расширенные развертки с мысленными рассуждениями и внеполитическое руководство. Многочисленные эксперименты на сложных бенчмарках, таких как PersonaGym и RoleMRC, показывают, что MOA позволяет модели объемом 8B соответствовать или даже превосходить сильные базовые уровни, такие как GPT-4o и Claude, по многочисленным измерениям. Это демонстрирует большой потенциал MOA в создании RPA, способных одновременно удовлетворять требованиям к знанию роли, стилю персонажа, разнообразным сценариям и сложным многоходовым диалогам.
Развитие воплощенного искусственного интеллекта открыло значительный потенциал для создания человекоподобных роботов. Однако прогресс как в моделях «Зрение-Язык-Действие» (VLA), так и в мировых моделях серьезно сдерживается нехваткой крупномасштабных и разнообразных данных для обучения. Перспективным решением является «роботизация» видеозаписей людей из интернета, что доказало свою эффективность для обучения политик. Однако существующие подходы в основном «накладывают» роботизированные руки на эгоцентричные видео, что не позволяет работать со сложными движениями всего тела и окклюзиями сцены в видео от третьего лица, делая их непригодными для роботизации человека. Чтобы устранить этот пробел, мы представляем X-Humanoid — генеративный метод редактирования видео, который адаптирует мощную модель Wan 2.2 в структуру «видео-в-видео» и дообучает ее для задачи трансляции движений человека в движения гуманоида. Для этого дообучения требуются парные видео «человек-гуманоид», поэтому мы разработали масштабируемый конвейер создания данных, преобразующий ресурсы сообщества в более чем 17 часов парных синтетических видео с помощью Unreal Engine. Затем мы применили нашу обученную модель к 60 часам видео из набора данных Ego-Exo4D, сгенерировав и выпустив новый крупномасштабный набор данных, содержащий более 3,6 миллионов «роботизированных» кадров видео с гуманоидами. Количественный анализ и пользовательские исследования подтверждают превосходство нашего метода над существующими аналогами: 69% пользователей оценили его как лучший по согласованности движений, а 62,1% — по корректности воплощения.
Недавние подходы на основе моделей «визуальный язык» (VLM) показали впечатляющие результаты в генерации SVG. Однако, поскольку они генерируют только текст и лишены визуальных сигналов на этапе декодирования, они часто испытывают трудности со сложной семантикой и не позволяют создавать визуально привлекательные или геометрически согласованные SVG. Мы представляем DuetSVG — унифицированную мультимодальную модель, которая совместно генерирует токены изображений и соответствующие SVG-токены сквозным образом. DuetSVG обучается на наборах данных как с изображениями, так и с SVG. На этапе вывода мы применяем новую стратегию масштабирования на этапе тестирования, которая использует собственные визуальные предсказания модели в качестве руководства для повышения качества SVG-декодирования. Многочисленные эксперименты показывают, что наш метод превосходит существующие подходы, создавая визуально точные, семантически выверенные и синтаксически корректные SVG-изображения для широкого спектра приложений.