ChatPaper.aiChatPaper

Активный интеллект в видеоаватарах через замкнутое моделирование мира

Active Intelligence in Video Avatars via Closed-loop World Modeling

December 23, 2025
Авторы: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI

Аннотация

Современные методы генерации видеоаватаров демонстрируют высокие результаты в сохранении идентичности и согласовании движений, но лишены подлинной агентности — они не способны автономно достигать долгосрочных целей через адаптивное взаимодействие со средой. Для решения этой проблемы мы представляем L-IVA (Long-horizon Interactive Visual Avatar) — задачу и бенчмарк для оценки целенаправленного планирования в стохастических генеративных средах, а также ORCA (Online Reasoning and Cognitive Architecture) — первую архитектуру, обеспечивающую активный интеллект видеоаватаров. ORCA реализует концепцию Внутренней Модели Мира (ВММ) за счет двух ключевых инноваций: (1) замкнутого цикла OTAR (Наблюдение-Мысль-Действие-Рефлексия), который поддерживает надежное отслеживание состояния в условиях генеративной неопределенности путем постоянной проверки прогнозируемых результатов против фактических генераций, и (2) иерархической двухсистемной архитектуры, где Система 2 осуществляет стратегическое планирование с предсказанием состояний, а Система 1 транслирует абстрактные планы в точные, специфичные для модели текстовые описания действий. Формулируя управление аватаром как частично наблюдаемый марковский процесс (POMDP) и реализуя непрерывное обновление убеждений с верификацией результатов, ORCA обеспечивает автономное выполнение многошаговых задач в открытых доменах. Масштабные эксперименты показывают, что ORCA значительно превосходит разомкнутые и нерефлексивные базовые методы по показателям успешности задач и поведенческой согласованности, подтверждая эффективность нашей архитектуры, вдохновленной ВММ, для развития интеллекта видеоаватаров от пассивной анимации к активному целенаправленному поведению.
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.
PDF21December 25, 2025