ChatPaper.aiChatPaper

Intelligence active dans les avatars vidéo via la modélisation en boucle fermée du monde

Active Intelligence in Video Avatars via Closed-loop World Modeling

December 23, 2025
papers.authors: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI

papers.abstract

Les méthodes actuelles de génération d'avatars vidéo excellent dans la préservation de l'identité et l'alignement du mouvement, mais manquent d'une véritable agentivité : elles ne peuvent pas poursuivre de manière autonome des objectifs à long terme via une interaction adaptative avec l'environnement. Pour résoudre ce problème, nous présentons L-IVA (Long-horizon Interactive Visual Avatar), une tâche et un benchmark pour évaluer la planification orientée objectifs dans des environnements génératifs stochastiques, ainsi qu'ORCA (Online Reasoning and Cognitive Architecture), le premier cadre permettant une intelligence active dans les avatars vidéo. ORCA intègre des capacités de Modèle Interne du Monde (IWM) grâce à deux innovations clés : (1) un cycle fermé OTAR (Observer-Penser-Agir-Réfléchir) qui maintient un suivi d'état robuste sous incertitude générative en vérifiant continuellement les résultats prédits par rapport aux générations réelles, et (2) une architecture hiérarchique à double système où le Système 2 effectue un raisonnement stratégique avec prédiction d'état tandis que le Système 1 traduit les plans abstraits en légendes d'action précises et spécifiques au modèle. En formulant le contrôle de l'avatar comme un POMDP et en mettant en œuvre une mise à jour continue des croyances avec vérification des résultats, ORCA permet l'accomplissement autonome de tâches multi-étapes dans des scénarios en domaine ouvert. Des expériences approfondies démontrent qu'ORCA surpasse significativement les méthodes de référence en boucle ouverte et non réflexives en termes de taux de réussite des tâches et de cohérence comportementale, validant notre conception inspirée de l'IWM pour faire évoluer l'intelligence des avatars vidéo d'une animation passive vers un comportement actif et orienté objectifs.
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.
PDF21December 25, 2025