Aktive Intelligenz in Videoavataren durch geschlossene Weltmodellierung
Active Intelligence in Video Avatars via Closed-loop World Modeling
December 23, 2025
papers.authors: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI
papers.abstract
Aktuelle Methoden zur Videoavatargenerierung zeichnen sich zwar durch hohe Identitätserhaltung und Bewegungsabstimmung aus, mangelt es ihnen jedoch an echter Handlungsfähigkeit; sie können langfristige Ziele nicht autonom durch adaptive Umweltinteraktion verfolgen. Wir adressieren dies durch die Einführung von L-IVA (Long-horizon Interactive Visual Avatar), einer Aufgabe und Benchmark zur Bewertung zielgerichteter Planung in stochastischen generativen Umgebungen, und ORCA (Online Reasoning and Cognitive Architecture), dem ersten Framework, das aktive Intelligenz in Videoavataren ermöglicht. ORCA verkörpert Fähigkeiten eines Internen Weltmodells (IWM) durch zwei zentrale Innovationen: (1) einen geschlossenen OTAR-Zyklus (Observe-Think-Act-Reflect), der unter generativer Unsicherheit einen robusten Zustandstracking durch kontinuierliche Verifikation vorhergesagter Ergebnisse mit tatsächlichen Generierungen aufrechterhält, und (2) eine hierarchische Dual-System-Architektur, bei der System 2 strategische Schlussfolgerungen mit Zustandsprädiktion durchführt, während System 1 abstrakte Pläne in präzise, modellspezifische Aktionsbeschriftungen übersetzt. Indem die Avatarsteuerung als POMDP formuliert und kontinuierliche Belief-Aktualisierung mit Ergebniskontrolle implementiert wird, ermöglicht ORCA autonome Mehrschritt-Aufgabenerfüllung in offenen Domänen. Umfangreiche Experimente zeigen, dass ORCA Open-Loop- und nicht-reflektierende Baseline-Methoden deutlich in Aufgaben-Erfolgsrate und Verhaltenskohärenz übertrifft, was unseren IWM-inspirierten Entwurf zur Weiterentwicklung von Videoavatar-Intelligenz von passiver Animation hin zu aktivem, zielorientiertem Verhalten validiert.
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.