Actieve Intelligentie in Video-avatars via Gesloten-lus Wereldmodellering
Active Intelligence in Video Avatars via Closed-loop World Modeling
December 23, 2025
Auteurs: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI
Samenvatting
Huidige methoden voor videogeneratie van avatars blinken uit in identiteitsbehoud en bewegingsalignering, maar missen daadwerkelijk handelingsvermogen; ze kunnen niet autonoom langetermijndoelen nastreven via adaptieve interactie met de omgeving. Wij pakken dit aan door de introductie van L-IVA (Long-horizon Interactive Visual Avatar), een taak en benchmark voor het evalueren van doelgericht plannen in stochastische generatieve omgevingen, en ORCA (Online Reasoning and Cognitive Architecture), het eerste framework dat actieve intelligentie in video-avatars mogelijk maakt. ORCA belichaamt Internal World Model (IWM)-capaciteiten door twee belangrijke innovaties: (1) een gesloten OTAR-cyclus (Observeren-Denken-Handelen-Reflecteren) die robuuste staatstracking onderhoudt onder generatieve onzekerheid door voorspelde uitkomsten continu te verifiëren tegen werkelijke generaties, en (2) een hiërarchische dual-systemarchitectuur waarbij Systeem 2 strategisch redeneert met staatspredictie, terwijl Systeem 1 abstracte plannen vertaalt naar precieze, modelspecifieke actiebeschrijvingen. Door avatarcontrole te formuleren als een POMDP en continue geloofsupdating met uitkomstverificatie te implementeren, stelt ORCA autonome multi-stap taakvoltooiing mogelijk in open-domeinscenario's. Uitgebreide experimenten tonen aan dat ORCA open-loop en niet-reflecterende baseline-methoden significant overtreft in taaksuccespercentage en gedragssamenhang, wat onze IWM-geïnspireerde ontwerpvalideert voor het bevorderen van video-avatarintelligentie van passieve animatie naar actief, doelgericht gedrag.
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.