ChatPaper.aiChatPaper

Intelligenza Attiva negli Avatar Video tramite Modellazione del Mondo a Ciclo Chiuso

Active Intelligence in Video Avatars via Closed-loop World Modeling

December 23, 2025
Autori: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI

Abstract

Gli attuali metodi di generazione di avatar video eccellono nella conservazione dell'identità e nell'allineamento del movimento, ma mancano di un'autentica agentività: non possono perseguire autonomamente obiettivi a lungo termine attraverso l'interazione adattiva con l'ambiente. Affrontiamo questa limitazione introducendo L-IVA (Long-horizon Interactive Visual Avatar), un task e benchmark per valutare la pianificazione finalizzata a obiettivi in ambienti generativi stocastici, e ORCA (Online Reasoning and Cognitive Architecture), il primo framework che abilita l'intelligenza attiva negli avatar video. ORCA incorpora capacità di Modello Interno del Mondo (IWM) attraverso due innovazioni chiave: (1) un ciclo OTAR chiuso (Osserva-Pensa-Agisci-Rifletti) che mantiene un tracking robusto dello stato sotto incertezza generativa verificando continuamente gli esiti previsti rispetto alle generazioni effettive, e (2) un'architettura gerarchica a sistema duale in cui il Sistema 2 esegue ragionamento strategico con previsione dello stato mentre il Sistema 1 traduce piani astratti in descrizioni d'azione precise e specifiche del modello. Formulando il controllo dell'avatar come un POMDP e implementando un aggiornamento continuo delle credenze con verifica degli esiti, ORCA consente il completamento autonomo di task multi-step in scenari a dominio aperto. Esperimenti estensivi dimostrano che ORCA supera significativamente i baseline open-loop e non riflessivi in termini di tasso di successo del task e coerenza comportamentale, convalidando il nostro design ispirato all'IWM per avanzare l'intelligenza degli avatar video dall'animazione passiva a comportamenti attivi e orientati a obiettivi.
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.
PDF21December 25, 2025