閉ループ世界モデリングによるビデオアバターの能動的知性
Active Intelligence in Video Avatars via Closed-loop World Modeling
December 23, 2025
著者: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI
要旨
現在のビデオアバター生成技術は、同一性の維持と動作の整合性において優れているが、真の自律性に欠けており、適応的な環境相互作用を通じて長期的な目標を自律的に追求することができない。本研究ではこの問題に対処するため、確率的生成環境における目標指向の計画策定を評価するタスクおよびベンチマークであるL-IVA(Long-horizon Interactive Visual Avatar)と、ビデオアバターに能動的知能を付与する初のフレームワークであるORCA(Online Reasoning and Cognitive Architecture)を提案する。ORCAは、内的世界モデル(IWM)の能力を具現化するために、以下の2つの革新的技術を導入する:(1)観測-思考-行動-振り返り(OTAR)からなる閉ループサイクルにより、生成的不確実性下でも予測結果と実際の生成結果を継続的に照合することで、頑健な状態追跡を実現する。(2)システム2が状態予測を伴う戦略的推論を行い、システム1が抽象的な計画をモデル固有の精密な行動キャプションに変換する、階層型二重システムアーキテクチャ。アバター制御を部分観測マルコフ決定過程(POMDP)として定式化し、結果検証を用いた継続的な信念更新を実装することで、ORCAは開放領域シナリオにおける自律的な多段階タスク完遂を可能とする。大規模な実験により、ORCAがタスク成功率と行動の一貫性において、オープンループベースラインや非内省的ベースラインを大幅に上回ることを実証し、受動的なアニメーションから能動的・目標指向の行動へとビデオアバターの知能を進化させるIWMに着想を得た設計の有効性を検証した。
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.