폐쇄형 세계 모델링을 통한 비디오 아바타의 능동 지능
Active Intelligence in Video Avatars via Closed-loop World Modeling
December 23, 2025
저자: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI
초록
현재 비디오 아바타 생성 방법은 신원 보존과 동작 정렬에서는 뛰어나나 진정한 주체성을 갖추지 못하여, 적응형 환경 상호작용을 통해 장기 목표를 자율적으로 추구할 수 없다. 본 연구는 이러한 한계를 해결하기 위해 확률적 생성 환경에서 목표 지향적 계획 평가를 위한 태스크 및 벤치마크인 L-IVA(Long-horizon Interactive Visual Avatar)와, 비디오 아바타에 능동적 지능을 구현하는 최초의 프레임워크인 ORCA(Online Reasoning and Cognitive Architecture)를 제안한다. ORCA는 내부 세계 모델(Internal World Model, IWM) 능력을 두 가지 핵심 혁신을 통해 구현한다: (1) 관찰-사고-행동-성찰(Observe-Think-Act-Reflect, OTAR) 폐쇄 루프 주기로, 생성된 불확실성 하에서 예측 결과를 실제 생성 결과와 지속적으로 검증하여 강건한 상태 추적을 유지하며, (2) 계층적 이중 시스템 아키텍처로, 시스템 2는 상태 예측을 통한 전략적 추론을 수행하는 반면 시스템 1은 추상적 계획을 정확한 모델별 행동 캡션으로 변환한다. 아바타 제어를 부분 관측 마르코프 결정 과정(POMDP)으로 공식화하고 결과 검증을 통한 지속적 신념 업데이트를 구현함으로써, ORCA는 개방형 도메인 시나리오에서 자율적인 다단계 작업 수행을 가능하게 한다. 폭넓은 실험을 통해 ORCA가 작업 성공률과 행동 일관성에서 개방 루프 및 비성찰 기준선을 크게 능가함을 입증함으로써, 수동적 애니메이션에서 능동적 목표 지향 행동으로 비디오 아바타 지능을 발전시키는 IWM 기반 설계의 타당성을 검증하였다.
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.