ChatPaper.aiChatPaper

Inteligencia Activa en Avatares de Video mediante Modelado del Mundo en Bucle Cerrado

Active Intelligence in Video Avatars via Closed-loop World Modeling

December 23, 2025
Autores: Xuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen
cs.AI

Resumen

Los métodos actuales de generación de avatares en video sobresalen en preservación de identidad y alineación de movimiento, pero carecen de agencia genuina; no pueden perseguir objetivos a largo plazo de forma autónoma mediante la interacción adaptativa con el entorno. Abordamos este problema presentando L-IVA (Avatar Visual Interactivo de Largo Horizonte), una tarea y benchmark para evaluar la planificación dirigida a objetivos en entornos generativos estocásticos, y ORCA (Arquitectura de Razonamiento y Cognición en Línea), el primer marco que permite la inteligencia activa en avatares de video. ORCA incorpora capacidades de Modelo Interno del Mundo (IWM) mediante dos innovaciones clave: (1) un ciclo cerrado OTAR (Observar-Pensar-Actuar-Reflexionar) que mantiene un seguimiento robusto del estado bajo incertidumbre generativa mediante la verificación continua de los resultados previstos frente a las generaciones reales, y (2) una arquitectura jerárquica de sistema dual donde el Sistema 2 realiza razonamiento estratégico con predicción de estados mientras el Sistema 1 traduce planes abstractos en descripciones de acción precisas y específicas del modelo. Al formular el control del avatar como un POMDP e implementar una actualización continua de creencias con verificación de resultados, ORCA permite la finalización autónoma de tareas multi-etapa en escenarios de dominio abierto. Experimentos exhaustivos demuestran que ORCA supera significativamente a los baselines de bucle abierto y no reflexivos en tasa de éxito de tareas y coherencia conductual, validando nuestro diseño inspirado en IWM para avanzar la inteligencia de los avatares de video desde la animación pasiva hacia comportamientos activos y orientados a objetivos.
English
Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.
PDF21December 25, 2025