Inteligência Ativa em Avatares de Vídeo por meio de Modelagem de Mundo em Malha Fechada

Resumo

Os métodos atuais de geração de avatares em vídeo destacam-se na preservação de identidade e no alinhamento de movimento, mas carecem de agência genuína, sendo incapazes de perseguir objetivos de longo prazo autonomamente por meio da interação adaptativa com o ambiente. Abordamos esta limitação introduzindo L-IVA (Avatar Visual Interativo de Longo Horizonte), uma tarefa e benchmark para avaliar o planejamento orientado a objetivos em ambientes generativos estocásticos, e ORCA (Arquitetura de Raciocínio e Cognição Online), o primeiro framework que possibilita inteligência ativa em avatares de vídeo. O ORCA incorpora capacidades de Modelo Interno do Mundo (IWM) através de duas inovações principais: (1) um ciclo OTAR em malha fechada (Observar-Pensar-Agir-Refletir) que mantém o rastreamento robusto de estados sob incerteza generativa, verificando continuamente os resultados previstos em relação às gerações reais, e (2) uma arquitetura hierárquica de sistema duplo onde o Sistema 2 realiza raciocínio estratégico com previsão de estados enquanto o Sistema 1 traduz planos abstratos em legendas de ação precisas e específicas do modelo. Ao formular o controle de avatares como um POMDP e implementar atualização contínua de crenças com verificação de resultados, o ORCA possibilita a conclusão autônoma de tarefas multi-etapa em cenários de domínio aberto. Experimentos extensivos demonstram que o ORCA supera significativamente as linhas de base de malha aberta e não reflexivas na taxa de sucesso de tarefas e coerência comportamental, validando nosso projeto inspirado no IWM para avançar a inteligência de avatares em vídeo da animação passiva para comportamentos ativos e orientados a objetivos.

English

Current video avatar generation methods excel at identity preservation and motion alignment but lack genuine agency, they cannot autonomously pursue long-term goals through adaptive environmental interaction. We address this by introducing L-IVA (Long-horizon Interactive Visual Avatar), a task and benchmark for evaluating goal-directed planning in stochastic generative environments, and ORCA (Online Reasoning and Cognitive Architecture), the first framework enabling active intelligence in video avatars. ORCA embodies Internal World Model (IWM) capabilities through two key innovations: (1) a closed-loop OTAR cycle (Observe-Think-Act-Reflect) that maintains robust state tracking under generative uncertainty by continuously verifying predicted outcomes against actual generations, and (2) a hierarchical dual-system architecture where System 2 performs strategic reasoning with state prediction while System 1 translates abstract plans into precise, model-specific action captions. By formulating avatar control as a POMDP and implementing continuous belief updating with outcome verification, ORCA enables autonomous multi-step task completion in open-domain scenarios. Extensive experiments demonstrate that ORCA significantly outperforms open-loop and non-reflective baselines in task success rate and behavioral coherence, validating our IWM-inspired design for advancing video avatar intelligence from passive animation to active, goal-oriented behavior.