Olaf-World: Orientando Ações Latentes para Modelagem de Mundos em Vídeo

Resumo

A escalabilidade de modelos de mundo controláveis por ações é limitada pela escassez de etiquetas de ação. Embora a aprendizagem de ações latentes prometa extrair interfaces de controle de vídeos não anotados, os latentes aprendidos frequentemente falham na transferência entre contextos: eles entrelaçam pistas específicas da cena e carecem de um sistema de coordenadas compartilhado. Isso ocorre porque os objetivos padrão operam apenas dentro de cada clipe, não fornecendo nenhum mecanismo para alinhar a semântica das ações entre contextos. Nossa principal perceção é que, embora as ações não sejam observadas, os seus efeitos semânticos são observáveis e podem servir como uma referência compartilhada. Introduzimos o SeqΔ-REPA, um objetivo de alinhamento de controlo-efeito a nível de sequência que ancora a ação latente integrada a diferenças de características temporais de um codificador de vídeo auto supervisionado e congelado. Com base nisto, apresentamos o Olaf-World, um *pipeline* que pré-treina modelos de mundo de vídeo condicionados por ação a partir de vídeo passivo em larga escala. Experimentos extensivos demonstram que o nosso método aprende um espaço de ação latente mais estruturado, resultando numa transferência de ação *zero-shot* mais robusta e numa adaptação mais eficiente em termos de dados a novas interfaces de controlo do que os métodos state-of-the-art de comparação.

English

Scaling action-controllable world models is limited by the scarcity of action labels. While latent action learning promises to extract control interfaces from unlabeled video, learned latents often fail to transfer across contexts: they entangle scene-specific cues and lack a shared coordinate system. This occurs because standard objectives operate only within each clip, providing no mechanism to align action semantics across contexts. Our key insight is that although actions are unobserved, their semantic effects are observable and can serve as a shared reference. We introduce SeqΔ-REPA, a sequence-level control-effect alignment objective that anchors integrated latent action to temporal feature differences from a frozen, self-supervised video encoder. Building on this, we present Olaf-World, a pipeline that pretrains action-conditioned video world models from large-scale passive video. Extensive experiments demonstrate that our method learns a more structured latent action space, leading to stronger zero-shot action transfer and more data-efficient adaptation to new control interfaces than state-of-the-art baselines.

Olaf-World: Orientando Ações Latentes para Modelagem de Mundos em Vídeo

Olaf-World: Orienting Latent Actions for Video World Modeling

Resumo

Support