Olaf-World: Orientare le Azioni Latenti per la Modellazione del Mondo Video
Olaf-World: Orienting Latent Actions for Video World Modeling
February 10, 2026
Autori: Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou
cs.AI
Abstract
La scalabilità dei modelli del mondo controllabili tramite azioni è limitata dalla scarsità di etichette azionali. Sebbene l'apprendimento di azioni latenti prometta di estrarre interfacce di controllo da video non etichettati, i latenti appresi spesso non riescono a trasferirsi tra contesti diversi: essi tendono a fondere indizi specifici della scena e mancano di un sistema di coordinate condiviso. Ciò accade perché gli obiettivi standard operano solo all'interno di ogni clip, senza fornire un meccanismo per allineare la semantica delle azioni tra contesti. La nostra intuizione chiave è che, sebbene le azioni non siano osservate, i loro effetti semantici sono osservabili e possono fungere da riferimento condiviso. Introduciamo SeqΔ-REPA, un obiettivo di allineamento controllo-effetto a livello di sequenza che ancorà l'azione latente integrata alle differenze temporali delle feature provenienti da un codificatore video auto-supervisionato e congelato. Su questa base, presentiamo Olaf-World, una pipeline che effettua il pre-addestramento di modelli video del mondo condizionati all'azione a partire da video passivi su larga scala. Esperimenti estensivi dimostrano che il nostro metodo apprende uno spazio d'azione latente più strutturato, portando a un trasferimento zero-shot delle azioni più efficace e a un'adattamento più efficiente in termini di dati a nuove interfacce di controllo rispetto ai baseline state-of-the-art.
English
Scaling action-controllable world models is limited by the scarcity of action labels. While latent action learning promises to extract control interfaces from unlabeled video, learned latents often fail to transfer across contexts: they entangle scene-specific cues and lack a shared coordinate system. This occurs because standard objectives operate only within each clip, providing no mechanism to align action semantics across contexts. Our key insight is that although actions are unobserved, their semantic effects are observable and can serve as a shared reference. We introduce SeqΔ-REPA, a sequence-level control-effect alignment objective that anchors integrated latent action to temporal feature differences from a frozen, self-supervised video encoder. Building on this, we present Olaf-World, a pipeline that pretrains action-conditioned video world models from large-scale passive video. Extensive experiments demonstrate that our method learns a more structured latent action space, leading to stronger zero-shot action transfer and more data-efficient adaptation to new control interfaces than state-of-the-art baselines.