ChatPaper.aiChatPaper

올라프-월드: 비디오 세계 모델링을 위한 잠재 액션 지향화

Olaf-World: Orienting Latent Actions for Video World Modeling

February 10, 2026
저자: Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou
cs.AI

초록

행동 제어 가능한 세계 모델의 확장은 행동 레이블의 부족으로 인해 제한됩니다. 잠재 행동 학습이 레이블 없는 비디오에서 제어 인터페이스를 추출할 수 있지만, 학습된 잠재 변수들은 종종 맥락 간 전이에 실패합니다: 이들은 장면별 단서와 얽히고 공유 좌표계가 부족합니다. 이는 표준 목적 함수가 각 클립 내에서만 작동하여 맥락 간 행동 의미를 정렬할 메커니즘을 제공하지 않기 때문입니다. 우리의 핵심 통찰은 행동이 관찰되지 않더라도 그 의미적 효과는 관찰 가능하며 공유 기준점으로 기능할 수 있다는 것입니다. 우리는 시퀀스 수준의 제어-효과 정렬 목적 함수인 SeqΔ-REPA를 소개합니다. 이는 통합 잠재 행동을 고정된 자기 지도 비디오 인코더의 시간적 특징 차이에 정착시킵니다. 이를 기반으로 대규모 수동적 비디오에서 행동 조건 비디오 세계 모델을 사전 학습하는 Olaf-World 파이프라인을 제시합니다. 광범위한 실험을 통해 우리의 방법이 더 구조화된 잠재 행동 공간을 학습하여 최첨단 기준선 대비 향상된 제로샷 행동 전이 성능과 새로운 제어 인터페이스에 대한 더 높은 데이터 효율성 적응력을 보여줌을 입증합니다.
English
Scaling action-controllable world models is limited by the scarcity of action labels. While latent action learning promises to extract control interfaces from unlabeled video, learned latents often fail to transfer across contexts: they entangle scene-specific cues and lack a shared coordinate system. This occurs because standard objectives operate only within each clip, providing no mechanism to align action semantics across contexts. Our key insight is that although actions are unobserved, their semantic effects are observable and can serve as a shared reference. We introduce SeqΔ-REPA, a sequence-level control-effect alignment objective that anchors integrated latent action to temporal feature differences from a frozen, self-supervised video encoder. Building on this, we present Olaf-World, a pipeline that pretrains action-conditioned video world models from large-scale passive video. Extensive experiments demonstrate that our method learns a more structured latent action space, leading to stronger zero-shot action transfer and more data-efficient adaptation to new control interfaces than state-of-the-art baselines.
PDF221February 12, 2026