ChatPaper.aiChatPaper

도전적인 주행 경로에서 물리적 일관성을 갖춘 주행 영상 세계 모델 구축

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

March 25, 2026
저자: Jiawei Zhou, Zhenxin Zhu, Lingyi Du, Linye Lyu, Lijun Zhou, Zhanqian Wu, Hongcheng Luo, Zhuotao Tian, Bing Wang, Guang Chen, Hangjun Ye, Haiyang Sun, Yu Li
cs.AI

초록

비디오 생성 모델은 자율주행 시뮬레이션을 위한 세계 모델로서 강력한 잠재력을 보여주고 있습니다. 그러나 기존 접근법은 주로 실제 주행 데이터셋으로 학습되며, 이는 대부분 정상적이고 안전한 주행 시나리오로 구성되어 있습니다. 그 결과, 현재 모델들은 시뮬레이터나 계획 시스템에서 생성된 불완전한 궤적과 같은 어려운 또는 반사실적 궤적을 조건으로 할 때 종종 실패하며, 심각한 물리적 불일치와 아티팩트가 있는 비디오를 생성합니다. 이러한 한계를 해결하기 위해 우리는 높은 시각적 충실도와 강력한 물리적 일관성을 갖춘 주행 비디오 생성을 위해 설계된 세계 모델인 PhyGenesis를 제안합니다. 우리의 프레임워크는 두 가지 핵심 구성 요소로 이루어집니다: (1) 잠재적으로 유효하지 않은 궤적 입력을 물리적으로 타당한 조건으로 변환하는 물리적 조건 생성기와 (2) 이러한 조건 하에서 높은 충실도의 다중 뷰 주행 비디오를 생성하는 물리학 향상 비디오 생성기입니다. 이러한 구성 요소를 효과적으로 학습시키기 위해 우리는 대규모의 물리학적으로 풍부한 이종 데이터셋을 구축합니다. 구체적으로, 실제 주행 비디오 외에도 CARLA 시뮬레이터를 사용하여 다양한 어려운 주행 시나리오를 생성하고, 이를 통해 극한 조건 하에서 물리적으로 근거 있는 동역학을 학습하도록 모델을 지도하는 감독 신호를 도출합니다. 이 어려운-궤적 학습 전략은 궤적 보정을 가능하게 하고 물리적으로 일관된 비디오 생성을 촉진합니다. 광범위한 실험을 통해 PhyGenesis가 특히 어려운 궤적에서 최첨단 방법들을 지속적으로 능가함을 입증합니다. 우리의 프로젝트 페이지는 https://wm-research.github.io/PhyGenesis/에서 확인할 수 있습니다.
English
Video generation models have shown strong potential as world models for autonomous driving simulation. However, existing approaches are primarily trained on real-world driving datasets, which mostly contain natural and safe driving scenarios. As a result, current models often fail when conditioned on challenging or counterfactual trajectories-such as imperfect trajectories generated by simulators or planning systems-producing videos with severe physical inconsistencies and artifacts. To address this limitation, we propose PhyGenesis, a world model designed to generate driving videos with high visual fidelity and strong physical consistency. Our framework consists of two key components: (1) a physical condition generator that transforms potentially invalid trajectory inputs into physically plausible conditions, and (2) a physics-enhanced video generator that produces high-fidelity multi-view driving videos under these conditions. To effectively train these components, we construct a large-scale, physics-rich heterogeneous dataset. Specifically, in addition to real-world driving videos, we generate diverse challenging driving scenarios using the CARLA simulator, from which we derive supervision signals that guide the model to learn physically grounded dynamics under extreme conditions. This challenging-trajectory learning strategy enables trajectory correction and promotes physically consistent video generation. Extensive experiments demonstrate that PhyGenesis consistently outperforms state-of-the-art methods, especially on challenging trajectories. Our project page is available at: https://wm-research.github.io/PhyGenesis/.
PDF31March 27, 2026