ChatPaper.aiChatPaper

협업적 비디오 확산: 카메라 제어를 통한 일관된 다중 비디오 생성

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

May 27, 2024
저자: Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein
cs.AI

초록

비디오 생성 연구는 최근 엄청난 진전을 이루며 텍스트 프롬프트나 이미지로부터 고품질 비디오를 생성할 수 있게 되었습니다. 비디오 생성 과정에 제어를 추가하는 것은 앞으로 나아가야 할 중요한 목표이며, 최근 카메라 궤적을 조건으로 하는 비디오 생성 모델 접근법은 이를 향해 큰 진전을 이루었습니다. 그러나 동일한 장면을 여러 다른 카메라 궤적에서 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 이러한 다중 비디오 생성 문제에 대한 해결책은 편집 가능한 카메라 궤적을 포함한 대규모 3D 장면 생성 등 다양한 응용 분야를 가능하게 할 수 있습니다. 우리는 이러한 비전을 향한 중요한 단계로 협업 비디오 확산(Collaborative Video Diffusion, CVD)을 소개합니다. CVD 프레임워크는 에피폴라 어텐션 메커니즘을 사용하여 서로 다른 카메라 포즈에서 렌더링된 동일한 비디오의 해당 프레임 간 일관성을 촉진하는 새로운 교차 비디오 동기화 모듈을 포함합니다. 최신 카메라 제어 모듈 위에서 훈련된 CVD는 다양한 카메라 궤적에서 렌더링된 여러 비디오를 생성하며, 광범위한 실험에서 보여준 바와 같이 기준선보다 훨씬 더 나은 일관성을 보입니다. 프로젝트 페이지: https://collaborativevideodiffusion.github.io/.
English
Research on video generation has recently made tremendous progress, enabling high-quality videos to be generated from text prompts or images. Adding control to the video generation process is an important goal moving forward and recent approaches that condition video generation models on camera trajectories make strides towards it. Yet, it remains challenging to generate a video of the same scene from multiple different camera trajectories. Solutions to this multi-video generation problem could enable large-scale 3D scene generation with editable camera trajectories, among other applications. We introduce collaborative video diffusion (CVD) as an important step towards this vision. The CVD framework includes a novel cross-video synchronization module that promotes consistency between corresponding frames of the same video rendered from different camera poses using an epipolar attention mechanism. Trained on top of a state-of-the-art camera-control module for video generation, CVD generates multiple videos rendered from different camera trajectories with significantly better consistency than baselines, as shown in extensive experiments. Project page: https://collaborativevideodiffusion.github.io/.
PDF120December 12, 2024