DropletVideo: 통합 시공간 일관성 비디오 생성 탐구를 위한 데이터셋 및 접근법DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal
Consistent Video Generation
시공간적 일관성은 비디오 생성 분야에서 중요한 연구 주제입니다. 적절하게 생성된 비디오 세그먼트는 플롯의 타당성과 일관성을 보장해야 하며, 동시에 다양한 시점에서 객체와 장면의 시각적 일관성을 유지해야 합니다. 기존 연구, 특히 오픈소스 프로젝트에서는 주로 시간적 또는 공간적 일관성, 또는 이들의 기본적인 결합에 초점을 맞추었습니다. 예를 들어, 프롬프트 뒤에 카메라 이동에 대한 설명을 추가하되, 이 이동의 결과를 제약하지 않는 방식이었습니다. 그러나 카메라 이동은 장면에 새로운 객체를 추가하거나 기존 객체를 제거할 수 있으며, 이로 인해 이전의 내러티브가 중첩되거나 영향을 받을 수 있습니다. 특히 카메라 이동이 빈번한 비디오에서는 여러 플롯 간의 상호작용이 점점 더 복잡해집니다. 본 논문은 플롯 진행과 카메라 기법 간의 시너지, 그리고 이전 콘텐츠가 후속 생성에 미치는 장기적인 영향을 고려한 통합적 시공간 일관성을 소개하고 검토합니다. 우리의 연구는 데이터셋 구축부터 모델 개발까지를 포괄합니다. 먼저, 동적 카메라 모션과 객체 동작을 포함한 1,000만 개의 비디오로 구성된 DropletVideo-10M 데이터셋을 구축했습니다. 각 비디오는 다양한 카메라 이동과 플롯 전개를 상세히 설명하는 평균 206단어의 캡션으로 주석 처리되었습니다. 이어서, 비디오 생성 과정에서 시공간적 일관성을 유지하는 데 탁월한 성능을 보이는 DropletVideo 모델을 개발하고 학습시켰습니다. DropletVideo 데이터셋과 모델은 https://dropletx.github.io에서 확인할 수 있습니다.