ChatPaper.aiChatPaper

xGen-VideoSyn-1: 압축된 표현을 사용한 고품질 텍스트 대 비디오 합성

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

August 22, 2024
저자: Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
cs.AI

초록

저희는 텍스트에서 비디오(xGen-VideoSyn-1)를 생성하는 T2V(T2V) 생성 모델을 제시합니다. 최근 OpenAI의 Sora와 같은 발전을 기반으로, 저희는 잠재 확산 모델(LDM) 아키텍처를 탐구하고 비디오 변이 오토인코더(VidVAE)를 소개합니다. VidVAE는 비디오 데이터를 공간적으로와 시간적으로 모두 압축하여 시각적 토큰의 길이와 장기 시퀀스 비디오 생성에 따른 계산 요구를 크게 줄입니다. 계산 비용을 더 줄이기 위해, 우리는 비디오 세그먼트 간의 시간적 일관성을 유지하는 분할 및 병합 전략을 제안합니다. 저희의 확산 트랜스포머(DiT) 모델은 공간적 및 시간적 셀프 어텐션 레이어를 통합하여 다양한 타임프레임과 종횡비에 걸쳐 강력한 일반화를 가능하게 합니다. 저희는 매우 초기부터 데이터 처리 파이프라인을 설계하고 1300만 개 이상의 고품질 비디오-텍스트 쌍을 수집했습니다. 이 파이프라인에는 클리핑, 텍스트 감지, 모션 추정, 미학 점수 매기기, 그리고 저희의 내부 비디오-LLM 모델을 기반으로 한 밀도 캡션 작성과 같은 여러 단계가 포함되어 있습니다. VidVAE 및 DiT 모델을 훈련하는 데 각각 약 40일과 642 H100일이 소요되었습니다. 저희 모델은 720p 14초 이상의 비디오 생성을 end-to-end 방식으로 지원하며 최첨단 T2V 모델에 대항하여 경쟁력 있는 성능을 보여줍니다.
English
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

Summary

AI-Generated Summary

PDF375November 16, 2024