테스트 타임 트레이닝을 활용한 1분 길이 비디오 생성
One-Minute Video Generation with Test-Time Training
April 7, 2025
저자: Karan Dalal, Daniel Koceja, Gashon Hussein, Jiarui Xu, Yue Zhao, Youjin Song, Shihao Han, Ka Chun Cheung, Jan Kautz, Carlos Guestrin, Tatsunori Hashimoto, Sanmi Koyejo, Yejin Choi, Yu Sun, Xiaolong Wang
cs.AI
초록
오늘날 트랜스포머(Transformers)는 여전히 1분 길이의 비디오를 생성하는 데 어려움을 겪고 있습니다. 이는 긴 문맥을 처리하는 데 있어서 self-attention 레이어가 비효율적이기 때문입니다. Mamba 레이어와 같은 대안들은 복잡한 다중 장면 스토리를 처리하는 데 어려움을 겪는데, 이는 그들의 hidden state가 표현력이 떨어지기 때문입니다. 우리는 Test-Time Training (TTT) 레이어를 실험해 보았는데, 이 레이어의 hidden state 자체가 신경망이 될 수 있어 더 표현력이 뛰어납니다. 사전 학습된 트랜스포머에 TTT 레이어를 추가하면 텍스트 스토리보드에서 1분 길이의 비디오를 생성할 수 있습니다. 개념 증명을 위해, 우리는 톰과 제리 만화를 기반으로 데이터셋을 구축했습니다. Mamba~2, Gated DeltaNet, 슬라이딩 윈도우 attention 레이어와 같은 베이스라인과 비교했을 때, TTT 레이어는 훨씬 더 일관된 비디오를 생성하며 복잡한 스토리를 전달합니다. 각 방법당 100개의 비디오를 대상으로 한 인간 평가에서 34 Elo 점수 차이로 앞섰습니다. 유망한 결과이지만, 여전히 아티팩트가 포함되어 있는데, 이는 사전 학습된 5B 모델의 한계 때문일 가능성이 큽니다. 우리 구현의 효율성도 개선될 여지가 있습니다. 자원 제약으로 인해 1분 길이의 비디오만 실험했지만, 이 접근법은 더 긴 비디오와 더 복잡한 스토리로 확장될 수 있습니다. 샘플 비디오, 코드 및 주석은 https://test-time-training.github.io/video-dit에서 확인할 수 있습니다.
English
Transformers today still struggle to generate one-minute videos because
self-attention layers are inefficient for long context. Alternatives such as
Mamba layers struggle with complex multi-scene stories because their hidden
states are less expressive. We experiment with Test-Time Training (TTT) layers,
whose hidden states themselves can be neural networks, therefore more
expressive. Adding TTT layers into a pre-trained Transformer enables it to
generate one-minute videos from text storyboards. For proof of concept, we
curate a dataset based on Tom and Jerry cartoons. Compared to baselines such as
Mamba~2, Gated DeltaNet, and sliding-window attention layers, TTT layers
generate much more coherent videos that tell complex stories, leading by 34 Elo
points in a human evaluation of 100 videos per method. Although promising,
results still contain artifacts, likely due to the limited capability of the
pre-trained 5B model. The efficiency of our implementation can also be
improved. We have only experimented with one-minute videos due to resource
constraints, but the approach can be extended to longer videos and more complex
stories. Sample videos, code and annotations are available at:
https://test-time-training.github.io/video-ditSummary
AI-Generated Summary