ChatPaper.aiChatPaper

LTX-2: 효율적인 결합형 오디오-비주얼 파운데이션 모델

LTX-2: Efficient Joint Audio-Visual Foundation Model

January 6, 2026
저자: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI

초록

최근의 텍스트-비디오 확산 모델은 매력적인 비디오 시퀀스를 생성할 수 있지만, 여전히 무음 상태입니다. 이는 오디오가 제공하는 의미론적, 정서적, 분위기적 단서가 부족함을 의미합니다. 우리는 통합된 방식으로 고품질의 시간적 동기화가 된 오디오비주얼 콘텐츠를 생성할 수 있는 오픈소스 기반 모델인 LTX-2를 소개합니다. LTX-2는 140억 개의 매개변수를 가진 비디오 스트림과 50억 개의 매개변수를 가진 오디오 스트림으로 구성된 비대칭 이중 스트림 트랜스포머로, 시간적 위치 임베딩과 공유 timestep 조건화를 위한 교차 모달리티 AdaLN을 갖춘 양방향 오디오-비디오 교차 주의 계층을 통해 결합됩니다. 이 아키텍처는 오디오 생성보다 비디오 생성에 더 많은 용량을 할당하면서도 통합 오디오비주얼 모델의 효율적인 학습과 추론을 가능하게 합니다. 우리는 더 넓은 프롬프트 이해를 위해 다국어 텍스트 인코더를 사용하며, 개선된 오디오비주얼 정렬과 제어 가능성을 위한 모달리티 인식 classifier-free guidance(modality-CFG) 메커니즘을 도입했습니다. LTX-2는 음성 생성을 넘어, 각 장면의 등장인물, 환경, 스타일, 감정을 따라가는 풍부하고 일관된 오디오 트랙(자연스러운 배경음과 폴리 효과를 포함)을 생성합니다. 평가 결과, 본 모델은 오픈소스 시스템 중에서 최첨단의 오디오비주얼 품질과 프롬프트 준수도를 달성했으며, 독점 모델에 필적하는 결과를 훨씬 낮은 계산 비용과 추론 시간으로 제공합니다. 모든 모델 가중치와 코드는 공개되었습니다.
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.
PDF400January 8, 2026