LTX-2: Efficiënt gezamenlijk audio-visueel fundamentmodel
LTX-2: Efficient Joint Audio-Visual Foundation Model
January 6, 2026
Auteurs: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI
Samenvatting
Recente tekst-naar-video diffusiemodellen kunnen overtuigende videosequenties genereren, maar ze blijven stil – ze missen de semantische, emotionele en sfeervolle aanwijzingen die audio biedt. Wij introduceren LTX-2, een open-source foundation-model dat in staat is om op een uniforme manier hoogwaardige, temporeel gesynchroniseerde audiovisuele content te genereren. LTX-2 bestaat uit een asymmetrische dual-stream transformer met een videostream van 14B parameters en een audiostream van 5B parameters, die met elkaar zijn verbonden via bidirectionele audio-video cross-attentielagen met temporele positionele embeddings en cross-modality AdaLN voor gedeelde timestep-conditionering. Deze architectuur maakt efficiënte training en inferentie van een uniform audiovisueel model mogelijk, waarbij meer capaciteit wordt toegewezen aan videogeneratie dan aan audiogeneratie. Wij gebruiken een meertalige tekstencoder voor een breder begrip van prompts en introduceren een modality-aware classifier-free guidance (modality-CFG) mechanisme voor verbeterde audiovisuele afstemming en beheerbaarheid. Naast het genereren van spraak produceert LTX-2 rijke, coherente audiotracks die de personages, omgeving, stijl en emotie van elke scène volgen – compleet met natuurlijke achtergrond- en foley-elementen. In onze evaluaties behaalt het model state-of-the-art audiovisuele kwaliteit en promptnaleving onder open-source systemen, terwijl het resultaten levert die vergelijkbaar zijn met propriëtaire modellen tegen een fractie van hun rekenkosten en inferentietijd. Alle modelgewichten en code zijn openbaar vrijgegeven.
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.