LTX-2: Modello Fondamentale Audio-Visivo Congiunto Efficiente
LTX-2: Efficient Joint Audio-Visual Foundation Model
January 6, 2026
Autori: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI
Abstract
I recenti modelli di diffusione text-to-video sono in grado di generare sequenze video convincenti, ma rimangono silenziosi, privi degli indizi semantici, emotivi e atmosferici forniti dall'audio. Presentiamo LTX-2, un modello fondazionale open-source capace di generare contenuti audiovisivi di alta qualità e temporalmente sincronizzati in modo unificato. LTX-2 è composto da un trasformatore a doppio flusso asimmetrico con un flusso video da 14 miliardi di parametri e un flusso audio da 5 miliardi di parametri, accoppiati attraverso strati di cross-attenzione bidirezionale audio-video con incorporamenti posizionali temporali e AdaLN cross-modalità per un condizionamento condiviso del timestep. Questa architettura consente un addestramento e un'inferenza efficienti di un modello audiovisivo unificato, allocando al contempo una maggiore capacità per la generazione video rispetto a quella audio. Utilizziamo un codificatore di testo multilingue per una comprensione più ampia dei prompt e introduciamo un meccanismo di classifier-free guidance consapevole della modalità (modality-CFG) per migliorare l'allineamento e la controllabilità audiovisiva. Oltre a generare parlato, LTX-2 produce tracce audio ricche e coerenti che seguono i personaggi, l'ambiente, lo stile e l'emozione di ogni scena, complete di elementi naturali di sottofondo e foley. Nelle nostre valutazioni, il modello raggiunge una qualità audiovisiva e un'aderenza al prompt allo stato dell'arte tra i sistemi open-source, fornendo risultati paragonabili a quelli di modelli proprietari a una frazione del loro costo computazionale e tempo di inferenza. Tutti i pesi del modello e il codice sono rilasciati pubblicamente.
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.