LTX-2: Modello Fondamentale Audio-Visivo Congiunto Efficiente

Abstract

I recenti modelli di diffusione text-to-video sono in grado di generare sequenze video convincenti, ma rimangono silenziosi, privi degli indizi semantici, emotivi e atmosferici forniti dall'audio. Presentiamo LTX-2, un modello fondazionale open-source capace di generare contenuti audiovisivi di alta qualità e temporalmente sincronizzati in modo unificato. LTX-2 è composto da un trasformatore a doppio flusso asimmetrico con un flusso video da 14 miliardi di parametri e un flusso audio da 5 miliardi di parametri, accoppiati attraverso strati di cross-attenzione bidirezionale audio-video con incorporamenti posizionali temporali e AdaLN cross-modalità per un condizionamento condiviso del timestep. Questa architettura consente un addestramento e un'inferenza efficienti di un modello audiovisivo unificato, allocando al contempo una maggiore capacità per la generazione video rispetto a quella audio. Utilizziamo un codificatore di testo multilingue per una comprensione più ampia dei prompt e introduciamo un meccanismo di classifier-free guidance consapevole della modalità (modality-CFG) per migliorare l'allineamento e la controllabilità audiovisiva. Oltre a generare parlato, LTX-2 produce tracce audio ricche e coerenti che seguono i personaggi, l'ambiente, lo stile e l'emozione di ogni scena, complete di elementi naturali di sottofondo e foley. Nelle nostre valutazioni, il modello raggiunge una qualità audiovisiva e un'aderenza al prompt allo stato dell'arte tra i sistemi open-source, fornendo risultati paragonabili a quelli di modelli proprietari a una frazione del loro costo computazionale e tempo di inferenza. Tutti i pesi del modello e il codice sono rilasciati pubblicamente.

English

Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.

LTX-2: Modello Fondamentale Audio-Visivo Congiunto Efficiente

LTX-2: Efficient Joint Audio-Visual Foundation Model

Abstract

Support