ChatPaper.aiChatPaper

LTX-2: Effizientes gemeinsames Audio-Visuelles Foundation Model

LTX-2: Efficient Joint Audio-Visual Foundation Model

January 6, 2026
papers.authors: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI

papers.abstract

Aktuelle Text-zu-Video-Diffusionsmodelle können überzeugende Videosequenzen erzeugen, bleiben jedoch stumm – sie vermissen die semantischen, emotionalen und atmosphärischen Hinweise, die Audio liefert. Wir stellen LTX-2 vor, ein quelloffenes Grundmodell, das in der Lage ist, hochwertige, zeitlich synchronisierte audiovisuelle Inhalte auf einheitliche Weise zu generieren. LTX-2 besteht aus einem asymmetrischen Dual-Stream-Transformer mit einem 14-Milliarden-Parameter-Videostrom und einem 5-Milliarden-Parameter-Audiostrom, die über bidirektionale Audio-Video-Cross-Attention-Schichten mit zeitlichen Positions-Einbettungen und Cross-Modality AdaLN für eine gemeinsame Zeitschrittkonditionierung gekoppelt sind. Diese Architektur ermöglicht ein effizientes Training und Inferenz eines einheitlichen audiovisuellen Modells, wobei mehr Kapazität für die Videogenerierung als für die Audiogenerierung zugewiesen wird. Wir setzen einen multilingualen Text-Encoder für ein breiteres Prompt-Verständnis ein und führen einen modalitätsbewussten Classifier-Free Guidance (Modality-CFG)-Mechanismus für eine verbesserte audiovisuelle Ausrichtung und Steuerbarkeit ein. Über die reine Sprachgenerierung hinaus produziert LTX-2 reichhaltige, kohärente Audiospuren, die den Charakteren, der Umgebung, dem Stil und der Emotion jeder Szene folgen – komplett mit natürlichen Hintergrund- und Geräuscheffekten. In unseren Evaluierungen erreicht das Modell unter quelloffenen Systemen state-of-the-art audiovisuelle Qualität und Prompt-Treue, liefert dabei jedoch Ergebnisse, die mit proprietären Modellen vergleichbar sind, bei einem Bruchteil deren Rechenkosten und Inferenzzeit. Alle Modellgewichte und Codes sind öffentlich zugänglich.
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.
PDF400January 8, 2026