LTX-2: 効率的な統合音声-映像基盤モデル
LTX-2: Efficient Joint Audio-Visual Foundation Model
January 6, 2026
著者: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI
要旨
近年のテキスト動画拡散モデルは説得力のある映像シーケンスを生成できるが、音声を欠いており――音響が提供する意味的・感情的・雰囲気的な手がかりが不足している。本論文では、高品質で時間的に同期した視聴覚コンテンツを統一的に生成可能なオープンソース基盤モデル「LTX-2」を提案する。LTX-2は非対称型デュアルストリームトランスフォーマー構成を採用し、140億パラメータの映像ストリームと50億パラメータの音声ストリームが、時間的位置埋め込みを備えた双方向視聴覚クロスアテンション層と、共有タイムステップ条件付けのためのクロスモダリティAdaLNによって結合されている。このアーキテクチャにより、音声生成よりも映像生成に多くの容量を割り当てつつ、統合視聴覚モデルの効率的な学習と推論を実現する。多言語テキストエンコーダーを使用してプロンプト理解の汎用性を高め、モダリティ認識型分類器不要ガイダンス(modality-CFG)機構を導入することで視聴覚の整合性と制御性を向上させた。LTX-2は音声生成に留まらず、各シーンの登場人物・環境・スタイル・感情に沿った、自然な背景音や効果音を含む豊かで一貫性のある音響トラックを生成する。評価では、オープンソースシステムにおいて最先端の視聴覚品質とプロンプト遵守性を達成し、専有モデルに比べて計算コストと推論時間を大幅に削減しつつ同等の結果を示した。すべてのモデル重みとコードを公開している。
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.