ChatPaper.aiChatPaper

LTX-2: Modelo Fundacional Audio-Visual Conjunto Eficiente

LTX-2: Efficient Joint Audio-Visual Foundation Model

January 6, 2026
Autores: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI

Resumen

Los modelos de difusión recientes de texto a vídeo pueden generar secuencias de vídeo convincentes, pero permanecen silenciosos, careciendo de las pistas semánticas, emocionales y atmosféricas que proporciona el audio. Presentamos LTX-2, un modelo fundamental de código abierto capaz de generar contenido audiovisual de alta calidad y temporalmente sincronizado de manera unificada. LTX-2 consiste en un transformador de doble flujo asimétrico con un flujo de vídeo de 14B parámetros y un flujo de audio de 5B parámetros, acoplados mediante capas de atención cruzada audio-vídeo bidireccionales con codificaciones posicionales temporales y AdaLN de cross-modalidad para un condicionamiento compartido del paso de tiempo. Esta arquitectura permite un entrenamiento e inferencia eficientes de un modelo audiovisual unificado, asignando más capacidad para la generación de vídeo que para la generación de audio. Empleamos un codificador de texto multilingüe para una comprensión más amplia de los prompts e introducimos un mecanismo de guía libre de clasificadores consciente de la modalidad (modality-CFG) para mejorar la alineación y controlabilidad audiovisual. Más allá de generar voz, LTX-2 produce pistas de audio ricas y coherentes que siguen a los personajes, el entorno, el estilo y la emoción de cada escena, completas con elementos de sonido ambiente y foley naturales. En nuestras evaluaciones, el modelo logra una calidad audiovisual y adherencia al prompt de vanguardia entre los sistemas de código abierto, ofreciendo resultados comparables a los modelos propietarios con una fracción de su coste computacional y tiempo de inferencia. Todos los pesos del modelo y el código se han publicado públicamente.
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.
PDF400January 8, 2026