LTX-2: Um Modelo Base Eficiente de Aprendizado Conjunto Áudio-Visual
LTX-2: Efficient Joint Audio-Visual Foundation Model
January 6, 2026
Autores: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI
Resumo
Os recentes modelos de difusão texto-para-vídeo podem gerar sequências de vídeo convincentes, mas permanecem silenciosos — carecendo das pistas semânticas, emocionais e atmosféricas fornecidas pelo áudio. Apresentamos o LTX-2, um modelo fundamental de código aberto capaz de gerar conteúdo audiovisual de alta qualidade e temporalmente sincronizado de forma unificada. O LTX-2 consiste em um transformador de fluxo duplo assimétrico, com um fluxo de vídeo de 14 bilhões de parâmetros e um fluxo de áudio de 5 bilhões de parâmetros, acoplados por meio de camadas bidirecionais de atenção cruzada áudio-vídeo com incorporações posicionais temporais e AdaLN de cross-modalidade para condicionamento compartilhado de passo temporal. Essa arquitetura permite o treinamento e a inferência eficientes de um modelo audiovisual unificado, alocando mais capacidade para a geração de vídeo do que para a geração de áudio. Empregamos um codificador de texto multilíngue para uma compreensão mais ampla dos *prompts* e introduzimos um mecanismo de orientação livre de classificador com consciência de modalidade (modality-CFG) para melhor alinhamento e controlabilidade audiovisual. Além de gerar fala, o LTX-2 produz faixas de áudio ricas e coerentes que seguem os personagens, ambiente, estilo e emoção de cada cena — completas com elementos naturais de fundo e *foley*. Em nossas avaliações, o modelo alcança qualidade audiovisual e aderência ao *prompt* de última geração entre os sistemas de código aberto, enquanto entrega resultados comparáveis aos modelos proprietários a uma fração de seu custo computacional e tempo de inferência. Todos os pesos do modelo e o código são disponibilizados publicamente.
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.