LTX-2: Um Modelo Base Eficiente de Aprendizado Conjunto Áudio-Visual

Resumo

Os recentes modelos de difusão texto-para-vídeo podem gerar sequências de vídeo convincentes, mas permanecem silenciosos — carecendo das pistas semânticas, emocionais e atmosféricas fornecidas pelo áudio. Apresentamos o LTX-2, um modelo fundamental de código aberto capaz de gerar conteúdo audiovisual de alta qualidade e temporalmente sincronizado de forma unificada. O LTX-2 consiste em um transformador de fluxo duplo assimétrico, com um fluxo de vídeo de 14 bilhões de parâmetros e um fluxo de áudio de 5 bilhões de parâmetros, acoplados por meio de camadas bidirecionais de atenção cruzada áudio-vídeo com incorporações posicionais temporais e AdaLN de cross-modalidade para condicionamento compartilhado de passo temporal. Essa arquitetura permite o treinamento e a inferência eficientes de um modelo audiovisual unificado, alocando mais capacidade para a geração de vídeo do que para a geração de áudio. Empregamos um codificador de texto multilíngue para uma compreensão mais ampla dos *prompts* e introduzimos um mecanismo de orientação livre de classificador com consciência de modalidade (modality-CFG) para melhor alinhamento e controlabilidade audiovisual. Além de gerar fala, o LTX-2 produz faixas de áudio ricas e coerentes que seguem os personagens, ambiente, estilo e emoção de cada cena — completas com elementos naturais de fundo e *foley*. Em nossas avaliações, o modelo alcança qualidade audiovisual e aderência ao *prompt* de última geração entre os sistemas de código aberto, enquanto entrega resultados comparáveis aos modelos proprietários a uma fração de seu custo computacional e tempo de inferência. Todos os pesos do modelo e o código são disponibilizados publicamente.

English

Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.

LTX-2: Um Modelo Base Eficiente de Aprendizado Conjunto Áudio-Visual

LTX-2: Efficient Joint Audio-Visual Foundation Model

Resumo

Support