ChatPaper.aiChatPaper

LTX-2: Эффективная совместная аудиовизуальная базовая модель

LTX-2: Efficient Joint Audio-Visual Foundation Model

January 6, 2026
Авторы: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
cs.AI

Аннотация

Современные диффузионные модели для генерации видео по тексту способны создавать убедительные видеопоследовательности, однако они остаются беззвучными — лишаясь семантических, эмоциональных и атмосферных сигналов, которые обеспечивает звук. Мы представляем LTX-2, модель открытого типа, способную единообразно генерировать высококачественный аудиовизуальный контент с временной синхронизацией. LTX-2 состоит из асимметричного двухпотокового трансформера с видеопотоком на 14 млрд параметров и аудиопотоком на 5 млрд параметров, соединённых посредством двунаправленных кросс-вниманий между аудио и видео со временными позиционными эмбеддингами и кросс-модальным AdaLN для совместного кондиционирования по временным шагам. Такая архитектура позволяет эффективно обучать и использовать единую аудиовизуальную модель, выделяя больше ресурсов на генерацию видео, чем на генерацию аудио. Мы используем многоязычный текстовый энкодер для лучшего понимания запросов и вводим механизм модально-зависимого классификатор-фри гайдинга (modality-CFG) для улучшения согласованности аудио и видео и повышения управляемости. Помимо генерации речи, LTX-2 создаёт богатые, связные звуковые дорожки, которые отражают персонажей, окружение, стиль и эмоции каждой сцены — включая естественные фоновые и фоули-элементы. По результатам наших оценок модель демонстрирует передовое качество аудиовизуального контента и соответствие запросам среди открытых систем, обеспечивая результаты, сопоставимые с проприетарными моделями, при существенно меньших вычислительных затратах и времени генерации. Все веса модели и код публично доступны.
English
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.
PDF400January 8, 2026