AVControl: Marco Eficiente para el Entrenamiento de Controles Audiovisuales

Resumen

El control de la generación de vídeo y audio requiere modalidades diversas, desde la profundidad y la postura hasta las trayectorias de cámara y las transformaciones de audio. Sin embargo, los enfoques existentes o bien entrenan un único modelo monolítico para un conjunto fijo de controles, o bien introducen costosos cambios arquitectónicos para cada nueva modalidad. Presentamos AVControl, un marco ligero y extensible construido sobre LTX-2, un modelo base audiovisual conjunto, donde cada modalidad de control se entrena como un LoRA separado en un "lienzo paralelo" que proporciona la señal de referencia como tokens adicionales en las capas de atención, sin requerir cambios arquitectónicos más allá de los propios adaptadores LoRA. Demostramos que simplemente extender los métodos de contexto en imagen a vídeo falla para el control estructural, y que nuestro enfoque de lienzo paralelo resuelve este problema. En el Benchmark VACE, superamos a todas las líneas base evaluadas en generación guiada por profundidad y postura, inpaintin y outpaintin, y mostramos resultados competitivos en control de cámara y benchmarks audiovisuales. Nuestro marco admite un conjunto diverso de modalidades entrenadas de forma independiente: controles espacialmente alineados como profundidad, postura y bordes, trayectoria de cámara con parámetros intrínsecos, control de movimiento disperso, edición de vídeo y, según nuestro conocimiento, los primeros controles audiovisuales modulares para un modelo de generación conjunta. Nuestro método es eficiente tanto en cómputo como en datos: cada modalidad requiere solo un pequeño conjunto de datos y converge en unos pocos cientos o miles de pasos de entrenamiento, una fracción del coste de las alternativas monolíticas. Publicamos nuestro código y los checkpoints de LoRA entrenados.

English

Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.

AVControl: Marco Eficiente para el Entrenamiento de Controles Audiovisuales

AVControl: Efficient Framework for Training Audio-Visual Controls

Resumen

Support