AVControl: Estrutura Eficiente para Treinamento de Controles Áudio-Visuais

Resumo

O controlo da geração de vídeo e áudio requer modalidades diversas, desde profundidade e pose até trajetórias de câmara e transformações de áudio. No entanto, as abordagens existentes ou treinam um modelo monolítico único para um conjunto fixo de controlos ou introduzem alterações arquiteturais dispendiosas para cada nova modalidade. Apresentamos o AVControl, uma estrutura leve e extensível construída sobre o LTX-2, um modelo base áudio-visual conjunto, onde cada modalidade de controlo é treinada como um LoRA separado numa tela paralela que fornece o sinal de referência como tokens adicionais nas camadas de atenção, não exigindo alterações arquiteturais para além dos próprios adaptadores LoRA. Demonstramos que simplesmente estender métodos baseados em contexto de imagem para vídeo falha no controlo estrutural, e que a nossa abordagem de tela paralela resolve este problema. No VACE Benchmark, superamos todas as linhas de base avaliadas em geração guiada por profundidade e pose, preenchimento e extensão de vídeo, e mostramos resultados competitivos em controlo de câmara e benchmarks áudio-visuais. A nossa estrutura suporta um conjunto diversificado de modalidades treinadas independentemente: controlos espacialmente alinhados, como profundidade, pose e contornos, trajetória de câmara com parâmetros intrínsecos, controlo de movimento esparso, edição de vídeo e, até onde sabemos, os primeiros controlos áudio-visuais modulares para um modelo de geração conjunta. O nosso método é eficiente em termos computacionais e de dados: cada modalidade requer apenas um pequeno conjunto de dados e converge em algumas centenas a milhares de passos de treino, uma fração do orçamento das alternativas monolíticas. Disponibilizamos publicamente o nosso código e os checkpoints LoRA treinados.

English

Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.

AVControl: Estrutura Eficiente para Treinamento de Controles Áudio-Visuais

AVControl: Efficient Framework for Training Audio-Visual Controls

Resumo

Support