AVControl: Framework Efficiente per l'Addestramento di Controlli Audio-Visivi

Abstract

Il controllo della generazione video e audio richiede modalità diversificate, dalla profondità e posa alle traiettorie della telecamera e trasformazioni audio, ma gli approcci esistenti addestrano un unico modello monolitico per un insieme fisso di controlli o introducono costose modifiche architetturali per ogni nuova modalità. Presentiamo AVControl, un framework leggero ed estendibile basato su LTX-2, un modello base audiovisivo congiunto, in cui ogni modalità di controllo viene addestrata come un LoRA separato su una tela parallela che fornisce il segnale di riferimento come token aggiuntivi negli strati di attenzione, senza richiedere modifiche architetturali oltre agli adattatori LoRA stessi. Dimostriamo che estendere semplicemente i metodi in-context basati su immagine al video fallisce per il controllo strutturale, e che il nostro approccio a tela parallela risolve questo problema. Sul VACE Benchmark, superiamo tutte le baseline valutate per la generazione guidata da profondità e posa, inpaintng e outpainting, e mostriamo risultati competitivi sul controllo della telecamera e benchmark audiovisivi. Il nostro framework supporta un insieme diversificato di modalità addestrate indipendentemente: controlli allineati spazialmente come profondità, posa e bordi, traiettoria della telecamera con parametri intrinseci, controllo sparso del movimento, editing video e, a nostra conoscenza, i primi controlli audiovisivi modulari per un modello di generazione congiunto. Il nostro metodo è efficiente sia in termini computazionali che di dati: ogni modalità richiede solo un piccolo dataset e converge in poche centinaia o migliaia di passi di addestramento, una frazione del budget delle alternative monolitiche. Rilasciamo pubblicamente il nostro codice e i checkpoint LoRA addestrati.

English

Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.

AVControl: Framework Efficiente per l'Addestramento di Controlli Audio-Visivi

AVControl: Efficient Framework for Training Audio-Visual Controls

Abstract

Support