AVControl: Effizientes Framework für das Training audiovisueller Steuerungen

Zusammenfassung

Die Steuerung von Video- und Audio-Generierung erfordert diverse Modalitäten – von Tiefe und Pose über Kameratrajektorien bis hin zu Audio-Transformationen. Bisherige Ansätze trainieren entweder ein einzelnes monolithisches Modell für einen festen Satz von Steuerungsmodalitäten oder führen für jede neue Modalität kostspielige Architekturänderungen ein. Wir stellen AVControl vor, ein leichtgewichtiges, erweiterbares Framework, das auf LTX-2, einem gemeinsamen audio-visuellen Basismodell, aufbaut. Dabei wird jede Steuerungsmodalität als separates LoRA-Modul auf einer parallelen Bildebene trainiert, die das Referenzsignal als zusätzliche Tokens in den Attention-Layern bereitstellt – ohne dass Architekturänderungen jenseits der LoRA-Adapter selbst erforderlich sind. Wir zeigen, dass eine einfache Übertragung bildbasierter In-Context-Methoden auf Videos für strukturelle Steuerung versagt, und dass unser paralleler Canvas-Ansatz dieses Problem löst. Im VACE-Benchmark übertreffen wir alle evaluierten Baselines bei tiefen- und posengeführter Generierung, Inpainting und Outpainting und erzielen wettbewerbsfähige Ergebnisse bei Kamerasteuerung und audio-visuellen Benchmarks. Unser Framework unterstützt eine vielfältige Menge unabhängig trainierter Modalitäten: räumlich ausgerichtete Steuerungen wie Tiefe, Pose und Kanten, Kameratrajektorien mit intrinsischen Parametern, sparse Bewegungskontrolle, Videobearbeitung und, nach unserem Wissen, die ersten modularen audio-visuellen Steuerungen für ein gemeinsames Generierungsmodell. Unsere Methode ist rechen- und dateneffizient: Jede Modalität benötigt nur einen kleinen Datensatz und konvergiert innerhalb weniger hundert bis tausend Trainingsschritte – ein Bruchteil des Aufwands monolithischer Alternativen. Wir veröffentlichen unseren Code und die trainierten LoRA-Checkpoints.

English

Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.

AVControl: Effizientes Framework für das Training audiovisueller Steuerungen

AVControl: Efficient Framework for Training Audio-Visual Controls

Zusammenfassung

Support