AVControl : Cadre efficace pour l'entraînement de contrôles audiovisuels

Résumé

Le contrôle de la génération vidéo et audio nécessite des modalités diverses, allant de la profondeur et la pose aux trajectoires de caméra et transformations audio. Pourtant, les approches existantes entraînent soit un modèle monolithique unique pour un ensemble fixe de contrôles, soit introduisent des modifications architecturales coûteuses pour chaque nouvelle modalité. Nous présentons AVControl, un cadre léger et extensible construit sur LTX-2, un modèle de base audio-visuel conjoint, où chaque modalité de contrôle est entraînée comme un LoRA séparé sur un canevas parallèle qui fournit le signal de référence sous forme de tokens supplémentaires dans les couches d'attention, sans nécessiter de modifications architecturales au-delà des adaptateurs LoRA eux-mêmes. Nous montrons qu'étendre simplement les méthodes contextuelles basées sur l'image à la vidéo échoue pour le contrôle structurel, et que notre approche par canevas parallèle résout ce problème. Sur le benchmark VACE, nous surpassons toutes les bases de référence évaluées pour la génération guidée par la profondeur et la pose, l'inpainting et l'outpainting, et obtenons des résultats compétitifs sur le contrôle de caméra et les benchmarks audio-visuels. Notre cadre prend en charge un ensemble diversifié de modalités entraînées indépendamment : des contrôles spatialement alignés tels que la profondeur, la pose et les contours, la trajectoire de caméra avec les paramètres intrinsèques, le contrôle de mouvement éparse, l'édition vidéo, et à notre connaissance, les premiers contrôles audio-visuels modulaires pour un modèle de génération conjoint. Notre méthode est efficace en calcul et en données : chaque modalité ne nécessite qu'un petit jeu de données et converge en quelques centaines à quelques milliers d'étapes d'entraînement, une fraction du budget des alternatives monolithiques. Nous publions ouvertement notre code et nos checkpoints LoRA entraînés.

English

Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.

AVControl : Cadre efficace pour l'entraînement de contrôles audiovisuels

AVControl: Efficient Framework for Training Audio-Visual Controls

Résumé

Support