AVControl: 音声-視覚制御を効率的に学習するフレームワーク
AVControl: Efficient Framework for Training Audio-Visual Controls
March 25, 2026
著者: Matan Ben-Yosef, Tavi Halperin, Naomi Ken Korem, Mohammad Salama, Harel Cain, Asaf Joseph, Anthony Chen, Urska Jelercic, Ofir Bibi
cs.AI
要旨
ビデオとオーディオ生成の制御には、深度やポーズからカメラ軌道、オーディオ変換まで多様なモダリティが必要ですが、既存の手法は固定された制御セットに対して単一の巨大モデルを訓練するか、新しいモダリティごとにコストの高いアーキテクチャ変更を導入しています。本論文では、オーディオ視覚基盤モデルであるLTX-2上に構築された軽量で拡張可能なフレームワークAVControlを提案します。各制御モダリティは並列キャンバス上で個別のLoRAとして訓練され、参照信号をアテンション層の追加トークンとして提供するため、LoRAアダプター自体以外のアーキテクチャ変更を必要としません。画像ベースの文脈内学習手法をビデオに単純拡張すると構造制御が失敗することを示し、我々の並列キャンバス手法がこれを解決することを実証します。VACEベンチマークでは、深度・ポーズ誘導生成、インペインティング、アウトペインティングにおいて全ての評価ベースラインを上回り、カメラ制御とオーディオ視覚ベンチマークで競争力のある結果を示します。本フレームワークは、深度・ポーズ・エッジなどの空間整合制御、内部パラメータ付きカメラ軌道、疎な動き制御、ビデオ編集、そして知る限り初の統合生成モデル向けモジュラー式オーディオ視覚制御まで、多様な独立訓練モダリティをサポートします。本手法は計算効率とデータ効率に優れ、各モダリティは小規模データセットのみを必要とし、数百から数千ステップで収束し、巨大モデル代替手法の予算のごく一部で済みます。コードと訓練済みLoRAチェックポイントを公開します。
English
Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.