AVControl: 효율적인 오디오-비주얼 제어 학습 프레임워크
AVControl: Efficient Framework for Training Audio-Visual Controls
March 25, 2026
저자: Matan Ben-Yosef, Tavi Halperin, Naomi Ken Korem, Mohammad Salama, Harel Cain, Asaf Joseph, Anthony Chen, Urska Jelercic, Ofir Bibi
cs.AI
초록
비디오 및 오디오 생성 제어에는 깊이, 포즈부터 카메라 궤적, 오디오 변환에 이르기까지 다양한 양식이 필요하지만, 기존 접근법은 고정된 제어 집합에 대해 단일 모놀리식 모델을 학습하거나 새로운 양식마다 비용이 많이 드는 구조 변경을 도입했습니다. 우리는 LTX-2(통합 오디오-비디오 기초 모델) 기반의 경량 확장 가능 프레임워크인 AVControl을 소개합니다. 여기서 각 제어 양식은 어텐션 레이어에서 참조 신호를 추가 토큰으로 제공하는 병렬 캔버스 상에서 별도의 LoRA로 학습되며, LoRA 어댑터 자체를 제외한 어떠한 구조 변경도 필요하지 않습니다. 이미지 기반 인-컨텍스트 방법을 비디오로 단순 확장하는 것은 구조적 제어에는 실패하며, 우리의 병렬 캔버스 접근법이 이를 해결함을 보입니다. VACE 벤치마크에서 깊이 및 포즈 기반 생성, 인페인팅, 아웃페인팅 과제에서 평가된 모든 기준 모델을 능가하며, 카메라 제어 및 오디오-비디오 벤치마크에서도 경쟁력 있는 결과를 보입니다. 우리의 프레임워크는 깊이, 포즈, 에지와 같은 공간 정렬 제어, 내부 파라미터를 포함한 카메라 궤적, 희소 운동 제어, 비디오 편집 그리고 우리가 아는 한 통합 생성 모델을 위한 최초의 모듈식 오디오-비디오 제어를 포함한 다양한 독립적으로 학습된 양식들을 지원합니다. 우리의 방법은 계산 및 데이터 효율적입니다: 각 양식은 소규모 데이터셋만 필요하며 수백에서 수천 번의 학습 단계 내에 수렴하여 모놀리식 대안들에 비해 훨씬 적은 예산으로 운영 가능합니다. 우리는 코드와 학습된 LoRA 체크포인트를 공개합니다.
English
Controlling video and audio generation requires diverse modalities, from depth and pose to camera trajectories and audio transformations, yet existing approaches either train a single monolithic model for a fixed set of controls or introduce costly architectural changes for each new modality. We introduce AVControl, a lightweight, extendable framework built on LTX-2, a joint audio-visual foundation model, where each control modality is trained as a separate LoRA on a parallel canvas that provides the reference signal as additional tokens in the attention layers, requiring no architectural changes beyond the LoRA adapters themselves. We show that simply extending image-based in-context methods to video fails for structural control, and that our parallel canvas approach resolves this. On the VACE Benchmark, we outperform all evaluated baselines on depth- and pose-guided generation, inpainting, and outpainting, and show competitive results on camera control and audio-visual benchmarks. Our framework supports a diverse set of independently trained modalities: spatially-aligned controls such as depth, pose, and edges, camera trajectory with intrinsics, sparse motion control, video editing, and, to our knowledge, the first modular audio-visual controls for a joint generation model. Our method is both compute- and data-efficient: each modality requires only a small dataset and converges within a few hundred to a few thousand training steps, a fraction of the budget of monolithic alternatives. We publicly release our code and trained LoRA checkpoints.