UnityShots: 경계 인식 게이팅을 활용한 메모리 기반 멀티 샷 오디오-비디오 생성
UnityShots: Memory-Driven Multi-Shot Audio-Video Generation with Boundary-Aware Gating
June 19, 2026
저자: Jiehui Huang, Yuechen Zhang, Bin Xia, Jiahao Wang, Xu He, Zhenchao Tang, Meng Chu, Xin Tao, Pengfei Wan, Jiaya Jia
cs.AI
초록
일관된 멀티샷 비디오를 생성하려면 구조화된 샷 간 메모리가 필요합니다. 대상 외형, 장면 맥락, 화자 정체성은 컷 사이에서 지속되어야 합니다. 기존 접근 방식은 고정 길이 시퀀스에 대해 엔드-투-엔드로 훈련되어 확장이 불가능하거나, 선형적으로 증가하는 메모리 뱅크로 샷별 생성을 수행하거나, 멀티샷 인지 백본 없이 LLM 플래너 하에 사전 훈련된 생성기를 조율합니다. 우리는 LTX-2.3을 기반으로 구축되고 주석이 달린 영화 및 뮤직비디오 샷으로 훈련된 메모리 기반 멀티샷 오디오-비디오 생성 시스템인 UnityShots를 제시합니다. 비디오 스트림은 두 개의 고정 크기 슬롯, 즉 오프닝 샷에 고정된 롱텀 메모리(LTM) 슬롯과 직전 테일을 보유한 숏텀 메모리(STM) 슬롯을 유지하며, 두 슬롯 모두 시각적 컷 확률과 비트 트래커 신호를 융합하는 경계 조건 게이트에 의해 모든 컷에서 업데이트됩니다. 오디오 스트림은 모든 샷에서 참조 화자 토큰을 주입하여 슬라이딩 오디오 뱅크 없이 음성 음색을 보존합니다. AdaLN을 통해 학습된 이산적 컷 타입 사전은 추론 시 전환 강도를 제어하는 노브가 됩니다. 우리는 6개 민족 지역과 10개 이상의 언어를 포괄하는 200개의 다문화 멀티샷 시퀀스로 구성된 벤치마크를 공개하며, 샷별 참조 정체성, 참조 오디오 및 경계별 전환 레이블을 포함합니다. I2V, T2V, R2V 조건화 모드에서 평가된 UnityShots는 모든 크로스샷 일관성 지표에서 오픈소스 기준 모델을 앞서며, 멀티샷 축에서 가장 강력한 폐쇄형 시스템과 일치합니다.
English
Generating a coherent multi-shot video requires structured cross-shot memory. Subject appearance, scene context, and speaker identity must persist across cuts. Existing approaches either train end-to-end over fixed-length sequences and cannot scale, generate shot-by-shot with memory banks that grow linearly, or orchestrate pretrained generators under an LLM planner without a multi-shot-aware backbone. We present UnityShots, a memory-driven multi-shot audio-video generation system built on LTX-2.3, trained on annotated cinematic and music-video shots. The video stream maintains two fixed-size slots, a long-term memory (LTM) slot anchored to the opening shot and a short-term memory (STM) slot holding the immediately preceding tail, both updated at every cut by a boundary-conditioned gate that fuses visual cut probability and beat-tracker signals. The audio stream injects a reference speaker token at every shot to preserve vocal timbre without a sliding audio bank. A discrete cut-type prior, learned through AdaLN, becomes an inference-time control knob over transition strength. We release a benchmark of 200 multi-cultural multi-shot sequences spanning six ethnic regions and ten or more languages, with per-shot reference identities, reference audio, and per-boundary transition labels. Evaluated across I2V, T2V, and R2V conditioning modes, UnityShots leads open-source baselines on every cross-shot coherence metric and matches the strongest closed-source system on the multi-shot axes.