UnityShots: Geheugengedreven Multi-Shot Audio-Video Generatie met Grensbewuste Gating

Samenvatting

Het genereren van een coherente multi-shot video vereist een gestructureerd cross-shot geheugen. Het uiterlijk van het onderwerp, de scènecontext en de identiteit van de spreker moeten over cuts heen behouden blijven. Bestaande benaderingen trainen óf end-to-end over sequenties met vaste lengte, wat niet schaalbaar is, óf genereren shot-voor-shot met geheugenbanken die lineair groeien, óf orkestreren voorgetrainde generatoren onder een LLM-planner zonder een multi-shot-bewuste backbone. We presenteren UnityShots, een geheugengestuurd multi-shot audio-video generatiesysteem gebouwd op LTX-2.3, getraind op geannoteerde film- en muziekvideoshots. De videostream onderhoudt twee vaste geheugenslots: een langetermijngeheugenslot (LTM) verankerd aan het openingsshot en een kortetermijngeheugenslot (STM) met de direct voorafgaande staart, beide bij elke cut bijgewerkt door een grensvoorwaardegestuurde poort die visuele cut-kans en beat-tracker signalen combineert. De audiostream injecteert bij elk shot een referentiesprekertoken om de vocale timbre te behouden, zonder een verschuivende audiobank. Een discrete cut-type prior, geleerd via AdaLN, fungeert als een inferentie-tijdregelknop voor overgangssterkte. We brengen een benchmark uit van 200 multiculturele multi-shot sequenties uit zes etnische regio's en tien of meer talen, met per-shot referentie-identiteiten, referentieaudio en per-grens transitielabels. Geëvalueerd over I2V-, T2V- en R2V-conditioneringsmodi verslaat UnityShots open-source baselines op elke cross-shot coherentiemetriek en evenaart het sterkste closed-source systeem op de multi-shot assen.

English

Generating a coherent multi-shot video requires structured cross-shot memory. Subject appearance, scene context, and speaker identity must persist across cuts. Existing approaches either train end-to-end over fixed-length sequences and cannot scale, generate shot-by-shot with memory banks that grow linearly, or orchestrate pretrained generators under an LLM planner without a multi-shot-aware backbone. We present UnityShots, a memory-driven multi-shot audio-video generation system built on LTX-2.3, trained on annotated cinematic and music-video shots. The video stream maintains two fixed-size slots, a long-term memory (LTM) slot anchored to the opening shot and a short-term memory (STM) slot holding the immediately preceding tail, both updated at every cut by a boundary-conditioned gate that fuses visual cut probability and beat-tracker signals. The audio stream injects a reference speaker token at every shot to preserve vocal timbre without a sliding audio bank. A discrete cut-type prior, learned through AdaLN, becomes an inference-time control knob over transition strength. We release a benchmark of 200 multi-cultural multi-shot sequences spanning six ethnic regions and ten or more languages, with per-shot reference identities, reference audio, and per-boundary transition labels. Evaluated across I2V, T2V, and R2V conditioning modes, UnityShots leads open-source baselines on every cross-shot coherence metric and matches the strongest closed-source system on the multi-shot axes.