UnityShots: управляемая памятью многоэпизодная генерация аудио и видео с гейтингом, учитывающим границы

Аннотация

Генерация связного мультикадрового видео требует структурированной кросс-кадровой памяти. Внешний вид объекта, контекст сцены и идентичность говорящего должны сохраняться при монтажных переходах. Существующие подходы либо обучаются сквозным образом на последовательностях фиксированной длины и не масштабируются, либо генерируют кадр за кадром с использованием банков памяти, линейно растущих в объёме, либо координируют предварительно обученные генераторы под управлением LLM-планировщика без учёта многокадровых зависимостей на уровне базовой модели. Мы представляем UnityShots — систему многокадровой аудио-видео генерации, управляемую памятью, построенную на основе LTX-2.3 и обученную на размеченных кадрах из кино и музыкальных клипов. Видеопоток поддерживает два фиксированных по размеру слота: слот долговременной памяти (LTM), привязанный к начальному кадру, и слот кратковременной памяти (STM), хранящий непосредственно предшествующий хвост. Оба слота обновляются на каждом монтажном переходе с помощью гранично-условного вентиля, объединяющего вероятность визуального разреза и сигналы бит-трекера. Аудиопоток вводит референсный токен диктора в каждом кадре для сохранения тембра голоса без использования скользящего аудиобанка. Дискретный априорный тип монтажного перехода, обученный через AdaLN, становится контрольным параметром на этапе инференса, регулирующим силу переходов. Мы выпускаем бенчмарк из 200 мультикультурных мультикадровых последовательностей, охватывающих шесть этнических регионов и десять и более языков, с указанием идентичности референсных персонажей для каждого кадра, референсного аудио и меток переходов на каждой границе. При оценке в режимах I2V, T2V и R2V UnityShots превосходит открытые базовые модели по всем метрикам кросс-кадровой согласованности и достигает уровня сильнейшей закрытой системы по многокадровым показателям.

English

Generating a coherent multi-shot video requires structured cross-shot memory. Subject appearance, scene context, and speaker identity must persist across cuts. Existing approaches either train end-to-end over fixed-length sequences and cannot scale, generate shot-by-shot with memory banks that grow linearly, or orchestrate pretrained generators under an LLM planner without a multi-shot-aware backbone. We present UnityShots, a memory-driven multi-shot audio-video generation system built on LTX-2.3, trained on annotated cinematic and music-video shots. The video stream maintains two fixed-size slots, a long-term memory (LTM) slot anchored to the opening shot and a short-term memory (STM) slot holding the immediately preceding tail, both updated at every cut by a boundary-conditioned gate that fuses visual cut probability and beat-tracker signals. The audio stream injects a reference speaker token at every shot to preserve vocal timbre without a sliding audio bank. A discrete cut-type prior, learned through AdaLN, becomes an inference-time control knob over transition strength. We release a benchmark of 200 multi-cultural multi-shot sequences spanning six ethnic regions and ten or more languages, with per-shot reference identities, reference audio, and per-boundary transition labels. Evaluated across I2V, T2V, and R2V conditioning modes, UnityShots leads open-source baselines on every cross-shot coherence metric and matches the strongest closed-source system on the multi-shot axes.