ID-LoRA: Персонализация аудио-видео контента на основе идентичности с использованием In-Context LoRA
ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
March 10, 2026
Авторы: Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes
cs.AI
Аннотация
Существующие методы персонализации видео сохраняют визуальное сходство, но обрабатывают видео и аудио раздельно. Без доступа к визуальной сцене аудиомодели не могут синхронизировать звуки с действиями на экране; а поскольку классические модели клонирования голоса используют только эталонную запись, текстовый запрос не может изменить стиль речи или акустическое окружение. Мы предлагаем ID-LoRA (Identity-Driven In-Context LoRA), которая совместно генерирует внешность и голос субъекта в единой модели, позволяя текстовому запросу, эталонному изображению и короткому аудиофрагменту управлять обеими модальностями вместе. ID-LoRA адаптирует базовую архитектуру LTX-2 совместной аудио-видео диффузии посредством параметрически эффективной In-Context LoRA и, насколько нам известно, является первым методом, персонализирующим визуальную внешность и голос за один генерационный проход. Возникают две проблемы. Токены эталона и генерации используют одно пространство позиционных кодировок, что затрудняет их различение; мы решаем это с помощью отрицательных временных позиций, размещая эталонные токены в отдельной области RoPE при сохранении их внутренней временной структуры. Характеристики говорящего также склонны размываться в процессе денойзинга; мы вводим идентификационное guidance — вариант classifier-free guidance, который усиливает специфические для говорящего черты путем сравнения предсказаний с эталонным сигналом и без него. В исследованиях человеческих предпочтений ID-LoRA была выбрана над Kling 2.6 Pro 73% аннотаторов по сходству голоса и 65% по стилю речи. В условиях смены окружения сходство говорящего улучшилось на 24% по сравнению с Kling, причем разрыв увеличивается по мере расхождения условий. Предварительное пользовательское исследование также указывает, что совместная генерация обеспечивает полезное индуктивное смещение для физически обоснованного синтеза звука. ID-LoRA достигает этих результатов всего на ~3 тыс. обучающих пар с использованием одного GPU. Код, модели и данные будут опубликованы.
English
Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.