ID-LoRA: Identitätsgesteuerte Audio-Video-Personalisierung mit In-Context LoRA
ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
March 10, 2026
Autoren: Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes
cs.AI
Zusammenfassung
Bestehende Video-Personalisierungsmethoden bewahren die visuelle Ähnlichkeit, behandeln jedoch Video und Audio separat. Ohne Zugang zur visuellen Szene können Audiomodelle Geräusche nicht mit den Handlungen auf dem Bildschirm synchronisieren; und da klassische Stimmklon-Modelle nur auf einer Referenzaufnahme basieren, kann ein Text-Prompt weder Sprechstil noch akustische Umgebung beeinflussen. Wir schlagen ID-LoRA (Identity-Driven In-Context LoRA) vor, welches das Erscheinungsbild und die Stimme einer Person gemeinsam in einem einzigen Modell generiert und es einem Text-Prompt, einem Referenzbild und einer kurzen Audiospur ermöglicht, beide Modalitäten gemeinsam zu steuern. ID-LoRA adaptiert das LTX-2 Joint Audio-Video Diffusion Backbone mittels parameter-effizientem In-Context LoRA und ist, unseres Wissens nach, die erste Methode, die visuelles Erscheinungsbild und Stimme in einem einzigen Generierungsschritt personalisiert. Zwei Herausforderungen ergeben sich dabei. Referenz- und Generierungstokens teilen sich denselben Positionskodierungsraum, was sie schwer unterscheidbar macht; wir adressieren dies mit negativen temporalen Positionen, die Referenztokens in einen disjunkten RoPE-Bereich platzieren, während ihre interne temporale Struktur erhalten bleibt. Sprechercharakteristiken neigen auch dazu, während des Denoising verwässert zu werden; wir führen Identity Guidance ein, eineClassifier-Free Guidance-Variante, die sprecherspezifische Merkmale verstärkt, indem sie Vorhersagen mit und ohne Referenzsignal kontrastiert. In Human-Preference-Studien wird ID-LoRA von 73 % der Annotatoren Kling 2.6 Pro hinsichtlich Stimmähnlichkeit und von 65 % hinsichtlich Sprechstil vorgezogen. In Cross-Environment-Szenarien verbessert sich die Sprecherähnlichkeit um 24 % gegenüber Kling, wobei die Lücke mit zunehmender Abweichung der Bedingungen größer wird. Eine vorläufige Nutzerstudie deutet zudem darauf hin, dass die gemeinsame Generierung eine nützliche induktive Verzerrung für physikalisch fundierte Klangsynthese bietet. ID-LoRA erzielt diese Ergebnisse mit nur ~3.000 Trainingspaaren auf einer einzelnen GPU. Code, Modelle und Daten werden veröffentlicht.
English
Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.