ID-LoRA : Personnalisation audio-vidéo pilotée par l'identité avec LoRA en contexte
ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
March 10, 2026
Auteurs: Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes
cs.AI
Résumé
Les méthodes existantes de personnalisation vidéo préservent la ressemblance visuelle mais traitent la vidéo et l'audio séparément. Sans accès à la scène visuelle, les modèles audio ne peuvent pas synchroniser les sons avec les actions à l'écran ; et parce que les modèles classiques de clonage vocal se basent uniquement sur un enregistrement de référence, une instruction textuelle ne peut pas réorienter le style d'élocution ou l'environnement acoustique. Nous proposons ID-LoRA (Identity-Driven In-Context LoRA), qui génère conjointement l'apparence et la voix d'un sujet dans un modèle unique, permettant à une instruction textuelle, une image de référence et un court extrait audio de régir les deux modalités ensemble. ID-LoRA adapte l'architecture de diffusion audio-vidéo conjointe LTX-2 via un In-Context LoRA efficace en paramètres et, à notre connaissance, est la première méthode à personnaliser l'apparence visuelle et la voix en une seule passe générative. Deux défis émergent. Les tokens de référence et de génération partagent le même espace de codage positionnel, les rendant difficiles à distinguer ; nous résolvons ce problème avec des positions temporelles négatives, plaçant les tokens de référence dans une région RoPE disjointe tout en préservant leur structure temporelle interne. Les caractéristiques du locuteur ont aussi tendance à être diluées pendant le débruitage ; nous introduisons le guidage d'identité, une variante de guidage sans classificateur qui amplifie les caractéristiques spécifiques au locuteur en contrastant les prédictions avec et sans le signal de référence. Dans les études de préférence humaine, ID-LoRA est préféré à Kling 2.6 Pro par 73 % des annotateurs pour la similarité vocale et 65 % pour le style d'élocution. Sur des configurations trans-environnementales, la similarité du locuteur s'améliore de 24 % par rapport à Kling, l'écart s'accentuant avec la divergence des conditions. Une étude utilisateur préliminaire suggère en outre que la génération conjointe fournit un biais inductif utile pour la synthèse sonore physiquement fondée. ID-LoRA obtient ces résultats avec seulement ~3 000 paires d'entraînement sur un seul GPU. Le code, les modèles et les données seront publiés.
English
Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.