ID-LoRA: Personalización Audio-Video Impulsada por Identidad con LoRA en Contexto
ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
March 10, 2026
Autores: Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes
cs.AI
Resumen
Los métodos existentes de personalización de vídeo preservan la similitud visual pero tratan el vídeo y el audio por separado. Sin acceso a la escena visual, los modelos de audio no pueden sincronizar los sonidos con las acciones en pantalla; y debido a que los modelos clásicos de clonación de voz se condicionan únicamente a una grabación de referencia, un texto prompt no puede redirigir el estilo de habla o el entorno acústico. Proponemos ID-LoRA (Identity-Driven In-Context LoRA), que genera conjuntamente la apariencia y la voz de un sujeto en un único modelo, permitiendo que un texto prompt, una imagen de referencia y un clip de audio corto gobiernen ambas modalidades de forma conjunta. ID-LoRA adapta el backbone de difusión conjunta audio-vídeo LTX-2 mediante In-Context LoRA de forma eficiente en parámetros y, según nuestro conocimiento, es el primer método que personaliza la apariencia visual y la voz en un único paso generativo. Surgen dos desafíos. Los tokens de referencia y de generación comparten el mismo espacio de codificación posicional, dificultando su distinción; abordamos esto con posiciones temporales negativas, situando los tokens de referencia en una región RoPE disjunta mientras se preserva su estructura temporal interna. Las características del hablante también tienden a diluirse durante la desruidificación; introducimos la guía de identidad, una variante de la guía libre de clasificador que amplifica las características específicas del hablante contrastando predicciones con y sin la señal de referencia. En estudios de preferencia humana, ID-LoRA es preferido sobre Kling 2.6 Pro por el 73% de los anotadores en similitud de voz y por el 65% en estilo de habla. En configuraciones de entorno cruzado, la similitud del hablante mejora en un 24% respecto a Kling, ampliándose la brecha a medida que las condiciones divergen. Un estudio de usuario preliminar sugiere además que la generación conjunta proporciona un sesgo inductivo útil para la síntesis de sonido físicamente fundamentada. ID-LoRA logra estos resultados con solo ~3K pares de entrenamiento en una única GPU. El código, los modelos y los datos serán publicados.
English
Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.