ID-LoRA: Personalização Áudio-Vídeo Orientada por Identidade com LoRA de Contexto Interno
ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA
March 10, 2026
Autores: Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes
cs.AI
Resumo
Os métodos existentes de personalização de vídeo preservam a semelhança visual, mas tratam o vídeo e o áudio separadamente. Sem acesso à cena visual, os modelos de áudio não conseguem sincronizar os sons com as ações na tela; e como os modelos clássicos de clonagem de voz são condicionados apenas por uma gravação de referência, um prompt de texto não pode redirecionar o estilo de fala ou o ambiente acústico. Propomos o ID-LoRA (Identity-Driven In-Context LoRA), que gera conjuntamente a aparência e a voz de um sujeito em um único modelo, permitindo que um prompt de texto, uma imagem de referência e um clipe de áudio curto governem ambas as modalidades em conjunto. O ID-LoRA adapta a espinha dorsal de difusão conjunta áudio-vídeo LTX-2 por meio de um LoRA In-Context com eficiência de parâmetros e, até onde sabemos, é o primeiro método a personalizar a aparência visual e a voz em uma única passagem gerativa. Dois desafios surgem. Os tokens de referência e de geração compartilham o mesmo espaço de codificação posicional, dificultando sua distinção; resolvemos isso com posições temporais negativas, posicionando os tokens de referência em uma região RoPE disjunta, preservando sua estrutura temporal interna. As características do locutor também tendem a ser diluídas durante a desruídos; introduzimos o guiamento de identidade, uma variante de guiamento livre de classificador que amplifica características específicas do locutor ao contrastar previsões com e sem o sinal de referência. Em estudos de preferência humana, o ID-LoRA foi preferido em relação ao Kling 2.6 Pro por 73% dos anotadores quanto à similaridade de voz e por 65% quanto ao estilo de fala. Em configurações de ambiente cruzado, a similaridade do locutor melhora 24% em relação ao Kling, com a diferença aumentando à medida que as condições divergem. Um estudo de usuário preliminar sugere ainda que a geração conjunta fornece um viés indutivo útil para a síntese de sons fisicamente fundamentados. O ID-LoRA alcança esses resultados com apenas ~3K pares de treinamento em uma única GPU. Código, modelos e dados serão liberados.
English
Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.