ChatPaper.aiChatPaper

ID-LoRA: Personalizzazione Audio-Video Guidata dall'Identità con In-Context LoRA

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

March 10, 2026
Autori: Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes
cs.AI

Abstract

I metodi esistenti di personalizzazione video preservano la somiglianza visiva ma trattano video e audio separatamente. Senza accesso alla scena visiva, i modelli audio non possono sincronizzare i suoni con le azioni sullo schermo; e poiché i classici modelli di clonazione vocale si basano solo su una registrazione di riferimento, un prompt testuale non può reindirizzare lo stile di parlato o l'ambiente acustico. Proponiamo ID-LoRA (Identity-Driven In-Context LoRA), che genera congiuntamente l'aspetto e la voce di un soggetto in un unico modello, consentendo a un prompt testuale, a un'immagine di riferimento e a una breve clip audio di governare insieme entrambe le modalità. ID-LoRA adatta il backbone di diffusione audio-video congiunta LTX-2 tramite In-Context LoRA efficiente in parametri e, a nostra conoscenza, è il primo metodo a personalizzare l'aspetto visivo e la voce in un unico passaggio generativo. Emergono due sfide. I token di riferimento e di generazione condividono lo stesso spazio di codifica posizionale, rendendoli difficili da distinguere; affrontiamo questo problema con posizioni temporali negative, collocando i token di riferimento in una regione RoPE disgiunta preservando la loro struttura temporale interna. Le caratteristiche del parlante tendono anche a essere diluite durante il denoising; introduciamo l'identity guidance, una variante del classifier-free guidance che amplifica le caratteristiche specifiche del parlante contrastando le previsioni con e senza il segnale di riferimento. In studi di preferenza umana, ID-LoRA è preferito a Kling 2.6 Pro dal 73% degli annotatori per la somiglianza vocale e dal 65% per lo stile di parlato. In impostazioni cross-environment, la somiglianza del parlante migliora del 24% rispetto a Kling, con il divario che si amplia al divergere delle condizioni. Uno studio utente preliminare suggerisce inoltre che la generazione congiunta fornisce un bias induttivo utile per la sintesi del suono fisicamente fondata. ID-LoRA raggiunge questi risultati con solo ~3K coppie di addestramento su una singola GPU. Codice, modelli e dati saranno rilasciati.
English
Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.
PDF172March 19, 2026