ID-LoRA: Identiteit-Gestuurde Audio-Video Personalisatie met In-Context LoRA

Samenvatting

Bestaande methoden voor videopersonalisatie behouden de visuele gelijkenis, maar behandelen video en audio gescheiden. Zonder toegang tot de visuele scène kunnen audiomodellen geluiden niet synchroniseren met acties op het scherm; en omdat klassieke stemkloningsmodellen uitsluitend conditioneren op een referentieopname, kan een tekstprompt de spreekstijl of akoestische omgeving niet sturen. Wij stellen ID-LoRA voor (Identity-Driven In-Context LoRA), dat het uiterlijk en de stem van een persoon gezamenlijk genereert in één model, waarbij een tekstprompt, een referentiebeeld en een korte audioclip beide modaliteiten samen sturen. ID-LoRA past de LTX-2 joint audio-video diffusion backbone aan via parameter-efficiënte In-Context LoRA en is, voor zover wij weten, de eerste methode die visueel uiterlijk en stem personaliseert in één generatieve stap. Twee uitdagingen doen zich voor. Referentie- en generatietokens delen dezelfde positionele coderingsruimte, waardoor ze moeilijk te onderscheiden zijn; dit lossen we op met negatieve temporele posities, waarbij we referentietokens in een gescheiden RoPE-regio plaatsen terwijl hun interne temporele structuur behouden blijft. Sprekerskenmerken hebben ook de neiging te vervagen tijdens denoisering; we introduceren identity guidance, een variant van classifier-free guidance die sprekerspecifieke kenmerken versterkt door voorspellingen met en zonder het referentiesignaal te contrasteren. In onderzoeken naar menselijke voorkeur wordt ID-LoRA door 73% van de beoordelaars verkozen boven Kling 2.6 Pro voor stemgelijkenis en door 65% voor spreekstijl. In cross-omgeving settings verbetert de sprekersgelijkenis met 24% ten opzichte van Kling, waarbij het verschil groter wordt naarmate de condities meer uiteenlopen. Een eerste gebruikersstudie suggereert verder dat gezamenlijke generatie een nuttige inductieve bias biedt voor fysiek ondersteunde geluidssynthese. ID-LoRA behaalt deze resultaten met slechts ~3K trainingsparen op een enkele GPU. Code, modellen en data zullen worden vrijgegeven.

English

Existing video personalization methods preserve visual likeness but treat video and audio separately. Without access to the visual scene, audio models cannot synchronize sounds with on-screen actions; and because classical voice-cloning models condition only on a reference recording, a text prompt cannot redirect speaking style or acoustic environment. We propose ID-LoRA (Identity-Driven In-Context LoRA), which jointly generates a subject's appearance and voice in a single model, letting a text prompt, a reference image, and a short audio clip govern both modalities together. ID-LoRA adapts the LTX-2 joint audio-video diffusion backbone via parameter-efficient In-Context LoRA and, to our knowledge, is the first method to personalize visual appearance and voice in a single generative pass. Two challenges arise. Reference and generation tokens share the same positional-encoding space, making them hard to distinguish; we address this with negative temporal positions, placing reference tokens in a disjoint RoPE region while preserving their internal temporal structure. Speaker characteristics also tend to be diluted during denoising; we introduce identity guidance, a classifier-free guidance variant that amplifies speaker-specific features by contrasting predictions with and without the reference signal. In human preference studies, ID-LoRA is preferred over Kling 2.6 Pro by 73% of annotators for voice similarity and 65% for speaking style. On cross-environment settings, speaker similarity improves by 24% over Kling, with the gap widening as conditions diverge. A preliminary user study further suggests that joint generation provides a useful inductive bias for physically grounded sound synthesis. ID-LoRA achieves these results with only ~3K training pairs on a single GPU. Code, models, and data will be released.

ID-LoRA: Identiteit-Gestuurde Audio-Video Personalisatie met In-Context LoRA

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

Samenvatting

Support