Avatar V: Opschaling van op videoreferentie gebaseerde avatar-videogeneratie

Samenvatting

Het genereren van avatarvideo's die niet alleen visueel lijken op een doelpersoon, maar ook gedragsmatig herkenbaar zijn, door hun spreekritme, gebarentendensen en expressiedynamiek getrouw na te bootsen, blijft een openstaande uitdaging. Bestaande methoden conditioneren voornamelijk op enkele statische afbeeldingen, die onvoldoende identiteitsinformatie bieden en dynamische bewegingskenmerken niet kunnen vastleggen, terwijl standaard pixelgebaseerde doelfuncties de perceptueel cruciale gezichtsregio's die de avatar-getrouwheid bepalen, onderbedienen. Wij presenteren Avatar V, een productieschaal raamwerk dat deze beperkingen aanpakt door middel van videoreferentie-geconditioneerde identiteitsmodellering. In plaats van identiteit te comprimeren tot embeddings van vaste grootte, conditioneert het model direct op de volledige tokenreeks van een referentievideo, waarbij het leert zowel statische identiteitskenmerken (gezichtsgeometrie, huidtextuur) als dynamische gedragspatronen (spreekritme, micro-expressies) te reproduceren door middel van aandacht over de referentiecontext. Wij introduceren Sparse Reference Attention, een asymmetrisch mechanisme dat conditionering met lineaire complexiteit op willekeurig lange referenties bereikt; een bewegingsrepresentatiestroom die gesloten-lus spreekstijloverdracht mogelijk maakt; en een identiteitsbewuste superresolutie-verfijner die de volledige referentieconditionering erft. Deze worden ondersteund door een data-engine die 100M+ trainingsclips uit 50M ruwe video's cureert, en een vijf fasen trainingspijplijn met flow matching pre-training, persoonlijkheidsfine-tuning, tweefasige distillatie (>10x versnelling) en RLHF-afstemming, uitgerold over duizenden GPU's. Avatar V genereert 1080p-video's van onbeperkte duur, behaalt state-of-the-art identiteitsbehoud, lipsynchronisatie en generatiekwaliteit op onze cross-scene benchmark, en presteert consistent beter dan toonaangevende systemen, waaronder Seedance 2.0, Kling O3 Pro, Veo 3.1 en OmniHuman 1.5, zowel in geautomatiseerde metrics als in menselijke evaluatie.

English

Generating avatar videos that are not merely visually similar to a target individual but behaviorally recognizable, faithfully reproducing their talking rhythm, gestural tendencies, and expression dynamics, remains an open challenge. Existing methods predominantly condition on single static images, which provide insufficient identity information and cannot capture dynamic motion traits, while standard pixel-level objectives underserve the perceptually critical facial regions that determine avatar fidelity. We present Avatar V, a production-scale framework that addresses these limitations through video-reference-conditioned identity modeling. Rather than compressing identity into fixed-size embeddings, the model conditions directly on the full token sequence of a reference video, learning to reproduce both static identity attributes (facial geometry, skin texture) and dynamic behavioral patterns (talking rhythm, micro-expressions) through attention over the reference context. We introduce Sparse Reference Attention, an asymmetric mechanism achieving linear-complexity conditioning on arbitrarily long references; a motion representation stream enabling closed-loop talking style transfer; and an identity-aware super-resolution refiner inheriting the full reference conditioning. These are supported by a data engine curating 100M+ training clips from 50M raw videos, and a five-stage training pipeline with flow matching pre-training, personality fine-tuning, two-phase distillation (>10x acceleration), and RLHF alignment, deployed across thousands of GPUs. Avatar V generates 1080p videos of unlimited duration, achieving state-of-the-art identity preservation, lip synchronization, and generation quality on our cross-scene benchmark, consistently outperforming leading systems including Seedance 2.0, Kling O3 Pro, Veo 3.1, and OmniHuman 1.5 in both automated metrics and human evaluation.