Avatar V: Escalamiento de la generación de video de avatar con referencia de video

Resumen

Generar videos de avatares que no solo sean visualmente similares a un individuo objetivo, sino reconocibles conductualmente, reproduciendo fielmente su ritmo del habla, tendencias gestuales y dinámicas de expresión, sigue siendo un desafío abierto. Los métodos existentes se condicionan predominantemente a imágenes estáticas individuales, que proporcionan información de identidad insuficiente y no logran capturar rasgos dinámicos de movimiento, mientras que los objetivos estándar a nivel de píxel no abordan adecuadamente las regiones faciales perceptualmente críticas que determinan la fidelidad del avatar. Presentamos Avatar V, un marco a escala de producción que aborda estas limitaciones mediante el modelado de identidad condicionado por referencias de video. En lugar de comprimir la identidad en embeddings de tamaño fijo, el modelo se condiciona directamente a la secuencia completa de tokens de un video de referencia, aprendiendo a reproducir tanto atributos de identidad estáticos (geometría facial, textura de la piel) como patrones de comportamiento dinámico (ritmo del habla, microexpresiones) a través de la atención sobre el contexto de referencia. Introducimos la Atención de Referencia Dispersa (Sparse Reference Attention), un mecanismo asimétrico que logra un condicionamiento de complejidad lineal sobre referencias arbitrariamente largas; un flujo de representación de movimiento que permite la transferencia de estilo de habla en bucle cerrado; y un refinador de superresolución con conciencia de identidad que hereda el condicionamiento completo de la referencia. Estos elementos se apoyan en un motor de datos que selecciona más de 100 millones de clips de entrenamiento a partir de 50 millones de videos en bruto, y un pipeline de entrenamiento de cinco etapas que incluye preentrenamiento con emparejamiento de flujo (flow matching), ajuste fino de personalidad, destilación en dos fases (aceleración de más de 10 veces) y alineación con RLHF, implementado en miles de GPUs. Avatar V genera videos en 1080p de duración ilimitada, logrando un estado del arte en preservación de identidad, sincronización labial y calidad de generación en nuestro benchmark de escenas cruzadas, superando consistentemente a sistemas líderes como Seedance 2.0, Kling O3 Pro, Veo 3.1 y OmniHuman 1.5, tanto en métricas automatizadas como en evaluación humana.

English

Generating avatar videos that are not merely visually similar to a target individual but behaviorally recognizable, faithfully reproducing their talking rhythm, gestural tendencies, and expression dynamics, remains an open challenge. Existing methods predominantly condition on single static images, which provide insufficient identity information and cannot capture dynamic motion traits, while standard pixel-level objectives underserve the perceptually critical facial regions that determine avatar fidelity. We present Avatar V, a production-scale framework that addresses these limitations through video-reference-conditioned identity modeling. Rather than compressing identity into fixed-size embeddings, the model conditions directly on the full token sequence of a reference video, learning to reproduce both static identity attributes (facial geometry, skin texture) and dynamic behavioral patterns (talking rhythm, micro-expressions) through attention over the reference context. We introduce Sparse Reference Attention, an asymmetric mechanism achieving linear-complexity conditioning on arbitrarily long references; a motion representation stream enabling closed-loop talking style transfer; and an identity-aware super-resolution refiner inheriting the full reference conditioning. These are supported by a data engine curating 100M+ training clips from 50M raw videos, and a five-stage training pipeline with flow matching pre-training, personality fine-tuning, two-phase distillation (>10x acceleration), and RLHF alignment, deployed across thousands of GPUs. Avatar V generates 1080p videos of unlimited duration, achieving state-of-the-art identity preservation, lip synchronization, and generation quality on our cross-scene benchmark, consistently outperforming leading systems including Seedance 2.0, Kling O3 Pro, Veo 3.1, and OmniHuman 1.5 in both automated metrics and human evaluation.