Avatar V: Escalonamento da Geração de Vídeo de Avatar Baseada em Vídeo de Referência

Resumo

Gerar vídeos de avatares que não são apenas visualmente semelhantes a um indivíduo alvo, mas também comportamentalmente reconhecíveis, reproduzindo fielmente seu ritmo de fala, tendências gestuais e dinâmica de expressões, continua sendo um desafio em aberto. Métodos existentes predominantemente se condicionam a imagens estáticas únicas, que fornecem informações de identidade insuficientes e não conseguem capturar traços dinâmicos de movimento, enquanto objetivos padrão em nível de pixel não atendem adequadamente às regiões faciais de importância perceptiva que determinam a fidelidade do avatar. Apresentamos o Avatar V, uma estrutura em escala de produção que resolve essas limitações por meio da modelagem de identidade condicionada por referência de vídeo. Em vez de comprimir a identidade em embeddings de tamanho fixo, o modelo condiciona-se diretamente na sequência completa de tokens de um vídeo de referência, aprendendo a reproduzir tanto atributos estáticos de identidade (geometria facial, textura da pele) quanto padrões comportamentais dinâmicos (ritmo de fala, microexpressões) por meio da atenção sobre o contexto de referência. Introduzimos a Atenção Esparsa de Referência, um mecanismo assimétrico que alcança condicionamento de complexidade linear em referências arbitrariamente longas; um fluxo de representação de movimento que possibilita transferência de estilo de fala em malha fechada; e um refinador de super-resolução ciente da identidade que herda o condicionamento completo da referência. Esses componentes são suportados por um motor de dados que seleciona mais de 100 milhões de clipes de treinamento a partir de 50 milhões de vídeos brutos, e por um pipeline de treinamento em cinco estágios com pré-treinamento por correspondência de fluxo, ajuste fino de personalidade, destilação em duas fases (aceleração superior a 10x) e alinhamento com RLHF, implantado em milhares de GPUs. O Avatar V gera vídeos 1080p de duração ilimitada, alcançando preservação de identidade, sincronização labial e qualidade de geração de ponta em nosso benchmark entre cenas, superando consistentemente sistemas líderes, incluindo Seedance 2.0, Kling O3 Pro, Veo 3.1 e OmniHuman 1.5, tanto em métricas automatizadas quanto em avaliação humana.

English

Generating avatar videos that are not merely visually similar to a target individual but behaviorally recognizable, faithfully reproducing their talking rhythm, gestural tendencies, and expression dynamics, remains an open challenge. Existing methods predominantly condition on single static images, which provide insufficient identity information and cannot capture dynamic motion traits, while standard pixel-level objectives underserve the perceptually critical facial regions that determine avatar fidelity. We present Avatar V, a production-scale framework that addresses these limitations through video-reference-conditioned identity modeling. Rather than compressing identity into fixed-size embeddings, the model conditions directly on the full token sequence of a reference video, learning to reproduce both static identity attributes (facial geometry, skin texture) and dynamic behavioral patterns (talking rhythm, micro-expressions) through attention over the reference context. We introduce Sparse Reference Attention, an asymmetric mechanism achieving linear-complexity conditioning on arbitrarily long references; a motion representation stream enabling closed-loop talking style transfer; and an identity-aware super-resolution refiner inheriting the full reference conditioning. These are supported by a data engine curating 100M+ training clips from 50M raw videos, and a five-stage training pipeline with flow matching pre-training, personality fine-tuning, two-phase distillation (>10x acceleration), and RLHF alignment, deployed across thousands of GPUs. Avatar V generates 1080p videos of unlimited duration, achieving state-of-the-art identity preservation, lip synchronization, and generation quality on our cross-scene benchmark, consistently outperforming leading systems including Seedance 2.0, Kling O3 Pro, Veo 3.1, and OmniHuman 1.5 in both automated metrics and human evaluation.