LPM 1.0: Modelo de Performance de Personagens Baseado em Vídeo

Resumo

A performance, a externalização da intenção, emoção e personalidade através de comportamentos visuais, vocais e temporais, é o que torna uma personagem viva. Aprender tal performance a partir de vídeo é uma alternativa promissora aos tradicionais pipelines 3D. No entanto, os modelos de vídeo existentes lutam para alcançar conjuntamente alta expressividade, inferência em tempo real e estabilidade de identidade em longos horizontes temporais, uma tensão que denominamos de trilema da performance. A conversação é o cenário de performance mais abrangente, pois as personagens falam, ouvem, reagem e expressam emoções simultaneamente, mantendo a identidade ao longo do tempo. Para resolver isso, apresentamos o LPM 1.0 (Large Performance Model), focando na performance conversacional audiovisual *full-duplex* para uma única pessoa. Concretamente, construímos um conjunto de dados multimodal centrado no ser humano através de filtragem rigorosa, emparelhamento áudio-vídeo de fala-escuta, compreensão da performance e extração *multi-reference* com consciência de identidade; treinamos um *Diffusion Transformer* com 17B de parâmetros (Base LPM) para uma performance altamente controlável e consistente em identidade através de condicionamento multimodal; e o destilamos num gerador causal de *streaming* (Online LPM) para interação de baixa latência e duração infinita. Na inferência, dada uma imagem de personagem com referências conscientes da identidade, o LPM 1.0 gera vídeos de escuta a partir do áudio do utilizador e vídeos de fala a partir de áudio sintetizado, com *prompts* de texto para controlo de movimento, tudo a uma velocidade em tempo real com geração de identidade estável e duração infinita. O LPM 1.0 serve, assim, como um motor visual para agentes conversacionais, personagens de *live streaming* e NPCs de jogos. Para avaliar sistematicamente este cenário, propomos o LPM-Bench, o primeiro *benchmark* para performance interativa de personagens. O LPM 1.0 alcança resultados state-of-the-art em todas as dimensões avaliadas, mantendo a inferência em tempo real.

English

Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.

LPM 1.0: Modelo de Performance de Personagens Baseado em Vídeo

LPM 1.0: Video-based Character Performance Model

Resumo

Support