LPM 1.0 : Modèle de performance de personnage basé sur la vidéo
LPM 1.0: Video-based Character Performance Model
April 9, 2026
Auteurs: Ailing Zeng, Casper Yang, Chauncey Ge, Eddie Zhang, Garvey Xu, Gavin Lin, Gilbert Gu, Jeremy Pi, Leo Li, Mingyi Shi, Sheng Bi, Steven Tang, Thorn Hang, Tobey Guo, Vincent Li, Xin Tong, Yikang Li, Yuchen Sun, Yue, Zhao, Yuhan Lu, Yuwei Li, Zane Zhang, Zeshi Yang, Zi Ye
cs.AI
Résumé
La performance, c'est-à-dire l'extériorisation de l'intention, de l'émotion et de la personnalité par le biais de comportements visuels, vocaux et temporels, est ce qui donne vie à un personnage. L'apprentissage de telles performances à partir de vidéos constitue une alternative prometteuse aux pipelines 3D traditionnels. Cependant, les modèles vidéo existants peinent à concilier expressivité élevée, inférence en temps réel et stabilité identitaire à long terme, une tension que nous appelons le trilemme de la performance. La conversation représente le scénario de performance le plus complet, car les personnages parlent, écoutent, réagissent et expriment des émotions simultanément tout en maintenant leur identité dans le temps. Pour relever ce défi, nous présentons LPM 1.0 (Large Performance Model), qui se concentre sur la performance conversationnelle audio-visuelle full-duplex d'une personne unique. Concrètement, nous construisons un jeu de données multimodale centré sur l'humain via un filtrage strict, un appariement audio-vidéo parole-écoute, une compréhension de la performance et une extraction multi-référence sensible à l'identité ; nous entraînons un Transformeur à Diffusion de 17 milliards de paramètres (Base LPM) pour une performance hautement contrôlable et cohérente identitairement grâce à un conditionnement multimodal ; et nous le distillons en un générateur causal en streaming (LPM Online) pour une interaction à faible latence et de durée illimitée. Lors de l'inférence, étant donnée une image de personnage avec des références sensibles à l'identité, LPM 1.0 génère des vidéos d'écoute à partir de l'audio utilisateur et des vidéos de parole à partir d'audio synthétisé, avec des invites textuelles pour le contrôle gestuel, le tout à vitesse temps réel avec une génération stable identitairement et de durée illimitée. LPM 1.0 sert ainsi de moteur visuel pour agents conversationnels, personnages de streaming en direct et PNJ de jeux. Pour évaluer systématiquement ce cadre, nous proposons LPM-Bench, le premier benchmark dédié à la performance interactive de personnages. LPM 1.0 obtient des résultats state-of-the-art sur toutes les dimensions évaluées tout en conservant une inférence en temps réel.
English
Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.