LPM 1.0: Videobasiertes Charakter-Performance-Modell

Zusammenfassung

Performance, die Externalisierung von Absicht, Emotion und Persönlichkeit durch visuelles, vokales und zeitliches Verhalten, ist es, was eine Figur lebendig macht. Das Erlernen solcher Performance aus Videos ist eine vielversprechende Alternative zu traditionellen 3D-Pipelines. Allerdings haben bestehende Videomodelle Schwierigkeiten, hohe Ausdrucksstärke, Echtzeit-Inferenz und langfristige Identitätsstabilität gleichzeitig zu erreichen – eine Spannung, die wir das Performance-Trilemma nennen. Konversation ist das umfassendste Performance-Szenario, da Figuren gleichzeitig sprechen, zuhören, reagieren und Emotionen zeigen, während sie ihre Identität über die Zeit hinweg beibehalten. Um dies zu adressieren, präsentieren wir LPM 1.0 (Large Performance Model) mit Fokus auf unipersonale Vollduplex audiovisuelle Konversations-Performance. Konkret bauen wir einen multimodalen, menschenzentrierten Datensatz durch strikte Filterung, Sprechen-Zuhören Audio-Video-Paarung, Performance-Verständnis und identitätsbewusste Multi-Referenz-Extraktion auf; trainieren einen 17-Milliarden-Parameter Diffusion Transformer (Base LPM) für hochgradig kontrollierbare, identitätskonsistente Performance durch multimodale Konditionierung; und destillieren ihn in einen kausalen Streaming-Generator (Online LPM) für latenzarme, unendlich lange Interaktion. Zur Inferenzzeit generiert LPM 1.0, gegeben ein Charakterbild mit identitätsbewussten Referenzen, Zuhör-Videos aus User-Audio und Sprech-Videos aus synthetisiertem Audio, mit Text-Prompts zur Bewegungssteuerung – alles in Echtzeit mit identitätsstabiler, unendlich langer Generierung. LPM 1.0 dient somit als visuelle Engine für Konversationsagenten, Live-Streaming-Charaktere und Spiel-NSCs. Um dieses Szenario systematisch zu evaluieren, schlagen wir LPM-Bench vor, den ersten Benchmark für interaktive Charakter-Performance. LPM 1.0 erzielt state-of-the-art Ergebnisse in allen evaluierten Dimensionen bei gleichbleibender Echtzeit-Inferenz.

English

Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.

LPM 1.0: Videobasiertes Charakter-Performance-Modell

LPM 1.0: Video-based Character Performance Model

Zusammenfassung

Support