LPM 1.0: Modello di Recitazione di Personaggi Basato su Video

Abstract

La performance, ovvero l'esternalizzazione di intenti, emozioni e personalità attraverso il comportamento visivo, vocale e temporale, è ciò che rende vivo un personaggio. L'apprendimento di tali prestazioni da video rappresenta una valida alternativa alle tradizionali pipeline 3D. Tuttavia, i modelli video esistenti faticano a coniugare elevata espressività, inferenza in tempo reale e stabilità identitaria di lunga durata, una tensione che definiamo trilemma della performance. La conversazione è lo scenario performativo più completo, poiché i personaggi parlano, ascoltano, reagiscono ed esprimono emozioni simultaneamente, mantenendo nel tempo la propria identità. Per affrontare questa sfida, presentiamo LPM 1.0 (Large Performance Model), focalizzato sulla performance conversazionale audiovisiva full-duplex per un singolo individuo. Nello specifico, abbiamo costruito un dataset multimodale centrato sull'uomo mediante filtraggio rigoroso, abbinamento audio-video parlato-ascolto, comprensione della performance ed estrazione multi-riferimento identity-aware; addestrato un Diffusion Transformer da 17 miliardi di parametri (Base LPM) per performance altamente controllabili e identity-consistent attraverso condizionamento multimodale; e distillato in un generatore causale in streaming (Online LPM) per interazione a bassa latenza e lunghezza infinita. Durante l'inferenza, data un'immagine del personaggio con riferimenti identity-aware, LPM 1.0 genera video di ascolto dall'audio dell'utente e video di parlato da audio sintetizzato, con prompt testuali per il controllo del movimento, tutto a velocità real-time con generazione identity-stable e a lunghezza infinita. LPM 1.0 funge quindi da motore visivo per agenti conversazionali, personaggi di live streaming e NPC di giochi. Per valutare sistematicamente questo scenario, proponiamo LPM-Bench, il primo benchmark per la performance interattiva dei personaggi. LPM 1.0 ottiene risultati state-of-the-art in tutte le dimensioni valutate, mantenendo al contempo un'inferenza in tempo reale.

English

Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.

LPM 1.0: Modello di Recitazione di Personaggi Basato su Video

LPM 1.0: Video-based Character Performance Model

Abstract

Support