LPM 1.0: Videogestuurd Karakterprestatiemodel

Samenvatting

Performance, de externalisering van intentie, emotie en persoonlijkheid via visueel, vocaal en tijdgebonden gedrag, is wat een personage tot leven brengt. Het leren van dergelijke performance vanuit video is een veelbelovend alternatief voor traditionele 3D-pipelines. Bestaande videomodellen slagen er echter niet in om tegelijkertijd hoge expressiviteit, real-time inferentie en identiteitsstabiliteit op lange termijn te bereiken, een spanning die wij de performance-trilemma noemen. Conversatie is het meest uitgebreide performancescenario, aangezien personages tegelijkertijd spreken, luisteren, reageren en emoties tonen, terwijl ze hun identiteit in de tijd behouden. Om dit aan te pakken, presenteren wij LPM 1.0 (Large Performance Model), gericht op single-person full-duplex audiovisuele conversatieperformance. Concreet bouwen we een multimodaal mensgericht dataset via strikte filtering, spreek-luister audio-video pairing, performancebegrip en identiteitsbewuste multi-referentie-extractie; trainen we een 17B-parameter Diffusion Transformer (Base LPM) voor hoogst controleerbare, identiteitsconsistente performance via multimodale conditionering; en destilleren we deze naar een causale streaming generator (Online LPM) voor interactie met lage latentie en oneindige lengte. Tijdens inferentie genereert LPM 1.0, gegeven een karakterafbeelding met identiteitsbewuste referenties, luistervideo's vanuit gebruikersaudio en spreekvideo's vanuit gesynthetiseerde audio, met tekstprompts voor bewegingscontrole, alles op real-time snelheid met identiteitsstabiele, oneindig lange generatie. LPM 1.0 dient zo als een visuele engine voor conversationele agents, livestreamingkarakters en game-NPC's. Om deze setting systematisch te evalueren, stellen we LPM-Bench voor, de eerste benchmark voor interactieve karakterperformance. LPM 1.0 behaalt state-of-the-art resultaten op alle geëvalueerde dimensies, terwijl het real-time inferentie behoudt.

English

Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.

LPM 1.0: Videogestuurd Karakterprestatiemodel

LPM 1.0: Video-based Character Performance Model

Samenvatting

Support