LPM 1.0: Modelo de Interpretación de Personajes Basado en Video

Resumen

La actuación, la externalización de la intención, la emoción y la personalidad a través del comportamiento visual, vocal y temporal, es lo que da vida a un personaje. Aprender dicha actuación a partir de video es una alternativa prometedora a los flujos de trabajo 3D tradicionales. Sin embargo, los modelos de video existentes tienen dificultades para lograr conjuntamente una alta expresividad, inferencia en tiempo real y estabilidad de identidad a largo plazo, una tensión que denominamos el trilema de la actuación. La conversación es el escenario de actuación más completo, ya que los personajes hablan, escuchan, reaccionan y expresan emociones simultáneamente mientras mantienen su identidad en el tiempo. Para abordar esto, presentamos LPM 1.0 (Modelo de Gran Actuación), centrándonos en la actuación conversacional audiovisual full-duplex de una sola persona. Concretamente, construimos un conjunto de datos multimodal centrado en el humano mediante filtrado estricto, emparejamiento audiovisual de habla-escucha, comprensión de la actuación y extracción multirreferencia con conciencia de identidad; entrenamos un Transformer de Difusión de 17B de parámetros (LPM Base) para una actuación altamente controlable y consistente en identidad mediante condicionamiento multimodal; y lo destilamos en un generador causal en streaming (LPM Online) para interacción de baja latencia y longitud infinita. En la inferencia, dada una imagen de personaje con referencias conscientes de la identidad, LPM 1.0 genera videos de escucha a partir del audio del usuario y videos de habla a partir de audio sintetizado, con indicaciones de texto para el control del movimiento, todo a velocidad en tiempo real con generación de longitud infinita y estable en identidad. Por lo tanto, LPM 1.0 funciona como un motor visual para agentes conversacionales, personajes de transmisión en vivo y NPCs de juegos. Para evaluar sistemáticamente este escenario, proponemos LPM-Bench, el primer benchmark para la actuación interactiva de personajes. LPM 1.0 logra resultados de vanguardia en todas las dimensiones evaluadas mientras mantiene una inferencia en tiempo real.

English

Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.

LPM 1.0: Modelo de Interpretación de Personajes Basado en Video

LPM 1.0: Video-based Character Performance Model

Resumen

Support