LPM 1.0: Модель воспроизведения персонажей на основе видео

Аннотация

Актерская игра — это внешнее проявление намерений, эмоций и личности посредством визуального, голосового и темпорального поведения, что и делает персонажа живым. Обучение такой игре на основе видео представляет собой перспективную альтернативу традиционным 3D-пайплайнам. Однако существующие видео-модели не способны одновременно достичь высокой выразительности, выполнения в реальном времени и стабильности идентичности на длительных промежутках — это противоречие мы называем трилеммой актерской игры. Диалог является наиболее комплексным сценарием исполнения, поскольку персонажи одновременно говорят, слушают, реагируют и выражают эмоции, сохраняя идентичность во времени. Для решения этой задачи мы представляем LPM 1.0 (Large Performance Model), ориентированную на однопользовательскую полнодуплексную аудиовизуальную диалоговую игру. Конкретно мы создаем мультимодальный антропоцентричный датасет посредством строгой фильтрации, согласования аудио- и видеодорожек говорящего/слушающего, понимания исполнения и идентичностно-ориентированной мультиреференсной экстракции; обучаем 17-миллиардный Diffusion Transformer (Base LPM) для высококонтролируемого, идентичностно-согласованного исполнения через мультимодальное кондиционирование; и дистиллируем его в каузальный потоковый генератор (Online LPM) для низколатентного бесконечного по длительности взаимодействия. На этапе вывода, получая изображение персонажа с идентичностно-ориентированными референсами, LPM 1.0 генерирует видео в режиме слушания из пользовательского аудио и видео в режиме говорения из синтезированного аудио, с текстовыми промптами для управления движением, — всё в реальном времени с идентичностно-стабильной генерацией неограниченной длины. Таким образом, LPM 1.0 служит визуальным движком для диалоговых агентов, персонажей прямых трансляций и игровых NPC. Для систематической оценки данной задачи мы предлагаем LPM-Bench, первый бенчмарк для интерактивной актерской игры персонажей. LPM 1.0 демонстрирует state-of-the-art результаты по всем оцениваемым параметрам, сохраняя выполнение в реальном времени.

English

Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.

LPM 1.0: Модель воспроизведения персонажей на основе видео

LPM 1.0: Video-based Character Performance Model

Аннотация

Support