LPM 1.0: 비디오 기반 캐릭터 퍼포먼스 모델
LPM 1.0: Video-based Character Performance Model
April 9, 2026
저자: Ailing Zeng, Casper Yang, Chauncey Ge, Eddie Zhang, Garvey Xu, Gavin Lin, Gilbert Gu, Jeremy Pi, Leo Li, Mingyi Shi, Sheng Bi, Steven Tang, Thorn Hang, Tobey Guo, Vincent Li, Xin Tong, Yikang Li, Yuchen Sun, Yue, Zhao, Yuhan Lu, Yuwei Li, Zane Zhang, Zeshi Yang, Zi Ye
cs.AI
초록
퍼포먼스는 시각적, 발성적, 시간적 행동을 통해 의도, 감정, 성격을 외부화하는 것으로, 캐릭터에 생명을 불어넣는 요소입니다. 비디오로부터 이러한 퍼포먼스를 학습하는 것은 기존 3D 파이프라인에 대한 유망한 대안입니다. 그러나 기존 비디오 모델은 높은 표현력, 실시간 추론, 장기적 정체성 안정성을 동시에 달성하는 데 어려움을 겪는데, 이러한 긴장 관계를 우리는 퍼포먼스 삼중고라고 부릅니다. 대화는 캐릭터가 동시에 말하고, 듣고, 반응하며, 감정을 표현하면서도 시간이 지나도 정체성을 유지하는 가장 포괄적인 퍼포먼스 시나리오입니다. 이를 해결하기 위해 우리는 단일 인물의 전이중 오디오-비주얼 대화형 퍼포먼스에 초점을 맞춘 LPM 1.0(대규모 퍼포먼스 모델)을 제시합니다. 구체적으로, 우리는 엄격한 필터링, 말하기-듣기 오디오-비디오 페어링, 퍼포먼스 이해, 정체성 인식 다중 참조 추출을 통해 다중 모달 인간 중심 데이터셋을 구축했습니다. 또한 다중 모달 조건화를 통해 높은 제어 가능성과 정체성 일관성을 갖춘 퍼포먼스를 위한 170억 개 파라미터 디퓨전 트랜스포머(베이스 LPM)를 학습하고, 이를 저지연 무한 길이 상호작용을 위한 인과적 스트리밍 생성기(온라인 LPM)로 증류했습니다. 추론 시, 정체성 인식 참조가 포함된 캐릭터 이미지가 주어지면 LPM 1.0은 사용자 오디오에서 듣기 비디오를, 합성된 오디오에서 말하기 비디오를 생성하며, 모션 제어를 위한 텍스트 프롬프트를 함께 사용합니다. 이 모든 과정이 실시간 속도로 정체성이 안정된 무한 길이 생성과 함께 이루어집니다. 따라서 LPM 1.0은 대화형 에이전트, 라이브 스트리밍 캐릭터, 게임 NPC를 위한 시각적 엔진 역할을 합니다. 이러한 설정을 체계적으로 평가하기 위해 우리는 상호작용형 캐릭터 퍼포먼스를 위한 최초의 벤치마크인 LPM-Bench를 제안합니다. LPM 1.0은 실시간 추론을 유지하면서 평가된 모든 차원에서 최첨단 결과를 달성했습니다.
English
Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.