MiniCPM-o 4.5: 실시간 전이중 오므니모달 상호작용을 향하여
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
April 30, 2026
저자: Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
cs.AI
초록
최근 멀티모달 대규모 언어 모델(MLLM)의 발전으로 AI 역량이 정적 오프라인 데이터 처리에서 실시간 스트리밍 상호작용으로 확장되었지만, 여전히 인간 수준의 멀티모달 상호작용에는 미치지 못하고 있습니다. 핵심 병목 현상은 더 이상 단순한 모달리티 범위나 지연 시간이 아니라 상호작용 패러다임 자체에 있습니다. 첫째, 인식과 응답이 여전히 교대로 분리된 단계로 진행되어 생성 과정 중 새로운 입력을 통합하여 시기적절하게 조정하는 것이 불가능합니다. 둘째, 현재 대부분의 모델은 반응형에 그쳐 진화하는 멀티모달 환경에서 능동적으로 행동하기보다 명시적 사용자 요청에만 응답합니다. 본 논문에서는 인간과 유사한 멀티모달 상호작용을 위한 최신 연구 성과인 MiniCPM-o 4.5를 소개합니다. 이 모델은 실시간 전이중(all-duplex) 전모달(omni-modal) 상호작용을 통해 이러한 격차를 해소합니다. MiniCPM-o 4.5는 실시간으로 동시에 보고, 듣고, 말할 수 있을 뿐만 아니라 라이브 장면에 대한 지속적인 이해를 바탕으로 알림 발송이나 의견 제시와 같은 능동적 행동을 보여줍니다. MiniCPM-o 4.5의 핵심 기술은 Omni-Flow로, 공유 시간 축을 따라 전모달 입력과 출력을 정렬하는 통합 스트리밍 프레임워크입니다. 이 형식은 기존 턴 기반(turn-based) 상호작용을 전이중(time-aligned) 프로세스로 변환하여 동시 인식 및 응답을 가능하게 하고 동일한 프레임워크 내에서 능동적 행동이 발생하도록 합니다. 총 90억 개의 파라미터를 가진 MiniCPM-o 4.5는 시각-언어 능력에서 Gemini 2.5 Flash에 근접하며, 해당 규모에서 최고 수준의 오픈소스 성능을 제공합니다. 또한 전모달 이해 측면에서 Qwen3-Omni-30B-A3B를 능가하고 더 나은 음성 생성을 제공하며, 훨씬 높은 계산 효율성을 보입니다. 효율적인 아키텍처 설계와 추론 최적화로 구동되어 이 모델은 12GB 미만의 RAM을 사용하는 엣지 디바이스에서 실시간 전이중 전모달 상호작용을 수행할 수 있습니다.
English
Recent progress in multimodal large language models (MLLMs) has brought AI capabilities from static offline data processing to real-time streaming interaction, yet they still remain far from human-level multimodal interaction. The key bottlenecks are no longer modality coverage or latency alone, but the interaction paradigm itself. First, perception and response are still separated into alternating phases, preventing models from incorporating new inputs for timely adjustment during generation. Second, most current models remain reactive, responding only to explicit user requests instead of acting proactively in the evolving multimodal environment. We present MiniCPM-o 4.5, our latest effort towards human-like multimodal interaction, which mitigates these gaps by real-time full-duplex omni-modal interaction. It can see, listen, and speak simultaneously in real-time, while also exhibiting proactive behaviors such as issuing reminders or comments based on its continuous understanding of the live scene. The key technique behind MiniCPM-o 4.5 is Omni-Flow, a unified streaming framework that aligns omni-modal inputs and outputs along a shared temporal axis. This formulation converts conventional turn-based interaction into a full-duplex, time-aligned process, enabling simultaneous perception and response and allowing proactive behavior to arise within the same framework. With a total of 9B parameters, MiniCPM-o 4.5 approaches Gemini 2.5 Flash in vision-language capabilities, delivering state-of-the-art open-source performance at its scale. It also surpasses Qwen3-Omni-30B-A3B in omni-modal understanding and delivers better speech generation, with significantly higher computation efficiency. Driven by its efficient architecture design and inference optimization, the model can perform real-time full-duplex omni-modal interaction on edge devices with less than 12GB RAM cost.