ChatPaper.aiChatPaper

MiniCPM-o 4.5 : Vers une interaction omnimodale full-duplex en temps réel

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

April 30, 2026
Auteurs: Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
cs.AI

Résumé

Les progrès récents des modèles de langage multimodaux (MLLM) ont fait évoluer les capacités de l'IA du traitement de données statiques hors ligne vers l'interaction en flux continu en temps réel, mais elles restent encore loin de l'interaction multimodale humaine. Les principaux goulots d'étranglement ne résident plus seulement dans la couverture des modalités ou la latence, mais dans le paradigme d'interaction lui-même. Premièrement, la perception et la réponse restent séparées en phases alternées, empêchant les modèles d'incorporer de nouvelles entrées pour des ajustements en temps réel pendant la génération. Deuxièmement, la plupart des modèles actuels restent réactifs, répondant uniquement aux requêtes explicites des utilisateurs au lieu d'agir de manière proactive dans l'environnement multimodal évolutif. Nous présentons MiniCPM-o 4.5, notre dernière avancée vers une interaction multimodale humanoïde, qui comble ces lacunes par une interaction omnimodale full-duplex en temps réel. Il peut voir, écouter et parler simultanément en temps réel, tout en faisant preuve de comportements proactifs tels que l'émission de rappels ou de commentaires basés sur sa compréhension continue de la scène en direct. La technique clé derrière MiniCPM-o 4.5 est Omni-Flow, un framework de streaming unifié qui aligne les entrées et sorties omnimodales le long d'un axe temporel partagé. Cette formulation convertit l'interaction conventionnelle par tours en un processus full-duplex aligné dans le temps, permettant une perception et une réponse simultanées et autorisant l'émergence de comportements proactifs dans le même cadre. Avec un total de 9 milliards de paramètres, MiniCPM-o 4.5 approche les capacités vision-langage de Gemini 2.5 Flash, offrant des performances open-source de pointe à son échelle. Il surpasse également Qwen3-Omni-30B-A3B en compréhension omnimodale et fournit une meilleure génération vocale, avec une efficacité computationnelle nettement supérieure. Porté par sa conception architecturale efficace et son optimisation inférentielle, le modèle peut réaliser une interaction omnimodale full-duplex en temps réel sur des appareils edge avec moins de 12 Go de consommation mémoire.
English
Recent progress in multimodal large language models (MLLMs) has brought AI capabilities from static offline data processing to real-time streaming interaction, yet they still remain far from human-level multimodal interaction. The key bottlenecks are no longer modality coverage or latency alone, but the interaction paradigm itself. First, perception and response are still separated into alternating phases, preventing models from incorporating new inputs for timely adjustment during generation. Second, most current models remain reactive, responding only to explicit user requests instead of acting proactively in the evolving multimodal environment. We present MiniCPM-o 4.5, our latest effort towards human-like multimodal interaction, which mitigates these gaps by real-time full-duplex omni-modal interaction. It can see, listen, and speak simultaneously in real-time, while also exhibiting proactive behaviors such as issuing reminders or comments based on its continuous understanding of the live scene. The key technique behind MiniCPM-o 4.5 is Omni-Flow, a unified streaming framework that aligns omni-modal inputs and outputs along a shared temporal axis. This formulation converts conventional turn-based interaction into a full-duplex, time-aligned process, enabling simultaneous perception and response and allowing proactive behavior to arise within the same framework. With a total of 9B parameters, MiniCPM-o 4.5 approaches Gemini 2.5 Flash in vision-language capabilities, delivering state-of-the-art open-source performance at its scale. It also surpasses Qwen3-Omni-30B-A3B in omni-modal understanding and delivers better speech generation, with significantly higher computation efficiency. Driven by its efficient architecture design and inference optimization, the model can perform real-time full-duplex omni-modal interaction on edge devices with less than 12GB RAM cost.
PDF51May 8, 2026