ChatPaper.aiChatPaper

MiniCPM-o 4.5: Auf dem Weg zur Echtzeit-Voll-Duplex-All-Modal-Interaktion

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

April 30, 2026
Autoren: Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
cs.AI

Zusammenfassung

Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben KI-Fähigkeiten von der statischen Offline-Datenverarbeitung zur Echtzeit-Streaming-Interaktion gebracht, doch sie bleiben weit von der menschlichen multimodalen Interaktion entfernt. Die entscheidenden Engpässe sind nicht mehr nur die Modalitätsabdeckung oder Latenzzeit, sondern das Interaktionsparadigma selbst. Erstens sind Wahrnehmung und Reaktion immer noch in abwechselnde Phasen getrennt, was verhindert, dass Modelle neue Eingaben für rechtzeitige Anpassungen während der Generierung einbeziehen. Zweitens bleiben die meisten aktuellen Modelle reaktiv und reagieren nur auf explizite Benutzeranfragen, anstatt proaktiv in der sich entwickelnden multimodalen Umgebung zu handeln. Wir präsentieren MiniCPM-o 4.5, unseren neuesten Beitrag zur menschenähnlichen multimodalen Interaktion, der diese Lücken durch Echtzeit-Vollduplex-Interaktion mit allen Modalitäten überbrückt. Es kann in Echtzeit gleichzeitig sehen, hören und sprechen und zeigt zudem proaktive Verhaltensweisen wie das Ausgeben von Erinnerungen oder Kommentaren basierend auf seinem kontinuierlichen Verständnis der Live-Szene. Die Schlüsseltechnologie hinter MiniCPM-o 4.5 ist Omni-Flow, ein einheitliches Streaming-Framework, das omnimodale Eingaben und Ausgaben entlang einer gemeinsamen Zeitachse ausrichtet. Diese Formulierung wandelt die konventionelle turn-basierte Interaktion in einen vollduplex-zeitlich synchronisierten Prozess um, ermöglicht gleichzeitige Wahrnehmung und Reaktion und lässt proaktives Verhalten innerhalb desselben Frameworks entstehen. Mit insgesamt 9B Parametern erreicht MiniCPM-o 4.5 nahezu die Vision-Sprache-Fähigkeiten von Gemini 2.5 Flash und liefert state-of-the-art Open-Source-Leistung in seiner Größenordnung. Es übertrifft zudem Qwen3-Omni-30B-A3B im omnimodalen Verständnis und bietet eine bessere Spracherzeugung bei deutlich höherer Recheneffizienz. Angetrieben durch sein effizientes Architekturdesign und Inferenzoptimierung kann das Modelle Echtzeit-Vollduplex-Interaktion mit allen Modalitäten auf Edge-Geräten mit weniger als 12 GB RAM-Bedarf durchführen.
English
Recent progress in multimodal large language models (MLLMs) has brought AI capabilities from static offline data processing to real-time streaming interaction, yet they still remain far from human-level multimodal interaction. The key bottlenecks are no longer modality coverage or latency alone, but the interaction paradigm itself. First, perception and response are still separated into alternating phases, preventing models from incorporating new inputs for timely adjustment during generation. Second, most current models remain reactive, responding only to explicit user requests instead of acting proactively in the evolving multimodal environment. We present MiniCPM-o 4.5, our latest effort towards human-like multimodal interaction, which mitigates these gaps by real-time full-duplex omni-modal interaction. It can see, listen, and speak simultaneously in real-time, while also exhibiting proactive behaviors such as issuing reminders or comments based on its continuous understanding of the live scene. The key technique behind MiniCPM-o 4.5 is Omni-Flow, a unified streaming framework that aligns omni-modal inputs and outputs along a shared temporal axis. This formulation converts conventional turn-based interaction into a full-duplex, time-aligned process, enabling simultaneous perception and response and allowing proactive behavior to arise within the same framework. With a total of 9B parameters, MiniCPM-o 4.5 approaches Gemini 2.5 Flash in vision-language capabilities, delivering state-of-the-art open-source performance at its scale. It also surpasses Qwen3-Omni-30B-A3B in omni-modal understanding and delivers better speech generation, with significantly higher computation efficiency. Driven by its efficient architecture design and inference optimization, the model can perform real-time full-duplex omni-modal interaction on edge devices with less than 12GB RAM cost.
PDF51May 8, 2026