ChatPaper.aiChatPaper

MiniCPM-o 4.5: Op weg naar realtime full-duplex omnimodale interactie

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

April 30, 2026
Auteurs: Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
cs.AI

Samenvatting

Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft AI-mogelijkheden gebracht van statische offline gegevensverwerking naar real-time streaminginteractie, maar ze blijven toch ver verwijderd van menselijke multimodale interactie. De belangrijkste knelpunten zijn niet langer alleen modaliteitsdekking of latentie, maar het interactieparadigma zelf. Ten eerste zijn waarneming en reactie nog steeds gescheiden in afwisselende fasen, wat modellen verhindert nieuwe invoer te verwerken voor tijdige aanpassing tijdens de generatie. Ten tweede blijven de meeste huidige modellen reactief; ze reageren alleen op expliciete gebruikersverzoeken in plaats van proactief op te treden in de zich ontwikkelende multimodale omgeving. Wij presenteren MiniCPM-o 4.5, onze nieuwste poging tot mensachtige multimodale interactie, die deze hiaten vermindert door real-time full-duplex omnimodale interactie. Het kan tegelijkertijd in real-time zien, luisteren en spreken, terwijl het ook proactief gedrag vertoont, zoals het geven van herinneringen of commentaar op basis van zijn continue begrip van de live scène. De kerntechniek achter MiniCPM-o 4.5 is Omni-Flow, een uniform streamingkader dat omnimodale invoer en uitvoer uitlijnt langs een gedeelde temporele as. Deze formulering zet conventionele beurtgebonden interactie om in een full-duplex, tijdelijk uitgelijnd proces, waardoor gelijktijdige waarneming en reactie mogelijk wordt en proactief gedrag binnen hetzelfde kader kan ontstaan. Met in totaal 9B parameters benadert MiniCPM-o 4.5 Gemini 2.5 Flash in visie-taalcapaciteiten en levert het state-of-the-art open-source prestaties op zijn schaal. Het overtreft ook Qwen3-Omni-30B-A3B in omnimodaal begrip en levert betere spraakgeneratie, met aanzienlijk hogere reken efficiëntie. Aangedreven door zijn efficiënte architectuurontwerp en inferentie-optimalisatie kan het model real-time full-duplex omnimodale interactie uitvoeren op edge-apparaten met minder dan 12GB RAM-gebruik.
English
Recent progress in multimodal large language models (MLLMs) has brought AI capabilities from static offline data processing to real-time streaming interaction, yet they still remain far from human-level multimodal interaction. The key bottlenecks are no longer modality coverage or latency alone, but the interaction paradigm itself. First, perception and response are still separated into alternating phases, preventing models from incorporating new inputs for timely adjustment during generation. Second, most current models remain reactive, responding only to explicit user requests instead of acting proactively in the evolving multimodal environment. We present MiniCPM-o 4.5, our latest effort towards human-like multimodal interaction, which mitigates these gaps by real-time full-duplex omni-modal interaction. It can see, listen, and speak simultaneously in real-time, while also exhibiting proactive behaviors such as issuing reminders or comments based on its continuous understanding of the live scene. The key technique behind MiniCPM-o 4.5 is Omni-Flow, a unified streaming framework that aligns omni-modal inputs and outputs along a shared temporal axis. This formulation converts conventional turn-based interaction into a full-duplex, time-aligned process, enabling simultaneous perception and response and allowing proactive behavior to arise within the same framework. With a total of 9B parameters, MiniCPM-o 4.5 approaches Gemini 2.5 Flash in vision-language capabilities, delivering state-of-the-art open-source performance at its scale. It also surpasses Qwen3-Omni-30B-A3B in omni-modal understanding and delivers better speech generation, with significantly higher computation efficiency. Driven by its efficient architecture design and inference optimization, the model can perform real-time full-duplex omni-modal interaction on edge devices with less than 12GB RAM cost.
PDF51May 8, 2026