MiniCPM-o 4.5: На пути к полно-дуплексному омни-модальному взаимодействию в реальном времени
MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction
April 30, 2026
Авторы: Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLM) позволили перейти от статической офлайн-обработки данных к интерактивному взаимодействию в реальном времени, однако эти модели по-прежнему значительно уступают человеческому уровню мультимодального взаимодействия. Ключевые ограничения связаны уже не только с охватом модальностей или задержками, а с самой парадигмой взаимодействия. Во-первых, восприятие и ответ по-прежнему разделены на чередующиеся фазы, что не позволяет моделям оперативно корректировать генерацию с учетом новых входных данных. Во-вторых, большинство современных моделей остаются реактивными, отвечая только на явные запросы пользователя вместо проактивных действий в развивающейся мультимодальной среде. Мы представляем MiniCPM-o 4.5 — нашу новейшую разработку в области человеко-подобного мультимодального взаимодействия, которая устраняет эти пробелы за счет полно-дуплексного омни-модального взаимодействия в реальном времени. Модель способна одновременно видеть, слышать и говорить, а также демонстрировать проактивное поведение, такое как выдача напоминаний или комментариев на основе непрерывного понимания динамической сцены. Ключевой технологией MiniCPM-o 4.5 является Omni-Flow — унифицированная потоковая архитектура, выравнивающая омни-модальные входы и выходы вдоль общей временной оси. Данный подход преобразует традиционное пошаговое взаимодействие в полно-дуплексный временно-синхронизированный процесс, обеспечивая одновременное восприятие и ответ, а также позволяя реализовать проактивное поведение в рамках единой системы. При общем объеме 9 млрд параметров MiniCPM-o 4.5 приближается к возможностям Gemini 2.5 Flash в области визуально-языкового понимания, демонстрируя передовую производительность среди открытых моделей сопоставимого масштаба. Модель превосходит Qwen3-Omni-30B-A3B по омни-модальному пониманию и обеспечивает лучшее качество генерации речи при значительно более высокой вычислительной эффективности. Благодаря оптимизированной архитектуре и методам ускорения вывода, модель способна выполнять полно-дуплексное омни-модальное взаимодействие в реальном времени на периферийных устройствах с потреблением памяти менее 12 ГБ.
English
Recent progress in multimodal large language models (MLLMs) has brought AI capabilities from static offline data processing to real-time streaming interaction, yet they still remain far from human-level multimodal interaction. The key bottlenecks are no longer modality coverage or latency alone, but the interaction paradigm itself. First, perception and response are still separated into alternating phases, preventing models from incorporating new inputs for timely adjustment during generation. Second, most current models remain reactive, responding only to explicit user requests instead of acting proactively in the evolving multimodal environment. We present MiniCPM-o 4.5, our latest effort towards human-like multimodal interaction, which mitigates these gaps by real-time full-duplex omni-modal interaction. It can see, listen, and speak simultaneously in real-time, while also exhibiting proactive behaviors such as issuing reminders or comments based on its continuous understanding of the live scene. The key technique behind MiniCPM-o 4.5 is Omni-Flow, a unified streaming framework that aligns omni-modal inputs and outputs along a shared temporal axis. This formulation converts conventional turn-based interaction into a full-duplex, time-aligned process, enabling simultaneous perception and response and allowing proactive behavior to arise within the same framework. With a total of 9B parameters, MiniCPM-o 4.5 approaches Gemini 2.5 Flash in vision-language capabilities, delivering state-of-the-art open-source performance at its scale. It also surpasses Qwen3-Omni-30B-A3B in omni-modal understanding and delivers better speech generation, with significantly higher computation efficiency. Driven by its efficient architecture design and inference optimization, the model can perform real-time full-duplex omni-modal interaction on edge devices with less than 12GB RAM cost.