ChatPaper.aiChatPaper

MiniCPM-o 4.5: Hacia la Interacción Omnimodal en Tiempo Real con Capacidad de Dúplex Completo

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

April 30, 2026
Autores: Junbo Cui, Bokai Xu, Chongyi Wang, Tianyu Yu, Weiyue Sun, Yingjing Xu, Tianran Wang, Zhihui He, Wenshuo Ma, Tianchi Cai, Jiancheng Gui, Luoyuan Zhang, Xian Sun, Fuwei Huang, Moye Chen, Zhuo Lin, Hanyu Liu, Qingxin Gui, Qingzhe Han, Yuyang Wen, Huiping Liu, Rongkang Wang, Yaqi Zhang, Hongliang Wei, Chi Chen, You Li, Kechen Fang, Jie Zhou, Yuxuan Li, Guoyang Zeng, Chaojun Xiao, Yankai Lin, Xu Han, Maosong Sun, Zhiyuan Liu, Yuan Yao
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje multimodal (MLLM) han llevado las capacidades de la IA desde el procesamiento estático de datos offline hasta la interacción en tiempo real con flujos continuos, aunque aún distan mucho de la interacción multimodal humana. Los principales cuellos de botella ya no son solo la cobertura de modalidades o la latencia, sino el propio paradigma de interacción. En primer lugar, la percepción y la respuesta siguen separadas en fases alternadas, lo que impide que los modelos incorporen nuevas entradas para ajustarse oportunamente durante la generación. En segundo lugar, la mayoría de los modelos actuales siguen siendo reactivos, respondiendo solo a solicitudes explícitas del usuario en lugar de actuar de manera proactiva en el entorno multimodal en evolución. Presentamos MiniCPM-o 4.5, nuestro último esfuerzo hacia una interacción multimodal similar a la humana, que mitiga estas brechas mediante la interacción omni-modal full-duplex en tiempo real. Puede ver, escuchar y hablar simultáneamente en tiempo real, a la vez que exhibe comportamientos proactivos, como emitir recordatorios o comentarios basados en su comprensión continua de la escena en vivo. La técnica clave detrás de MiniCPM-o 4.5 es Omni-Flow, un marco unificado de flujo continuo que alinea las entradas y salidas omni-modales a lo largo de un eje temporal compartido. Esta formulación convierte la interacción convencional por turnos en un proceso full-duplex y alineado temporalmente, permitiendo la percepción y respuesta simultáneas y posibilitando que surja un comportamiento proactivo dentro del mismo marco. Con un total de 9B de parámetros, MiniCPM-o 4.5 se acerca a Gemini 2.5 Flash en capacidades de visión y lenguaje, ofreciendo un rendimiento de vanguardia de código abierto para su escala. Además, supera a Qwen3-Omni-30B-A3B en comprensión omni-modal y ofrece una generación de voz mejorada, con una eficiencia computacional significativamente mayor. Impulsado por su diseño arquitectónico eficiente y la optimización de la inferencia, el modelo puede realizar una interacción omni-modal full-duplex en tiempo real en dispositivos periféricos con un coste de RAM inferior a 12 GB.
English
Recent progress in multimodal large language models (MLLMs) has brought AI capabilities from static offline data processing to real-time streaming interaction, yet they still remain far from human-level multimodal interaction. The key bottlenecks are no longer modality coverage or latency alone, but the interaction paradigm itself. First, perception and response are still separated into alternating phases, preventing models from incorporating new inputs for timely adjustment during generation. Second, most current models remain reactive, responding only to explicit user requests instead of acting proactively in the evolving multimodal environment. We present MiniCPM-o 4.5, our latest effort towards human-like multimodal interaction, which mitigates these gaps by real-time full-duplex omni-modal interaction. It can see, listen, and speak simultaneously in real-time, while also exhibiting proactive behaviors such as issuing reminders or comments based on its continuous understanding of the live scene. The key technique behind MiniCPM-o 4.5 is Omni-Flow, a unified streaming framework that aligns omni-modal inputs and outputs along a shared temporal axis. This formulation converts conventional turn-based interaction into a full-duplex, time-aligned process, enabling simultaneous perception and response and allowing proactive behavior to arise within the same framework. With a total of 9B parameters, MiniCPM-o 4.5 approaches Gemini 2.5 Flash in vision-language capabilities, delivering state-of-the-art open-source performance at its scale. It also surpasses Qwen3-Omni-30B-A3B in omni-modal understanding and delivers better speech generation, with significantly higher computation efficiency. Driven by its efficient architecture design and inference optimization, the model can perform real-time full-duplex omni-modal interaction on edge devices with less than 12GB RAM cost.
PDF51May 8, 2026