Vers une intelligence interactive pour les humains numériques
Towards Interactive Intelligence for Digital Humans
December 15, 2025
papers.authors: Yiyi Cai, Xuangeng Chu, Xiwei Gao, Sitong Gong, Yifei Huang, Caixin Kang, Kunhang Li, Haiyang Liu, Ruicong Liu, Yun Liu, Dianwen Ng, Zixiong Su, Erwin Wu, Yuhan Wu, Dingkun Yan, Tianyu Yan, Chang Zeng, Bo Zheng, You Zhou
cs.AI
papers.abstract
Nous introduisons l'Intelligence Interactive, un nouveau paradigme d'humain numérique capable d'expression alignée sur la personnalité, d'interaction adaptative et d'auto-évolution. Pour la concrétiser, nous présentons Mio (Omni-Avatar Interactif Multimodal), un cadre end-to-end composé de cinq modules spécialisés : Penseur, Parleur, Animateur Facial, Animateur Corporel et Rendu. Cette architecture unifiée intègre le raisonnement cognitif avec une incarnation multimodale en temps réel pour permettre une interaction fluide et cohérente. Par ailleurs, nous établissons un nouveau benchmark pour évaluer rigoureusement les capacités de l'intelligence interactive. Des expériences approfondies démontrent que notre cadre atteint des performances supérieures aux méthodes de l'état de l'art sur toutes les dimensions évaluées. Ensemble, ces contributions font évoluer les humains numériques au-delà de l'imitation superficielle vers l'interaction intelligente.
English
We introduce Interactive Intelligence, a novel paradigm of digital human that is capable of personality-aligned expression, adaptive interaction, and self-evolution. To realize this, we present Mio (Multimodal Interactive Omni-Avatar), an end-to-end framework composed of five specialized modules: Thinker, Talker, Face Animator, Body Animator, and Renderer. This unified architecture integrates cognitive reasoning with real-time multimodal embodiment to enable fluid, consistent interaction. Furthermore, we establish a new benchmark to rigorously evaluate the capabilities of interactive intelligence. Extensive experiments demonstrate that our framework achieves superior performance compared to state-of-the-art methods across all evaluated dimensions. Together, these contributions move digital humans beyond superficial imitation toward intelligent interaction.