ChatPaper.aiChatPaper

UniMIC : Codage interactif multimodal basé sur des tokens pour la collaboration humain-IA

UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration

September 26, 2025
papers.authors: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI

papers.abstract

Les progrès rapides des modèles multimodaux de grande taille (LMMs) et des agents d'IA basés sur le cloud transforment la collaboration humain-IA en une interaction bidirectionnelle et multimodale. Cependant, les codecs existants restent optimisés pour une communication unidirectionnelle et unimodale, entraînant une dégradation répétée dans les pipelines conventionnels de compression-transmission-reconstruction. Pour pallier cette limitation, nous proposons UniMIC, un cadre de codage interactif multimodal unifié basé sur des tokens, qui relie les appareils périphériques et les agents d'IA cloud. Au lieu de transmettre des pixels bruts ou du texte brut, UniMIC utilise des représentations tokenisées compactes comme support de communication, permettant une transmission efficace à faible débit tout en maintenant la compatibilité avec les LMMs. Pour améliorer encore la compression, des modèles d'entropie légers basés sur des Transformers, conçus spécifiquement pour différents scénarios—génériques, masqués et conditionnés par le texte—réduisent efficacement la redondance inter-tokens. Des expériences approfondies sur la génération d'images à partir de texte, l'inpainting guidé par le texte, l'outpainting et la réponse à des questions visuelles montrent qu'UniMIC permet des économies substantielles de débit et reste robuste même à des débits ultra-faibles (<0,05 bpp), sans compromettre les performances des tâches en aval. Ces résultats établissent UniMIC comme un paradigme pratique et tourné vers l'avenir pour la communication interactive multimodale de nouvelle génération.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI agents is transforming human-AI collaboration into bidirectional, multimodal interaction. However, existing codecs remain optimized for unimodal, one-way communication, resulting in repeated degradation under conventional compress-transmit-reconstruct pipelines. To address this limitation, we propose UniMIC, a Unified token-based Multimodal Interactive Coding framework that bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or plain text, UniMIC employs compact tokenized representations as the communication medium, enabling efficient low-bitrate transmission while maintaining compatibility with LMMs. To further enhance compression, lightweight Transformer-based entropy models with scenario-specific designs-generic, masked, and text-conditioned-effectively minimize inter-token redundancy. Extensive experiments on text-to-image generation, text-guided inpainting, outpainting, and visual question answering show that UniMIC achieves substantial bitrate savings and remains robust even at ultra-low bitrates (<0.05bpp), without compromising downstream task performance. These results establish UniMIC as a practical and forward-looking paradigm for next-generation multimodal interactive communication.
PDF33September 30, 2025