ChatPaper.aiChatPaper

UniMIC: Codifica Interattiva Multimodale Basata su Token per la Collaborazione Uomo-IA

UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration

September 26, 2025
Autori: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI

Abstract

Il rapido progresso dei Modelli Multimodali di Grande Scala (LMMs) e degli agenti di intelligenza artificiale basati su cloud sta trasformando la collaborazione uomo-AI in un'interazione bidirezionale e multimodale. Tuttavia, i codec esistenti rimangono ottimizzati per una comunicazione unimodale e unidirezionale, risultando in una degradazione ripetuta all'interno delle tradizionali pipeline di compressione-trasmissione-ricostruzione. Per affrontare questa limitazione, proponiamo UniMIC, un framework di Codifica Interattiva Multimodale Unificata basato su token che collega dispositivi edge e agenti AI cloud. Invece di trasmettere pixel grezzi o testo semplice, UniMIC utilizza rappresentazioni tokenizzate compatte come mezzo di comunicazione, consentendo una trasmissione efficiente a basso bitrate mantenendo la compatibilità con i LMMs. Per migliorare ulteriormente la compressione, modelli di entropia leggeri basati su Transformer con design specifici per lo scenario—generico, mascherato e condizionato al testo—riducono efficacemente la ridondanza inter-token. Esperimenti estesi sulla generazione di immagini da testo, inpainting guidato da testo, outpainting e risposte a domande visive dimostrano che UniMIC ottiene risparmi sostanziali di bitrate e rimane robusto anche a bitrate ultra-bassi (<0.05bpp), senza compromettere le prestazioni delle attività downstream. Questi risultati stabiliscono UniMIC come un paradigma pratico e lungimirante per la comunicazione interattiva multimodale di prossima generazione.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI agents is transforming human-AI collaboration into bidirectional, multimodal interaction. However, existing codecs remain optimized for unimodal, one-way communication, resulting in repeated degradation under conventional compress-transmit-reconstruct pipelines. To address this limitation, we propose UniMIC, a Unified token-based Multimodal Interactive Coding framework that bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or plain text, UniMIC employs compact tokenized representations as the communication medium, enabling efficient low-bitrate transmission while maintaining compatibility with LMMs. To further enhance compression, lightweight Transformer-based entropy models with scenario-specific designs-generic, masked, and text-conditioned-effectively minimize inter-token redundancy. Extensive experiments on text-to-image generation, text-guided inpainting, outpainting, and visual question answering show that UniMIC achieves substantial bitrate savings and remains robust even at ultra-low bitrates (<0.05bpp), without compromising downstream task performance. These results establish UniMIC as a practical and forward-looking paradigm for next-generation multimodal interactive communication.
PDF33September 30, 2025