UniMIC: Codificação Interativa Multimodal Baseada em Tokens para Colaboração Humano-IA
UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration
September 26, 2025
Autores: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI
Resumo
O rápido progresso dos Modelos Multimodais de Grande Escala (LMMs) e dos agentes de IA baseados em nuvem está transformando a colaboração humano-IA em uma interação bidirecional e multimodal. No entanto, os codecs existentes permanecem otimizados para comunicação unimodal e unidirecional, resultando em degradação repetida sob os pipelines convencionais de compressão-transmissão-reconstrução. Para abordar essa limitação, propomos o UniMIC, uma estrutura de Codificação Interativa Multimodal Unificada baseada em tokens que conecta dispositivos de borda e agentes de IA em nuvem. Em vez de transmitir pixels brutos ou texto simples, o UniMIC emprega representações tokenizadas compactas como meio de comunicação, permitindo transmissão eficiente em baixa taxa de bits enquanto mantém a compatibilidade com LMMs. Para aprimorar ainda mais a compressão, modelos de entropia leves baseados em Transformer com designs específicos para cenários—genérico, mascarado e condicionado por texto—minimizam efetivamente a redundância entre tokens. Experimentos extensivos em geração de texto para imagem, preenchimento guiado por texto, extensão de imagem e resposta a perguntas visuais mostram que o UniMIC alcança economias substanciais na taxa de bits e permanece robusto mesmo em taxas de bits ultrabaixas (<0,05bpp), sem comprometer o desempenho das tarefas subsequentes. Esses resultados estabelecem o UniMIC como um paradigma prático e visionário para a próxima geração de comunicação interativa multimodal.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI
agents is transforming human-AI collaboration into bidirectional, multimodal
interaction. However, existing codecs remain optimized for unimodal, one-way
communication, resulting in repeated degradation under conventional
compress-transmit-reconstruct pipelines. To address this limitation, we propose
UniMIC, a Unified token-based Multimodal Interactive Coding framework that
bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or
plain text, UniMIC employs compact tokenized representations as the
communication medium, enabling efficient low-bitrate transmission while
maintaining compatibility with LMMs. To further enhance compression,
lightweight Transformer-based entropy models with scenario-specific
designs-generic, masked, and text-conditioned-effectively minimize inter-token
redundancy. Extensive experiments on text-to-image generation, text-guided
inpainting, outpainting, and visual question answering show that UniMIC
achieves substantial bitrate savings and remains robust even at ultra-low
bitrates (<0.05bpp), without compromising downstream task performance. These
results establish UniMIC as a practical and forward-looking paradigm for
next-generation multimodal interactive communication.