UniMIC: Codificación Interactiva Multimodal Basada en Tokens para la Colaboración Humano-IA
UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration
September 26, 2025
Autores: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI
Resumen
El rápido avance de los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) y los agentes de IA basados en la nube está transformando la colaboración humano-IA en una interacción bidireccional y multimodal. Sin embargo, los códecs existentes siguen optimizados para la comunicación unimodal y unidireccional, lo que resulta en una degradación repetida bajo los flujos convencionales de compresión-transmisión-reconstrucción. Para abordar esta limitación, proponemos UniMIC, un marco de Codificación Interactiva Multimodal Unificada basado en tokens que conecta dispositivos periféricos y agentes de IA en la nube. En lugar de transmitir píxeles en bruto o texto plano, UniMIC emplea representaciones tokenizadas compactas como medio de comunicación, permitiendo una transmisión eficiente a bajas tasas de bits mientras mantiene la compatibilidad con los LMMs. Para mejorar aún más la compresión, modelos de entropía ligeros basados en Transformers con diseños específicos para cada escenario—genéricos, enmascarados y condicionados por texto—minimizan eficazmente la redundancia entre tokens. Experimentos exhaustivos en generación de imágenes a partir de texto, restauración guiada por texto, expansión de imágenes y respuesta a preguntas visuales muestran que UniMIC logra ahorros sustanciales en la tasa de bits y se mantiene robusto incluso en tasas de bits ultra bajas (<0.05 bpp), sin comprometer el rendimiento de las tareas posteriores. Estos resultados establecen a UniMIC como un paradigma práctico y visionario para la comunicación interactiva multimodal de próxima generación.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI
agents is transforming human-AI collaboration into bidirectional, multimodal
interaction. However, existing codecs remain optimized for unimodal, one-way
communication, resulting in repeated degradation under conventional
compress-transmit-reconstruct pipelines. To address this limitation, we propose
UniMIC, a Unified token-based Multimodal Interactive Coding framework that
bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or
plain text, UniMIC employs compact tokenized representations as the
communication medium, enabling efficient low-bitrate transmission while
maintaining compatibility with LMMs. To further enhance compression,
lightweight Transformer-based entropy models with scenario-specific
designs-generic, masked, and text-conditioned-effectively minimize inter-token
redundancy. Extensive experiments on text-to-image generation, text-guided
inpainting, outpainting, and visual question answering show that UniMIC
achieves substantial bitrate savings and remains robust even at ultra-low
bitrates (<0.05bpp), without compromising downstream task performance. These
results establish UniMIC as a practical and forward-looking paradigm for
next-generation multimodal interactive communication.