ChatPaper.aiChatPaper

UniMIC: Token-gebaseerde multimodale interactieve codering voor mens-AI-samenwerking

UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration

September 26, 2025
Auteurs: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI

Samenvatting

De snelle vooruitgang van Grote Multimodale Modellen (LMMs) en cloudgebaseerde AI-agenten transformeert mens-AI-samenwerking in bidirectionele, multimodale interactie. Bestaande codecs blijven echter geoptimaliseerd voor unidirectionele, eenrichtingscommunicatie, wat resulteert in herhaalde degradatie onder conventionele compressie-transmissie-reconstructiepijplijnen. Om deze beperking aan te pakken, stellen we UniMIC voor, een Unified token-based Multimodal Interactive Coding-framework dat randapparaten en cloud-AI-agenten verbindt. In plaats van ruwe pixels of platte tekst te verzenden, gebruikt UniMIC compacte getokeniseerde representaties als communicatiemedium, waardoor efficiënte transmissie met lage bitrate mogelijk wordt, terwijl compatibiliteit met LMMs behouden blijft. Om compressie verder te verbeteren, minimaliseren lichtgewicht Transformer-gebaseerde entropiemodellen met scenario-specifieke ontwerpen—generiek, gemaskeerd en tekst-geconditioneerd—effectief de redundantie tussen tokens. Uitgebreide experimenten op tekst-naar-beeldgeneratie, tekstgeleid inpainting, outpainting en visuele vraagbeantwoording tonen aan dat UniMIC aanzienlijke bitratebesparingen realiseert en robuust blijft, zelfs bij ultra-lage bitrates (<0.05bpp), zonder de prestaties van downstream taken in gevaar te brengen. Deze resultaten vestigen UniMIC als een praktisch en vooruitstrevend paradigma voor de volgende generatie multimodale interactieve communicatie.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI agents is transforming human-AI collaboration into bidirectional, multimodal interaction. However, existing codecs remain optimized for unimodal, one-way communication, resulting in repeated degradation under conventional compress-transmit-reconstruct pipelines. To address this limitation, we propose UniMIC, a Unified token-based Multimodal Interactive Coding framework that bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or plain text, UniMIC employs compact tokenized representations as the communication medium, enabling efficient low-bitrate transmission while maintaining compatibility with LMMs. To further enhance compression, lightweight Transformer-based entropy models with scenario-specific designs-generic, masked, and text-conditioned-effectively minimize inter-token redundancy. Extensive experiments on text-to-image generation, text-guided inpainting, outpainting, and visual question answering show that UniMIC achieves substantial bitrate savings and remains robust even at ultra-low bitrates (<0.05bpp), without compromising downstream task performance. These results establish UniMIC as a practical and forward-looking paradigm for next-generation multimodal interactive communication.
PDF33September 30, 2025