UniMIC: Token-gebaseerde multimodale interactieve codering voor mens-AI-samenwerking
UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration
September 26, 2025
Auteurs: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI
Samenvatting
De snelle vooruitgang van Grote Multimodale Modellen (LMMs) en cloudgebaseerde AI-agenten transformeert mens-AI-samenwerking in bidirectionele, multimodale interactie. Bestaande codecs blijven echter geoptimaliseerd voor unidirectionele, eenrichtingscommunicatie, wat resulteert in herhaalde degradatie onder conventionele compressie-transmissie-reconstructiepijplijnen. Om deze beperking aan te pakken, stellen we UniMIC voor, een Unified token-based Multimodal Interactive Coding-framework dat randapparaten en cloud-AI-agenten verbindt. In plaats van ruwe pixels of platte tekst te verzenden, gebruikt UniMIC compacte getokeniseerde representaties als communicatiemedium, waardoor efficiënte transmissie met lage bitrate mogelijk wordt, terwijl compatibiliteit met LMMs behouden blijft. Om compressie verder te verbeteren, minimaliseren lichtgewicht Transformer-gebaseerde entropiemodellen met scenario-specifieke ontwerpen—generiek, gemaskeerd en tekst-geconditioneerd—effectief de redundantie tussen tokens. Uitgebreide experimenten op tekst-naar-beeldgeneratie, tekstgeleid inpainting, outpainting en visuele vraagbeantwoording tonen aan dat UniMIC aanzienlijke bitratebesparingen realiseert en robuust blijft, zelfs bij ultra-lage bitrates (<0.05bpp), zonder de prestaties van downstream taken in gevaar te brengen. Deze resultaten vestigen UniMIC als een praktisch en vooruitstrevend paradigma voor de volgende generatie multimodale interactieve communicatie.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI
agents is transforming human-AI collaboration into bidirectional, multimodal
interaction. However, existing codecs remain optimized for unimodal, one-way
communication, resulting in repeated degradation under conventional
compress-transmit-reconstruct pipelines. To address this limitation, we propose
UniMIC, a Unified token-based Multimodal Interactive Coding framework that
bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or
plain text, UniMIC employs compact tokenized representations as the
communication medium, enabling efficient low-bitrate transmission while
maintaining compatibility with LMMs. To further enhance compression,
lightweight Transformer-based entropy models with scenario-specific
designs-generic, masked, and text-conditioned-effectively minimize inter-token
redundancy. Extensive experiments on text-to-image generation, text-guided
inpainting, outpainting, and visual question answering show that UniMIC
achieves substantial bitrate savings and remains robust even at ultra-low
bitrates (<0.05bpp), without compromising downstream task performance. These
results establish UniMIC as a practical and forward-looking paradigm for
next-generation multimodal interactive communication.