ChatPaper.aiChatPaper

UniMIC: Token-basierte multimodale interaktive Kodierung für die Mensch-KI-Kollaboration

UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration

September 26, 2025
papers.authors: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI

papers.abstract

Der rasche Fortschritt von Large Multimodal Models (LMMs) und cloudbasierten KI-Agenten transformiert die Mensch-KI-Kollaboration in eine bidirektionale, multimodale Interaktion. Bestehende Codecs sind jedoch weiterhin auf unimodale, einseitige Kommunikation optimiert, was zu wiederholter Qualitätsminderung in konventionellen Komprimierungs-Übertragungs-Rekonstruktions-Pipelines führt. Um diese Einschränkung zu überwinden, schlagen wir UniMIC vor, ein einheitliches, tokenbasiertes Multimodales Interaktives Codierungs-Framework, das Edge-Geräte und Cloud-KI-Agenten verbindet. Anstatt rohe Pixel oder Klartext zu übertragen, nutzt UniMIC kompakte tokenisierte Repräsentationen als Kommunikationsmedium, wodurch eine effiziente Niedrigbitraten-Übertragung ermöglicht wird, während die Kompatibilität mit LMMs erhalten bleibt. Um die Kompression weiter zu verbessern, minimieren leichte Transformer-basierte Entropiemodelle mit szenariospezifischen Designs – generisch, maskiert und textbedingt – effektiv die Redundanz zwischen Tokens. Umfangreiche Experimente zur Text-zu-Bild-Generierung, textgesteuerten Bildinpainting, Outpainting und visuellen Fragebeantwortung zeigen, dass UniMIC erhebliche Bitrateneinsparungen erzielt und selbst bei ultra-niedrigen Bitraten (<0,05 bpp) robust bleibt, ohne die Leistung nachgelagerter Aufgaben zu beeinträchtigen. Diese Ergebnisse etablieren UniMIC als ein praktisches und zukunftsorientiertes Paradigma für die nächste Generation multimodaler interaktiver Kommunikation.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI agents is transforming human-AI collaboration into bidirectional, multimodal interaction. However, existing codecs remain optimized for unimodal, one-way communication, resulting in repeated degradation under conventional compress-transmit-reconstruct pipelines. To address this limitation, we propose UniMIC, a Unified token-based Multimodal Interactive Coding framework that bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or plain text, UniMIC employs compact tokenized representations as the communication medium, enabling efficient low-bitrate transmission while maintaining compatibility with LMMs. To further enhance compression, lightweight Transformer-based entropy models with scenario-specific designs-generic, masked, and text-conditioned-effectively minimize inter-token redundancy. Extensive experiments on text-to-image generation, text-guided inpainting, outpainting, and visual question answering show that UniMIC achieves substantial bitrate savings and remains robust even at ultra-low bitrates (<0.05bpp), without compromising downstream task performance. These results establish UniMIC as a practical and forward-looking paradigm for next-generation multimodal interactive communication.
PDF33September 30, 2025