ChatPaper.aiChatPaper

UniMIC: Токен-ориентированное мультимодальное интерактивное кодирование для взаимодействия человека и ИИ

UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration

September 26, 2025
Авторы: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI

Аннотация

Быстрый прогресс крупных мультимодальных моделей (LMM) и облачных ИИ-агентов преобразует взаимодействие человека и ИИ в двунаправленное мультимодальное взаимодействие. Однако существующие кодеки остаются оптимизированными для однонаправленной унимодальной коммуникации, что приводит к повторяющейся деградации в рамках традиционных конвейеров сжатия-передачи-восстановления. Чтобы устранить это ограничение, мы предлагаем UniMIC — унифицированную токенизированную мультимодальную интерактивную систему кодирования, которая связывает периферийные устройства и облачные ИИ-агенты. Вместо передачи необработанных пикселей или простого текста UniMIC использует компактные токенизированные представления в качестве среды коммуникации, обеспечивая эффективную передачу с низким битрейтом при сохранении совместимости с LMM. Для дальнейшего улучшения сжатия легковесные трансформерные модели энтропии с сценарий-специфичными дизайнами — универсальным, маскированным и текстово-обусловленным — эффективно минимизируют избыточность между токенами. Многочисленные эксперименты по генерации изображений из текста, текстово-управляемому восстановлению, расширению изображений и визуальному ответу на вопросы показывают, что UniMIC достигает значительной экономии битрейта и остается устойчивым даже при сверхнизких битрейтах (<0.05 бит на пиксель), не ухудшая производительность последующих задач. Эти результаты подтверждают UniMIC как практичную и перспективную парадигму для следующего поколения мультимодальной интерактивной коммуникации.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI agents is transforming human-AI collaboration into bidirectional, multimodal interaction. However, existing codecs remain optimized for unimodal, one-way communication, resulting in repeated degradation under conventional compress-transmit-reconstruct pipelines. To address this limitation, we propose UniMIC, a Unified token-based Multimodal Interactive Coding framework that bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or plain text, UniMIC employs compact tokenized representations as the communication medium, enabling efficient low-bitrate transmission while maintaining compatibility with LMMs. To further enhance compression, lightweight Transformer-based entropy models with scenario-specific designs-generic, masked, and text-conditioned-effectively minimize inter-token redundancy. Extensive experiments on text-to-image generation, text-guided inpainting, outpainting, and visual question answering show that UniMIC achieves substantial bitrate savings and remains robust even at ultra-low bitrates (<0.05bpp), without compromising downstream task performance. These results establish UniMIC as a practical and forward-looking paradigm for next-generation multimodal interactive communication.
PDF33September 30, 2025