ChatPaper.aiChatPaper

UniMIC: 인간-AI 협업을 위한 토큰 기반 다중모달 상호작용 코딩

UniMIC: Token-Based Multimodal Interactive Coding for Human-AI Collaboration

September 26, 2025
저자: Qi Mao, Tinghan Yang, Jiahao Li, Bin Li, Libiao Jin, Yan Lu
cs.AI

초록

대규모 멀티모달 모델(LMMs)과 클라우드 기반 AI 에이전트의 급속한 발전은 인간-AI 협업을 양방향 멀티모달 상호작용으로 전환하고 있습니다. 그러나 기존 코덱은 여전히 단일 모달, 단방향 통신에 최적화되어 있어 기존의 압축-전송-재구성 파이프라인에서 반복적인 품질 저하가 발생하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 에지 디바이스와 클라우드 AI 에이전트를 연결하는 통합 토큰 기반 멀티모달 상호작용 코딩 프레임워크인 UniMIC를 제안합니다. UniMIC는 원시 픽셀이나 일반 텍스트를 전송하는 대신, 컴팩트한 토큰화된 표현을 통신 매체로 사용하여 LMMs와의 호환성을 유지하면서도 효율적인 저비트레이트 전송을 가능하게 합니다. 압축을 더욱 강화하기 위해, 시나리오별 설계(일반, 마스킹, 텍스트 조건부)를 가진 경량 Transformer 기반 엔트로피 모델은 토큰 간 중복을 효과적으로 최소화합니다. 텍스트-이미지 생성, 텍스트 기반 인페인팅, 아웃페인팅, 시각적 질문 응답에 대한 광범위한 실험을 통해 UniMIC는 상당한 비트레이트 절감을 달성하고, 초저비트레이트(<0.05bpp)에서도 하위 작업 성능을 저하시키지 않으면서 견고함을 유지함을 보여줍니다. 이러한 결과는 UniMIC를 차세대 멀티모달 상호작용 통신을 위한 실용적이고 미래지향적인 패러다임으로 확립합니다.
English
The rapid progress of Large Multimodal Models (LMMs) and cloud-based AI agents is transforming human-AI collaboration into bidirectional, multimodal interaction. However, existing codecs remain optimized for unimodal, one-way communication, resulting in repeated degradation under conventional compress-transmit-reconstruct pipelines. To address this limitation, we propose UniMIC, a Unified token-based Multimodal Interactive Coding framework that bridges edge devices and cloud AI agents. Instead of transmitting raw pixels or plain text, UniMIC employs compact tokenized representations as the communication medium, enabling efficient low-bitrate transmission while maintaining compatibility with LMMs. To further enhance compression, lightweight Transformer-based entropy models with scenario-specific designs-generic, masked, and text-conditioned-effectively minimize inter-token redundancy. Extensive experiments on text-to-image generation, text-guided inpainting, outpainting, and visual question answering show that UniMIC achieves substantial bitrate savings and remains robust even at ultra-low bitrates (<0.05bpp), without compromising downstream task performance. These results establish UniMIC as a practical and forward-looking paradigm for next-generation multimodal interactive communication.
PDF33September 30, 2025