로터-서제스트: 시각적 기반 대화에서 다중 모달 자동 완성을 위한 동적 라우팅
Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
January 9, 2026
저자: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
cs.AI
초록
실시간 다중모달 자동 완성은 사용자 입력이 공유된 시각적 맥락에 의존하는 디지털 어시스턴트, 챗봇, 디자인 도구, 의료 상담에서 필수적입니다. 본 연구에서는 부분적으로 입력된 텍스트와 시각적 단서를 활용하여 실시간 채팅에서 예정된 문자를 예측하는 다중모달 자동 완성(MAC) 작업을 소개합니다. 기존의 텍스트 전용 자동 완성(TAC)과 달리 MAC은 다중모달 맥락에 기반하여 예측을 수행함으로써 사용자 의도를 더욱 정확히 포착합니다. 이 작업을 가능하게 하기 위해 MMDialog와 ImageChat을 개조하여 벤치마크 데이터셋을 구축했습니다. 저희는 선도적인 시각-언어 모델(VLM)을 강력한 텍스트 기반 베이스라인과 비교 평가하며 정확도와 효율성 간의 트레이드오프를 부각합니다. 또한 대화 맥락에 따라 텍스트 모델과 VLM을 동적으로 선택하는 라우터 프레임워크인 Router-Suggest와 자원이 제한된 환경을 위한 경량 변형을 제시합니다. Router-Suggest는 최고 성능 VLM 대비 2.3배에서 10배의 속도 향상을 달성했습니다. 사용자 연구 결과, VLM이 다중 턴 대화에서 사용자 입력 노력을 크게 절약하고 완성 품질을 향상시켜 사용자 만족도 측면에서 텍스트 모델을 크게 능가함을 보여줍니다. 이러한 결과는 더 스마트하고 사용자 인식이 가능한 어시스턴트로 나아가기 위해 자동 완성에 다중모달 맥락이 필요함을 강조합니다.
English
Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.