ChatPaper.aiChatPaper

Router-Suggest: Dynamische Routering voor Multimodale Automatische Voltooiing in Visueel-Gegronde Dialogen

Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs

January 9, 2026
Auteurs: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
cs.AI

Samenvatting

Real-time multimodale automatische aanvulling is essentieel voor digitale assistenten, chatbots, ontwerpgereedschappen en gezondheidsconsulten, waarbij gebruikersinvoer steunt op gedeelde visuele context. Wij introduceren Multimodale Auto-Completion (MAC), een taak die aankomende karakters in live chats voorspelt met behulp van gedeeltelijk getypte tekst en visuele aanwijzingen. In tegenstelling tot traditionele tekstuele automatische aanvulling (TAC), verankert MAC voorspellingen in multimodale context om gebruikersintentie beter te vatten. Om deze taak mogelijk te maken, passen we MMDialog en ImageChat aan om benchmarkdatasets te creëren. We evalueren toonaangevende vision-language modellen (VLM's) tegen sterke tekstuele baseline-modellen, waarbij we wisselwerkingen in nauwkeurigheid en efficiëntie belichten. We presenteren Router-Suggest, een routerframework dat dynamisch selecteert tussen tekstmodellen en VLM's op basis van dialoogcontext, samen met een lichtgewicht variant voor omgevingen met beperkte middelen. Router-Suggest behaalt een 2,3x tot 10x versnelling ten opzichte van de best presterende VLM. Een gebruikersstudie toont aan dat VLM's significant beter presteren dan tekstmodellen op gebruikers tevredenheid, met name door type-inspanning te besparen en de kwaliteit van aanvullingen in multi-turn gesprekken te verbeteren. Deze bevindingen onderstrepen de noodzaak van multimodale context in automatische aanvullingen, wat leidt tot slimmere, gebruikersbewuste assistenten.
English
Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.
PDF12January 16, 2026