Router-Suggest: Dynamisches Routing für multimodale Auto-Vervollständigung in visuell fundierten Dialogen
Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
January 9, 2026
papers.authors: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
cs.AI
papers.abstract
Echtzeit-Multimodale Auto-Vervollständigung ist entscheidend für digitale Assistenten, Chatbots, Designtools und Gesundheitsberatungen, bei denen Benutzereingaben auf geteiltem visuellem Kontext basieren. Wir stellen Multimodale Auto-Vervollständigung (MAC) vor, eine Aufgabe, die bevorstehende Zeichen in Live-Chats anhand teilweise eingegebenen Texts und visueller Hinweise vorhersagt. Im Gegensatz zur traditionellen rein textbasierten Auto-Vervollständigung (TAC) verankert MAC Vorhersagen im multimodalen Kontext, um die Benutzerabsicht besser zu erfassen. Um diese Aufgabe zu ermöglichen, passen wir MMDialog und ImageChat an, um Benchmark-Datensätze zu erstellen. Wir bewerten führende Vision-Language-Modelle (VLMs) gegen starke textuelle Baselines und beleuchten Zielkonflikte zwischen Genauigkeit und Effizienz. Wir präsentieren Router-Suggest, ein Router-Framework, das dynamisch zwischen textuellen Modellen und VLMs basierend auf dem Dialogkontext auswählt, sowie eine leichtgewichtige Variante für ressourcenbeschränkte Umgebungen. Router-Suggest erreicht eine 2,3- bis 10-fache Beschleunigung gegenüber dem leistungsstärksten VLM. Eine Benutzerstudie zeigt, dass VLMs textuelle Modelle bei der Benutzerzufriedenheit signifikant übertreffen, insbesondere durch Einsparung von Tippaufwand und Verbesserung der Vervollständigungsqualität in Mehrfachdialogen. Diese Ergebnisse unterstreichen die Notwendigkeit multimodalen Kontexts für Auto-Vervollständigungen, um intelligentere, benutzerbewusste Assistenten zu ermöglichen.
English
Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.