ChatPaper.aiChatPaper

Router-Suggest : Routage Dynamique pour la Saisie Semi-Automatique Multimodale dans les Dialogues Ancrés Visuellement

Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs

January 9, 2026
papers.authors: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
cs.AI

papers.abstract

L'auto-complétion multimodale en temps réel est essentielle pour les assistants numériques, les chatbots, les outils de conception et les consultations médicales, où les entrées utilisateur reposent sur un contexte visuel partagé. Nous présentons l'Auto-Complétion Multimodale (MAC), une tâche qui prédit les caractères à venir dans les discussions en direct en utilisant un texte partiellement saisi et des indices visuels. Contrairement à l'auto-complétion textuelle traditionnelle (TAC), la MAC ancre ses prédictions dans un contexte multimodal pour mieux saisir l'intention de l'utilisateur. Pour permettre cette tâche, nous adaptons MMDialog et ImageChat pour créer des jeux de données de référence. Nous évaluons les modèles vision-langue (VLM) leaders par rapport à des modèles de référence textuels solides, en mettant en évidence les compromis entre précision et efficacité. Nous présentons Router-Suggest, un framework routeur qui sélectionne dynamiquement entre les modèles textuels et les VLM en fonction du contexte du dialogue, ainsi qu'une variante légère pour les environnements à ressources limitées. Router-Suggest obtient une accélération de 2,3x à 10x par rapport au VLM le plus performant. Une étude utilisateur montre que les VLM surpassent significativement les modèles textuels en termes de satisfaction des utilisateurs, économisant notamment l'effort de saisie et améliorant la qualité des complétions dans les conversations multi-tours. Ces résultats soulignent la nécessité d'un contexte multimodal dans l'auto-complétion, conduisant à des assistants plus intelligents et conscients de l'utilisateur.
English
Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.
PDF11January 13, 2026