ChatPaper.aiChatPaper

Router-Suggest: Enrutamiento Dinámico para Autocompletado Multimodal en Diálogos Visualmente Fundamentados

Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs

January 9, 2026
Autores: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
cs.AI

Resumen

La autocompletación multimodal en tiempo real es esencial para asistentes digitales, chatbots, herramientas de diseño y consultas de salud, donde las entradas del usuario dependen de un contexto visual compartido. Presentamos la Autocompletación Multimodal (MAC), una tarea que predice los caracteres siguientes en chats en vivo utilizando texto parcialmente escrito y señales visuales. A diferencia de la autocompletación tradicional basada únicamente en texto (TAC), MAC fundamenta las predicciones en un contexto multimodal para capturar mejor la intención del usuario. Para habilitar esta tarea, adaptamos MMDialog e ImageChat para crear conjuntos de datos de referencia. Evaluamos los principales modelos de visión y lenguaje (VLM) frente a sólidas líneas base textuales, destacando las compensaciones entre precisión y eficiencia. Presentamos Router-Suggest, un marco de enrutador que selecciona dinámicamente entre modelos textuales y VLMs basándose en el contexto del diálogo, junto con una variante ligera para entornos con recursos limitados. Router-Suggest logra una aceleración de 2.3x a 10x sobre el VLM de mejor rendimiento. Un estudio de usuario muestra que los VLMs superan significativamente a los modelos textuales en satisfacción del usuario, destacándose por ahorrar esfuerzo de escritura y mejorar la calidad de las completaciones en conversaciones multiturno. Estos hallazgos subrayan la necesidad del contexto multimodal en las autocompletaciones, conduciendo a asistentes más inteligentes y conscientes del usuario.
English
Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.
PDF11January 13, 2026