Router-Suggest: Roteamento Dinâmico para Auto-Completar Multimodal em Diálogos com Base Visual
Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
January 9, 2026
Autores: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
cs.AI
Resumo
A conclusão multimodal em tempo real é essencial para assistentes digitais, chatbots, ferramentas de design e consultas de saúde, onde as entradas do usuário dependem de um contexto visual compartilhado. Apresentamos a Conclusão Automática Multimodal (MAC), uma tarefa que prevê os próximos caracteres em chats ao vivo usando texto parcialmente digitado e pistas visuais. Diferente da conclusão automática tradicional baseada apenas em texto (TAC), a MAC ancora as previsões no contexto multimodal para capturar melhor a intenção do usuário. Para viabilizar esta tarefa, adaptamos o MMDialog e o ImageChat para criar conjuntos de dados de referência. Avaliamos modelos líderes de visão e linguagem (VLMs) em comparação com fortes linhas de base textuais, destacando os compromissos entre precisão e eficiência. Apresentamos o Router-Suggest, uma estrutura de roteamento que seleciona dinamicamente entre modelos textuais e VLMs com base no contexto do diálogo, juntamente com uma variante leve para ambientes com recursos limitados. O Router-Suggest alcança uma aceleração de 2,3x a 10x em relação ao VLM de melhor desempenho. Um estudo com usuários mostra que os VLMs superam significativamente os modelos textuais em satisfação do usuário, notadamente economizando esforço de digitação e melhorando a qualidade das conclusões em conversas multi-turno. Essas descobertas reforçam a necessidade do contexto multimodal nas conclusões automáticas, levando a assistentes mais inteligentes e conscientes do usuário.
English
Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.