Router-Suggest: Динамическая маршрутизация для мультимодального автодополнения в диалогах, основанных на визуальном контексте
Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
January 9, 2026
Авторы: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta
cs.AI
Аннотация
Многомодальное автодополнение в реальном времени является ключевой функцией для цифровых ассистентов, чат-ботов, инструментов дизайна и медицинских консультаций, где пользовательский ввод опирается на общий визуальный контекст. Мы представляем задачу многомодального автодополнения (MAC), которая предсказывает последующие символы в живых чатах, используя частично введенный текст и визуальные подсказки. В отличие от традиционного текстового автодополнения (TAC), MAC основывает предсказания на многомодальном контексте для более точного учета намерений пользователя. Для реализации этой задачи мы адаптировали MMDialog и ImageChat для создания эталонных наборов данных. Мы оцениваем ведущие визуально-языковые модели (VLM) в сравнении с сильными текстовыми базовыми моделями, выявляя компромиссы между точностью и эффективностью. Предлагается Router-Suggest — роутер-фреймворк, который динамически выбирает между текстовыми моделями и VLM на основе контекста диалога, а также его облегченная версия для сред с ограниченными ресурсами. Router-Suggest обеспечивает ускорение от 2,3 до 10 раз по сравнению с наиболее производительной VLM. Пользовательское исследование показывает, что VLM значительно превосходят текстовые модели по удовлетворенности пользователей, особенно в сокращении усилий на ввод и улучшении качества дополнений в многотурновых беседах. Эти результаты подчеркивают необходимость учета многомодального контекста в автодополнении для создания более интеллектуальных и ориентированных на пользователя ассистентов.
English
Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.