Router-Suggest: Instradamento Dinamico per il Completamento Automatico Multimodale nei Dialoghi Basati sul Visivo

Abstract

Il completamento automatico multimodale in tempo reale è essenziale per assistenti digitali, chatbot, strumenti di progettazione e consulti sanitari, dove gli input dell'utente si basano su un contesto visivo condiviso. Introduciamo il Completamento Automatico Multimodale (MAC), un compito che prevede i caratteri imminenti nelle chat live utilizzando testo parzialmente digitato e segnali visivi. A differenza del completamento automatico tradizionale basato solo sul testo (TAC), il MAC fonda le previsioni su un contesto multimodale per catturare meglio l'intento dell'utente. Per abilitare questo compito, adattiamo MMDialog e ImageChat per creare dataset di benchmark. Valutiamo modelli visione-linguaggio (VLM) all'avanguardia confrontandoli con solidi baseline testuali, evidenziando i compromessi tra accuratezza ed efficienza. Presentiamo Router-Suggest, un framework router che seleziona dinamicamente tra modelli testuali e VLM in base al contesto dialogico, insieme a una variante leggera per ambienti con risorse limitate. Router-Suggest raggiunge un'accelerazione da 2,3x a 10x rispetto al VLM dalle prestazioni migliori. Uno studio utente mostra che i VLM eccellono significativamente rispetto ai modelli testuali nella soddisfazione dell'utente, risparmiando notevolmente lo sforzo di digitazione e migliorando la qualità dei completamenti nelle conversazioni a più turni. Questi risultati sottolineano la necessità di un contesto multimodale nei completamenti automatici, portando a assistenti più intelligenti e consapevoli dell'utente.

English

Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.

Router-Suggest: Instradamento Dinamico per il Completamento Automatico Multimodale nei Dialoghi Basati sul Visivo

Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs

Abstract

Support