ProactiveBench: Valutazione della Proattività nei Modelli Linguistici Multimodali di Grande Dimensione
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models
March 19, 2026
Autori: Thomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini
cs.AI
Abstract
Una collaborazione efficace inizia sapendo quando chiedere aiuto. Ad esempio, quando si cerca di identificare un oggetto occluso, un essere umano chiederebbe a qualcuno di rimuovere l'ostruzione. I Modelli Linguistici Multimodali (MLLM) possono mostrare un comportamento "proattivo" simile, richiedendo semplici interventi dell'utente? Per indagare ciò, introduciamo ProactiveBench, un benchmark creato a partire da sette dataset riconvertiti che testa la proattività in diversi compiti, come il riconoscimento di oggetti occlusi, il miglioramento della qualità dell'immagine e l'interpretazione di schizzi approssimativi. Valutiamo 22 MLLM su ProactiveBench, dimostrando che (i) generalmente mancano di proattività; (ii) la proattività non correla con la capacità del modello; (iii) "suggerire" la proattività produce solo guadagni marginali. Sorprendentemente, abbiamo scoperto che le cronologie delle conversazioni e l'apprendimento in-context introducono bias negativi, ostacolando le prestazioni. Infine, esploriamo una semplice strategia di fine-tuning basata sull'apprendimento per rinforzo: i suoi risultati suggeriscono che la proattività può essere appresa, generalizzando persino a scenari non visti. Rilasciamo pubblicamente ProactiveBench come primo passo verso la costruzione di modelli multimodali proattivi.
English
Effective collaboration begins with knowing when to ask for help. For example, when trying to identify an occluded object, a human would ask someone to remove the obstruction. Can MLLMs exhibit a similar "proactive" behavior by requesting simple user interventions? To investigate this, we introduce ProactiveBench, a benchmark built from seven repurposed datasets that tests proactiveness across different tasks such as recognizing occluded objects, enhancing image quality, and interpreting coarse sketches. We evaluate 22 MLLMs on ProactiveBench, showing that (i) they generally lack proactiveness; (ii) proactiveness does not correlate with model capacity; (iii) "hinting" at proactiveness yields only marginal gains. Surprisingly, we found that conversation histories and in-context learning introduce negative biases, hindering performance. Finally, we explore a simple fine-tuning strategy based on reinforcement learning: its results suggest that proactiveness can be learned, even generalizing to unseen scenarios. We publicly release ProactiveBench as a first step toward building proactive multimodal models.