ProactiveBench : Évaluation de la Proactivité dans les Grands Modèles Linguistiques Multimodaux

Résumé

Une collaboration efficace commence par savoir quand demander de l'aide. Par exemple, pour identifier un objet occlus, un humain demanderait à quelqu'un de retirer l'obstruction. Les MLLM peuvent-ils faire preuve d'un comportement « proactif » similaire en sollicitant des interventions simples de l'utilisateur ? Pour investiguer cela, nous présentons ProactiveBench, un benchmark constitué de sept jeux de données réaffectés qui teste la proactivité sur différentes tâches telles que la reconnaissance d'objets occultés, l'amélioration de la qualité d'image et l'interprétation de croquis grossiers. Nous évaluons 22 MLLM sur ProactiveBench, montrant que (i) ils manquent généralement de proactivité ; (ii) la proactivité ne corrèle pas avec la capacité du modèle ; (iii) « suggérer » la proactivité n'apporte que des gains marginaux. De manière surprenante, nous avons constaté que les historiques de conversation et l'apprentissage en contexte introduisent des biais négatifs, entravant les performances. Enfin, nous explorons une stratégie simple de fine-tuning basée sur l'apprentissage par renforcement : ses résultats suggèrent que la proactivité peut être apprise, généralisant même à des scénarios non vus. Nous rendons ProactiveBench public comme une première étape vers la construction de modèles multimodaux proactifs.

English

Effective collaboration begins with knowing when to ask for help. For example, when trying to identify an occluded object, a human would ask someone to remove the obstruction. Can MLLMs exhibit a similar "proactive" behavior by requesting simple user interventions? To investigate this, we introduce ProactiveBench, a benchmark built from seven repurposed datasets that tests proactiveness across different tasks such as recognizing occluded objects, enhancing image quality, and interpreting coarse sketches. We evaluate 22 MLLMs on ProactiveBench, showing that (i) they generally lack proactiveness; (ii) proactiveness does not correlate with model capacity; (iii) "hinting" at proactiveness yields only marginal gains. Surprisingly, we found that conversation histories and in-context learning introduce negative biases, hindering performance. Finally, we explore a simple fine-tuning strategy based on reinforcement learning: its results suggest that proactiveness can be learned, even generalizing to unseen scenarios. We publicly release ProactiveBench as a first step toward building proactive multimodal models.

ProactiveBench : Évaluation de la Proactivité dans les Grands Modèles Linguistiques Multimodaux

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Résumé

Support