ProactiveBench: Het Benchmarken van Proactiviteit in Multimodale Grote Taalmodellen

Samenvatting

Effectieve samenwerking begint met het weten wanneer om hulp te vragen. Wanneer een mens bijvoorbeeld een verborgen object probeert te identificeren, zou hij iemand vragen de obstructie te verwijderen. Kunnen MLLM's een soortgelijk "proactief" gedrag vertonen door eenvoudige gebruikersinterventies aan te vragen? Om dit te onderzoeken, introduceren we ProactiveBench, een benchmark opgebouwd uit zeven hergebruikte datasets die proactiviteit test bij verschillende taken, zoals het herkennen van verborgen objecten, het verbeteren van de beeldkwaliteit en het interpreteren van grove schetsen. We evalueren 22 MLLM's op ProactiveBench en tonen aan dat (i) ze over het algemeen proactiviteit missen; (ii) proactiviteit niet correleert met modelcapaciteit; (iii) een "hint" naar proactiviteit slechts marginale verbeteringen oplevert. Verrassend genoeg ontdekten we dat gespreksgeschiedenissen en in-context learning negatieve vooroordelen introduceren, wat de prestaties belemmert. Ten slotte onderzoeken we een eenvoudige fine-tuningstrategie gebaseerd op reinforcement learning: de resultaten suggereren dat proactiviteit kan worden aangeleerd, en zelfs generaliseert naar onbekende scenario's. We maken ProactiveBench openbaar beschikbaar als een eerste stap naar het bouwen van proactieve multimodale modellen.

English

Effective collaboration begins with knowing when to ask for help. For example, when trying to identify an occluded object, a human would ask someone to remove the obstruction. Can MLLMs exhibit a similar "proactive" behavior by requesting simple user interventions? To investigate this, we introduce ProactiveBench, a benchmark built from seven repurposed datasets that tests proactiveness across different tasks such as recognizing occluded objects, enhancing image quality, and interpreting coarse sketches. We evaluate 22 MLLMs on ProactiveBench, showing that (i) they generally lack proactiveness; (ii) proactiveness does not correlate with model capacity; (iii) "hinting" at proactiveness yields only marginal gains. Surprisingly, we found that conversation histories and in-context learning introduce negative biases, hindering performance. Finally, we explore a simple fine-tuning strategy based on reinforcement learning: its results suggest that proactiveness can be learned, even generalizing to unseen scenarios. We publicly release ProactiveBench as a first step toward building proactive multimodal models.

ProactiveBench: Het Benchmarken van Proactiviteit in Multimodale Grote Taalmodellen

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Samenvatting

Support