ProactiveBench: Benchmarking der Proaktivität in multimodalen großen Sprachmodellen

Zusammenfassung

Eine effektive Zusammenarbeit beginnt damit, zu wissen, wann man um Hilfe bitten muss. Wenn ein Mensch beispielsweise ein verdecktes Objekt identifizieren möchte, würde er jemanden bitten, das Hindernis zu entfernen. Können MLLMs ein ähnlich "proaktives" Verhalten zeigen, indem sie um einfache Benutzereingriffe bitten? Um dies zu untersuchen, stellen wir ProactiveBench vor – einen Benchmark, der aus sieben umfunktionierten Datensätzen besteht und Proaktivität bei verschiedenen Aufgaben testet, wie etwa der Erkennung verdeckter Objekte, der Verbesserung der Bildqualität und der Interpretation grober Skizzen. Wir evaluieren 22 MLLMs auf ProactiveBench und zeigen, dass (i) ihnen Proaktivität allgemein fehlt; (ii) Proaktivität nicht mit der Modellkapazität korreliert; (iii) „Hinweise“ auf Proaktivität nur marginale Verbesserungen bringen. Überraschenderweise stellten wir fest, dass Konversationsverläufe und In-Context-Learning negative Verzerrungen einführen, die die Leistung beeinträchtigen. Abschließend untersuchen wir eine einfache Feinabstimmungsstrategie auf Basis von bestärkendem Lernen: Ihre Ergebnisse deuten darauf hin, dass Proaktivität erlernbar ist und sogar auf unbekannte Szenarien verallgemeinern kann. Wir veröffentlichen ProactiveBench öffentlich als ersten Schritt zum Aufbau proaktiver multimodaler Modelle.

English

Effective collaboration begins with knowing when to ask for help. For example, when trying to identify an occluded object, a human would ask someone to remove the obstruction. Can MLLMs exhibit a similar "proactive" behavior by requesting simple user interventions? To investigate this, we introduce ProactiveBench, a benchmark built from seven repurposed datasets that tests proactiveness across different tasks such as recognizing occluded objects, enhancing image quality, and interpreting coarse sketches. We evaluate 22 MLLMs on ProactiveBench, showing that (i) they generally lack proactiveness; (ii) proactiveness does not correlate with model capacity; (iii) "hinting" at proactiveness yields only marginal gains. Surprisingly, we found that conversation histories and in-context learning introduce negative biases, hindering performance. Finally, we explore a simple fine-tuning strategy based on reinforcement learning: its results suggest that proactiveness can be learned, even generalizing to unseen scenarios. We publicly release ProactiveBench as a first step toward building proactive multimodal models.

ProactiveBench: Benchmarking der Proaktivität in multimodalen großen Sprachmodellen

ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Zusammenfassung

Support