Sind Ihre LLMs in der Lage zu stabilem Schlussfolgern?
Are Your LLMs Capable of Stable Reasoning?
December 17, 2024
Autoren: Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen
cs.AI
Zusammenfassung
Der rasante Fortschritt von Large Language Models (LLMs) hat bemerkenswerte Fortschritte bei komplexen Schlussfolgerungsaufgaben gezeigt. Dennoch besteht weiterhin eine signifikante Diskrepanz zwischen den Leistungen in Benchmarks und realen Anwendungen. Wir identifizieren diese Kluft hauptsächlich als Ergebnis der aktuellen Evaluationsprotokolle und Metriken, die das gesamte Spektrum der LLM-Fähigkeiten unzureichend erfassen, insbesondere bei komplexen Schlussfolgerungsaufgaben, bei denen Genauigkeit und Konsistenz gleichermaßen entscheidend sind. Diese Arbeit leistet zwei wesentliche Beiträge. Erstens führen wir G-Pass@k ein, eine neuartige Evaluierungsmetrik, die eine kontinuierliche Bewertung der Modellleistung über mehrere Stichprobenversuche hinweg bietet und sowohl das Spitzenleistungspotenzial des Modells als auch seine Stabilität quantifiziert. Zweitens präsentieren wir LiveMathBench, einen dynamischen Benchmark, der anspruchsvolle, zeitgenössische mathematische Probleme umfasst, die darauf abzielen, das Risiko von Datenlecks während der Evaluation zu minimieren. Durch umfangreiche Experimente mit G-Pass@k an hochmodernen LLMs mit LiveMathBench liefern wir umfassende Einblicke sowohl in ihre maximalen Fähigkeiten als auch in ihre Betriebskonsistenz. Unsere Ergebnisse zeigen erheblichen Verbesserungsbedarf bei den "realistischen" Schlussfolgerungsfähigkeiten von LLMs auf und unterstreichen die Notwendigkeit robusterer Evaluierungsmethoden. Der Benchmark und detaillierte Ergebnisse sind verfügbar unter: https://github.com/open-compass/GPassK.
English
The rapid advancement of Large Language Models (LLMs) has demonstrated
remarkable progress in complex reasoning tasks. However, a significant
discrepancy persists between benchmark performances and real-world
applications. We identify this gap as primarily stemming from current
evaluation protocols and metrics, which inadequately capture the full spectrum
of LLM capabilities, particularly in complex reasoning tasks where both
accuracy and consistency are crucial. This work makes two key contributions.
First, we introduce G-Pass@k, a novel evaluation metric that provides a
continuous assessment of model performance across multiple sampling attempts,
quantifying both the model's peak performance potential and its stability.
Second, we present LiveMathBench, a dynamic benchmark comprising challenging,
contemporary mathematical problems designed to minimize data leakage risks
during evaluation. Through extensive experiments using G-Pass@k on
state-of-the-art LLMs with LiveMathBench, we provide comprehensive insights
into both their maximum capabilities and operational consistency. Our findings
reveal substantial room for improvement in LLMs' "realistic" reasoning
capabilities, highlighting the need for more robust evaluation methods. The
benchmark and detailed results are available at:
https://github.com/open-compass/GPassK.Summary
AI-Generated Summary