Sind Ihre LLMs in der Lage zu stabilem Schlussfolgern?

papers.abstract

Der rasante Fortschritt von Large Language Models (LLMs) hat bemerkenswerte Fortschritte bei komplexen Schlussfolgerungsaufgaben gezeigt. Dennoch besteht weiterhin eine signifikante Diskrepanz zwischen den Leistungen in Benchmarks und realen Anwendungen. Wir identifizieren diese Kluft hauptsächlich als Ergebnis der aktuellen Evaluationsprotokolle und Metriken, die das gesamte Spektrum der LLM-Fähigkeiten unzureichend erfassen, insbesondere bei komplexen Schlussfolgerungsaufgaben, bei denen Genauigkeit und Konsistenz gleichermaßen entscheidend sind. Diese Arbeit leistet zwei wesentliche Beiträge. Erstens führen wir G-Pass@k ein, eine neuartige Evaluierungsmetrik, die eine kontinuierliche Bewertung der Modellleistung über mehrere Stichprobenversuche hinweg bietet und sowohl das Spitzenleistungspotenzial des Modells als auch seine Stabilität quantifiziert. Zweitens präsentieren wir LiveMathBench, einen dynamischen Benchmark, der anspruchsvolle, zeitgenössische mathematische Probleme umfasst, die darauf abzielen, das Risiko von Datenlecks während der Evaluation zu minimieren. Durch umfangreiche Experimente mit G-Pass@k an hochmodernen LLMs mit LiveMathBench liefern wir umfassende Einblicke sowohl in ihre maximalen Fähigkeiten als auch in ihre Betriebskonsistenz. Unsere Ergebnisse zeigen erheblichen Verbesserungsbedarf bei den "realistischen" Schlussfolgerungsfähigkeiten von LLMs auf und unterstreichen die Notwendigkeit robusterer Evaluierungsmethoden. Der Benchmark und detaillierte Ergebnisse sind verfügbar unter: https://github.com/open-compass/GPassK.

English

The rapid advancement of Large Language Models (LLMs) has demonstrated remarkable progress in complex reasoning tasks. However, a significant discrepancy persists between benchmark performances and real-world applications. We identify this gap as primarily stemming from current evaluation protocols and metrics, which inadequately capture the full spectrum of LLM capabilities, particularly in complex reasoning tasks where both accuracy and consistency are crucial. This work makes two key contributions. First, we introduce G-Pass@k, a novel evaluation metric that provides a continuous assessment of model performance across multiple sampling attempts, quantifying both the model's peak performance potential and its stability. Second, we present LiveMathBench, a dynamic benchmark comprising challenging, contemporary mathematical problems designed to minimize data leakage risks during evaluation. Through extensive experiments using G-Pass@k on state-of-the-art LLMs with LiveMathBench, we provide comprehensive insights into both their maximum capabilities and operational consistency. Our findings reveal substantial room for improvement in LLMs' "realistic" reasoning capabilities, highlighting the need for more robust evaluation methods. The benchmark and detailed results are available at: https://github.com/open-compass/GPassK.

Sind Ihre LLMs in der Lage zu stabilem Schlussfolgern?

Are Your LLMs Capable of Stable Reasoning?

papers.abstract

Support