TurtleBench: Evaluierung von Top-Sprachmodellen anhand von Yes/No-Rätseln in der realen Welt
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles
October 7, 2024
Autoren: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI
Zusammenfassung
Mit der zunehmenden Anwendung von Large Language Models (LLMs) steigt der Bedarf an zuverlässigen Bewertungen. Bestehende Bewertungsmaßstäbe für LLMs stützen sich hauptsächlich auf statische Datensätze, was es herausfordernd macht, die Leistung des Modells in dynamischen Interaktionen mit Benutzern zu bewerten. Darüber hinaus hängen diese Bewertungsmaßstäbe oft von spezifischem Hintergrundwissen ab, was die Messung der logischen Schlussfolgerungsfähigkeiten eines Modells erschwert. Andere dynamische Bewertungsmethoden, die auf starken Modellen oder manuellen Bemühungen basieren, können Voreingenommenheiten einführen und hohe Kosten und Zeit in Anspruch nehmen, was die großflächige Anwendung behindert. Um diese Probleme anzugehen, schlagen wir TurtleBench vor. TurtleBench sammelt echte Benutzervermutungen von unserer entwickelten Online-Plattform Turtle Soup Puzzle. Dieser Ansatz ermöglicht die relativ dynamische Generierung von Bewertungsdatensätzen, wodurch das Risiko von Modellbetrug gemindert wird und die Bewertungen enger an den echten Benutzerbedarf für Schlussfolgerungsfähigkeiten ausgerichtet sind, was die Zuverlässigkeit der Bewertungen erhöht. TurtleBench umfasst 1.532 Benutzervermutungen zusammen mit der Richtigkeit der Vermutungen nach der Annotation. Unter Verwendung dieses Datensatzes haben wir neun der heute verfügbaren fortschrittlichsten LLMs umfassend bewertet. Bemerkenswert ist, dass die Modelle der OpenAI o1-Serie in diesen Bewertungen keine führenden Ergebnisse erzielten. Wir schlagen mehrere Hypothesen für weitere Forschung vor, wie z.B. "die latente Schlussfolgerung von o1 nutzt triviale Chain-of-Thought (CoT)-Techniken" und "eine Erhöhung der CoT-Länge bringt nicht nur Schlussfolgerungsvorteile, sondern verursacht auch Störungskosten".
English
As the application of Large Language Models (LLMs) expands, the demand for
reliable evaluations increases. Existing LLM evaluation benchmarks primarily
rely on static datasets, making it challenging to assess model performance in
dynamic interactions with users. Moreover, these benchmarks often depend on
specific background knowledge, complicating the measurement of a model's
logical reasoning capabilities. Other dynamic evaluation methods based on
strong models or manual efforts may introduce biases and incur high costs and
time demands, hindering large-scale application. To address these issues, we
propose TurtleBench. TurtleBench collects real user guesses from our online
Turtle Soup Puzzle platform that we developed. This approach allows for the
relatively dynamic generation of evaluation datasets, mitigating the risk of
model cheating while aligning assessments more closely with genuine user needs
for reasoning capabilities, thus enhancing the reliability of evaluations.
TurtleBench includes 1,532 user guesses along with the correctness of guesses
after annotation. Using this dataset, we thoroughly evaluated nine of the most
advanced LLMs available today. Notably, the OpenAI o1 series models did not
achieve leading results in these evaluations. We propose several hypotheses for
further research, such as "the latent reasoning of o1 utilizes trivial
Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides
reasoning benefits but also incurs noise costs."