TurtleBench: Het evalueren van top-taalmodellen via real-world ja/nee-puzzels
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles
October 7, 2024
Auteurs: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI
Samenvatting
Naarmate het gebruik van Grote Taalmodellen (LLM's) toeneemt, groeit de vraag naar betrouwbare evaluaties. Bestaande LLM-evaluatiebenchmarks steunen voornamelijk op statische datasets, waardoor het uitdagend is om de prestaties van modellen te beoordelen in dynamische interacties met gebruikers. Bovendien zijn deze benchmarks vaak afhankelijk van specifieke achtergrondkennis, wat het meten van de logische redeneervaardigheden van een model bemoeilijkt. Andere dynamische evaluatiemethoden gebaseerd op sterke modellen of handmatige inspanningen kunnen vooroordelen introduceren en hoge kosten en tijdsvereisten met zich meebrengen, waardoor grootschalige toepassingen worden belemmerd. Om deze problemen aan te pakken, stellen we TurtleBench voor. TurtleBench verzamelt echte gebruikersgissingen van ons online Turtle Soup Puzzle-platform dat we hebben ontwikkeld. Deze aanpak maakt een relatief dynamische generatie van evaluatiedatasets mogelijk, waardoor het risico van valsspelen door modellen wordt verminderd en de beoordelingen nauwer aansluiten bij de echte behoeften van gebruikers op het gebied van redeneervaardigheden, waardoor de betrouwbaarheid van evaluaties wordt verbeterd. TurtleBench bevat 1.532 gebruikersgissingen samen met de juistheid van de gissingen na annotatie. Met behulp van deze dataset hebben we negen van de meest geavanceerde LLM's van vandaag grondig geëvalueerd. Opmerkelijk is dat de OpenAI o1-serie modellen geen toonaangevende resultaten behaalden in deze evaluaties. We stellen verschillende hypothesen voor verder onderzoek voor, zoals "de latente redenering van o1 maakt gebruik van triviale Chain-of-Thought (CoT) technieken" en "het verhogen van de CoT-lengte biedt niet alleen redeneervoordelen, maar brengt ook geluidskosten met zich mee."
English
As the application of Large Language Models (LLMs) expands, the demand for
reliable evaluations increases. Existing LLM evaluation benchmarks primarily
rely on static datasets, making it challenging to assess model performance in
dynamic interactions with users. Moreover, these benchmarks often depend on
specific background knowledge, complicating the measurement of a model's
logical reasoning capabilities. Other dynamic evaluation methods based on
strong models or manual efforts may introduce biases and incur high costs and
time demands, hindering large-scale application. To address these issues, we
propose TurtleBench. TurtleBench collects real user guesses from our online
Turtle Soup Puzzle platform that we developed. This approach allows for the
relatively dynamic generation of evaluation datasets, mitigating the risk of
model cheating while aligning assessments more closely with genuine user needs
for reasoning capabilities, thus enhancing the reliability of evaluations.
TurtleBench includes 1,532 user guesses along with the correctness of guesses
after annotation. Using this dataset, we thoroughly evaluated nine of the most
advanced LLMs available today. Notably, the OpenAI o1 series models did not
achieve leading results in these evaluations. We propose several hypotheses for
further research, such as "the latent reasoning of o1 utilizes trivial
Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides
reasoning benefits but also incurs noise costs."Summary
AI-Generated Summary