TurtleBench: Valutare i Migliori Modelli Linguistici tramite Enigmi del Sì/No del Mondo Reale
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles
October 7, 2024
Autori: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI
Abstract
Con l'espansione dell'applicazione dei Grandi Modelli Linguistici (GML), aumenta la richiesta di valutazioni affidabili. I benchmark esistenti per la valutazione dei GML si basano principalmente su set di dati statici, rendendo difficile valutare le prestazioni del modello in interazioni dinamiche con gli utenti. Inoltre, questi benchmark dipendono spesso da conoscenze specifiche, complicando la misurazione delle capacità di ragionamento logico di un modello. Altri metodi di valutazione dinamica basati su modelli robusti o sforzi manuali possono introdurre bias e comportare costi elevati e richieste di tempo, ostacolando l'applicazione su larga scala. Per affrontare questi problemi, proponiamo TurtleBench. TurtleBench raccoglie congetture reali degli utenti dalla nostra piattaforma online Turtle Soup Puzzle che abbiamo sviluppato. Questo approccio consente la generazione relativamente dinamica di set di dati di valutazione, riducendo il rischio di imbrogli del modello mentre allinea le valutazioni più strettamente con le reali esigenze degli utenti per le capacità di ragionamento, migliorando così l'affidabilità delle valutazioni. TurtleBench include 1.532 congetture degli utenti insieme alla correttezza delle congetture dopo l'annotazione. Utilizzando questo set di dati, abbiamo valutato approfonditamente nove dei GML più avanzati disponibili oggi. In particolare, i modelli della serie OpenAI o1 non hanno ottenuto risultati di punta in queste valutazioni. Proponiamo diverse ipotesi per ulteriori ricerche, come "il ragionamento latente di o1 utilizza tecniche banali di Catena di Pensiero (CdP)" e "aumentare la lunghezza di CdP fornisce benefici di ragionamento ma comporta anche costi di rumore".
English
As the application of Large Language Models (LLMs) expands, the demand for
reliable evaluations increases. Existing LLM evaluation benchmarks primarily
rely on static datasets, making it challenging to assess model performance in
dynamic interactions with users. Moreover, these benchmarks often depend on
specific background knowledge, complicating the measurement of a model's
logical reasoning capabilities. Other dynamic evaluation methods based on
strong models or manual efforts may introduce biases and incur high costs and
time demands, hindering large-scale application. To address these issues, we
propose TurtleBench. TurtleBench collects real user guesses from our online
Turtle Soup Puzzle platform that we developed. This approach allows for the
relatively dynamic generation of evaluation datasets, mitigating the risk of
model cheating while aligning assessments more closely with genuine user needs
for reasoning capabilities, thus enhancing the reliability of evaluations.
TurtleBench includes 1,532 user guesses along with the correctness of guesses
after annotation. Using this dataset, we thoroughly evaluated nine of the most
advanced LLMs available today. Notably, the OpenAI o1 series models did not
achieve leading results in these evaluations. We propose several hypotheses for
further research, such as "the latent reasoning of o1 utilizes trivial
Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides
reasoning benefits but also incurs noise costs."