TurtleBench : Évaluation des meilleurs modèles de langage via des énigmes oui/non du monde réel
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles
October 7, 2024
Auteurs: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI
Résumé
Avec l'expansion de l'application des Grands Modèles de Langage (GML), la demande d'évaluations fiables augmente. Les références d'évaluation existantes des GML reposent principalement sur des ensembles de données statiques, ce qui rend difficile l'évaluation des performances du modèle dans des interactions dynamiques avec les utilisateurs. De plus, ces références dépendent souvent de connaissances spécifiques, ce qui complique la mesure des capacités de raisonnement logique d'un modèle. D'autres méthodes d'évaluation dynamiques basées sur des modèles solides ou des efforts manuels peuvent introduire des biais et entraîner des coûts élevés et des exigences en termes de temps, ce qui entrave l'application à grande échelle. Pour résoudre ces problèmes, nous proposons TurtleBench. TurtleBench collecte de vraies suppositions d'utilisateurs à partir de notre plateforme de casse-tête en ligne Turtle Soup que nous avons développée. Cette approche permet la génération relativement dynamique d'ensembles de données d'évaluation, atténuant le risque de tricherie du modèle tout en alignant les évaluations plus étroitement sur les besoins réels des utilisateurs en matière de capacités de raisonnement, améliorant ainsi la fiabilité des évaluations. TurtleBench comprend 1 532 suppositions d'utilisateurs ainsi que la correction des suppositions après annotation. En utilisant cet ensemble de données, nous avons évalué de manière approfondie neuf des GML les plus avancés disponibles aujourd'hui. Notamment, les modèles de la série OpenAI o1 n'ont pas obtenu les meilleurs résultats dans ces évaluations. Nous proposons plusieurs hypothèses pour de futures recherches, telles que "le raisonnement latent de o1 utilise des techniques triviales de Chaîne de Pensée (CoT)" et "augmenter la longueur de CoT apporte non seulement des avantages en termes de raisonnement mais entraîne également des coûts de bruit".
English
As the application of Large Language Models (LLMs) expands, the demand for
reliable evaluations increases. Existing LLM evaluation benchmarks primarily
rely on static datasets, making it challenging to assess model performance in
dynamic interactions with users. Moreover, these benchmarks often depend on
specific background knowledge, complicating the measurement of a model's
logical reasoning capabilities. Other dynamic evaluation methods based on
strong models or manual efforts may introduce biases and incur high costs and
time demands, hindering large-scale application. To address these issues, we
propose TurtleBench. TurtleBench collects real user guesses from our online
Turtle Soup Puzzle platform that we developed. This approach allows for the
relatively dynamic generation of evaluation datasets, mitigating the risk of
model cheating while aligning assessments more closely with genuine user needs
for reasoning capabilities, thus enhancing the reliability of evaluations.
TurtleBench includes 1,532 user guesses along with the correctness of guesses
after annotation. Using this dataset, we thoroughly evaluated nine of the most
advanced LLMs available today. Notably, the OpenAI o1 series models did not
achieve leading results in these evaluations. We propose several hypotheses for
further research, such as "the latent reasoning of o1 utilizes trivial
Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides
reasoning benefits but also incurs noise costs."Summary
AI-Generated Summary