ChatPaper.aiChatPaper

TurtleBench: Avaliando os Principais Modelos de Linguagem por Meio de Quebra-Cabeças Simples do Mundo Real

TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles

October 7, 2024
Autores: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI

Resumo

À medida que a aplicação de Modelos de Linguagem Grandes (LLMs) se expande, a demanda por avaliações confiáveis aumenta. Os benchmarks de avaliação de LLMs existentes dependem principalmente de conjuntos de dados estáticos, tornando desafiador avaliar o desempenho do modelo em interações dinâmicas com os usuários. Além disso, esses benchmarks frequentemente dependem de conhecimentos específicos, complicando a medição das capacidades de raciocínio lógico de um modelo. Outros métodos de avaliação dinâmica baseados em modelos fortes ou esforços manuais podem introduzir viéses e incorrer em altos custos e demandas de tempo, dificultando a aplicação em larga escala. Para lidar com essas questões, propomos o TurtleBench. O TurtleBench coleta palpites reais de usuários de nossa plataforma online de Quebra-Cabeça da Sopa de Tartaruga que desenvolvemos. Essa abordagem permite a geração relativamente dinâmica de conjuntos de dados de avaliação, mitigando o risco de trapaça do modelo enquanto alinha as avaliações mais de perto com as necessidades genuínas dos usuários em relação às capacidades de raciocínio, aumentando assim a confiabilidade das avaliações. O TurtleBench inclui 1.532 palpites de usuários juntamente com a correção dos palpites após a anotação. Usando esse conjunto de dados, avaliamos minuciosamente nove dos LLMs mais avançados disponíveis hoje. Notavelmente, os modelos da série o1 da OpenAI não alcançaram os principais resultados nessas avaliações. Propomos várias hipóteses para pesquisas futuras, como "o raciocínio latente do o1 utiliza técnicas triviais de Encadeamento de Pensamento (CoT)" e "aumentar o comprimento do CoT não apenas fornece benefícios de raciocínio, mas também incorre em custos de ruído".
English
As the application of Large Language Models (LLMs) expands, the demand for reliable evaluations increases. Existing LLM evaluation benchmarks primarily rely on static datasets, making it challenging to assess model performance in dynamic interactions with users. Moreover, these benchmarks often depend on specific background knowledge, complicating the measurement of a model's logical reasoning capabilities. Other dynamic evaluation methods based on strong models or manual efforts may introduce biases and incur high costs and time demands, hindering large-scale application. To address these issues, we propose TurtleBench. TurtleBench collects real user guesses from our online Turtle Soup Puzzle platform that we developed. This approach allows for the relatively dynamic generation of evaluation datasets, mitigating the risk of model cheating while aligning assessments more closely with genuine user needs for reasoning capabilities, thus enhancing the reliability of evaluations. TurtleBench includes 1,532 user guesses along with the correctness of guesses after annotation. Using this dataset, we thoroughly evaluated nine of the most advanced LLMs available today. Notably, the OpenAI o1 series models did not achieve leading results in these evaluations. We propose several hypotheses for further research, such as "the latent reasoning of o1 utilizes trivial Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides reasoning benefits but also incurs noise costs."

Summary

AI-Generated Summary

PDF102November 16, 2024