ChatPaper.aiChatPaper

TurtleBench: 실제 세계 Yes/No 퍼즐을 통해 최고의 언어 모델 평가

TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles

October 7, 2024
저자: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI

초록

대형 언어 모델(LLMs)의 적용이 확대됨에 따라 신뢰할 수 있는 평가 수요가 증가하고 있습니다. 기존 LLM 평가 벤치마크는 주로 정적 데이터셋에 의존하므로 모델의 성능을 동적 상호작용에서 평가하는 것이 어려워지고 있습니다. 또한 이러한 벤치마크는 종종 특정 배경 지식에 의존하여 모델의 논리 추론 능력을 측정하는 것을 복잡하게 만듭니다. 강력한 모델이나 수동 노력에 기반한 다른 동적 평가 방법은 편향을 도입하고 높은 비용과 시간을 요구하여 대규모 응용을 방해할 수 있습니다. 이러한 문제를 해결하기 위해 TurtleBench를 제안합니다. TurtleBench는 저희가 개발한 온라인 Turtle Soup Puzzle 플랫폼에서 실제 사용자 추측을 수집합니다. 이 접근 방식은 비교적 동적으로 평가 데이터셋을 생성하여 모델 부정행위의 위험을 줄이고, 추론 능력에 대한 정확한 사용자 요구와 더 일치하도록 평가를 강화합니다. TurtleBench에는 1,532개의 사용자 추측과 주석 작업 후의 정확성이 포함되어 있습니다. 이 데이터셋을 사용하여 오늘날 가장 고급 LLM 중 9개를 철저히 평가했습니다. 특히, OpenAI o1 시리즈 모델은 이러한 평가에서 선도적인 결과를 달성하지 못했습니다. "o1의 잠재적 추론이 사소한 Chain-of-Thought (CoT) 기술을 활용"과 "CoT 길이를 증가시키면 추론 이점 뿐만 아니라 노이즈 비용도 발생한다"는 추가 연구를 위한 몇 가지 가설을 제안합니다.
English
As the application of Large Language Models (LLMs) expands, the demand for reliable evaluations increases. Existing LLM evaluation benchmarks primarily rely on static datasets, making it challenging to assess model performance in dynamic interactions with users. Moreover, these benchmarks often depend on specific background knowledge, complicating the measurement of a model's logical reasoning capabilities. Other dynamic evaluation methods based on strong models or manual efforts may introduce biases and incur high costs and time demands, hindering large-scale application. To address these issues, we propose TurtleBench. TurtleBench collects real user guesses from our online Turtle Soup Puzzle platform that we developed. This approach allows for the relatively dynamic generation of evaluation datasets, mitigating the risk of model cheating while aligning assessments more closely with genuine user needs for reasoning capabilities, thus enhancing the reliability of evaluations. TurtleBench includes 1,532 user guesses along with the correctness of guesses after annotation. Using this dataset, we thoroughly evaluated nine of the most advanced LLMs available today. Notably, the OpenAI o1 series models did not achieve leading results in these evaluations. We propose several hypotheses for further research, such as "the latent reasoning of o1 utilizes trivial Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides reasoning benefits but also incurs noise costs."

Summary

AI-Generated Summary

PDF102November 16, 2024