ChatPaper.aiChatPaper

TurtleBench: Оценка лучших языковых моделей с помощью реальных головоломок да/нет

TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles

October 7, 2024
Авторы: Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li
cs.AI

Аннотация

По мере расширения применения больших языковых моделей (LLM) возрастает потребность в надежной оценке. Существующие бенчмарки оценки LLM в основном опираются на статические наборы данных, что затрудняет оценку производительности модели в динамическом взаимодействии с пользователями. Более того, эти бенчмарки часто зависят от конкретных фоновых знаний, что усложняет измерение логических способностей модели. Другие динамические методы оценки на основе сильных моделей или ручных усилий могут внести предвзятость и повлечь высокие затраты и требования к времени, что затрудняет масштабное применение. Для решения этих проблем мы предлагаем TurtleBench. TurtleBench собирает реальные догадки пользователей с нашей онлайн-платформы Turtle Soup Puzzle, которую мы разработали. Такой подход позволяет относительно динамично генерировать наборы данных для оценки, снижая риск мошенничества модели и более тесно соотнося оценки с реальными потребностями пользователей в логических способностях, тем самым повышая надежность оценок. TurtleBench включает 1 532 догадки пользователей вместе с правильностью догадок после аннотации. Используя этот набор данных, мы тщательно оценили девять из самых передовых LLM, доступных на сегодняшний день. Следует отметить, что модели серии OpenAI o1 не достигли лидирующих результатов в этих оценках. Мы предлагаем несколько гипотез для дальнейших исследований, таких как "латентное рассуждение o1 использует тривиальные техники цепочки мыслей (CoT)" и "увеличение длины CoT обеспечивает не только выгоды в рассуждениях, но и влечет за собой затраты на шум".
English
As the application of Large Language Models (LLMs) expands, the demand for reliable evaluations increases. Existing LLM evaluation benchmarks primarily rely on static datasets, making it challenging to assess model performance in dynamic interactions with users. Moreover, these benchmarks often depend on specific background knowledge, complicating the measurement of a model's logical reasoning capabilities. Other dynamic evaluation methods based on strong models or manual efforts may introduce biases and incur high costs and time demands, hindering large-scale application. To address these issues, we propose TurtleBench. TurtleBench collects real user guesses from our online Turtle Soup Puzzle platform that we developed. This approach allows for the relatively dynamic generation of evaluation datasets, mitigating the risk of model cheating while aligning assessments more closely with genuine user needs for reasoning capabilities, thus enhancing the reliability of evaluations. TurtleBench includes 1,532 user guesses along with the correctness of guesses after annotation. Using this dataset, we thoroughly evaluated nine of the most advanced LLMs available today. Notably, the OpenAI o1 series models did not achieve leading results in these evaluations. We propose several hypotheses for further research, such as "the latent reasoning of o1 utilizes trivial Chain-of-Thought (CoT) techniques" and "increasing CoT length not only provides reasoning benefits but also incurs noise costs."

Summary

AI-Generated Summary

PDF102November 16, 2024