General365: Оценка способностей к общему рассуждению в больших языковых моделях на разнообразных и сложных задачах

Аннотация

Современные большие языковые модели (БЯМ) продемонстрировали впечатляющие способности к рассуждению, особенно в специализированных областях, таких как математика и физика. Однако их способность обобщать эти навыки рассуждения для более общих и широких контекстов — часто называемая общим рассуждением — остаётся малоизученной. В отличие от предметно-ориентированного рассуждения, общее рассуждение в меньшей степени опирается на экспертные знания, но по-прежнему представляет серьёзные вызовы, такие как сложные ограничения, вложенные логические ветвления и семантическая интерференция. Для решения этой проблемы мы представляем General365 — эталонный набор, специально разработанный для оценки общего рассуждения в БЯМ. Ограничивая фоновые знания уровнем средней школы, General365 явно отделяет рассуждение от специализированной экспертизы. Набор включает 365 исходных задач и 1095 вариантов задач по восьми категориям, обеспечивая как высокую сложность, так и разнообразие. Оценка 26 ведущих БЯМ показала, что даже лучшая модель достигает точности лишь 62,8%, что резко контрастирует с почти идеальными результатами БЯМ в математических и физических тестах. Эти результаты позволяют предположить, что способности к рассуждению у современных БЯМ сильно зависят от предметной области, оставляя значительный простор для улучшения в более широких приложениях. Мы рассматриваем General365 как катализатор для развития рассуждений БЯМ за пределы узкоспециализированных задач в сторону устойчивых сценариев реального мира общего назначения. Код, набор данных и таблица лидеров: https://general365.github.io

English

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

General365: Оценка способностей к общему рассуждению в больших языковых моделях на разнообразных и сложных задачах

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Аннотация

Support