General365: Avaliação Comparativa do Raciocínio Geral em Modelos de Linguagem de Grande Porte em Tarefas Diversas e Desafiadoras

Resumo

Os modelos de linguagem de grande porte (LLMs) contemporâneos demonstraram capacidades notáveis de raciocínio, particularmente em domínios especializados como matemática e física. No entanto, a sua capacidade de generalizar estas competências de raciocínio para contextos mais gerais e abrangentes - frequentemente designada por raciocínio geral - permanece pouco explorada. Ao contrário do raciocínio específico de domínio, o raciocínio geral depende menos de conhecimento especializado, mas ainda apresenta desafios formidáveis, como restrições complexas, ramificações lógicas encadeadas e interferência semântica. Para colmatar esta lacuna, apresentamos o General365, um benchmark concebido especificamente para avaliar o raciocínio geral em LLMs. Ao restringir o conhecimento de base a um nível do ensino básico e secundário (K-12), o General365 desacopla explicitamente o raciocínio da expertise especializada. O benchmark compreende 365 problemas-base e 1.095 problemas variantes em oito categorias, garantindo simultaneamente elevada dificuldade e diversidade. Avaliações realizadas com 26 LLMs líderes revelam que mesmo o modelo de melhor desempenho atinge apenas 62,8% de precisão, em nítido contraste com os desempenhos quase perfeitos dos LLMs em benchmarks de matemática e física. Estes resultados sugerem que as capacidades de raciocínio dos LLMs atuais são fortemente dependentes do domínio, deixando um espaço significativo para melhorias em aplicações mais abrangentes. Vislumbramos o General365 como um catalisador para o avanço do raciocínio dos LLMs para além de tarefas específicas de domínio, rumo a cenários robustos e de propósito geral no mundo real. Código, Conjunto de Dados e Leaderboard: https://general365.github.io

English

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

General365: Avaliação Comparativa do Raciocínio Geral em Modelos de Linguagem de Grande Porte em Tarefas Diversas e Desafiadoras

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Resumo

Support