General365: Valutazione delle Capacità di Ragionamento Generale nei Grandi Modelli Linguistici su Compiti Diversificati e Complessi

Abstract

I modelli linguistici di grandi dimensioni (LLM) contemporanei hanno dimostrato capacità di ragionamento notevoli, in particolare in domini specializzati come la matematica e la fisica. Tuttavia, la loro capacità di generalizzare queste abilità di ragionamento a contesti più generali e ampi – spesso definita *ragionamento generale* – rimane poco esplorata. A differenza del ragionamento dominio-specifico, il ragionamento generale si basa meno sulla conoscenza esperta ma presenta comunque sfide formidabili, come vincoli complessi, ramificazioni logiche annidate e interferenze semantiche. Per colmare questa lacuna, introduciamo General365, un benchmark specificamente progettato per valutare il ragionamento generale negli LLM. Limitando la conoscenza di base a un livello scolastico pre-universitario, General365 dissocia esplicitamente il ragionamento dalla competenza specializzata. Il benchmark comprende 365 problemi seminali e 1.095 problemi varianti across otto categorie, garantendo sia un'alta difficoltà che una grande diversità. Le valutazioni su 26 LLM leader di mercato rivelano che anche il modello con le migliori prestazioni raggiunge solo un'accuratezza del 62.8%, in netto contrasto con le prestazioni quasi perfette degli LLM nei benchmark di matematica e fisica. Questi risultati suggeriscono che le abilità di ragionamento degli LLM attuali sono fortemente dipendenti dal dominio, lasciando un ampio margine di miglioramento per applicazioni più estese. Prevediamo che General365 funga da catalizzatore per far progredire il ragionamento degli LLM oltre i compiti dominio-specifici verso scenari reali robusti e a scopo generale. Codice, Dataset e Classifica: https://general365.github.io

English

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

General365: Valutazione delle Capacità di Ragionamento Generale nei Grandi Modelli Linguistici su Compiti Diversificati e Complessi

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Abstract

Support