General365: Evaluación del Razonamiento General en Modelos de Lenguaje a Gran Escala a Través de Tareas Diversas y Desafiantes

Resumen

Los modelos de lenguaje grandes (LLM) contemporáneos han demostrado capacidades de razonamiento notables, particularmente en dominios especializados como las matemáticas y la física. Sin embargo, su capacidad para generalizar estas habilidades de razonamiento a contextos más generales y amplios, a menudo denominada *razonamiento general*, sigue siendo poco explorada. A diferencia del razonamiento específico de un dominio, el razonamiento general depende menos del conocimiento experto, pero aún presenta desafíos formidables, como restricciones complejas, ramas lógicas anidadas e interferencia semántica. Para abordar esta brecha, presentamos General365, un punto de referencia diseñado específicamente para evaluar el razonamiento general en los LLM. Al restringir el conocimiento de fondo a un nivel de educación primaria y secundaria (K-12), General365 desacopla explícitamente el razonamiento de la experiencia especializada. El benchmark comprende 365 problemas semilla y 1.095 problemas variantes en ocho categorías, lo que garantiza tanto una alta dificultad como diversidad. Las evaluaciones en 26 LLM líderes revelan que incluso el modelo con mejor rendimiento alcanza solo un 62.8% de precisión, en marcado contraste con los desempeños casi perfectos de los LLM en benchmarks de matemáticas y física. Estos resultados sugieren que las habilidades de razonamiento de los LLM actuales son muy dependientes del dominio, dejando un margen significativo de mejora en aplicaciones más amplias. Visualizamos General365 como un catalizador para avanzar en el razonamiento de los LLM más allá de las tareas específicas de un dominio hacia escenarios del mundo real robustos y de propósito general. Código, Conjunto de Datos y Clasificación: https://general365.github.io

English

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

General365: Evaluación del Razonamiento General en Modelos de Lenguaje a Gran Escala a Través de Tareas Diversas y Desafiantes

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Resumen

Support