A2RBench: Un Paradigma Automático para la Generación de Benchmarks de Razonamiento Abstracto Formalmente Verificables

Resumen

La capacidad de razonamiento abstracto refleja la inteligencia y la capacidad de generalización de los LLMs para extraer y aplicar reglas abstractas. Sin embargo, medir con precisión esta capacidad sigue siendo un desafío: los benchmarks existentes dependen de costosas anotaciones manuales, lo que limita su escala, o corren el riesgo de medir memorización en lugar de razonamiento genuino. Para abordar esto, presentamos un pipeline automatizado denominado A2RBench, que abarca generación, expansión, evaluación y análisis. Específicamente, en la etapa de generación, los LLMs crean diversas tareas que requieren razonamiento genuino; en la etapa de expansión, los LLMs reutilizan reglas validadas y expanden nuevos espacios de entrada para generar variaciones de tareas, logrando escalabilidad. Sin embargo, dicho proceso puede causar alucinaciones. Para eliminarlo, establecemos además un marco teórico y demostramos que la verificación programática (probar si la operación inversa revierte perfectamente la operación directa, consistencia cíclica) garantiza una solución única. Mediante evaluaciones exhaustivas en LLMs convencionales, encontramos: (1) Los LLMs actuales presentan deficiencias fundamentales en el razonamiento abstracto, con modelos destacados que rinden significativamente peor que los humanos en un subconjunto representativo (39.8% frente a 68.5%). (2) Los LLMs actuales quedan muy por debajo de 2D y 1D en la complejidad de las tareas 3D generadas, lo que revela su falta de comprensión de tareas de alta dimensionalidad. (3) De manera contraintuitiva, las entradas con mayor complejidad informativa pueden simplificar el proceso de razonamiento.

English

Abstract reasoning ability reflects the intelligence and generalization capacity of LLMs to extract and apply abstract rules. However, accurately measuring this ability remains challenging: existing benchmarks either rely on expensive manual annotation, limiting their scale, or risk measuring memorization rather than genuine reasoning. To address this, we introduce an automated pipeline named A2RBench, encompassing generation, expansion, evaluation, and analysis. Specifically, in the generation stage, LLMs create diverse tasks demanding genuine reasoning; in the expansion stage, LLMs reuse validated rules and expand new input spaces to generate task variations, achieving scaling. However, such a process may cause hallucinations. To eliminate it, we further establish a theoretical framework and prove that programmatic verification--testing whether the inverse operation perfectly reverses the forward operation (cycle consistency)--guarantees a unique solution. Through extensive evaluations on mainstream LLMs, we find: (1) Current LLMs exhibit fundamental deficiencies in abstract reasoning, with top models significantly underperforming humans on a representative subset (39.8% vs. 68.5%). (2) Current LLMs fall far short of 2D and 1D in the complexity of generated 3D tasks, revealing their lack of understanding of high-dimensional tasks. (3) Counterintuitively, inputs with higher information complexity can simplify the reasoning process.