A2RBench: Een Automatisch Paradigma voor het Genereren van Formeel Verifieerbare Abstracte Redeneerbenchmarks

Samenvatting

Het abstract redeneervermogen weerspiegelt de intelligentie en het generalisatievermogen van LLM's om abstracte regels te extraheren en toe te passen. Het nauwkeurig meten van dit vermogen blijft echter een uitdaging: bestaande benchmarks vertrouwen ofwel op dure handmatige annotatie, wat hun schaal beperkt, of riskeren het meten van memorisatie in plaats van echt redeneren. Om dit aan te pakken introduceren we een geautomatiseerde pijplijn genaamd A2RBench, die generatie, uitbreiding, evaluatie en analyse omvat. In de generatiefase creëren LLM's diverse taken die echt redeneren vereisen; in de uitbreidingsfase hergebruiken LLM's gevalideerde regels en breiden ze nieuwe invoerruimten uit om taakvariaties te genereren, wat opschaling mogelijk maakt. Dit proces kan echter hallucinaties veroorzaken. Om dit te elimineren, stellen we verder een theoretisch kader op en bewijzen we dat programmatische verificatie—het testen of de inverse bewerking de voorwaartse bewerking perfect omkeert (cyclusconsistentie)—een unieke oplossing garandeert. Door uitgebreide evaluaties op gangbare LLM's vinden we: (1) Huidige LLM's vertonen fundamentele tekortkomingen in abstract redeneren, waarbij topmodellen aanzienlijk slechter presteren dan mensen op een representatieve subset (39,8% versus 68,5%). (2) Huidige LLM's blijven ver achter bij 2D en 1D in de complexiteit van gegenereerde 3D-taken, wat hun gebrek aan begrip van hoogdimensionale taken onthult. (3) Tegenintuïtief kunnen invoergegevens met een hogere informatiecomplexiteit het redeneerproces vereenvoudigen.

English

Abstract reasoning ability reflects the intelligence and generalization capacity of LLMs to extract and apply abstract rules. However, accurately measuring this ability remains challenging: existing benchmarks either rely on expensive manual annotation, limiting their scale, or risk measuring memorization rather than genuine reasoning. To address this, we introduce an automated pipeline named A2RBench, encompassing generation, expansion, evaluation, and analysis. Specifically, in the generation stage, LLMs create diverse tasks demanding genuine reasoning; in the expansion stage, LLMs reuse validated rules and expand new input spaces to generate task variations, achieving scaling. However, such a process may cause hallucinations. To eliminate it, we further establish a theoretical framework and prove that programmatic verification--testing whether the inverse operation perfectly reverses the forward operation (cycle consistency)--guarantees a unique solution. Through extensive evaluations on mainstream LLMs, we find: (1) Current LLMs exhibit fundamental deficiencies in abstract reasoning, with top models significantly underperforming humans on a representative subset (39.8% vs. 68.5%). (2) Current LLMs fall far short of 2D and 1D in the complexity of generated 3D tasks, revealing their lack of understanding of high-dimensional tasks. (3) Counterintuitively, inputs with higher information complexity can simplify the reasoning process.