A2RBench : Un paradigme automatique pour la génération de benchmarks de raisonnement abstrait formellement vérifiables

Résumé

La capacité de raisonnement abstrait reflète l'intelligence et la capacité de généralisation des LLM à extraire et appliquer des règles abstraites. Cependant, mesurer précisément cette capacité reste un défi : les référentiels existants reposent soit sur une annotation manuelle coûteuse, ce qui limite leur échelle, soit risquent de mesurer la mémorisation plutôt qu'un raisonnement authentique. Pour y remédier, nous introduisons un pipeline automatisé nommé A2RBench, comprenant les phases de génération, d'expansion, d'évaluation et d'analyse. Plus précisément, lors de la phase de génération, les LLM créent des tâches diversifiées exigeant un raisonnement authentique ; lors de la phase d'expansion, les LLM réutilisent des règles validées et étendent de nouveaux espaces d'entrée pour générer des variantes de tâches, permettant ainsi une montée en échelle. Cependant, un tel processus peut provoquer des hallucinations. Pour les éliminer, nous établissons en outre un cadre théorique et prouvons que la vérification programmatique — consistant à tester si l'opération inverse inverse parfaitement l'opération directe (cohérence cyclique) — garantit une solution unique. À travers des évaluations approfondies sur des LLM courants, nous constatons : (1) Les LLM actuels présentent des lacunes fondamentales en matière de raisonnement abstrait, les meilleurs modèles étant nettement moins performants que les humains sur un sous-ensemble représentatif (39,8 % contre 68,5 %). (2) Les LLM actuels sont loin d'atteindre les niveaux 2D et 1D dans la complexité des tâches 3D générées, révélant leur manque de compréhension des tâches à haute dimension. (3) De manière contre-intuitive, des entrées présentant une complexité informationnelle plus élevée peuvent simplifier le processus de raisonnement.

English

Abstract reasoning ability reflects the intelligence and generalization capacity of LLMs to extract and apply abstract rules. However, accurately measuring this ability remains challenging: existing benchmarks either rely on expensive manual annotation, limiting their scale, or risk measuring memorization rather than genuine reasoning. To address this, we introduce an automated pipeline named A2RBench, encompassing generation, expansion, evaluation, and analysis. Specifically, in the generation stage, LLMs create diverse tasks demanding genuine reasoning; in the expansion stage, LLMs reuse validated rules and expand new input spaces to generate task variations, achieving scaling. However, such a process may cause hallucinations. To eliminate it, we further establish a theoretical framework and prove that programmatic verification--testing whether the inverse operation perfectly reverses the forward operation (cycle consistency)--guarantees a unique solution. Through extensive evaluations on mainstream LLMs, we find: (1) Current LLMs exhibit fundamental deficiencies in abstract reasoning, with top models significantly underperforming humans on a representative subset (39.8% vs. 68.5%). (2) Current LLMs fall far short of 2D and 1D in the complexity of generated 3D tasks, revealing their lack of understanding of high-dimensional tasks. (3) Counterintuitively, inputs with higher information complexity can simplify the reasoning process.