A2RBench: 形式的に検証可能な抽象的推論ベンチマーク生成のための自動パラダイム
A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation
May 17, 2026
著者: Qingchuan Ma, Yuexiao Ma, Yongkang Xie, Tianyu Xie, Xiawu Zheng, Rongrong Ji
cs.AI
要旨
抽象推理能力は、LLMが抽象的なルールを抽出・適用するための知能と汎化能力を反映する。しかし、この能力を正確に測定することは依然として困難である。既存のベンチマークは、高コストな手動アノテーションに依存して規模が制限されるか、あるいは真の推論ではなく記憶を測定するリスクを伴う。この課題に対処するため、我々はA2RBenchと名付けた自動化パイプラインを導入する。これは生成、拡張、評価、分析の各段階を含む。具体的には、生成段階ではLLMが真の推論を必要とする多様なタスクを作成し、拡張段階ではLLMが検証済みのルールを再利用し、新たな入力空間を拡張することでタスクのバリエーションを生成し、スケーリングを実現する。しかし、このようなプロセスは幻覚を引き起こす可能性がある。これを排除するため、我々はさらに理論的枠組みを構築し、プログラムによる検証(逆操作が順操作を完全に反転するかどうかをテストすること、すなわちサイクル一貫性)が一意の解を保証することを証明する。主流のLLMに対する広範な評価を通じて、以下の知見を得た。(1)現在のLLMは抽象推理に根本的な欠陥を示し、代表的なサブセットにおいてトップモデルでも人間を大幅に下回る(39.8%対68.5%)。(2)現在のLLMは、生成された3Dタスクの複雑さにおいて2Dや1Dに遠く及ばず、高次元タスクの理解不足が明らかになった。(3)直観に反して、情報複雑性の高い入力が推論プロセスを単純化できる。
English
Abstract reasoning ability reflects the intelligence and generalization capacity of LLMs to extract and apply abstract rules. However, accurately measuring this ability remains challenging: existing benchmarks either rely on expensive manual annotation, limiting their scale, or risk measuring memorization rather than genuine reasoning. To address this, we introduce an automated pipeline named A2RBench, encompassing generation, expansion, evaluation, and analysis. Specifically, in the generation stage, LLMs create diverse tasks demanding genuine reasoning; in the expansion stage, LLMs reuse validated rules and expand new input spaces to generate task variations, achieving scaling. However, such a process may cause hallucinations. To eliminate it, we further establish a theoretical framework and prove that programmatic verification--testing whether the inverse operation perfectly reverses the forward operation (cycle consistency)--guarantees a unique solution. Through extensive evaluations on mainstream LLMs, we find: (1) Current LLMs exhibit fundamental deficiencies in abstract reasoning, with top models significantly underperforming humans on a representative subset (39.8% vs. 68.5%). (2) Current LLMs fall far short of 2D and 1D in the complexity of generated 3D tasks, revealing their lack of understanding of high-dimensional tasks. (3) Counterintuitively, inputs with higher information complexity can simplify the reasoning process.