A2RBench: автоматическая парадигма для генерации формально верифицируемых бенчмарков абстрактного рассуждения

Аннотация

Способность к абстрактному мышлению отражает интеллект LLM и их способность к обобщению, позволяющую извлекать и применять абстрактные правила. Однако точное измерение этой способности остается сложной задачей: существующие бенчмарки либо полагаются на дорогостоящую ручную разметку, что ограничивает их масштаб, либо рискуют измерять запоминание, а не подлинное рассуждение. Чтобы решить эту проблему, мы представляем автоматизированный конвейер под названием A2RBench, охватывающий генерацию, расширение, оценку и анализ. В частности, на этапе генерации LLM создают разнообразные задачи, требующие подлинного рассуждения; на этапе расширения LLM повторно используют проверенные правила и расширяют новые входные пространства для создания вариаций задач, достигая масштабирования. Однако такой процесс может вызывать галлюцинации. Чтобы устранить это, мы дополнительно создаем теоретическую основу и доказываем, что программная верификация — проверка того, что обратная операция идеально обращает прямую операцию (циклическая согласованность) — гарантирует единственное решение. В ходе обширных оценок основных LLM мы обнаруживаем: (1) Современные LLM демонстрируют фундаментальные недостатки в абстрактном мышлении, причем лучшие модели значительно уступают людям на репрезентативном подмножестве (39,8% против 68,5%). (2) Современные LLM значительно отстают от 2D и 1D по сложности генерируемых 3D-задач, что выявляет их непонимание задач высокой размерности. (3) Вопреки интуиции, входные данные с более высокой информационной сложностью могут упрощать процесс рассуждения.

English

Abstract reasoning ability reflects the intelligence and generalization capacity of LLMs to extract and apply abstract rules. However, accurately measuring this ability remains challenging: existing benchmarks either rely on expensive manual annotation, limiting their scale, or risk measuring memorization rather than genuine reasoning. To address this, we introduce an automated pipeline named A2RBench, encompassing generation, expansion, evaluation, and analysis. Specifically, in the generation stage, LLMs create diverse tasks demanding genuine reasoning; in the expansion stage, LLMs reuse validated rules and expand new input spaces to generate task variations, achieving scaling. However, such a process may cause hallucinations. To eliminate it, we further establish a theoretical framework and prove that programmatic verification--testing whether the inverse operation perfectly reverses the forward operation (cycle consistency)--guarantees a unique solution. Through extensive evaluations on mainstream LLMs, we find: (1) Current LLMs exhibit fundamental deficiencies in abstract reasoning, with top models significantly underperforming humans on a representative subset (39.8% vs. 68.5%). (2) Current LLMs fall far short of 2D and 1D in the complexity of generated 3D tasks, revealing their lack of understanding of high-dimensional tasks. (3) Counterintuitively, inputs with higher information complexity can simplify the reasoning process.