A2RBench: Um Paradigma Automático para a Geração de Benchmarks de Raciocínio Abstrato Formalmente Verificáveis

Resumo

A capacidade de raciocínio abstrato reflete a inteligência e a capacidade de generalização dos LLMs para extrair e aplicar regras abstratas. No entanto, medir com precisão essa habilidade continua desafiador: benchmarks existentes ou dependem de anotação manual cara, limitando sua escala, ou correm o risco de medir memorização em vez de raciocínio genuíno. Para resolver isso, apresentamos um pipeline automatizado denominado A2RBench, que abrange geração, expansão, avaliação e análise. Especificamente, na etapa de geração, LLMs criam tarefas diversas que exigem raciocínio genuíno; na etapa de expansão, LLMs reutilizam regras validadas e expandem novos espaços de entrada para gerar variações de tarefas, alcançando escalabilidade. No entanto, esse processo pode causar alucinações. Para eliminá-las, estabelecemos ainda um arcabouço teórico e provamos que a verificação programática—testar se a operação inversa reverte perfeitamente a operação direta (consistência de ciclo)—garante uma solução única. Por meio de avaliações extensivas em LLMs convencionais, constatamos: (1) Os LLMs atuais apresentam deficiências fundamentais em raciocínio abstrato, com modelos de ponta significativamente inferiores aos humanos em um subconjunto representativo (39,8% vs. 68,5%). (2) Os LLMs atuais geram tarefas 3D com complexidade muito inferior em comparação com as tarefas 2D e 1D, revelando sua falta de compreensão de tarefas de alta dimensionalidade. (3) Contra-intuitivamente, entradas com maior complexidade informacional podem simplificar o processo de raciocínio.

English

Abstract reasoning ability reflects the intelligence and generalization capacity of LLMs to extract and apply abstract rules. However, accurately measuring this ability remains challenging: existing benchmarks either rely on expensive manual annotation, limiting their scale, or risk measuring memorization rather than genuine reasoning. To address this, we introduce an automated pipeline named A2RBench, encompassing generation, expansion, evaluation, and analysis. Specifically, in the generation stage, LLMs create diverse tasks demanding genuine reasoning; in the expansion stage, LLMs reuse validated rules and expand new input spaces to generate task variations, achieving scaling. However, such a process may cause hallucinations. To eliminate it, we further establish a theoretical framework and prove that programmatic verification--testing whether the inverse operation perfectly reverses the forward operation (cycle consistency)--guarantees a unique solution. Through extensive evaluations on mainstream LLMs, we find: (1) Current LLMs exhibit fundamental deficiencies in abstract reasoning, with top models significantly underperforming humans on a representative subset (39.8% vs. 68.5%). (2) Current LLMs fall far short of 2D and 1D in the complexity of generated 3D tasks, revealing their lack of understanding of high-dimensional tasks. (3) Counterintuitively, inputs with higher information complexity can simplify the reasoning process.