CodeARC: Avaliação das Capacidades de Raciocínio de Agentes de LLM para Síntese Indutiva de Programas

Resumo

A síntese indutiva de programas, ou programação por exemplos, envolve a síntese de funções a partir de exemplos de entrada-saída que generalizam para entradas não vistas. Embora agentes baseados em grandes modelos de linguagem tenham mostrado potencial em tarefas de programação guiadas por linguagem natural, sua capacidade de realizar síntese indutiva de programas ainda é pouco explorada. Os protocolos de avaliação existentes dependem de conjuntos estáticos de exemplos e testes reservados, não oferecendo feedback quando as funções sintetizadas estão incorretas e falhando em refletir cenários do mundo real, como engenharia reversa. Propomos o CodeARC, o Desafio de Abstração e Raciocínio de Código, um novo framework de avaliação no qual os agentes interagem com uma função alvo oculta, consultando-a com novas entradas, sintetizando funções candidatas e refinando iterativamente suas soluções usando um oráculo de teste diferencial. Esse cenário interativo incentiva os agentes a realizar chamadas de funções e autocorreção com base no feedback. Construímos o primeiro benchmark em larga escala para síntese indutiva de programas de propósito geral, contendo 1114 funções. Entre 18 modelos avaliados, o o3-mini obteve o melhor desempenho, com uma taxa de sucesso de 52,7%, destacando a dificuldade dessa tarefa. O ajuste fino do LLaMA-3.1-8B-Instruct em traços de síntese curados resultou em um ganho de desempenho relativo de até 31%. O CodeARC oferece um ambiente de teste mais realista e desafiador para avaliar a síntese de programas e o raciocínio indutivo baseados em LLM.

English

Inductive program synthesis, or programming by example, requires synthesizing functions from input-output examples that generalize to unseen inputs. While large language model agents have shown promise in programming tasks guided by natural language, their ability to perform inductive program synthesis is underexplored. Existing evaluation protocols rely on static sets of examples and held-out tests, offering no feedback when synthesized functions are incorrect and failing to reflect real-world scenarios such as reverse engineering. We propose CodeARC, the Code Abstraction and Reasoning Challenge, a new evaluation framework where agents interact with a hidden target function by querying it with new inputs, synthesizing candidate functions, and iteratively refining their solutions using a differential testing oracle. This interactive setting encourages agents to perform function calls and self-correction based on feedback. We construct the first large-scale benchmark for general-purpose inductive program synthesis, featuring 1114 functions. Among 18 models evaluated, o3-mini performs best with a success rate of 52.7%, highlighting the difficulty of this task. Fine-tuning LLaMA-3.1-8B-Instruct on curated synthesis traces yields up to a 31% relative performance gain. CodeARC provides a more realistic and challenging testbed for evaluating LLM-based program synthesis and inductive reasoning.

CodeARC: Avaliação das Capacidades de Raciocínio de Agentes de LLM para Síntese Indutiva de Programas

CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Resumo

Support