CodeARC: 귀납적 프로그램 합성을 위한 LLM 에이전트의 추론 능력 벤치마킹
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis
March 29, 2025
저자: Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken
cs.AI
초록
귀납적 프로그램 합성(Inductive Program Synthesis) 또는 예제 기반 프로그래밍(Programming by Example)은 입력-출력 예제로부터 보이지 않는 입력에 일반화 가능한 함수를 합성하는 것을 요구합니다. 자연어로 지시된 프로그래밍 작업에서 대규모 언어 모델 에이전트가 유망한 성과를 보여왔지만, 귀납적 프로그램 합성 수행 능력은 아직 충분히 탐구되지 않았습니다. 기존 평가 프로토콜은 정적 예제 세트와 보류된 테스트에 의존하며, 합성된 함수가 잘못되었을 때 피드백을 제공하지 않고 역공학과 같은 실제 시나리오를 반영하지 못합니다. 우리는 CodeARC(Code Abstraction and Reasoning Challenge)라는 새로운 평가 프레임워크를 제안합니다. 이 프레임워크에서 에이전트는 숨겨진 목표 함수와 상호작용하며 새로운 입력으로 쿼리하고, 후보 함수를 합성하며, 차등 테스트 오라클을 사용하여 반복적으로 솔루션을 개선합니다. 이 상호작용 설정은 에이전트가 피드백을 기반으로 함수 호출 및 자기 수정을 수행하도록 장려합니다. 우리는 1114개의 함수를 포함한 최초의 대규모 범용 귀납적 프로그램 합성 벤치마크를 구축했습니다. 평가된 18개 모델 중 o3-mini가 52.7%의 성공률로 가장 우수한 성능을 보였으며, 이 작업의 어려움을 강조합니다. LLaMA-3.1-8B-Instruct를 선별된 합성 트레이스로 미세 조정하면 최대 31%의 상대적 성능 향상을 얻을 수 있습니다. CodeARC는 LLM 기반 프로그램 합성 및 귀납적 추론을 평가하기 위한 더 현실적이고 도전적인 테스트베드를 제공합니다.
English
Inductive program synthesis, or programming by example, requires synthesizing
functions from input-output examples that generalize to unseen inputs. While
large language model agents have shown promise in programming tasks guided by
natural language, their ability to perform inductive program synthesis is
underexplored. Existing evaluation protocols rely on static sets of examples
and held-out tests, offering no feedback when synthesized functions are
incorrect and failing to reflect real-world scenarios such as reverse
engineering. We propose CodeARC, the Code Abstraction and Reasoning Challenge,
a new evaluation framework where agents interact with a hidden target function
by querying it with new inputs, synthesizing candidate functions, and
iteratively refining their solutions using a differential testing oracle. This
interactive setting encourages agents to perform function calls and
self-correction based on feedback. We construct the first large-scale benchmark
for general-purpose inductive program synthesis, featuring 1114 functions.
Among 18 models evaluated, o3-mini performs best with a success rate of 52.7%,
highlighting the difficulty of this task. Fine-tuning LLaMA-3.1-8B-Instruct on
curated synthesis traces yields up to a 31% relative performance gain. CodeARC
provides a more realistic and challenging testbed for evaluating LLM-based
program synthesis and inductive reasoning.Summary
AI-Generated Summary