언어 모델은 반례를 생성할 수 있는가? 반례 생성 작업을 통한 알고리즘적 추론 능력 평가
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation
February 26, 2025
저자: Shiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu
cs.AI
초록
언어 모델(Language Models, LMs)이 과학적 발견을 가속화할 잠재력에 대한 기대가 점차 커지고 있다. 가설을 반증하는 것은 과학적 진보의 핵심이며, 이를 통해 주장이 시간에 걸쳐 반복적으로 정제될 수 있다. 이 과정은 상당한 연구자의 노력, 추론, 그리고 창의성을 요구한다. 그러나 현재의 LM 벤치마크는 주로 해결책을 생성하는 능력을 평가하는 데 초점이 맞춰져 있으며, 이를 반증하는 능력은 평가하지 않는다. 우리는 이와 반대되는 능력, 즉 미묘하게 잘못된 해결책에 대한 반례를 생성하는 능력을 평가하는 벤치마크를 개발할 것을 주장한다. 이를 입증하기 위해, 우리는 코드 실행을 통해 반례를 자동으로 평가할 수 있는 알고리즘 문제 해결 분야에서 시작한다. 구체적으로, 우리는 최근의 문제와 프로그래밍 대회에서 잘못된 제출물을 포함하며, 인간 전문가들이 성공적으로 반례를 식별한 REFUTE라는 동적으로 업데이트되는 벤치마크를 소개한다. 우리의 분석에 따르면, 최고의 추론 에이전트들, 심지어 코드 실행 피드백을 제공하는 OpenAI o3-mini(high)조차도 REFUTE의 잘못된 해결책 중 <9%에 대해서만 반례를 생성할 수 있으며, 이는 해당 문제를 처음부터 해결할 수 있는 능력이 48%에 달한다는 평가와 대조된다. 우리는 이 연구가 잘못된 해결책을 반증하는 LM의 능력을 평가하고 향상시키는 데 진전을 이끌어, 연구 가속화와 모델이 신뢰할 수 있는 반성적 추론을 통해 스스로 개선할 수 있도록 하는 데 기여하기를 바란다.
English
There is growing excitement about the potential of Language Models (LMs) to
accelerate scientific discovery. Falsifying hypotheses is key to scientific
progress, as it allows claims to be iteratively refined over time. This process
requires significant researcher effort, reasoning, and ingenuity. Yet current
benchmarks for LMs predominantly assess their ability to generate solutions
rather than challenge them. We advocate for developing benchmarks that evaluate
this inverse capability - creating counterexamples for subtly incorrect
solutions. To demonstrate this approach, we start with the domain of
algorithmic problem solving, where counterexamples can be evaluated
automatically using code execution. Specifically, we introduce REFUTE, a
dynamically updating benchmark that includes recent problems and incorrect
submissions from programming competitions, where human experts successfully
identified counterexamples. Our analysis finds that the best reasoning agents,
even OpenAI o3-mini (high) with code execution feedback, can create
counterexamples for only <9% of incorrect solutions in REFUTE, even though
ratings indicate its ability to solve up to 48% of these problems from scratch.
We hope our work spurs progress in evaluating and enhancing LMs' ability to
falsify incorrect solutions - a capability that is crucial for both
accelerating research and making models self-improve through reliable
reflective reasoning.