Kunnen Taalmodellen Falsifiëren? Evaluatie van Algoritmische Redenering met Tegenbeeldcreatie
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation
February 26, 2025
Auteurs: Shiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu
cs.AI
Samenvatting
Er is steeds meer opwinding over het potentieel van Taalmodellen (TM's) om wetenschappelijke ontdekkingen te versnellen. Het falsifiëren van hypothesen is essentieel voor wetenschappelijke vooruitgang, omdat het claims in de loop van de tijd iteratief verfijnt. Dit proces vereist aanzienlijke inspanning van onderzoekers, redenering en vindingrijkheid. Toch beoordelen huidige benchmarks voor TM's voornamelijk hun vermogen om oplossingen te genereren in plaats van ze uit te dagen. Wij pleiten voor de ontwikkeling van benchmarks die deze omgekeerde capaciteit evalueren - het creëren van tegenstrijdige voorbeelden voor subtiel incorrecte oplossingen. Om deze benadering te demonstreren, beginnen we met het domein van algoritmisch probleemoplossen, waar tegenstrijdige voorbeelden automatisch kunnen worden geëvalueerd met behulp van code-uitvoering. Specifiek introduceren we REFUTE, een dynamisch bijgewerkte benchmark die recente problemen en onjuiste inzendingen van programmeerwedstrijden omvat, waar menselijke experts succesvol tegenstrijdige voorbeelden hebben geïdentificeerd. Onze analyse toont aan dat de beste redenerende agenten, zelfs OpenAI o3-mini (hoog) met feedback over code-uitvoering, tegenstrijdige voorbeelden kunnen creëren voor slechts <9% van de onjuiste oplossingen in REFUTE, hoewel beoordelingen aangeven dat het in staat is om tot 48% van deze problemen vanaf nul op te lossen. We hopen dat ons werk vooruitgang zal stimuleren in het evalueren en verbeteren van het vermogen van TM's om onjuiste oplossingen te falsifiëren - een capaciteit die cruciaal is voor zowel het versnellen van onderzoek als het laten verbeteren van modellen door betrouwbare reflecterende redenering.
English
There is growing excitement about the potential of Language Models (LMs) to
accelerate scientific discovery. Falsifying hypotheses is key to scientific
progress, as it allows claims to be iteratively refined over time. This process
requires significant researcher effort, reasoning, and ingenuity. Yet current
benchmarks for LMs predominantly assess their ability to generate solutions
rather than challenge them. We advocate for developing benchmarks that evaluate
this inverse capability - creating counterexamples for subtly incorrect
solutions. To demonstrate this approach, we start with the domain of
algorithmic problem solving, where counterexamples can be evaluated
automatically using code execution. Specifically, we introduce REFUTE, a
dynamically updating benchmark that includes recent problems and incorrect
submissions from programming competitions, where human experts successfully
identified counterexamples. Our analysis finds that the best reasoning agents,
even OpenAI o3-mini (high) with code execution feedback, can create
counterexamples for only <9% of incorrect solutions in REFUTE, even though
ratings indicate its ability to solve up to 48% of these problems from scratch.
We hope our work spurs progress in evaluating and enhancing LMs' ability to
falsify incorrect solutions - a capability that is crucial for both
accelerating research and making models self-improve through reliable
reflective reasoning.