Kunnen Taalmodellen Falsifiëren? Evaluatie van Algoritmische Redenering met Tegenbeeldcreatie

Samenvatting

Er is steeds meer opwinding over het potentieel van Taalmodellen (TM's) om wetenschappelijke ontdekkingen te versnellen. Het falsifiëren van hypothesen is essentieel voor wetenschappelijke vooruitgang, omdat het claims in de loop van de tijd iteratief verfijnt. Dit proces vereist aanzienlijke inspanning van onderzoekers, redenering en vindingrijkheid. Toch beoordelen huidige benchmarks voor TM's voornamelijk hun vermogen om oplossingen te genereren in plaats van ze uit te dagen. Wij pleiten voor de ontwikkeling van benchmarks die deze omgekeerde capaciteit evalueren - het creëren van tegenstrijdige voorbeelden voor subtiel incorrecte oplossingen. Om deze benadering te demonstreren, beginnen we met het domein van algoritmisch probleemoplossen, waar tegenstrijdige voorbeelden automatisch kunnen worden geëvalueerd met behulp van code-uitvoering. Specifiek introduceren we REFUTE, een dynamisch bijgewerkte benchmark die recente problemen en onjuiste inzendingen van programmeerwedstrijden omvat, waar menselijke experts succesvol tegenstrijdige voorbeelden hebben geïdentificeerd. Onze analyse toont aan dat de beste redenerende agenten, zelfs OpenAI o3-mini (hoog) met feedback over code-uitvoering, tegenstrijdige voorbeelden kunnen creëren voor slechts <9% van de onjuiste oplossingen in REFUTE, hoewel beoordelingen aangeven dat het in staat is om tot 48% van deze problemen vanaf nul op te lossen. We hopen dat ons werk vooruitgang zal stimuleren in het evalueren en verbeteren van het vermogen van TM's om onjuiste oplossingen te falsifiëren - een capaciteit die cruciaal is voor zowel het versnellen van onderzoek als het laten verbeteren van modellen door betrouwbare reflecterende redenering.

English

There is growing excitement about the potential of Language Models (LMs) to accelerate scientific discovery. Falsifying hypotheses is key to scientific progress, as it allows claims to be iteratively refined over time. This process requires significant researcher effort, reasoning, and ingenuity. Yet current benchmarks for LMs predominantly assess their ability to generate solutions rather than challenge them. We advocate for developing benchmarks that evaluate this inverse capability - creating counterexamples for subtly incorrect solutions. To demonstrate this approach, we start with the domain of algorithmic problem solving, where counterexamples can be evaluated automatically using code execution. Specifically, we introduce REFUTE, a dynamically updating benchmark that includes recent problems and incorrect submissions from programming competitions, where human experts successfully identified counterexamples. Our analysis finds that the best reasoning agents, even OpenAI o3-mini (high) with code execution feedback, can create counterexamples for only <9% of incorrect solutions in REFUTE, even though ratings indicate its ability to solve up to 48% of these problems from scratch. We hope our work spurs progress in evaluating and enhancing LMs' ability to falsify incorrect solutions - a capability that is crucial for both accelerating research and making models self-improve through reliable reflective reasoning.

Kunnen Taalmodellen Falsifiëren? Evaluatie van Algoritmische Redenering met Tegenbeeldcreatie

Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Samenvatting

Support