Het decoderen van het kritiekmechanisme in grote redeneermodellen

Samenvatting

Grote Redeneermodellen (LRMs) vertonen backtracking- en zelfverificatiemechanismen waarmee ze tussenstappen kunnen herzien en tot correcte oplossingen komen, wat leidt tot sterke prestaties op complexe logische benchmarks. Wij veronderstellen dat dergelijk gedrag alleen nuttig is wanneer het model een voldoende sterk 'kritiekvermogen' heeft om zijn eigen fouten te detecteren. Dit werk onderzoekt systematisch hoe huidige LRMs herstellen van fouten door rekenfouten in hun tussenliggende redeneerstappen in te voegen. Opmerkelijk is dat we een eigenaardig maar belangrijk fenomeen ontdekken: ondanks dat de fout zich door de hele denkketen (CoT) verspreidt zonder enige verwoorde correctie, bereikt het model nog steeds het juiste eindantwoord nadat het denkproces is voltooid. Dit herstel impliceert het bestaan van een intern mechanisme dat het model helpt fouten te detecteren en zelfcorrectie in gang te zetten, wat we het verborgen kritiekvermogen noemen. Voortbouwend op analyse van de kenmerkruimte identificeren we een zeer interpreteerbare kritiekvector die dit gedrag vertegenwoordigt. Uitgebreide experimenten over meerdere modelschalen en -families tonen aan dat het sturen van latente representaties met deze vector het foutdetectievermogen van het model verbetert en de prestaties van testtijd schaling verbetert zonder extra trainingskosten. Onze bevindingen bieden een waardevol begrip van het kritiekgedrag van LRMs, wat een veelbelovende richting suggereert om hun zelfverificatiemechanisme te controleren en te verbeteren. Onze code is beschikbaar op: https://github.com/mail-research/lrm-critique-vectors.

English

Large Reasoning Models (LRMs) exhibit backtracking and self-verification mechanisms that enable them to revise intermediate steps and reach correct solutions, yielding strong performance on complex logical benchmarks. We hypothesize that such behaviors are beneficial only when the model has sufficiently strong ``critique'' ability to detect its own mistakes. This work systematically investigates how current LRMs recover from errors by inserting arithmetic mistakes in their intermediate reasoning steps. Notably, we discover a peculiar yet important phenomenon: despite the error propagating throughout the entire chain-of-thought (CoT) without any verbalized correction, the model still reaches the correct final answer after the thinking process finishes. This recovery implies the existence of an internal mechanism helping the model to detect errors and trigger self-correction, which we refer to as the hidden critique ability. Building on feature space analysis, we identify a highly interpretable critique vector representing this behavior. Extensive experiments across multiple model scales and families demonstrate that steering latent representations with this vector improves the model's error detection capability and enhances the performance of test-time scaling at no extra training cost. Our findings provide a valuable understanding of LRMs' critique behavior, suggesting a promising direction to control and improve their self-verification mechanism. Our code is available at: https://github.com/mail-research/lrm-critique-vectors.