Voorbij 'Aha!': Naar een Systematische Afstemming van Meta-Vaardigheden in Grote RedeneermodellenBeyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large
Reasoning Models
Grote redeneermodellen (LRMs) beschikken al over een latente capaciteit voor lange ketens van redeneringen. Eerder onderzoek heeft aangetoond dat uitkomstgebaseerd reinforcement learning (RL) incidenteel geavanceerde redeneergedragingen kan oproepen, zoals zelfcorrectie, terugspoelen en verificatieverschijnselen, vaak aangeduid als het "aha-moment" van het model. Het tijdstip en de consistentie van deze opkomende gedragingen blijven echter onvoorspelbaar en oncontroleerbaar, wat de schaalbaarheid en betrouwbaarheid van de redeneercapaciteiten van LRMs beperkt. Om deze beperkingen aan te pakken, gaan we verder dan afhankelijkheid van prompts en toevallige "aha-momenten". In plaats daarvan richten we modellen expliciet af op drie meta-vaardigheden: deductie, inductie en abductie, met behulp van automatisch gegenereerde, zelfverifieerbare taken. Onze pijplijn in drie fasen — individuele afstemming, parameterruimte-samenvoeging en domeinspecifiek reinforcement learning — verbetert de prestaties met meer dan 10% ten opzichte van instructie-afgestemde basislijnen. Bovendien levert domeinspecifiek RL vanaf het afgestemde checkpoint een extra gemiddelde winst van 2% op in het prestatieplafond over benchmarks voor wiskunde, programmeren en wetenschap, wat aantoont dat expliciete afstemming op meta-vaardigheden een schaalbare en betrouwbare basis biedt voor redeneren. Code is beschikbaar op: https://github.com/zhiyuanhubj/Meta-Ability-Alignment