Jenseits von 'Aha!': Auf dem Weg zur systematischen Ausrichtung von Meta-Fähigkeiten in großen DenkmodellenBeyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large
Reasoning Models
Große Reasoning-Modelle (LRMs) verfügen bereits über eine latente Fähigkeit zur langen Kettenlogik. Frühere Arbeiten haben gezeigt, dass ergebnisbasiertes Reinforcement Learning (RL) fortgeschrittene Reasoning-Verhaltensweisen wie Selbstkorrektur, Rückverfolgung und Verifikationsphänomene, oft als „Aha-Moment“ des Modells bezeichnet, zufällig hervorrufen kann. Der Zeitpunkt und die Konsistenz dieser emergenten Verhaltensweisen bleiben jedoch unvorhersehbar und unkontrollierbar, was die Skalierbarkeit und Zuverlässigkeit der Reasoning-Fähigkeiten von LRMs einschränkt. Um diese Einschränkungen zu überwinden, gehen wir über die Abhängigkeit von Prompts und zufälligen „Aha-Momenten“ hinaus. Stattdessen richten wir Modelle explizit auf drei Meta-Fähigkeiten aus: Deduktion, Induktion und Abduktion, indem wir automatisch generierte, selbstüberprüfbare Aufgaben verwenden. Unsere dreistufige Pipeline – individuelle Ausrichtung, Parameterraum-Zusammenführung und domänenspezifisches Reinforcement Learning – steigert die Leistung um über 10 % im Vergleich zu instruktionsoptimierten Baselines. Darüber hinaus erzielt domänenspezifisches RL vom ausgerichteten Checkpoint einen zusätzlichen durchschnittlichen Leistungszuwachs von 2 % in den Leistungsgrenzen über Mathematik-, Programmier- und Wissenschafts-Benchmarks, was zeigt, dass die explizite Ausrichtung auf Meta-Fähigkeiten eine skalierbare und zuverlässige Grundlage für Reasoning bietet. Der Code ist verfügbar unter: https://github.com/zhiyuanhubj/Meta-Ability-Alignment.