SAHOO: Beschermde Afstemming voor Optimalisatiedoelen van Hogere Orde bij Recursieve Zelfverbetering

Samenvatting

Recursieve zelfverbetering maakt de overgang van theorie naar praktijk: moderne systemen kunnen hun eigen output beoordelen, herzien en evalueren, maar iteratieve zelfmodificatie brengt het risico van subtiele alignment-drift met zich mee. Wij introduceren SAHOO, een praktisch raamwerk om deze drift te monitoren en beheersen via drie veiligheidsmaatregelen: (i) de Goal Drift Index (GDI), een aangeleerde multi-signaaldetector die semantische, lexicale, structurele en distributionele metingen combineert; (ii) constraint preservation checks die veiligheidskritieke invarianten handhaven, zoals syntactische correctheid en het vermijden van hallucinaties; en (iii) regressierisico-kwantificering om verbeteringscycli te signaleren die eerdere winsten tenietdoen. Over 189 taken in codegeneratie, wiskundig redeneren en waarheidsgetrouwheid boekt SAHOO aanzienlijke kwaliteitswinst, waaronder een verbetering van 18,3 procent in codetaken en 16,8 procent in redeneertaken, terwijl de constraints in twee domeinen worden behouden en de overtredingen in waarheidsgetrouwheid laag blijven. Drempelwaarden worden gekalibreerd op een kleine validatieset van 18 taken over drie cycli. Verder brengen we de capability-alignment frontier in kaart, waarbij efficiënte vroege verbeteringscycli zichtbaar worden, maar de alignment-kosten later stijgen en domeinspecifieke spanningen blootleggen, zoals vlotheid versus feitelijkheid. SAHOO maakt het behoud van alignment tijdens recursieve zelfverbetering daardoor meetbaar, inzetbaar en systematisch op schaal valideerbaar.

English

Recursive self-improvement is moving from theory to practice: modern systems can critique, revise, and evaluate their own outputs, yet iterative self-modification risks subtle alignment drift. We introduce SAHOO, a practical framework to monitor and control drift through three safeguards: (i) the Goal Drift Index (GDI), a learned multi-signal detector combining semantic, lexical, structural, and distributional measures; (ii) constraint preservation checks that enforce safety-critical invariants such as syntactic correctness and non-hallucination; and (iii) regression-risk quantification to flag improvement cycles that undo prior gains. Across 189 tasks in code generation, mathematical reasoning, and truthfulness, SAHOO produces substantial quality gains, including 18.3 percent improvement in code tasks and 16.8 percent in reasoning, while preserving constraints in two domains and maintaining low violations in truthfulness. Thresholds are calibrated on a small validation set of 18 tasks across three cycles. We further map the capability-alignment frontier, showing efficient early improvement cycles but rising alignment costs later and exposing domain-specific tensions such as fluency versus factuality. SAHOO therefore makes alignment preservation during recursive self-improvement measurable, deployable, and systematically validated at scale.

SAHOO: Beschermde Afstemming voor Optimalisatiedoelen van Hogere Orde bij Recursieve Zelfverbetering

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Samenvatting

Support