CrispEdit: Niedrigkrümmungsprojektionen für skalierbare nicht-destruktive LLM-Bearbeitung

papers.abstract

Eine zentrale Herausforderung bei der Bearbeitung großer Sprachmodelle (LLMs) ist der Erhalt der Fähigkeiten: Methoden, die das Zielverhalten erfolgreich ändern, können stillschweigend den Bearbeitungs-Proxy manipulieren und die allgemeinen Fähigkeiten beschädigen, was zu degenerierten Verhaltensweisen führt, die an Proxy- oder Reward-Hacking erinnern. Wir stellen CrispEdit vor, einen skalierbaren und prinzipienbasierten Algorithmus zur Bearbeitung zweiter Ordnung, der den Fähigkeitserhalt als explizite Nebenbedingung behandelt und mehrere bestehende Bearbeitungsansätze vereinheitlicht und verallgemeinert. CrispEdit formuliert die Bearbeitung als ein Optimierungsproblem mit Nebenbedingungen und erzwingt die Nebenbedingung, indem Bearbeitungs-Updates auf den Unterraum mit geringer Krümmung des Fähigkeitsverlust-Landschaftsprojiziert werden. Der Kern von CrispEdit liegt in der Formulierung der Fähigkeitsnebenbedingung mittels Bregman-Divergenz, deren quadratische Form die Gauss-Newton-Hesse-Matrix exakt liefert, selbst wenn das Basismodell nicht bis zur Konvergenz trainiert wurde. Wir machen dieses Verfahren zweiter Ordnung für die Skala von LLMs effizient, indem wir kroneckerfaktorisierte approximative Krümmung (K-FAC) und einen neuartigen matrixfreien Projektor verwenden, der die Kronecker-Struktur ausnutzt, um die Konstruktion massiver Projektionsmatrizen zu vermeiden. In standardisierten Benchmarks zur Modellbearbeitung erreicht CrispEdit eine hohe Bearbeitungserfolgsrate, während der Fähigkeitsverlust über verschiedene Datensätze hinweg im Durchschnitt unter 1 % gehalten wird, was eine signifikante Verbesserung gegenüber früheren Bearbeitungsmethoden darstellt.

English

A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.

CrispEdit: Niedrigkrümmungsprojektionen für skalierbare nicht-destruktive LLM-Bearbeitung

CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

papers.abstract

Support