CrispEdit: Projecties met Lage Kromming voor Schaalbaar Niet-Destructief LLM-Bewerken

Samenvatting

Een centrale uitdaging bij het bewerken van grote taalmmodellen (LLM's) is het behoud van capaciteiten: methoden die doelgedrag succesvol wijzigen, kunnen stiekem de bewerkingsproxy manipuleren en algemene capaciteiten aantasten, wat leidt tot degeneratief gedrag dat doet denken aan proxy/reward hacking. Wij presenteren CrispEdit, een schaalbare en principiële tweedegraads bewerkingsalgoritme die capaciteitsbehoud als expliciete beperking hanteert, en verschillende bestaande bewerkingsbenaderingen verenigt en generaliseert. CrispEdit formuleert bewerken als een geoptimaliseerd beperkingsprobleem en handhaaft de beperking door bewerkingsupdates te projecteren op de deelruimte met lage kromming in het landschap van capaciteitsverlies. De crux van CrispEdit ligt in het uitdrukken van de capaciteitsbeperking via de Bregman-divergentie, waarvan de kwadratische vorm de Gauss-Newton-Hessiaan exact oplevert, zelfs wanneer het basismodel niet tot convergentie is getraind. Wij maken deze tweedegraads procedure efficiënt op de schaal van LLM's door gebruik te maken van Kronecker-gefactoriseerde benaderde kromming (K-FAC) en een nieuwe matrixvrije projector die de Kronecker-structuur benut om de constructie van massieve projectiematrices te vermijden. Op standaard benchmarktests voor modelbewerking behaalt CrispEdit een hoge bewerkingssuccesgraad terwijl de capaciteitsachteruitgang gemiddeld onder de 1% blijft across datasets, wat een significante verbetering betekent ten opzichte van eerdere bewerkers.

English

A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.

CrispEdit: Projecties met Lage Kromming voor Schaalbaar Niet-Destructief LLM-Bewerken

CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

Samenvatting

Support