CrispEdit: Proiezioni a Bassa Curvatura per l'Editing Non Distruttivo e Scalabile di LLM

Abstract

Una sfida centrale nella modifica dei grandi modelli linguistici (LLM) è la preservazione delle capacità: i metodi che modificano con successo il comportamento target possono aggirare silenziosamente il proxy di modifica e corrompere le capacità generali, producendo comportamenti degeneri che ricordano il *proxy/reward hacking*. Presentiamo CrispEdit, un algoritmo di modifica scalabile e fondato su principi teorici di secondo ordine, che tratta la preservazione delle capacità come un vincolo esplicito, unificando e generalizzando diversi approcci di modifica esistenti. CrispEdit formula la modifica come un problema di ottimizzazione vincolata e applica il vincolo proiettando gli aggiornamenti di modifica sul sottospazio a bassa curvatura del paesaggio di perdita delle capacità. Il fulcro di CrispEdit è l'espressione del vincolo di capacità tramite la divergenza di Bregman, la cui forma quadratica fornisce esattamente l'Hessiano di Gauss-Newton, anche quando il modello base non è stato addestrato fino alla convergenza. Rendiamo efficiente questa procedura del secondo ordine alla scala degli LLM utilizzando la curvatura approssimata fattorizzata di Kronecker (K-FAC) e un nuovo proiettore *matrix-free* che sfrutta la struttura di Kronecker per evitare la costruzione di matrici di proiezione massive. In vari benchmark standard per la modifica dei modelli, CrispEdit raggiunge un alto tasso di successo della modifica mantenendo il degrado delle capacità al di sotto dell'1% in media tra i dataset, migliorando significativamente rispetto agli editor precedenti.

English

A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.

CrispEdit: Proiezioni a Bassa Curvatura per l'Editing Non Distruttivo e Scalabile di LLM

CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

Abstract

Support