CrispEdit : Projections à faible courbure pour l'édition non destructive évolutive de LLM

papers.abstract

Un défi central dans l'édition des grands modèles de langage (LLM) est la préservation des capacités : les méthodes qui modifient avec succès un comportement cible peuvent discrètement optimiser abusivement le critère d'édition et corrompre les capacités générales, produisant des comportements dégénérés évoquant le détournement de proxy ou de récompense. Nous présentons CrispEdit, un algorithme d'édition du second ordre, évolutif et fondé sur des principes, qui traite la préservation des capacités comme une contrainte explicite, unifiant et généralisant plusieurs approches d'édition existantes. CrispEdit formule l'édition comme un problème d'optimisation sous contrainte et impose cette contrainte en projetant les mises à jour d'édition sur le sous-espace de faible courbure du paysage de perte des capacités. Au cœur de CrispEdit se trouve l'expression de la contrainte de capacité via la divergence de Bregman, dont la forme quadratique donne exactement le Hessien de Gauss-Newton, même lorsque le modèle de base n'est pas entraîné jusqu'à convergence. Nous rendons cette procédure du second ordre efficace à l'échelle des LLM en utilisant une approximation de courbure par factorisation de Kronecker (K-FAC) et un nouveau projecteur sans matrice qui exploite la structure de Kronecker pour éviter de construire des matrices de projection massives. Sur les benchmarks standards d'édition de modèles, CrispEdit atteint un taux de réussite d'édition élevé tout en maintenant la dégradation des capacités en moyenne en dessous de 1% sur l'ensemble des jeux de données, s'améliorant significativement par rapport aux éditeurs antérieurs.

English

A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.

CrispEdit : Projections à faible courbure pour l'édition non destructive évolutive de LLM

CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

papers.abstract

Support