ChatPaper.aiChatPaper

CrispEdit: Projeções de Baixa Curvatura para Edição Escalável e Não-Destrutiva de LLMs

CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

February 17, 2026
Autores: Zarif Ikram, Arad Firouzkouhi, Stephen Tu, Mahdi Soltanolkotabi, Paria Rashidinejad
cs.AI

Resumo

Um desafio central na edição de grandes modelos de linguagem (LLMs) é a preservação de capacidades: métodos que alteram com sucesso o comportamento alvo podem, silenciosamente, otimizar excessivamente o proxy de edição e corromper capacidades gerais, produzindo comportamentos degenerados que lembram o "hacking" de proxy/recompensa. Apresentamos o CrispEdit, um algoritmo de edição escalável e fundamentado de segunda ordem que trata a preservação de capacidades como uma restrição explícita, unificando e generalizando várias abordagens de edição existentes. O CrispEdit formula a edição como um problema de otimização com restrições e aplica a restrição projetando as atualizações de edição no subespaço de baixa curvatura do panorama de perda de capacidade. A essência do CrispEdit é expressar a restrição de capacidade por meio da divergência de Bregman, cuja forma quadrática produz exatamente a Hessiana de Gauss-Newton, mesmo quando o modelo base não foi treinado até a convergência. Tornamos este procedimento de segunda ordem eficiente na escala de LLMs usando a curvatura aproximada fatorada por Kronecker (K-FAC) e um novo projetor livre de matriz que explora a estrutura de Kronecker para evitar a construção de matrizes de projeção massivas. Em benchmarks padrão de edição de modelos, o CrispEdit alcança alto sucesso de edição enquanto mantém a degradação de capacidade abaixo de 1% em média entre os conjuntos de dados, melhorando significativamente em relação aos editores anteriores.
English
A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.
PDF21February 21, 2026