CrispEdit: Proyecciones de Baja Curvatura para la Edición No Destructiva y Escalable de LLM

Resumen

Un desafío central en la edición de modelos de lenguaje grandes (LLM) es la preservación de capacidades: los métodos que logran cambiar el comportamiento objetivo pueden alterar silenciosamente el proxy de edición y corromper las capacidades generales, produciendo comportamientos degenerados que recuerdan al *hacking* de proxies/recompensas. Presentamos CrispEdit, un algoritmo de edición escalable y fundamentado de segundo orden que trata la preservación de capacidades como una restricción explícita, unificando y generalizando varios enfoques de edición existentes. CrispEdit formula la edición como una optimización con restricciones y aplica dicha restricción proyectando las actualizaciones de la edición en el subespacio de baja curvatura del panorama de pérdida de capacidades. La clave de CrispEdit es expresar la restricción de capacidad mediante la divergencia de Bregman, cuya forma cuadrática proporciona exactamente el Hessiano de Gauss-Newton, incluso cuando el modelo base no está entrenado hasta la convergencia. Hacemos este procedimiento de segundo orden eficiente a escala LLM utilizando curvatura aproximada factorizada con Kronecker (K-FAC) y un nuevo proyector *matrix-free* que explota la estructura de Kronecker para evitar la construcción de matrices de proyección masivas. En varios puntos de referencia estándar de edición de modelos, CrispEdit logra un alto éxito de edición manteniendo la degradación de capacidades por debajo del 1% en promedio en todos los conjuntos de datos, mejorando significativamente respecto a editores anteriores.

English

A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.

CrispEdit: Proyecciones de Baja Curvatura para la Edición No Destructiva y Escalable de LLM

CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

Resumen

Support