CrispEdit: Низкокривизные проекции для масштабируемого неразрушающего редактирования больших языковых моделей

Аннотация

Ключевой проблемой редактирования больших языковых моделей (LLM) является сохранение способностей: методы, успешно изменяющие целевое поведение, могут незаметно подстраиваться под прокси-метрику редактирования и нарушать общие возможности, порождая деградирующее поведение, напоминающее взлом прокси/вознаграждения. Мы представляем CrispEdit — масштабируемый и принципиальный алгоритм редактирования второго порядка, который трактует сохранение способностей как явное ограничение, обобщая и унифицируя несколько существующих подходов к редактированию. CrispEdit формулирует редактирование как задачу условной оптимизации и обеспечивает соблюдение ограничения путем проекции обновлений редактирования на подпространство с малой кривизной ландшафта потерь способностей. Основой CrispEdit является выражение ограничения на способности через дивергенцию Брегмана, квадратичная форма которой точно дает гессиан Гаусса-Ньютона, даже когда базовая модель не обучена до сходимости. Мы делаем эту процедуру второго порядка эффективной для масштаба LLM, используя приближение кривизны с факторизацией Кронекера (K-FAC) и новый проектор, свободный от явного задания матриц, который использует структуру Кронекера, чтобы избежать построения массивных матриц проекции. На стандартных бенчмарках редактирования моделей CrispEdit достигает высокого процента успешных правок, сохраняя деградацию способностей в среднем ниже 1% по всем наборам данных, что значительно превосходит предыдущие редакторы.

English

A central challenge in large language model (LLM) editing is capability preservation: methods that successfully change targeted behavior can quietly game the editing proxy and corrupt general capabilities, producing degenerate behaviors reminiscent of proxy/reward hacking. We present CrispEdit, a scalable and principled second-order editing algorithm that treats capability preservation as an explicit constraint, unifying and generalizing several existing editing approaches. CrispEdit formulates editing as constrained optimization and enforces the constraint by projecting edit updates onto the low-curvature subspace of the capability-loss landscape. At the crux of CrispEdit is expressing capability constraint via Bregman divergence, whose quadratic form yields the Gauss-Newton Hessian exactly and even when the base model is not trained to convergence. We make this second-order procedure efficient at the LLM scale using Kronecker-factored approximate curvature (K-FAC) and a novel matrix-free projector that exploits Kronecker structure to avoid constructing massive projection matrices. Across standard model-editing benchmarks, CrispEdit achieves high edit success while keeping capability degradation below 1% on average across datasets, significantly improving over prior editors.

CrispEdit: Низкокривизные проекции для масштабируемого неразрушающего редактирования больших языковых моделей

CrispEdit: Low-Curvature Projections for Scalable Non-Destructive LLM Editing

Аннотация

Support