REPAIR: Modifica Robusta tramite Intervento Progressivo Adattivo e Reintegrazione

Abstract

Il post-training per i grandi modelli linguistici (LLM) è limitato dall'elevato costo di acquisizione di nuove conoscenze o di correzione degli errori e dagli effetti collaterali indesiderati che spesso derivano dal retraining. Per affrontare questi problemi, introduciamo REPAIR (Robust Editing via Progressive Adaptive Intervention and Reintegration), un framework di editing continuo progettato per supportare aggiornamenti precisi e a basso costo del modello, preservando al contempo le conoscenze non target. REPAIR mitiga l'instabilità e i conflitti degli editing sequenziali su larga scala attraverso un meccanismo di feedback a ciclo chiuso accoppiato a una gestione dinamica della memoria. Inoltre, incorporando una frequente fusione delle conoscenze e applicando forti protezioni di località, REPAIR affronta efficacemente le carenze degli approcci tradizionali agnostici alla distribuzione, che spesso trascurano gli effetti a catena indesiderati. I nostri esperimenti dimostrano che REPAIR aumenta l'accuratezza degli editing del 10%-30% su diverse famiglie di modelli e riduce significativamente la perdita di conoscenza. Questo lavoro introduce un framework robusto per sviluppare LLM affidabili, scalabili e in continua evoluzione.

English

Post-training for large language models (LLMs) is constrained by the high cost of acquiring new knowledge or correcting errors and by the unintended side effects that frequently arise from retraining. To address these issues, we introduce REPAIR (Robust Editing via Progressive Adaptive Intervention and Reintegration), a lifelong editing framework designed to support precise and low-cost model updates while preserving non-target knowledge. REPAIR mitigates the instability and conflicts of large-scale sequential edits through a closed-loop feedback mechanism coupled with dynamic memory management. Furthermore, by incorporating frequent knowledge fusion and enforcing strong locality guards, REPAIR effectively addresses the shortcomings of traditional distribution-agnostic approaches that often overlook unintended ripple effects. Our experiments demonstrate that REPAIR boosts editing accuracy by 10%-30% across multiple model families and significantly reduces knowledge forgetting. This work introduces a robust framework for developing reliable, scalable, and continually evolving LLMs.

REPAIR: Modifica Robusta tramite Intervento Progressivo Adattivo e Reintegrazione

REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

Abstract

Support