Ajuste fino realizado correctamente en la edición de modelos
Fine-tuning Done Right in Model Editing
September 26, 2025
Autores: Wanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng
cs.AI
Resumen
El ajuste fino, un método fundamental para adaptar modelos de lenguaje de gran escala, ha sido considerado durante mucho tiempo ineficaz para la edición de modelos. Aquí, desafiamos esta creencia, argumentando que el fracaso reportado no surge de una limitación inherente del ajuste fino en sí, sino de su adaptación a la naturaleza secuencial de la tarea de edición, un enfoque de profundidad primero en una sola pasada que optimiza cada muestra hasta la convergencia antes de avanzar. Aunque intuitivo, este enfoque de profundidad primero, combinado con la actualización por muestra, sobreoptimiza cada edición e induce interferencia entre las ediciones. Nuestros experimentos controlados revelan que simplemente restaurar el ajuste fino al enfoque estándar de amplitud primero (es decir, basado en épocas) con optimización por mini-lotes mejora sustancialmente su efectividad para la edición de modelos. Además, el ajuste fino en la edición también sufre de ubicaciones subóptimas de parámetros heredadas de métodos previos. A través de un análisis sistemático de las ubicaciones de ajuste, derivamos LocFT-BF, un método de edición localizado simple y efectivo basado en el marco de ajuste fino restaurado. Experimentos extensos en diversos modelos de lenguaje y conjuntos de datos demuestran que LocFT-BF supera a los métodos más avanzados por amplios márgenes. Notablemente, hasta donde sabemos, es el primero en sostener 100K ediciones y modelos de 72B parámetros, 10 veces más allá de la práctica previa, sin sacrificar capacidades generales. Al aclarar un malentendido de larga data e introducir una estrategia de ajuste localizado basada en principios, avanzamos el ajuste fino desde una línea base subestimada a un método líder para la edición de modelos, estableciendo una base sólida para futuras investigaciones.
English
Fine-tuning, a foundational method for adapting large language models, has
long been considered ineffective for model editing. Here, we challenge this
belief, arguing that the reported failure arises not from the inherent
limitation of fine-tuning itself, but from adapting it to the sequential nature
of the editing task, a single-pass depth-first pipeline that optimizes each
sample to convergence before moving on. While intuitive, this depth-first
pipeline coupled with sample-wise updating over-optimizes each edit and induces
interference across edits. Our controlled experiments reveal that simply
restoring fine-tuning to the standard breadth-first (i.e., epoch-based)
pipeline with mini-batch optimization substantially improves its effectiveness
for model editing. Moreover, fine-tuning in editing also suffers from
suboptimal tuning parameter locations inherited from prior methods. Through
systematic analysis of tuning locations, we derive LocFT-BF, a simple and
effective localized editing method built on the restored fine-tuning framework.
Extensive experiments across diverse LLMs and datasets demonstrate that
LocFT-BF outperforms state-of-the-art methods by large margins. Notably, to our
knowledge, it is the first to sustain 100K edits and 72B-parameter models,10 x
beyond prior practice, without sacrificing general capabilities. By clarifying
a long-standing misconception and introducing a principled localized tuning
strategy, we advance fine-tuning from an underestimated baseline to a leading
method for model editing, establishing a solid foundation for future research.