Feinabstimmung richtig gemacht in der Modellbearbeitung
Fine-tuning Done Right in Model Editing
September 26, 2025
papers.authors: Wanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng
cs.AI
papers.abstract
Fine-Tuning, eine grundlegende Methode zur Anpassung großer Sprachmodelle, wurde lange Zeit als unwirksam für die Modellbearbeitung angesehen. Hier stellen wir diese Annahme in Frage und argumentieren, dass das berichtete Scheitern nicht auf eine inhärente Beschränkung des Fine-Tunings selbst zurückzuführen ist, sondern auf dessen Anpassung an die sequenzielle Natur der Bearbeitungsaufgabe, eine Single-Pass-Tiefensuche-Pipeline, die jede Probe bis zur Konvergenz optimiert, bevor sie zur nächsten übergeht. Obwohl intuitiv, führt diese Tiefensuche-Pipeline in Kombination mit einer probenbasierten Aktualisierung zu einer Überoptimierung jeder Bearbeitung und verursacht Interferenzen zwischen den Bearbeitungen. Unsere kontrollierten Experimente zeigen, dass die einfache Rückkehr des Fine-Tunings zur Standard-Breitensuche-Pipeline (d. h. epochenbasiert) mit Mini-Batch-Optimierung dessen Wirksamkeit für die Modellbearbeitung erheblich verbessert. Darüber hinaus leidet das Fine-Tuning bei der Bearbeitung auch unter suboptimalen Tuning-Parameterpositionen, die von früheren Methoden übernommen wurden. Durch eine systematische Analyse der Tuning-Positionen entwickeln wir LocFT-BF, eine einfache und effektive lokalisierte Bearbeitungsmethode, die auf dem wiederhergestellten Fine-Tuning-Framework basiert. Umfangreiche Experimente über verschiedene LLMs und Datensätze hinweg zeigen, dass LocFT-BF die derzeit besten Methoden mit großem Abstand übertrifft. Bemerkenswerterweise ist es, soweit uns bekannt ist, die erste Methode, die 100.000 Bearbeitungen und 72-Milliarden-Parameter-Modelle bewältigt, was das Zehnfache der bisherigen Praxis darstellt, ohne dabei die allgemeinen Fähigkeiten zu beeinträchtigen. Indem wir ein langjähriges Missverständnis aufklären und eine prinzipielle lokalisierte Tuning-Strategie einführen, heben wir das Fine-Tuning von einer unterschätzten Baseline zu einer führenden Methode für die Modellbearbeitung und schaffen so eine solide Grundlage für zukünftige Forschung.
English
Fine-tuning, a foundational method for adapting large language models, has
long been considered ineffective for model editing. Here, we challenge this
belief, arguing that the reported failure arises not from the inherent
limitation of fine-tuning itself, but from adapting it to the sequential nature
of the editing task, a single-pass depth-first pipeline that optimizes each
sample to convergence before moving on. While intuitive, this depth-first
pipeline coupled with sample-wise updating over-optimizes each edit and induces
interference across edits. Our controlled experiments reveal that simply
restoring fine-tuning to the standard breadth-first (i.e., epoch-based)
pipeline with mini-batch optimization substantially improves its effectiveness
for model editing. Moreover, fine-tuning in editing also suffers from
suboptimal tuning parameter locations inherited from prior methods. Through
systematic analysis of tuning locations, we derive LocFT-BF, a simple and
effective localized editing method built on the restored fine-tuning framework.
Extensive experiments across diverse LLMs and datasets demonstrate that
LocFT-BF outperforms state-of-the-art methods by large margins. Notably, to our
knowledge, it is the first to sustain 100K edits and 72B-parameter models,10 x
beyond prior practice, without sacrificing general capabilities. By clarifying
a long-standing misconception and introducing a principled localized tuning
strategy, we advance fine-tuning from an underestimated baseline to a leading
method for model editing, establishing a solid foundation for future research.