ChatPaper.aiChatPaper

Fijnafstemming Correct Uitgevoerd in Modelbewerking

Fine-tuning Done Right in Model Editing

September 26, 2025
Auteurs: Wanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng
cs.AI

Samenvatting

Fine-tuning, een fundamentele methode voor het aanpassen van grote taalmodel(len), wordt al lang als ondoeltreffend beschouwd voor modelbewerking. Hier dagen we deze overtuiging uit en stellen we dat het gerapporteerde falen niet voortkomt uit een inherente beperking van fine-tuning zelf, maar uit de aanpassing ervan aan de sequentiële aard van de bewerkingstaak, een single-pass depth-first pipeline die elk voorbeeld optimaliseert tot convergentie voordat wordt doorgegaan naar het volgende. Hoewel intuïtief, leidt deze depth-first pipeline in combinatie met sample-wise updating tot overoptimalisatie van elke bewerking en veroorzaakt het interferentie tussen bewerkingen. Onze gecontroleerde experimenten tonen aan dat het simpelweg herstellen van fine-tuning naar de standaard breadth-first (d.w.z. epoch-gebaseerde) pipeline met mini-batch optimalisatie de effectiviteit ervan voor modelbewerking aanzienlijk verbetert. Bovendien lijdt fine-tuning bij bewerking ook onder suboptimale afstelpingsparameterlocaties die zijn overgenomen uit eerdere methoden. Door systematische analyse van afstelpingslocaties hebben we LocFT-BF afgeleid, een eenvoudige en effectieve gelokaliseerde bewerkingsmethode gebouwd op het herstelde fine-tuning framework. Uitgebreide experimenten met diverse LLM's en datasets tonen aan dat LocFT-BF state-of-the-art methoden met grote marges overtreft. Opmerkelijk is dat het, voor zover wij weten, de eerste methode is die 100K bewerkingen en 72B-parametermodellen aankan, 10 keer meer dan eerdere praktijken, zonder in te leveren op algemene capaciteiten. Door een lang bestaande misvatting te verhelderen en een principiële gelokaliseerde afstelpingsstrategie te introduceren, bevorderen we fine-tuning van een onderschatte baseline naar een toonaangevende methode voor modelbewerking, waarmee we een solide basis leggen voor toekomstig onderzoek.
English
Fine-tuning, a foundational method for adapting large language models, has long been considered ineffective for model editing. Here, we challenge this belief, arguing that the reported failure arises not from the inherent limitation of fine-tuning itself, but from adapting it to the sequential nature of the editing task, a single-pass depth-first pipeline that optimizes each sample to convergence before moving on. While intuitive, this depth-first pipeline coupled with sample-wise updating over-optimizes each edit and induces interference across edits. Our controlled experiments reveal that simply restoring fine-tuning to the standard breadth-first (i.e., epoch-based) pipeline with mini-batch optimization substantially improves its effectiveness for model editing. Moreover, fine-tuning in editing also suffers from suboptimal tuning parameter locations inherited from prior methods. Through systematic analysis of tuning locations, we derive LocFT-BF, a simple and effective localized editing method built on the restored fine-tuning framework. Extensive experiments across diverse LLMs and datasets demonstrate that LocFT-BF outperforms state-of-the-art methods by large margins. Notably, to our knowledge, it is the first to sustain 100K edits and 72B-parameter models,10 x beyond prior practice, without sacrificing general capabilities. By clarifying a long-standing misconception and introducing a principled localized tuning strategy, we advance fine-tuning from an underestimated baseline to a leading method for model editing, establishing a solid foundation for future research.
PDF272September 29, 2025