Step-On-Feet Tuning: Schaalvergroting van Zelfuitlijning van LLM's via Bootstrapping
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping
February 12, 2024
Auteurs: Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao
cs.AI
Samenvatting
Zelfuitlijning is een effectieve manier om de kosten van menselijke annotatie te verminderen terwijl een veelbelovende modelcapaciteit wordt gegarandeerd. De meeste huidige methoden voltooien echter de stappen van gegevensverzameling en training in één ronde, wat de continu verbeterende vaardigheid van zelfuitgelijnde modellen over het hoofd zou kunnen zien. Dit roept een belangrijke vraag op: Wat als we meerdere keren bootstrapping zelfuitlijning toepassen? Verbetert deze strategie de modelprestaties of leidt het tot snelle degradatie? In dit artikel gaat ons baanbrekende onderzoek in op de impact van bootstrapping zelfuitlijning op grote taalmmodellen. Onze bevindingen tonen aan dat bootstrapping zelfuitlijning de aanpak met één ronde duidelijk overtreft, door de diversiteit van gegevens te garanderen via in-context leren. Om de mogelijkheden van bootstrapping verder te benutten, onderzoeken en passen we de trainingsvolgorde van gegevens aan, wat resulteert in verbeterde modelprestaties. Op basis van deze bevindingen stellen we Step-On-Feet Tuning (SOFT) voor, dat gebruikmaakt van het continu verbeterde few-shot vermogen van het model om de zero- of one-shot prestaties te versterken. Gebaseerd op een easy-to-hard trainingsrecept, stellen we SOFT+ voor, wat de prestaties van zelfuitlijning verder verbetert. Onze experimenten tonen de efficiëntie van SOFT (SOFT+) aan bij verschillende classificatie- en generatietaken, wat het potentieel van bootstrapping zelfuitlijning benadrukt om de uitlijningsprestaties van modellen continu te verbeteren.
English
Self-alignment is an effective way to reduce the cost of human annotation
while ensuring promising model capability. However, most current methods
complete the data collection and training steps in a single round, which may
overlook the continuously improving ability of self-aligned models. This gives
rise to a key query: What if we do multi-time bootstrapping self-alignment?
Does this strategy enhance model performance or lead to rapid degradation? In
this paper, our pioneering exploration delves into the impact of bootstrapping
self-alignment on large language models. Our findings reveal that bootstrapping
self-alignment markedly surpasses the single-round approach, by guaranteeing
data diversity from in-context learning. To further exploit the capabilities of
bootstrapping, we investigate and adjust the training order of data, which
yields improved performance of the model. Drawing on these findings, we propose
Step-On-Feet Tuning (SOFT) which leverages model's continuously enhanced
few-shot ability to boost zero or one-shot performance. Based on easy-to-hard
training recipe, we propose SOFT+ which further boost self-alignment's
performance. Our experiments demonstrate the efficiency of SOFT (SOFT+) across
various classification and generation tasks, highlighting the potential of
bootstrapping self-alignment on continually enhancing model alignment
performance.