Step-On-Feet Tuning: Schaalvergroting van Zelfuitlijning van LLM's via Bootstrapping

Samenvatting

Zelfuitlijning is een effectieve manier om de kosten van menselijke annotatie te verminderen terwijl een veelbelovende modelcapaciteit wordt gegarandeerd. De meeste huidige methoden voltooien echter de stappen van gegevensverzameling en training in één ronde, wat de continu verbeterende vaardigheid van zelfuitgelijnde modellen over het hoofd zou kunnen zien. Dit roept een belangrijke vraag op: Wat als we meerdere keren bootstrapping zelfuitlijning toepassen? Verbetert deze strategie de modelprestaties of leidt het tot snelle degradatie? In dit artikel gaat ons baanbrekende onderzoek in op de impact van bootstrapping zelfuitlijning op grote taalmmodellen. Onze bevindingen tonen aan dat bootstrapping zelfuitlijning de aanpak met één ronde duidelijk overtreft, door de diversiteit van gegevens te garanderen via in-context leren. Om de mogelijkheden van bootstrapping verder te benutten, onderzoeken en passen we de trainingsvolgorde van gegevens aan, wat resulteert in verbeterde modelprestaties. Op basis van deze bevindingen stellen we Step-On-Feet Tuning (SOFT) voor, dat gebruikmaakt van het continu verbeterde few-shot vermogen van het model om de zero- of one-shot prestaties te versterken. Gebaseerd op een easy-to-hard trainingsrecept, stellen we SOFT+ voor, wat de prestaties van zelfuitlijning verder verbetert. Onze experimenten tonen de efficiëntie van SOFT (SOFT+) aan bij verschillende classificatie- en generatietaken, wat het potentieel van bootstrapping zelfuitlijning benadrukt om de uitlijningsprestaties van modellen continu te verbeteren.

English

Self-alignment is an effective way to reduce the cost of human annotation while ensuring promising model capability. However, most current methods complete the data collection and training steps in a single round, which may overlook the continuously improving ability of self-aligned models. This gives rise to a key query: What if we do multi-time bootstrapping self-alignment? Does this strategy enhance model performance or lead to rapid degradation? In this paper, our pioneering exploration delves into the impact of bootstrapping self-alignment on large language models. Our findings reveal that bootstrapping self-alignment markedly surpasses the single-round approach, by guaranteeing data diversity from in-context learning. To further exploit the capabilities of bootstrapping, we investigate and adjust the training order of data, which yields improved performance of the model. Drawing on these findings, we propose Step-On-Feet Tuning (SOFT) which leverages model's continuously enhanced few-shot ability to boost zero or one-shot performance. Based on easy-to-hard training recipe, we propose SOFT+ which further boost self-alignment's performance. Our experiments demonstrate the efficiency of SOFT (SOFT+) across various classification and generation tasks, highlighting the potential of bootstrapping self-alignment on continually enhancing model alignment performance.

Step-On-Feet Tuning: Schaalvergroting van Zelfuitlijning van LLM's via Bootstrapping

Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping

Samenvatting

Support