ChatPaper.aiChatPaper

Einmalige Entropie-Minimierung

One-shot Entropy Minimization

May 26, 2025
Autoren: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI

Zusammenfassung

Wir trainierten 13.440 große Sprachmodelle und fanden heraus, dass die Entropieminimierung lediglich einen einzelnen unmarkierten Datensatz und 10 Optimierungsschritte benötigt, um Leistungsverbesserungen zu erzielen, die vergleichbar oder sogar größer sind als diejenigen, die mit Tausenden von Daten und sorgfältig gestalteten Belohnungen in regelbasiertem Reinforcement Learning erreicht werden. Dieses bemerkenswerte Ergebnis könnte ein Umdenken in den Nachschulungsparadigmen für große Sprachmodelle anstoßen. Unser Code ist verfügbar unter https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

Summary

AI-Generated Summary

PDF72May 30, 2025