Einmalige Entropie-Minimierung
One-shot Entropy Minimization
May 26, 2025
Autoren: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI
Zusammenfassung
Wir trainierten 13.440 große Sprachmodelle und fanden heraus, dass die Entropieminimierung lediglich einen einzelnen unmarkierten Datensatz und 10 Optimierungsschritte benötigt, um Leistungsverbesserungen zu erzielen, die vergleichbar oder sogar größer sind als diejenigen, die mit Tausenden von Daten und sorgfältig gestalteten Belohnungen in regelbasiertem Reinforcement Learning erreicht werden. Dieses bemerkenswerte Ergebnis könnte ein Umdenken in den Nachschulungsparadigmen für große Sprachmodelle anstoßen. Unser Code ist verfügbar unter https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization
requires only a single unlabeled data and 10 steps optimization to achieve
performance improvements comparable to or even greater than those obtained
using thousands of data and carefully designed rewards in rule-based
reinforcement learning. This striking result may prompt a rethinking of
post-training paradigms for large language models. Our code is avaliable at
https://github.com/zitian-gao/one-shot-em.Summary
AI-Generated Summary