Eénschots Entropie Minimalisatie
One-shot Entropy Minimization
May 26, 2025
Auteurs: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI
Samenvatting
We trainden 13.440 grote taalmodellen en ontdekten dat entropieminimalisatie slechts één ongelabeld datapunt en 10 optimalisatiestappen vereist om prestatieverbeteringen te bereiken die vergelijkbaar zijn met of zelfs groter dan die verkregen met duizenden datapunten en zorgvuldig ontworpen beloningen in regelgebaseerde reinforcement learning. Dit opvallende resultaat kan aanleiding geven tot een herziening van post-trainingsparadigma's voor grote taalmodellen. Onze code is beschikbaar op https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization
requires only a single unlabeled data and 10 steps optimization to achieve
performance improvements comparable to or even greater than those obtained
using thousands of data and carefully designed rewards in rule-based
reinforcement learning. This striking result may prompt a rethinking of
post-training paradigms for large language models. Our code is avaliable at
https://github.com/zitian-gao/one-shot-em.