ChatPaper.aiChatPaper

Eénschots Entropie Minimalisatie

One-shot Entropy Minimization

May 26, 2025
Auteurs: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI

Samenvatting

We trainden 13.440 grote taalmodellen en ontdekten dat entropieminimalisatie slechts één ongelabeld datapunt en 10 optimalisatiestappen vereist om prestatieverbeteringen te bereiken die vergelijkbaar zijn met of zelfs groter dan die verkregen met duizenden datapunten en zorgvuldig ontworpen beloningen in regelgebaseerde reinforcement learning. Dit opvallende resultaat kan aanleiding geven tot een herziening van post-trainingsparadigma's voor grote taalmodellen. Onze code is beschikbaar op https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.
PDF62May 30, 2025