Eénschots Entropie Minimalisatie

Samenvatting

We trainden 13.440 grote taalmodellen en ontdekten dat entropieminimalisatie slechts één ongelabeld datapunt en 10 optimalisatiestappen vereist om prestatieverbeteringen te bereiken die vergelijkbaar zijn met of zelfs groter dan die verkregen met duizenden datapunten en zorgvuldig ontworpen beloningen in regelgebaseerde reinforcement learning. Dit opvallende resultaat kan aanleiding geven tot een herziening van post-trainingsparadigma's voor grote taalmodellen. Onze code is beschikbaar op https://github.com/zitian-gao/one-shot-em.

English

We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.

Eénschots Entropie Minimalisatie

One-shot Entropy Minimization

Samenvatting

Support