ChatPaper.aiChatPaper

Minimizzazione dell'Entropia One-shot

One-shot Entropy Minimization

May 26, 2025
Autori: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai
cs.AI

Abstract

Abbiamo addestrato 13.440 modelli linguistici di grandi dimensioni e abbiamo scoperto che la minimizzazione dell'entropia richiede solo un singolo dato non etichettato e 10 passi di ottimizzazione per ottenere miglioramenti delle prestazioni paragonabili o addirittura superiori a quelli ottenuti utilizzando migliaia di dati e ricompense progettate con cura nell'apprendimento per rinforzo basato su regole. Questo risultato sorprendente potrebbe portare a una revisione dei paradigmi di post-addestramento per i modelli linguistici di grandi dimensioni. Il nostro codice è disponibile all'indirizzo https://github.com/zitian-gao/one-shot-em.
English
We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.
PDF72May 30, 2025