I Token Critici Contano: Stima Contrastiva a Livello di Token Migliora la Capacità di Ragionamento dei LLMCritical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's
Reasoning Capability
I Large Language Models (LLM) hanno mostrato prestazioni notevoli nei compiti di ragionamento. Utilizzano la generazione di token autoregressiva per costruire traiettorie di ragionamento, consentendo lo sviluppo di una catena coerente di pensiero. In questo lavoro, esploriamo l'impatto dei singoli token sui risultati finali dei compiti di ragionamento. Identifichiamo l'esistenza di "token critici" che portano a traiettorie di ragionamento errate nei LLM. In particolare, scopriamo che i LLM tendono a produrre risultati positivi quando sono costretti a decodificare altri token invece dei token critici. Motivati da questa osservazione, proponiamo un approccio innovativo - cDPO - progettato per riconoscere automaticamente e condurre ricompense a livello di token per i token critici durante il processo di allineamento. In particolare, sviluppiamo un approccio di stima contrastiva per identificare automaticamente i token critici. Ciò è ottenuto confrontando la probabilità di generazione di modelli positivi e negativi. Per raggiungere questo obiettivo, sintonizziamo separatamente i modelli positivi e negativi su varie traiettorie di ragionamento, consentendo loro di identificare i token critici all'interno delle traiettorie errate che contribuiscono a risultati errati. Inoltre, per allineare ulteriormente il modello con le informazioni sui token critici durante il processo di allineamento, estendiamo gli algoritmi DPO convenzionali a livello di token DPO e utilizziamo la probabilità differenziale dai suddetti modelli positivi e negativi come peso importante per l'apprendimento a livello di token DPO. I risultati sperimentali sui benchmark GSM8K e MATH500 con due modelli ampiamente utilizzati, Llama-3 (8B e 70B) e deepseek-math (7B), dimostrano l'efficacia dell'approccio proposto cDPO.