I Tuoi LLM sono Capacità di Ragionamento Stabile?Are Your LLMs Capable of Stable Reasoning?
Il rapido avanzamento dei Grandi Modelli Linguistici (LLM) ha dimostrato un notevole progresso nelle complesse attività di ragionamento. Tuttavia, persiste una significativa discrepanza tra le prestazioni di riferimento e le applicazioni reali. Identifichiamo questa lacuna come derivante principalmente dai protocolli di valutazione attuali e dalle metriche, che catturano in modo inadeguato l'intero spettro delle capacità dei LLM, in particolare nelle complesse attività di ragionamento dove sia l'accuratezza che la coerenza sono cruciali. Questo lavoro apporta due contributi chiave. In primo luogo, introduciamo G-Pass@k, una nuova metrica di valutazione che fornisce una valutazione continua delle prestazioni del modello attraverso molteplici tentativi di campionamento, quantificando sia il potenziale massimo di prestazioni del modello sia la sua stabilità. In secondo luogo, presentiamo LiveMathBench, un benchmark dinamico che comprende problemi matematici sfidanti e contemporanei progettati per minimizzare i rischi di fuga di dati durante la valutazione. Attraverso estesi esperimenti utilizzando G-Pass@k su LLM all'avanguardia con LiveMathBench, forniamo approfondite intuizioni sia sulle loro capacità massime che sulla coerenza operativa. Le nostre scoperte rivelano un ampio margine di miglioramento nelle capacità di ragionamento "realistiche" dei LLM, evidenziando la necessità di metodi di valutazione più robusti. Il benchmark e i risultati dettagliati sono disponibili su: https://github.com/open-compass/GPassK.