I grandi modelli linguistici possono auto-migliorarsi nel ragionamento a lungo contesto.Large Language Models Can Self-Improve in Long-context Reasoning
I grandi modelli linguistici (LLM) hanno ottenuto progressi sostanziali nel trattamento di contesti lunghi, ma faticano ancora con il ragionamento a lungo contesto. Gli approcci esistenti coinvolgono tipicamente il raffinamento dei LLM con dati sintetici, che dipendono da annotazioni di esperti umani o modelli avanzati come il GPT-4, limitando così ulteriori progressi. Per affrontare questo problema, esaminiamo il potenziale dei LLM di auto-migliorarsi nel ragionamento a lungo contesto e proponiamo \ours, un approccio appositamente progettato per questo scopo. Questo approccio è diretto: campioniamo più output per ogni domanda, li valutiamo con il Rischio Minimo di Bayes, e quindi applichiamo un raffinamento supervisionato o un'ottimizzazione delle preferenze basata su questi output. Estesi esperimenti su diversi principali LLM dimostrano l'efficacia di \ours, con un miglioramento assoluto di 4,2 punti per Llama-3.1-8B-Instruct. Inoltre, \ours raggiunge prestazioni superiori rispetto agli approcci precedenti che dipendono da dati prodotti da esperti umani o modelli avanzati. Prevediamo che questo lavoro aprirà nuove vie per le tecniche di auto-miglioramento in scenari a lungo contesto, essenziali per il continuo avanzamento dei LLM.