ChatPaper.aiChatPaper

LoongRL: Apprendimento per Rinforzo per il Ragionamento Avanzato su Contesti Lunghi

LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

October 22, 2025
Autori: Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang
cs.AI

Abstract

Il ragionamento su contesti lunghi è essenziale per i grandi modelli linguistici. Sebbene l'apprendimento per rinforzo (RL) migliori il ragionamento su contesti brevi inducendo momenti di "Aha" nella catena di pensiero, i modelli di pensiero avanzati necessari per il ragionamento su contesti lunghi rimangono in gran parte inesplorati, e i dati RL ad alta difficoltà sono scarsi. In questo articolo, introduciamo LoongRL, un metodo RL basato sui dati per il ragionamento avanzato su contesti lunghi. Al centro di LoongRL c'è KeyChain, un approccio di sintesi che trasforma QA multi-hop brevi in compiti ad alta difficoltà su contesti lunghi inserendo catene UUID che nascondono la vera domanda tra grandi raccolte di documenti distraenti. Risolvere questi compiti richiede che il modello segua la catena corretta passo dopo passo, identifichi la vera domanda, recuperi fatti rilevanti e ragioni su di essi per rispondere correttamente. L'addestramento RL sui dati di KeyChain induce un modello emergente di ragionamento pianifica-recupera-ragiona-ricontrolla che si generalizza ben oltre la lunghezza di addestramento. Modelli addestrati a 16K risolvono efficacemente compiti di 128K senza i costi proibitivi di un rollout RL a lunghezza completa. Su Qwen2.5-7B e 14B, LoongRL migliora sostanzialmente l'accuratezza del QA multi-hop su contesti lunghi con guadagni assoluti di +23.5% e +21.1%. Il risultante LoongRL-14B raggiunge un punteggio di 74.2, rivaleggiando con modelli di frontiera molto più grandi come o3-mini (74.5) e DeepSeek-R1 (74.9). Migliora anche il recupero su contesti lunghi, supera tutti i test di stress "ago in un pagliaio" a 128K e preserva le capacità di ragionamento su contesti brevi.
English
Reasoning over long contexts is essential for large language models. While reinforcement learning (RL) enhances short-context reasoning by inducing "Aha" moments in chain-of-thought, the advanced thinking patterns required for long-context reasoning remain largely unexplored, and high-difficulty RL data are scarce. In this paper, we introduce LoongRL, a data-driven RL method for advanced long-context reasoning. Central to LoongRL is KeyChain, a synthesis approach that transforms short multi-hop QA into high-difficulty long-context tasks by inserting UUID chains that hide the true question among large collections of distracting documents. Solving these tasks requires the model to trace the correct chain step-by-step, identify the true question, retrieve relevant facts and reason over them to answer correctly. RL training on KeyChain data induces an emergent plan-retrieve-reason-recheck reasoning pattern that generalizes far beyond training length. Models trained at 16K effectively solve 128K tasks without prohibitive full-length RL rollout costs. On Qwen2.5-7B and 14B, LoongRL substantially improves long-context multi-hop QA accuracy by +23.5% and +21.1% absolute gains. The resulting LoongRL-14B reaches a score of 74.2, rivaling much larger frontier models such as o3-mini (74.5) and DeepSeek-R1 (74.9). It also improves long-context retrieval, passes all 128K needle-in-a-haystack stress tests, and preserves short-context reasoning capabilities.
PDF351October 23, 2025