La maggioranza non ha sempre ragione: addestramento RL per l'aggregazione di soluzioni
The Majority is not always right: RL training for solution aggregation
September 8, 2025
Autori: Wenting Zhao, Pranjal Aggarwal, Swarnadeep Saha, Asli Celikyilmaz, Jason Weston, Ilia Kulikov
cs.AI
Abstract
L'aumento della potenza di calcolo durante il test, generando più soluzioni indipendenti e selezionando o aggregando tra di esse, è diventato un paradigma centrale per migliorare i grandi modelli linguistici (LLM) su compiti di ragionamento complessi. Mentre la maggior parte del lavoro precedente si basa su semplici votazioni a maggioranza o classificazioni tramite modelli di ricompensa per aggregare le soluzioni, questi approcci possono offrire solo benefici limitati. In questo lavoro, proponiamo di apprendere l'aggregazione come una capacità di ragionamento esplicita: dato un insieme di soluzioni candidate, addestriamo un modello aggregatore a rivedere, riconciliare e sintetizzare una risposta finale corretta utilizzando l'apprendimento per rinforzo con ricompense verificabili. Un elemento chiave è il bilanciamento accurato di esempi di addestramento facili e difficili, consentendo al modello di imparare sia a recuperare risposte corrette ma minoritarie sia risposte corrette di maggioranza. Empiricamente, scopriamo che il nostro metodo, AggLM, supera sia baseline basate su regole che modelli di ricompensa, su più benchmark. Inoltre, generalizza efficacemente a soluzioni provenienti da modelli diversi, inclusi modelli più potenti di quelli presenti nei dati di addestramento, richiedendo sostanzialmente meno token rispetto al voto a maggioranza con un numero maggiore di soluzioni.
English
Scaling up test-time compute, by generating multiple independent solutions
and selecting or aggregating among them, has become a central paradigm for
improving large language models (LLMs) on challenging reasoning tasks. While
most prior work relies on simple majority voting or reward model ranking to
aggregate solutions, these approaches may only yield limited benefits. In this
work, we propose to learn aggregation as an explicit reasoning skill: given a
set of candidate solutions, we train an aggregator model to review, reconcile,
and synthesize a final, correct answer using reinforcement learning from
verifiable rewards. A key ingredient is careful balancing of easy and hard
training examples, allowing the model to learn both to recover
minority-but-correct answers as well as easy majority-correct answers.
Empirically, we find our method, AggLM, outperforms both strong rule-based and
reward-model baselines, across multiple benchmarks. Furthermore, it generalizes
effectively to solutions from differing models, including stronger ones than
contained in the training data, all while requiring substantially fewer tokens
than majority voting with larger numbers of solutions.