La maggioranza non ha sempre ragione: addestramento RL per l'aggregazione di soluzioni

Abstract

L'aumento della potenza di calcolo durante il test, generando più soluzioni indipendenti e selezionando o aggregando tra di esse, è diventato un paradigma centrale per migliorare i grandi modelli linguistici (LLM) su compiti di ragionamento complessi. Mentre la maggior parte del lavoro precedente si basa su semplici votazioni a maggioranza o classificazioni tramite modelli di ricompensa per aggregare le soluzioni, questi approcci possono offrire solo benefici limitati. In questo lavoro, proponiamo di apprendere l'aggregazione come una capacità di ragionamento esplicita: dato un insieme di soluzioni candidate, addestriamo un modello aggregatore a rivedere, riconciliare e sintetizzare una risposta finale corretta utilizzando l'apprendimento per rinforzo con ricompense verificabili. Un elemento chiave è il bilanciamento accurato di esempi di addestramento facili e difficili, consentendo al modello di imparare sia a recuperare risposte corrette ma minoritarie sia risposte corrette di maggioranza. Empiricamente, scopriamo che il nostro metodo, AggLM, supera sia baseline basate su regole che modelli di ricompensa, su più benchmark. Inoltre, generalizza efficacemente a soluzioni provenienti da modelli diversi, inclusi modelli più potenti di quelli presenti nei dati di addestramento, richiedendo sostanzialmente meno token rispetto al voto a maggioranza con un numero maggiore di soluzioni.

English

Scaling up test-time compute, by generating multiple independent solutions and selecting or aggregating among them, has become a central paradigm for improving large language models (LLMs) on challenging reasoning tasks. While most prior work relies on simple majority voting or reward model ranking to aggregate solutions, these approaches may only yield limited benefits. In this work, we propose to learn aggregation as an explicit reasoning skill: given a set of candidate solutions, we train an aggregator model to review, reconcile, and synthesize a final, correct answer using reinforcement learning from verifiable rewards. A key ingredient is careful balancing of easy and hard training examples, allowing the model to learn both to recover minority-but-correct answers as well as easy majority-correct answers. Empirically, we find our method, AggLM, outperforms both strong rule-based and reward-model baselines, across multiple benchmarks. Furthermore, it generalizes effectively to solutions from differing models, including stronger ones than contained in the training data, all while requiring substantially fewer tokens than majority voting with larger numbers of solutions.

La maggioranza non ha sempre ragione: addestramento RL per l'aggregazione di soluzioni

The Majority is not always right: RL training for solution aggregation

Abstract

Support