La majorité n'a pas toujours raison : apprentissage par renforcement pour l'agrégation de solutions
The Majority is not always right: RL training for solution aggregation
September 8, 2025
papers.authors: Wenting Zhao, Pranjal Aggarwal, Swarnadeep Saha, Asli Celikyilmaz, Jason Weston, Ilia Kulikov
cs.AI
papers.abstract
L'augmentation des ressources de calcul lors des tests, en générant plusieurs solutions indépendantes et en les sélectionnant ou en les agrégeant, est devenue un paradigme central pour améliorer les modèles de langage de grande taille (LLM) sur des tâches de raisonnement complexes. Bien que la plupart des travaux antérieurs reposent sur un vote majoritaire simple ou un classement par modèle de récompense pour agréger les solutions, ces approches peuvent n'offrir que des avantages limités. Dans ce travail, nous proposons d'apprendre l'agrégation comme une compétence de raisonnement explicite : étant donné un ensemble de solutions candidates, nous entraînons un modèle d'agrégation à examiner, concilier et synthétiser une réponse finale et correcte en utilisant l'apprentissage par renforcement à partir de récompenses vérifiables. Un élément clé est l'équilibrage minutieux entre des exemples d'entraînement faciles et difficiles, permettant au modèle d'apprendre à la fois à récupérer des réponses minoritaires mais correctes ainsi que des réponses majoritaires faciles. Empiriquement, nous constatons que notre méthode, AggLM, surpasse à la fois les bases de référence basées sur des règles et les modèles de récompense, sur plusieurs benchmarks. De plus, elle généralise efficacement aux solutions provenant de modèles différents, y compris des modèles plus performants que ceux contenus dans les données d'entraînement, tout en nécessitant nettement moins de tokens qu'un vote majoritaire avec un plus grand nombre de solutions.
English
Scaling up test-time compute, by generating multiple independent solutions
and selecting or aggregating among them, has become a central paradigm for
improving large language models (LLMs) on challenging reasoning tasks. While
most prior work relies on simple majority voting or reward model ranking to
aggregate solutions, these approaches may only yield limited benefits. In this
work, we propose to learn aggregation as an explicit reasoning skill: given a
set of candidate solutions, we train an aggregator model to review, reconcile,
and synthesize a final, correct answer using reinforcement learning from
verifiable rewards. A key ingredient is careful balancing of easy and hard
training examples, allowing the model to learn both to recover
minority-but-correct answers as well as easy majority-correct answers.
Empirically, we find our method, AggLM, outperforms both strong rule-based and
reward-model baselines, across multiple benchmarks. Furthermore, it generalizes
effectively to solutions from differing models, including stronger ones than
contained in the training data, all while requiring substantially fewer tokens
than majority voting with larger numbers of solutions.