La majorité n'a pas toujours raison : apprentissage par renforcement pour l'agrégation de solutions

papers.abstract

L'augmentation des ressources de calcul lors des tests, en générant plusieurs solutions indépendantes et en les sélectionnant ou en les agrégeant, est devenue un paradigme central pour améliorer les modèles de langage de grande taille (LLM) sur des tâches de raisonnement complexes. Bien que la plupart des travaux antérieurs reposent sur un vote majoritaire simple ou un classement par modèle de récompense pour agréger les solutions, ces approches peuvent n'offrir que des avantages limités. Dans ce travail, nous proposons d'apprendre l'agrégation comme une compétence de raisonnement explicite : étant donné un ensemble de solutions candidates, nous entraînons un modèle d'agrégation à examiner, concilier et synthétiser une réponse finale et correcte en utilisant l'apprentissage par renforcement à partir de récompenses vérifiables. Un élément clé est l'équilibrage minutieux entre des exemples d'entraînement faciles et difficiles, permettant au modèle d'apprendre à la fois à récupérer des réponses minoritaires mais correctes ainsi que des réponses majoritaires faciles. Empiriquement, nous constatons que notre méthode, AggLM, surpasse à la fois les bases de référence basées sur des règles et les modèles de récompense, sur plusieurs benchmarks. De plus, elle généralise efficacement aux solutions provenant de modèles différents, y compris des modèles plus performants que ceux contenus dans les données d'entraînement, tout en nécessitant nettement moins de tokens qu'un vote majoritaire avec un plus grand nombre de solutions.

English

Scaling up test-time compute, by generating multiple independent solutions and selecting or aggregating among them, has become a central paradigm for improving large language models (LLMs) on challenging reasoning tasks. While most prior work relies on simple majority voting or reward model ranking to aggregate solutions, these approaches may only yield limited benefits. In this work, we propose to learn aggregation as an explicit reasoning skill: given a set of candidate solutions, we train an aggregator model to review, reconcile, and synthesize a final, correct answer using reinforcement learning from verifiable rewards. A key ingredient is careful balancing of easy and hard training examples, allowing the model to learn both to recover minority-but-correct answers as well as easy majority-correct answers. Empirically, we find our method, AggLM, outperforms both strong rule-based and reward-model baselines, across multiple benchmarks. Furthermore, it generalizes effectively to solutions from differing models, including stronger ones than contained in the training data, all while requiring substantially fewer tokens than majority voting with larger numbers of solutions.

La majorité n'a pas toujours raison : apprentissage par renforcement pour l'agrégation de solutions

The Majority is not always right: RL training for solution aggregation

papers.abstract

Support