Branch-Solve-Merge Améliore l'Évaluation et la Génération des Modèles de Langue à Grande Échelle
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation
October 23, 2023
Auteurs: Swarnadeep Saha, Omer Levy, Asli Celikyilmaz, Mohit Bansal, Jason Weston, Xian Li
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) sont fréquemment utilisés pour des tâches complexes de génération et d'évaluation de langage, impliquant la satisfaction de contraintes utilisateur complexes ou la prise en compte de multiples aspects et critères. Cependant, leurs performances peuvent être insuffisantes, en raison du manque de cohérence du modèle et de son incapacité à planifier et à décomposer le problème. Nous proposons Branch-Solve-Merge (BSM), un programme de modèle de langage de grande taille (Schlag et al., 2023) pour aborder de telles tâches de langage naturel complexes. Il se compose de modules de branchement, de résolution et de fusion, paramétrés avec des prompts spécifiques pour le LLM de base. Ces trois modules planifient une décomposition de la tâche en plusieurs sous-tâches parallèles, les résolvent indépendamment, et fusionnent les solutions des sous-tâches. Nous appliquons notre méthode aux tâches d'évaluation de réponses de LLM et de génération de texte contraint, et évaluons son efficacité avec plusieurs LLMs, dont Vicuna, LLaMA-2-chat et GPT-4. BSM améliore la justesse et la cohérence de l'évaluation pour chaque LLM en augmentant l'accord humain-LLM jusqu'à 26%, en réduisant les biais de longueur et de position par paire jusqu'à 50%, et en permettant à LLaMA-2-chat de rivaliser ou de surpasser GPT-4 dans la plupart des domaines. Sur la tâche de génération d'histoire avec contraintes, BSM améliore la cohérence des histoires tout en augmentant la satisfaction des contraintes de 12%.
English
Large Language Models (LLMs) are frequently used for multi-faceted language
generation and evaluation tasks that involve satisfying intricate user
constraints or taking into account multiple aspects and criteria. However,
their performance can fall short, due to the model's lack of coherence and
inability to plan and decompose the problem. We propose Branch-Solve-Merge
(BSM), a Large Language Model program (Schlag et al., 2023) for tackling such
challenging natural language tasks. It consists of branch, solve, and merge
modules that are parameterized with specific prompts to the base LLM. These
three modules plan a decomposition of the task into multiple parallel
sub-tasks, independently solve them, and fuse the solutions to the sub-tasks.
We apply our method to the tasks of LLM response evaluation and constrained
text generation and evaluate its effectiveness with multiple LLMs, including
Vicuna, LLaMA-2-chat, and GPT-4. BSM improves the evaluation correctness and
consistency for each LLM by enhancing human-LLM agreement by up to 26%,
reducing length and pairwise position biases by up to 50%, and allowing
LLaMA-2-chat to match or outperform GPT-4 on most domains. On the constraint
story generation task, BSM improves the coherence of the stories while also
improving constraint satisfaction by 12%.Summary
AI-Generated Summary