Branch-Solve-Merge verbessert die Evaluierung und Generierung von großen Sprachmodellen
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation
October 23, 2023
Autoren: Swarnadeep Saha, Omer Levy, Asli Celikyilmaz, Mohit Bansal, Jason Weston, Xian Li
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden häufig für vielseitige Sprachgenerierungs- und Bewertungsaufgaben eingesetzt, bei denen komplexe Benutzeranforderungen erfüllt oder mehrere Aspekte und Kriterien berücksichtigt werden müssen. Ihre Leistung kann jedoch aufgrund mangelnder Kohärenz und der Unfähigkeit des Modells, das Problem zu planen und zu zerlegen, unzureichend sein. Wir schlagen Branch-Solve-Merge (BSM) vor, ein Programm für große Sprachmodelle (Schlag et al., 2023), um solche anspruchsvollen natürlichen Sprachaufgaben zu bewältigen. Es besteht aus Branch-, Solve- und Merge-Modulen, die mit spezifischen Prompts für das Basismodell parametrisiert sind. Diese drei Module planen eine Zerlegung der Aufgabe in mehrere parallele Teilaufgaben, lösen diese unabhängig voneinander und fügen die Lösungen der Teilaufgaben zusammen. Wir wenden unsere Methode auf die Aufgaben der LLM-Antwortbewertung und der eingeschränkten Textgenerierung an und bewerten ihre Wirksamkeit mit mehreren LLMs, darunter Vicuna, LLaMA-2-chat und GPT-4. BSM verbessert die Korrektheit und Konsistenz der Bewertung für jedes LLM, indem es die Übereinstimmung zwischen Mensch und LLM um bis zu 26 % erhöht, Längen- und paarweise Positionsverzerrungen um bis zu 50 % reduziert und es LLaMA-2-chat ermöglicht, GPT-4 in den meisten Domänen zu erreichen oder zu übertreffen. Bei der Aufgabe der eingeschränkten Geschichtengenerierung verbessert BSM die Kohärenz der Geschichten und steigert gleichzeitig die Einhaltung der Einschränkungen um 12 %.
English
Large Language Models (LLMs) are frequently used for multi-faceted language
generation and evaluation tasks that involve satisfying intricate user
constraints or taking into account multiple aspects and criteria. However,
their performance can fall short, due to the model's lack of coherence and
inability to plan and decompose the problem. We propose Branch-Solve-Merge
(BSM), a Large Language Model program (Schlag et al., 2023) for tackling such
challenging natural language tasks. It consists of branch, solve, and merge
modules that are parameterized with specific prompts to the base LLM. These
three modules plan a decomposition of the task into multiple parallel
sub-tasks, independently solve them, and fuse the solutions to the sub-tasks.
We apply our method to the tasks of LLM response evaluation and constrained
text generation and evaluate its effectiveness with multiple LLMs, including
Vicuna, LLaMA-2-chat, and GPT-4. BSM improves the evaluation correctness and
consistency for each LLM by enhancing human-LLM agreement by up to 26%,
reducing length and pairwise position biases by up to 50%, and allowing
LLaMA-2-chat to match or outperform GPT-4 on most domains. On the constraint
story generation task, BSM improves the coherence of the stories while also
improving constraint satisfaction by 12%.Summary
AI-Generated Summary