ChatPaper.aiChatPaper

Branch-Solve-Merge verbessert die Evaluierung und Generierung von großen Sprachmodellen

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

October 23, 2023
Autoren: Swarnadeep Saha, Omer Levy, Asli Celikyilmaz, Mohit Bansal, Jason Weston, Xian Li
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden häufig für vielseitige Sprachgenerierungs- und Bewertungsaufgaben eingesetzt, bei denen komplexe Benutzeranforderungen erfüllt oder mehrere Aspekte und Kriterien berücksichtigt werden müssen. Ihre Leistung kann jedoch aufgrund mangelnder Kohärenz und der Unfähigkeit des Modells, das Problem zu planen und zu zerlegen, unzureichend sein. Wir schlagen Branch-Solve-Merge (BSM) vor, ein Programm für große Sprachmodelle (Schlag et al., 2023), um solche anspruchsvollen natürlichen Sprachaufgaben zu bewältigen. Es besteht aus Branch-, Solve- und Merge-Modulen, die mit spezifischen Prompts für das Basismodell parametrisiert sind. Diese drei Module planen eine Zerlegung der Aufgabe in mehrere parallele Teilaufgaben, lösen diese unabhängig voneinander und fügen die Lösungen der Teilaufgaben zusammen. Wir wenden unsere Methode auf die Aufgaben der LLM-Antwortbewertung und der eingeschränkten Textgenerierung an und bewerten ihre Wirksamkeit mit mehreren LLMs, darunter Vicuna, LLaMA-2-chat und GPT-4. BSM verbessert die Korrektheit und Konsistenz der Bewertung für jedes LLM, indem es die Übereinstimmung zwischen Mensch und LLM um bis zu 26 % erhöht, Längen- und paarweise Positionsverzerrungen um bis zu 50 % reduziert und es LLaMA-2-chat ermöglicht, GPT-4 in den meisten Domänen zu erreichen oder zu übertreffen. Bei der Aufgabe der eingeschränkten Geschichtengenerierung verbessert BSM die Kohärenz der Geschichten und steigert gleichzeitig die Einhaltung der Einschränkungen um 12 %.
English
Large Language Models (LLMs) are frequently used for multi-faceted language generation and evaluation tasks that involve satisfying intricate user constraints or taking into account multiple aspects and criteria. However, their performance can fall short, due to the model's lack of coherence and inability to plan and decompose the problem. We propose Branch-Solve-Merge (BSM), a Large Language Model program (Schlag et al., 2023) for tackling such challenging natural language tasks. It consists of branch, solve, and merge modules that are parameterized with specific prompts to the base LLM. These three modules plan a decomposition of the task into multiple parallel sub-tasks, independently solve them, and fuse the solutions to the sub-tasks. We apply our method to the tasks of LLM response evaluation and constrained text generation and evaluate its effectiveness with multiple LLMs, including Vicuna, LLaMA-2-chat, and GPT-4. BSM improves the evaluation correctness and consistency for each LLM by enhancing human-LLM agreement by up to 26%, reducing length and pairwise position biases by up to 50%, and allowing LLaMA-2-chat to match or outperform GPT-4 on most domains. On the constraint story generation task, BSM improves the coherence of the stories while also improving constraint satisfaction by 12%.

Summary

AI-Generated Summary

PDF80December 15, 2024