Branch-Solve-Merge Migliora la Valutazione e la Generazione nei Modelli Linguistici di Grande Scala

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono frequentemente utilizzati per compiti di generazione e valutazione del linguaggio multifaccettati che implicano il soddisfacimento di vincoli complessi dell'utente o la considerazione di molteplici aspetti e criteri. Tuttavia, le loro prestazioni possono risultare insufficienti a causa della mancanza di coerenza del modello e dell'incapacità di pianificare e scomporre il problema. Proponiamo Branch-Solve-Merge (BSM), un programma per LLM (Schlag et al., 2023) progettato per affrontare tali compiti linguistici complessi. Esso è composto da moduli di branch, solve e merge parametrizzati con prompt specifici per il LLM di base. Questi tre moduli pianificano una scomposizione del compito in più sotto-compiti paralleli, li risolvono in modo indipendente e fondono le soluzioni dei sotto-compiti. Applichiamo il nostro metodo ai compiti di valutazione delle risposte degli LLM e di generazione di testo vincolato, valutandone l'efficacia con più LLM, tra cui Vicuna, LLaMA-2-chat e GPT-4. BSM migliora la correttezza e la coerenza della valutazione per ciascun LLM, aumentando l'accordo umano-LLM fino al 26%, riducendo i bias di lunghezza e posizione reciproca fino al 50% e permettendo a LLaMA-2-chat di eguagliare o superare GPT-4 nella maggior parte dei domini. Nel compito di generazione di storie vincolate, BSM migliora la coerenza delle storie aumentando anche la soddisfazione dei vincoli del 12%.

English

Large Language Models (LLMs) are frequently used for multi-faceted language generation and evaluation tasks that involve satisfying intricate user constraints or taking into account multiple aspects and criteria. However, their performance can fall short, due to the model's lack of coherence and inability to plan and decompose the problem. We propose Branch-Solve-Merge (BSM), a Large Language Model program (Schlag et al., 2023) for tackling such challenging natural language tasks. It consists of branch, solve, and merge modules that are parameterized with specific prompts to the base LLM. These three modules plan a decomposition of the task into multiple parallel sub-tasks, independently solve them, and fuse the solutions to the sub-tasks. We apply our method to the tasks of LLM response evaluation and constrained text generation and evaluate its effectiveness with multiple LLMs, including Vicuna, LLaMA-2-chat, and GPT-4. BSM improves the evaluation correctness and consistency for each LLM by enhancing human-LLM agreement by up to 26%, reducing length and pairwise position biases by up to 50%, and allowing LLaMA-2-chat to match or outperform GPT-4 on most domains. On the constraint story generation task, BSM improves the coherence of the stories while also improving constraint satisfaction by 12%.

Branch-Solve-Merge Migliora la Valutazione e la Generazione nei Modelli Linguistici di Grande Scala

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Abstract

Support