ChatPaper.aiChatPaper

Branch-Solve-Merge는 대규모 언어 모델의 평가와 생성을 향상시킵니다

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

October 23, 2023
저자: Swarnadeep Saha, Omer Levy, Asli Celikyilmaz, Mohit Bansal, Jason Weston, Xian Li
cs.AI

초록

대형 언어 모델(LLM)은 복잡한 사용자 제약 조건을 충족하거나 여러 측면과 기준을 고려해야 하는 다면적 언어 생성 및 평가 작업에 자주 사용됩니다. 그러나 이러한 모델은 일관성이 부족하고 문제를 계획하고 분해하는 능력이 부족하여 성능이 떨어질 수 있습니다. 우리는 이러한 도전적인 자연어 작업을 해결하기 위해 대형 언어 모델 프로그램인 Branch-Solve-Merge(BSM)를 제안합니다(Schlag et al., 2023). BSM은 기본 LLM에 특정 프롬프트로 매개변수화된 branch, solve, merge 모듈로 구성됩니다. 이 세 모듈은 작업을 여러 병렬 하위 작업으로 분해하고, 이를 독립적으로 해결하며, 하위 작업의 해결책을 통합합니다. 우리는 이 방법을 LLM 응답 평가 및 제약 조건이 있는 텍스트 생성 작업에 적용하고, Vicuna, LLaMA-2-chat, GPT-4을 포함한 여러 LLM을 사용하여 그 효과를 평가했습니다. BSM은 인간-LLM 일치도를 최대 26% 향상시키고, 길이 및 쌍별 위치 편향을 최대 50% 감소시켜 각 LLM의 평가 정확성과 일관성을 개선하며, LLaMA-2-chat이 대부분의 도메인에서 GPT-4과 동등하거나 더 나은 성능을 보이도록 합니다. 제약 조건이 있는 스토리 생성 작업에서 BSM은 스토리의 일관성을 개선하면서 제약 조건 충족률도 12% 향상시킵니다.
English
Large Language Models (LLMs) are frequently used for multi-faceted language generation and evaluation tasks that involve satisfying intricate user constraints or taking into account multiple aspects and criteria. However, their performance can fall short, due to the model's lack of coherence and inability to plan and decompose the problem. We propose Branch-Solve-Merge (BSM), a Large Language Model program (Schlag et al., 2023) for tackling such challenging natural language tasks. It consists of branch, solve, and merge modules that are parameterized with specific prompts to the base LLM. These three modules plan a decomposition of the task into multiple parallel sub-tasks, independently solve them, and fuse the solutions to the sub-tasks. We apply our method to the tasks of LLM response evaluation and constrained text generation and evaluate its effectiveness with multiple LLMs, including Vicuna, LLaMA-2-chat, and GPT-4. BSM improves the evaluation correctness and consistency for each LLM by enhancing human-LLM agreement by up to 26%, reducing length and pairwise position biases by up to 50%, and allowing LLaMA-2-chat to match or outperform GPT-4 on most domains. On the constraint story generation task, BSM improves the coherence of the stories while also improving constraint satisfaction by 12%.

Summary

AI-Generated Summary

PDF80December 15, 2024