ChatPaper.aiChatPaper

ScoreFlow: Овладение рабочими процессами агента LLM через оптимизацию предпочтений на основе оценки.

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

February 6, 2025
Авторы: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI

Аннотация

В недавних исследованиях использовались многоагентные системы на основе крупных языковых моделей для решения сложных задач с целью снижения ручного труда, необходимого для их создания, что способствует развитию методов оптимизации рабочего процесса автоматизированных агентов. Однако существующие методы остаются негибкими из-за ограничений в представлении, недостаточной адаптивности и плохой масштабируемости при использовании дискретных методов оптимизации. Мы решаем эти проблемы с помощью ScoreFlow, простой, но высокопроизводительной платформы, которая использует эффективную оптимизацию на основе градиентов в непрерывном пространстве. ScoreFlow включает в себя Score-DPO, новую вариацию метода прямой оптимизации предпочтений, которая учитывает количественную обратную связь. На шести тестовых задачах, охватывающих вопросно-ответные системы, программирование и математическое рассуждение, ScoreFlow показывает улучшение на 8,2% по сравнению с существующими базовыми уровнями. Более того, он позволяет более маленьким моделям превзойти более крупные с более низкими затратами на вывод. Проект: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

Summary

AI-Generated Summary

PDF192February 7, 2025