ScoreFlow: Овладение рабочими процессами агента LLM через оптимизацию предпочтений на основе оценки.
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization
February 6, 2025
Авторы: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI
Аннотация
В недавних исследованиях использовались многоагентные системы на основе крупных языковых моделей для решения сложных задач с целью снижения ручного труда, необходимого для их создания, что способствует развитию методов оптимизации рабочего процесса автоматизированных агентов. Однако существующие методы остаются негибкими из-за ограничений в представлении, недостаточной адаптивности и плохой масштабируемости при использовании дискретных методов оптимизации. Мы решаем эти проблемы с помощью ScoreFlow, простой, но высокопроизводительной платформы, которая использует эффективную оптимизацию на основе градиентов в непрерывном пространстве. ScoreFlow включает в себя Score-DPO, новую вариацию метода прямой оптимизации предпочтений, которая учитывает количественную обратную связь. На шести тестовых задачах, охватывающих вопросно-ответные системы, программирование и математическое рассуждение, ScoreFlow показывает улучшение на 8,2% по сравнению с существующими базовыми уровнями. Более того, он позволяет более маленьким моделям превзойти более крупные с более низкими затратами на вывод. Проект: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for
complex problem-solving while trying to reduce the manual effort required to
build them, driving the development of automated agent workflow optimization
methods. However, existing methods remain inflexible due to representational
limitations, a lack of adaptability, and poor scalability when relying on
discrete optimization techniques. We address these challenges with ScoreFlow, a
simple yet high-performance framework that leverages efficient gradient-based
optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel
variant of the direct preference optimization method that accounts for
quantitative feedback. Across six benchmarks spanning question answering,
coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over
existing baselines. Moreover, it empowers smaller models to outperform larger
ones with lower inference costs. Project:
https://github.com/Gen-Verse/ScoreFlowSummary
AI-Generated Summary