ChatPaper.aiChatPaper

ScoreFlow: Dominando Fluxos de Trabalho de Agentes LLM através da Otimização de Preferência Baseada em Pontuação

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

February 6, 2025
Autores: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI

Resumo

Pesquisas recentes têm aproveitado sistemas multiagentes de grandes modelos de linguagem para resolver problemas complexos, ao mesmo tempo que tentam reduzir o esforço manual necessário para construí-los, impulsionando o desenvolvimento de métodos de otimização de fluxo de trabalho de agentes automatizados. No entanto, os métodos existentes permanecem inflexíveis devido a limitações de representação, falta de adaptabilidade e baixa escalabilidade ao depender de técnicas de otimização discreta. Abordamos esses desafios com o ScoreFlow, um framework simples, porém de alto desempenho, que aproveita a otimização eficiente baseada em gradientes em um espaço contínuo. O ScoreFlow incorpora o Score-DPO, uma nova variante do método de otimização de preferência direta que considera feedback quantitativo. Através de seis benchmarks abrangendo resposta a perguntas, codificação e raciocínio matemático, o ScoreFlow alcança uma melhoria de 8,2% em relação às baselines existentes. Além disso, capacita modelos menores a superar os maiores com custos de inferência mais baixos. Projeto: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

Summary

AI-Generated Summary

PDF192February 7, 2025