ScoreFlow: Dominando Fluxos de Trabalho de Agentes LLM através da Otimização de Preferência Baseada em Pontuação
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization
February 6, 2025
Autores: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI
Resumo
Pesquisas recentes têm aproveitado sistemas multiagentes de grandes modelos de linguagem para resolver problemas complexos, ao mesmo tempo que tentam reduzir o esforço manual necessário para construí-los, impulsionando o desenvolvimento de métodos de otimização de fluxo de trabalho de agentes automatizados. No entanto, os métodos existentes permanecem inflexíveis devido a limitações de representação, falta de adaptabilidade e baixa escalabilidade ao depender de técnicas de otimização discreta. Abordamos esses desafios com o ScoreFlow, um framework simples, porém de alto desempenho, que aproveita a otimização eficiente baseada em gradientes em um espaço contínuo. O ScoreFlow incorpora o Score-DPO, uma nova variante do método de otimização de preferência direta que considera feedback quantitativo. Através de seis benchmarks abrangendo resposta a perguntas, codificação e raciocínio matemático, o ScoreFlow alcança uma melhoria de 8,2% em relação às baselines existentes. Além disso, capacita modelos menores a superar os maiores com custos de inferência mais baixos. Projeto: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for
complex problem-solving while trying to reduce the manual effort required to
build them, driving the development of automated agent workflow optimization
methods. However, existing methods remain inflexible due to representational
limitations, a lack of adaptability, and poor scalability when relying on
discrete optimization techniques. We address these challenges with ScoreFlow, a
simple yet high-performance framework that leverages efficient gradient-based
optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel
variant of the direct preference optimization method that accounts for
quantitative feedback. Across six benchmarks spanning question answering,
coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over
existing baselines. Moreover, it empowers smaller models to outperform larger
ones with lower inference costs. Project:
https://github.com/Gen-Verse/ScoreFlowSummary
AI-Generated Summary