ScoreFlow: Dominando los Flujos de Trabajo del Agente LLM a través de la Optimización de Preferencias basada en Puntuaciones
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization
February 6, 2025
Autores: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI
Resumen
Investigaciones recientes han aprovechado sistemas multiagente de grandes modelos de lenguaje para resolver problemas complejos, al mismo tiempo que intentan reducir el esfuerzo manual requerido para construirlos, impulsando el desarrollo de métodos de optimización de flujos de trabajo de agentes automatizados. Sin embargo, los métodos existentes siguen siendo inflexibles debido a limitaciones representacionales, falta de adaptabilidad y escasa escalabilidad al depender de técnicas de optimización discreta. Abordamos estos desafíos con ScoreFlow, un marco simple pero de alto rendimiento que aprovecha una optimización eficiente basada en gradientes en un espacio continuo. ScoreFlow incorpora Score-DPO, una nueva variante del método de optimización de preferencias directas que tiene en cuenta la retroalimentación cuantitativa. A lo largo de seis pruebas que abarcan desde respuestas a preguntas, codificación y razonamiento matemático, ScoreFlow logra una mejora del 8.2% sobre los puntos de referencia existentes. Además, permite que modelos más pequeños superen a los más grandes con costos de inferencia más bajos. Proyecto: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for
complex problem-solving while trying to reduce the manual effort required to
build them, driving the development of automated agent workflow optimization
methods. However, existing methods remain inflexible due to representational
limitations, a lack of adaptability, and poor scalability when relying on
discrete optimization techniques. We address these challenges with ScoreFlow, a
simple yet high-performance framework that leverages efficient gradient-based
optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel
variant of the direct preference optimization method that accounts for
quantitative feedback. Across six benchmarks spanning question answering,
coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over
existing baselines. Moreover, it empowers smaller models to outperform larger
ones with lower inference costs. Project:
https://github.com/Gen-Verse/ScoreFlowSummary
AI-Generated Summary