ChatPaper.aiChatPaper

ScoreFlow: Dominando los Flujos de Trabajo del Agente LLM a través de la Optimización de Preferencias basada en Puntuaciones

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

February 6, 2025
Autores: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI

Resumen

Investigaciones recientes han aprovechado sistemas multiagente de grandes modelos de lenguaje para resolver problemas complejos, al mismo tiempo que intentan reducir el esfuerzo manual requerido para construirlos, impulsando el desarrollo de métodos de optimización de flujos de trabajo de agentes automatizados. Sin embargo, los métodos existentes siguen siendo inflexibles debido a limitaciones representacionales, falta de adaptabilidad y escasa escalabilidad al depender de técnicas de optimización discreta. Abordamos estos desafíos con ScoreFlow, un marco simple pero de alto rendimiento que aprovecha una optimización eficiente basada en gradientes en un espacio continuo. ScoreFlow incorpora Score-DPO, una nueva variante del método de optimización de preferencias directas que tiene en cuenta la retroalimentación cuantitativa. A lo largo de seis pruebas que abarcan desde respuestas a preguntas, codificación y razonamiento matemático, ScoreFlow logra una mejora del 8.2% sobre los puntos de referencia existentes. Además, permite que modelos más pequeños superen a los más grandes con costos de inferencia más bajos. Proyecto: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

Summary

AI-Generated Summary

PDF192February 7, 2025