ChatPaper.aiChatPaper

ScoreFlow: Beherrschung von LLM-Agenten-Workflows durch scorebasierte Präferenzoptimierung

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

February 6, 2025
Autoren: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI

Zusammenfassung

In jüngsten Forschungsarbeiten wurden große Sprachmodell-Multi-Agenten-Systeme für komplexe Problemlösungen eingesetzt, um den manuellen Aufwand bei ihrer Entwicklung zu reduzieren und die Entwicklung automatisierter Agenten-Workflow-Optimierungsmethoden voranzutreiben. Allerdings bleiben bestehende Methoden aufgrund von Darstellungsbeschränkungen, mangelnder Anpassungsfähigkeit und schlechter Skalierbarkeit bei Verwendung diskreter Optimierungstechniken unflexibel. Diese Herausforderungen werden mit ScoreFlow angegangen, einem einfachen, aber leistungsstarken Framework, das effiziente gradientenbasierte Optimierung in einem kontinuierlichen Raum nutzt. ScoreFlow integriert Score-DPO, eine neuartige Variante der direkten Präferenzoptimierungsmethode, die quantitative Rückmeldungen berücksichtigt. Über sechs Benchmarks, die Fragestellungen, Codierung und mathematisches Denken umfassen, erzielt ScoreFlow eine Verbesserung von 8,2% gegenüber bestehenden Ausgangswerten. Darüber hinaus ermöglicht es kleineren Modellen, größere Modelle mit geringeren Inferenzkosten zu übertreffen. Projekt: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

Summary

AI-Generated Summary

PDF192February 7, 2025