ChatPaper.aiChatPaper

ScoreFlow: Het beheersen van LLM-agentworkflows via score-gebaseerde voorkeursoptimalisatie

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

February 6, 2025
Auteurs: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI

Samenvatting

Recent onderzoek heeft grote taalmodel multi-agent systemen ingezet voor complex probleemoplossing, terwijl geprobeerd wordt de handmatige inspanning die nodig is om ze te bouwen te verminderen, wat de ontwikkeling van geautomatiseerde agent workflow optimalisatiemethoden stimuleert. Bestaande methoden blijven echter inflexibel vanwege representatiebeperkingen, een gebrek aan aanpasbaarheid en slechte schaalbaarheid bij het vertrouwen op discrete optimalisatietechnieken. We pakken deze uitdagingen aan met ScoreFlow, een eenvoudig maar hoogwaardig framework dat efficiënte op gradienten gebaseerde optimalisatie in een continue ruimte benut. ScoreFlow omvat Score-DPO, een nieuwe variant van de directe voorkeurs optimalisatiemethode die rekening houdt met kwantitatieve feedback. Over zes benchmarks die vraagbeantwoording, codering en wiskundig redeneren omvatten, behaalt ScoreFlow een verbetering van 8,2% ten opzichte van bestaande baselines. Bovendien stelt het kleinere modellen in staat om grotere modellen te overtreffen met lagere inferentiekosten. Project: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

Summary

AI-Generated Summary

PDF192February 7, 2025