ScoreFlow: Het beheersen van LLM-agentworkflows via score-gebaseerde voorkeursoptimalisatie
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization
February 6, 2025
Auteurs: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI
Samenvatting
Recent onderzoek heeft grote taalmodel multi-agent systemen ingezet voor complex probleemoplossing, terwijl geprobeerd wordt de handmatige inspanning die nodig is om ze te bouwen te verminderen, wat de ontwikkeling van geautomatiseerde agent workflow optimalisatiemethoden stimuleert. Bestaande methoden blijven echter inflexibel vanwege representatiebeperkingen, een gebrek aan aanpasbaarheid en slechte schaalbaarheid bij het vertrouwen op discrete optimalisatietechnieken. We pakken deze uitdagingen aan met ScoreFlow, een eenvoudig maar hoogwaardig framework dat efficiënte op gradienten gebaseerde optimalisatie in een continue ruimte benut. ScoreFlow omvat Score-DPO, een nieuwe variant van de directe voorkeurs optimalisatiemethode die rekening houdt met kwantitatieve feedback. Over zes benchmarks die vraagbeantwoording, codering en wiskundig redeneren omvatten, behaalt ScoreFlow een verbetering van 8,2% ten opzichte van bestaande baselines. Bovendien stelt het kleinere modellen in staat om grotere modellen te overtreffen met lagere inferentiekosten. Project: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for
complex problem-solving while trying to reduce the manual effort required to
build them, driving the development of automated agent workflow optimization
methods. However, existing methods remain inflexible due to representational
limitations, a lack of adaptability, and poor scalability when relying on
discrete optimization techniques. We address these challenges with ScoreFlow, a
simple yet high-performance framework that leverages efficient gradient-based
optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel
variant of the direct preference optimization method that accounts for
quantitative feedback. Across six benchmarks spanning question answering,
coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over
existing baselines. Moreover, it empowers smaller models to outperform larger
ones with lower inference costs. Project:
https://github.com/Gen-Verse/ScoreFlowSummary
AI-Generated Summary