ScoreFlow : Maîtrise des flux de travail des agents LLM via l'optimisation des préférences basée sur les scores
ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization
February 6, 2025
Auteurs: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI
Résumé
Des recherches récentes ont exploité de grands systèmes multi-agents de modèles de langage pour la résolution de problèmes complexes tout en cherchant à réduire l'effort manuel nécessaire pour les construire, ce qui a conduit au développement de méthodes d'optimisation automatisée des flux de travail des agents. Cependant, les méthodes existantes restent rigides en raison de limitations de représentation, d'un manque d'adaptabilité et d'une faible évolutivité lorsqu'elles reposent sur des techniques d'optimisation discrètes. Nous relevons ces défis avec ScoreFlow, un cadre simple mais performant qui exploite une optimisation efficace basée sur des gradients dans un espace continu. ScoreFlow intègre Score-DPO, une nouvelle variante de la méthode d'optimisation des préférences directes qui prend en compte les retours quantitatifs. À travers six benchmarks couvrant la réponse aux questions, la programmation et le raisonnement mathématique, ScoreFlow obtient une amélioration de 8,2% par rapport aux baselines existantes. De plus, il permet à des modèles plus petits de surpasser des modèles plus grands avec des coûts d'inférence plus faibles. Projet : https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for
complex problem-solving while trying to reduce the manual effort required to
build them, driving the development of automated agent workflow optimization
methods. However, existing methods remain inflexible due to representational
limitations, a lack of adaptability, and poor scalability when relying on
discrete optimization techniques. We address these challenges with ScoreFlow, a
simple yet high-performance framework that leverages efficient gradient-based
optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel
variant of the direct preference optimization method that accounts for
quantitative feedback. Across six benchmarks spanning question answering,
coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over
existing baselines. Moreover, it empowers smaller models to outperform larger
ones with lower inference costs. Project:
https://github.com/Gen-Verse/ScoreFlowSummary
AI-Generated Summary