ChatPaper.aiChatPaper

ScoreFlow : Maîtrise des flux de travail des agents LLM via l'optimisation des préférences basée sur les scores

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

February 6, 2025
Auteurs: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI

Résumé

Des recherches récentes ont exploité de grands systèmes multi-agents de modèles de langage pour la résolution de problèmes complexes tout en cherchant à réduire l'effort manuel nécessaire pour les construire, ce qui a conduit au développement de méthodes d'optimisation automatisée des flux de travail des agents. Cependant, les méthodes existantes restent rigides en raison de limitations de représentation, d'un manque d'adaptabilité et d'une faible évolutivité lorsqu'elles reposent sur des techniques d'optimisation discrètes. Nous relevons ces défis avec ScoreFlow, un cadre simple mais performant qui exploite une optimisation efficace basée sur des gradients dans un espace continu. ScoreFlow intègre Score-DPO, une nouvelle variante de la méthode d'optimisation des préférences directes qui prend en compte les retours quantitatifs. À travers six benchmarks couvrant la réponse aux questions, la programmation et le raisonnement mathématique, ScoreFlow obtient une amélioration de 8,2% par rapport aux baselines existantes. De plus, il permet à des modèles plus petits de surpasser des modèles plus grands avec des coûts d'inférence plus faibles. Projet : https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

Summary

AI-Generated Summary

PDF192February 7, 2025