ChatPaper.aiChatPaper

ScoreFlow: Dominare i Flussi di Lavoro degli Agenti LLM tramite Ottimizzazione delle Preferenze basata su Punteggio

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

February 6, 2025
Autori: Yinjie Wang, Ling Yang, Guohao Li, Mengdi Wang, Bryon Aragam
cs.AI

Abstract

Ricerche recenti hanno sfruttato grandi modelli di linguaggio multi-agente per la risoluzione di problemi complessi cercando di ridurre lo sforzo manuale richiesto per costruirli, guidando lo sviluppo di metodi di ottimizzazione del flusso di lavoro degli agenti automatizzati. Tuttavia, i metodi esistenti rimangono rigidi a causa di limitazioni rappresentazionali, mancanza di adattabilità e scarsa scalabilità quando si basano su tecniche di ottimizzazione discreta. Affrontiamo queste sfide con ScoreFlow, un framework semplice ma ad alte prestazioni che sfrutta un'ottimizzazione efficiente basata sui gradienti in uno spazio continuo. ScoreFlow incorpora Score-DPO, una nuova variante del metodo di ottimizzazione delle preferenze dirette che tiene conto del feedback quantitativo. Attraverso sei benchmark che spaziano dalla risposta alle domande, alla codifica e al ragionamento matematico, ScoreFlow ottiene un miglioramento dell'8,2% rispetto alle baselines esistenti. Inoltre, consente a modelli più piccoli di superare quelli più grandi con costi di inferenza inferiori. Progetto: https://github.com/Gen-Verse/ScoreFlow
English
Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

Summary

AI-Generated Summary

PDF192February 7, 2025