DiaTool-DPO: Multi-Turn Direct Preference Optimization für werkzeuggestützte große Sprachmodelle
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
April 2, 2025
Autoren: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI
Zusammenfassung
Tool-Augmented Large Language Models (TA-LLMs) haben vielversprechende Ergebnisse in realen Anwendungen gezeigt, stehen jedoch vor Herausforderungen bei der Verarbeitung unvollständiger Anfragen und außerhalb des Anwendungsbereichs liegender Anfragen. Während bestehende Ansätze hauptsächlich auf Supervised Fine-Tuning mit Experten-Trajektorien setzen, schlagen wir DiaTool-DPO vor, eine neuartige Methode, die die Dialogfähigkeiten von TA-LLMs durch Direct Preference Optimization verbessert. Wir modellieren die Interaktionen von TA-LLMs als Markov-Entscheidungsprozess mit 5 verschiedenen Dialogzuständen und kategorisieren Benutzeranfragen in 3 Typen basierend auf ihren Zustandsübergangstrajektorien. Wir konstruieren automatisch gepaarte Trajektorien-Datensätze von korrekten und inkorrekten Dialogabläufen und führen einen spezialisierten Zielfunktionsverlust für die Dialogsteuerung ein. Unsere umfassende Auswertung zeigt, dass DiaTool-DPO die Leistung von GPT-4o annähernd erreicht (94,8 % bei der Informationssammlung, 91 % bei der Ablehnung von Werkzeugaufrufen) und dabei erhebliche Verbesserungen gegenüber der Baseline (44 % bzw. 9,6 %) erzielt, während die Kernfunktionalität erhalten bleibt. Unser Ansatz eröffnet neue Möglichkeiten für die Entwicklung von TA-LLMs, die diverse reale Szenarien bewältigen können, ohne zusätzliche Experten-Demonstrationen oder menschliche Kennzeichnung zu erfordern.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in
real-world applications, but face challenges in handling incomplete queries and
out-of-scope requests. While existing approaches rely mainly on Supervised
Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method
that enhances TA-LLM's dialogue capabilities through Direct Preference
Optimization. We model TA-LLM interactions as a Markov Decision Process with 5
distinct dialogue states and categorize user queries into 3 types based on
their state transition trajectories. We automatically construct paired
trajectory datasets of correct and incorrect dialogue flows and introduce a
specialized objective loss for dialogue control. Our comprehensive evaluation
demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in
information gathering, 91% in tool call rejection) with substantial
improvements over baseline (44% and 9.6% respectively) while maintaining core
functionality. Our approach opens new possibilities for developing TA-LLMs that
can handle diverse real-world scenarios without requiring additional expert
demonstrations or human labeling.Summary
AI-Generated Summary