DiaTool-DPO : Optimisation Directe des Préférences Multi-Tours pour les Modèles de Langage à Grande Échelle Augmentés par des Outils
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
April 2, 2025
Auteurs: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI
Résumé
Les modèles de langage augmentés par outils (TA-LLMs) ont montré des résultats prometteurs dans des applications réelles, mais rencontrent des difficultés à gérer les requêtes incomplètes et les demandes hors du champ d'application. Alors que les approches existantes reposent principalement sur un ajustement fin supervisé avec des trajectoires expertes, nous proposons DiaTool-DPO, une méthode novatrice qui améliore les capacités de dialogue des TA-LLMs grâce à l'optimisation directe des préférences. Nous modélisons les interactions des TA-LLMs comme un processus de décision markovien avec 5 états de dialogue distincts et classons les requêtes utilisateurs en 3 types en fonction de leurs trajectoires de transition d'état. Nous construisons automatiquement des ensembles de données de trajectoires appariées de flux de dialogue corrects et incorrects et introduisons une fonction de perte spécialisée pour le contrôle du dialogue. Notre évaluation approfondie démontre que DiaTool-DPO approche les performances de GPT-4o (94,8 % en collecte d'informations, 91 % en rejet d'appels d'outils) avec des améliorations substantielles par rapport à la ligne de base (44 % et 9,6 % respectivement) tout en maintenant les fonctionnalités principales. Notre approche ouvre de nouvelles possibilités pour développer des TA-LLMs capables de gérer divers scénarios réels sans nécessiter de démonstrations expertes supplémentaires ou d'étiquetage humain.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in
real-world applications, but face challenges in handling incomplete queries and
out-of-scope requests. While existing approaches rely mainly on Supervised
Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method
that enhances TA-LLM's dialogue capabilities through Direct Preference
Optimization. We model TA-LLM interactions as a Markov Decision Process with 5
distinct dialogue states and categorize user queries into 3 types based on
their state transition trajectories. We automatically construct paired
trajectory datasets of correct and incorrect dialogue flows and introduce a
specialized objective loss for dialogue control. Our comprehensive evaluation
demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in
information gathering, 91% in tool call rejection) with substantial
improvements over baseline (44% and 9.6% respectively) while maintaining core
functionality. Our approach opens new possibilities for developing TA-LLMs that
can handle diverse real-world scenarios without requiring additional expert
demonstrations or human labeling.Summary
AI-Generated Summary