DiaTool-DPO: Optimización Directa de Preferencias para Múltiples Turnos en Modelos de Lenguaje de Gran Escala Aumentados con Herramientas
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
April 2, 2025
Autores: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala Aumentados con Herramientas (TA-LLMs, por sus siglas en inglés) han mostrado potencial en aplicaciones del mundo real, pero enfrentan desafíos al manejar consultas incompletas y solicitudes fuera de su alcance. Mientras que los enfoques existentes se basan principalmente en el Ajuste Supervisado con trayectorias expertas, proponemos DiaTool-DPO, un método novedoso que mejora las capacidades de diálogo de los TA-LLMs mediante la Optimización Directa de Preferencias. Modelamos las interacciones de los TA-LLMs como un Proceso de Decisión de Markov con 5 estados de diálogo distintos y categorizamos las consultas de los usuarios en 3 tipos según sus trayectorias de transición de estado. Construimos automáticamente conjuntos de datos de trayectorias emparejadas de flujos de diálogo correctos e incorrectos e introducimos una función de pérdida especializada para el control del diálogo. Nuestra evaluación exhaustiva demuestra que DiaTool-DPO se acerca al rendimiento de GPT-4 (94.8% en recopilación de información, 91% en rechazo de llamadas a herramientas) con mejoras sustanciales sobre la línea base (44% y 9.6% respectivamente) mientras mantiene la funcionalidad principal. Nuestro enfoque abre nuevas posibilidades para desarrollar TA-LLMs capaces de manejar diversos escenarios del mundo real sin requerir demostraciones expertas adicionales o etiquetado humano.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in
real-world applications, but face challenges in handling incomplete queries and
out-of-scope requests. While existing approaches rely mainly on Supervised
Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method
that enhances TA-LLM's dialogue capabilities through Direct Preference
Optimization. We model TA-LLM interactions as a Markov Decision Process with 5
distinct dialogue states and categorize user queries into 3 types based on
their state transition trajectories. We automatically construct paired
trajectory datasets of correct and incorrect dialogue flows and introduce a
specialized objective loss for dialogue control. Our comprehensive evaluation
demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in
information gathering, 91% in tool call rejection) with substantial
improvements over baseline (44% and 9.6% respectively) while maintaining core
functionality. Our approach opens new possibilities for developing TA-LLMs that
can handle diverse real-world scenarios without requiring additional expert
demonstrations or human labeling.Summary
AI-Generated Summary