ChatPaper.aiChatPaper

DiaTool-DPO: Optimización Directa de Preferencias para Múltiples Turnos en Modelos de Lenguaje de Gran Escala Aumentados con Herramientas

DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models

April 2, 2025
Autores: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala Aumentados con Herramientas (TA-LLMs, por sus siglas en inglés) han mostrado potencial en aplicaciones del mundo real, pero enfrentan desafíos al manejar consultas incompletas y solicitudes fuera de su alcance. Mientras que los enfoques existentes se basan principalmente en el Ajuste Supervisado con trayectorias expertas, proponemos DiaTool-DPO, un método novedoso que mejora las capacidades de diálogo de los TA-LLMs mediante la Optimización Directa de Preferencias. Modelamos las interacciones de los TA-LLMs como un Proceso de Decisión de Markov con 5 estados de diálogo distintos y categorizamos las consultas de los usuarios en 3 tipos según sus trayectorias de transición de estado. Construimos automáticamente conjuntos de datos de trayectorias emparejadas de flujos de diálogo correctos e incorrectos e introducimos una función de pérdida especializada para el control del diálogo. Nuestra evaluación exhaustiva demuestra que DiaTool-DPO se acerca al rendimiento de GPT-4 (94.8% en recopilación de información, 91% en rechazo de llamadas a herramientas) con mejoras sustanciales sobre la línea base (44% y 9.6% respectivamente) mientras mantiene la funcionalidad principal. Nuestro enfoque abre nuevas posibilidades para desarrollar TA-LLMs capaces de manejar diversos escenarios del mundo real sin requerir demostraciones expertas adicionales o etiquetado humano.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in real-world applications, but face challenges in handling incomplete queries and out-of-scope requests. While existing approaches rely mainly on Supervised Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method that enhances TA-LLM's dialogue capabilities through Direct Preference Optimization. We model TA-LLM interactions as a Markov Decision Process with 5 distinct dialogue states and categorize user queries into 3 types based on their state transition trajectories. We automatically construct paired trajectory datasets of correct and incorrect dialogue flows and introduce a specialized objective loss for dialogue control. Our comprehensive evaluation demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in information gathering, 91% in tool call rejection) with substantial improvements over baseline (44% and 9.6% respectively) while maintaining core functionality. Our approach opens new possibilities for developing TA-LLMs that can handle diverse real-world scenarios without requiring additional expert demonstrations or human labeling.

Summary

AI-Generated Summary

PDF62April 8, 2025