DiaTool-DPO: Otimização Direta de Preferências em Múltiplos Turnos para Modelos de Linguagem de Grande Escala Aumentados com Ferramentas
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
April 2, 2025
Autores: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI
Resumo
Modelos de Linguagem de Grande Escala Aumentados por Ferramentas (TA-LLMs) têm mostrado potencial em aplicações do mundo real, mas enfrentam desafios ao lidar com consultas incompletas e solicitações fora do escopo. Enquanto as abordagens existentes dependem principalmente de Ajuste Fino Supervisionado com trajetórias de especialistas, propomos o DiaTool-DPO, um método inovador que aprimora as capacidades de diálogo dos TA-LLMs por meio de Otimização Direta de Preferências. Modelamos as interações dos TA-LLMs como um Processo de Decisão de Markov com 5 estados de diálogo distintos e categorizamos as consultas dos usuários em 3 tipos com base em suas trajetórias de transição de estado. Construímos automaticamente conjuntos de dados pareados de trajetórias corretas e incorretas de fluxos de diálogo e introduzimos uma função de perda especializada para controle de diálogo. Nossa avaliação abrangente demonstra que o DiaTool-DPO se aproxima do desempenho do GPT-4 (94,8% na coleta de informações, 91% na rejeição de chamadas de ferramentas) com melhorias substanciais em relação à linha de base (44% e 9,6%, respectivamente), mantendo a funcionalidade principal. Nossa abordagem abre novas possibilidades para o desenvolvimento de TA-LLMs capazes de lidar com diversos cenários do mundo real sem a necessidade de demonstrações adicionais de especialistas ou rotulagem humana.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in
real-world applications, but face challenges in handling incomplete queries and
out-of-scope requests. While existing approaches rely mainly on Supervised
Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method
that enhances TA-LLM's dialogue capabilities through Direct Preference
Optimization. We model TA-LLM interactions as a Markov Decision Process with 5
distinct dialogue states and categorize user queries into 3 types based on
their state transition trajectories. We automatically construct paired
trajectory datasets of correct and incorrect dialogue flows and introduce a
specialized objective loss for dialogue control. Our comprehensive evaluation
demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in
information gathering, 91% in tool call rejection) with substantial
improvements over baseline (44% and 9.6% respectively) while maintaining core
functionality. Our approach opens new possibilities for developing TA-LLMs that
can handle diverse real-world scenarios without requiring additional expert
demonstrations or human labeling.Summary
AI-Generated Summary