ChatPaper.aiChatPaper

DiaTool-DPO: Otimização Direta de Preferências em Múltiplos Turnos para Modelos de Linguagem de Grande Escala Aumentados com Ferramentas

DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models

April 2, 2025
Autores: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI

Resumo

Modelos de Linguagem de Grande Escala Aumentados por Ferramentas (TA-LLMs) têm mostrado potencial em aplicações do mundo real, mas enfrentam desafios ao lidar com consultas incompletas e solicitações fora do escopo. Enquanto as abordagens existentes dependem principalmente de Ajuste Fino Supervisionado com trajetórias de especialistas, propomos o DiaTool-DPO, um método inovador que aprimora as capacidades de diálogo dos TA-LLMs por meio de Otimização Direta de Preferências. Modelamos as interações dos TA-LLMs como um Processo de Decisão de Markov com 5 estados de diálogo distintos e categorizamos as consultas dos usuários em 3 tipos com base em suas trajetórias de transição de estado. Construímos automaticamente conjuntos de dados pareados de trajetórias corretas e incorretas de fluxos de diálogo e introduzimos uma função de perda especializada para controle de diálogo. Nossa avaliação abrangente demonstra que o DiaTool-DPO se aproxima do desempenho do GPT-4 (94,8% na coleta de informações, 91% na rejeição de chamadas de ferramentas) com melhorias substanciais em relação à linha de base (44% e 9,6%, respectivamente), mantendo a funcionalidade principal. Nossa abordagem abre novas possibilidades para o desenvolvimento de TA-LLMs capazes de lidar com diversos cenários do mundo real sem a necessidade de demonstrações adicionais de especialistas ou rotulagem humana.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in real-world applications, but face challenges in handling incomplete queries and out-of-scope requests. While existing approaches rely mainly on Supervised Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method that enhances TA-LLM's dialogue capabilities through Direct Preference Optimization. We model TA-LLM interactions as a Markov Decision Process with 5 distinct dialogue states and categorize user queries into 3 types based on their state transition trajectories. We automatically construct paired trajectory datasets of correct and incorrect dialogue flows and introduce a specialized objective loss for dialogue control. Our comprehensive evaluation demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in information gathering, 91% in tool call rejection) with substantial improvements over baseline (44% and 9.6% respectively) while maintaining core functionality. Our approach opens new possibilities for developing TA-LLMs that can handle diverse real-world scenarios without requiring additional expert demonstrations or human labeling.

Summary

AI-Generated Summary

PDF62April 8, 2025