DiaTool-DPO: Оптимизация прямых предпочтений для многошаговых взаимодействий в инструментально расширенных больших языковых моделях
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
April 2, 2025
Авторы: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin
cs.AI
Аннотация
Инструментально-усиленные большие языковые модели (TA-LLMs) демонстрируют перспективы в реальных приложениях, но сталкиваются с трудностями при обработке неполных запросов и запросов, выходящих за пределы их компетенции. В то время как существующие подходы в основном полагаются на контролируемую тонкую настройку с использованием экспертных траекторий, мы предлагаем DiaTool-DPO — новый метод, который улучшает диалоговые возможности TA-LLM с помощью оптимизации прямых предпочтений. Мы моделируем взаимодействия TA-LLM как марковский процесс принятия решений с 5 различными состояниями диалога и классифицируем пользовательские запросы на 3 типа на основе их траекторий переходов между состояниями. Мы автоматически создаем парные наборы данных с правильными и неправильными траекториями диалога и вводим специализированную функцию потерь для управления диалогом. Наше всестороннее тестирование показывает, что DiaTool-DPO приближается к производительности GPT-4 (94,8% в сборе информации, 91% в отклонении вызовов инструментов) с существенным улучшением по сравнению с базовыми моделями (44% и 9,6% соответственно), сохраняя при этом основную функциональность. Наш подход открывает новые возможности для разработки TA-LLM, способных справляться с разнообразными реальными сценариями без необходимости дополнительных экспертных демонстраций или ручной разметки.
English
Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in
real-world applications, but face challenges in handling incomplete queries and
out-of-scope requests. While existing approaches rely mainly on Supervised
Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method
that enhances TA-LLM's dialogue capabilities through Direct Preference
Optimization. We model TA-LLM interactions as a Markov Decision Process with 5
distinct dialogue states and categorize user queries into 3 types based on
their state transition trajectories. We automatically construct paired
trajectory datasets of correct and incorrect dialogue flows and introduce a
specialized objective loss for dialogue control. Our comprehensive evaluation
demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in
information gathering, 91% in tool call rejection) with substantial
improvements over baseline (44% and 9.6% respectively) while maintaining core
functionality. Our approach opens new possibilities for developing TA-LLMs that
can handle diverse real-world scenarios without requiring additional expert
demonstrations or human labeling.Summary
AI-Generated Summary