ChatPaper.aiChatPaper

Языковые модели с обучением на примерах в "Имаджинариуме": обучение инструментов через имитацию проб и ошибок.

LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error

March 7, 2024
Авторы: Boshi Wang, Hao Fang, Jason Eisner, Benjamin Van Durme, Yu Su
cs.AI

Аннотация

Инструменты необходимы для того, чтобы крупным языковым моделям (КЯМ) получать актуальную информацию и принимать последовательные действия во внешних средах. Существующие исследования по инструментально дополненным КЯМ в основном сосредотачиваются на широком охвате инструментов и гибкости добавления новых инструментов. Однако критически важным аспектом, который удивительно мало изучен, является просто то, насколько точно КЯМ использует инструменты, для которых он был обучен. Мы обнаружили, что существующие КЯМ, включая GPT-4 и открытые КЯМ, специально настроенные для использования инструментов, достигают лишь уровня корректности в диапазоне от 30% до 60%, что далеко от надежного использования на практике. Мы предлагаем биологически вдохновленный метод для инструментально дополненных КЯМ, имитирующий пробу и ошибку (STE), который оркестрирует три ключевых механизма для успешного использования инструментов в биологической системе: пробу и ошибку, воображение и память. В частности, STE использует "воображение" КЯМ для имитации вероятных сценариев использования инструмента, после чего КЯМ взаимодействует с инструментом, чтобы учиться на основе обратной связи выполнения. Краткосрочная и долгосрочная память используются для улучшения глубины и ширины исследований соответственно. Обширные эксперименты на ToolBench показывают, что STE существенно улучшает обучение инструментам для КЯМ как в условиях контекстного обучения, так и в настройках доводки, принося увеличение на 46,7% для Mistral-Instruct-7B и позволяя ему превзойти GPT-4. Мы также показываем эффективное непрерывное обучение инструментам с помощью простой стратегии повтора опыта.
English
Tools are essential for large language models (LLMs) to acquire up-to-date information and take consequential actions in external environments. Existing work on tool-augmented LLMs primarily focuses on the broad coverage of tools and the flexibility of adding new tools. However, a critical aspect that has surprisingly been understudied is simply how accurately an LLM uses tools for which it has been trained. We find that existing LLMs, including GPT-4 and open-source LLMs specifically fine-tuned for tool use, only reach a correctness rate in the range of 30% to 60%, far from reliable use in practice. We propose a biologically inspired method for tool-augmented LLMs, simulated trial and error (STE), that orchestrates three key mechanisms for successful tool use behaviors in the biological system: trial and error, imagination, and memory. Specifically, STE leverages an LLM's 'imagination' to simulate plausible scenarios for using a tool, after which the LLM interacts with the tool to learn from its execution feedback. Both short-term and long-term memory are employed to improve the depth and breadth of the exploration, respectively. Comprehensive experiments on ToolBench show that STE substantially improves tool learning for LLMs under both in-context learning and fine-tuning settings, bringing a boost of 46.7% to Mistral-Instruct-7B and enabling it to outperform GPT-4. We also show effective continual learning of tools via a simple experience replay strategy.
PDF261December 15, 2024