TART: Модуль Transformer по принципу "подключи и работай" для задач, не зависящих от конкретной предметной области
TART: A plug-and-play Transformer module for task-agnostic reasoning
June 13, 2023
Авторы: Kush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют способность к обучению в контексте, что позволяет одной и той же модели выполнять различные задачи без специального обучения для каждой из них. В отличие от этого, традиционные подходы адаптации, такие как тонкая настройка (fine-tuning), изменяют базовые модели для каждой конкретной задачи. Однако обучение в контексте стабильно уступает по производительности подходам, ориентированным на конкретные задачи, даже при использовании одинаковых примеров. Хотя большинство существующих подходов (например, инженерия промптов) сосредоточены на изученных представлениях LLM для устранения этого разрыва в производительности, наш анализ показывает, что представления LLM содержат достаточно информации для принятия качественных решений. В связи с этим мы сосредотачиваемся на способностях LLM к рассуждению и демонстрируем, что этот разрыв в производительности возникает из-за их неспособности выполнять простые задачи вероятностного рассуждения. Это поднимает интригующий вопрос: Способны ли LLM действительно научиться рассуждать в независимой от задачи манере? Мы отвечаем на этот вопрос утвердительно и предлагаем TART — подход, который универсально улучшает способности LLM к рассуждению с использованием синтетически обученного модуля рассуждений на основе Transformer. TART обучает этот модуль рассуждений независимо от задач, используя только синтетические задачи логистической регрессии, и комбинирует его с произвольной предварительно обученной моделью реального мира без дополнительного обучения. С одним модулем вывода TART улучшает производительность в различных семействах моделей (GPT-Neo, Pythia, BLOOM), размерах моделей (от 100M до 6B), задачах (14 задач бинарной классификации в NLP) и даже в различных модальностях (аудио и визуальные данные). Кроме того, на бенчмарке RAFT TART улучшает производительность GPT-Neo (125M) до уровня, превосходящего BLOOM (176B), и приближается к GPT-3 (175B) с разницей менее 4%. Наш код и модели доступны по адресу https://github.com/HazyResearch/TART.
English
Large language models (LLMs) exhibit in-context learning abilities which
enable the same model to perform several tasks without any task-specific
training. In contrast, traditional adaptation approaches, such as fine-tuning,
modify the underlying models for each specific task. In-context learning,
however, consistently underperforms task-specific tuning approaches even when
presented with the same examples. While most existing approaches (e.g., prompt
engineering) focus on the LLM's learned representations to patch this
performance gap, our analysis actually reveal that LLM representations contain
sufficient information to make good predictions. As such, we focus on the LLM's
reasoning abilities and demonstrate that this performance gap exists due to
their inability to perform simple probabilistic reasoning tasks. This raises an
intriguing question: Are LLMs actually capable of learning how to reason in a
task-agnostic manner? We answer this in the affirmative and propose TART which
generically improves an LLM's reasoning abilities using a synthetically trained
Transformer-based reasoning module. TART trains this reasoning module in a
task-agnostic manner using only synthetic logistic regression tasks and
composes it with an arbitrary real-world pre-trained model without any
additional training. With a single inference module, TART improves performance
across different model families (GPT-Neo, Pythia, BLOOM), model sizes (100M -
6B), tasks (14 NLP binary classification tasks), and even across different
modalities (audio and vision). Additionally, on the RAFT Benchmark, TART
improves GPT-Neo (125M)'s performance such that it outperforms BLOOM (176B),
and is within 4% of GPT-3 (175B). Our code and models are available at
https://github.com/HazyResearch/TART .