TART : Un module Transformer prêt à l'emploi pour le raisonnement indépendant de la tâche
TART: A plug-and-play Transformer module for task-agnostic reasoning
June 13, 2023
Auteurs: Kush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré
cs.AI
Résumé
Les grands modèles de langage (LLMs) présentent des capacités d'apprentissage en contexte qui permettent au même modèle d'exécuter plusieurs tâches sans aucun entraînement spécifique à la tâche. En revanche, les approches d'adaptation traditionnelles, comme le fine-tuning, modifient les modèles sous-jacents pour chaque tâche spécifique. Cependant, l'apprentissage en contexte sous-performe systématiquement les approches de réglage spécifiques à la tâche, même lorsqu'il est présenté avec les mêmes exemples. Alors que la plupart des approches existantes (par exemple, l'ingénierie de prompts) se concentrent sur les représentations apprises par le LLM pour combler cet écart de performance, notre analyse révèle en réalité que les représentations des LLM contiennent suffisamment d'informations pour faire de bonnes prédictions. Ainsi, nous nous concentrons sur les capacités de raisonnement des LLM et démontrons que cet écart de performance existe en raison de leur incapacité à effectuer des tâches simples de raisonnement probabiliste. Cela soulève une question intrigante : Les LLM sont-ils réellement capables d'apprendre à raisonner de manière indépendante de la tâche ? Nous répondons par l'affirmative et proposons TART, qui améliore de manière générique les capacités de raisonnement d'un LLM en utilisant un module de raisonnement basé sur un Transformer entraîné de manière synthétique. TART entraîne ce module de raisonnement de manière indépendante de la tâche en utilisant uniquement des tâches de régression logistique synthétiques et le compose avec un modèle pré-entraîné arbitraire du monde réel sans aucun entraînement supplémentaire. Avec un seul module d'inférence, TART améliore les performances à travers différentes familles de modèles (GPT-Neo, Pythia, BLOOM), tailles de modèles (100M - 6B), tâches (14 tâches de classification binaire en NLP), et même à travers différentes modalités (audio et vision). De plus, sur le benchmark RAFT, TART améliore les performances de GPT-Neo (125M) au point qu'il surpasse BLOOM (176B) et se situe à moins de 4% de GPT-3 (175B). Notre code et nos modèles sont disponibles à l'adresse https://github.com/HazyResearch/TART.
English
Large language models (LLMs) exhibit in-context learning abilities which
enable the same model to perform several tasks without any task-specific
training. In contrast, traditional adaptation approaches, such as fine-tuning,
modify the underlying models for each specific task. In-context learning,
however, consistently underperforms task-specific tuning approaches even when
presented with the same examples. While most existing approaches (e.g., prompt
engineering) focus on the LLM's learned representations to patch this
performance gap, our analysis actually reveal that LLM representations contain
sufficient information to make good predictions. As such, we focus on the LLM's
reasoning abilities and demonstrate that this performance gap exists due to
their inability to perform simple probabilistic reasoning tasks. This raises an
intriguing question: Are LLMs actually capable of learning how to reason in a
task-agnostic manner? We answer this in the affirmative and propose TART which
generically improves an LLM's reasoning abilities using a synthetically trained
Transformer-based reasoning module. TART trains this reasoning module in a
task-agnostic manner using only synthetic logistic regression tasks and
composes it with an arbitrary real-world pre-trained model without any
additional training. With a single inference module, TART improves performance
across different model families (GPT-Neo, Pythia, BLOOM), model sizes (100M -
6B), tasks (14 NLP binary classification tasks), and even across different
modalities (audio and vision). Additionally, on the RAFT Benchmark, TART
improves GPT-Neo (125M)'s performance such that it outperforms BLOOM (176B),
and is within 4% of GPT-3 (175B). Our code and models are available at
https://github.com/HazyResearch/TART .