TART : Un module Transformer prêt à l'emploi pour le raisonnement indépendant de la tâche

Résumé

Les grands modèles de langage (LLMs) présentent des capacités d'apprentissage en contexte qui permettent au même modèle d'exécuter plusieurs tâches sans aucun entraînement spécifique à la tâche. En revanche, les approches d'adaptation traditionnelles, comme le fine-tuning, modifient les modèles sous-jacents pour chaque tâche spécifique. Cependant, l'apprentissage en contexte sous-performe systématiquement les approches de réglage spécifiques à la tâche, même lorsqu'il est présenté avec les mêmes exemples. Alors que la plupart des approches existantes (par exemple, l'ingénierie de prompts) se concentrent sur les représentations apprises par le LLM pour combler cet écart de performance, notre analyse révèle en réalité que les représentations des LLM contiennent suffisamment d'informations pour faire de bonnes prédictions. Ainsi, nous nous concentrons sur les capacités de raisonnement des LLM et démontrons que cet écart de performance existe en raison de leur incapacité à effectuer des tâches simples de raisonnement probabiliste. Cela soulève une question intrigante : Les LLM sont-ils réellement capables d'apprendre à raisonner de manière indépendante de la tâche ? Nous répondons par l'affirmative et proposons TART, qui améliore de manière générique les capacités de raisonnement d'un LLM en utilisant un module de raisonnement basé sur un Transformer entraîné de manière synthétique. TART entraîne ce module de raisonnement de manière indépendante de la tâche en utilisant uniquement des tâches de régression logistique synthétiques et le compose avec un modèle pré-entraîné arbitraire du monde réel sans aucun entraînement supplémentaire. Avec un seul module d'inférence, TART améliore les performances à travers différentes familles de modèles (GPT-Neo, Pythia, BLOOM), tailles de modèles (100M - 6B), tâches (14 tâches de classification binaire en NLP), et même à travers différentes modalités (audio et vision). De plus, sur le benchmark RAFT, TART améliore les performances de GPT-Neo (125M) au point qu'il surpasse BLOOM (176B) et se situe à moins de 4% de GPT-3 (175B). Notre code et nos modèles sont disponibles à l'adresse https://github.com/HazyResearch/TART.

English

Large language models (LLMs) exhibit in-context learning abilities which enable the same model to perform several tasks without any task-specific training. In contrast, traditional adaptation approaches, such as fine-tuning, modify the underlying models for each specific task. In-context learning, however, consistently underperforms task-specific tuning approaches even when presented with the same examples. While most existing approaches (e.g., prompt engineering) focus on the LLM's learned representations to patch this performance gap, our analysis actually reveal that LLM representations contain sufficient information to make good predictions. As such, we focus on the LLM's reasoning abilities and demonstrate that this performance gap exists due to their inability to perform simple probabilistic reasoning tasks. This raises an intriguing question: Are LLMs actually capable of learning how to reason in a task-agnostic manner? We answer this in the affirmative and propose TART which generically improves an LLM's reasoning abilities using a synthetically trained Transformer-based reasoning module. TART trains this reasoning module in a task-agnostic manner using only synthetic logistic regression tasks and composes it with an arbitrary real-world pre-trained model without any additional training. With a single inference module, TART improves performance across different model families (GPT-Neo, Pythia, BLOOM), model sizes (100M - 6B), tasks (14 NLP binary classification tasks), and even across different modalities (audio and vision). Additionally, on the RAFT Benchmark, TART improves GPT-Neo (125M)'s performance such that it outperforms BLOOM (176B), and is within 4% of GPT-3 (175B). Our code and models are available at https://github.com/HazyResearch/TART .

TART : Un module Transformer prêt à l'emploi pour le raisonnement indépendant de la tâche

TART: A plug-and-play Transformer module for task-agnostic reasoning

Résumé

Support