ChatPaper.aiChatPaper

TART: Un modulo Transformer plug-and-play per il ragionamento indipendente dal compito

TART: A plug-and-play Transformer module for task-agnostic reasoning

June 13, 2023
Autori: Kush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré
cs.AI

Abstract

I grandi modelli linguistici (LLM) dimostrano capacità di apprendimento in contesto che consentono allo stesso modello di eseguire diverse attività senza alcun addestramento specifico per il compito. Al contrario, gli approcci tradizionali di adattamento, come il fine-tuning, modificano i modelli sottostanti per ogni specifico compito. Tuttavia, l'apprendimento in contesto risulta costantemente inferiore rispetto agli approcci di ottimizzazione specifici per il compito, anche quando vengono presentati gli stessi esempi. Mentre la maggior parte degli approcci esistenti (ad esempio, l'ingegneria dei prompt) si concentra sulle rappresentazioni apprese dagli LLM per colmare questo divario di prestazioni, la nostra analisi rivela in realtà che le rappresentazioni degli LLM contengono informazioni sufficienti per fare previsioni accurate. Pertanto, ci concentriamo sulle capacità di ragionamento degli LLM e dimostriamo che questo divario di prestazioni esiste a causa della loro incapacità di eseguire semplici compiti di ragionamento probabilistico. Ciò solleva una domanda intrigante: gli LLM sono effettivamente in grado di imparare a ragionare in modo indipendente dal compito? Rispondiamo affermativamente e proponiamo TART, che migliora genericamente le capacità di ragionamento di un LLM utilizzando un modulo di ragionamento basato su Transformer addestrato sinteticamente. TART addestra questo modulo di ragionamento in modo indipendente dal compito utilizzando solo compiti di regressione logistica sintetici e lo compone con un qualsiasi modello pre-addestrato del mondo reale senza alcun ulteriore addestramento. Con un singolo modulo di inferenza, TART migliora le prestazioni attraverso diverse famiglie di modelli (GPT-Neo, Pythia, BLOOM), dimensioni dei modelli (100M - 6B), compiti (14 compiti di classificazione binaria NLP) e persino attraverso diverse modalità (audio e visione). Inoltre, sul RAFT Benchmark, TART migliora le prestazioni di GPT-Neo (125M) al punto da superare BLOOM (176B) e di avvicinarsi a meno del 4% rispetto a GPT-3 (175B). Il nostro codice e i nostri modelli sono disponibili all'indirizzo https://github.com/HazyResearch/TART.
English
Large language models (LLMs) exhibit in-context learning abilities which enable the same model to perform several tasks without any task-specific training. In contrast, traditional adaptation approaches, such as fine-tuning, modify the underlying models for each specific task. In-context learning, however, consistently underperforms task-specific tuning approaches even when presented with the same examples. While most existing approaches (e.g., prompt engineering) focus on the LLM's learned representations to patch this performance gap, our analysis actually reveal that LLM representations contain sufficient information to make good predictions. As such, we focus on the LLM's reasoning abilities and demonstrate that this performance gap exists due to their inability to perform simple probabilistic reasoning tasks. This raises an intriguing question: Are LLMs actually capable of learning how to reason in a task-agnostic manner? We answer this in the affirmative and propose TART which generically improves an LLM's reasoning abilities using a synthetically trained Transformer-based reasoning module. TART trains this reasoning module in a task-agnostic manner using only synthetic logistic regression tasks and composes it with an arbitrary real-world pre-trained model without any additional training. With a single inference module, TART improves performance across different model families (GPT-Neo, Pythia, BLOOM), model sizes (100M - 6B), tasks (14 NLP binary classification tasks), and even across different modalities (audio and vision). Additionally, on the RAFT Benchmark, TART improves GPT-Neo (125M)'s performance such that it outperforms BLOOM (176B), and is within 4% of GPT-3 (175B). Our code and models are available at https://github.com/HazyResearch/TART .
PDF120March 22, 2026