ChatPaper.aiChatPaper

Può il Few-shot funzionare in contesti lunghi? Riciclare il contesto per generare dimostrazioni

Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations

June 19, 2024
Autori: Arie Cattan, Alon Jacovi, Alex Fabrikant, Jonathan Herzig, Roee Aharoni, Hannah Rashkin, Dror Marcus, Avinatan Hassidim, Yossi Matias, Idan Szpektor, Avi Caciularu
cs.AI

Abstract

Nonostante i recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM), le loro prestazioni in compiti che coinvolgono contesti lunghi rimangono subottimali. L'Apprendimento In-Contesto (In-Context Learning, ICL) con esempi few-shot potrebbe rappresentare una soluzione interessante per migliorare le prestazioni degli LLM in questo scenario; tuttavia, l'aggiunta ingenua di esempi ICL con contesti lunghi introduce diverse sfide, tra cui un sovraccarico significativo di token per ogni esempio few-shot e una mancata corrispondenza tra il contesto delle dimostrazioni e la query target. In questo lavoro, proponiamo di generare automaticamente esempi few-shot per compiti di QA (Question Answering) con contesti lunghi riciclando i contesti stessi. Nello specifico, dato un contesto di input lungo (1-3k token) e una query, generiamo ulteriori coppie query-risposta dal contesto fornito come esempi few-shot, introducendo il contesto una sola volta. Ciò garantisce che le dimostrazioni sfruttino lo stesso contesto della query target, aggiungendo solo un numero ridotto di token al prompt. Miglioriamo ulteriormente ogni dimostrazione istruendo il modello a identificare esplicitamente i paragrafi rilevanti prima della risposta, il che migliora le prestazioni fornendo un'attribuzione granulare alla fonte della risposta. Applichiamo il nostro metodo su più LLM e otteniamo miglioramenti sostanziali (+23\% in media tra i modelli) su vari dataset di QA con contesti lunghi, specialmente quando la risposta si trova nella parte centrale del contesto. Sorprendentemente, nonostante l'introduzione di soli esempi ICL a singolo salto (single-hop), gli LLM generalizzano con successo anche a QA multi-salto (multi-hop) con contesti lunghi utilizzando il nostro approccio.
English
Despite recent advancements in Large Language Models (LLMs), their performance on tasks involving long contexts remains sub-optimal. In-Context Learning (ICL) with few-shot examples may be an appealing solution to enhance LLM performance in this scenario; However, naively adding ICL examples with long context introduces challenges, including substantial token overhead added for each few-shot example and context mismatch between the demonstrations and the target query. In this work, we propose to automatically generate few-shot examples for long context QA tasks by recycling contexts. Specifically, given a long input context (1-3k tokens) and a query, we generate additional query-output pairs from the given context as few-shot examples, while introducing the context only once. This ensures that the demonstrations are leveraging the same context as the target query while only adding a small number of tokens to the prompt. We further enhance each demonstration by instructing the model to explicitly identify the relevant paragraphs before the answer, which improves performance while providing fine-grained attribution to the answer source. We apply our method on multiple LLMs and obtain substantial improvements (+23\% on average across models) on various QA datasets with long context, especially when the answer lies within the middle of the context. Surprisingly, despite introducing only single-hop ICL examples, LLMs also successfully generalize to multi-hop long-context QA using our approach.
PDF51January 31, 2026