Ambiguïteitsbewust In-Context Leren met Grote Taalmodellen
Ambiguity-Aware In-Context Learning with Large Language Models
September 14, 2023
Auteurs: Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, Michael Bendersky
cs.AI
Samenvatting
In-context learning (ICL), waarbij grote taalmodellen (LLMs) slechts enkele taakspecifieke demonstraties krijgen, heeft geleid tot verbeteringen zonder dat taakspecifieke fine-tuning nodig is. LLMs zijn echter gevoelig voor de keuze van prompts, en daarom is een cruciaal onderzoeksvraag hoe goede demonstraties voor ICL geselecteerd kunnen worden. Een effectieve strategie is het benutten van semantische gelijkenis tussen de ICL-demonstraties en testinvoeren door een tekstretriever te gebruiken, wat echter suboptimaal is omdat dit geen rekening houdt met de bestaande kennis van het LLM over die taak. Uit eerder werk (Min et al., 2022) weten we al dat labels die aan de demonstraties zijn gekoppeld, de modelvoorspellingen beïnvloeden. Dit leidt tot onze hypothese dat het overwegen van de bestaande kennis van het LLM over de taak, met name met betrekking tot de uitvoerlabelruimte, kan bijdragen aan een betere demonstratieselectiestrategie. Door uitgebreide experimenten uit te voeren op drie tekstclassificatietaken, ontdekken we dat het niet alleen gunstig is om semantisch vergelijkbare ICL-demonstraties te kiezen, maar ook om demonstraties te selecteren die helpen de inherente labelambiguïteit rond het testvoorbeeld op te lossen. Interessant genoeg vinden we dat het opnemen van demonstraties die het LLM eerder verkeerd heeft geclassificeerd en die ook op de beslissingsgrens van het testvoorbeeld liggen, de grootste prestatieverbetering oplevert.
English
In-context learning (ICL) i.e. showing LLMs only a few task-specific
demonstrations has led to downstream gains with no task-specific fine-tuning
required. However, LLMs are sensitive to the choice of prompts, and therefore a
crucial research question is how to select good demonstrations for ICL. One
effective strategy is leveraging semantic similarity between the ICL
demonstrations and test inputs by using a text retriever, which however is
sub-optimal as that does not consider the LLM's existing knowledge about that
task. From prior work (Min et al., 2022), we already know that labels paired
with the demonstrations bias the model predictions. This leads us to our
hypothesis whether considering LLM's existing knowledge about the task,
especially with respect to the output label space can help in a better
demonstration selection strategy. Through extensive experimentation on three
text classification tasks, we find that it is beneficial to not only choose
semantically similar ICL demonstrations but also to choose those demonstrations
that help resolve the inherent label ambiguity surrounding the test example.
Interestingly, we find that including demonstrations that the LLM previously
mis-classified and also fall on the test example's decision boundary, brings
the most performance gain.