TnT-LLM: Text Mining op Schaal met Grote Taalmodellen
TnT-LLM: Text Mining at Scale with Large Language Models
March 18, 2024
Auteurs: Mengting Wan, Tara Safavi, Sujay Kumar Jauhar, Yujin Kim, Scott Counts, Jennifer Neville, Siddharth Suri, Chirag Shah, Ryen W White, Longqi Yang, Reid Andersen, Georg Buscher, Dhruv Joshi, Nagu Rangan
cs.AI
Samenvatting
Het omzetten van ongestructureerde tekst in gestructureerde en betekenisvolle vormen, georganiseerd door nuttige categorielabels, is een fundamentele stap in tekstmining voor downstream analyse en toepassingen. De meeste bestaande methoden voor het produceren van labeltaxonomieën en het bouwen van tekstgebaseerde labelclassificaties zijn echter nog steeds sterk afhankelijk van domeinexpertise en handmatige curatie, wat het proces duur en tijdrovend maakt. Dit is met name uitdagend wanneer de labelruimte ondergespecificeerd is en grootschalige data-annotaties niet beschikbaar zijn. In dit artikel gaan we deze uitdagingen aan met Large Language Models (LLMs), waarvan de prompt-gebaseerde interface de inductie en het gebruik van grootschalige pseudolabels vergemakkelijkt. We stellen TnT-LLM voor, een tweefasenframework dat LLMs inzet om het proces van end-to-end labelgeneratie en -toewijzing te automatiseren met minimale menselijke inspanning voor elk gegeven use-case. In de eerste fase introduceren we een zero-shot, multi-stage redeneerbenadering die LLMs in staat stelt om iteratief een labeltaxonomie te produceren en te verfijnen. In de tweede fase worden LLMs gebruikt als datalabelers die trainingsvoorbeelden opleveren, zodat lichtgewicht supervised classificaties betrouwbaar kunnen worden gebouwd, geïmplementeerd en opgeschaald. We passen TnT-LLM toe op de analyse van gebruikersintentie en conversatiedomein voor Bing Copilot (voorheen Bing Chat), een open-domein chat-gebaseerde zoekmachine. Uitgebreide experimenten met zowel menselijke als automatische evaluatiemetrics tonen aan dat TnT-LLM nauwkeurigere en relevantere labeltaxonomieën genereert in vergelijking met state-of-the-art baselines, en een gunstige balans bereikt tussen nauwkeurigheid en efficiëntie voor classificatie op grote schaal. We delen ook onze praktijkervaringen en inzichten over de uitdagingen en kansen van het gebruik van LLMs voor grootschalige tekstmining in real-world toepassingen.
English
Transforming unstructured text into structured and meaningful forms,
organized by useful category labels, is a fundamental step in text mining for
downstream analysis and application. However, most existing methods for
producing label taxonomies and building text-based label classifiers still rely
heavily on domain expertise and manual curation, making the process expensive
and time-consuming. This is particularly challenging when the label space is
under-specified and large-scale data annotations are unavailable. In this
paper, we address these challenges with Large Language Models (LLMs), whose
prompt-based interface facilitates the induction and use of large-scale pseudo
labels. We propose TnT-LLM, a two-phase framework that employs LLMs to automate
the process of end-to-end label generation and assignment with minimal human
effort for any given use-case. In the first phase, we introduce a zero-shot,
multi-stage reasoning approach which enables LLMs to produce and refine a label
taxonomy iteratively. In the second phase, LLMs are used as data labelers that
yield training samples so that lightweight supervised classifiers can be
reliably built, deployed, and served at scale. We apply TnT-LLM to the analysis
of user intent and conversational domain for Bing Copilot (formerly Bing Chat),
an open-domain chat-based search engine. Extensive experiments using both human
and automatic evaluation metrics demonstrate that TnT-LLM generates more
accurate and relevant label taxonomies when compared against state-of-the-art
baselines, and achieves a favorable balance between accuracy and efficiency for
classification at scale. We also share our practical experiences and insights
on the challenges and opportunities of using LLMs for large-scale text mining
in real-world applications.