TnT-LLM: Estrazione del Testo su Larga Scala con Modelli Linguistici di Grandi Dimensioni

Abstract

Trasformare testi non strutturati in forme strutturate e significative, organizzate secondo etichette di categoria utili, rappresenta un passaggio fondamentale nel text mining per analisi e applicazioni successive. Tuttavia, la maggior parte dei metodi esistenti per produrre tassonomie di etichette e costruire classificatori basati su testo si basa ancora pesantemente sull'esperienza di dominio e sulla curatela manuale, rendendo il processo costoso e dispendioso in termini di tempo. Ciò è particolarmente impegnativo quando lo spazio delle etichette è sottospecificato e non sono disponibili annotazioni di dati su larga scala. In questo articolo, affrontiamo queste sfide utilizzando i Large Language Models (LLM), la cui interfaccia basata su prompt facilita l'induzione e l'uso di pseudo-etichette su larga scala. Proponiamo TnT-LLM, un framework in due fasi che impiega LLM per automatizzare il processo di generazione e assegnazione end-to-end delle etichette con uno sforzo umano minimo per qualsiasi caso d'uso specifico. Nella prima fase, introduciamo un approccio zero-shot a ragionamento multi-stadio che consente ai LLM di produrre e affinare iterativamente una tassonomia di etichette. Nella seconda fase, i LLM vengono utilizzati come etichettatori di dati che generano campioni di addestramento, permettendo così di costruire, distribuire e utilizzare in modo affidabile classificatori supervisionati leggeri su larga scala. Applichiamo TnT-LLM all'analisi dell'intento dell'utente e del dominio conversazionale per Bing Copilot (precedentemente Bing Chat), un motore di ricerca chat-based a dominio aperto. Esperimenti estensivi che utilizzano sia metriche di valutazione umane che automatiche dimostrano che TnT-LLM genera tassonomie di etichette più accurate e rilevanti rispetto ai migliori baseline esistenti, raggiungendo un equilibrio favorevole tra accuratezza ed efficienza per la classificazione su larga scala. Condividiamo inoltre le nostre esperienze pratiche e le intuizioni sulle sfide e le opportunità dell'utilizzo dei LLM per il text mining su larga scala in applicazioni reali.

English

Transforming unstructured text into structured and meaningful forms, organized by useful category labels, is a fundamental step in text mining for downstream analysis and application. However, most existing methods for producing label taxonomies and building text-based label classifiers still rely heavily on domain expertise and manual curation, making the process expensive and time-consuming. This is particularly challenging when the label space is under-specified and large-scale data annotations are unavailable. In this paper, we address these challenges with Large Language Models (LLMs), whose prompt-based interface facilitates the induction and use of large-scale pseudo labels. We propose TnT-LLM, a two-phase framework that employs LLMs to automate the process of end-to-end label generation and assignment with minimal human effort for any given use-case. In the first phase, we introduce a zero-shot, multi-stage reasoning approach which enables LLMs to produce and refine a label taxonomy iteratively. In the second phase, LLMs are used as data labelers that yield training samples so that lightweight supervised classifiers can be reliably built, deployed, and served at scale. We apply TnT-LLM to the analysis of user intent and conversational domain for Bing Copilot (formerly Bing Chat), an open-domain chat-based search engine. Extensive experiments using both human and automatic evaluation metrics demonstrate that TnT-LLM generates more accurate and relevant label taxonomies when compared against state-of-the-art baselines, and achieves a favorable balance between accuracy and efficiency for classification at scale. We also share our practical experiences and insights on the challenges and opportunities of using LLMs for large-scale text mining in real-world applications.

TnT-LLM: Estrazione del Testo su Larga Scala con Modelli Linguistici di Grandi Dimensioni

TnT-LLM: Text Mining at Scale with Large Language Models

Abstract

Support