TnT-LLM: Mineração de Texto em Escala com Modelos de Linguagem de Grande Porte
TnT-LLM: Text Mining at Scale with Large Language Models
March 18, 2024
Autores: Mengting Wan, Tara Safavi, Sujay Kumar Jauhar, Yujin Kim, Scott Counts, Jennifer Neville, Siddharth Suri, Chirag Shah, Ryen W White, Longqi Yang, Reid Andersen, Georg Buscher, Dhruv Joshi, Nagu Rangan
cs.AI
Resumo
Transformar textos não estruturados em formas estruturadas e significativas, organizadas por rótulos de categorias úteis, é uma etapa fundamental na mineração de texto para análises e aplicações subsequentes. No entanto, a maioria dos métodos existentes para produzir taxonomias de rótulos e construir classificadores baseados em texto ainda depende fortemente de expertise de domínio e curadoria manual, tornando o processo caro e demorado. Isso é particularmente desafiador quando o espaço de rótulos é subespecificado e anotações de dados em grande escala não estão disponíveis. Neste artigo, abordamos esses desafios com Modelos de Linguagem de Grande Escala (LLMs), cuja interface baseada em prompts facilita a indução e o uso de rótulos pseudo em grande escala. Propomos o TnT-LLM, um framework de duas fases que emprega LLMs para automatizar o processo de geração e atribuição de rótulos de ponta a ponta com esforço humano mínimo para qualquer caso de uso. Na primeira fase, introduzimos uma abordagem de raciocínio em múltiplos estágios e zero-shot que permite que LLMs produzam e refinem uma taxonomia de rótulos iterativamente. Na segunda fase, LLMs são usados como rotuladores de dados que geram amostras de treinamento para que classificadores supervisionados leves possam ser construídos, implantados e servidos de forma confiável em escala. Aplicamos o TnT-LLM à análise de intenção do usuário e domínio conversacional para o Bing Copilot (anteriormente Bing Chat), um mecanismo de busca baseado em chat de domínio aberto. Experimentos extensivos usando métricas de avaliação humana e automática demonstram que o TnT-LLM gera taxonomias de rótulos mais precisas e relevantes em comparação com baselines state-of-the-art, e alcança um equilíbrio favorável entre precisão e eficiência para classificação em escala. Também compartilhamos nossas experiências práticas e insights sobre os desafios e oportunidades de usar LLMs para mineração de texto em grande escala em aplicações do mundo real.
English
Transforming unstructured text into structured and meaningful forms,
organized by useful category labels, is a fundamental step in text mining for
downstream analysis and application. However, most existing methods for
producing label taxonomies and building text-based label classifiers still rely
heavily on domain expertise and manual curation, making the process expensive
and time-consuming. This is particularly challenging when the label space is
under-specified and large-scale data annotations are unavailable. In this
paper, we address these challenges with Large Language Models (LLMs), whose
prompt-based interface facilitates the induction and use of large-scale pseudo
labels. We propose TnT-LLM, a two-phase framework that employs LLMs to automate
the process of end-to-end label generation and assignment with minimal human
effort for any given use-case. In the first phase, we introduce a zero-shot,
multi-stage reasoning approach which enables LLMs to produce and refine a label
taxonomy iteratively. In the second phase, LLMs are used as data labelers that
yield training samples so that lightweight supervised classifiers can be
reliably built, deployed, and served at scale. We apply TnT-LLM to the analysis
of user intent and conversational domain for Bing Copilot (formerly Bing Chat),
an open-domain chat-based search engine. Extensive experiments using both human
and automatic evaluation metrics demonstrate that TnT-LLM generates more
accurate and relevant label taxonomies when compared against state-of-the-art
baselines, and achieves a favorable balance between accuracy and efficiency for
classification at scale. We also share our practical experiences and insights
on the challenges and opportunities of using LLMs for large-scale text mining
in real-world applications.