ChatPaper.aiChatPaper

TnT-LLM: Minería de Texto a Escala con Modelos de Lenguaje de Gran Tamaño

TnT-LLM: Text Mining at Scale with Large Language Models

March 18, 2024
Autores: Mengting Wan, Tara Safavi, Sujay Kumar Jauhar, Yujin Kim, Scott Counts, Jennifer Neville, Siddharth Suri, Chirag Shah, Ryen W White, Longqi Yang, Reid Andersen, Georg Buscher, Dhruv Joshi, Nagu Rangan
cs.AI

Resumen

Transformar texto no estructurado en formas estructuradas y significativas, organizadas mediante etiquetas de categorías útiles, es un paso fundamental en la minería de texto para análisis y aplicaciones posteriores. Sin embargo, la mayoría de los métodos existentes para producir taxonomías de etiquetas y construir clasificadores de texto basados en etiquetas aún dependen en gran medida de la experiencia de dominio y la curación manual, lo que hace que el proceso sea costoso y lento. Esto es particularmente desafiante cuando el espacio de etiquetas está subespecificado y no se dispone de anotaciones de datos a gran escala. En este artículo, abordamos estos desafíos con Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), cuya interfaz basada en prompts facilita la inducción y el uso de etiquetas pseudo a gran escala. Proponemos TnT-LLM, un marco de trabajo de dos fases que emplea LLMs para automatizar el proceso de generación y asignación de etiquetas de extremo a extremo con un esfuerzo humano mínimo para cualquier caso de uso. En la primera fase, introducimos un enfoque de razonamiento en múltiples etapas y sin ejemplos previos (zero-shot) que permite a los LLMs producir y refinar una taxonomía de etiquetas de manera iterativa. En la segunda fase, los LLMs se utilizan como etiquetadores de datos que generan muestras de entrenamiento para que se puedan construir, implementar y servir clasificadores supervisados ligeros de manera confiable y a gran escala. Aplicamos TnT-LLM al análisis de la intención del usuario y el dominio conversacional de Bing Copilot (anteriormente Bing Chat), un motor de búsqueda de chat de dominio abierto. Experimentos extensos utilizando métricas de evaluación tanto humanas como automáticas demuestran que TnT-LLM genera taxonomías de etiquetas más precisas y relevantes en comparación con los métodos de referencia más avanzados, y logra un equilibrio favorable entre precisión y eficiencia para la clasificación a gran escala. También compartimos nuestras experiencias prácticas y reflexiones sobre los desafíos y oportunidades de usar LLMs para la minería de texto a gran escala en aplicaciones del mundo real.
English
Transforming unstructured text into structured and meaningful forms, organized by useful category labels, is a fundamental step in text mining for downstream analysis and application. However, most existing methods for producing label taxonomies and building text-based label classifiers still rely heavily on domain expertise and manual curation, making the process expensive and time-consuming. This is particularly challenging when the label space is under-specified and large-scale data annotations are unavailable. In this paper, we address these challenges with Large Language Models (LLMs), whose prompt-based interface facilitates the induction and use of large-scale pseudo labels. We propose TnT-LLM, a two-phase framework that employs LLMs to automate the process of end-to-end label generation and assignment with minimal human effort for any given use-case. In the first phase, we introduce a zero-shot, multi-stage reasoning approach which enables LLMs to produce and refine a label taxonomy iteratively. In the second phase, LLMs are used as data labelers that yield training samples so that lightweight supervised classifiers can be reliably built, deployed, and served at scale. We apply TnT-LLM to the analysis of user intent and conversational domain for Bing Copilot (formerly Bing Chat), an open-domain chat-based search engine. Extensive experiments using both human and automatic evaluation metrics demonstrate that TnT-LLM generates more accurate and relevant label taxonomies when compared against state-of-the-art baselines, and achieves a favorable balance between accuracy and efficiency for classification at scale. We also share our practical experiences and insights on the challenges and opportunities of using LLMs for large-scale text mining in real-world applications.

Summary

AI-Generated Summary

PDF212December 15, 2024