ChatPaper.aiChatPaper

TnT-LLM: Анализ текста в масштабе с использованием больших языковых моделей

TnT-LLM: Text Mining at Scale with Large Language Models

March 18, 2024
Авторы: Mengting Wan, Tara Safavi, Sujay Kumar Jauhar, Yujin Kim, Scott Counts, Jennifer Neville, Siddharth Suri, Chirag Shah, Ryen W White, Longqi Yang, Reid Andersen, Georg Buscher, Dhruv Joshi, Nagu Rangan
cs.AI

Аннотация

Преобразование неструктурированного текста в структурированные и содержательные формы, организованные по полезным категориям, является фундаментальным этапом в текстовом майнинге для последующего анализа и применения. Однако большинство существующих методов создания таксономий меток и построения классификаторов на основе текста по-прежнему сильно зависят от предметной экспертизы и ручной кураторской работы, что делает процесс затратным и длительным. Это особенно сложно, когда пространство меток недостаточно определено, а аннотации данных в большом масштабе недоступны. В данной статье мы решаем эти проблемы с помощью больших языковых моделей (LLM), чей интерфейс на основе подсказок облегчает индукцию и использование псевдометок в большом масштабе. Мы предлагаем TnT-LLM, двухфазовую структуру, которая использует LLM для автоматизации процесса генерации и присвоения меток с минимальными усилиями человека для любого конкретного случая использования. На первой фазе мы представляем подход с нулевым обучением, многоэтапный метод рассуждения, который позволяет LLM производить и уточнять таксономию меток итеративно. На второй фазе LLM используются в качестве разметчиков данных, которые предоставляют обучающие выборки, чтобы можно было надежно создавать, развертывать и обслуживать легкие классификаторы с учителем на большом масштабе. Мы применяем TnT-LLM для анализа намерений пользователей и области разговора для Bing Copilot (ранее Bing Chat), поискового движка на основе чатов в открытой области. Обширные эксперименты с использованием как человеческих, так и автоматических метрик оценки демонстрируют, что TnT-LLM генерирует более точные и актуальные таксономии меток по сравнению с передовыми базовыми уровнями и достигает благоприятного баланса между точностью и эффективностью для классификации в большом масштабе. Мы также делимся нашими практическими опытом и идеями о проблемах и возможностях использования LLM для текстового майнинга в большом масштабе в прикладных задачах в реальном мире.
English
Transforming unstructured text into structured and meaningful forms, organized by useful category labels, is a fundamental step in text mining for downstream analysis and application. However, most existing methods for producing label taxonomies and building text-based label classifiers still rely heavily on domain expertise and manual curation, making the process expensive and time-consuming. This is particularly challenging when the label space is under-specified and large-scale data annotations are unavailable. In this paper, we address these challenges with Large Language Models (LLMs), whose prompt-based interface facilitates the induction and use of large-scale pseudo labels. We propose TnT-LLM, a two-phase framework that employs LLMs to automate the process of end-to-end label generation and assignment with minimal human effort for any given use-case. In the first phase, we introduce a zero-shot, multi-stage reasoning approach which enables LLMs to produce and refine a label taxonomy iteratively. In the second phase, LLMs are used as data labelers that yield training samples so that lightweight supervised classifiers can be reliably built, deployed, and served at scale. We apply TnT-LLM to the analysis of user intent and conversational domain for Bing Copilot (formerly Bing Chat), an open-domain chat-based search engine. Extensive experiments using both human and automatic evaluation metrics demonstrate that TnT-LLM generates more accurate and relevant label taxonomies when compared against state-of-the-art baselines, and achieves a favorable balance between accuracy and efficiency for classification at scale. We also share our practical experiences and insights on the challenges and opportunities of using LLMs for large-scale text mining in real-world applications.
PDF212December 15, 2024