ChatPaper.aiChatPaper

Visualizzare la Diversità Linguistica dei Dataset di Testo Sintetizzati da Modelli Linguistici di Grande Scala

Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models

May 19, 2023
Autori: Emily Reif, Minsuk Kahng, Savvas Petridis
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per generare dataset più piccoli e raffinati attraverso il prompting few-shot, utili per benchmarking, fine-tuning o altri casi d'uso. Tuttavia, comprendere e valutare questi dataset è complesso, e le modalità di fallimento dei dati generati da LLM non sono ancora ben comprese. In particolare, i dati possono risultare ripetitivi in modi sorprendenti, non solo semanticamente ma anche sintatticamente e lessicalmente. Presentiamo LinguisticLens, un nuovo strumento di visualizzazione interattivo per analizzare e comprendere la diversità sintattica dei dataset generati da LLM. LinguisticLens raggruppa il testo lungo assi sintattici, lessicali e semantici. Supporta la visualizzazione gerarchica di un dataset testuale, consentendo agli utenti di ottenere rapidamente una panoramica e di ispezionare singoli esempi. La demo live è disponibile all'indirizzo shorturl.at/zHOUV.
English
Large language models (LLMs) can be used to generate smaller, more refined datasets via few-shot prompting for benchmarking, fine-tuning or other use cases. However, understanding and evaluating these datasets is difficult, and the failure modes of LLM-generated data are still not well understood. Specifically, the data can be repetitive in surprising ways, not only semantically but also syntactically and lexically. We present LinguisticLens, a novel inter-active visualization tool for making sense of and analyzing syntactic diversity of LLM-generated datasets. LinguisticLens clusters text along syntactic, lexical, and semantic axes. It supports hierarchical visualization of a text dataset, allowing users to quickly scan for an overview and inspect individual examples. The live demo is available at shorturl.at/zHOUV.
PDF21February 8, 2026