Visualizzare la Diversità Linguistica dei Dataset di Testo Sintetizzati da Modelli Linguistici di Grande Scala
Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models
May 19, 2023
Autori: Emily Reif, Minsuk Kahng, Savvas Petridis
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per generare dataset più piccoli e raffinati attraverso il prompting few-shot, utili per benchmarking, fine-tuning o altri casi d'uso. Tuttavia, comprendere e valutare questi dataset è complesso, e le modalità di fallimento dei dati generati da LLM non sono ancora ben comprese. In particolare, i dati possono risultare ripetitivi in modi sorprendenti, non solo semanticamente ma anche sintatticamente e lessicalmente. Presentiamo LinguisticLens, un nuovo strumento di visualizzazione interattivo per analizzare e comprendere la diversità sintattica dei dataset generati da LLM. LinguisticLens raggruppa il testo lungo assi sintattici, lessicali e semantici. Supporta la visualizzazione gerarchica di un dataset testuale, consentendo agli utenti di ottenere rapidamente una panoramica e di ispezionare singoli esempi. La demo live è disponibile all'indirizzo shorturl.at/zHOUV.
English
Large language models (LLMs) can be used to generate smaller, more refined
datasets via few-shot prompting for benchmarking, fine-tuning or other use
cases. However, understanding and evaluating these datasets is difficult, and
the failure modes of LLM-generated data are still not well understood.
Specifically, the data can be repetitive in surprising ways, not only
semantically but also syntactically and lexically. We present LinguisticLens, a
novel inter-active visualization tool for making sense of and analyzing
syntactic diversity of LLM-generated datasets. LinguisticLens clusters text
along syntactic, lexical, and semantic axes. It supports hierarchical
visualization of a text dataset, allowing users to quickly scan for an overview
and inspect individual examples. The live demo is available at
shorturl.at/zHOUV.