ChatPaper.aiChatPaper

Analisi Tematica Multi-LLM con Metriche di Affidabilità Duali: Combinare la Kappa di Cohen e la Similarità Semantica per la Validazione della Ricerca Qualitativa

Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

December 23, 2025
Autori: Nilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop
cs.AI

Abstract

La ricerca qualitativa affronta una sfida critica di affidabilità: i metodi tradizionali di accordo tra valutatori richiedono codificatori umani multipli, sono dispendiosi in termini di tempo e spesso producono una consistenza moderata. Presentiamo un quadro di validazione multi-prospettica per l'analisi tematica basata su LLM che combina la validazione d'insieme con metriche duali di affidabilità: il Kappa di Cohen (κ) per l'accordo tra valutatori e la similarità del coseno per la consistenza semantica. Il nostro framework consente parametri di analisi configurabili (1-6 seed, temperatura 0.0-2.0), supporta strutture di prompt personalizzabili con sostituzione di variabili e fornisce l'estrazione di temi consensuali su qualsiasi formato JSON. Come prova concettuale, valutiamo tre LLM leader (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) su una trascrizione di un'intervista di terapia artistica psichedelica, conducendo sei esecuzioni indipendenti per modello. I risultati dimostrano che Gemini raggiunge l'affidabilità più alta (κ= 0.907, coseno=95.3%), seguito da GPT-4o (κ= 0.853, coseno=92.6%) e Claude (κ= 0.842, coseno=92.1%). Tutti e tre i modelli raggiungono un alto accordo (κ> 0.80), convalidando l'approccio d'insieme multi-run. Il framework estrae con successo temi consensuali tra le esecuzioni, con Gemini che identifica 6 temi consensuali (consistenza 50-83%), GPT-4o che ne identifica 5 e Claude 4. La nostra implementazione open-source fornisce ai ricercatori metriche di affidabilità trasparenti, configurazione flessibile ed estrazione del consenso indipendente dalla struttura, stabilendo le basi metodologiche per una ricerca qualitativa assistita dall'IA affidabile.
English
Qualitative research faces a critical reliability challenge: traditional inter-rater agreement methods require multiple human coders, are time-intensive, and often yield moderate consistency. We present a multi-perspective validation framework for LLM-based thematic analysis that combines ensemble validation with dual reliability metrics: Cohen's Kappa (κ) for inter-rater agreement and cosine similarity for semantic consistency. Our framework enables configurable analysis parameters (1-6 seeds, temperature 0.0-2.0), supports custom prompt structures with variable substitution, and provides consensus theme extraction across any JSON format. As proof-of-concept, we evaluate three leading LLMs (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) on a psychedelic art therapy interview transcript, conducting six independent runs per model. Results demonstrate Gemini achieves highest reliability (κ= 0.907, cosine=95.3%), followed by GPT-4o (κ= 0.853, cosine=92.6%) and Claude (κ= 0.842, cosine=92.1%). All three models achieve a high agreement (κ> 0.80), validating the multi-run ensemble approach. The framework successfully extracts consensus themes across runs, with Gemini identifying 6 consensus themes (50-83% consistency), GPT-4o identifying 5 themes, and Claude 4 themes. Our open-source implementation provides researchers with transparent reliability metrics, flexible configuration, and structure-agnostic consensus extraction, establishing methodological foundations for reliable AI-assisted qualitative research.
PDF21December 25, 2025