Bedingte Hypothesengenerierung für LLM-basierte Textanalyse mit forscherdefinierten Kovariaten

Zusammenfassung

Ein zentrales Ziel der Computational Social Science ist es, interpretierbare Unterschiede darin zu entdecken, wie Sprache über interessierende Ergebnisvariablen wie politische Zugehörigkeit oder Unterrichtsqualität variiert. Aktuelle auf großen Sprachmodellen basierende Hypothesengenerierungsmethoden beschreiben solche Unterschiede in natürlicher Sprache, wählen jedoch global diskriminative Muster aus, ohne Kovariate zu berücksichtigen, die die Daten basierend auf dem Domänenwissen der Forscher formen. Wenn Kovariate ignoriert werden, können ausgewählte Muster eher Störfaktoren widerspiegeln als substanziell interessante Unterschiede. Wir führen die konditionale Hypothesengenerierung ein, ein Rahmenwerk, das forscherspezifizierte Kovariate einbezieht, um die Hypothesenentdeckung auf Unterschiede zu lenken, die innerhalb relevanter Untergruppen bestehen. Dabei treten zwei Herausforderungen auf: Die Zieluntergruppe kann unterrepräsentiert sein (Schichtungsumgleichgewicht), und die Richtung eines Unterschieds kann sich über Untergruppen hinweg umkehren (Vorzeichenumkehr). Wir schlagen zwei von der Ökonometrie inspirierte Methoden vor: Eine führt Merkmal-Kovariat-Interaktionen ein, um Vorzeichenumkehrungen zu erkennen, und die andere wendet innerhalb der Schichten Mittelwertzentrierung und inverse Häufigkeitsgewichtung an, um unterrepräsentierte Schichten auszugleichen. Synthetische Experimente zeigen, dass jede Methode in ihrem Zielsetting globale Basislinien übertrifft, und eine Expertenbewertung an zwei realen Datensätzen bestätigt, dass kovariatbewusste Generierung nützlichere Hypothesen innerhalb relevanter Untergruppen hervorbringt.

English

A core goal of computational social science is to discover interpretable differences in how language varies across outcomes of interest, such as political affiliation or instructional quality. Recent LLM-based hypothesis generation methods describe such differences in natural language, but select for globally discriminative patterns without accounting for covariates that shape the data based on researchers' domain knowledge. When covariates are ignored, selected patterns can reflect confounds rather than differences of substantive interest. We introduce conditional hypothesis generation, a framework that incorporates researcher-specified covariates to steer hypothesis discovery toward differences that hold within relevant subgroups. Two challenges arise: the target subgroup may be underrepresented (stratum imbalance), and the direction of a difference may reverse across subgroups (sign reversal). We propose two econometrics-inspired methods: one introduces feature--covariate interactions to detect sign reversals, and the other applies within-stratum demeaning and inverse-frequency reweighting to equalize underrepresented strata. Synthetic experiments show each method outperforms global baselines in its targeted setting, and expert evaluation on two real-world datasets confirms that covariate-aware generation surfaces more useful hypotheses within relevant subgroups.