연구자 지정 공변량을 활용한 LLM 기반 텍스트 분석을 위한 조건부 가설 생성
Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates
June 2, 2026
저자: Paiheng Xu, Jing Liu, Wei Ai
cs.AI
초록
계산 사회과학의 핵심 목표 중 하나는 정치적 성향이나 교육의 질과 같은 관심 결과에 따라 언어가 어떻게 달라지는지에 대한 해석 가능한 차이를 발견하는 것이다. 최근의 LLM 기반 가설 생성 방법은 이러한 차이를 자연어로 기술하지만, 연구자의 도메인 지식에 기반하여 데이터를 형성하는 공변량을 고려하지 않은 채 전역적으로 판별적인 패턴만을 선택한다. 공변량을 무시할 경우, 선택된 패턴은 실질적 관심사의 차이가 아닌 혼동 요인을 반영할 수 있다. 우리는 연구자가 지정한 공변량을 통합하여 가설 발견을 관련 하위 집단 내에서 성립하는 차이로 유도하는 조건부 가설 생성 프레임워크를 소개한다. 이 과정에서 두 가지 과제가 발생한다. 즉, 목표 하위 집단이 과소 대표될 수 있고(층 불균형), 차이의 방향이 하위 집단 간에 역전될 수 있다(부호 역전). 우리는 두 가지 계량경제학에서 영감을 얻은 방법을 제안한다. 하나는 특징-공변량 상호작용을 도입하여 부호 역전을 탐지하는 방법이고, 다른 하나는 층 내 평균 제거와 역빈도 재가중을 적용하여 과소 대표된 층을 균등화하는 방법이다. 합성 실험은 각 방법이 의도된 환경에서 전역 기준선보다 더 나은 성능을 보임을 입증하며, 두 실제 데이터셋에 대한 전문가 평가는 공변량을 인식한 생성이 관련 하위 집단 내에서 더 유용한 가설을 도출함을 확인한다.
English
A core goal of computational social science is to discover interpretable differences in how language varies across outcomes of interest, such as political affiliation or instructional quality. Recent LLM-based hypothesis generation methods describe such differences in natural language, but select for globally discriminative patterns without accounting for covariates that shape the data based on researchers' domain knowledge. When covariates are ignored, selected patterns can reflect confounds rather than differences of substantive interest. We introduce conditional hypothesis generation, a framework that incorporates researcher-specified covariates to steer hypothesis discovery toward differences that hold within relevant subgroups. Two challenges arise: the target subgroup may be underrepresented (stratum imbalance), and the direction of a difference may reverse across subgroups (sign reversal). We propose two econometrics-inspired methods: one introduces feature--covariate interactions to detect sign reversals, and the other applies within-stratum demeaning and inverse-frequency reweighting to equalize underrepresented strata. Synthetic experiments show each method outperforms global baselines in its targeted setting, and expert evaluation on two real-world datasets confirms that covariate-aware generation surfaces more useful hypotheses within relevant subgroups.