SurvHTE-Bench: Ein Benchmark für die Schätzung heterogener Behandlungseffekte in der Überlebenszeitanalyse

Zusammenfassung

Die Schätzung heterogener Behandlungseffekte (HTE) aus rechtszensierten Überlebensdaten ist entscheidend für hochriskante Anwendungen wie die Präzisionsmedizin und individualisierte politische Entscheidungsfindung. Dennoch stellt das Überlebensanalyse-Setting aufgrund von Zensierung, nicht beobachteten kontrafaktischen Ergebnissen und komplexen Identifikationsannahmen einzigartige Herausforderungen für die HTE-Schätzung dar. Trotz jüngster Fortschritte – von Causal Survival Forests über Survival-Meta-Learner bis hin zu Ergebnismodellierungsansätzen – bleiben Evaluierungspraktiken fragmentiert und inkonsistent. Wir stellen SurvHTE-Bench vor, den ersten umfassenden Benchmark für die HTE-Schätzung mit zensierten Ergebnissen. Der Benchmark umfasst (i) eine modulare Suite synthetischer Datensätze mit bekanntem Ground Truth, die kausale Annahmen und Überlebensdynamiken systematisch variieren, (ii) halbsynthetische Datensätze, die reale Kovariaten mit simulierten Behandlungen und Ergebnissen kombinieren, und (iii) reale Datensätze aus einer Zwillingsstudie (mit bekanntem Ground Truth) und aus einer HIV-Klinikstudie. In synthetischen, halbsynthetischen und realen Settings bieten wir den ersten rigorosen Vergleich von Survival-HTE-Methoden unter verschiedenen Bedingungen und realistischen Annahmeverletzungen. SurvHTE-Bench schafft eine Grundlage für eine faire, reproduzierbare und erweiterbare Evaluierung kausaler Survival-Methoden. Die Daten und der Code unseres Benchmarks sind verfügbar unter: https://github.com/Shahriarnz14/SurvHTE-Bench.

English

Estimating heterogeneous treatment effects (HTEs) from right-censored survival data is critical in high-stakes applications such as precision medicine and individualized policy-making. Yet, the survival analysis setting poses unique challenges for HTE estimation due to censoring, unobserved counterfactuals, and complex identification assumptions. Despite recent advances, from Causal Survival Forests to survival meta-learners and outcome imputation approaches, evaluation practices remain fragmented and inconsistent. We introduce SurvHTE-Bench, the first comprehensive benchmark for HTE estimation with censored outcomes. The benchmark spans (i) a modular suite of synthetic datasets with known ground truth, systematically varying causal assumptions and survival dynamics, (ii) semi-synthetic datasets that pair real-world covariates with simulated treatments and outcomes, and (iii) real-world datasets from a twin study (with known ground truth) and from an HIV clinical trial. Across synthetic, semi-synthetic, and real-world settings, we provide the first rigorous comparison of survival HTE methods under diverse conditions and realistic assumption violations. SurvHTE-Bench establishes a foundation for fair, reproducible, and extensible evaluation of causal survival methods. The data and code of our benchmark are available at: https://github.com/Shahriarnz14/SurvHTE-Bench .

SurvHTE-Bench: Ein Benchmark für die Schätzung heterogener Behandlungseffekte in der Überlebenszeitanalyse

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Zusammenfassung

Support