SurvHTE-Bench: Um Benchmark para a Estimação de Efeito do Tratamento Heterogêneo em Análise de Sobrevivência

Resumo

A estimação de efeitos heterogêneos do tratamento (EHTs) a partir de dados de sobrevivência com censura à direita é crítica em aplicações de alto impacto, como a medicina de precisão e a formulação de políticas individualizadas. No entanto, o cenário da análise de sobrevivência apresenta desafios únicos para a estimação de EHTs devido à censura, aos contrafactuais não observados e a complexas suposições de identificação. Apesar dos avanços recentes, desde as Florestas de Sobrevivência Causal até os meta-aprendizes de sobrevivência e abordagens de imputação de resultados, as práticas de avaliação permanecem fragmentadas e inconsistentes. Apresentamos o SurvHTE-Bench, o primeiro benchmark abrangente para a estimação de EHTs com resultados censurados. O benchmark abrange (i) um conjunto modular de conjuntos de dados sintéticos com verdade real conhecida, variando sistematicamente suposições causais e dinâmicas de sobrevivência, (ii) conjuntos de dados semi-sintéticos que combinam covariáveis do mundo real com tratamentos e resultados simulados, e (iii) conjuntos de dados do mundo real de um estudo com gémeos (com verdade real conhecida) e de um ensaio clínico sobre o VIH. Através de configurações sintéticas, semi-sintéticas e do mundo real, fornecemos a primeira comparação rigorosa de métodos de EHTs de sobrevivência sob diversas condições e violações realistas das suposições. O SurvHTE-Bench estabelece uma base para uma avaliação justa, reproduzível e extensível de métodos causais de sobrevivência. Os dados e o código do nosso benchmark estão disponíveis em: https://github.com/Shahriarnz14/SurvHTE-Bench.

English

Estimating heterogeneous treatment effects (HTEs) from right-censored survival data is critical in high-stakes applications such as precision medicine and individualized policy-making. Yet, the survival analysis setting poses unique challenges for HTE estimation due to censoring, unobserved counterfactuals, and complex identification assumptions. Despite recent advances, from Causal Survival Forests to survival meta-learners and outcome imputation approaches, evaluation practices remain fragmented and inconsistent. We introduce SurvHTE-Bench, the first comprehensive benchmark for HTE estimation with censored outcomes. The benchmark spans (i) a modular suite of synthetic datasets with known ground truth, systematically varying causal assumptions and survival dynamics, (ii) semi-synthetic datasets that pair real-world covariates with simulated treatments and outcomes, and (iii) real-world datasets from a twin study (with known ground truth) and from an HIV clinical trial. Across synthetic, semi-synthetic, and real-world settings, we provide the first rigorous comparison of survival HTE methods under diverse conditions and realistic assumption violations. SurvHTE-Bench establishes a foundation for fair, reproducible, and extensible evaluation of causal survival methods. The data and code of our benchmark are available at: https://github.com/Shahriarnz14/SurvHTE-Bench .