TabSTAR: Un Modelo Tabular Fundamental con Representaciones Semánticamente Conscientes del ObjetivoTabSTAR: A Foundation Tabular Model With Semantically Target-Aware
Representations
Si bien el aprendizaje profundo ha logrado un éxito notable en muchos dominios, históricamente ha tenido un rendimiento inferior en tareas de aprendizaje tabular, que siguen dominadas por los árboles de decisión con boosting de gradientes (GBDTs). Sin embargo, avances recientes están allanando el camino para los Modelos Fundacionales Tabulares, que pueden aprovechar el conocimiento del mundo real y generalizar en diversos conjuntos de datos, especialmente cuando los datos contienen texto libre. Aunque se ha explorado la incorporación de capacidades de modelos de lenguaje en tareas tabulares, la mayoría de los métodos existentes utilizan representaciones textuales estáticas y agnósticas al objetivo, lo que limita su efectividad. Presentamos TabSTAR: un Modelo Fundacional Tabular con Representaciones Semánticamente Conscientes del Objetivo. TabSTAR está diseñado para permitir el aprendizaje por transferencia en datos tabulares con características textuales, con una arquitectura libre de parámetros específicos del conjunto de datos. Descongela un codificador de texto preentrenado y toma como entrada tokens objetivo, que proporcionan al modelo el contexto necesario para aprender incrustaciones específicas de la tarea. TabSTAR logra un rendimiento de vanguardia tanto en conjuntos de datos medianos como grandes en benchmarks conocidos de tareas de clasificación con características de texto, y su fase de preentrenamiento exhibe leyes de escalamiento en el número de conjuntos de datos, ofreciendo una vía para mejoras adicionales en el rendimiento.