Orion-MSP: Atención Dispersa Multi-Escala para el Aprendizaje en Contexto en Datos Tabulares

Resumen

Los datos tabulares siguen siendo el formato predominante en aplicaciones del mundo real. Sin embargo, el desarrollo de modelos neuronales efectivos para datos tabulares sigue siendo un desafío debido a la heterogeneidad de los tipos de características y a las interacciones complejas que ocurren a múltiples escalas. Los avances recientes en el aprendizaje en contexto (ICL) para datos tabulares, como TabPFN y TabICL, han logrado un rendimiento de vanguardia comparable al de los árboles potenciados por gradiente (GBTs) sin una ajuste fino específico de la tarea. No obstante, las arquitecturas actuales presentan limitaciones clave: (1) procesamiento de características a escala única que pasa por alto las dependencias jerárquicas, (2) atención densa con escalado cuadrático en el ancho de la tabla, y (3) procesamiento estrictamente secuencial de componentes que impide el refinamiento iterativo de representaciones y la comunicación cruzada entre componentes. Para abordar estos desafíos, presentamos Orion-MSP, una arquitectura de ICL tabular que presenta tres innovaciones clave: (1) procesamiento multi-escala para capturar interacciones jerárquicas de características; (2) atención bloque-esparsa que combina patrones de ventana, globales y aleatorios para una eficiencia escalable y conectividad de largo alcance; y (3) una memoria estilo Perceiver que permite un flujo bidireccional seguro de información entre componentes. En diversos puntos de referencia, Orion-MSP iguala o supera el rendimiento de vanguardia mientras escala eficazmente a tablas de alta dimensionalidad, estableciendo un nuevo estándar para el aprendizaje en contexto tabular eficiente. El modelo está disponible públicamente en https://github.com/Lexsi-Labs/Orion-MSP.

English

Tabular data remain the predominant format for real-world applications. Yet, developing effective neural models for tabular data remains challenging due to heterogeneous feature types and complex interactions occurring at multiple scales. Recent advances in tabular in-context learning (ICL), such as TabPFN and TabICL, have achieved state-of-the-art performance comparable to gradient-boosted trees (GBTs) without task-specific fine-tuning. However, current architectures exhibit key limitations: (1) single-scale feature processing that overlooks hierarchical dependencies, (2) dense attention with quadratic scaling in table width, and (3) strictly sequential component processing that prevents iterative representation refinement and cross-component communication. To address these challenges, we introduce Orion-MSP, a tabular ICL architecture featuring three key innovations: (1) multi-scale processing to capture hierarchical feature interactions; (2) block-sparse attention combining windowed, global, and random patterns for scalable efficiency and long-range connectivity; and (3) a Perceiver-style memory enabling safe bidirectional information flow across components. Across diverse benchmarks, Orion-MSP matches or surpasses state-of-the-art performance while scaling effectively to high-dimensional tables, establishing a new standard for efficient tabular in-context learning. The model is publicly available at https://github.com/Lexsi-Labs/Orion-MSP .

Orion-MSP: Atención Dispersa Multi-Escala para el Aprendizaje en Contexto en Datos Tabulares

Orion-MSP: Multi-Scale Sparse Attention for Tabular In-Context Learning

Resumen

Support