Rápido y Simple: Atención 2-Simpléctica en Triton

Resumen

Trabajos recientes han demostrado que la pérdida durante el entrenamiento escala como una ley de potencia tanto con el tamaño del modelo como con el número de tokens, y que lograr modelos óptimos en términos de cómputo requiere escalar conjuntamente el tamaño del modelo y el recuento de tokens. Sin embargo, estas leyes de escalado asumen un suministro infinito de datos y se aplican principalmente en entornos limitados por el cómputo. A medida que los modelos de lenguaje modernos y de gran escala dependen cada vez más de conjuntos de datos masivos a escala de internet, la suposición de que están limitados por el cómputo se está volviendo menos válida. Este cambio resalta la necesidad de arquitecturas que prioricen la eficiencia en el uso de tokens. En este trabajo, investigamos el uso del Transformer 2-simplicial, una arquitectura que generaliza la atención estándar de producto punto a funciones trilineales mediante una implementación eficiente de un kernel Triton. Demostramos que el Transformer 2-simplicial logra una mayor eficiencia en el uso de tokens que los Transformers estándar: para un presupuesto fijo de tokens, modelos de tamaño similar superan a sus contrapartes de producto punto en tareas que involucran matemáticas, programación, razonamiento y lógica. Cuantificamos estas mejoras al demostrar que la atención 2-simplicial modifica el exponente en las leyes de escalado para tareas de conocimiento y razonamiento en comparación con la atención de producto punto.

English

Recent work has shown that training loss scales as a power law with both model size and the number of tokens, and that achieving compute-optimal models requires scaling model size and token count together. However, these scaling laws assume an infinite supply of data and apply primarily in compute-bound settings. As modern large language models increasingly rely on massive internet-scale datasets, the assumption that they are compute-bound is becoming less valid. This shift highlights the need for architectures that prioritize token efficiency. In this work, we investigate the use of the 2-simplicial Transformer, an architecture that generalizes standard dot-product attention to trilinear functions through an efficient Triton kernel implementation. We demonstrate that the 2-simplicial Transformer achieves better token efficiency than standard Transformers: for a fixed token budget, similarly sized models outperform their dot-product counterparts on tasks involving mathematics, coding, reasoning, and logic. We quantify these gains by demonstrating that 2-simplicial attention changes the exponent in the scaling laws for knowledge and reasoning tasks compared to dot product attention.

Rápido y Simple: Atención 2-Simpléctica en Triton

Fast and Simplex: 2-Simplicial Attention in Triton

Resumen

Support