Schnell und Einfach: 2-Simpliziale Aufmerksamkeit in Triton

papers.abstract

Aktuelle Arbeiten haben gezeigt, dass der Trainingsverlust als Potenzgesetz sowohl mit der Modellgröße als auch mit der Anzahl der Tokens skaliert und dass die Erreichung rechenoptimaler Modelle eine gemeinsame Skalierung von Modellgröße und Tokenanzahl erfordert. Diese Skalierungsgesetze gehen jedoch von einer unbegrenzten Datenmenge aus und gelten hauptsächlich in rechenbeschränkten Szenarien. Da moderne große Sprachmodelle zunehmend auf massive, internetgroße Datensätze angewiesen sind, wird die Annahme, dass sie rechenbeschränkt sind, immer weniger zutreffend. Diese Verschiebung unterstreicht die Notwendigkeit von Architekturen, die die Token-Effizienz priorisieren. In dieser Arbeit untersuchen wir die Verwendung des 2-simplizialen Transformers, einer Architektur, die die Standard-Dot-Produkt-Attention auf trilineare Funktionen verallgemeinert und durch eine effiziente Triton-Kernel-Implementierung realisiert wird. Wir zeigen, dass der 2-simpliziale Transformer eine bessere Token-Effizienz als Standard-Transformer erreicht: Bei einem festen Token-Budget übertreffen gleich große Modelle ihre Dot-Produkt-Pendants bei Aufgaben in den Bereichen Mathematik, Programmierung, logisches Denken und Logik. Wir quantifizieren diese Verbesserungen, indem wir demonstrieren, dass die 2-simpliziale Attention den Exponenten in den Skalierungsgesetzen für Wissens- und Denkaufgaben im Vergleich zur Dot-Produkt-Attention verändert.

English

Recent work has shown that training loss scales as a power law with both model size and the number of tokens, and that achieving compute-optimal models requires scaling model size and token count together. However, these scaling laws assume an infinite supply of data and apply primarily in compute-bound settings. As modern large language models increasingly rely on massive internet-scale datasets, the assumption that they are compute-bound is becoming less valid. This shift highlights the need for architectures that prioritize token efficiency. In this work, we investigate the use of the 2-simplicial Transformer, an architecture that generalizes standard dot-product attention to trilinear functions through an efficient Triton kernel implementation. We demonstrate that the 2-simplicial Transformer achieves better token efficiency than standard Transformers: for a fixed token budget, similarly sized models outperform their dot-product counterparts on tasks involving mathematics, coding, reasoning, and logic. We quantify these gains by demonstrating that 2-simplicial attention changes the exponent in the scaling laws for knowledge and reasoning tasks compared to dot product attention.

Schnell und Einfach: 2-Simpliziale Aufmerksamkeit in Triton

Fast and Simplex: 2-Simplicial Attention in Triton

papers.abstract

Support