CASS : Transpilation de Nvidia vers AMD avec Données, Modèles et Benchmark
CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark
May 22, 2025
Auteurs: Ahmed Heakl, Sarim Hashmi, Gustavo Bertolo Stahl, Seung Hun Eddie Han, Salman Khan, Abdulrahman Mahmoud
cs.AI
Résumé
Nous présentons CASS, le premier ensemble de données à grande échelle et suite de modèles dédiés à la transpilation de code GPU inter-architecture, ciblant à la fois la traduction au niveau source (CUDA ↔ HIP) et au niveau assembleur (Nvidia SASS ↔ AMD RDNA3). Le jeu de données comprend 70 000 paires de code vérifiées, couvrant à la fois le code hôte et le code périphérique, comblant ainsi une lacune critique en matière de portabilité du code GPU de bas niveau. En exploitant cette ressource, nous entraînons la famille de modèles de langage spécifiques au domaine CASS, atteignant une précision de 95 % pour la traduction source et de 37,5 % pour la traduction assembleur, surpassant largement les solutions commerciales telles que GPT-4o, Claude et Hipify. Notre code généré correspond aux performances natives dans plus de 85 % des cas de test, préservant le comportement en temps d'exécution et en mémoire. Pour soutenir une évaluation rigoureuse, nous introduisons CASS-Bench, un benchmark soigneusement sélectionné couvrant 16 domaines GPU avec une exécution de référence. Toutes les données, modèles et outils d'évaluation sont publiés en open source pour favoriser les avancées dans les outils de compilation GPU, la compatibilité binaire et la traduction matérielle guidée par LLM. Le jeu de données et le benchmark sont disponibles sur https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, avec le code sur https://github.com/GustavoStahl/CASS{blue{GitHub}}.
English
We introduce CASS, the first large-scale dataset and model suite for
cross-architecture GPU code transpilation, targeting both source-level (CUDA
leftrightarrow HIP) and assembly-level (Nvidia SASS leftrightarrow AMD
RDNA3) translation. The dataset comprises 70k verified code pairs across host
and device, addressing a critical gap in low-level GPU code portability.
Leveraging this resource, we train the CASS family of domain-specific language
models, achieving 95% source translation accuracy and 37.5% assembly
translation accuracy, substantially outperforming commercial baselines such as
GPT-4o, Claude, and Hipify. Our generated code matches native performance in
over 85% of test cases, preserving runtime and memory behavior. To support
rigorous evaluation, we introduce CASS-Bench, a curated benchmark spanning 16
GPU domains with ground-truth execution. All data, models, and evaluation tools
are released as open source to foster progress in GPU compiler tooling, binary
compatibility, and LLM-guided hardware translation. Dataset and benchmark are
on
https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}},
with code at
https://github.com/GustavoStahl/CASS{blue{GitHub}}.Summary
AI-Generated Summary