CASS: Nvidia-zu-AMD-Transpilation mit Daten, Modellen und Benchmarking
CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark
May 22, 2025
Autoren: Ahmed Heakl, Sarim Hashmi, Gustavo Bertolo Stahl, Seung Hun Eddie Han, Salman Khan, Abdulrahman Mahmoud
cs.AI
Zusammenfassung
Wir stellen CASS vor, das erste groß angelegte Datensatz- und Modellpaket für die Cross-Architecture-GPU-Code-Transpilation, das sowohl die Übersetzung auf Quellcodeebene (CUDA ↔ HIP) als auch auf Assembler-Ebene (Nvidia SASS ↔ AMD RDNA3) abdeckt. Der Datensatz umfasst 70.000 verifizierte Code-Paare für Host und Device und schließt damit eine entscheidende Lücke in der Portabilität von Low-Level-GPU-Code. Mithilfe dieser Ressource trainieren wir die CASS-Familie von domänenspezifischen Sprachmodellen, die eine Quellcode-Übersetzungsgenauigkeit von 95 % und eine Assembler-Übersetzungsgenauigkeit von 37,5 % erreichen und damit kommerzielle Baselines wie GPT-4o, Claude und Hipify deutlich übertreffen. Unser generierter Code erreicht in über 85 % der Testfälle native Leistung und bewahrt Laufzeit- und Speicherverhalten. Zur Unterstützung einer rigorosen Evaluation führen wir CASS-Bench ein, einen kuratierten Benchmark, der 16 GPU-Domänen mit Ground-Truth-Ausführung abdeckt. Alle Daten, Modelle und Evaluierungstools werden als Open Source veröffentlicht, um Fortschritte in GPU-Compiler-Tools, Binärkompatibilität und LLM-gesteuerter Hardware-Übersetzung zu fördern. Der Datensatz und der Benchmark sind auf https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}} verfügbar, der Code unter https://github.com/GustavoStahl/CASS{blue{GitHub}}.
English
We introduce CASS, the first large-scale dataset and model suite for
cross-architecture GPU code transpilation, targeting both source-level (CUDA
leftrightarrow HIP) and assembly-level (Nvidia SASS leftrightarrow AMD
RDNA3) translation. The dataset comprises 70k verified code pairs across host
and device, addressing a critical gap in low-level GPU code portability.
Leveraging this resource, we train the CASS family of domain-specific language
models, achieving 95% source translation accuracy and 37.5% assembly
translation accuracy, substantially outperforming commercial baselines such as
GPT-4o, Claude, and Hipify. Our generated code matches native performance in
over 85% of test cases, preserving runtime and memory behavior. To support
rigorous evaluation, we introduce CASS-Bench, a curated benchmark spanning 16
GPU domains with ground-truth execution. All data, models, and evaluation tools
are released as open source to foster progress in GPU compiler tooling, binary
compatibility, and LLM-guided hardware translation. Dataset and benchmark are
on
https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}},
with code at
https://github.com/GustavoStahl/CASS{blue{GitHub}}.Summary
AI-Generated Summary