CASS : Transpilation de Nvidia vers AMD avec Données, Modèles et Benchmark

papers.abstract

Nous présentons CASS, le premier ensemble de données à grande échelle et suite de modèles dédiés à la transpilation de code GPU inter-architecture, ciblant à la fois la traduction au niveau source (CUDA ↔ HIP) et au niveau assembleur (Nvidia SASS ↔ AMD RDNA3). Le jeu de données comprend 70 000 paires de code vérifiées, couvrant à la fois le code hôte et le code périphérique, comblant ainsi une lacune critique en matière de portabilité du code GPU de bas niveau. En exploitant cette ressource, nous entraînons la famille de modèles de langage spécifiques au domaine CASS, atteignant une précision de 95 % pour la traduction source et de 37,5 % pour la traduction assembleur, surpassant largement les solutions commerciales telles que GPT-4o, Claude et Hipify. Notre code généré correspond aux performances natives dans plus de 85 % des cas de test, préservant le comportement en temps d'exécution et en mémoire. Pour soutenir une évaluation rigoureuse, nous introduisons CASS-Bench, un benchmark soigneusement sélectionné couvrant 16 domaines GPU avec une exécution de référence. Toutes les données, modèles et outils d'évaluation sont publiés en open source pour favoriser les avancées dans les outils de compilation GPU, la compatibilité binaire et la traduction matérielle guidée par LLM. Le jeu de données et le benchmark sont disponibles sur https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, avec le code sur https://github.com/GustavoStahl/CASS{blue{GitHub}}.

English

We introduce CASS, the first large-scale dataset and model suite for cross-architecture GPU code transpilation, targeting both source-level (CUDA leftrightarrow HIP) and assembly-level (Nvidia SASS leftrightarrow AMD RDNA3) translation. The dataset comprises 70k verified code pairs across host and device, addressing a critical gap in low-level GPU code portability. Leveraging this resource, we train the CASS family of domain-specific language models, achieving 95% source translation accuracy and 37.5% assembly translation accuracy, substantially outperforming commercial baselines such as GPT-4o, Claude, and Hipify. Our generated code matches native performance in over 85% of test cases, preserving runtime and memory behavior. To support rigorous evaluation, we introduce CASS-Bench, a curated benchmark spanning 16 GPU domains with ground-truth execution. All data, models, and evaluation tools are released as open source to foster progress in GPU compiler tooling, binary compatibility, and LLM-guided hardware translation. Dataset and benchmark are on https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, with code at https://github.com/GustavoStahl/CASS{blue{GitHub}}.

CASS : Transpilation de Nvidia vers AMD avec Données, Modèles et Benchmark

CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark

papers.abstract

Support