ChatPaper.aiChatPaper

CASS: Nvidia naar AMD Transpilatie met Data, Modellen en Benchmarking

CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark

May 22, 2025
Auteurs: Ahmed Heakl, Sarim Hashmi, Gustavo Bertolo Stahl, Seung Hun Eddie Han, Salman Khan, Abdulrahman Mahmoud
cs.AI

Samenvatting

We introduceren CASS, de eerste grootschalige dataset en modelsuite voor cross-architectuur GPU-code-transpilatie, gericht op zowel broncode-niveau (CUDA ↔ HIP) als assembly-niveau (Nvidia SASS ↔ AMD RDNA3) vertaling. De dataset omvat 70k geverifieerde codeparen voor zowel host als device, en vult hiermee een kritieke leemte in de draagbaarheid van low-level GPU-code. Met behulp van deze bron trainen we de CASS-familie van domeinspecifieke taalmodellen, waarbij we een nauwkeurigheid van 95% voor broncodevertaling en 37,5% voor assemblyvertaling behalen, wat aanzienlijk beter is dan commerciële baselines zoals GPT-4o, Claude en Hipify. Onze gegenereerde code komt in meer dan 85% van de testgevallen overeen met native prestaties, waarbij runtime- en geheugengedrag behouden blijven. Om rigoureuze evaluatie mogelijk te maken, introduceren we CASS-Bench, een zorgvuldig samengestelde benchmark die 16 GPU-domeinen omvat met grondwaarde-uitvoering. Alle data, modellen en evaluatietools worden als open source vrijgegeven om vooruitgang te bevorderen in GPU-compilertools, binaire compatibiliteit en LLM-gestuurde hardwarevertaling. De dataset en benchmark zijn beschikbaar op https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, met code op https://github.com/GustavoStahl/CASS{blue{GitHub}}.
English
We introduce CASS, the first large-scale dataset and model suite for cross-architecture GPU code transpilation, targeting both source-level (CUDA leftrightarrow HIP) and assembly-level (Nvidia SASS leftrightarrow AMD RDNA3) translation. The dataset comprises 70k verified code pairs across host and device, addressing a critical gap in low-level GPU code portability. Leveraging this resource, we train the CASS family of domain-specific language models, achieving 95% source translation accuracy and 37.5% assembly translation accuracy, substantially outperforming commercial baselines such as GPT-4o, Claude, and Hipify. Our generated code matches native performance in over 85% of test cases, preserving runtime and memory behavior. To support rigorous evaluation, we introduce CASS-Bench, a curated benchmark spanning 16 GPU domains with ground-truth execution. All data, models, and evaluation tools are released as open source to foster progress in GPU compiler tooling, binary compatibility, and LLM-guided hardware translation. Dataset and benchmark are on https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, with code at https://github.com/GustavoStahl/CASS{blue{GitHub}}.
PDF12May 28, 2025