CASS: Transpilación de Nvidia a AMD con Datos, Modelos y Evaluación Comparativa
CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark
May 22, 2025
Autores: Ahmed Heakl, Sarim Hashmi, Gustavo Bertolo Stahl, Seung Hun Eddie Han, Salman Khan, Abdulrahman Mahmoud
cs.AI
Resumen
Presentamos CASS, el primer conjunto de datos a gran escala y suite de modelos para la transpilación de código GPU entre arquitecturas, abordando tanto la traducción a nivel de código fuente (CUDA ↔ HIP) como a nivel de ensamblador (Nvidia SASS ↔ AMD RDNA3). El conjunto de datos incluye 70k pares de código verificados en el host y el dispositivo, abordando una brecha crítica en la portabilidad de código GPU de bajo nivel. Aprovechando este recurso, entrenamos la familia de modelos de lenguaje específicos de dominio CASS, logrando un 95% de precisión en la traducción de código fuente y un 37.5% en la traducción de ensamblador, superando sustancialmente líneas de base comerciales como GPT-4o, Claude e Hipify. Nuestro código generado coincide con el rendimiento nativo en más del 85% de los casos de prueba, preservando el comportamiento en tiempo de ejecución y memoria. Para apoyar una evaluación rigurosa, introducimos CASS-Bench, un benchmark curado que abarca 16 dominios de GPU con ejecución de referencia. Todos los datos, modelos y herramientas de evaluación se publican como código abierto para fomentar el avance en herramientas de compilación GPU, compatibilidad binaria y traducción de hardware guiada por LLM. El conjunto de datos y el benchmark están disponibles en https://huggingface.co/datasets/MBZUAI/cass{HuggingFace}, con el código en https://github.com/GustavoStahl/CASS{GitHub}.
English
We introduce CASS, the first large-scale dataset and model suite for
cross-architecture GPU code transpilation, targeting both source-level (CUDA
leftrightarrow HIP) and assembly-level (Nvidia SASS leftrightarrow AMD
RDNA3) translation. The dataset comprises 70k verified code pairs across host
and device, addressing a critical gap in low-level GPU code portability.
Leveraging this resource, we train the CASS family of domain-specific language
models, achieving 95% source translation accuracy and 37.5% assembly
translation accuracy, substantially outperforming commercial baselines such as
GPT-4o, Claude, and Hipify. Our generated code matches native performance in
over 85% of test cases, preserving runtime and memory behavior. To support
rigorous evaluation, we introduce CASS-Bench, a curated benchmark spanning 16
GPU domains with ground-truth execution. All data, models, and evaluation tools
are released as open source to foster progress in GPU compiler tooling, binary
compatibility, and LLM-guided hardware translation. Dataset and benchmark are
on
https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}},
with code at
https://github.com/GustavoStahl/CASS{blue{GitHub}}.Summary
AI-Generated Summary