CASS: Транспиляция с Nvidia на AMD с использованием данных, моделей и бенчмаркинга
CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark
May 22, 2025
Авторы: Ahmed Heakl, Sarim Hashmi, Gustavo Bertolo Stahl, Seung Hun Eddie Han, Salman Khan, Abdulrahman Mahmoud
cs.AI
Аннотация
Мы представляем CASS — первый крупномасштабный набор данных и набор моделей для трансляции кода GPU между архитектурами, охватывающий как уровень исходного кода (CUDA ↔ HIP), так и уровень ассемблера (Nvidia SASS ↔ AMD RDNA3). Набор данных включает 70 тысяч проверенных пар кода для хоста и устройства, устраняя критический пробел в переносимости низкоуровневого кода GPU. Используя этот ресурс, мы обучаем семейство специализированных языковых моделей CASS, достигая точности 95% для трансляции исходного кода и 37,5% для трансляции ассемблера, что значительно превосходит коммерческие базовые решения, такие как GPT-4o, Claude и Hipify. Сгенерированный нами код соответствует нативной производительности в более чем 85% тестовых случаев, сохраняя поведение по времени выполнения и использованию памяти. Для строгой оценки мы представляем CASS-Bench — тщательно отобранный бенчмарк, охватывающий 16 областей GPU с эталонным выполнением. Все данные, модели и инструменты оценки выпущены в открытый доступ для стимулирования прогресса в инструментах компиляции GPU, бинарной совместимости и аппаратной трансляции с использованием LLM. Набор данных и бенчмарк доступны на https://huggingface.co/datasets/MBZUAI/cass, а код — на https://github.com/GustavoStahl/CASS.
English
We introduce CASS, the first large-scale dataset and model suite for
cross-architecture GPU code transpilation, targeting both source-level (CUDA
leftrightarrow HIP) and assembly-level (Nvidia SASS leftrightarrow AMD
RDNA3) translation. The dataset comprises 70k verified code pairs across host
and device, addressing a critical gap in low-level GPU code portability.
Leveraging this resource, we train the CASS family of domain-specific language
models, achieving 95% source translation accuracy and 37.5% assembly
translation accuracy, substantially outperforming commercial baselines such as
GPT-4o, Claude, and Hipify. Our generated code matches native performance in
over 85% of test cases, preserving runtime and memory behavior. To support
rigorous evaluation, we introduce CASS-Bench, a curated benchmark spanning 16
GPU domains with ground-truth execution. All data, models, and evaluation tools
are released as open source to foster progress in GPU compiler tooling, binary
compatibility, and LLM-guided hardware translation. Dataset and benchmark are
on
https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}},
with code at
https://github.com/GustavoStahl/CASS{blue{GitHub}}.Summary
AI-Generated Summary