ParEVO: Synthese van Code voor Onregelmatige Gegevens: Hoogwaardige Parallelle Verwerking door middel van Agent-gebaseerde Evolutie

Samenvatting

De overgang van sequentiële naar parallelle computing is essentieel voor moderne high-performance applicaties, maar wordt belemmerd door de steile leercurve van gelijktijdig programmeren. Deze uitdaging wordt vergroot voor onregelmatige datastructuren (zoals sparse grafen, onbalansbomen en niet-uniforme roosters) waar statische planning faalt en data-afhankelijkheden onvoorspelbaar zijn. Huidige Large Language Models (LLM's) falen vaak catastrofaal bij deze taken en genereren code die kampt met subtiele raceconditions, deadlocks en suboptimale schaalbaarheid. Wij overbruggen deze kloof met ParEVO, een framework ontworpen voor het synthetiseren van high-performance parallelle algoritmes voor onregelmatige data. Onze bijdragen omvatten: (1) De Parlay-Instruct Corpus, een gecureerde dataset van 13.820 taken gesynthetiseerd via een "Critic-Refine"-pijplijn die expliciet filtert op empirisch performante algoritmes die effectief gebruikmaken van Work-Span parallelle primitieven; (2) gespecialiseerde DeepSeek-, Qwen- en Gemini-modellen die zijn afgestemd om probabilistische generatie af te stemmen op de rigoureuze semantiek van de ParlayLib-bibliotheek; en (3) een Evolutionaire Codeeragent (ECA) die de "last mile" van correctheid verbetert door code iteratief te repareren met feedback van compilers, dynamische race detectors en performance profilers. Op de ParEval-benchmark behaalt ParEVO een gemiddelde versnelling van 106x (met een maximum van 1103x) over de hele suite, en een robuuste versnelling van 13.6x specifiek op complexe onregelmatige grafproblemen, waarmee het state-of-the-art commerciële modellen overtreft. Bovendien evenaart onze evolutionaire aanpak state-of-the-art expert-menselijke basislijnen, met een versnelling tot 4.1x op specifieke, zeer onregelmatige kernels. Broncode en datasets zijn beschikbaar op https://github.com/WildAlg/ParEVO.

English

The transition from sequential to parallel computing is essential for modern high-performance applications but is hindered by the steep learning curve of concurrent programming. This challenge is magnified for irregular data structures (such as sparse graphs, unbalanced trees, and non-uniform meshes) where static scheduling fails and data dependencies are unpredictable. Current Large Language Models (LLMs) often fail catastrophically on these tasks, generating code plagued by subtle race conditions, deadlocks, and sub-optimal scaling. We bridge this gap with ParEVO, a framework designed to synthesize high-performance parallel algorithms for irregular data. Our contributions include: (1) The Parlay-Instruct Corpus, a curated dataset of 13,820 tasks synthesized via a "Critic-Refine" pipeline that explicitly filters for empirically performant algorithms that effectively utilize Work-Span parallel primitives; (2) specialized DeepSeek, Qwen, and Gemini models fine-tuned to align probabilistic generation with the rigorous semantics of the ParlayLib library; and (3) an Evolutionary Coding Agent (ECA) that improves the "last mile" of correctness by iteratively repairing code using feedback from compilers, dynamic race detectors, and performance profilers. On the ParEval benchmark, ParEVO achieves an average 106x speedup (with a maximum of 1103x) across the suite, and a robust 13.6x speedup specifically on complex irregular graph problems, outperforming state-of-the-art commercial models. Furthermore, our evolutionary approach matches state-of-the-art expert human baselines, achieving up to a 4.1x speedup on specific highly-irregular kernels. Source code and datasets are available at https://github.com/WildAlg/ParEVO.

ParEVO: Synthese van Code voor Onregelmatige Gegevens: Hoogwaardige Parallelle Verwerking door middel van Agent-gebaseerde Evolutie

ParEVO: Synthesizing Code for Irregular Data: High-Performance Parallelism through Agentic Evolution

Samenvatting

Support