ACES : Qui teste les tests ? Cohérence du AUC par exclusion séquentielle pour la génération de code

Résumé

La sélection de candidats de code générés par LLM à l'aide de tests générés par LLM est difficile car les tests eux-mêmes peuvent être incorrects. Les méthodes existantes traitent soit tous les tests de manière égale, soit s'appuient sur des heuristiques ad hoc pour filtrer les tests non fiables. Pourtant, déterminer la correction des tests nécessite de savoir quels codes sont corrects, créant une dépendance circulaire. Notre idée clé est qu'il n'est pas nécessaire de déterminer la correction des tests : les votes des tests doivent classer, et non simplement compter. Ce qui importe n'est pas combien de codes passent un test, mais si le test peut distinguer le code correct du code incorrect. Nous brisons la dépendance circulaire via une évaluation leave-one-out : mettre de côté un test, classer les codes par leurs scores agrégés sur tous les tests restants, et mesurer si le motif de réussite/échec du test mis de côté est cohérent avec ce classement. Nous formalisons cette cohérence comme l'AUC leave-one-out (LOO-AUC) et prouvons que l'espérance de la LOO-AUC est proportionnelle à la capacité de chaque test à séparer le code correct du code incorrect. Sur cette base, nous proposons ACES (AUC ConsistEncy Scoring) avec deux variantes complémentaires : ACES-C fournit des poids sous forme close qui approchent théoriquement l'oracle en espérance sous une hypothèse faible sur la qualité moyenne des tests ; ACES-O supprime cette hypothèse et optimise itérativement un objectif LOO-AUC différentiable. Les deux opèrent uniquement sur la matrice binaire de réussite avec une surcharge négligeable, et atteignent l'état de l'art en Pass@k sur plusieurs benchmarks de génération de code.

English

Selecting LLM-generated code candidates using LLM-generated tests is challenging because the tests themselves may be incorrect. Existing methods either treat all tests equally or rely on ad-hoc heuristics to filter unreliable tests. Yet determining test correctness requires knowing which codes are correct, creating a circular dependency. Our key insight is that we need not determine test correctness at all: test votes should rank, not merely count. What matters is not how many codes pass a test, but whether the test can distinguish correct from incorrect code. We break the circular dependency via leave-one-out evaluation: hold out one test, rank codes by their aggregate scores on all remaining tests, and measure whether the held-out test's pass/fail pattern agrees with this ranking. We formalize this agreement as the leave-one-out AUC~(LOO-AUC) and prove that the expected LOO-AUC is proportional to each test's ability to separate correct code from incorrect code. Building on this, we propose ACES~(AUC ConsistEncy Scoring) with two complementary variants: ACES-C provides closed-form weights that provably approximate the oracle in expectation under a mild assumption on average test quality; ACES-O drops this assumption and iteratively optimizes a differentiable LOO-AUC objective. Both operate solely on the binary pass matrix with negligible overhead, and achieve state-of-the-art Pass@k on multiple code generation benchmarks.

ACES : Qui teste les tests ? Cohérence du AUC par exclusion séquentielle pour la génération de code

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Résumé

Support