AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

SmolLM2: Wanneer Smol Groot Gaat -- Data-Centrische Training van een Kleine Taalmodel
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Feb 4

ByLoubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf

243

Hoewel grote taalmodellen doorbraken hebben mogelijk gemaakt in vele toepassingen van kunstmatige intelligentie, maakt hun inherente omvang ze rekenkundig duur en uitdagend om in omgevingen met beperkte middelen in te zetten. In dit artikel documenteren we de ontwikkeling van SmolLM2, een geavanceerd "klein" (1,7 miljard parameters) taalmodel (TM). Om sterke prestaties te behalen, trainen we SmolLM2 overmatig op ~11 biljoen tokens aan data met behulp van een meertraps trainingsproces dat webtekst mengt met gespecialiseerde wiskunde, code en instructievolgdata. We introduceren ook nieuwe gespecialiseerde datasets (FineMath, Stack-Edu en SmolTalk) op momenten waarop we ontdekten dat bestaande datasets problematisch klein of van lage kwaliteit waren. Om onze ontwerpbeslissingen te onderbouwen, voeren we zowel kleinschalige ablaties uit als een handmatig verfijningsproces dat de datasetmengverhoudingen bij elke fase bijwerkt op basis van de prestaties in de vorige fase. Uiteindelijk tonen we aan dat SmolLM2 beter presteert dan andere recente kleine TMs, waaronder Qwen2.5-1.5B en Llama3.2-1B. Om toekomstig onderzoek naar TM-ontwikkeling en toepassingen van kleine TMs te vergemakkelijken, stellen we zowel SmolLM2 als alle datasets die we hebben voorbereid in de loop van dit project beschikbaar.

LIMO: Minder is Meer voor Redeneren
LIMO: Less is More for Reasoning

Feb 5

ByYixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu

We presenteren een fundamentele ontdekking die onze kennis over hoe complex redeneren ontstaat in grote taalmodellen uitdaagt. Terwijl de conventionele wijsheid suggereert dat geavanceerde redeneertaken uitgebreide trainingsdata vereisen (>100.000 voorbeelden), tonen we aan dat complexe wiskundige redeneervaardigheden effectief kunnen worden opgeroepen met verrassend weinig voorbeelden. Via uitgebreide experimenten toont ons voorgestelde model LIMO ongekende prestaties in wiskundig redeneren. Met slechts 817 zorgvuldig samengestelde trainingsvoorbeelden behaalt LIMO een nauwkeurigheid van 57,1% op AIME en 94,8% op MATH, een verbetering ten opzichte van respectievelijk 6,5% en 59,2% van eerdere SFT-gebaseerde modellen, terwijl slechts 1% van de trainingsdata nodig is in vergelijking met eerdere benaderingen. LIMO toont uitzonderlijke generalisatie buiten de distributie, met een absolute verbetering van 40,5% over 10 diverse benchmarks, waarbij modellen getraind op 100x meer data worden overtroffen, wat de notie uitdaagt dat SFT leidt tot memorisatie in plaats van generalisatie. Op basis van deze resultaten stellen we de Less-Is-More Redeneerhypothese (LIMO Hypothese) voor: In foundation-modellen waar domeinkennis uitgebreid is gecodeerd tijdens pre-training, kunnen geavanceerde redeneervermogens ontstaan door minimale maar nauwkeurig georkestreerde demonstraties van cognitieve processen. Deze hypothese stelt dat de opwekkingsdrempel voor complex redeneren wordt bepaald door twee belangrijke factoren: (1) de volledigheid van de gecodeerde kennisbasis van het model tijdens pre-training, en (2) de effectiviteit van post-trainingvoorbeelden als "cognitieve sjablonen" die het model laten zien hoe het zijn kennisbasis kan gebruiken om complexe redeneertaken op te lossen. Om reproduceerbaarheid en toekomstig onderzoek naar data-efficiënt redeneren te vergemakkelijken, stellen we LIMO beschikbaar als een uitgebreide open-source suite op https://github.com/GAIR-NLP/LIMO.

Het ontrafelen van langdurig redeneren in LLM's
Demystifying Long Chain-of-Thought Reasoning in LLMs

Feb 5

ByEdward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue

Het schalen van inferentieberekeningen verbetert het redeneren in grote taalmodellen (LLM's), met lange ketens-van-gedachten (CoTs) die strategieën zoals terugspoelen en foutcorrectie mogelijk maken. Versterkend leren (RL) is naar voren gekomen als een cruciale methode voor het ontwikkelen van deze mogelijkheden, maar de voorwaarden waaronder lange CoTs ontstaan blijven onduidelijk, en RL-training vereist zorgvuldige ontwerpkeuzes. In deze studie onderzoeken we systematisch de mechanismen van lang CoT-redeneren, waarbij we de belangrijkste factoren identificeren die modellen in staat stellen om lange CoT-trajecten te genereren. Door uitgebreide supervisie fine-tuning (SFT) en RL-experimenten presenteren we vier belangrijkste bevindingen: (1) Hoewel SFT niet strikt noodzakelijk is, vereenvoudigt het de training en verbetert het de efficiëntie; (2) Redeneervermogens neigen te ontstaan met toenemende trainingsberekeningen, maar hun ontwikkeling is niet gegarandeerd, waardoor beloningsvormgeving cruciaal is voor het stabiliseren van de groei van CoT-lengte; (3) Het schalen van controleerbare beloningssignalen is cruciaal voor RL. We ontdekken dat het benutten van lawaaierige, web-geëxtraheerde oplossingen met filtermechanismen een groot potentieel laat zien, met name voor taken buiten de distributie, zoals STEM-redeneren; en (4) Kernvaardigheden zoals foutcorrectie zijn inherent aanwezig in basismodellen, maar deze vaardigheden effectief stimuleren voor complexe taken via RL vereist aanzienlijke berekeningen, en het meten van hun opkomst vereist een genuanceerde aanpak. Deze inzichten bieden praktische richtlijnen voor het optimaliseren van trainingsstrategieën om lang CoT-redeneren in LLM's te verbeteren. Onze code is beschikbaar op: https://github.com/eddycmu/demystify-long-cot.

TwinMarket: Een Schaalbare Gedrags- en Sociale Simulatie voor Financiële Markten
TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets

Feb 3

ByYuzhe Yang, Yifei Zhang, Minghao Wu, Kaidi Zhang, Yunmiao Zhang, Honghai Yu, Yan Hu, Benyou Wang

De studie van sociale opkomst is al lange tijd een centrale focus in de sociale wetenschappen. Traditionele modelleringsbenaderingen, zoals op regels gebaseerde Agent-Based Models (ABM's), hebben moeite om de diversiteit en complexiteit van menselijk gedrag vast te leggen, met name de irrationele factoren die benadrukt worden in gedragseconomie. Onlangs hebben grote taalmodellen (LLM) agenten aan populariteit gewonnen als simulatietools voor het modelleren van menselijk gedrag in de sociale wetenschappen en rollenspeltoepassingen. Studies suggereren dat LLM's rekening kunnen houden met cognitieve biases, emotionele schommelingen en andere niet-rationele invloeden, waardoor meer realistische simulaties van sociaal-economische dynamiek mogelijk zijn. In dit werk introduceren we TwinMarket, een nieuw multi-agent raamwerk dat gebruikmaakt van LLM's om sociaal-economische systemen te simuleren. Specifiek onderzoeken we hoe individueel gedrag, via interacties en feedbackmechanismen, leidt tot collectieve dynamiek en opkomende fenomenen. Door experimenten in een gesimuleerde effectenmarktomgeving tonen we aan hoe individuele acties groepsgedrag kunnen veroorzaken, wat leidt tot opkomende uitkomsten zoals financiële bubbels en recessies. Onze benadering biedt waardevolle inzichten in de complexe wisselwerking tussen individuele besluitvorming en collectieve sociaal-economische patronen.

Versterking van multimodale redenering met MCTS-geautomatiseerd gestructureerd denken
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking

Feb 4

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Ruihan Jin, Feihu Che, Zengqi Wen, Jianhua Tao

Multimodale grote taalmodellen (MLLM's) vertonen indrukwekkende capaciteiten, maar ondervinden nog steeds uitdagingen bij complexe visuele redenering. Terwijl recente inspanningen proberen MLLM's redenering te verbeteren door OpenAI o1-achtig gestructureerd denken te integreren via expliciete zoekstructuren of door docent-geleide destillatie, worstelen ze vaak met het balanceren van prestaties en efficiëntie. Een kritieke beperking is hun zware afhankelijkheid van uitgebreide gegevens- en zoekruimtes, resulterend in een laag-efficiënte impliciete inzichtsextractie en gegevensbenutting. Om dit aan te pakken, stellen we AStar voor, een geautomatiseerd gestructureerd denkparadigma voor multimodale redenering via Monte Carlo Tree Search (MCTS). AStar ontleent automatisch hoog-niveau cognitieve redeneringspatronen aan beperkte gegevens met behulp van MCTS-aangedreven hiërarchische structuren. Voortbouwend op deze expliciete patronen, ontwerpen we een verenigd redeneerkader dat modellen' interne redeneervermogens en externe redeneerrichtlijnen naadloos integreert, waardoor efficiënte inferentie mogelijk is met minimale boomiteraties. Dit nieuwe paradigma bereikt een overtuigend evenwicht tussen prestaties en efficiëntie. Uitgebreide experimenten tonen de effectiviteit van AStar aan, met een superieure nauwkeurigheid (54,0%) op de MathVerse benchmark met een 7B ruggengraat, die GPT-4o (50,2%) overtreft terwijl aanzienlijke gegevens- en computationele efficiëntie behouden blijft.

LayerTracer: Cognitief-uitgelijnde gelaagde SVG-synthese via Diffusion Transformer
LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer

Feb 3

ByYiren Song, Danze Chen, Mike Zheng Shou

Het genereren van cognitief uitgelijnde gelaagde SVG's blijft uitdagend vanwege de neiging van bestaande methoden naar ofwel te vereenvoudigde enkelvoudige lagen of optimalisatie-geïnduceerde vorm-redundanties. Wij stellen LayerTracer voor, een op diffusie-transformator gebaseerd raamwerk dat deze kloof overbrugt door de gelaagde SVG-creatieprocessen van ontwerpers te leren vanuit een nieuw dataset van opeenvolgende ontwerpoperaties. Onze aanpak werkt in twee fasen: Ten eerste genereert een op tekst geconditioneerde DiT meerfasige gerasterde constructieblauwdrukken die menselijke ontwerpworkflows simuleren. Ten tweede produceert laagsgewijze vectorisatie met pad-deduplicatie schone, bewerkbare SVG's. Voor beeldvectorisatie introduceren we een conditioneel diffusiemechanisme dat referentiebeelden codeert in latente tokens, die hiërarchische reconstructie begeleiden terwijl structurele integriteit behouden blijft. Uitgebreide experimenten tonen de superieure prestaties van LayerTracer aan ten opzichte van op optimalisatie gebaseerde en neurale baselines op zowel generatiekwaliteit als bewerkbaarheid, waarbij AI-generatievectoren effectief worden afgestemd op professionele ontwerpcognitie.

Over het hacken van docenten bij het destilleren van taalmodel.
On Teacher Hacking in Language Model Distillation

Feb 4

ByDaniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel

Het post-trainen van taalmodellen (LM's) vertrouwt steeds meer op de volgende twee fasen: (i) kennisdistillatie, waarbij het LM wordt getraind om een groter lerend LM na te bootsen, en (ii) versterkend leren van menselijke feedback (RLHF), waarbij het LM wordt uitgelijnd door optimalisatie van een beloningsmodel. In de tweede RLHF-fase is een bekende uitdaging beloningsmanipulatie, waarbij het LM het beloningsmodel overmatig optimaliseert. Dit fenomeen is in lijn met de wet van Goodhart en kan leiden tot verminderde prestaties op het werkelijke doel. In dit artikel onderzoeken we of een vergelijkbaar fenomeen, dat we lerarenmanipulatie noemen, kan optreden tijdens kennisdistillatie. Dit zou kunnen gebeuren omdat het lerend LM zelf een onvolmaakte benadering van de ware verdeling is. Om dit te bestuderen, stellen we een gecontroleerde experimentele opstelling voor met: (i) een orakel LM dat de ware verdeling vertegenwoordigt, (ii) een lerend LM gedistilleerd uit het orakel, en (iii) een studenten LM gedistilleerd uit de leraar. Onze experimenten onthullen de volgende inzichten. Bij het gebruik van een vast offline dataset voor distillatie, treedt lerarenmanipulatie op; bovendien kunnen we dit detecteren door te observeren wanneer het optimalisatieproces afwijkt van polynomiale convergentiewetten. Daarentegen vermindert het effectief toepassen van online gegevensgeneratietechnieken lerarenmanipulatie. Meer specifiek identificeren we gegevensdiversiteit als de sleutelfactor om manipulatie te voorkomen. Over het algemeen bieden onze bevindingen een dieper inzicht in de voordelen en beperkingen van distillatie voor het bouwen van robuuste en efficiënte LM's.

Token Assortiment: Het Mengen van Latente en Tekst Tokens voor Verbeterde Taalmodelredenering
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

Feb 5

ByDiJia Su, Hanlin Zhu, Yingchen Xu, Jiantao Jiao, Yuandong Tian, Qinqing Zheng

Grote Taalmodellen (LLM's) excelleren in redeneren en plannen wanneer ze getraind worden op keten-van-gedachten (CoT) data, waarbij het stapsgewijze denkproces expliciet wordt uiteengezet door teksttokens. Dit resulteert echter in lange invoeren waarbij veel woorden de tekstuele samenhang ondersteunen in plaats van kernredeneerinformatie, en het verwerken van deze invoeren vereist aanzienlijke rekencapaciteit. In dit werk stellen we een hybride representatie van het redeneerproces voor, waarbij we gedeeltelijk de initiële redeneerstappen abstraheren met behulp van latente discrete tokens gegenereerd door VQ-VAE, wat de lengte van redeneersporen aanzienlijk vermindert. We onderzoeken het gebruik van latente spoorabstracties in twee scenario's: 1) het model vanaf nul trainen voor het Sleutelvindingslabyrintprobleem, 2) LLM's finetunen op deze hybride data met een uitgebreide woordenschat inclusief ongeziene latente tokens, voor zowel logische als wiskundige redeneerproblemen. Om effectief leren te vergemakkelijken, introduceren we een eenvoudige trainingsprocedure die latent- en teksttokens willekeurig mixt, wat snelle aanpassing aan nieuwe latente tokens mogelijk maakt. Onze aanpak presteert consequent beter dan de basismethoden in verschillende benchmarks.

Zelfbegeleide foutopsporing bij het genereren van code met behulp van een groot taalmodel.
Large Language Model Guided Self-Debugging Code Generation

Feb 5

ByMuntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn

Geautomatiseerde codegeneratie wint aanzienlijke belangstelling in intelligente computerprogrammering en systeemimplementatie. Huidige benaderingen ondervinden echter vaak uitdagingen op het gebied van rekenkundige efficiëntie en missen robuuste mechanismen voor code-analyse en foutcorrectie. In dit werk stellen we een nieuw raamwerk voor, PyCapsule, met een eenvoudige maar effectieve tweeledige pijplijn en efficiënte zelfdebuggingmodules voor het genereren van Python-code. PyCapsule kenmerkt zich door geavanceerde promptinferentie, iteratieve foutafhandeling en casetesting, wat zorgt voor hoge generatiestabiliteit, veiligheid en correctheid. Empirisch gezien behaalt PyCapsule tot 5,7% verbetering van het succespercentage op HumanEval, 10,3% op HumanEval-ET en 24,4% op BigCodeBench in vergelijking met de state-of-the-art methoden. We observeren ook een afname in genormaliseerd succespercentage bij meer zelfdebuggingpogingen, mogelijk beïnvloed door beperkte en ruisachtige foutfeedback bij retentie. PyCapsule toont bredere impact op het bevorderen van lichtgewicht en efficiënte codegeneratie voor kunstmatige intelligentiesystemen.

Een Probabilistische Inferentiebenadering voor Schaalvergroting van LLMs tijdens Inferentie met behulp van Deeltjesgebaseerde Monte Carlo Methoden
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Feb 3

ByIsha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

Grote taalmodellen (LLM's) hebben aanzienlijke prestatieverbeteringen behaald door de schaalvergroting van modelgroottes en/of gegevens. Echter, recent bewijs suggereert afnemende meeropbrengsten van dergelijke benaderingen, wat het schalen van de berekening tijdens inferentie rechtvaardigt. Bestaande methoden voor schalen tijdens inferentie, meestal met beloningsmodellen, stellen de taak voor als een zoekprobleem, wat kwetsbaar kan zijn voor beloningsmanipulatie als gevolg van benaderingsfouten in beloningsmodellen. In dit artikel stellen we in plaats daarvan schalen tijdens inferentie voor als een probabilistische inferentietaak en maken we gebruik van op steekproeven gebaseerde technieken om de typische set van de toestandsverdeling van een toestandsruimtemodel met een benaderde waarschijnlijkheid te verkennen, in plaats van rechtstreeks te optimaliseren voor de modus ervan. We stellen een nieuwe benadering voor schalen tijdens inferentie voor door deeltjesgebaseerde Monte Carlo-methoden aan te passen aan deze taak. Onze empirische evaluatie toont aan dat onze methoden een 4-16x beter schalingsniveau hebben ten opzichte van onze deterministische zoektegenhangers bij verschillende uitdagende wiskundige redeneertaken. Met behulp van onze benadering laten we zien dat Qwen2.5-Math-1.5B-Instruct GPT-4o nauwkeurigheid kan overtreffen met slechts 4 rollouts, terwijl Qwen2.5-Math-7B-Instruct schaalt naar o1-niveau nauwkeurigheid met slechts 32 rollouts. Ons werk presenteert niet alleen een effectieve methode voor schalen tijdens inferentie, maar verbindt ook de rijke literatuur in probabilistische inferentie met schalen tijdens inferentie van LLM's om robuustere algoritmen te ontwikkelen in toekomstig werk. Code en verdere informatie zijn beschikbaar op https://probabilistic-inference-scaling.github.io.

Jailbreaking met Universele Multi-Prompts
Jailbreaking with Universal Multi-Prompts

Feb 3

ByYu-Ling Hsu, Hsuan Su, Shang-Tse Chen

Grote taalmodellen (LLM's) hebben de afgelopen jaren een snelle ontwikkeling doorgemaakt, waarbij ze verschillende toepassingen hebben gerevolutioneerd en aanzienlijk het gemak en de productiviteit hebben verbeterd. Echter, naast hun indrukwekkende mogelijkheden, zijn ethische zorgen en nieuwe soorten aanvallen, zoals jailbreaking, opgedoken. Terwijl de meeste prompting technieken zich richten op het optimaliseren van vijandige invoer voor individuele gevallen, wat resulteert in hogere computationele kosten bij het omgaan met grote datasets. Minder onderzoek heeft zich gericht op de meer algemene instelling van het trainen van een universele aanvaller die kan overgaan naar ongeziene taken. In dit artikel introduceren we JUMP, een op prompt gebaseerde methode die is ontworpen om LLM's te jailbreaken met behulp van universele multi-prompts. We passen onze benadering ook aan voor verdediging, wat we DUMP noemen. Experimentele resultaten tonen aan dat onze methode voor het optimaliseren van universele multi-prompts beter presteert dan bestaande technieken.

Samenvoeging van Grote Taalmodellen op Basis van Activatie
Activation-Informed Merging of Large Language Models

Feb 4

ByAmin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan

Model samenvoegen, een methode die de parameters en embeddings van meerdere fijn afgestemde grote taalmodellen (LLM's) combineert, biedt een veelbelovende benadering om de prestaties van het model te verbeteren over verschillende taken terwijl de rekenkundige efficiëntie behouden blijft. Dit artikel introduceert Activation-Informed Merging (AIM), een techniek die de informatie uit de activatieruimte van LLM's integreert in het samenvoegproces om prestaties en robuustheid te verbeteren. AIM is ontworpen als een flexibele, aanvullende oplossing die toepasbaar is op elke bestaande samenvoegmethode. Het heeft als doel om kritieke gewichten van het basismodel te behouden, gebruikmakend van principes uit continu leren (CL) en modelcompressie. Door gebruik te maken van een taakagnostische kalibratieset, prioriteert AIM selectief essentiële gewichten tijdens het samenvoegen. We tonen empirisch aan dat AIM aanzienlijk de prestaties van samengevoegde modellen verbetert over meerdere benchmarks. Onze bevindingen suggereren dat het overwegen van informatie uit de activatieruimte aanzienlijke vooruitgang kan bieden in de strategieën voor het samenvoegen van modellen voor LLM's, met een toename van maximaal 40% in benchmarkprestaties.

Raadsel me dit! Sluwe lidmaatschapsinferentie voor opvraging-versterkte generatie
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

Feb 1

ByAli Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr

Retrieval-Augmented Generation (RAG) stelt Large Language Models (LLMs) in staat om gefundeerde antwoorden te genereren door gebruik te maken van externe kennisbanken zonder de modelparameters te wijzigen. Hoewel het ontbreken van gewichtsaanpassing lekkage via modelparameters voorkomt, brengt het risico met zich mee dat inferentie-tegenstanders de opgehaalde documenten in de context van het model kunnen benutten. Bestaande methoden voor lidmaatschapsinferentie en gegevensextractie vertrouwen vaak op jailbreaking of zorgvuldig vervaardigde onnatuurlijke vragen, die gemakkelijk kunnen worden gedetecteerd of verijdeld met query-herformuleringstechnieken die gangbaar zijn in RAG-systemen. In dit werk presenteren we Interrogation Attack (IA), een lidmaatschapsinferentietechniek die zich richt op documenten in de RAG-databank. Door natuurlijke tekstvragen te formuleren die alleen beantwoord kunnen worden met de aanwezigheid van het doeldocument, toont onze aanpak succesvolle inferentie met slechts 30 vragen, terwijl deze onopgemerkt blijft; eenvoudige detectoren identificeren vijandige aanwijzingen van bestaande methoden tot ~76x vaker dan die gegenereerd door onze aanval. We observeren een 2x verbetering in TPR@1%FPR ten opzichte van eerdere inferentieaanvallen over diverse RAG-configuraties, terwijl de kosten minder dan $0.02 per documentinferentie bedragen.

HackerRank-ASTRA: Evaluatie van de juistheid en consistentie van grote taalmodellen bij cross-domain multi-file project problemen
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems

Jan 31

ByJun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta

Het evalueren van de praktische toepasbaarheid van grote taalmodellen (LLM's) biedt waardevolle inzichten voor hun ontwikkeling en gebruik bij softwareontwikkelingstaken. Bestaande benchmarks richten zich vaak op op zichzelf staande codeerproblemen of specifieke bibliotheken, waarbij meerdelige, op projecten gebaseerde scenario's over het hoofd worden gezien en een grondige evaluatie van consistentie ontbreekt. De HackerRank-ASTRA Benchmark introduceert op projecten gebaseerde codeerproblemen die echte scenario's weerspiegelen. Het evalueert modelconsistentie door middel van 32 runs (k = 32) en de mediaan standaardafwijking, waarbij taxonomieniveau-analyse wordt toegepast om subvaardigheden te beoordelen. Initieel onderzoek naar 65 problemen toont aan dat de top drie modellen -- o1, o1-preview en Claude-3.5-Sonnet-1022 -- vergelijkbare gemiddelde scores van 75% behaalden, zonder statistisch significante verschillen in prestaties. Opmerkelijk is dat Claude-3.5-Sonnet-1022 de hoogste consistentie over problemen vertoonde, met een lage variabiliteit (SD = 0.0497), wat statistisch significant was vergeleken met andere modellen, waarbij de betrouwbaarheid ervan voor praktische softwareontwikkelingstaken werd benadrukt.