Resultaten en retrospectieve analyse van de CODS 2025 AssetOpsBench Challenge

Samenvatting

Competitieretrospectieven zijn nuttig wanneer ze uitleggen wat een ranglijst heeft gemeten, hoe verborgen evaluatie conclusies heeft veranderd en welke ontwerppatronen werden beloond. We bekijken de CODS 2025-challenge opnieuw, een privacybewuste Codabench-competitie over industriële multi-agentorkestratie gebouwd op . We combineren definitieve ranglijstbladen, een serverlogboek met 300 inzendingen, registraties van 149 teams, exports van beste inzendingen, het organisatierapport van winnaars, het begeleidende systeempapier en geverifieerde bronbomen van het planningsspoor. Vijf resultaten springen eruit. Ten eerste verzadigt de openbare planningsranglijst op 72,73%, en rijkere prompts verbeteren die piek niet. Ten tweede verandert verborgen evaluatie het verhaal: openbare en privéscores correleren matig in planning (r=0,69) maar negatief in uitvoering (r=-0,13), waarbij verschillende systemen met 45,45% openbare uitvoering 63,64% bereiken op de verborgen set. Ten derde is de term numeriek bijna inert in de officiële samengestelde score – gecombineerd op een schaal van 0–1 met percentagescores van 0–100, draagt deze maximaal 0,05 punten per spoor bij, en herschaling zou de top twee teams omwisselen. Ten vierde is de competitie operationeel op accounts gebaseerd maar in wezen op teams: 149 geregistreerde teams worden teruggebracht tot 24 met niet-nul openbare scores en 11 volledig gerangschikt, terwijl 52,3% van de gededupliceerde registraties meerdere gebruikersnamen vermeldt. Ten vijfde verbeteren succesvolle uitvoeringsmethoden meestal de veiligheidsmaatregelen – responsselectie, opschoning van contaminatie, terugval en contextcontrole – in plaats van nieuwe agentarchitecturen. Deze bevindingen identificeren welk gedrag de evaluatie beloonde en motiveren schaalbewuste samengestelde scores, diagnostiek op vaardigheidsniveau en uitgave van versiebeheerde artefacten.

English

Competition retrospectives are useful when they explain what a leaderboard measured, how hidden evaluation changed conclusions, and which design patterns were rewarded. We revisit the CODS 2025 challenge, a privacy-aware Codabench competition on industrial multi-agent orchestration built on . We combine final rank sheets, a 300-submission server log, 149-team registrations, best-submission exports, the organizer winners report, the companion system paper, and verified planning-track source trees. Five results stand out. First, the public planning leaderboard saturates at 72.73\%, and richer prompts do not improve that peak. Second, hidden evaluation changes the story: public and private scores correlate moderately in planning (r{=}0.69) but negatively in execution (r{=}{-}0.13), with several 45.45\% public execution systems reaching 63.64\% on the hidden set. Third, the term is numerically almost inert in the official composite -- combined on a 0--1 scale with 0--100 percentage scores, it contributes at most 0.05 points per track, and rescaling would swap the top two teams. Fourth, the competition is operationally account-based but substantively team-based: 149 registered teams reduce to 24 with non-zero public scores and 11 fully ranked, while 52.3\% of deduplicated registrations list multiple usernames. Fifth, successful execution methods mostly improve guardrails -- response selection, contamination cleanup, fallback, and context control -- rather than novel agent architectures. These findings identify which behaviors the evaluation rewarded, and motivate scale-aware composites, skill-level diagnostics, and versioned artifact release.