Een Casestudy van Web App Codering met OpenAI Redeneermodellen

Samenvatting

Dit artikel presenteert een casestudy van programmeertaken door de nieuwste redeneringsmodellen van OpenAI, d.w.z. o1-preview en o1-mini, in vergelijking met andere voorhoedemodellen. De o1-modellen leveren SOTA-resultaten voor WebApp1K, een single-task benchmark. Hiertoe introduceren we WebApp1K-Duo, een moeilijkere benchmark die het aantal taken en testcases verdubbelt. De nieuwe benchmark zorgt ervoor dat de prestaties van de o1-modellen aanzienlijk dalen, waarbij ze achterblijven bij Claude 3.5. Bovendien falen ze consequent wanneer ze geconfronteerd worden met atypische maar correcte testcases, een val waar niet-redenerende modellen af en toe aan ontsnappen. We veronderstellen dat de variabiliteit in prestaties te wijten is aan instructiebegrip. Specifiek verhoogt het redeneermechanisme de prestaties wanneer alle verwachtingen worden vastgelegd, terwijl het fouten verergert wanneer essentiële verwachtingen worden gemist, mogelijk beïnvloed door invoerlengtes. Als zodanig betogen we dat het succes van redenerende modellen bij het programmeren afhangt van het eersteklas basismodel en SFT om zorgvuldige naleving van instructies te waarborgen.

English

This paper presents a case study of coding tasks by the latest reasoning models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling number of tasks and test cases. The new benchmark causes the o1 model performances to decline significantly, falling behind Claude 3.5. Moreover, they consistently fail when confronted with atypical yet correct test cases, a trap non-reasoning models occasionally avoid. We hypothesize that the performance variability is due to instruction comprehension. Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths. As such, we argue that the coding success of reasoning models hinges on the top-notch base model and SFT to ensure meticulous adherence to instructions.

Een Casestudy van Web App Codering met OpenAI Redeneermodellen

A Case Study of Web App Coding with OpenAI Reasoning Models

Samenvatting

Support