Een Casestudy van Web App Codering met OpenAI Redeneermodellen
A Case Study of Web App Coding with OpenAI Reasoning Models
September 19, 2024
Auteurs: Yi Cui
cs.AI
Samenvatting
Dit artikel presenteert een casestudy van programmeertaken door de nieuwste redeneringsmodellen van OpenAI, d.w.z. o1-preview en o1-mini, in vergelijking met andere voorhoedemodellen. De o1-modellen leveren SOTA-resultaten voor WebApp1K, een single-task benchmark. Hiertoe introduceren we WebApp1K-Duo, een moeilijkere benchmark die het aantal taken en testcases verdubbelt. De nieuwe benchmark zorgt ervoor dat de prestaties van de o1-modellen aanzienlijk dalen, waarbij ze achterblijven bij Claude 3.5. Bovendien falen ze consequent wanneer ze geconfronteerd worden met atypische maar correcte testcases, een val waar niet-redenerende modellen af en toe aan ontsnappen. We veronderstellen dat de variabiliteit in prestaties te wijten is aan instructiebegrip. Specifiek verhoogt het redeneermechanisme de prestaties wanneer alle verwachtingen worden vastgelegd, terwijl het fouten verergert wanneer essentiële verwachtingen worden gemist, mogelijk beïnvloed door invoerlengtes. Als zodanig betogen we dat het succes van redenerende modellen bij het programmeren afhangt van het eersteklas basismodel en SFT om zorgvuldige naleving van instructies te waarborgen.
English
This paper presents a case study of coding tasks by the latest reasoning
models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other
frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task
benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling
number of tasks and test cases. The new benchmark causes the o1 model
performances to decline significantly, falling behind Claude 3.5. Moreover,
they consistently fail when confronted with atypical yet correct test cases, a
trap non-reasoning models occasionally avoid. We hypothesize that the
performance variability is due to instruction comprehension. Specifically, the
reasoning mechanism boosts performance when all expectations are captured,
meanwhile exacerbates errors when key expectations are missed, potentially
impacted by input lengths. As such, we argue that the coding success of
reasoning models hinges on the top-notch base model and SFT to ensure
meticulous adherence to instructions.Summary
AI-Generated Summary