Uno studio di caso sulla codifica di un'applicazione web con modelli di ragionamento OpenAI.
A Case Study of Web App Coding with OpenAI Reasoning Models
September 19, 2024
Autori: Yi Cui
cs.AI
Abstract
Questo articolo presenta uno studio di caso sui compiti di codifica eseguiti dai più recenti modelli di ragionamento di OpenAI, ovvero o1-preview e o1-mini, confrontandoli con altri modelli all'avanguardia. I modelli o1 forniscono risultati all'avanguardia per WebApp1K, un benchmark a singolo compito. A tal fine, introduciamo WebApp1K-Duo, un benchmark più difficile che raddoppia il numero di compiti e casi di test. Il nuovo benchmark porta le performance dei modelli o1 a declinare significativamente, rimanendo indietro rispetto a Claude 3.5. Inoltre, essi falliscono costantemente di fronte a casi di test atipici ma corretti, una trappola che i modelli non di ragionamento evitano occasionalmente. Ipotizziamo che la variabilità delle performance sia dovuta alla comprensione delle istruzioni. In particolare, il meccanismo di ragionamento migliora le performance quando tutte le aspettative sono catturate, ma aumenta gli errori quando le aspettative chiave vengono trascurate, potenzialmente influenzate dalle lunghezze di input. Pertanto, sosteniamo che il successo della codifica dei modelli di ragionamento dipende dal modello base di alta qualità e dalla trasformazione di sequenza a sequenza per garantire un'attenta adesione alle istruzioni.
English
This paper presents a case study of coding tasks by the latest reasoning
models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other
frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task
benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling
number of tasks and test cases. The new benchmark causes the o1 model
performances to decline significantly, falling behind Claude 3.5. Moreover,
they consistently fail when confronted with atypical yet correct test cases, a
trap non-reasoning models occasionally avoid. We hypothesize that the
performance variability is due to instruction comprehension. Specifically, the
reasoning mechanism boosts performance when all expectations are captured,
meanwhile exacerbates errors when key expectations are missed, potentially
impacted by input lengths. As such, we argue that the coding success of
reasoning models hinges on the top-notch base model and SFT to ensure
meticulous adherence to instructions.Summary
AI-Generated Summary