ChatPaper.aiChatPaper

Uno studio di caso sulla codifica di un'applicazione web con modelli di ragionamento OpenAI.

A Case Study of Web App Coding with OpenAI Reasoning Models

September 19, 2024
Autori: Yi Cui
cs.AI

Abstract

Questo articolo presenta uno studio di caso sui compiti di codifica eseguiti dai più recenti modelli di ragionamento di OpenAI, ovvero o1-preview e o1-mini, confrontandoli con altri modelli all'avanguardia. I modelli o1 forniscono risultati all'avanguardia per WebApp1K, un benchmark a singolo compito. A tal fine, introduciamo WebApp1K-Duo, un benchmark più difficile che raddoppia il numero di compiti e casi di test. Il nuovo benchmark porta le performance dei modelli o1 a declinare significativamente, rimanendo indietro rispetto a Claude 3.5. Inoltre, essi falliscono costantemente di fronte a casi di test atipici ma corretti, una trappola che i modelli non di ragionamento evitano occasionalmente. Ipotizziamo che la variabilità delle performance sia dovuta alla comprensione delle istruzioni. In particolare, il meccanismo di ragionamento migliora le performance quando tutte le aspettative sono catturate, ma aumenta gli errori quando le aspettative chiave vengono trascurate, potenzialmente influenzate dalle lunghezze di input. Pertanto, sosteniamo che il successo della codifica dei modelli di ragionamento dipende dal modello base di alta qualità e dalla trasformazione di sequenza a sequenza per garantire un'attenta adesione alle istruzioni.
English
This paper presents a case study of coding tasks by the latest reasoning models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling number of tasks and test cases. The new benchmark causes the o1 model performances to decline significantly, falling behind Claude 3.5. Moreover, they consistently fail when confronted with atypical yet correct test cases, a trap non-reasoning models occasionally avoid. We hypothesize that the performance variability is due to instruction comprehension. Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths. As such, we argue that the coding success of reasoning models hinges on the top-notch base model and SFT to ensure meticulous adherence to instructions.

Summary

AI-Generated Summary

PDF62November 16, 2024