Eine Fallstudie zur Webanwendungsentwicklung mit OpenAI-Argumentationsmodellen.
A Case Study of Web App Coding with OpenAI Reasoning Models
September 19, 2024
Autoren: Yi Cui
cs.AI
Zusammenfassung
Dieses Paper präsentiert eine Fallstudie von Kodieraufgaben durch die neuesten Reasoning-Modelle von OpenAI, d.h. o1-preview und o1-mini, im Vergleich zu anderen Spitzenmodellen. Die o1-Modelle liefern SOTA-Ergebnisse für WebApp1K, einem Single-Task-Benchmark. Zu diesem Zweck führen wir WebApp1K-Duo ein, einen anspruchsvolleren Benchmark, der die Anzahl der Aufgaben und Testfälle verdoppelt. Der neue Benchmark führt dazu, dass die Leistungen der o1-Modelle signifikant abnehmen und hinter Claude 3.5 zurückfallen. Darüber hinaus scheitern sie konsequent, wenn sie mit atypischen, aber dennoch korrekten Testfällen konfrontiert werden, eine Falle, der nicht-reasoning-Modelle gelegentlich ausweichen. Wir vermuten, dass die Leistungsvariabilität auf das Verständnis von Anweisungen zurückzuführen ist. Insbesondere steigert der Reasoning-Mechanismus die Leistung, wenn alle Erwartungen erfüllt sind, verschlimmert jedoch Fehler, wenn wichtige Erwartungen verpasst werden, möglicherweise beeinflusst durch die Eingabelängen. Daher argumentieren wir, dass der Kodierungserfolg von Reasoning-Modellen von dem erstklassigen Basismodell und SFT abhängt, um eine akribische Einhaltung der Anweisungen sicherzustellen.
English
This paper presents a case study of coding tasks by the latest reasoning
models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other
frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task
benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling
number of tasks and test cases. The new benchmark causes the o1 model
performances to decline significantly, falling behind Claude 3.5. Moreover,
they consistently fail when confronted with atypical yet correct test cases, a
trap non-reasoning models occasionally avoid. We hypothesize that the
performance variability is due to instruction comprehension. Specifically, the
reasoning mechanism boosts performance when all expectations are captured,
meanwhile exacerbates errors when key expectations are missed, potentially
impacted by input lengths. As such, we argue that the coding success of
reasoning models hinges on the top-notch base model and SFT to ensure
meticulous adherence to instructions.Summary
AI-Generated Summary