ChatPaper.aiChatPaper

Une étude de cas sur la programmation d'une application web avec les modèles de raisonnement OpenAI.

A Case Study of Web App Coding with OpenAI Reasoning Models

September 19, 2024
Auteurs: Yi Cui
cs.AI

Résumé

Cet article présente une étude de cas sur des tâches de codage réalisées par les derniers modèles de raisonnement d'OpenAI, à savoir o1-preview et o1-mini, en comparaison avec d'autres modèles de pointe. Les modèles o1 fournissent des résultats de pointe pour WebApp1K, un banc d'essai à tâche unique. À cette fin, nous introduisons WebApp1K-Duo, un banc d'essai plus difficile doublant le nombre de tâches et de cas de test. Le nouveau banc d'essai entraîne une baisse significative des performances des modèles o1, les plaçant derrière Claude 3.5. De plus, ils échouent de manière constante lorsqu'ils sont confrontés à des cas de test atypiques mais corrects, un piège que les modèles non-rationnels évitent parfois. Nous émettons l'hypothèse que la variabilité des performances est due à la compréhension des instructions. Plus précisément, le mécanisme de raisonnement améliore les performances lorsque toutes les attentes sont capturées, tout en exacerbant les erreurs lorsque des attentes clés sont manquantes, potentiellement impactées par les longueurs d'entrée. En tant que tel, nous soutenons que le succès du codage des modèles de raisonnement dépend du modèle de base de premier ordre et de la transformation structurée de texte (SFT) pour garantir un respect méticuleux des instructions.
English
This paper presents a case study of coding tasks by the latest reasoning models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling number of tasks and test cases. The new benchmark causes the o1 model performances to decline significantly, falling behind Claude 3.5. Moreover, they consistently fail when confronted with atypical yet correct test cases, a trap non-reasoning models occasionally avoid. We hypothesize that the performance variability is due to instruction comprehension. Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths. As such, we argue that the coding success of reasoning models hinges on the top-notch base model and SFT to ensure meticulous adherence to instructions.

Summary

AI-Generated Summary

PDF62November 16, 2024