Un estudio de caso sobre la codificación de aplicaciones web con modelos de razonamiento de OpenAI.

Resumen

Este documento presenta un estudio de caso sobre tareas de codificación realizadas por los últimos modelos de razonamiento de OpenAI, es decir, o1-preview y o1-mini, en comparación con otros modelos de vanguardia. Los modelos o1 ofrecen resultados de última generación para WebApp1K, un banco de pruebas de una sola tarea. Con este fin, presentamos WebApp1K-Duo, un banco de pruebas más exigente que duplica el número de tareas y casos de prueba. El nuevo banco de pruebas provoca una disminución significativa en el rendimiento de los modelos o1, quedando rezagados detrás de Claude 3.5. Además, consistentemente fallan al enfrentarse a casos de prueba atípicos pero correctos, una trampa que los modelos no razonadores ocasionalmente evitan. Postulamos que la variabilidad en el rendimiento se debe a la comprensión de instrucciones. Específicamente, el mecanismo de razonamiento mejora el rendimiento cuando se capturan todas las expectativas, mientras que exacerba los errores cuando se omiten expectativas clave, potencialmente afectados por la longitud de entrada. Por lo tanto, sostenemos que el éxito en la codificación de los modelos de razonamiento depende del modelo base de primera categoría y de la transformación de secuencias a fin de garantizar una adhesión meticulosa a las instrucciones.

English

This paper presents a case study of coding tasks by the latest reasoning models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling number of tasks and test cases. The new benchmark causes the o1 model performances to decline significantly, falling behind Claude 3.5. Moreover, they consistently fail when confronted with atypical yet correct test cases, a trap non-reasoning models occasionally avoid. We hypothesize that the performance variability is due to instruction comprehension. Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths. As such, we argue that the coding success of reasoning models hinges on the top-notch base model and SFT to ensure meticulous adherence to instructions.

Un estudio de caso sobre la codificación de aplicaciones web con modelos de razonamiento de OpenAI.

A Case Study of Web App Coding with OpenAI Reasoning Models

Resumen

Support