Un estudio de caso sobre la codificación de aplicaciones web con modelos de razonamiento de OpenAI.
A Case Study of Web App Coding with OpenAI Reasoning Models
September 19, 2024
Autores: Yi Cui
cs.AI
Resumen
Este documento presenta un estudio de caso sobre tareas de codificación realizadas por los últimos modelos de razonamiento de OpenAI, es decir, o1-preview y o1-mini, en comparación con otros modelos de vanguardia. Los modelos o1 ofrecen resultados de última generación para WebApp1K, un banco de pruebas de una sola tarea. Con este fin, presentamos WebApp1K-Duo, un banco de pruebas más exigente que duplica el número de tareas y casos de prueba. El nuevo banco de pruebas provoca una disminución significativa en el rendimiento de los modelos o1, quedando rezagados detrás de Claude 3.5. Además, consistentemente fallan al enfrentarse a casos de prueba atípicos pero correctos, una trampa que los modelos no razonadores ocasionalmente evitan. Postulamos que la variabilidad en el rendimiento se debe a la comprensión de instrucciones. Específicamente, el mecanismo de razonamiento mejora el rendimiento cuando se capturan todas las expectativas, mientras que exacerba los errores cuando se omiten expectativas clave, potencialmente afectados por la longitud de entrada. Por lo tanto, sostenemos que el éxito en la codificación de los modelos de razonamiento depende del modelo base de primera categoría y de la transformación de secuencias a fin de garantizar una adhesión meticulosa a las instrucciones.
English
This paper presents a case study of coding tasks by the latest reasoning
models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other
frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task
benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling
number of tasks and test cases. The new benchmark causes the o1 model
performances to decline significantly, falling behind Claude 3.5. Moreover,
they consistently fail when confronted with atypical yet correct test cases, a
trap non-reasoning models occasionally avoid. We hypothesize that the
performance variability is due to instruction comprehension. Specifically, the
reasoning mechanism boosts performance when all expectations are captured,
meanwhile exacerbates errors when key expectations are missed, potentially
impacted by input lengths. As such, we argue that the coding success of
reasoning models hinges on the top-notch base model and SFT to ensure
meticulous adherence to instructions.Summary
AI-Generated Summary