Um Estudo de Caso de Codificação de Aplicativo Web com Modelos de Raciocínio da OpenAI.

Resumo

Este artigo apresenta um estudo de caso de tarefas de codificação pelos mais recentes modelos de raciocínio da OpenAI, ou seja, o1-preview e o1-mini, em comparação com outros modelos de ponta. Os modelos o1 entregam resultados de SOTA para o WebApp1K, um benchmark de tarefa única. Para isso, introduzimos o WebApp1K-Duo, um benchmark mais desafiador que duplica o número de tarefas e casos de teste. O novo benchmark faz com que o desempenho dos modelos o1 declinem significativamente, ficando atrás do Claude 3.5. Além disso, eles consistentemente falham quando confrontados com casos de teste atípicos, porém corretos, uma armadilha que modelos não de raciocínio ocasionalmente evitam. Hipotetizamos que a variabilidade de desempenho se deve à compreensão das instruções. Especificamente, o mecanismo de raciocínio melhora o desempenho quando todas as expectativas são capturadas, ao passo que exacerba erros quando expectativas-chave são perdidas, potencialmente impactadas pelos comprimentos de entrada. Dessa forma, argumentamos que o sucesso na codificação de modelos de raciocínio depende do modelo base de alta qualidade e da SFT para garantir adesão meticulosa às instruções.

English

This paper presents a case study of coding tasks by the latest reasoning models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling number of tasks and test cases. The new benchmark causes the o1 model performances to decline significantly, falling behind Claude 3.5. Moreover, they consistently fail when confronted with atypical yet correct test cases, a trap non-reasoning models occasionally avoid. We hypothesize that the performance variability is due to instruction comprehension. Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths. As such, we argue that the coding success of reasoning models hinges on the top-notch base model and SFT to ensure meticulous adherence to instructions.

Um Estudo de Caso de Codificação de Aplicativo Web com Modelos de Raciocínio da OpenAI.

A Case Study of Web App Coding with OpenAI Reasoning Models

Resumo

Support