Исследование случая кодирования веб-приложения с использованием моделей рассуждения OpenAI
A Case Study of Web App Coding with OpenAI Reasoning Models
September 19, 2024
Авторы: Yi Cui
cs.AI
Аннотация
Данный документ представляет собой кейс-исследование задач кодирования с использованием последних моделей рассуждения от OpenAI, а именно o1-preview и o1-mini, в сравнении с другими передовыми моделями. Модели o1 показывают результаты SOTA для WebApp1K, бенчмарка с одной задачей. Для этой цели мы представляем WebApp1K-Duo, более сложный бенчмарк, удваивающий количество задач и тестовых случаев. Новый бенчмарк приводит к значительному снижению производительности моделей o1, отставая от Claude 3.5. Более того, они последовательно терпят неудачу при столкновении с атипичными, но правильными тестовыми случаями, ловушку, из которой иногда избегают нерассуждающие модели. Мы предполагаем, что изменчивость производительности обусловлена пониманием инструкций. В частности, механизм рассуждения повышает производительность, когда все ожидания учтены, тогда как усугубляет ошибки, когда ключевые ожидания пропущены, возможно, под влиянием длины ввода. Таким образом, мы утверждаем, что успех моделей рассуждения в области кодирования зависит от первоклассной базовой модели и SFT для обеспечения тщательного следования инструкциям.
English
This paper presents a case study of coding tasks by the latest reasoning
models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other
frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task
benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling
number of tasks and test cases. The new benchmark causes the o1 model
performances to decline significantly, falling behind Claude 3.5. Moreover,
they consistently fail when confronted with atypical yet correct test cases, a
trap non-reasoning models occasionally avoid. We hypothesize that the
performance variability is due to instruction comprehension. Specifically, the
reasoning mechanism boosts performance when all expectations are captured,
meanwhile exacerbates errors when key expectations are missed, potentially
impacted by input lengths. As such, we argue that the coding success of
reasoning models hinges on the top-notch base model and SFT to ensure
meticulous adherence to instructions.Summary
AI-Generated Summary