Ограничения краткости меняют иерархию производительности языковых моделей

Аннотация

Стандартные протоколы оценки выявляют парадоксальный феномен: в 7,7% тестовых задач, охватывающих пять наборов данных, крупные языковые модели демонстрируют худшие результаты, чем меньшие, на 28,4 процентных пункта, несмотря на наличие в 10–100 раз больше параметров. Путем систематической оценки 31 модели (от 0,5 до 405 млрд параметров) на 1485 задачах мы определяем механизм этого явления как спонтанную масштаб-зависимую многословность, которая порождает ошибки через избыточную детализацию. Эксперименты с причинными вмешательствами показывают, что это отражает проблему проектирования промптов, а не фундаментальные ограничения возможностей моделей. Ограничение крупных моделей на создание кратких ответов повышает точность на 26 процентных пунктов и сокращает разрыв в производительности до двух третей. Что наиболее важно, ограничения краткости полностью меняют иерархию производительности на тестах математических рассуждений и научных знаний: крупные модели получают преимущество в 7,7–15,9 процентных пункта над малыми моделями — что является прямой инверсией исходного разрыва. Эти изменения доказывают, что крупные модели обладают превосходными скрытыми возможностями, которые маскируются универсальными промптами. Мы подтверждаем выводы тремя независимыми тестами на контаминацию и демонстрируем, что обратное масштабирование действует непрерывно во всем спектре параметров, причем оптимальный масштаб для конкретных наборов данных варьируется от 0,5 до 3,0 млрд параметров. Наши результаты устанавливают, что максимизация производительности крупных моделей требует масштабно-ориентированного инжиниринга промптов, а не универсальных протоколов оценки, с непосредственными последствиями для развертывания: адаптация промптов одновременно повышает точность и снижает вычислительные затраты.

English

Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.

Ограничения краткости меняют иерархию производительности языковых моделей

Brevity Constraints Reverse Performance Hierarchies in Language Models

Аннотация

Support