Las Restricciones de Brevedad Invierten las Jerarquías de Rendimiento en los Modelos de Lenguaje

Resumen

Los protocolos de evaluación estándar revelan un fenómeno contraintuitivo: en el 7.7% de los problemas de referencia que abarcan cinco conjuntos de datos, los modelos lingüísticos más grandes rinden peor que los más pequeños en 28.4 puntos porcentuales, a pesar de tener entre 10 y 100 veces más parámetros. Mediante una evaluación sistemática de 31 modelos (de 0.5B a 405B parámetros) en 1,485 problemas, identificamos como mecanismo una verbosidad espontánea dependiente de la escala que introduce errores por sobreelaboración. Experimentos de intervención causal demuestran que esto refleja un diseño de *prompts* corregible, no limitaciones fundamentales de capacidad. Restringir a los modelos grandes para producir respuestas breves mejora la precisión en 26 puntos porcentuales y reduce las brechas de rendimiento hasta en dos tercios. De manera más crítica, las restricciones de brevedad invierten completamente las jerarquías de rendimiento en pruebas de razonamiento matemático y conocimiento científico, con los modelos grandes logrando ventajas de 7.7 a 15.9 puntos porcentuales sobre los modelos pequeños — inversiones directas de las brechas originales. Estas inversiones prueban que los modelos grandes poseen capacidades latentes superiores que el *prompting* universal enmascara. Validamos los hallazgos mediante tres pruebas independientes de contaminación y demostramos que el escalado inverso opera de forma continua en todo el espectro de parámetros, con escalas óptimas específicas del conjunto de datos que van de 0.5B a 3.0B parámetros. Nuestros resultados establecen que maximizar el rendimiento de los modelos grandes requiere una ingeniería de *prompts* consciente de la escala, no protocolos de evaluación universales, con implicaciones inmediatas para el despliegue: la adaptación de *prompts* mejora simultáneamente la precisión y reduce los costos computacionales.

English

Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.

Las Restricciones de Brevedad Invierten las Jerarquías de Rendimiento en los Modelos de Lenguaje

Brevity Constraints Reverse Performance Hierarchies in Language Models

Resumen

Support