ChatPaper.aiChatPaper

언어 모델에서 간결성 제약이 성능 위계를 역전시킨다

Brevity Constraints Reverse Performance Hierarchies in Language Models

March 11, 2026
저자: MD Azizul Hakim
cs.AI

초록

표준 평가 프로토콜에 따르면 다섯 개 데이터셋에 걸친 벤치마크 문제의 7.7%에서 더 큰 언어 모델이 매개변수 수가 10~100배 많음에도 불구하고 더 작은 모델보다 28.4% 포인트 낮은 성능을 보이는 반직관적 현상이 관찰됩니다. 1,485개 문제에 대해 31개 모델(0.5B~405B 매개변수)을 체계적으로 평가한 결과, 이 현상의 메커니즘이 과도한 설명을 통해 오류를 유발하는 자발적 규모 의존적 다변화(spontaneous scale-dependent verbosity)로 확인되었습니다. 인과 관계 중재 실험을 통해 이는 근본적인 능력 한계가 아닌 수정 가능한 프롬프트 설계의 반영임을 입증합니다. 대형 모델의 응답을 간결하게 제한할 경우 정확도가 26% 포인트 향상되고 성능 격차가 최대 3분의 2까지 감소합니다. 가장 중요한 것은, 간결성 제약이 수학적 추론 및 과학 지식 벤치마크에서 성능 위계를 완전히 역전시켜 대형 모델이 소형 모델 대비 7.7~15.9% 포인트 우위를 점하는 것으로 나타났는데, 이는 기존 격차의 정반대 현상입니다. 이러한 역전 현상은 대형 모델이 보편적 프롬프팅이 가리는 우수한 잠재 능력을 보유하고 있음을 입증합니다. 세 가지 독립적 오염 검사를 통해 결과를 검증하였으며, 역스케일링 현상이 전체 매개변수 스펙트럼에 걸쳐 연속적으로 작동하며 데이터셋별 최적 규모가 0.5B에서 3.0B 매개변수 범위에 분포함을 확인했습니다. 본 연구 결과는 대형 모델의 성능 극대화를 위해 보편적 평가 프로토콜보다 규모 인지형 프롬프트 엔지니어링이 필요함을 입증하며, 즉각적인 배포 시사점을 제시합니다: 프롬프트 적응은 정확도 향상과 계산 비용 절감을 동시에達成합니다.
English
Standard evaluation protocols reveal a counterintuitive phenomenon: on 7.7% of benchmark problems spanning five datasets, larger language models underperform smaller ones by 28.4 percentage points despite 10-100x more parameters. Through systematic evaluation of 31 models (0.5B-405B parameters) across 1,485 problems, we identify the mechanism as spontaneous scale-dependent verbosity that introduces errors through overelaboration. Causal intervention experiments demonstrate this reflects correctable prompt design rather than fundamental capability limitations. Constraining large models to produce brief responses improves accuracy by 26 percentage points and reduces performance gaps by up to two-thirds. Most critically, brevity constraints completely reverse performance hierarchies on mathematical reasoning and scientific knowledge benchmarks, with large models achieving 7.7-15.9 percentage point advantages over small models -- direct inversions of the original gaps. These reversals prove large models possess superior latent capabilities that universal prompting masks. We validate findings through three independent contamination tests and demonstrate inverse scaling operates continuously across the full parameter spectrum, with dataset-specific optimal scales ranging from 0.5B to 3.0B parameters. Our results establish that maximizing large model performance requires scale-aware prompt engineering rather than universal evaluation protocols, with immediate implications for deployment: prompt adaptation simultaneously improves accuracy and reduces computational costs.
PDF161April 3, 2026