ChatPaper.aiChatPaper

원자적 명령 간극: 명령 튜닝된 대형 언어 모델이 단순하고 독립적인 지시에 어려움을 겪는 현상

The Atomic Instruction Gap: Instruction-Tuned LLMs Struggle with Simple, Self-Contained Directives

October 20, 2025
저자: Henry Lim, Kwan Hui Lim
cs.AI

초록

명령어 튜닝된 대형 언어 모델(IT-LLMs)은 강력한 제로샷 추론 능력을 보이지만, 복잡한 명령어 수행의 기초가 되는 간단하고 독립적인 명령어 실행 능력은 아직 충분히 탐구되지 않았다. 우리는 수정된 MMLU 및 MMLU-Pro 벤치마크를 사용하여 20개의 IT-LLMs을 평가하였으며, 옵션 레이블의 형식(알파벳, 숫자, 로마자)을 체계적으로 변경하면서 그 의미를 동일하게 유지하는 네 가지 패러다임을 적용하였다: (1) 명시적 지시가 있는 경우, 레이블 변경은 큰 성능 변화를 초래하며(예: 로마자 대 숫자 -30.45%), 명령어 형식 편향을 드러낸다. (2) 지시가 없는 경우, 성능은 더욱 하락하며(최대 -10.84%) 레이블 민감도가 강화되어 명시적 지도의 역할을 강조한다. (3) 옵션 내용이 제거된 경우, 숫자 레이블을 제외하고 모델은 무작위 선택 기준선을 달성하지 못하며, 이는 원자적 지시에 대한 약한 준수를 시사한다. (4) 세 가지 샷 예제는 견고성이나 충실도에서 유의미한 향상을 가져오지 않으며, 생성 분석은 특히 비숫자 형식에서 지속적인 레이블 오류를 보여준다. 모델 크기에 걸쳐, 더 큰 LLMs은 더 높은 정확도를 달성하지만 명령어 준수에서 일관성을 유지하지 못한다. 이러한 결과는 현재의 명령어 튜닝 패러다임의 부족함을 드러내며, 원자적 명령어 수행을 명시적으로 목표로 하는 평가 방법과 훈련 전략의 필요성을 강조한다.
English
Instruction-tuned large language models (IT-LLMs) exhibit strong zero-shot reasoning, yet their ability to execute simple, self-contained instructions remains underexplored, despite this being foundational to complex instruction-following. We evaluate 20 IT-LLMs on modified MMLU and MMLU-Pro benchmarks, by systematically varying the format of option labels (alphabetic, numeric, Roman) while keeping their meaning identical under four paradigms, namely: (1) With explicit instructions, label changes cause large performance shifts (e.g., -30.45\% for Roman vs. numeric), revealing instruction-format bias. (2) Without instructions, performance drops further (up to -10.84\%) and label sensitivity intensifies, underscoring the role of explicit guidance. (3) When option contents are removed, models fail random-choice baselines except with numeric labels, suggesting weak adherence to atomic directives. (4) Three-shot exemplars yield no significant gains in robustness or fidelity, and generation analyses show persistent label errors, especially for non-numeric formats. Across model sizes, larger LLMs achieve higher accuracy but remain inconsistent in instruction adherence. These results expose the insufficiencies of current instruction-tuning paradigms and highlight the need for evaluation methods and training strategies that explicitly target atomic instruction-following.
PDF22October 23, 2025