장문맥 언어 모델에 대한 제어 가능한 검증
A Controllable Examination for Long-Context Language Models
June 3, 2025
저자: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
cs.AI
초록
장문 맥락 언어 모델(LCLM)을 평가하기 위한 기존 프레임워크는 크게 실제 세계 작업과 합성 작업으로 분류할 수 있습니다. 이러한 접근법들은 유용성에도 불구하고 각각 고유한 한계를 가지고 있습니다. 실제 세계 작업은 해석하거나 특성화하기에 너무 복잡하며 데이터 오염에 취약합니다. 반면, 합성 작업은 흔히 건초 더미 속 바늘(NIAH) 형식을 채택하는데, 여기서 "바늘"과 "건초 더미" 간의 일관성 부족이 현실적인 애플리케이션의 대리자로서의 타당성을 훼손합니다. 이러한 문제에 대응하여, 우리는 이상적인 장문 맥락 평가 프레임워크가 세 가지 필수 특성, 즉 원활한 맥락, 제어 가능한 설정, 그리고 건전한 평가를 갖춰야 한다고 주장합니다. 본 연구는 이러한 특성을 반영한 LongBioBench라는 새로운 벤치마크를 소개하며, 이는 인공적으로 생성된 전기를 활용하여 LCLM의 이해, 추론, 신뢰성 차원을 평가하기 위한 통제된 환경을 제공합니다.
총 18개의 LCLM을 대상으로 한 실험적 평가 결과, 대부분의 모델이 검색 결과에 대한 의미론적 이해와 기본적인 추론 능력에서 여전히 부족함을 보였으며, 맥락 길이가 증가함에 따라 신뢰성이 더 낮아지는 것으로 나타났습니다. 추가 분석을 통해, 기존 합성 벤치마크가 채택한 일부 설계 선택(예: 맥락적 비일관성, 수치적 바늘, 방해 요소의 부재 등)이 모델의 장문 맥락 능력을 테스트하는 데 취약성을 드러냄을 확인했습니다. 또한, 장문 맥락 지속 사전 학습이 주로 RoPE 임베딩을 조정하여 확장된 맥락 길이를 수용한다는 점도 밝혀냈습니다. 요약하자면, LongBioBench는 이전의 합성 벤치마크와 비교하여 실제 언어 작업을 반영함과 동시에 제어 가능성을 유지하는 더 나은 균형을 달성했으며, 높은 해석 가능성과 구성 가능성을 갖추고 있습니다.
English
Existing frameworks for evaluating long-context language models (LCLM) can be
broadly categorized into real-world and synthetic tasks. Despite their utility,
both approaches are accompanied by certain intrinsic limitations. Real-world
tasks are too complex to interpret or characterize and are susceptible to data
contamination. In contrast, synthetic tasks often adopt the
needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the
"needle" and the "haystack" compromises their validity as proxies for realistic
applications. In response to these challenges, we posit that an ideal
long-context evaluation framework should be characterized by three essential
features: seamless context, controllable setting, and
sound evaluation. This study introduces LongBioBench, a
novel benchmark that utilizes artificially generated biographies as a
controlled environment for assessing LCLMs across dimensions of
understanding, reasoning, and trustworthiness.
Our experimental evaluation, which includes 18 LCLMs in total,
demonstrates that most models still exhibit deficiencies in semantic
understanding and elementary reasoning over retrieved results and are less
trustworthy as context length increases. Our further analysis indicates some
design choices employed by existing synthetic benchmarks, such as contextual
non-coherence, numerical needles, and the absence of distractors, rendering
them vulnerable to test the model long-context capabilities. Moreover, we also
reveal that long-context continual pretraining primarily adjusts RoPE embedding
to accommodate extended context lengths. To sum up, compared to previous
synthetic benchmarks, LongBioBench achieves a better trade-off between
mirroring authentic language tasks and maintaining controllability, and is
highly interpretable and configurable.