LLM-as-a-Judge를 속이기 위한 단일 토큰
One Token to Fool LLM-as-a-Judge
July 11, 2025
저자: Yulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu
cs.AI
초록
검증 가능한 보상을 통한 강화 학습(RLVR)에서 답변 품질을 평가하기 위해 대규모 언어 모델(LLMs)을 사용하는 생성적 보상 모델(LLMs-as-judges라고도 함)이 점점 더 많이 채택되고 있습니다. 이러한 모델은 특히 자유 형식의 출력을 포함하는 복잡한 추론 작업에서 엄격한 규칙 기반 메트릭보다 선호되는 경우가 많습니다. 이 패러다임에서는 일반적으로 LLM이 후보 답변을 기준 참조와 비교하고 정확성을 나타내는 이진 보상을 할당하도록 프롬프트됩니다. 이러한 비교 작업이 단순해 보임에도 불구하고, 생성적 보상 모델은 표면적인 조작에 놀라운 취약성을 보입니다: 비단어 기호(예: ":" 또는 ".") 또는 "Thought process:" 및 "Let's solve this problem step by step."과 같은 추론 개시 문구가 종종 잘못된 긍정적 보상을 유발할 수 있습니다. 우리는 이러한 약점이 LLM, 데이터셋 및 프롬프트 형식 전반에 걸쳐 광범위하게 존재하며, 거부 샘플링, 선호 최적화 및 RLVR과 같은 생성적 보상 모델에 의존하는 핵심 알고리즘 패러다임에 심각한 위협이 됨을 입증합니다. 이 문제를 완화하기 위해, 우리는 간단하지만 효과적인 데이터 증강 전략을 도입하고 상당히 개선된 견고성을 가진 새로운 생성적 보상 모델을 학습시킵니다. 우리의 연구 결과는 더 신뢰할 수 있는 LLM 기반 평가 방법의 시급한 필요성을 강조합니다. 우리는 견고하고 일반 도메인에 적용 가능한 보상 모델과 그 합성 학습 데이터를 https://huggingface.co/sarosavo/Master-RM 및 https://huggingface.co/datasets/sarosavo/Master-RM에서 공개합니다.
English
Generative reward models (also known as LLMs-as-judges), which use large
language models (LLMs) to evaluate answer quality, are increasingly adopted in
reinforcement learning with verifiable rewards (RLVR). They are often preferred
over rigid rule-based metrics, especially for complex reasoning tasks involving
free-form outputs. In this paradigm, an LLM is typically prompted to compare a
candidate answer against a ground-truth reference and assign a binary reward
indicating correctness. Despite the seeming simplicity of this comparison task,
we find that generative reward models exhibit surprising vulnerabilities to
superficial manipulations: non-word symbols (e.g., ":" or ".") or reasoning
openers like "Thought process:" and "Let's solve this problem step by step."
can often lead to false positive rewards. We demonstrate that this weakness is
widespread across LLMs, datasets, and prompt formats, posing a serious threat
for core algorithmic paradigms that rely on generative reward models, such as
rejection sampling, preference optimization, and RLVR. To mitigate this issue,
we introduce a simple yet effective data augmentation strategy and train a new
generative reward model with substantially improved robustness. Our findings
highlight the urgent need for more reliable LLM-based evaluation methods. We
release our robust, general-domain reward model and its synthetic training data
at https://huggingface.co/sarosavo/Master-RM and
https://huggingface.co/datasets/sarosavo/Master-RM.