xVerify: 추론 모델 평가를 위한 효율적인 답변 검증기xVerify: Efficient Answer Verifier for Reasoning Model Evaluations
OpenAI의 o1 모델 출시와 함께, 느린 사고 전략을 채택한 추론 모델들이 점차 등장하고 있습니다. 이러한 모델들이 생성하는 응답에는 복잡한 추론, 중간 단계, 그리고 자기 반성이 포함되는 경우가 많기 때문에, 기존의 평가 방법들은 종종 부적절합니다. 이러한 방법들은 LLM 출력이 참조 답변과 진정으로 동등한지 여부를 판단하기 어려울 뿐만 아니라, 길고 복잡한 응답에서 최종 답변을 식별하고 추출하는 데에도 어려움을 겪습니다. 이 문제를 해결하기 위해, 우리는 추론 모델 평가를 위한 효율적인 답변 검증기인 xVerify를 제안합니다. xVerify는 동등성 판단에서 강력한 능력을 보여주며, 다양한 유형의 객관식 질문에 대해 추론 모델이 생성한 답변이 참조 답변과 동등한지 여부를 효과적으로 판단할 수 있습니다. xVerify를 훈련하고 평가하기 위해, 우리는 여러 LLM이 다양한 데이터셋에서 생성한 질문-답변 쌍을 수집하고, 여러 추론 모델과 추론 모델 평가를 위해 특별히 설계된 도전적인 평가 세트를 활용하여 VAR 데이터셋을 구축했습니다. 라벨 정확성을 보장하기 위해 다중 라운드 주석 프로세스를 사용했습니다. VAR 데이터셋을 기반으로, 우리는 다양한 규모의 xVerify 모델들을 훈련했습니다. 테스트 세트와 일반화 세트에서 수행된 평가 실험에서, 모든 xVerify 모델들은 전체 F1 점수와 정확도가 95%를 초과하는 성과를 보였습니다. 특히, 가장 작은 변형인 xVerify-0.5B-I은 GPT-4o를 제외한 모든 평가 방법을 능가했으며, xVerify-3B-Ib는 전반적인 성능에서 GPT-4o를 능가했습니다. 이러한 결과들은 xVerify의 효과성과 일반화 가능성을 검증합니다.