SemEval-2026 Task 8에서의 RaguTeam: 신뢰할 수 있는 다중 턴 응답 생성을 위한 Judge-Orchestrated LLM 앙상블에서의 Meno와 Friends
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation
May 6, 2026
저자: Ivan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
cs.AI
초록
SemEval-2026 Task~8: MTRAGEval의 Task~B(참조 문단을 활용한 생성)에서 우승한 시스템을 제안한다. 본 방법론은 두 가지 프롬프트 변형을 적용한 7개의 LLM으로 구성된 이기종 앙상블로, GPT-4o-mini 판별기가 인스턴스별 최적 후보를 선택한다. 우리는 26개 팀 중 1위를 차지하여 조건부 조화평균 0.7827을 달성했으며, 가장 강력한 베이스라인(gpt-oss-120b, 0.6390)을 능가했다. ablation 실험을 통해 모델 패밀리, 규모, 프롬프트 전략의 다양성이 핵심적이며, 앙상블이 단일 모델을 지속적으로 상회함을 확인했다. 또한 우수한 비용 대비 성능을 지닌 7B 규모의 도메인 적응 모델인 Meno-Lite-0.1을 소개하고, MTRAGEval의 주석 한계와 개선 방향을 분석한다. 코드는 공개되어 있다: https://github.com/RaguTeam/ragu_mtrag_semeval
English
We present our winning system for Task~B (generation with reference passages) in SemEval-2026 Task~8: MTRAGEval. Our method is a heterogeneous ensemble of seven LLMs with two prompting variants, where a GPT-4o-mini judge selects the best candidate per instance. We ranked 1st out of 26 teams, achieving a conditioned harmonic mean of 0.7827 and outperforming the strongest baseline (gpt-oss-120b, 0.6390). Ablations show that diversity in model families, scales, and prompting strategies is essential, with the ensemble consistently beating any single model. We also introduce Meno-Lite-0.1, a 7B domain-adapted model with a strong cost--performance trade-off, and analyse MTRAGEval, highlighting annotation limitations and directions for improvement. Our code is publicly available: https://github.com/RaguTeam/ragu_mtrag_semeval