RaguTeam op SemEval-2026 Taak 8: Meno en Vrienden in een door een Rechter Georkestreerd LLM-ensemble voor Gelovige Multiturn Responsgeneratie

Samenvatting

Wij presenteren ons winnende systeem voor Taak B (generatie met referentieteksten) in SemEval-2026 Taak 8: MTRAGEval. Onze methode is een heterogeen ensemble van zeven grote taalmodel(len) (LLM's) met twee promptvarianten, waarbij een GPT-4o-mini beoordelaar de beste kandidaat per instantie selecteert. Wij eindigden als eerste van de 26 teams, met een voorwaardelijk harmonisch gemiddelde van 0,7827, en overtroffen daarmee de sterkste baseline (gpt-oss-120b, 0,6390). Ablatiestudies tonen aan dat diversiteit in modelfamilies, schaal en promptstrategieën essentieel is, waarbij het ensemble consistent beter presteert dan elk individueel model. Wij introduceren ook Meno-Lite-0.1, een 7B-model dat is aangepast aan het domein en een sterke kost-prestatieverhouding biedt, en analyseren MTRAGEval, waarbij we annotatielimieten en verbeterrichtingen belichten. Onze code is openbaar beschikbaar: https://github.com/RaguTeam/ragu_mtrag_semeval

English

We present our winning system for Task~B (generation with reference passages) in SemEval-2026 Task~8: MTRAGEval. Our method is a heterogeneous ensemble of seven LLMs with two prompting variants, where a GPT-4o-mini judge selects the best candidate per instance. We ranked 1st out of 26 teams, achieving a conditioned harmonic mean of 0.7827 and outperforming the strongest baseline (gpt-oss-120b, 0.6390). Ablations show that diversity in model families, scales, and prompting strategies is essential, with the ensemble consistently beating any single model. We also introduce Meno-Lite-0.1, a 7B domain-adapted model with a strong cost--performance trade-off, and analyse MTRAGEval, highlighting annotation limitations and directions for improvement. Our code is publicly available: https://github.com/RaguTeam/ragu_mtrag_semeval

RaguTeam op SemEval-2026 Taak 8: Meno en Vrienden in een door een Rechter Georkestreerd LLM-ensemble voor Gelovige Multiturn Responsgeneratie

RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

Samenvatting

Support