RaguTeam à SemEval-2026 Tâche 8 : Meno et ses Amis dans un Ensemble de LLM Orchestré par un Juge pour une Génération de Réponses Fidèles en Conversation Multi-Tours

Résumé

Nous présentons notre système vainqueur pour la Tâche~B (génération avec passages de référence) de SemEval-2026 Tâche~8 : MTRAGEval. Notre méthode est un ensemble hétérogène de sept LLMs utilisant deux variantes de prompt, où un juge GPT-4o-mini sélectionne le meilleur candidat par instance. Nous avons terminé au 1er rang sur 26 équipes, atteignant une moyenne harmonique conditionnelle de 0,7827 et surpassant le plus solide des modèles de référence (gpt-oss-120b, 0,6390). Les études d'ablation montrent que la diversité des familles de modèles, des échelles et des stratégies de prompt est essentielle, l'ensemble surpassant systématiquement tout modèle individuel. Nous présentons également Meno-Lite-0.1, un modèle de 7B adapté au domaine offrant un bon compromis coût--performance, et nous analysons MTRAGEval en mettant en lumière les limitations de l'annotation et des pistes d'amélioration. Notre code est public : https://github.com/RaguTeam/ragu_mtrag_semeval

English

We present our winning system for Task~B (generation with reference passages) in SemEval-2026 Task~8: MTRAGEval. Our method is a heterogeneous ensemble of seven LLMs with two prompting variants, where a GPT-4o-mini judge selects the best candidate per instance. We ranked 1st out of 26 teams, achieving a conditioned harmonic mean of 0.7827 and outperforming the strongest baseline (gpt-oss-120b, 0.6390). Ablations show that diversity in model families, scales, and prompting strategies is essential, with the ensemble consistently beating any single model. We also introduce Meno-Lite-0.1, a 7B domain-adapted model with a strong cost--performance trade-off, and analyse MTRAGEval, highlighting annotation limitations and directions for improvement. Our code is publicly available: https://github.com/RaguTeam/ragu_mtrag_semeval

RaguTeam à SemEval-2026 Tâche 8 : Meno et ses Amis dans un Ensemble de LLM Orchestré par un Juge pour une Génération de Réponses Fidèles en Conversation Multi-Tours

RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

Résumé

Support