Allenamento Progressivo per Dialogo Spiegabile Basato su Citazioni: Riduzione dell'Allucinazione a Zero nei LLM Inglese-Hindi

Abstract

I sistemi di dialogo basati sulla conoscenza mirano a generare risposte informative e contestualmente rilevanti condizionandosi su fonti di conoscenza esterne. Tuttavia, la maggior parte degli approcci esistenti si concentra esclusivamente sull'inglese, manca di meccanismi espliciti di citazione per verificare affermazioni fattuali e offre una trasparenza limitata nel processo decisionale del modello. Presentiamo XKD-Dial, una pipeline di addestramento progressiva in quattro fasi per la generazione di dialoghi spiegabili e basati sulla conoscenza in un contesto bilingue (inglese-hindi), che comprende: (1) adattamento multilingue, (2) SFT per dialoghi in inglese con ancoraggio alle citazioni, (3) SFT per dialoghi bilingui e (4) allineamento GRPO con ricompense consapevoli delle citazioni. Valutiamo sei modelli che spaziano su architetture encoder-decoder (250M-3B) e decoder-only (1B-7B) in ogni fase della pipeline. I nostri contributi chiave sono: (i) tre analisi di spiegabilità post-hoc - allineamento dell'attenzione incrociata, attribuzione dei Gradienti Integrati e ancoraggio causale basato su occlusione - applicate sistematicamente lungo la traiettoria di addestramento per rivelare come viene appreso il comportamento di citazione, non solo se viene appreso; (ii) l'SFT ancorato alle citazioni riduce le allucinazioni allo 0,0% per i modelli encoder-decoder a partire dalla Fase 2; (iii) la pipeline progressiva previene la dimenticanza catastrofica migliorando al contempo le capacità in hindi; (iv) modelli più piccoli eguagliano le prestazioni di modelli più grandi in inglese dopo l'SFT; e (v) il GRPO fornisce un miglioramento marginale rispetto a un SFT ben progettato per compiti di citazione strutturata. Valutiamo utilizzando sei metriche automatiche (BLEU, ROUGE, BERTScore, FactScore, Citation-F1 e tasso di allucinazione).

English

Knowledge-grounded dialogue systems aim to generate informative, contextually relevant responses by conditioning on external knowledge sources. However, most existing approaches focus exclusively on English, lack explicit citation mechanisms for verifying factual claims, and offer limited transparency into model decision-making. We present XKD-Dial, a progressive four-stage training pipeline for explainable, knowledge-grounded dialogue generation in a bilingual (English-Hindi) setting, comprising: (1) multilingual adaptation, (2) English dialogue SFT with citation grounding, (3) bilingual dialogue SFT, and (4) GRPO alignment with citation-aware rewards. We evaluate six models spanning encoder-decoder (250M-3B) and decoder-only (1B-7B) architectures at every pipeline stage. Our key contributions are: (i) three post-hoc explainability analyses - cross-attention alignment, Integrated Gradients attribution, and occlusion-based causal grounding - applied systematically across the training trajectory to reveal how citation behaviour is learned, not only whether it is learned; (ii) citation-grounded SFT reduces hallucination to 0.0% for encoder-decoder models from Stage 2 onward; (iii) the progressive pipeline prevents catastrophic forgetting while improving Hindi capabilities; (iv) smaller models match larger models on English after SFT; and (v) GRPO provides marginal improvement over well-designed SFT for structured citation tasks. We evaluate across six automatic metrics (BLEU, ROUGE, BERTScore, FactScore, Citation-F1, and hallucination rate).

Allenamento Progressivo per Dialogo Spiegabile Basato su Citazioni: Riduzione dell'Allucinazione a Zero nei LLM Inglese-Hindi

Progressive Training for Explainable Citation-Grounded Dialogue: Reducing Hallucination to Zero in English-Hindi LLMs

Abstract

Support