Nessuna Soluzione Universale: QueryBandits per la Mitigazione delle Allucinazioni

Abstract

Le capacità di ragionamento avanzate dei Large Language Model (LLM) hanno portato a un aumento delle allucinazioni; tuttavia, la maggior parte del lavoro di mitigazione si concentra su modelli open-source per il rilevamento post-hoc e la modifica parametrica. La carenza di studi sulle allucinazioni nei modelli closed-source è particolarmente preoccupante, poiché questi costituiscono la stragrande maggioranza dei modelli implementati in ambito istituzionale. Introduciamo QueryBandits, un framework contestuale di bandit model-agnostic che apprende in modo adattivo online per selezionare la strategia ottimale di riscrittura delle query, sfruttando una funzione di reward convalidata empiricamente e calibrata. In 16 scenari di QA, il nostro miglior QueryBandit (Thompson Sampling) raggiunge un tasso di successo dell'87,5% rispetto a una baseline No-Rewrite e supera le politiche statiche zero-shot (ad esempio, Paraphrase o Expand) rispettivamente del 42,6% e del 60,3%. Inoltre, tutti i bandit contestuali superano i bandit semplici su tutti i dataset, con una varianza delle feature che coincide con una maggiore varianza nella selezione delle braccia. Ciò conferma la nostra scoperta che non esiste una singola politica di riscrittura ottimale per tutte le query. Scopriamo anche che certe politiche statiche accumulano un rimpianto cumulativo maggiore rispetto a No-Rewrite, indicando che una politica inflessibile di riscrittura delle query può peggiorare le allucinazioni. Pertanto, apprendere una politica online sulle feature semantiche con QueryBandits può modificare il comportamento del modello puramente attraverso meccanismi di forward-pass, consentendone l'uso con modelli closed-source e bypassando la necessità di riaddestramento o adattamento basato su gradienti.

English

Advanced reasoning capabilities in Large Language Models (LLMs) have led to more frequent hallucinations; yet most mitigation work focuses on open-source models for post-hoc detection and parameter editing. The dearth of studies focusing on hallucinations in closed-source models is especially concerning, as they constitute the vast majority of models in institutional deployments. We introduce QueryBandits, a model-agnostic contextual bandit framework that adaptively learns online to select the optimal query-rewrite strategy by leveraging an empirically validated and calibrated reward function. Across 16 QA scenarios, our top QueryBandit (Thompson Sampling) achieves an 87.5% win rate over a No-Rewrite baseline and outperforms zero-shot static policies (e.g., Paraphrase or Expand) by 42.6% and 60.3%, respectively. Moreover, all contextual bandits outperform vanilla bandits across all datasets, with higher feature variance coinciding with greater variance in arm selection. This substantiates our finding that there is no single rewrite policy optimal for all queries. We also discover that certain static policies incur higher cumulative regret than No-Rewrite, indicating that an inflexible query-rewriting policy can worsen hallucinations. Thus, learning an online policy over semantic features with QueryBandits can shift model behavior purely through forward-pass mechanisms, enabling its use with closed-source models and bypassing the need for retraining or gradient-based adaptation.

Nessuna Soluzione Universale: QueryBandits per la Mitigazione delle Allucinazioni

No One Size Fits All: QueryBandits for Hallucination Mitigation

Abstract

Support