TARS: Estrategia de Preferencia Adaptativa de Tokens MinMax para la Reducción de Alucinaciones en MLLMs
TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs
July 29, 2025
Autores: Kejia Zhang, Keda Tao, Zhiming Luo, Chang Liu, Jiasheng Tang, Huan Wang
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs) permiten el razonamiento visión-lenguaje, pero a menudo generan resultados plausibles que son factualmente incorrectos o visualmente infundados, lo que compromete su fiabilidad. La optimización de preferencias directas (DPO) es una estrategia común para corregir alucinaciones al alinear las salidas del modelo con las preferencias humanas. Las estrategias DPO existentes suelen tratar las preferencias relacionadas con alucinaciones como objetivos fijos, dependiendo de señales de supervisión estáticas durante el entrenamiento. Este enfoque tiende a sobreajustarse a indicadores lingüísticos superficiales en los datos de preferencia, lo que lleva a una rigidez distribucional y correlaciones espurias que perjudican la fundamentación en información visual causalmente relevante. Para superar esta limitación, proponemos TARS, una estrategia de preferencias adaptativa a nivel de token que reformula DPO como un problema de optimización min-max. TARS maximiza los cambios distribucionales a nivel de token bajo restricciones semánticas para simular la incertidumbre de alineación, y simultáneamente minimiza la pérdida de preferencia esperada bajo estas perturbaciones controladas. Este objetivo conjunto preserva la fundamentación causal mientras mitiga el sobreajuste a patrones de preferencia, reduciendo así las alucinaciones en el razonamiento multimodal. Evaluamos TARS en múltiples benchmarks de alucinación y encontramos un rendimiento consistentemente sólido. Utilizando solo 4.8k muestras de preferencia y sin retroalimentación experta, TARS reduce las tasas de alucinación del 26.4% al 13.2% y disminuye el valor de cognición de 2.5 a 0.4. Supera a DPO estándar y se equipara a GPT-4 en varias métricas clave.
English
Multimodal large language models (MLLMs) enable vision-language reasoning,
yet often generate plausible outputs that are factually incorrect or visually
ungrounded, thereby compromising their reliability. Direct preference
optimization (DPO) is a common strategy for correcting hallucinations by
aligning model outputs with human preferences. Existing DPO strategies
typically treat hallucination-related preferences as fixed targets, relying on
static supervision signals during training. This approach tends to overfit to
superficial linguistic cues in preference data, leading to distributional
rigidity and spurious correlations that impair grounding in causally relevant
visual information. To overcome this limitation, we propose TARS, a
token-adaptive preference strategy that reformulates DPO as a min-max
optimization problem. TARS maximizes token-level distributional shifts under
semantic constraints to simulate alignment uncertainty, and simultaneously
minimizes the expected preference loss under these controlled perturbations.
This joint objective preserves causal grounding while mitigating overfitting to
preference patterns, thereby reducing hallucinations in multimodal reasoning.
We evaluate TARS on multiple hallucination benchmarks and find consistently
strong performance. Using only 4.8k preference samples and no expert feedback,
TARS reduces hallucination rates from 26.4% to 13.2% and decreases cognition
value from 2.5 to 0.4. It outperforms standard DPO and matches GPT-4o on
several key metrics.