Mitigando alucinaciones de objetos mediante intervención temprana a nivel de oración
Mitigating Object Hallucinations via Sentence-Level Early Intervention
July 16, 2025
Autores: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han revolucionado la comprensión multimodal, pero siguen enfrentando dificultades con las alucinaciones: contenido fabricado que contradice las entradas visuales. Los métodos existentes para mitigar las alucinaciones o bien incurren en costos computacionales prohibitivos o introducen desajustes en la distribución entre los datos de entrenamiento y las salidas del modelo. Identificamos una idea clave: las alucinaciones surgen predominantemente en las etapas iniciales de la generación de texto y se propagan a través de las salidas posteriores. Para abordar esto, proponemos **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un marco que elimina la dependencia de anotaciones humanas. Específicamente, primero generamos pares de preferencias de alta calidad dentro del dominio mediante el muestreo iterativo de salidas del modelo, validando la existencia de objetos mediante la verificación cruzada con dos detectores de vocabulario abierto, y clasificando las oraciones en categorías de alucinadas/no alucinadas. Posteriormente, utilizamos muestras positivas coherentes con el contexto y muestras negativas alucinadas para construir datos de preferencia conscientes del contexto de manera iterativa. Finalmente, entrenamos los modelos utilizando una función de pérdida de preferencia consciente del contexto (C-DPO) que enfatiza el aprendizaje discriminativo a nivel de oración, donde las alucinaciones se manifiestan inicialmente. Los resultados experimentales muestran que SENTINEL puede reducir las alucinaciones en más del 90\% en comparación con el modelo original y supera al método anterior más avanzado tanto en benchmarks de alucinaciones como en benchmarks de capacidades generales, demostrando su superioridad y capacidad de generalización. Los modelos, conjuntos de datos y código están disponibles en https://github.com/pspdada/SENTINEL.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal
understanding but continue to struggle with hallucinations - fabricated content
contradicting visual inputs. Existing hallucination mitigation methods either
incur prohibitive computational costs or introduce distribution mismatches
between training data and model outputs. We identify a critical insight:
hallucinations predominantly emerge at the early stages of text generation and
propagate through subsequent outputs. To address this, we propose **SENTINEL**
(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain
pr**E**ference **L**earning), a framework that eliminates dependency on human
annotations. Specifically, we first bootstrap high-quality in-domain preference
pairs by iteratively sampling model outputs, validating object existence
through cross-checking with two open-vocabulary detectors, and classifying
sentences into hallucinated/non-hallucinated categories. Subsequently, we use
context-coherent positive samples and hallucinated negative samples to build
context-aware preference data iteratively. Finally, we train models using a
context-aware preference loss (C-DPO) that emphasizes discriminative learning
at the sentence level where hallucinations initially manifest. Experimental
results show that SENTINEL can reduce hallucinations by over 90\% compared to
the original model and outperforms the previous state-of-the-art method on both
hallucination benchmarks and general capabilities benchmarks, demonstrating its
superiority and generalization ability. The models, datasets, and code are
available at https://github.com/pspdada/SENTINEL.