Mitigando alucinaciones de objetos mediante intervención temprana a nivel de oración

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han revolucionado la comprensión multimodal, pero siguen enfrentando dificultades con las alucinaciones: contenido fabricado que contradice las entradas visuales. Los métodos existentes para mitigar las alucinaciones o bien incurren en costos computacionales prohibitivos o introducen desajustes en la distribución entre los datos de entrenamiento y las salidas del modelo. Identificamos una idea clave: las alucinaciones surgen predominantemente en las etapas iniciales de la generación de texto y se propagan a través de las salidas posteriores. Para abordar esto, proponemos **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un marco que elimina la dependencia de anotaciones humanas. Específicamente, primero generamos pares de preferencias de alta calidad dentro del dominio mediante el muestreo iterativo de salidas del modelo, validando la existencia de objetos mediante la verificación cruzada con dos detectores de vocabulario abierto, y clasificando las oraciones en categorías de alucinadas/no alucinadas. Posteriormente, utilizamos muestras positivas coherentes con el contexto y muestras negativas alucinadas para construir datos de preferencia conscientes del contexto de manera iterativa. Finalmente, entrenamos los modelos utilizando una función de pérdida de preferencia consciente del contexto (C-DPO) que enfatiza el aprendizaje discriminativo a nivel de oración, donde las alucinaciones se manifiestan inicialmente. Los resultados experimentales muestran que SENTINEL puede reducir las alucinaciones en más del 90\% en comparación con el modelo original y supera al método anterior más avanzado tanto en benchmarks de alucinaciones como en benchmarks de capacidades generales, demostrando su superioridad y capacidad de generalización. Los modelos, conjuntos de datos y código están disponibles en https://github.com/pspdada/SENTINEL.

English

Multimodal large language models (MLLMs) have revolutionized cross-modal understanding but continue to struggle with hallucinations - fabricated content contradicting visual inputs. Existing hallucination mitigation methods either incur prohibitive computational costs or introduce distribution mismatches between training data and model outputs. We identify a critical insight: hallucinations predominantly emerge at the early stages of text generation and propagate through subsequent outputs. To address this, we propose **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), a framework that eliminates dependency on human annotations. Specifically, we first bootstrap high-quality in-domain preference pairs by iteratively sampling model outputs, validating object existence through cross-checking with two open-vocabulary detectors, and classifying sentences into hallucinated/non-hallucinated categories. Subsequently, we use context-coherent positive samples and hallucinated negative samples to build context-aware preference data iteratively. Finally, we train models using a context-aware preference loss (C-DPO) that emphasizes discriminative learning at the sentence level where hallucinations initially manifest. Experimental results show that SENTINEL can reduce hallucinations by over 90\% compared to the original model and outperforms the previous state-of-the-art method on both hallucination benchmarks and general capabilities benchmarks, demonstrating its superiority and generalization ability. The models, datasets, and code are available at https://github.com/pspdada/SENTINEL.

Mitigando alucinaciones de objetos mediante intervención temprana a nivel de oración

Mitigating Object Hallucinations via Sentence-Level Early Intervention

Resumen

Support