ChatPaper.aiChatPaper

Mitigando Alucinações de Objetos por meio de Intervenção Precoce em Nível de Sentença

Mitigating Object Hallucinations via Sentence-Level Early Intervention

July 16, 2025
Autores: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI

Resumo

Modelos de linguagem multimodal de grande escala (MLLMs) revolucionaram o entendimento entre modalidades, mas continuam a enfrentar desafios com alucinações - conteúdo fabricado que contradiz as entradas visuais. Os métodos existentes para mitigação de alucinações ou incorrem em custos computacionais proibitivos ou introduzem discrepâncias de distribuição entre os dados de treinamento e as saídas do modelo. Identificamos uma percepção crítica: as alucinações predominantemente surgem nos estágios iniciais da geração de texto e se propagam através das saídas subsequentes. Para abordar isso, propomos **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), uma estrutura que elimina a dependência de anotações humanas. Especificamente, primeiro inicializamos pares de preferência de alta qualidade no domínio, iterativamente amostrando as saídas do modelo, validando a existência de objetos através de verificação cruzada com dois detectores de vocabulário aberto, e classificando frases em categorias alucinadas/não alucinadas. Posteriormente, usamos amostras positivas coerentes com o contexto e amostras negativas alucinadas para construir dados de preferência conscientes do contexto iterativamente. Finalmente, treinamos os modelos usando uma função de perda de preferência consciente do contexto (C-DPO) que enfatiza o aprendizado discriminativo no nível da frase, onde as alucinações inicialmente se manifestam. Resultados experimentais mostram que o SENTINEL pode reduzir alucinações em mais de 90\% em comparação com o modelo original e supera o método anterior de última geração tanto em benchmarks de alucinação quanto em benchmarks de capacidades gerais, demonstrando sua superioridade e capacidade de generalização. Os modelos, conjuntos de dados e código estão disponíveis em https://github.com/pspdada/SENTINEL.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal understanding but continue to struggle with hallucinations - fabricated content contradicting visual inputs. Existing hallucination mitigation methods either incur prohibitive computational costs or introduce distribution mismatches between training data and model outputs. We identify a critical insight: hallucinations predominantly emerge at the early stages of text generation and propagate through subsequent outputs. To address this, we propose **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), a framework that eliminates dependency on human annotations. Specifically, we first bootstrap high-quality in-domain preference pairs by iteratively sampling model outputs, validating object existence through cross-checking with two open-vocabulary detectors, and classifying sentences into hallucinated/non-hallucinated categories. Subsequently, we use context-coherent positive samples and hallucinated negative samples to build context-aware preference data iteratively. Finally, we train models using a context-aware preference loss (C-DPO) that emphasizes discriminative learning at the sentence level where hallucinations initially manifest. Experimental results show that SENTINEL can reduce hallucinations by over 90\% compared to the original model and outperforms the previous state-of-the-art method on both hallucination benchmarks and general capabilities benchmarks, demonstrating its superiority and generalization ability. The models, datasets, and code are available at https://github.com/pspdada/SENTINEL.
PDF72July 21, 2025