Mejorando la Cognición y Explicabilidad de Modelos Fundacionales Multimodales con Datos Autosintetizados
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
February 19, 2025
Autores: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
cs.AI
Resumen
Los modelos multimodales grandes (LMMs, por sus siglas en inglés) han demostrado capacidades impresionantes en una amplia gama de tareas visuales. Sin embargo, a menudo tienen dificultades con el razonamiento visual detallado, fallando en identificar objetivos específicos del dominio y proporcionar explicaciones justificables para sus predicciones. Para abordar esto, proponemos un novedoso marco de muestreo por rechazo visual para mejorar la cognición y la explicabilidad de los LMMs utilizando datos autosintetizados. Específicamente, el ajuste fino visual requiere imágenes, consultas y respuestas objetivo. Nuestro enfoque comienza sintetizando respuestas interpretables que incluyen características visuales verificables por humanos. Estas características se basan en conceptos definidos por expertos, cuidadosamente seleccionados según su alineación con el contenido de la imagen. Después de cada ronda de ajuste fino, aplicamos un mecanismo de filtrado sin modelo de recompensa para seleccionar las respuestas interpretables de mayor calidad para la siguiente ronda de ajuste. Este proceso iterativo de síntesis de datos y ajuste fino mejora progresivamente la capacidad del modelo para generar explicaciones precisas y razonables. Los resultados experimentales demuestran la efectividad de nuestro método para mejorar tanto la precisión como la explicabilidad en tareas especializadas de clasificación visual.
English
Large multimodal models (LMMs) have shown impressive capabilities in a wide
range of visual tasks. However, they often struggle with fine-grained visual
reasoning, failing to identify domain-specific objectives and provide
justifiable explanations for their predictions. To address this, we propose a
novel visual rejection sampling framework to improve the cognition and
explainability of LMMs using self-synthesized data. Specifically, visual
fine-tuning requires images, queries, and target answers. Our approach begins
by synthesizing interpretable answers that include human-verifiable visual
features. These features are based on expert-defined concepts, carefully
selected based on their alignment with the image content. After each round of
fine-tuning, we apply a reward model-free filtering mechanism to select the
highest-quality interpretable answers for the next round of tuning. This
iterative process of data synthesis and fine-tuning progressively improves the
model's ability to generate accurate and reasonable explanations. Experimental
results demonstrate the effectiveness of our method in improving both the
accuracy and explainability of specialized visual classification tasks.Summary
AI-Generated Summary