Mejorando la Cognición y Explicabilidad de Modelos Fundacionales Multimodales con Datos Autosintetizados

Resumen

Los modelos multimodales grandes (LMMs, por sus siglas en inglés) han demostrado capacidades impresionantes en una amplia gama de tareas visuales. Sin embargo, a menudo tienen dificultades con el razonamiento visual detallado, fallando en identificar objetivos específicos del dominio y proporcionar explicaciones justificables para sus predicciones. Para abordar esto, proponemos un novedoso marco de muestreo por rechazo visual para mejorar la cognición y la explicabilidad de los LMMs utilizando datos autosintetizados. Específicamente, el ajuste fino visual requiere imágenes, consultas y respuestas objetivo. Nuestro enfoque comienza sintetizando respuestas interpretables que incluyen características visuales verificables por humanos. Estas características se basan en conceptos definidos por expertos, cuidadosamente seleccionados según su alineación con el contenido de la imagen. Después de cada ronda de ajuste fino, aplicamos un mecanismo de filtrado sin modelo de recompensa para seleccionar las respuestas interpretables de mayor calidad para la siguiente ronda de ajuste. Este proceso iterativo de síntesis de datos y ajuste fino mejora progresivamente la capacidad del modelo para generar explicaciones precisas y razonables. Los resultados experimentales demuestran la efectividad de nuestro método para mejorar tanto la precisión como la explicabilidad en tareas especializadas de clasificación visual.

English

Large multimodal models (LMMs) have shown impressive capabilities in a wide range of visual tasks. However, they often struggle with fine-grained visual reasoning, failing to identify domain-specific objectives and provide justifiable explanations for their predictions. To address this, we propose a novel visual rejection sampling framework to improve the cognition and explainability of LMMs using self-synthesized data. Specifically, visual fine-tuning requires images, queries, and target answers. Our approach begins by synthesizing interpretable answers that include human-verifiable visual features. These features are based on expert-defined concepts, carefully selected based on their alignment with the image content. After each round of fine-tuning, we apply a reward model-free filtering mechanism to select the highest-quality interpretable answers for the next round of tuning. This iterative process of data synthesis and fine-tuning progressively improves the model's ability to generate accurate and reasonable explanations. Experimental results demonstrate the effectiveness of our method in improving both the accuracy and explainability of specialized visual classification tasks.

Mejorando la Cognición y Explicabilidad de Modelos Fundacionales Multimodales con Datos Autosintetizados

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Resumen

Support