Los Modelos de Lenguaje Multimodales pueden razonar sobre Estética en Cero Disparo.

Resumen

Presentamos el primer estudio sobre cómo se debe inducir la capacidad de razonamiento de los Modelos de Lenguaje Multimodales (MLLMs) para evaluar la estética de las obras de arte. Para facilitar esta investigación, construimos MM-StyleBench, un nuevo conjunto de datos de alta calidad para la evaluación de la estilización artística. Luego desarrollamos un método basado en principios para modelar las preferencias humanas y realizamos un análisis sistemático de correlación entre las respuestas de los MLLMs y las preferencias humanas. Nuestros experimentos revelan un problema inherente de alucinación de los MLLMs en la evaluación artística, asociado con la subjetividad de las respuestas. Se propone ArtCoT, demostrando que la descomposición de tareas específicas del arte y el uso de un lenguaje concreto potencian la capacidad de razonamiento de los MLLMs para la estética. Nuestros hallazgos ofrecen valiosas perspectivas sobre los MLLMs para el arte y pueden beneficiar a una amplia gama de aplicaciones posteriores, como la transferencia de estilos y la generación de imágenes artísticas. Código disponible en https://github.com/songrise/MLLM4Art.

English

We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability shall be elicited to evaluate the aesthetics of artworks. To facilitate this investigation, we construct MM-StyleBench, a novel high-quality dataset for benchmarking artistic stylization. We then develop a principled method for human preference modeling and perform a systematic correlation analysis between MLLMs' responses and human preference. Our experiments reveal an inherent hallucination issue of MLLMs in art evaluation, associated with response subjectivity. ArtCoT is proposed, demonstrating that art-specific task decomposition and the use of concrete language boost MLLMs' reasoning ability for aesthetics. Our findings offer valuable insights into MLLMs for art and can benefit a wide range of downstream applications, such as style transfer and artistic image generation. Code available at https://github.com/songrise/MLLM4Art.

Los Modelos de Lenguaje Multimodales pueden razonar sobre Estética en Cero Disparo.

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Resumen

Support