Los Modelos de Lenguaje Multimodales pueden razonar sobre Estética en Cero Disparo.
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
January 15, 2025
Autores: Ruixiang Jiang, Changwen Chen
cs.AI
Resumen
Presentamos el primer estudio sobre cómo se debe inducir la capacidad de razonamiento de los Modelos de Lenguaje Multimodales (MLLMs) para evaluar la estética de las obras de arte. Para facilitar esta investigación, construimos MM-StyleBench, un nuevo conjunto de datos de alta calidad para la evaluación de la estilización artística. Luego desarrollamos un método basado en principios para modelar las preferencias humanas y realizamos un análisis sistemático de correlación entre las respuestas de los MLLMs y las preferencias humanas. Nuestros experimentos revelan un problema inherente de alucinación de los MLLMs en la evaluación artística, asociado con la subjetividad de las respuestas. Se propone ArtCoT, demostrando que la descomposición de tareas específicas del arte y el uso de un lenguaje concreto potencian la capacidad de razonamiento de los MLLMs para la estética. Nuestros hallazgos ofrecen valiosas perspectivas sobre los MLLMs para el arte y pueden beneficiar a una amplia gama de aplicaciones posteriores, como la transferencia de estilos y la generación de imágenes artísticas. Código disponible en https://github.com/songrise/MLLM4Art.
English
We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability
shall be elicited to evaluate the aesthetics of artworks. To facilitate this
investigation, we construct MM-StyleBench, a novel high-quality dataset for
benchmarking artistic stylization. We then develop a principled method for
human preference modeling and perform a systematic correlation analysis between
MLLMs' responses and human preference. Our experiments reveal an inherent
hallucination issue of MLLMs in art evaluation, associated with response
subjectivity. ArtCoT is proposed, demonstrating that art-specific task
decomposition and the use of concrete language boost MLLMs' reasoning ability
for aesthetics. Our findings offer valuable insights into MLLMs for art and can
benefit a wide range of downstream applications, such as style transfer and
artistic image generation. Code available at
https://github.com/songrise/MLLM4Art.Summary
AI-Generated Summary