ChatPaper.aiChatPaper

Les LLMs multimodaux peuvent raisonner sur l'esthétique en zéro-shot.

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

January 15, 2025
Auteurs: Ruixiang Jiang, Changwen Chen
cs.AI

Résumé

Nous présentons la première étude sur la manière dont la capacité de raisonnement des Modèles de Langage Multimodaux (MLLMs) doit être sollicitée pour évaluer l'esthétique des œuvres d'art. Pour faciliter cette investigation, nous construisons MM-StyleBench, un nouvel ensemble de données de haute qualité pour l'évaluation de la stylisation artistique. Nous développons ensuite une méthode fondée pour la modélisation des préférences humaines et réalisons une analyse de corrélation systématique entre les réponses des MLLMs et les préférences humaines. Nos expériences révèlent un problème inhérent d'hallucination des MLLMs dans l'évaluation artistique, associé à la subjectivité des réponses. ArtCoT est proposé, démontrant que la décomposition des tâches spécifiques à l'art et l'utilisation d'un langage concret renforcent la capacité de raisonnement des MLLMs pour l'esthétique. Nos résultats offrent des perspectives précieuses sur les MLLMs pour l'art et peuvent bénéficier à une large gamme d'applications ultérieures, telles que le transfert de style et la génération d'images artistiques. Code disponible sur https://github.com/songrise/MLLM4Art.
English
We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability shall be elicited to evaluate the aesthetics of artworks. To facilitate this investigation, we construct MM-StyleBench, a novel high-quality dataset for benchmarking artistic stylization. We then develop a principled method for human preference modeling and perform a systematic correlation analysis between MLLMs' responses and human preference. Our experiments reveal an inherent hallucination issue of MLLMs in art evaluation, associated with response subjectivity. ArtCoT is proposed, demonstrating that art-specific task decomposition and the use of concrete language boost MLLMs' reasoning ability for aesthetics. Our findings offer valuable insights into MLLMs for art and can benefit a wide range of downstream applications, such as style transfer and artistic image generation. Code available at https://github.com/songrise/MLLM4Art.

Summary

AI-Generated Summary

PDF102January 16, 2025