Les LLMs multimodaux peuvent raisonner sur l'esthétique en zéro-shot.
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
January 15, 2025
Auteurs: Ruixiang Jiang, Changwen Chen
cs.AI
Résumé
Nous présentons la première étude sur la manière dont la capacité de raisonnement des Modèles de Langage Multimodaux (MLLMs) doit être sollicitée pour évaluer l'esthétique des œuvres d'art. Pour faciliter cette investigation, nous construisons MM-StyleBench, un nouvel ensemble de données de haute qualité pour l'évaluation de la stylisation artistique. Nous développons ensuite une méthode fondée pour la modélisation des préférences humaines et réalisons une analyse de corrélation systématique entre les réponses des MLLMs et les préférences humaines. Nos expériences révèlent un problème inhérent d'hallucination des MLLMs dans l'évaluation artistique, associé à la subjectivité des réponses. ArtCoT est proposé, démontrant que la décomposition des tâches spécifiques à l'art et l'utilisation d'un langage concret renforcent la capacité de raisonnement des MLLMs pour l'esthétique. Nos résultats offrent des perspectives précieuses sur les MLLMs pour l'art et peuvent bénéficier à une large gamme d'applications ultérieures, telles que le transfert de style et la génération d'images artistiques. Code disponible sur https://github.com/songrise/MLLM4Art.
English
We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability
shall be elicited to evaluate the aesthetics of artworks. To facilitate this
investigation, we construct MM-StyleBench, a novel high-quality dataset for
benchmarking artistic stylization. We then develop a principled method for
human preference modeling and perform a systematic correlation analysis between
MLLMs' responses and human preference. Our experiments reveal an inherent
hallucination issue of MLLMs in art evaluation, associated with response
subjectivity. ArtCoT is proposed, demonstrating that art-specific task
decomposition and the use of concrete language boost MLLMs' reasoning ability
for aesthetics. Our findings offer valuable insights into MLLMs for art and can
benefit a wide range of downstream applications, such as style transfer and
artistic image generation. Code available at
https://github.com/songrise/MLLM4Art.Summary
AI-Generated Summary