ChatPaper.aiChatPaper

鏡を通して:奇妙な画像の常識的一貫性評価

Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12, 2025
著者: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov
cs.AI

要旨

現実の画像がどのように見えるかを測定することは、人工知能研究における複雑な課題である。例えば、砂漠で掃除機を持つ少年の画像は常識に反している。本論文では、大規模視覚言語モデル(LVLM)とTransformerベースのエンコーダを用いて、画像の常識的一貫性を評価する新規手法「Through the Looking Glass(TLG)」を提案する。LVLMを活用してこれらの画像から原子的事実を抽出することで、正確な事実の混合を得る。次に、符号化された原子的事実に対してコンパクトなアテンションプーリング分類器をファインチューニングする。我々のTLGは、コンパクトなファインチューニングコンポーネントを活用しつつ、WHOOPS!およびWEIRDデータセットにおいて新たな最先端の性能を達成した。
English
Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.

Summary

AI-Generated Summary

PDF142May 20, 2025