Licht kijken, zwaar denken: Wat multimodale chain-of-thought redeneren wel en niet kan

Samenvatting

Chain-of-Thought (CoT) is een standaardmethode geworden om de redeneervaardigheden van grote taalmodellen (LLM's) te verbeteren door stapsgewijs denken uit te lokken, maar de effectiviteit ervan bij multimodale taken blijft onduidelijk. In dit artikel streven we ernaar om de belangrijkste vraag systematisch te onderzoeken: Wat kan multimodale Chain-of-Thought-redenering doen, en waar en waarom schiet het tekort? Daartoe evalueren we 12 multimodale taken uit de categorieën perceptie en redeneren, waarbij we zowel 14 niet-redenerende modellen als 8 redenerende modellen gebruiken. Onze analyse onthult verschillende belangrijke bevindingen: (1) CoT is geen gratis lunch en moet selectief worden gebruikt, afhankelijk van de specifieke vereisten van elke taak. Bij perceptietaken kan CoT leiden tot ongewenste bijwerkingen, zoals verminderde prestaties bij visuele grounding en objecttelling. Daarentegen blijkt het effectief voor redeneertaken waarbij wiskundig, wetenschappelijk en multi-image redeneren betrokken is; (2) In vergelijking met originele modellen leveren bestaande open-source multimodale redeneermodellen vaak slechts marginale algemene verbeteringen op, mogelijk als gevolg van een te grote nadruk op wiskundig redeneren ten koste van bredere capaciteiten; (3) Visueel redeneren blijft een belangrijk knelpunt voor huidige multimodale CoT, omdat modellen een 'Look Light, Think Heavy'-patroon vertonen waarbij verbale reflectie tijdens het redeneren stijgt en daalt, terwijl visuele reflectie consistent afneemt. Deze bevindingen suggereren dat multimodale CoT verbale reflectie relatief goed aankan, maar niet in staat is om diepgaande visuele introspectie gedurende het hele redeneerproces te behouden.

English

Chain-of-Thought (CoT) has become a standard method for improving reasoning capabilities in large language models (LLMs) by eliciting step-by-step thinking, but its effectiveness in multimodal tasks remains unclear. In this paper, we aim to systematically investigate the key question: What can multimodal Chain-of-Thought reasoning do, and where and why does it fall short? To this end, we evaluate 12 multimodal tasks across perception and reasoning categories using both 14 non-reasoning models and 8 reasoning models. Our analysis reveals several important findings: (1) CoT is not a free lunch and should be used selectively depending on the specific requirements of each task. For perception tasks, CoT can lead to undesirable side effects, such as reduced performance in visual grounding and object counting. In contrast, it proves effective for reasoning tasks involving mathematical, scientific, and multi-image reasoning; (2) Compared to original models, existing open-source multimodal reasoning models often yield only marginal overall improvements, possibly due to an overemphasis on mathematical reasoning at the expense of broader capabilities; (3) Visual reasoning remains a key bottleneck for current multimodal CoT, as models exhibit a Look Light, Think Heavy pattern where verbal reflection rises and falls during reasoning, whereas visual reflection consistently diminishes. These findings suggest that while multimodal CoT handles verbal reflection relatively well, it lacks the ability to maintain deep visual introspection throughout the reasoning process.