ChatPaper.aiChatPaper

Vermenigvuldiging in Multimodale LLM's: Berekening met Tekst-, Beeld- en Audiovoeringen

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

April 20, 2026
Auteurs: Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak
cs.AI

Samenvatting

Multimodale LLM's kunnen numerieke inhoud nauwkeurig waarnemen across modaliteiten, maar slagen er niet in exacte vermenigvuldiging van meerdere cijfers uit te voeren wanneer het identieke onderliggende rekenkundige probleem wordt gepresenteerd als cijfers, getalwoorden, afbeeldingen of in audiovorm. Omdat bestaande benchmarks vaak systematisch gekoppelde instanties across modaliteiten missen, blijft het moeilijk om echte rekenkundige beperkingen binnen en tussen modelfamilies te vergelijken. Daarom introduceren we een gecontroleerde multimodale vermenigvuldigingsbenchmark die factorieel varieert in cijferlengte, cijfersparsheid, representatie (bijv. cijfers versus getalwoorden) en modaliteit (tekst, gerenderde afbeeldingen, audio), met gekoppelde instanties van een reproduceerbare generator. We definiëren ook rekenkundige belasting, C, als het product van het totale en niet-nul cijferaantal als een compacte, mechanistisch gemotiveerde proxy voor het aantal bewerkingen. In evaluaties daalt de nauwkeurigheid sterk naarmate C groeit, vaak tot bijna nul bij C > 100. Inderdaad blijft C voorspellend voor de prestaties across modaliteiten en modellen, met R-kwadraat vaak > 0,5, in de buurt van de waarde van complexere maten van rekenkundige belasting die het aantal tussenliggende rekenkundige stappen tellen. Een aparte decompositie van waarneming versus berekening toont aan dat multimodale degradatie primair computationeel is in plaats van perceptueel: bij gematchte waarnemingscontroles zijn modellen bijna perfect (> 99%) across modaliteiten, zelfs wanneer de vermenigvuldigingsnauwkeurigheid daalt. Naast het meten van wanneer modellen falen, vragen we welke procedures zij geneigd zijn te volgen. We introduceren een geforceerde-voltooiingsverliesprobe die heuristiek-specifieke redeneerprefixen scoort—inclusief kolomsgewijze vermenigvuldiging, distributieve decompositie en afronding/compensatie. Hier wordt decompositie begunstigd in zowel tekst- als visiemodaliteiten; heuristiek-specifieke LoRA-adapters produceren bijna orthogonale updates maar verslechteren de nauwkeurigheid, wat aangeeft dat het basismodel een goed afgestelde interne router behoudt.
English
Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.
PDF32April 22, 2026