Multiplikation in multimodalen LLMs: Berechnung mit Text-, Bild- und Audioeingaben

Zusammenfassung

Multimodale LLMs können numerische Inhalte über verschiedene Modalitäten hinweg genau wahrnehmen, versagen jedoch bei der exakten Multiplikation mehrstelliger Zahlen, wenn dasselbe zugrundeliegende Rechenproblem in Form von Ziffern, Zahlwörtern, Bildern oder Audiodaten präsentiert wird. Da bestehende Benchmarks oft systematisch gepaarte Instanzen über Modalitäten hinweg vermissen lassen, ist es nach wie vor schwierig, genuine arithmetische Grenzen innerhalb von und zwischen Modellfamilien zu vergleichen. Daher führen wir einen kontrollierten multimodalen Multiplikations-Benchmark ein, der Faktoren wie Stellenlänge, Stellen-Sparsity, Darstellungsform (z.B. Ziffern vs. Zahlwörter) und Modalität (Text, gerenderte Bilder, Audio) faktoriell variiert, mit gepaarten Instanzen aus einem reproduzierbaren Generator. Wir definieren zudem die arithmetische Last, C, als Produkt der Gesamt- und der Nicht-Null-Stellenanzahl – ein kompakter, mechanistisch motivierter Proxy für die Anzahl der Operationen. In allen Evaluationen fällt die Genauigkeit stark ab, wenn C wächst, und erreicht oft Werte nahe Null bei C > 100. Tatsächlich bleibt C prädiktiv für die Leistung über Modalitäten und Modelle hinweg, mit R-Quadrat-Werten oft > 0,5, die an die Werte komplexerer Maße der arithmetischen Last heranreichen, welche die Anzahl der intermediären Rechenschritte zählen. Eine separate Zerlegung in Wahrnehmungs- versus Berechnungskomponente zeigt, dass der multimodale Leistungsabfall primär rechnerischer und nicht wahrnehmungsbedingter Natur ist: Bei Tests mit angeglichener Wahrnehmung liegen die Modelle über alle Modalitäten hinweg nahe der Perfektion (> 99 %), selbst wenn die Multiplikationsgenauigkeit einbricht. Über die Messung, wann Modelle versagen, hinaus fragen wir, welche Verfahren sie präferiert anwenden. Wir führen einen „Forced-Completion“-Loss-Probe ein, der heuristik-spezifische Reasoning-Präfixe bewertet – einschließlich schriftlicher Multiplikation, distributiver Zerlegung sowie Runden/Kompensation. Hierbei wird die Zerlegung sowohl in Text- als auch in Bildmodalitäten bevorzugt; heuristik-spezifische LoRA-Adapter erzeugen nahezu orthogonale Updates, verschlechtern jedoch die Genauigkeit, was darauf hindeutet, dass das Basismodell einen gut abgestimmten internen Router beibehält.

English

Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.

Multiplikation in multimodalen LLMs: Berechnung mit Text-, Bild- und Audioeingaben

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Zusammenfassung

Support