Multiplication dans les LLM multimodaux : Calcul avec des entrées texte, image et audio

Résumé

Les LLMs multimodaux peuvent percevoir avec précision le contenu numérique à travers différentes modalités, mais échouent à effectuer des multiplications multi-chiffres exactes lorsque le même problème arithmétique sous-jacent est présenté sous forme de chiffres, de mots numériques, d'images ou de formats audio. Comme les benchmarks existants manquent souvent d'instances systématiquement appariées entre les modalités, il reste difficile de comparer les véritables limites arithmétiques au sein des familles de modèles et entre elles. Nous introduisons donc un benchmark de multiplication multimodal contrôlé qui fait varier factoriellement la longueur des chiffres, la parcimonie des chiffres, la représentation (par exemple, chiffres vs mots numériques) et la modalité (texte, images rendues, audio), avec des instances appariées générées de manière reproductible. Nous définissons également la charge arithmétique, C, comme le produit du nombre total de chiffres et du nombre de chiffres non nuls, servant de proxy compact et mécanistiquement motivé pour le nombre d'opérations. À travers les évaluations, la précision chute brutalement lorsque C augmente, approchant souvent zéro pour C > 100. En effet, C reste prédictif des performances across modalities et des modèles, avec un R-carré souvent > 0,5, approchant la valeur obtenue avec des mesures plus complexes de la charge arithmétique qui comptent le nombre d'étapes arithmétiques intermédiaires. Une décomposition séparée perception versus calcul montre que la dégradation multimodale est principalement computationnelle plutôt que perceptuelle : sur des vérifications de perception équivalente, les modèles sont quasi parfaits (> 99%) across modalities, même lorsque la précision des multiplications chute. Au-delà de mesurer quand les modèles échouent, nous demandons quelles procédures ils sont prédisposés à suivre. Nous introduisons une sonde de perte par achèvement forcé qui évalue des préfixes de raisonnement spécifiques à des heuristiques - incluant la multiplication en colonnes, la décomposition distributive, et l'arrondi/compensation. Ici, la décomposition est favorisée dans les modalités texte et vision ; des adaptateurs LoRA spécifiques à une heuristique produisent des mises à jour quasi orthogonales tout en dégradant la précision, indiquant que le modèle de base maintient un routeur interne bien réglé.

English

Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.

Multiplication dans les LLM multimodaux : Calcul avec des entrées texte, image et audio

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Résumé

Support