Multiplicação em LLMs Multimodais: Computação com Entradas de Texto, Imagem e Áudio

Resumo

Os LLMs multimodais conseguem perceber com precisão conteúdo numérico através de modalidades, mas falham em realizar multiplicações exatas de múltiplos dígitos quando o mesmo problema aritmético subjacente é apresentado como algarismos, palavras numéricas, imagens ou em formato de áudio. Como os benchmarks existentes frequentemente carecem de instâncias sistematicamente emparelhadas entre modalidades, permanece difícil comparar os limites aritméticos genuínos dentro e entre famílias de modelos. Introduzimos, portanto, um benchmark controlado de multiplicação multimodal que varia fatorialmente o comprimento dos dígitos, a esparsidade dos dígitos, a representação (por exemplo, algarismos vs. palavras numéricas) e a modalidade (texto, imagens renderizadas, áudio), com instâncias emparelhadas de um gerador reproduzível. Também definimos a carga aritmética, C, como o produto da contagem total de dígitos e da contagem de dígitos não zero, como um proxy compacto e mecanicamente motivado para a contagem de operações. Nas avaliações, a precisão cai acentuadamente à medida que C aumenta, frequentemente aproximando-se de zero para C > 100. De facto, C mantém-se preditivo do desempenho entre modalidades e modelos, com R-quadrado frequentemente > 0,5, aproximando-se do valor de medidas mais complexas de carga aritmética que contam o número de passos aritméticos intermédios. Uma decomposição separada de perceção versus computação mostra que a degradação multimodal é primariamente computacional e não perceptual: em verificações de perceção correspondente, os modelos são quase perfeitos (> 99%) em todas as modalidades, mesmo quando a precisão da multiplicação cai. Para além de medir quando os modelos falham, perguntamos quais os procedimentos que eles estão predispostos a seguir. Introduzimos uma sonda de perda de conclusão forçada que pontua prefixos de raciocínio específicos de heurísticas – incluindo multiplicação em coluna, decomposição distributiva e arredondamento/compensação. Aqui, a decomposição é favorecida tanto nas modalidades de texto como de visão; adaptadores LoRA específicos de heurísticas produzem atualizações quase ortogonais, mas degradam a precisão, indicando que o modelo base mantém um router interno bem sintonizado.

English

Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.

Multiplicação em LLMs Multimodais: Computação com Entradas de Texto, Imagem e Áudio

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Resumo

Support