Multiplicación en LLMs Multimodales: Cálculo con Entradas de Texto, Imagen y Audio

Resumen

Los modelos de lenguaje multimodal (LLM) pueden percibir con precisión contenido numérico a través de diferentes modalidades, pero no logran realizar multiplicaciones exactas de múltiples dígitos cuando el mismo problema aritmético subyacente se presenta como numerales, palabras numéricas, imágenes o en forma de audio. Dado que los puntos de referencia existentes a menudo carecen de instancias sistemáticamente emparejadas entre modalidades, sigue siendo difícil comparar los límites aritméticos genuinos dentro de las familias de modelos y entre ellas. Por lo tanto, presentamos un punto de referencia controlado de multiplicación multimodal que varía factorialmente la longitud de los dígitos, la dispersión de dígitos, la representación (por ejemplo, numerales frente a palabras numéricas) y la modalidad (texto, imágenes renderizadas, audio), con instancias emparejadas procedentes de un generador reproducible. También definimos la carga aritmética, C, como el producto del recuento total de dígitos y el recuento de dígitos no nulos, como un indicador compacto y motivado mecanicísticamente para el recuento de operaciones. En todas las evaluaciones, la precisión disminuye drásticamente a medida que C aumenta, a menudo acercándose a cero para C > 100. De hecho, C sigue siendo predictivo del rendimiento a través de modalidades y modelos, con un R-cuadrado a menudo > 0,5, aproximándose al valor de medidas más complejas de carga aritmética que cuentan el número de pasos aritméticos intermedios. Una descomposición separada de percepción versus cálculo muestra que la degradación multimodal es principalmente computacional y no perceptual: en verificaciones de percepción equiparada, los modelos son casi perfectos (> 99%) en todas las modalidades, incluso cuando la precisión de la multiplicación cae. Más allá de medir cuándo fallan los modelos, preguntamos qué procedimientos están predispuestos a seguir. Introducimos una sonda de pérdida por finalización forzada que puntúa prefijos de razonamiento específicos de heurísticas, incluyendo la multiplicación en columnas, la descomposición distributiva y el redondeo/compensación. Aquí, la descomposición es favorecida tanto en modalidades de texto como de visión; los adaptadores LoRA específicos de heurística producen actualizaciones casi ortogonales y, sin embargo, degradan la precisión, lo que indica que el modelo base mantiene un enrutador interno bien ajustado.

English

Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.

Multiplicación en LLMs Multimodales: Cálculo con Entradas de Texto, Imagen y Audio

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Resumen

Support