Moltiplicazione nei Modelli Linguistici Multimodali: Elaborazione con Input di Testo, Immagini e Audio

Abstract

I modelli linguistici multimodali sono in grado di percepire accuratamente contenuti numerici attraverso diverse modalità, ma non riescono a eseguire moltiplicazioni esatte con più cifre quando lo stesso problema aritmetico sottostante viene presentato come numeri, parole numeriche, immagini o in forma audio. Poiché i benchmark esistenti spesso mancano di istanze sistematicamente abbinate tra le modalità, rimane difficile confrontare i limiti aritmetici genuini all'interno e tra le famiglie di modelli. Introduciamo quindi un benchmark di moltiplicazione multimodale controllato che varia fattorialmente la lunghezza delle cifre, la sparsità delle cifre, la rappresentazione (ad esempio, numeri vs. parole numeriche) e la modalità (testo, immagini renderizzate, audio), con istanze abbinate generate in modo riproducibile. Definiamo inoltre il carico aritmetico, C, come il prodotto del conteggio totale delle cifre e di quelle non zero, come proxy compatto e meccanicisticamente motivato per il conteggio delle operazioni. In tutte le valutazioni, l'accuratezza diminuisce drasticamente all'aumentare di C, spesso avvicinandosi a zero per C > 100. Infatti, C rimane predittivo delle prestazioni attraverso modalità e modelli, con R-quadro spesso > 0,5, avvicinandosi al valore di misure più complesse del carico aritmetico che contano il numero di passaggi aritmetici intermedi. Una scomposizione separata tra percezione e calcolo mostra che il degrado multimodale è principalmente computazionale piuttosto che percettivo: su controlli di percezione abbinata, i modelli sono quasi perfetti (> 99%) in tutte le modalità, anche quando l'accuratezza della moltiplicazione cala. Oltre a misurare quando i modelli falliscono, ci chiediamo quali procedure siano predisposti a seguire. Introduciamo una sonda di perdita a completamento forzato che assegna un punteggio a prefissi di ragionamento specifici per euristiche, inclusa la moltiplicazione in colonna, la scomposizione distributiva e l'arrotondamento/compensazione. In questo caso, la scomposizione è favorita sia nelle modalità testuali che visive; gli adattatori LoRA specifici per euristiche producono aggiornamenti quasi ortogonali ma degradano l'accuratezza, indicando che il modello base mantiene un router interno ben sintonizzato.

English

Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.

Moltiplicazione nei Modelli Linguistici Multimodali: Elaborazione con Input di Testo, Immagini e Audio

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Abstract

Support