Умножение в мультимодальных LLM: вычисления с текстовыми, визуальными и аудиовходами
Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs
April 20, 2026
Авторы: Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak
cs.AI
Аннотация
Мультимодальные большие языковые модели способны точно воспринимать числовую информацию из различных модальностей, однако не справляются с точным умножением многозначных чисел, когда одна и та же арифметическая задача представлена в виде цифр, числительных, изображений или аудио. Поскольку существующие бенчмарки часто не содержат систематически парных примеров across модальностями, остается сложно сравнить подлинные арифметические ограничения внутри семейств моделей и между ними. Поэтому мы представляем контролируемый мультимодальный бенчмарк для умножения, который факторно варьирует длину чисел, разреженность цифр, представление (например, цифры против числительных) и модальность (текст, визуализированные изображения, аудио), с парными примерами из воспроизводимого генератора. Мы также определяем арифметическую нагрузку, C, как произведение общего количества цифр и количества ненулевых цифр — компактный, механистически обоснованный прокси для количества операций. По всем оценкам, точность резко падает с ростом C, часто приближаясь к нулю при C > 100. Действительно, C остается прогностическим для производительности across модальностями и моделями, с R-квадрат часто > 0.5, приближаясь к значению для более сложных мер арифметической нагрузки, которые подсчитывают количество промежуточных арифметических шагов. Отдельная декомпозиция "восприятие versus вычисление" показывает, что мультимодальная деградация является в первую очередь вычислительной, а не перцептивной: на проверках с совпадающим восприятием модели демонстрируют почти идеальную точность (> 99%) across модальностями, даже когда точность умножения падает. Помимо измерения случаев, когда модели ошибаются, мы исследуем, каким процедурам они склонны следовать. Мы вводим зонд потерь с принудительным завершением, который оценивает эвристически-специфичные префиксы рассуждений — включая столбиковое умножение, дистрибутивную декомпозицию и округление/компенсацию. Здесь декомпозиция предпочтительна как в текстовой, так и в визуальной модальностях; эвристически-специфичные LoRA-адаптеры производят почти ортогональные обновления, но ухудшают точность, что указывает на то, что базовая модель поддерживает хорошо настроенный внутренний маршрутизатор.
English
Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.