ChatPaper.aiChatPaper

Помимо NL2Code: Структурированный обзор мультимодального интеллекта кода

Beyond NL2Code: A Structured Survey of Multimodal Code Intelligence

June 16, 2026
Авторы: Xuanle Zhao, Qiushi Sun, Jingyu Xiao, Xuexin Liu, Haoyue Yang, Qiaosheng Chen, Xianzhen Luo, Jing Huang, Yufeng Zhong, Lei Chen, Shuai Fu, Zhenlin Wei, Jinhe Bi, Lei Jiang, Haibo Qiu, Siqi Yang, Peng Shi, Jian Hu, Zhixiong Zeng
cs.AI

Аннотация

Хотя большие языковые модели (LLM) существенно продвинули синтез кода из текста, многие реальные задачи программирования задают намерение через визуальные артефакты, такие как скриншоты, диаграммы, векторные рисунки, видео и интерактивные состояния. Эти задачи требуют от моделей связывания визуального восприятия с исполняемыми программами, поскольку корректность зависит не только от синтаксиса, но и от компоновки, семантики данных, интеракционного поведения и предметно-ориентированных ограничений, действующих после выполнения. В данном обзоре рассматривается мультимодальный код-интеллект (Multimodal Code Intelligence), охватывающий системы, которые генерируют, редактируют, уточняют или анализируют код в условиях визуально обоснованных входов и выходов. Мы сначала формулируем область на основе роли, которую код выполняет в каждой задаче, различая код как визуализируемый артефакт, редактируемую символьную структуру, научное представление, промежуточный след рассуждений или исполняемую политику/интерфейс инструмента. Затем мы организуем эталонные тесты и методы в четыре домена: графический пользовательский интерфейс, научная визуализация, структурированная графика, а также пограничные задачи и фреймворки. Эта таксономия соединяет зрелые задачи генерации артефактов с возникающими агентными и унифицированными подходами и позволяет нам сравнить, как разные задачи обрабатывают доказательства корректности. Заглядывая вперёд, мы утверждаем, что будущие исследования могут выиграть от четырёх направлений, ориентированных на верификацию. Многосигнальная валидация может объединять взаимодополняющие доказательства корректности; многовекторная (многосостояний) верификация может тестировать поведение на различных траекториях выполнения; межзадачное тестирование переноса может исследовать повторно используемые навыки визуального кода; а верифицируемые следы агента могут показать, обоснованы ли действия агента визуальными данными. Вместе эти направления могут переместить эту область от имитации одиночного вывода к исполняемым системам, обоснованным фактическими данными. Текущий проект и ресурсы доступны на https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}.
English
While Large Language Models (LLMs) have substantially advanced text-to-code synthesis, many real programming tasks specify intent through visual artifacts such as screenshots, charts, vector drawings, videos, and interactive states. These tasks require models to connect visual perception to executable programs, because correctness depends not only on syntax but also on layout, data semantics, interaction behavior, and domain-specific constraints that apply after execution. This survey examines Multimodal Code Intelligence, covering systems that generate, edit, refine, or reason with code under visually grounded inputs and outputs. We first formulate the field by the role that code plays in each task, distinguishing code as a rendered artifact, an editable symbolic structure, a scientific representation, an intermediate reasoning trace, or an executable policy or tool interface. We then organize benchmarks and methods into four domains: Graphical User Interface, Scientific Visualization, Structured Graphics, and Frontier Tasks and Frameworks. This taxonomy connects mature artifact-generation problems to emerging agentic and unified settings and allows us to compare how different tasks treat evidence of correctness. Looking ahead, we argue that future research may benefit from four verification-centered directions. Multi-signal validation can combine complementary evidence of correctness, multi-state verification can test behavior across execution trajectories, cross-task transfer testing can probe reusable visual-code skills, and verifiable agent traces can reveal whether agent actions are grounded in visual evidence. Together, these directions may move this field from single-output imitation toward evidence-grounded executable systems. An ongoing project and resources are available on https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}.