Voorbij NL2Code: Een Gestructureerd Overzicht van Multimodale Code Intelligentie

Samenvatting

Hoewel Grote Taalmodellen (LLM's) de synthese van tekst naar code aanzienlijk hebben verbeterd, specificeren veel echte programmeertaken intentie via visuele artefacten zoals schermafbeeldingen, grafieken, vectortekeningen, video's en interactieve toestanden. Deze taken vereisen dat modellen visuele perceptie koppelen aan uitvoerbare programma's, omdat correctheid niet alleen afhangt van syntaxis, maar ook van lay-out, datasemantiek, interactiegedrag en domeinspecifieke beperkingen die na uitvoering van toepassing zijn. Dit overzicht onderzoekt Multimodale Code-Intelligentie en behandelt systemen die code genereren, bewerken, verfijnen of redeneren met visueel onderbouwde invoer en uitvoer. We formuleren het veld eerst aan de hand van de rol die code speelt in elke taak, waarbij we code onderscheiden als een gerenderd artefact, een bewerkbare symbolische structuur, een wetenschappelijke representatie, een tussentijds redeneerspoor, of een uitvoerbaar beleid of toolinterface. Vervolgens ordenen we benchmarks en methoden in vier domeinen: Grafische Gebruikersinterface, Wetenschappelijke Visualisatie, Gestructureerde Grafieken, en Grensverleggende Taken en Raamwerken. Deze taxonomie verbindt volwassen artefactgeneratieproblemen met opkomende agentische en geünificeerde omgevingen en stelt ons in staat te vergelijken hoe verschillende taken omgaan met bewijs van correctheid. Vooruitkijkend stellen we dat toekomstig onderzoek baat kan hebben bij vier verificatiegerichte richtingen. Multisignaalvalidatie kan complementair bewijs van correctheid combineren, multitoestandsverificatie kan gedrag over uitvoeringstrajecten testen, kruistaakoverdrachtstesten kunnen herbruikbare visueel-codevaardigheden onderzoeken, en verifieerbare agenttraces kunnen onthullen of agentacties zijn onderbouwd met visueel bewijs. Samen kunnen deze richtingen dit veld verplaatsen van éénuitvoerimitatie naar bewijsgebaseerde uitvoerbare systemen. Een lopend project en bronnen zijn beschikbaar op https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}.

English

While Large Language Models (LLMs) have substantially advanced text-to-code synthesis, many real programming tasks specify intent through visual artifacts such as screenshots, charts, vector drawings, videos, and interactive states. These tasks require models to connect visual perception to executable programs, because correctness depends not only on syntax but also on layout, data semantics, interaction behavior, and domain-specific constraints that apply after execution. This survey examines Multimodal Code Intelligence, covering systems that generate, edit, refine, or reason with code under visually grounded inputs and outputs. We first formulate the field by the role that code plays in each task, distinguishing code as a rendered artifact, an editable symbolic structure, a scientific representation, an intermediate reasoning trace, or an executable policy or tool interface. We then organize benchmarks and methods into four domains: Graphical User Interface, Scientific Visualization, Structured Graphics, and Frontier Tasks and Frameworks. This taxonomy connects mature artifact-generation problems to emerging agentic and unified settings and allows us to compare how different tasks treat evidence of correctness. Looking ahead, we argue that future research may benefit from four verification-centered directions. Multi-signal validation can combine complementary evidence of correctness, multi-state verification can test behavior across execution trajectories, cross-task transfer testing can probe reusable visual-code skills, and verifiable agent traces can reveal whether agent actions are grounded in visual evidence. Together, these directions may move this field from single-output imitation toward evidence-grounded executable systems. An ongoing project and resources are available on https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code{GitHub}.