Design2Code: Hoe Ver Zijn We Met Het Automatiseren Van Front-End Engineering?

Samenvatting

Generatieve AI heeft de afgelopen jaren snelle vooruitgang geboekt en ongekende mogelijkheden bereikt op het gebied van multimodale begrip en codegeneratie. Dit kan een nieuw paradigma voor front-end ontwikkeling mogelijk maken, waarbij multimodale LLM's visuele ontwerpen direct kunnen omzetten in code-implementaties. In dit werk formaliseren we dit als een Design2Code-taak en voeren we uitgebreide benchmarking uit. Specifiek stellen we handmatig een benchmark samen van 484 diverse webpagina's uit de praktijk als testcases en ontwikkelen we een set van automatische evaluatiemetrics om te beoordelen hoe goed huidige multimodale LLM's de code-implementaties kunnen genereren die direct renderen in de gegeven referentiewebpagina's, waarbij screenshots als invoer worden gebruikt. We vullen de automatische metrics aan met uitgebreide humanevaluaties. We ontwikkelen een reeks multimodale promptingmethoden en tonen hun effectiviteit aan op GPT-4V en Gemini Pro Vision. We finetunen verder een open-source Design2Code-18B-model dat met succes de prestaties van Gemini Pro Vision evenaart. Zowel humanevaluatie als automatische metrics laten zien dat GPT-4V de beste prestaties levert op deze taak in vergelijking met andere modellen. Bovendien vinden annotators dat de door GPT-4V gegenereerde webpagina's in 49% van de gevallen de originele referentiewebpagina's kunnen vervangen wat betreft visuele verschijning en inhoud; en misschien verrassend, in 64% van de gevallen worden de door GPT-4V gegenereerde webpagina's als beter beschouwd dan de originele referentiewebpagina's. Onze fijnmazige uitsplitsing van metrics geeft aan dat open-source modellen vooral achterblijven in het herinneren van visuele elementen van de invoerwebpagina's en in het genereren van correcte lay-outontwerpen, terwijl aspecten zoals tekstinhoud en kleuring aanzienlijk kunnen worden verbeterd met de juiste finetuning.

English

Generative AI has made rapid advancements in recent years, achieving unprecedented capabilities in multimodal understanding and code generation. This can enable a new paradigm of front-end development, in which multimodal LLMs might directly convert visual designs into code implementations. In this work, we formalize this as a Design2Code task and conduct comprehensive benchmarking. Specifically, we manually curate a benchmark of 484 diverse real-world webpages as test cases and develop a set of automatic evaluation metrics to assess how well current multimodal LLMs can generate the code implementations that directly render into the given reference webpages, given the screenshots as input. We also complement automatic metrics with comprehensive human evaluations. We develop a suite of multimodal prompting methods and show their effectiveness on GPT-4V and Gemini Pro Vision. We further finetune an open-source Design2Code-18B model that successfully matches the performance of Gemini Pro Vision. Both human evaluation and automatic metrics show that GPT-4V performs the best on this task compared to other models. Moreover, annotators think GPT-4V generated webpages can replace the original reference webpages in 49% of cases in terms of visual appearance and content; and perhaps surprisingly, in 64% of cases GPT-4V generated webpages are considered better than the original reference webpages. Our fine-grained break-down metrics indicate that open-source models mostly lag in recalling visual elements from the input webpages and in generating correct layout designs, while aspects like text content and coloring can be drastically improved with proper finetuning.

Design2Code: Hoe Ver Zijn We Met Het Automatiseren Van Front-End Engineering?

Design2Code: How Far Are We From Automating Front-End Engineering?

Samenvatting

Support