Sbloccare la conversione di screenshot web in codice HTML con il dataset WebSight

Abstract

L'utilizzo di modelli visione-linguaggio (VLMs) nello sviluppo web rappresenta una strategia promettente per aumentare l'efficienza e sbloccare soluzioni no-code: fornendo uno screenshot o uno schizzo di un'interfaccia utente, un VLM potrebbe generare il codice per riprodurla, ad esempio in un linguaggio come HTML. Nonostante i progressi nei VLMs per varie attività, la sfida specifica di convertire uno screenshot in un corrispondente HTML è stata esplorata in misura minima. Riteniamo che ciò sia principalmente dovuto all'assenza di un dataset adatto e di alta qualità. Questo lavoro introduce WebSight, un dataset sintetico composto da 2 milioni di coppie di codici HTML e i relativi screenshot. Addestriamo un VLM di base sul nostro dataset e dimostriamo competenza nella conversione di screenshot di pagine web in codice HTML funzionale. Per accelerare la ricerca in questo ambito, rendiamo open-source WebSight.

English

Using vision-language models (VLMs) in web development presents a promising strategy to increase efficiency and unblock no-code solutions: by providing a screenshot or a sketch of a UI, a VLM could generate the code to reproduce it, for instance in a language like HTML. Despite the advancements in VLMs for various tasks, the specific challenge of converting a screenshot into a corresponding HTML has been minimally explored. We posit that this is mainly due to the absence of a suitable, high-quality dataset. This work introduces WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and their corresponding screenshots. We fine-tune a foundational VLM on our dataset and show proficiency in converting webpage screenshots to functional HTML code. To accelerate the research in this area, we open-source WebSight.

Sbloccare la conversione di screenshot web in codice HTML con il dataset WebSight

Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

Abstract

Support