Sbloccare la conversione di screenshot web in codice HTML con il dataset WebSight
Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset
March 14, 2024
Autori: Hugo Laurençon, Léo Tronchon, Victor Sanh
cs.AI
Abstract
L'utilizzo di modelli visione-linguaggio (VLMs) nello sviluppo web rappresenta una strategia promettente per aumentare l'efficienza e sbloccare soluzioni no-code: fornendo uno screenshot o uno schizzo di un'interfaccia utente, un VLM potrebbe generare il codice per riprodurla, ad esempio in un linguaggio come HTML. Nonostante i progressi nei VLMs per varie attività, la sfida specifica di convertire uno screenshot in un corrispondente HTML è stata esplorata in misura minima. Riteniamo che ciò sia principalmente dovuto all'assenza di un dataset adatto e di alta qualità. Questo lavoro introduce WebSight, un dataset sintetico composto da 2 milioni di coppie di codici HTML e i relativi screenshot. Addestriamo un VLM di base sul nostro dataset e dimostriamo competenza nella conversione di screenshot di pagine web in codice HTML funzionale. Per accelerare la ricerca in questo ambito, rendiamo open-source WebSight.
English
Using vision-language models (VLMs) in web development presents a promising
strategy to increase efficiency and unblock no-code solutions: by providing a
screenshot or a sketch of a UI, a VLM could generate the code to reproduce it,
for instance in a language like HTML. Despite the advancements in VLMs for
various tasks, the specific challenge of converting a screenshot into a
corresponding HTML has been minimally explored. We posit that this is mainly
due to the absence of a suitable, high-quality dataset. This work introduces
WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and
their corresponding screenshots. We fine-tune a foundational VLM on our dataset
and show proficiency in converting webpage screenshots to functional HTML code.
To accelerate the research in this area, we open-source WebSight.