ChatPaper.aiChatPaper

Sbloccare la conversione di screenshot web in codice HTML con il dataset WebSight

Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

March 14, 2024
Autori: Hugo Laurençon, Léo Tronchon, Victor Sanh
cs.AI

Abstract

L'utilizzo di modelli visione-linguaggio (VLMs) nello sviluppo web rappresenta una strategia promettente per aumentare l'efficienza e sbloccare soluzioni no-code: fornendo uno screenshot o uno schizzo di un'interfaccia utente, un VLM potrebbe generare il codice per riprodurla, ad esempio in un linguaggio come HTML. Nonostante i progressi nei VLMs per varie attività, la sfida specifica di convertire uno screenshot in un corrispondente HTML è stata esplorata in misura minima. Riteniamo che ciò sia principalmente dovuto all'assenza di un dataset adatto e di alta qualità. Questo lavoro introduce WebSight, un dataset sintetico composto da 2 milioni di coppie di codici HTML e i relativi screenshot. Addestriamo un VLM di base sul nostro dataset e dimostriamo competenza nella conversione di screenshot di pagine web in codice HTML funzionale. Per accelerare la ricerca in questo ambito, rendiamo open-source WebSight.
English
Using vision-language models (VLMs) in web development presents a promising strategy to increase efficiency and unblock no-code solutions: by providing a screenshot or a sketch of a UI, a VLM could generate the code to reproduce it, for instance in a language like HTML. Despite the advancements in VLMs for various tasks, the specific challenge of converting a screenshot into a corresponding HTML has been minimally explored. We posit that this is mainly due to the absence of a suitable, high-quality dataset. This work introduces WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and their corresponding screenshots. We fine-tune a foundational VLM on our dataset and show proficiency in converting webpage screenshots to functional HTML code. To accelerate the research in this area, we open-source WebSight.
PDF554December 15, 2024