Desvendando a conversão de capturas de tela da Web em código HTML com o conjunto de dados WebSight
Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset
March 14, 2024
Autores: Hugo Laurençon, Léo Tronchon, Victor Sanh
cs.AI
Resumo
O uso de modelos visão-linguagem (VLMs) no desenvolvimento web apresenta uma estratégia promissora para aumentar a eficiência e desbloquear soluções sem código: ao fornecer uma captura de tela ou um esboço de uma interface de usuário, um VLM poderia gerar o código para reproduzi-la, por exemplo, em uma linguagem como HTML. Apesar dos avanços nos VLMs para diversas tarefas, o desafio específico de converter uma captura de tela em um HTML correspondente tem sido pouco explorado. Postulamos que isso se deve principalmente à ausência de um conjunto de dados adequado e de alta qualidade. Este trabalho introduz o WebSight, um conjunto de dados sintético composto por 2 milhões de pares de códigos HTML e suas capturas de tela correspondentes. Ajustamos um VLM fundamental em nosso conjunto de dados e demonstramos proficiência na conversão de capturas de tela de páginas web em código HTML funcional. Para acelerar a pesquisa nessa área, disponibilizamos o WebSight como código aberto.
English
Using vision-language models (VLMs) in web development presents a promising
strategy to increase efficiency and unblock no-code solutions: by providing a
screenshot or a sketch of a UI, a VLM could generate the code to reproduce it,
for instance in a language like HTML. Despite the advancements in VLMs for
various tasks, the specific challenge of converting a screenshot into a
corresponding HTML has been minimally explored. We posit that this is mainly
due to the absence of a suitable, high-quality dataset. This work introduces
WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and
their corresponding screenshots. We fine-tune a foundational VLM on our dataset
and show proficiency in converting webpage screenshots to functional HTML code.
To accelerate the research in this area, we open-source WebSight.