ChatPaper.aiChatPaper

Het ontsluiten van de conversie van webscreenshots naar HTML-code met de WebSight-dataset

Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

March 14, 2024
Auteurs: Hugo Laurençon, Léo Tronchon, Victor Sanh
cs.AI

Samenvatting

Het gebruik van vision-language modellen (VLMs) in webontwikkeling biedt een veelbelovende strategie om de efficiëntie te verhogen en no-code oplossingen mogelijk te maken: door een screenshot of schets van een UI te verstrekken, zou een VLM de code kunnen genereren om deze te reproduceren, bijvoorbeeld in een taal zoals HTML. Ondanks de vooruitgang in VLMs voor verschillende taken, is de specifieke uitdaging van het omzetten van een screenshot naar de corresponderende HTML nog nauwelijks onderzocht. Wij stellen dat dit voornamelijk komt door het ontbreken van een geschikte, hoogwaardige dataset. Dit werk introduceert WebSight, een synthetische dataset bestaande uit 2 miljoen paren van HTML-codes en hun bijbehorende screenshots. We fine-tunen een fundamenteel VLM op onze dataset en tonen aan dat het bekwaam is in het omzetten van webpagina-screenshots naar functionele HTML-code. Om het onderzoek op dit gebied te versnellen, maken we WebSight open-source.
English
Using vision-language models (VLMs) in web development presents a promising strategy to increase efficiency and unblock no-code solutions: by providing a screenshot or a sketch of a UI, a VLM could generate the code to reproduce it, for instance in a language like HTML. Despite the advancements in VLMs for various tasks, the specific challenge of converting a screenshot into a corresponding HTML has been minimally explored. We posit that this is mainly due to the absence of a suitable, high-quality dataset. This work introduces WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and their corresponding screenshots. We fine-tune a foundational VLM on our dataset and show proficiency in converting webpage screenshots to functional HTML code. To accelerate the research in this area, we open-source WebSight.
PDF554December 15, 2024