ChatPaper.aiChatPaper

ウェブスクリーンショットをHTMLコードに変換する技術の解明:WebSightデータセットを用いて

Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

March 14, 2024
著者: Hugo Laurençon, Léo Tronchon, Victor Sanh
cs.AI

要旨

ウェブ開発において視覚言語モデル(VLM)を活用することは、効率性を向上させ、ノーコードソリューションを実現するための有望な戦略を提供する。具体的には、UIのスクリーンショットやスケッチを提供することで、VLMがそれを再現するコード(例えばHTMLのような言語)を生成することが可能である。様々なタスクにおけるVLMの進展にもかかわらず、スクリーンショットを対応するHTMLに変換するという特定の課題は、ほとんど検討されていない。これは主に、適切で高品質なデータセットの欠如によるものと考えられる。本研究では、200万組のHTMLコードとそれに対応するスクリーンショットから構成される合成データセット「WebSight」を紹介する。このデータセットを用いて基礎的なVLMをファインチューニングし、ウェブページのスクリーンショットを機能的なHTMLコードに変換する能力を示す。この分野の研究を加速するため、WebSightをオープンソースとして公開する。
English
Using vision-language models (VLMs) in web development presents a promising strategy to increase efficiency and unblock no-code solutions: by providing a screenshot or a sketch of a UI, a VLM could generate the code to reproduce it, for instance in a language like HTML. Despite the advancements in VLMs for various tasks, the specific challenge of converting a screenshot into a corresponding HTML has been minimally explored. We posit that this is mainly due to the absence of a suitable, high-quality dataset. This work introduces WebSight, a synthetic dataset consisting of 2 million pairs of HTML codes and their corresponding screenshots. We fine-tune a foundational VLM on our dataset and show proficiency in converting webpage screenshots to functional HTML code. To accelerate the research in this area, we open-source WebSight.

Summary

AI-Generated Summary

PDF564December 15, 2024