WAFFLE: Modelo Multi-Modal para el Desarrollo Automatizado de Front-End

Resumen

El desarrollo web implica convertir diseños de interfaz de usuario en páginas web funcionales, lo cual puede resultar difícil tanto para principiantes como para desarrolladores experimentados debido a la complejidad de las estructuras jerárquicas y estilos de HTML. Aunque los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) han demostrado ser prometedores en la generación de código fuente, dos desafíos principales persisten en la generación de código de UI a HTML: (1) representar de manera efectiva la estructura jerárquica de HTML para los LLMs, y (2) cerrar la brecha entre la naturaleza visual de los diseños de UI y el formato basado en texto del código HTML. Para abordar estos desafíos, presentamos Waffle, una nueva estrategia de ajuste fino que utiliza un mecanismo de atención consciente de la estructura para mejorar la comprensión de los LLMs sobre la estructura de HTML, y un enfoque de ajuste fino contrastivo para alinear la comprensión de los LLMs entre las imágenes de UI y el código HTML. Los modelos ajustados con Waffle muestran hasta un 9.00 pp (punto porcentual) más de coincidencia en HTML, 0.0982 más alto en CW-SSIM, 32.99 más alto en CLIP, y 27.12 pp más alto en LLEM en nuestro nuevo banco de pruebas WebSight-Test y en un banco de pruebas existente Design2Code, superando a los métodos actuales de ajuste fino.

English

Web development involves turning UI designs into functional webpages, which can be difficult for both beginners and experienced developers due to the complexity of HTML's hierarchical structures and styles. While Large Language Models (LLMs) have shown promise in generating source code, two major challenges persist in UI-to-HTML code generation: (1) effectively representing HTML's hierarchical structure for LLMs, and (2) bridging the gap between the visual nature of UI designs and the text-based format of HTML code. To tackle these challenges, we introduce Waffle, a new fine-tuning strategy that uses a structure-aware attention mechanism to improve LLMs' understanding of HTML's structure and a contrastive fine-tuning approach to align LLMs' understanding of UI images and HTML code. Models fine-tuned with Waffle show up to 9.00 pp (percentage point) higher HTML match, 0.0982 higher CW-SSIM, 32.99 higher CLIP, and 27.12 pp higher LLEM on our new benchmark WebSight-Test and an existing benchmark Design2Code, outperforming current fine-tuning methods.

WAFFLE: Modelo Multi-Modal para el Desarrollo Automatizado de Front-End

WAFFLE: Multi-Modal Model for Automated Front-End Development

Resumen

Support