Design2Code : Dans quelle mesure sommes-nous proches de l'automatisation du développement front-end ?Design2Code: How Far Are We From Automating Front-End Engineering?
L'IA gĂ©nĂ©rative a connu des avancĂ©es rapides ces derniĂšres annĂ©es, atteignant des capacitĂ©s sans prĂ©cĂ©dent en comprĂ©hension multimodale et en gĂ©nĂ©ration de code. Cela pourrait permettre un nouveau paradigme dans le dĂ©veloppement front-end, oĂč les LLM multimodaux pourraient directement convertir des conceptions visuelles en implĂ©mentations de code. Dans ce travail, nous formalisons cela comme une tĂąche Design2Code et menons une Ă©valuation approfondie. Plus prĂ©cisĂ©ment, nous avons manuellement constituĂ© un benchmark de 484 pages web rĂ©elles et diversifiĂ©es comme cas de test, et dĂ©veloppĂ© un ensemble de mĂ©triques d'Ă©valuation automatiques pour Ă©valuer dans quelle mesure les LLM multimodaux actuels peuvent gĂ©nĂ©rer des implĂ©mentations de code qui rendent directement les pages web de rĂ©fĂ©rence donnĂ©es, en utilisant les captures d'Ă©cran comme entrĂ©e. Nous complĂ©tons Ă©galement les mĂ©triques automatiques par des Ă©valuations humaines approfondies. Nous dĂ©veloppons une sĂ©rie de mĂ©thodes d'invite multimodales et montrons leur efficacitĂ© sur GPT-4V et Gemini Pro Vision. Nous affinons en outre un modĂšle open-source Design2Code-18B qui parvient Ă Ă©galer les performances de Gemini Pro Vision. Tant l'Ă©valuation humaine que les mĂ©triques automatiques montrent que GPT-4V obtient les meilleurs rĂ©sultats sur cette tĂąche par rapport aux autres modĂšles. De plus, les annotateurs estiment que les pages web gĂ©nĂ©rĂ©es par GPT-4V peuvent remplacer les pages web de rĂ©fĂ©rence originales dans 49 % des cas en termes d'apparence visuelle et de contenu ; et, peut-ĂȘtre de maniĂšre surprenante, dans 64 % des cas, les pages web gĂ©nĂ©rĂ©es par GPT-4V sont considĂ©rĂ©es comme meilleures que les pages web de rĂ©fĂ©rence originales. Nos mĂ©triques dĂ©taillĂ©es indiquent que les modĂšles open-source sont principalement en retard dans le rappel des Ă©lĂ©ments visuels des pages web d'entrĂ©e et dans la gĂ©nĂ©ration de conceptions de mise en page correctes, tandis que des aspects comme le contenu textuel et la coloration peuvent ĂȘtre considĂ©rablement amĂ©liorĂ©s avec un affinage appropriĂ©.