Design2Code: Насколько мы далеки от автоматизации фронтенд-инженерии?Design2Code: How Far Are We From Automating Front-End Engineering?
Генеративное искусственное интеллекта в последние годы сделало быстрые прорывы, достигнув беспрецедентных возможностей в мультимодальном понимании и генерации кода. Это может способствовать новой парадигме разработки фронт-энда, в рамках которой мультимодальные LLM могут непосредственно преобразовывать визуальные дизайны в кодовые реализации. В данной работе мы формализуем это как задачу Design2Code и проводим комплексное бенчмаркинг. Конкретно, мы вручную составляем бенчмарк из 484 разнообразных веб-страниц в реальном мире в качестве тестовых случаев и разрабатываем набор автоматических метрик оценки, чтобы оценить, насколько хорошо текущие мультимодальные LLM могут генерировать кодовые реализации, которые непосредственно отображаются на заданных эталонных веб-страницах, учитывая скриншоты как входные данные. Мы также дополняем автоматические метрики комплексными оценками человека. Мы разрабатываем набор мультимодальных методов подсказок и демонстрируем их эффективность на моделях GPT-4V и Gemini Pro Vision. Мы также донастраиваем открытую модель Design2Code-18B, которая успешно соответствует производительности Gemini Pro Vision. Как человеческая оценка, так и автоматические метрики показывают, что GPT-4V лучше всего справляется с этой задачей по сравнению с другими моделями. Более того, аннотаторы считают, что сгенерированные веб-страницы GPT-4V могут заменить исходные эталонные веб-страницы в 49% случаев по внешнему виду и содержанию; и, возможно, удивительно, в 64% случаев сгенерированные веб-страницы GPT-4V считаются лучше исходных эталонных веб-страниц. Наши детальные метрики показывают, что открытые модели в основном отстают в воспроизведении визуальных элементов с входных веб-страниц и в генерации правильных макетов, в то время как аспекты, такие как текстовое содержание и цветовая гамма, могут значительно улучшиться при должном донастройке.