Génération d'instructions illustrées
Generating Illustrated Instructions
December 7, 2023
Auteurs: Sachit Menon, Ishan Misra, Rohit Girdhar
cs.AI
Résumé
Nous introduisons la nouvelle tâche de génération d'Instructions Illustrées, c'est-à-dire des instructions visuelles personnalisées selon les besoins d'un utilisateur. Nous identifions des critères spécifiques à cette tâche et la formalisons à travers une série de métriques d'évaluation automatiques et humaines, conçues pour mesurer la validité, la cohérence et l'efficacité des générations. Nous combinons la puissance des grands modèles de langage (LLMs) avec des modèles de génération d'images par diffusion performants pour proposer une approche simple appelée StackedDiffusion, qui génère de telles instructions illustrées à partir d'un texte en entrée. Le modèle résultant surpasse largement les approches de référence et les LLMs multimodaux de pointe ; et dans 30 % des cas, les utilisateurs le préfèrent même aux articles générés par des humains. Plus remarquablement, il permet diverses applications nouvelles et passionnantes bien au-delà de ce que les articles statiques sur le web peuvent offrir, comme des instructions personnalisées incluant des étapes intermédiaires et des images en réponse à la situation individuelle d'un utilisateur.
English
We introduce the new task of generating Illustrated Instructions, i.e.,
visual instructions customized to a user's needs. We identify desiderata unique
to this task, and formalize it through a suite of automatic and human
evaluation metrics, designed to measure the validity, consistency, and efficacy
of the generations. We combine the power of large language models (LLMs)
together with strong text-to-image generation diffusion models to propose a
simple approach called StackedDiffusion, which generates such illustrated
instructions given text as input. The resulting model strongly outperforms
baseline approaches and state-of-the-art multimodal LLMs; and in 30% of cases,
users even prefer it to human-generated articles. Most notably, it enables
various new and exciting applications far beyond what static articles on the
web can provide, such as personalized instructions complete with intermediate
steps and pictures in response to a user's individual situation.