ChatPaper.aiChatPaper

Generación de Instrucciones Ilustradas

Generating Illustrated Instructions

December 7, 2023
Autores: Sachit Menon, Ishan Misra, Rohit Girdhar
cs.AI

Resumen

Introducimos la nueva tarea de generar Instrucciones Ilustradas, es decir, instrucciones visuales personalizadas según las necesidades del usuario. Identificamos requisitos únicos para esta tarea y la formalizamos mediante un conjunto de métricas de evaluación automática y humana, diseñadas para medir la validez, consistencia y eficacia de las generaciones. Combinamos el poder de los modelos de lenguaje de gran escala (LLMs) junto con modelos de difusión de generación de texto a imagen de alto rendimiento para proponer un enfoque simple llamado StackedDiffusion, que genera dichas instrucciones ilustradas a partir de texto como entrada. El modelo resultante supera ampliamente los enfoques de referencia y los modelos multimodales LLMs de última generación; y en el 30% de los casos, los usuarios incluso lo prefieren frente a artículos generados por humanos. Más notablemente, permite diversas aplicaciones nuevas y emocionantes que van más allá de lo que los artículos estáticos en la web pueden ofrecer, como instrucciones personalizadas que incluyen pasos intermedios e imágenes en respuesta a la situación individual del usuario.
English
We introduce the new task of generating Illustrated Instructions, i.e., visual instructions customized to a user's needs. We identify desiderata unique to this task, and formalize it through a suite of automatic and human evaluation metrics, designed to measure the validity, consistency, and efficacy of the generations. We combine the power of large language models (LLMs) together with strong text-to-image generation diffusion models to propose a simple approach called StackedDiffusion, which generates such illustrated instructions given text as input. The resulting model strongly outperforms baseline approaches and state-of-the-art multimodal LLMs; and in 30% of cases, users even prefer it to human-generated articles. Most notably, it enables various new and exciting applications far beyond what static articles on the web can provide, such as personalized instructions complete with intermediate steps and pictures in response to a user's individual situation.
PDF90December 15, 2024