ChatPaper.aiChatPaper

Geïllustreerde instructies genereren

Generating Illustrated Instructions

December 7, 2023
Auteurs: Sachit Menon, Ishan Misra, Rohit Girdhar
cs.AI

Samenvatting

We introduceren de nieuwe taak van het genereren van Geïllustreerde Instructies, d.w.z. visuele instructies die zijn afgestemd op de behoeften van een gebruiker. We identificeren unieke vereisten voor deze taak en formaliseren deze via een reeks automatische en menselijke evaluatiemetrics, ontworpen om de geldigheid, consistentie en effectiviteit van de gegenereerde instructies te meten. We combineren de kracht van grote taalmodellen (LLM's) samen met sterke tekst-naar-beeldgeneratie-diffusiemodellen om een eenvoudige aanpak genaamd StackedDiffusion voor te stellen, die dergelijke geïllustreerde instructies genereert op basis van tekst als invoer. Het resulterende model presteert aanzienlijk beter dan baseline-aanpakken en state-of-the-art multimodale LLM's; en in 30% van de gevallen verkiezen gebruikers het zelfs boven door mensen geschreven artikelen. Het meest opvallende is dat het diverse nieuwe en spannende toepassingen mogelijk maakt die ver gaan buiten wat statische artikelen op het web kunnen bieden, zoals gepersonaliseerde instructies met tussenstappen en afbeeldingen die aansluiten bij de individuele situatie van een gebruiker.
English
We introduce the new task of generating Illustrated Instructions, i.e., visual instructions customized to a user's needs. We identify desiderata unique to this task, and formalize it through a suite of automatic and human evaluation metrics, designed to measure the validity, consistency, and efficacy of the generations. We combine the power of large language models (LLMs) together with strong text-to-image generation diffusion models to propose a simple approach called StackedDiffusion, which generates such illustrated instructions given text as input. The resulting model strongly outperforms baseline approaches and state-of-the-art multimodal LLMs; and in 30% of cases, users even prefer it to human-generated articles. Most notably, it enables various new and exciting applications far beyond what static articles on the web can provide, such as personalized instructions complete with intermediate steps and pictures in response to a user's individual situation.
PDF90December 15, 2024