ChatPaper.aiChatPaper

Erstellen von illustrierten Anleitungen

Generating Illustrated Instructions

December 7, 2023
Autoren: Sachit Menon, Ishan Misra, Rohit Girdhar
cs.AI

Zusammenfassung

Wir stellen die neue Aufgabe der Generierung von Illustrierten Anleitungen vor, d.h. visuelle Anleitungen, die auf die Bedürfnisse eines Benutzers zugeschnitten sind. Wir identifizieren spezifische Anforderungen, die für diese Aufgabe einzigartig sind, und formalisieren sie durch eine Reihe von automatischen und menschlichen Bewertungsmetriken, die darauf ausgelegt sind, die Gültigkeit, Konsistenz und Wirksamkeit der Generierungen zu messen. Wir kombinieren die Leistungsfähigkeit großer Sprachmodelle (LLMs) mit starken Text-zu-Bild-Generierungs-Diffusionsmodellen, um einen einfachen Ansatz namens StackedDiffusion vorzuschlagen, der solche illustrierten Anleitungen aus Text als Eingabe generiert. Das resultierende Modell übertrifft Baseline-Ansätze und state-of-the-art multimodale LLMs deutlich; und in 30 % der Fälle bevorzugen Benutzer es sogar gegenüber von Menschen erstellten Artikeln. Besonders bemerkenswert ist, dass es verschiedene neue und spannende Anwendungen ermöglicht, die weit über das hinausgehen, was statische Artikel im Web bieten können, wie z.B. personalisierte Anleitungen mit Zwischenschritten und Bildern, die auf die individuelle Situation eines Benutzers reagieren.
English
We introduce the new task of generating Illustrated Instructions, i.e., visual instructions customized to a user's needs. We identify desiderata unique to this task, and formalize it through a suite of automatic and human evaluation metrics, designed to measure the validity, consistency, and efficacy of the generations. We combine the power of large language models (LLMs) together with strong text-to-image generation diffusion models to propose a simple approach called StackedDiffusion, which generates such illustrated instructions given text as input. The resulting model strongly outperforms baseline approaches and state-of-the-art multimodal LLMs; and in 30% of cases, users even prefer it to human-generated articles. Most notably, it enables various new and exciting applications far beyond what static articles on the web can provide, such as personalized instructions complete with intermediate steps and pictures in response to a user's individual situation.
PDF90December 15, 2024