ChatPaper.aiChatPaper

LEGO: Lernen der EGOzentrischen Aktionsrahmen-Generierung durch visuelle Instruktionsanpassung

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

December 6, 2023
Autoren: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
cs.AI

Zusammenfassung

Die Erzeugung von Anleitungsbildern menschlicher Alltagshandlungen aus einer egozentrischen Perspektive stellt einen entscheidenden Schritt für den effizienten Wissenstransfer dar. In diesem Artikel führen wir ein neuartiges Problem ein – die egozentrische Aktionsrahmen-Generierung. Das Ziel ist es, den Aktionsrahmen basierend auf der Benutzeraufforderung und einem Eingabebild, das die Umgebung des Benutzers aus einer egozentrischen Sicht einfängt, zu synthetisieren. Bemerkenswerterweise fehlen in bestehenden egozentrischen Datensätzen detaillierte Annotationen, die die Ausführung von Handlungen beschreiben. Zudem gelingt es diffusionsbasierten Bildmanipulationsmodellen nicht, den Zustandswechsel einer Handlung innerhalb des entsprechenden egozentrischen Bildpixelraums zu steuern. Zu diesem Zweck feinen wir ein visuelles großes Sprachmodell (VLLM) durch visuelle Instruktionsoptimierung ab, um angereicherte Handlungsbeschreibungen für unser vorgeschlagenes Problem zu erstellen. Darüber hinaus schlagen wir vor, die EGOzentrische Aktionsrahmen-Generierung (LEGO) unter Verwendung von Bild- und Text-Einbettungen aus dem VLLM als zusätzliche Bedingung zu erlernen. Wir validieren unser vorgeschlagenes Modell anhand von zwei egozentrischen Datensätzen – Ego4D und Epic-Kitchens. Unsere Experimente zeigen eine deutliche Verbesserung gegenüber früheren Bildmanipulationsmodellen sowohl in der quantitativen als auch in der qualitativen Bewertung. Wir führen außerdem detaillierte Ablationsstudien und Analysen durch, um Einblicke in unsere Methode zu geben.
English
Generating instructional images of human daily actions from an egocentric viewpoint serves a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize the action frame conditioning on the user prompt question and an input egocentric image that captures user's environment. Notably, existing egocentric datasets lack the detailed annotations that describe the execution of actions. Additionally, the diffusion-based image manipulation models fail to control the state change of an action within the corresponding egocentric image pixel space. To this end, we finetune a visual large language model (VLLM) via visual instruction tuning for curating the enriched action descriptions to address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO) action frame generation using image and text embeddings from VLLM as additional conditioning. We validate our proposed model on two egocentric datasets -- Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior image manipulation models in both quantitative and qualitative evaluation. We also conduct detailed ablation studies and analysis to provide insights on our method.
PDF70December 15, 2024