LEGO: Leren van EGOcentrische Actieframe Generatie via Visuele Instructie Afstemming
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
December 6, 2023
Auteurs: Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu
cs.AI
Samenvatting
Het genereren van instructiebeelden van menselijke dagelijkse handelingen vanuit een egocentrisch perspectief vormt een cruciale stap naar efficiënte vaardigheidsoverdracht. In dit artikel introduceren we een nieuw probleem -- de generatie van egocentrische actiekaders. Het doel is om het actiekader te synthetiseren op basis van een gebruikerspromptvraag en een ingevoerde egocentrische afbeelding die de omgeving van de gebruiker vastlegt. Opmerkelijk is dat bestaande egocentrische datasets de gedetailleerde annotaties missen die de uitvoering van handelingen beschrijven. Bovendien slagen op diffusie gebaseerde beeldmanipulatiemodellen er niet in om de staatswijziging van een handeling binnen de corresponderende egocentrische beeldpixelruimte te beheersen. Daarom finetunen we een visueel groot taalmodel (VLLM) via visuele instructieafstemming om verrijkte actiebeschrijvingen te cureren voor ons voorgestelde probleem. Verder stellen we voor om het genereren van Learn EGOcentric (LEGO) actiekaders te leren met behulp van beeld- en tekstembeddingen van VLLM als aanvullende conditionering. We valideren ons voorgestelde model op twee egocentrische datasets -- Ego4D en Epic-Kitchens. Onze experimenten tonen een aanzienlijke verbetering ten opzichte van eerdere beeldmanipulatiemodellen in zowel kwantitatieve als kwalitatieve evaluatie. We voeren ook gedetailleerde ablatiestudies en analyses uit om inzicht te geven in onze methode.
English
Generating instructional images of human daily actions from an egocentric
viewpoint serves a key step towards efficient skill transfer. In this paper, we
introduce a novel problem -- egocentric action frame generation. The goal is to
synthesize the action frame conditioning on the user prompt question and an
input egocentric image that captures user's environment. Notably, existing
egocentric datasets lack the detailed annotations that describe the execution
of actions. Additionally, the diffusion-based image manipulation models fail to
control the state change of an action within the corresponding egocentric image
pixel space. To this end, we finetune a visual large language model (VLLM) via
visual instruction tuning for curating the enriched action descriptions to
address our proposed problem. Moreover, we propose to Learn EGOcentric (LEGO)
action frame generation using image and text embeddings from VLLM as additional
conditioning. We validate our proposed model on two egocentric datasets --
Ego4D and Epic-Kitchens. Our experiments show prominent improvement over prior
image manipulation models in both quantitative and qualitative evaluation. We
also conduct detailed ablation studies and analysis to provide insights on our
method.