Doelrepresentaties voor Instructieopvolging: Een Semi-gesuperviseerde Taalinterface voor Besturing

Samenvatting

Ons doel is om robots natuurlijke taal instructies te laten volgen, zoals "leg de handdoek naast de magnetron." Het verkrijgen van grote hoeveelheden gelabelde data, d.w.z. data die demonstraties van taken bevat die zijn gelabeld met de taal instructie, is echter zeer lastig. Daarentegen is het veel eenvoudiger om beleidsregels te verkrijgen die reageren op beelddoelen, omdat elke autonome poging of demonstratie achteraf kan worden gelabeld met de eindtoestand als doel. In dit werk dragen we een methode aan die gebruik maakt van gezamenlijke beeld- en doel-geconditioneerde beleidsregels met taal, waarbij slechts een kleine hoeveelheid taaldata nodig is. Eerder werk heeft vooruitgang geboekt door gebruik te maken van visie-taalmodellen of door gezamenlijk taal-doel-geconditioneerde beleidsregels te trainen, maar tot nu toe heeft geen van beide methoden effectief geschaald naar taken in de echte wereld zonder aanzienlijke menselijke annotatie. Onze methode bereikt robuuste prestaties in de echte wereld door een embedding te leren van de gelabelde data die taal niet uitlijnt met het doelbeeld, maar eerder met de gewenste verandering tussen het start- en doelbeeld waar de instructie aan beantwoordt. Vervolgens trainen we een beleidsregel op deze embedding: het beleid profiteert van alle ongelabelde data, maar de uitgelijnde embedding biedt een interface voor taal om het beleid te sturen. We demonstreren het volgen van instructies over een verscheidenheid aan manipulatietaken in verschillende scènes, met generalisatie naar taal instructies buiten de gelabelde data. Video's en code voor onze aanpak zijn te vinden op onze website: http://tiny.cc/grif.

English

Our goal is for robots to follow natural language instructions like "put the towel next to the microwave." But getting large amounts of labeled data, i.e. data that contains demonstrations of tasks labeled with the language instruction, is prohibitive. In contrast, obtaining policies that respond to image goals is much easier, because any autonomous trial or demonstration can be labeled in hindsight with its final state as the goal. In this work, we contribute a method that taps into joint image- and goal- conditioned policies with language using only a small amount of language data. Prior work has made progress on this using vision-language models or by jointly training language-goal-conditioned policies, but so far neither method has scaled effectively to real-world robot tasks without significant human annotation. Our method achieves robust performance in the real world by learning an embedding from the labeled data that aligns language not to the goal image, but rather to the desired change between the start and goal images that the instruction corresponds to. We then train a policy on this embedding: the policy benefits from all the unlabeled data, but the aligned embedding provides an interface for language to steer the policy. We show instruction following across a variety of manipulation tasks in different scenes, with generalization to language instructions outside of the labeled data. Videos and code for our approach can be found on our website: http://tiny.cc/grif .

Doelrepresentaties voor Instructieopvolging: Een Semi-gesuperviseerde Taalinterface voor Besturing

Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control

Samenvatting

Support