번역이 포함된 일일 선별된 AI 연구 논문
컴퓨터 비전 모델에서 이미지를 처리하기 전에 고정된 해상도로 크기를 조정하는 것이 보편적이고 명백히 최적이 아닌 선택임에도 불구하고, 이 관행은 아직 성공적으로 도전받지 못했습니다. 그러나 Vision Transformer(ViT)와 같은 모델은 유연한 시퀀스 기반 모델링을 제공하며, 따라서 다양한 입력 시퀀스 길이를 허용합니다. 우리는 이를 NaViT(Native Resolution ViT)에서 활용하여, 임의의 해상도와 종횡비를 가진 입력을 처리하기 위해 훈련 중 시퀀스 패킹을 사용합니다. 유연한 모델 사용과 함께, 우리는 대규모 지도 학습 및 대조적 이미지-텍스트 사전 훈련에서 향상된 훈련 효율성을 입증합니다. NaViT는 이미지 및 비디오 분류, 객체 탐지, 의미론적 분할과 같은 표준 작업에 효율적으로 전이될 수 있으며, 견고성과 공정성 벤치마크에서 개선된 결과를 보여줍니다. 추론 시에는 입력 해상도의 유연성을 활용하여 테스트 시 비용-성능 트레이드오프를 원활하게 탐색할 수 있습니다. 우리는 NaViT가 대부분의 컴퓨터 비전 모델에서 사용되는 표준적인 CNN 설계의 입력 및 모델링 파이프라인에서 벗어나, ViT의 유망한 방향을 대표한다고 믿습니다.
대규모 언어 모델(LLM)에서의 컨텍스트 압축을 위해 In-context Autoencoder(ICAE)를 제안한다. ICAE는 두 가지 모듈로 구성된다: LoRA를 통해 LLM에서 적응된 학습 가능한 인코더는 긴 컨텍스트를 제한된 수의 메모리 슬롯으로 압축하며, 고정된 디코더는 다양한 목적을 위해 메모리 슬롯에 조건을 걸 수 있는 타겟 LLM이다. 먼저, ICAE를 대량의 텍스트 데이터에 대해 자동 인코딩 및 언어 모델링 목표를 사용하여 사전 학습시켜, 원본 컨텍스트를 정확하고 포괄적으로 표현하는 메모리 슬롯을 생성할 수 있도록 한다. 그런 다음, 소량의 지시 데이터에 대해 사전 학습된 ICAE를 미세 조정하여 다양한 프롬프트와의 상호작용을 강화하고 원하는 응답을 생성할 수 있도록 한다. 실험 결과는 제안된 사전 학습 및 미세 조정 패러다임으로 학습된 ICAE가 4배의 컨텍스트 압축을 통해 효과적으로 메모리 슬롯을 생성할 수 있으며, 이를 타겟 LLM이 다양한 프롬프트에 잘 반응할 수 있음을 보여준다. 이러한 유망한 결과는 ICAE가 긴 컨텍스트 문제에 대한 새로운 접근 방식과 LLM 추론에서의 계산 및 메모리 오버헤드를 줄일 수 있는 잠재력을 보여주며, LLM을 위한 컨텍스트 관리에 대한 추가 연구의 필요성을 시사한다. 코드와 데이터는 곧 공개될 예정이다.
대규모 언어 모델(LLM)은 자연어 지시를 이해하고 추론하며 생성하는 놀라운 능력을 보여줍니다. 그러나 LLM의 개발은 주로 영어와 같은 고자원 언어에 집중되어 있어, 다른 언어에서의 적용성과 연구가 제한되고 있습니다. 이에 따라, 우리는 6400억 개의 토큰으로 훈련된 다국어 LLM인 PolyLM을 소개합니다. 이 모델은 1.7B와 13B 두 가지 크기로 제공됩니다. 다국어 능력을 강화하기 위해, 우리는 1) 훈련 데이터에 이중 언어 데이터를 통합하고, 2) 사전 훈련 과정에서 비영어 데이터의 비율을 첫 단계에서 30%에서 최종 단계에서 60%로 증가시키는 커리큘럼 학습 전략을 채택했습니다. 더 나아가, 우리는 모델 미세 조정을 위해 132.7K개의 다양한 다국어 지시를 자동으로 생성하는 다국어 자기 지시 방법을 제안합니다. 모델의 성능을 평가하기 위해, 우리는 다국어 이해, 질문 응답, 생성 및 번역을 포함한 여러 기존 다국어 작업을 수집했습니다. 광범위한 실험 결과, PolyLM은 다국어 작업에서 LLaMA 및 BLOOM과 같은 다른 오픈소스 모델을 능가하면서도 영어에서 비슷한 성능을 유지하는 것으로 나타났습니다. 우리의 모델과 지시 데이터, 다국어 벤치마크는 https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation에서 확인할 수 있습니다.
본 논문은 다중모드 이해 및 생성을 위한 강력하고 전이 가능한 비디오-텍스트 표현 학습을 가능하게 하는 대규모 비디오 중심 다중모드 데이터셋인 InternVid를 소개합니다. InternVid 데이터셋은 총 760,000시간에 달하는 700만 개 이상의 비디오와 4.1B 단어의 상세 설명이 포함된 234M개의 비디오 클립으로 구성되어 있습니다. 우리의 핵심 기여는 대규모 언어 모델(LLM)을 활용하여 고품질 비디오-텍스트 데이터셋을 자율적으로 구축하는 확장 가능한 접근 방식을 개발함으로써, 대규모 비디오-언어 표현 학습의 효용성을 입증한 것입니다. 구체적으로, 우리는 비디오 관련 설명을 생성하기 위해 다중 스케일 접근 방식을 활용합니다. 또한, ViT-L 기반의 비디오-텍스트 표현 학습 모델인 ViCLIP을 소개합니다. 이 모델은 InternVid 데이터셋에서 대조 학습을 통해 학습되었으며, 선도적인 제로샷 동작 인식 및 경쟁력 있는 비디오 검색 성능을 보여줍니다. 인식 및 검색과 같은 기본적인 비디오 이해 작업을 넘어, 우리의 데이터셋과 모델은 다양한 응용 분야에 활용될 수 있습니다. 특히, 비디오 중심 대화 시스템 학습을 위한 인터리브된 비디오-텍스트 데이터 생성, 비디오-텍스트 및 텍스트-비디오 생성 연구 발전에 유용합니다. 이러한 제안된 리소스는 다중모드 비디오 이해 및 생성에 관심 있는 연구자와 실무자들에게 유용한 도구를 제공합니다.
스케일링의 우위와 효과성으로 인해 수백억 개의 파라미터를 가진 대규모 네트워크가 등장했음에도 불구하고, 과매개화된 모델을 훈련시켜야 하는 필요성은 여전히 잘 이해되지 않고 있으며, 대안적인 접근 방식이 반드시 고성능 모델을 더 저렴하게 훈련시키는 것은 아닙니다. 본 논문에서는 대규모 신경망을 훈련시키는 대안적인 접근법으로 저랭크 훈련 기법을 탐구합니다. 우리는 고랭크 네트워크를 훈련시키기 위해 저랭크 업데이트를 활용하는 ReLoRA라는 새로운 방법을 소개합니다. 우리는 ReLoRA를 최대 3억 5천만 개의 파라미터를 가진 트랜스포머 언어 모델의 사전 훈련에 적용하고, 일반적인 신경망 훈련과 비슷한 성능을 보임을 입증합니다. 더 나아가, ReLoRA의 효율성이 모델 크기가 커질수록 증가함을 관찰하여, 이 기법이 수십억 개의 파라미터를 가진 네트워크를 효율적으로 훈련시키는 유망한 접근법임을 보여줍니다. 우리의 연구 결과는 저랭크 훈련 기법의 잠재력과 스케일링 법칙에 대한 함의를 밝혀냅니다.
대규모 언어 모델(LLM)은 다양한 작업을 위한 일반 목적의 계획 에이전트 개발에서 인상적인 결과를 보여주고 있습니다. 그러나 이러한 계획을 넓은 공간, 다층 구조, 그리고 다중 방으로 이루어진 환경에 적용하는 것은 로봇 공학에서 상당한 도전 과제로 남아 있습니다. 우리는 3D 장면 그래프(3DSG) 표현을 사용하여 로봇을 위한 대규모 작업 계획을 LLM 기반으로 수행할 수 있는 확장 가능한 접근 방식인 SayPlan을 소개합니다. 이 접근 방식의 확장성을 보장하기 위해 우리는: (1) 3DSG의 계층적 특성을 활용하여 LLM이 전체 그래프의 축소된 표현에서 작업과 관련된 하위 그래프를 의미론적으로 검색할 수 있도록 하고, (2) 고전적인 경로 계획기를 통합하여 LLM의 계획 범위를 줄이며, (3) 장면 그래프 시뮬레이터로부터의 피드백을 사용하여 초기 계획을 개선하고 실행 불가능한 동작을 수정하며 계획 실패를 방지하는 반복적인 재계획 파이프라인을 도입합니다. 우리는 최대 3층, 36개의 방, 그리고 140개의 객체로 이루어진 두 대규모 환경에서 이 접근 방식을 평가하고, 모바일 매니퓰레이터 로봇이 실행할 수 있는 추상적이고 자연어로 된 지시에서 대규모 장기 작업 계획을 적용할 수 있음을 보여줍니다.
GPT-4와 같은 대형 언어 모델(LLMs)은 건강 응용을 포함한 다양한 작업에서 뛰어난 능력을 보여주고 있습니다. 본 논문에서는 LLMs가 어떻게 생물의학 지식 큐레이션을 확장하는 데 사용될 수 있는지 연구합니다. 우리는 LLMs가 이미 생물의학 텍스트를 구조화하는 데 괜찮은 능력을 가지고 있지만, 자기 지도 학습을 통해 작업 특화 학생 모델로 증류함으로써 상당한 성능 향상을 얻을 수 있으며, 비용, 효율성, 그리고 화이트박스 모델 접근성과 같은 추가적인 이점도 얻을 수 있음을 발견했습니다. 우리는 치료 개선을 위한 중요한 영역인 약물 부작용(ADE) 추출에 대한 사례 연구를 수행했습니다. 표준 ADE 추출 평가에서, GPT-3.5로 증류된 PubMedBERT 모델은 레이블된 데이터를 전혀 사용하지 않고도 지도 학습 기반의 최첨단 모델과 비슷한 정확도를 달성했습니다. 1,000배 이상 작은 크기임에도 불구하고, 증류된 모델은 F1 점수에서 GPT-3.5보다 6점 이상, GPT-4보다 5점 이상 우수한 성능을 보였습니다. 증류 모델 선택(예: PubMedBERT 대 BioGPT)과 ADE 추출 아키텍처에 대한 제거 연구는 생물의학 지식 추출을 위한 최적의 방법을 밝혀주었습니다. 유전자-질병 연관성 및 보호된 건강 정보와 같은 다른 표준 생물의학 지식 추출 작업에서도 증류를 통해 유사한 성능 향상을 얻었으며, 이 접근법의 잠재력을 더욱 입증했습니다.
대규모 언어 모델은 일반적으로 사전 학습(pre-training)과 미세 조정(fine-tuning)이라는 두 단계의 학습 과정을 거칩니다. 대규모 사전 학습은 모델이 자연스러운 언어 응답을 생성할 수 있는 강력한 능력을 부여하지만, 이러한 사전 학습된 모델도 때때로 인간의 지시를 이해하지 못할 수 있습니다. 언어 모델의 지시 해석 및 응답 능력을 향상시키기 위해, 지시 미세 조정(instruction fine-tuning)은 이 분야에서 중요한 방법론으로 부상했습니다. 최근 연구에 따르면, 대규모 언어 모델은 소량의 고품질 지시-따르기 데이터로도 잘 미세 조정될 수 있음이 밝혀졌습니다. 그러나 언어 모델을 미세 조정하기 위한 고품질 데이터셋의 선택은 여전히 명확한 지침이 부족한 상태입니다. 본 논문에서는 지시-따르기 데이터의 품질을 평가하기 위한 선형 규칙인 InstructMining을 제안합니다. 우리는 InstructMining을 특정 자연어 지표를 사용하여 공식화합니다. 데이터 품질과 이러한 지표 간의 관계를 조사하기 위해, 우리는 광범위한 미세 조정 실험을 추가로 수행합니다. 실험 결과는 InstructMining의 매개변수 추정에 적용됩니다. 성능을 더욱 조사하기 위해, 우리는 InstructMining을 사용하여 보이지 않는 데이터셋에서 고품질 데이터를 선택합니다. 결과는 InstructMining이 다양한 지시-따르기 데이터셋에서 상대적으로 고품질의 샘플을 선택하는 데 도움을 줄 수 있음을 보여줍니다. 필터링되지 않은 데이터셋으로 미세 조정된 모델과 비교했을 때, InstructMining으로 선택된 데이터셋으로 미세 조정된 모델은 42.5%의 경우에서 더 나은 성능을 보였습니다.
GPT 시리즈의 성공은 GPT가 시퀀스로부터 일반적인 정보를 추출할 수 있으며, 이를 통해 모든 하위 작업에 이점을 제공할 수 있음을 입증합니다. 이는 우리가 사전 훈련된 모델을 사용하여 DNA 시퀀스에 숨겨진 정보를 탐구하도록 동기를 부여합니다. 그러나 DNA 시퀀스 분석에서의 데이터와 작업 요구 사항은 복잡성과 다양성을 띱니다. DNA 관련 데이터에는 시퀀스, 발현 수준 등 다양한 유형의 정보가 포함되어 있지만, 이러한 특성을 위해 특별히 설계된 모델은 현재 존재하지 않습니다. 이에 우리는 9종의 100억 개 이상의 염기쌍으로 사전 훈련된 일반화된 기초 모델인 DNAGPT를 제안합니다. 이 모델은 모든 DNA 시퀀스 분석 작업에 맞게 미세 조정될 수 있습니다. 우리의 모델은 DNA 시퀀스와 숫자를 동시에 처리하거나 출력할 수 있습니다. 또한, 우리의 독특한 토큰 설계는 사용자가 자신의 작업 요구 사항에 따라 프롬프트를 설계할 수 있게 하여 모든 유형의 작업에 적용 가능하게 합니다. 우리는 분류, 회귀, 생성 작업에서 모델을 평가했습니다. 우리는 DNAGPT가 사전 훈련으로부터 이점을 얻으며, 따라서 모든 하위 작업에 성능 향상을 가져올 수 있음을 입증합니다. 우리의 모델은 유전체 분석 분야에서의 새로운 시도일 뿐만 아니라, 생물학에서 기초 모델의 응용에 새로운 방향을 제시합니다.
특정 도메인 내에서 언어 모델(LM)을 배포하기 전에, 해당 도메인에서 사실과 다르거나 잘못된 정보를 생성하는 경향성을 측정하는 것이 중요합니다. 기존의 사실 생성 평가 방법들은 주로 언어 모델 자체에서 샘플링된 사실들에 초점을 맞추기 때문에, 평가 대상 사실 집합을 통제하지 못하며 희귀하거나 발생 가능성이 낮은 사실들을 충분히 반영하지 못할 수 있습니다. 우리는 FACTOR(Factual Assessment via Corpus TransfORmation)를 제안합니다. 이는 언어 모델의 사실성을 평가하기 위한 확장 가능한 접근 방식으로, 관심 있는 사실 코퍼스를 자동으로 변환하여 언어 모델이 해당 코퍼스의 진실된 사실과 유사하지만 잘못된 진술을 생성하는 경향성을 평가하는 벤치마크를 생성합니다. 우리는 이 프레임워크를 사용하여 Wiki-FACTOR와 News-FACTOR라는 두 가지 벤치마크를 구축했습니다. 우리의 연구 결과는 다음과 같습니다: (i) 벤치마크 점수는 모델 크기가 커질수록 증가하며, 언어 모델에 검색 기능을 추가할 때 개선됩니다; (ii) 벤치마크 점수는 복잡도(perplexity)와 상관관계가 있지만, 두 지표가 모델 순위에 대해 항상 일치하는 것은 아닙니다; (iii) 복잡도와 벤치마크 점수가 불일치할 때, 후자가 인간 평가자에 의해 측정된 개방형 생성에서의 사실성을 더 잘 반영합니다. 우리는 데이터와 코드를 https://github.com/AI21Labs/factor에서 공개적으로 제공합니다.
최근 텍스트-이미지 모델들이 고품질 이미지를 생성하는 놀라운 능력을 보여주고 있음에도 불구하고, 현재의 접근 방식들은 다양한 속성과 관계를 가진 객체들을 복잡하고 일관된 장면으로 효과적으로 구성하는 데 어려움을 겪고 있습니다. 우리는 개방형 세계의 조합적 텍스트-이미지 생성을 위한 포괄적인 벤치마크인 T2I-CompBench를 제안합니다. 이 벤치마크는 3개의 범주(속성 바인딩, 객체 관계, 복잡한 조합)와 6개의 하위 범주(색상 바인딩, 형태 바인딩, 질감 바인딩, 공간적 관계, 비공간적 관계, 복잡한 조합)로 구성된 6,000개의 조합적 텍스트 프롬프트를 포함합니다. 또한, 우리는 조합적 텍스트-이미지 생성을 평가하기 위해 특별히 설계된 여러 평가 지표를 제안합니다. 사전 학습된 텍스트-이미지 모델의 조합적 텍스트-이미지 생성 능력을 향상시키기 위해, 보상 기반 샘플 선택을 통한 생성 모델 미세 조정(GORS)이라는 새로운 접근 방식을 소개합니다. T2I-CompBench에서 기존 방법들을 벤치마킹하고, 우리가 제안한 평가 지표와 GORS 접근 방식의 효과를 검증하기 위해 광범위한 실험과 평가를 수행했습니다. 프로젝트 페이지는 https://karine-h.github.io/T2I-CompBench/에서 확인할 수 있습니다.
이미지의 텍스트적 및 의미적 이해는 적절한 캡션 생성을 위해 필수적입니다. 이러한 이해는 객체 탐지, 객체 간 관계 모델링, 장면의 의미 평가, 그리고 마지막으로 추출된 지식을 언어 공간으로 표현하는 과정을 필요로 합니다. 풍부한 언어 능력을 달성하면서도 좋은 이미지-언어 매핑을 보장하기 위해, 사전 학습된 언어 모델(LM)은 이미지 입력을 허용하는 사전 학습된 다중 모달(이미지-텍스트) 모델에 조건화되었습니다. 이는 다중 모달 모델의 이미지 표현과 생성적 LM의 언어 표현 간의 정렬을 요구합니다. 그러나 다중 모달 모델의 비전 인코더가 감지한 의미를 LM으로 어떻게 최적으로 전달할지에 대해서는 명확하지 않습니다. 우리는 두 사전 학습된 모델의 임베딩 공간 간에 의미를 성공적으로 전달하는 선형 매핑을 구성하는 두 가지 새로운 방법을 소개합니다. 첫 번째 방법은 다중 모달 언어 인코더의 임베딩 공간을 사전 학습된 LM의 임베딩 공간과 토큰 대응을 통해 정렬합니다. 두 번째 방법은 이미지-텍스트 쌍으로 구성된 추가 데이터를 활용하여 비전에서 언어 공간으로 직접 매핑을 구성합니다. 우리의 의미 매핑을 사용하여, 우리는 그래디언트 정보에 접근하지 않고도 LM을 위한 이미지 캡션 생성을 가능하게 합니다. 다양한 데이터 소스를 사용하여 MS-COCO 및 Flickr30k 데이터셋에서 강력한 캡션 성능을 달성합니다. 제한된 데이터 상황에서도, 우리의 방법은 다른 제로샷 및 심지어 미세 조정된 경쟁자들의 성능을 부분적으로 초과합니다. 우리의 절제 연구는 단지 2억 5천만 개의 파라미터 규모의 LM도 우리의 의미 매핑을 사용하여 괜찮은 캡션을 생성할 수 있음을 보여줍니다. 우리의 접근 방식은 계산 자원이 제한된 기관들에게 이미지 캡션 생성을 더욱 접근 가능하게 만듭니다.
언어 모델의 응용 분야가 계속 진화함에 따라, 새로운 작업에 모델을 빠르게 적응시킬 수 있는 방법에 대한 질문이 자연스럽게 제기됩니다. 우리는 이 고전적인 질문을 지속 학습 관점에서 접근하며, 과거 작업에서 훈련된 모델을 새로운 작업에 대해 계속 미세 조정함으로써 관련 지식을 "전이"하는 것을 목표로 합니다. 그러나 이 전략은 오히려 역효과를 낼 위험, 즉 부정적 전이의 위험도 내포하고 있습니다. 본 논문에서는 긍정적 전이의 가능성이 높은 작업 시퀀스, 부정적 전이의 가능성이 높은 작업 시퀀스, 예상되는 효과가 없는 작업 시퀀스, 또는 이들의 혼합 등 다양한 전이 시나리오를 대상으로 하는 새로운 벤치마크를 구축합니다. 이상적인 학습자는 긍정적 전이의 가능성이 있는 모든 작업에서 정보를 최대한 활용할 수 있어야 하며, 동시에 학습자를 혼란스럽게 할 수 있는 방해 작업의 부정적인 영향을 피할 수 있어야 합니다. 우리는 과거 작업 체크포인트에서 새로운 모델을 초기화하기 위한 선택적 전략을 활용함으로써 이러한 요구 사항을 충족하는 간단하지만 효과적인 학습자를 제안합니다. 여전히 한계는 존재하지만, 이 벤치마크가 커뮤니티가 이러한 학습자를 더욱 구축하고 분석하는 데 도움이 되기를 바랍니다.
대규모 언어 모델(LLMs)은 로봇 조작을 위한 추론 및 계획 형태로 추출 가능한 실행 가능한 지식을 풍부하게 보유하고 있음이 입증되었습니다. 이러한 진전에도 불구하고, 대부분의 연구는 여전히 환경과의 물리적 상호작용을 수행하기 위해 사전 정의된 동작 원시 요소에 의존하고 있으며, 이는 주요 병목 현상으로 남아 있습니다. 본 연구에서는 다양한 조작 작업에 대해 6자유도 엔드 이펙터 웨이포인트의 밀집한 시퀀스인 로봇 궤적을 합성하는 것을 목표로 합니다. 이를 위해, 우리는 먼저 LLMs가 자유 형식의 언어 지시가 주어졌을 때 어포던스와 제약 조건을 추론하는 데 탁월하다는 점을 관찰했습니다. 더 중요한 것은, LLMs의 코드 작성 능력을 활용하여 시각-언어 모델(VLM)과 상호작용하여 3D 값 맵을 구성함으로써 에이전트의 관찰 공간에 지식을 구체화할 수 있다는 점입니다. 구성된 값 맵은 모델 기반 계획 프레임워크에서 사용되어 동적 섭동에 강인한 폐루프 로봇 궤적을 제로샷으로 합성합니다. 또한, 제안된 프레임워크가 접점이 풍부한 상호작용이 포함된 장면에 대한 동역학 모델을 효율적으로 학습함으로써 온라인 경험으로부터 이점을 얻을 수 있음을 보여줍니다. 우리는 시뮬레이션 및 실제 로봇 환경에서 제안된 방법의 대규모 연구를 제시하며, 자유 형식의 자연어로 지정된 다양한 일상적 조작 작업을 수행할 수 있는 능력을 입증합니다. 프로젝트 웹사이트: https://voxposer.github.io
손에 장착된 카메라(eye-in-hand camera)는 시각 기반 로봇 조작에서 더 높은 샘플 효율성과 일반화 능력을 가능하게 하는 데 유망한 가능성을 보여주고 있다. 그러나 로봇 모방 학습의 경우, 인간 원격 조작자가 실제 로봇을 사용하여 대량의 전문가 시연 데이터를 수집하는 것은 여전히 비용이 많이 든다. 반면, 인간이 작업을 수행하는 비디오는 로봇 원격 조작에 대한 전문 지식이 필요하지 않으며 다양한 시나리오에서 빠르게 캡처할 수 있기 때문에 훨씬 저렴하게 수집할 수 있다. 따라서 인간 비디오 시연은 대규모로 일반화 가능한 로봇 조작 정책을 학습하기 위한 유망한 데이터 소스이다. 본 연구에서는 좁은 범위의 로봇 모방 데이터셋을 넓은 범위의 레이블이 없는 인간 비디오 시연으로 보강하여 손에 장착된 시각-운동 정책의 일반화 능력을 크게 향상시킨다. 인간과 로봇 데이터 사이에는 명확한 시각적 도메인 차이가 존재하지만, 우리의 프레임워크는 손에 장착된 카메라의 부분적 관측 가능성과 간단한 고정 이미지 마스킹 기법을 활용하기 때문에 명시적인 도메인 적응 방법을 사용할 필요가 없다. 3자유도 및 6자유도 로봇 암 제어를 포함한 8가지 실제 작업에 대한 실험에서, 우리의 방법은 손에 장착된 조작 정책의 성공률을 평균 58%(절대값) 향상시켰으며, 로봇이 로봇 시연 데이터에서 보지 못한 새로운 환경 구성과 새로운 작업에 일반화할 수 있도록 했다. 비디오 결과는 https://giving-robots-a-hand.github.io/에서 확인할 수 있다.