번역이 포함된 일일 선별된 AI 연구 논문
우리는 InternVL 2.0을 기반으로 한 핵심 모델 구조를 유지하면서 교육 및 테스트 전략과 데이터 품질을 크게 향상시킨 첨단 다중 모달 대형 언어 모델 (MLLM) 시리즈인 InternVL 2.5를 소개합니다. 본 연구에서는 모델 확장과 성능 사이의 관계에 대해 탐구하며, 시각 인코더, 언어 모델, 데이터셋 크기 및 테스트 시 구성에서 성능 트렌드를 체계적으로 탐색합니다. 다중 학문적 추론, 문서 이해, 다중 이미지/비디오 이해, 현실 이해, 다중 모달 환각 감지, 시각 기준, 다국어 능력 및 순수 언어 처리를 포함한 다양한 벤치마크에서의 포괄적인 평가를 통해 InternVL 2.5는 GPT-4o 및 Claude-3.5-Sonnet과 같은 주요 상용 모델과 경쟁력 있는 성능을 보여줍니다. 특히, 우리 모델은 MMMU 벤치마크에서 70%를 넘어서는 첫 번째 오픈 소스 MLLM으로, Chain-of-Thought (CoT) 추론을 통해 3.7포인트 향상을 달성하고 테스트 시 확장에 대한 강력한 잠재력을 보여줍니다. 이 모델이 다중 모달 AI 시스템을 개발하고 적용하는 새로운 기준을 설정함으로써 오픈 소스 커뮤니티에 기여할 것을 희망합니다. HuggingFace 데모는 https://huggingface.co/spaces/OpenGVLab/InternVL에서 확인하실 수 있습니다.
본 기술 보고서는 LG AI 연구팀이 개발 및 공개한 EXAONE 3.5 명령어 튜닝 언어 모델을 소개합니다. EXAONE 3.5 언어 모델은 32B, 7.8B, 2.4B 세 가지 구성으로 제공됩니다. 이러한 모델은 여러 가지 우수한 기능을 갖추고 있습니다. 첫째, 현실 세계 시나리오에서 뛰어난 명령어 따르기 능력을 보여 일곱 가지 벤치마크에서 가장 높은 점수를 달성했습니다. 둘째, 우수한 장기 문맥 이해력으로 네 가지 벤치마크에서 최고 성능을 달성했습니다. 셋째, 유사한 크기의 최첨단 오픈 모델과 비교하여 아홉 가지 일반 벤치마크에서 경쟁력 있는 결과를 보여주었습니다. EXAONE 3.5 언어 모델은 연구 목적을 위해 누구에게나 공개되어 있으며 https://huggingface.co/LGAI-EXAONE에서 다운로드할 수 있습니다. 상업적 이용을 원하시는 경우 LG AI 연구팀 공식 연락처인 [email protected]로 문의해주시기 바랍니다.
텍스트에서 비디오로 (T2V) 생성 모델의 최근 발전은 인상적인 능력을 보여주었습니다. 그러나 이러한 모델은 여전히 합성된 비디오를 인간의 선호도와 일치시키는 데 미흡합니다 (예: 텍스트 설명을 정확히 반영하는 것). 이는 인간의 선호도가 본질적으로 주관적이며 객관적 함수로 형식화하기 어려운 것을 특히 어렵게 만듭니다. 따라서 본 논문에서는 T2V 모델 정렬을 위해 인간 피드백을 활용하는 새로운 파인튜닝 방법인 LiFT를 제안합니다. 구체적으로, 우리는 먼저 약 10,000개의 인간 주석을 포함한 LiFT-HRA(Human Rating Annotation) 데이터셋을 구축합니다. 이를 기반으로 보상 모델인 LiFT-Critic을 훈련시켜 보상 함수를 효과적으로 학습시킵니다. 이 함수는 인간 판단의 대리자 역할을 하며 주어진 비디오와 인간의 기대 사이의 정렬을 측정합니다. 마지막으로, 학습된 보상 함수를 활용하여 T2V 모델을 정렬시켜 보상 가중 가능도를 최대화합니다. 사례 연구로, 우리는 CogVideoX-2B에 우리의 파이프라인을 적용하여, 파인튜닝된 모델이 16가지 메트릭을 모두 통해 CogVideoX-5B를 능가함을 보여줌으로써, 인간 피드백이 합성된 비디오의 정렬과 품질을 향상시키는 데 잠재력을 강조합니다.
오픈 소스 다중 모달 대형 언어 모델(MLLMs)은 다양한 다중 모달 작업에서 상당한 잠재력을 보여주었습니다. 그러나 그들의 추론 능력은 기존의 지시 튜닝 데이터셋에 의해 제한되어 있습니다. 이 데이터셋은 주로 VQA, AI2D, ChartQA와 같은 학술 데이터셋에서 재활용되었는데, 이러한 데이터셋은 단순한 작업을 대상으로 하며 중간 근거 없이 구문 수준의 답변만을 제공합니다. 이러한 도전에 대처하기 위해, 우리는 CoT 추론을 유도하기 위해 풍부한 중간 근거를 갖춘 대규모 다중 모달 지시 튜닝 데이터셋을 구축하는 확장 가능하고 비용 효율적인 방법을 소개합니다. 우리는 오픈 모델만을 사용하여, 다양하고 추론 집중적인 작업을 다루기 위해 상세하고 충실한 근거를 갖춘 1200만 개의 지시-응답 쌍을 포함하는 데이터셋을 생성합니다. 실험 결과, 이 데이터셋에서 MLLMs를 훈련시키면 추론 능력이 크게 향상되어 MathVerse(+8.1%), MMMU-Pro(+7%), MuirBench(+13.3%)와 같은 벤치마크에서 최첨단 성능을 달성합니다. 또한, 모델은 비추론 기반 벤치마크에서 최대 4%까지 주목할만한 개선을 보여줍니다. 제거 연구는 데이터셋 구축 과정에서 재작성과 자가 필터링과 같은 주요 구성 요소의 중요성을 강조합니다.
최근 텍스트 안내 이미지 편집의 발전으로 사용자는 간단한 텍스트 입력을 통해 이미지 편집을 수행할 수 있게 되었습니다. 이는 다단계 확산 기반 텍스트-이미지 모델의 광범위한 사전을 활용합니다. 그러나 이러한 방법들은 종종 실제 환경 및 장치용 애플리케이션에서 요구되는 속도 요구를 충족시키지 못하는데, 이는 비용이 많이 드는 다단계 역전 및 샘플링 과정으로 인한 것입니다. 이에 대응하여 우리는 SwiftEdit를 소개합니다. 이는 간단하면서도 매우 효율적인 편집 도구로, 즉각적인 텍스트 안내 이미지 편집을 실현합니다(0.23초). SwiftEdit의 발전은 두 가지의 혁신적인 기여점에 있습니다: 역전을 통해 일단계 이미지 재구성을 가능케 하는 일단계 역전 프레임워크 및 우리가 제안하는 주의력 재조정 메커니즘을 활용한 마스크 안내 편집 기술을 통해 지역화된 이미지 편집을 수행합니다. SwiftEdit의 효과와 효율성을 증명하기 위해 포괄적인 실험이 제공됩니다. 특히, SwiftEdit는 이전 다단계 방법보다 훨씬 빠른 속도로 즉각적인 텍스트 안내 이미지 편집을 가능케 하며(최소 50배 빠름), 편집 결과에서 경쟁력 있는 성능을 유지합니다. 저희 프로젝트 페이지는 다음에서 확인하실 수 있습니다: https://swift-edit.github.io/
대형 언어 모델(Large language models, LLMs)은 훈련 중에 특히 인기 있는 AdamW 옵티마이저를 사용할 때 메모리 집약적인 것으로 악명이 있습니다. 이 메모리 부담으로 인해 더 많거나 고성능의 GPU를 사용하거나 배치 크기를 줄여야 하며, 이는 훈련 확장성과 처리량을 제한합니다. 이에 대응하기 위해 다양한 메모리 효율적인 옵티마이저가 제안되어 왔지만, 이들은 중요한 도전에 직면합니다: (i) 비용이 많이 드는 SVD 연산에 의존함, (ii) AdamW와 비교했을 때 상당한 성능 저하, (iii) 경쟁력 있는 성능을 유지하기 위한 여전히 상당한 옵티마이저 메모리 오버헤드. 본 연구에서는 AdamW의 학습률 적응 규칙이 구조화된 학습률 업데이트로 효과적으로 변환될 수 있다는 것을 확인했습니다. 이 통찰을 바탕으로 순수한 랜덤 프로젝션을 기반으로 보조 저랭크 옵티마이저 상태를 사용하여 학습률 스케일링을 근사화하는 메모리 효율적인 LLM 최적화를 위한 Approximated Gradient Scaling (APOLLO)을 제안합니다. 이 구조화된 학습률 업데이트 규칙은 APOLLO을 추가적인 메모리 감소에 매우 견고하게 만들어주며, 비슷한 사전 훈련 성능을 제공합니다. 심지어 랭크-1 변형인 APOLLO-Mini도 SGD 수준의 메모리 비용과 비교하여 우수한 사전 훈련 성능을 달성합니다. 광범위한 실험을 통해 APOLLO 시리즈가 AdamW와 비슷하거나 더 나은 성능을 발휘하면서 AdamW의 최적화 상태를 거의 제거하여 더 많은 메모리를 절약한다는 것을 입증했습니다. 이러한 절약은 중요한 시스템 수준의 이점을 제공합니다: (1) 향상된 처리량: 8xA100-80GB 설정에서 AdamW와 비교하여 4배 더 큰 배치 크기를 지원하여 3배의 처리량. (2) 모델 확장성 향상: 시스템 수준 최적화 없이 A100-80GB GPU에서 naive DDP로 LLaMA-13B 사전 훈련. (3) 저성능 GPU 친화적 사전 훈련: 가중치 양자화를 사용하여 12GB 미만의 메모리를 사용하여 단일 GPU에서 LLaMA-7B 사전 훈련.
최근 대규모 언어 모델의 발전은 광범위한 말뭉치에서 사전 훈련된 모델이 미세 조정만으로도 다양한 자연어 처리 작업에서 상당한 성공을 거두었습니다. 이러한 성과는 오랫동안 행동 레이블 데이터의 높은 비용으로 제한받아온 로봇공학에 새로운 희망을 제시합니다. 우리는 상호작용 관련 지식을 포함하는 풍부한 비디오 데이터가 있는 "말뭉치"로부터 유사한 생성 사전 훈련 접근 방식이 로봇 학습을 향상시키는 데 효과적으로 적용될 수 있는지 묻습니다. 핵심 과제는 로봇 조작 작업에 이점을 제공하는 자기회귀 사전 훈련을 위한 효과적인 표현을 식별하는 것입니다. 동적 환경을 관찰하면서 새로운 기술을 학습하는 방식에서 영감을 받아, 효과적인 로봇 학습은 하드웨어에 독립적인 저수준 작업과 관련된 동작 관련 지식을 강조해야 하며, 학습된 동작을 실제 로봇 동작으로 전달하는 것을 용이하게 해야 합니다. 이를 위해 비디오 콘텐츠를 잠재 동작 토큰 시퀀스로 변환하는 Moto를 소개합니다. 이는 잠재 동작 토크나이저를 통해 비지도 방식으로 비디오에서 동작 "언어"를 학습합니다. 우리는 Moto-GPT를 동작 토큰 자기회귀를 통해 사전 훈련하여 다양한 시각적 동작 지식을 포착할 수 있게 합니다. 사전 훈련 후, Moto-GPT는 의미론적으로 해석 가능한 동작 토큰을 생성하고 타당한 동작 궤적을 예측하며 출력 가능성을 통해 궤적 합리성을 평가하는 유망한 능력을 나타냅니다. 학습된 동작 사전을 실제 로봇 동작으로 전달하기 위해 잠재 동작 토큰 예측과 실제 로봇 제어를 원활하게 이어주는 공동 미세 조정 전략을 구현합니다. 광범위한 실험 결과, 미세 조정된 Moto-GPT는 로봇 조작 벤치마크에서 우수한 견고성과 효율성을 나타내며, 비디오 데이터로부터 하류 시각적 조작 작업으로 지식을 전달하는 데 효과적임을 강조합니다.
텍스트-비디오 생성 모델은 최근 몇 년간 상당한 진전을 보였습니다. 그러나 여전히 복합적인 동적 장면을 생성하는 데 어려움을 겪고 있습니다. 이는 속성 바인딩, 다중 객체에 대한 시간적 동적 및 객체 간 상호 작용과 같은 구성 텍스트 프롬프트에 기반한 복합적인 동적 장면 생성에 어려움을 겪고 있음을 의미합니다. 우리의 주된 동기는 복잡한 작업을 각각 역할에 특화된 MLLM 에이전트가 처리하는 간단한 작업으로 분해할 수 있다는 것입니다. 다수의 에이전트가 복합적인 목표를 위해 협력하여 모여 지능을 발휘할 수 있습니다. 우리는 구성적인 텍스트-비디오 생성을 가능하게 하는 반복적이고 다중 에이전트 프레임워크인 GenMAC을 제안합니다. 협력적인 워크플로우는 설계, 생성 및 재설계 세 단계로 구성되며, 생성 및 재설계 단계 사이의 반복 루프를 통해 생성된 비디오를 점진적으로 검증하고 개선합니다. 재설계 단계는 생성된 비디오를 검증하고 수정 제안을 하며 다음 생성 반복을 위해 텍스트 프롬프트, 프레임별 레이아웃 및 가이드 스케일을 재설계하는 가장 어려운 단계입니다. 단일 MLLM 에이전트의 환영을 피하기 위해 이 단계를 순차적으로 실행되는 네 가지 MLLM 기반 에이전트로 분해합니다: 검증 에이전트, 제안 에이전트, 수정 에이전트 및 출력 구조화 에이전트. 또한, 구성적인 텍스트-비디오 생성의 다양한 시나리오에 대응하기 위해 적절한 수정 에이전트를 선택하기 위한 자가 라우팅 메커니즘을 설계합니다. 각 수정 에이전트는 하나의 시나리오에 특화되어 있습니다. 광범위한 실험은 GenMAC의 효과를 입증하며, 구성적인 텍스트-비디오 생성에서 최고 수준의 성능을 달성합니다.
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 합성 이미지(composite images, CIs)를 얼마나 잘 이해할 수 있는지에 대해 어떻게 평가할 수 있을까? CIs는 카메라로 직접 촬영되는 것이 아니라 차트, 포스터 또는 스크린샷과 같은 여러 시각적 요소를 병합하여 생성된 합성 시각 자료입니다. CIs는 현실 세계 응용 프로그램에서 흔히 볼 수 있지만, 최근 MLLM 개발은 주로 자연 이미지(NIs) 해석에 초점을 맞추고 있습니다. 우리의 연구 결과, 현재 MLLMs는 CIs를 정확하게 이해하는 데 상당한 어려움을 겪으며 이러한 이미지를 기반으로 정보를 추출하거나 복잡한 추론을 수행하는 데 어려움을 겪고 있습니다. 우리는 CIs에 대한 기존 훈련 데이터가 대부분 질문-답변 작업을 위해 형식화되어 있음을 발견했습니다(예: ChartQA 및 ScienceQA와 같은 데이터셋), 반면 강력한 비전-언어 정렬을 위한 고품질 이미지 캡션 데이터셋은 NIs에만 사용 가능합니다. 이 간극을 메우기 위해 우리는 Large Language Models (LLMs)와 자동화 도구를 활용하는 유연한 프레임워크인 Composite Captions (CompCap)을 소개합니다. CompCap을 사용하여 6가지 CI 유형을 포함하는 118,000개의 이미지-캡션 쌍을 포함하는 데이터셋인 CompCap-118K를 선별합니다. 우리는 CompCap-118K의 효과를 검증하기 위해 세 가지 크기의 MLLMs(xGen-MM-inst.-4B 및 LLaVA-NeXT-Vicuna-7B/13B)를 지도 학습을 통해 세밀하게 조정합니다. 경험적 결과는 CompCap-118K가 CIs에 대한 MLLMs의 이해를 크게 향상시키며, 각각 11개의 벤치마크에서 평균적으로 1.7%, 2.0%, 2.9%의 향상을 제공한다는 것을 보여줍니다.
3D 가우시안 스플래팅은 대규모 장면 재구성에서 주목할만한 성과를 보여주었지만, 고 훈련 메모리 소비와 저장 과부하로 인한 도전이 지속되고 있습니다. 암시적 및 명시적 특징을 통합하는 하이브리드 표현은 이러한 제약을 완화하는 방법을 제공합니다. 그러나 병렬화된 블록별 훈련에 적용할 때, 각 블록을 독립적으로 훈련할 때 데이터 다양성이 감소하여 재구성 정확도가 저하되는 두 가지 중요한 문제가 발생하며, 병렬 훈련은 분할된 블록 수를 사용 가능한 GPU 수로 제한합니다. 이러한 문제를 해결하기 위해 우리는 모멘텀 기반의 자가 증류를 활용하여 블록 간 일관성과 정확도를 촉진하면서 블록 수를 물리적 GPU 수에서 분리하는 혁신적인 접근 방식인 Momentum-GS를 제안합니다. 우리의 방법은 훈련 중 안정적인 참조를 보장하기 위해 모멘텀으로 업데이트된 교사 가우시안 디코더를 유지합니다. 이 교사는 각 블록에 전역적인 가이드를 제공하여 재구성에서 공간적 일관성을 촉진합니다. 블록 간 일관성을 보다 확실히 하기 위해 재구성 정확도에 따라 각 블록의 가중치를 동적으로 조정하는 블록 가중치를 통합합니다. 대규모 장면에서의 광범위한 실험 결과, 우리의 방법이 기존 기술을 일관되게 능가하며, CityGaussian 대비 LPIPS에서 12.8%의 개선을 달성하면서 훨씬 적은 분할된 블록으로 새로운 최고 성능을 수립합니다. 프로젝트 페이지: https://jixuan-fan.github.io/Momentum-GS_Page/
다중 모달 AI는 영수증 처리, 워크플로 이해, 문서에서 데이터 추출, 보고서 요약과 같은 문서 이해 작업을 혁신적으로 향상시킬 수 있는 잠재력을 갖고 있습니다. 긴 구조화된 출력이 필요한 코드 생성 작업도 다중 모달로 향상될 수 있습니다. 그럼에도 불구하고 상용 응용 프로그램에서의 사용은 종종 훈련 데이터에 대한 제한된 접근과 제한적인 라이선싱으로 인해 제한됩니다. 이는 개방적 접근을 방해합니다. 이러한 한계를 극복하기 위해, 우리는 30가지 작업을 포함한 750만 개의 다중 모달 문서로 구성된 고품질의 오픈 액세스 데이터셋인 BigDocs-7.5M을 소개합니다. 우리는 고품질이며 라이선스 허용 데이터임을 보장하기 위해 효율적인 데이터 선별 프로세스를 사용합니다. 우리의 프로세스는 필터링 규칙, 추적 가능한 메타데이터, 그리고 신중한 콘텐츠 분석을 통해 책임, 책임성, 그리고 투명성을 강조합니다. 게다가, 우리는 GUI 상의 추론과 이미지로부터의 코드 생성을 포함하는 실제 사용 사례를 반영하는 데이터셋을 생성하는 10가지 새로운 작업을 포함하는 벤치마크 스위트인 BigDocs-Bench를 소개합니다. 우리의 실험 결과는 BigDocs-Bench로 훈련하는 것이 문서 추론 및 구조화된 출력 작업에서 GPT-4o보다 평균 성능을 최대 25.8% 향상시킨다는 것을 보여줍니다. 마지막으로, 인간 평가는 BigDocs로 훈련된 모델의 출력을 GPT-4o보다 선호한다는 것을 보여주었습니다. 이는 BigDocs가 학계와 오픈 소스 커뮤니티 모두가 다중 모달 능력과 문서 추론을 향상시키기 위해 AI 도구를 활용하고 개선하는 데 도움이 될 수 있다는 것을 시사합니다. 해당 프로젝트는 https://bigdocs.github.io 에서 호스팅됩니다.
현실 세계 비디오는 사건의 연속으로 구성됩니다. 정확한 시간 제어를 가진 이러한 연속을 생성하는 것은 기존의 단일 단락 텍스트를 입력으로 하는 비디오 생성기로는 불가능합니다. 단일 프롬프트를 사용하여 설명된 여러 사건을 생성하도록 요청받을 때, 이러한 방법들은 종종 일부 사건을 무시하거나 올바른 순서로 배열하지 못합니다. 이 한계를 해결하기 위해, 우리는 시간 제어를 갖는 다중 사건 비디오 생성기인 MinT를 제안합니다. 우리의 주요 통찰은 생성된 비디오에서 각 사건을 특정 기간에 바인딩함으로써 모델이 한 번에 한 사건에 집중할 수 있도록 하는 것입니다. 사건 캡션과 비디오 토큰 간의 시간 인식 상호작용을 가능하게 하기 위해 ReRoPE라는 이름의 시간 기반 위치 부여 인코딩 방법을 설계했습니다. 이 인코딩은 교차 주의 작업을 안내하는 데 도움이 됩니다. 시간적으로 기반을 둔 데이터에 사전 훈련된 비디오 확산 트랜스포머를 세밀하게 조정함으로써, 우리의 방법은 부드럽게 연결된 사건을 가진 일관된 비디오를 생성합니다. 문헌에서 처음으로, 우리 모델은 생성된 비디오의 사건 타이밍을 제어할 수 있습니다. 광범위한 실험 결과 MinT가 기존의 오픈 소스 모델들을 크게 앞선다는 것을 입증합니다.
본 논문에서는 단일 입력 이미지로부터 일관된 360도 3D 장면을 생성하는 새로운 방법인 PanoDreamer를 제안합니다. 장면을 순차적으로 생성하는 기존 방법과는 달리, 우리는 문제를 단일 이미지 파노라마 및 깊이 추정으로 구성합니다. 한 번 일관된 파노라마 이미지와 해당하는 깊이를 얻으면, 작은 가려진 영역을 보정하고 3D 공간으로 투영하여 장면을 재구성할 수 있습니다. 우리의 주요 기여는 단일 이미지 파노라마 및 깊이 추정을 두 가지 최적화 작업으로 정의하고 교대 최소화 전략을 소개하여 효과적으로 목표를 해결하는 것입니다. 우리의 접근 방식이 일관성과 전반적인 품질 측면에서 기존 기술을 능가함을 입증합니다.
실내 장면의 재구성은 공간 구조의 본질적인 복잡성과 질감이 없는 영역의 보편성으로 인해 여전히 어려운 과제입니다. 최근 3D 가우시안 스플래팅 기술의 발전으로 신규 시점 합성이 가속화되었지만 표면 재구성에서 비교 가능한 성능을 아직 제공하지 못했습니다. 본 논문에서는 고품질 실내 장면 재구성을 위해 2D 가우시안 스플래팅을 활용하는 새로운 방법인 2DGS-Room을 소개합니다. 구체적으로, 우리는 시드 안내 메커니즘을 활용하여 2D 가우시안의 분포를 제어하며, 씨드 포인트의 밀도는 적응적인 성장 및 가지치기 메커니즘을 통해 동적으로 최적화됩니다. 기하학적 정확성을 더 향상시키기 위해 단안 깊이 및 법선 사전을 통합하여 각각 세부 사항과 질감이 없는 영역에 대한 제약을 제공합니다. 더불어, 다중 시점 일관성 제약이 아티팩트를 완화하고 재구성 품질을 더 향상시키는 데 활용됩니다. ScanNet 및 ScanNet++ 데이터셋에서의 포괄적인 실험 결과는 우리의 방법이 실내 장면 재구성에서 최첨단 성능을 달성한다는 것을 입증합니다.
대형 언어 모델(Large language models, LLMs)은 대화를 인간-기계 상호작용의 중심 모드 중 하나로 만들어, 방대한 양의 대화 로그를 축적하고 대화 생성에 대한 수요를 증가시켰다. 대화 수명주기는 전개부(Prelude)를 거쳐 대화(Interlocution)를 통해 결론(Epilogue)에 이르는데, 다양한 요소를 포함한다. 다양한 대화 관련 연구가 존재하나, 포괄적인 대화 요소를 포함하는 벤치마크가 부족해 정확한 모델링과 체계적인 평가를 방해하고 있다. 이 간극을 메우기 위해, 우리는 혁신적인 연구 과제인 대화 요소 모델링(Dialogue Element MOdeling)을 소개하며, 요소 인식(Element Awareness)과 대화 에이전트 상호작용(Dialogue Agent Interaction)을 포함하고, 포괄적인 대화 모델링과 평가를 위해 고안된 새로운 벤치마크인 DEMO를 제안한다. 모방 학습에 영감을 받아, 우리는 더 나아가 DEMO 벤치마크를 기반으로 대화 요소를 모델링하는 능숙한 능력을 갖춘 에이전트를 구축한다. 방대한 실험 결과, 기존 LLMs는 여전히 상당한 향상 가능성을 보이며, 우리의 DEMO 에이전트는 도메인 내 및 도메인 외 작업 모두에서 우수한 성능을 보여준다.
보상은 강화 학습을 위한 작업을 지정하는 불가해한 방법으로 남아 있습니다. 인간들은 종종 어떤 보상 함수의 최적 행동을 예측할 수 없어서 부적절한 보상 설계와 보상 해킹으로 이어집니다. 언어는 에이전트에게 의도를 전달하고 보상 설계를 우회하는 매력적인 방법을 제시합니다. 그러나 이를 위한 이전 노력은 비용이 많이 들고 확장이 어려워 제한되어 왔습니다. 본 연구에서는 완전 비지도 방식의 언어 지침을 제로샷 방식으로 정책을 얻기 위한 대안으로 제안합니다. 우리는 상상, 투영, 모방의 형태를 취하는 해결책을 제시합니다: 에이전트는 작업의 언어 설명에 해당하는 관측 순서를 상상하고, 상상된 순서를 우리의 대상 도메인으로 투영하고, 정책에 그것을 근거로 합니다. 비디오-언어 모델을 사용하여 인터넷 규모의 비디오-텍스트 매핑에서 학습한 작업 지식을 활용하는 작업 설명을 상상할 수 있습니다. 이러한 생성물을 정책에 근거를 두는 것이 여전히 과제입니다. 본 연구에서는 상상된 순서를 비지도 강화 학습 에이전트의 실제 관측에 먼저 근거를 두고, 근거를 두어 RL 에이전트가 근거를 두는 관측을 모방할 수 있는 모방 학습의 닫힌 형태 솔루션을 사용하여 제로샷 언어-행동 정책을 달성할 수 있다는 것을 보여줍니다. 우리의 지식으로는 RLZero라는 우리의 방법은 시뮬레이션 도메인의 다양한 작업에서 어떠한 감독도 없이 제로샷 언어-행동 생성 능력을 보여주는 첫 번째 방법입니다. 또한 RLZero가 YouTube에서 스크랩된 교차 구현 비디오로부터 제로샷으로 정책을 생성할 수 있다는 것을 보여줍니다.