번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델의 도입은 코드 생성 분야를 크게 발전시켰습니다. 그러나 오픈소스 모델들은 종종 GPT-4 코드 인터프리터와 같은 고급 시스템의 실행 능력과 반복적 개선 기능이 부족합니다. 이를 해결하기 위해, 우리는 코드 생성, 실행, 그리고 반복적 개선을 위해 설계된 오픈소스 코드 시스템인 OpenCodeInterpreter를 소개합니다. 68K개의 다중 턴 상호작용을 포함한 Code-Feedback 데이터셋을 기반으로, OpenCodeInterpreter는 실행과 인간의 피드백을 통합하여 동적 코드 개선을 가능하게 합니다. HumanEval, MBPP 및 EvalPlus에서 강화된 버전과 같은 주요 벤치마크에서 OpenCodeInterpreter에 대한 포괄적인 평가를 통해 뛰어난 성능을 확인했습니다. 특히, OpenCodeInterpreter-33B는 HumanEval과 MBPP의 평균(및 강화 버전)에서 83.2(76.4)의 정확도를 달성하며, GPT-4의 84.2(76.2)에 근접한 성능을 보였고, GPT-4로부터 합성된 인간 피드백을 통해 91.6(84.6)로 더욱 향상되었습니다. OpenCodeInterpreter는 오픈소스 코드 생성 모델과 GPT-4 코드 인터프리터와 같은 독점 시스템 간의 격차를 줄여줍니다.
트랜스포머(Transformers)는 다양한 응용 분야에서 엄청난 진전을 이뤄냈지만, 복잡한 의사결정 문제를 해결하는 데 있어서는 여전히 전통적인 심볼릭 플래너(symbolic planner)에 뒤처지는 상황입니다. 본 연구에서는 트랜스포머가 복잡한 계획 수립 작업을 해결하도록 훈련시키는 방법을 보여주고, 이전에 본 적 없는 소코반(Sokoban) 퍼즐을 93.7%의 확률로 최적으로 해결하며, 표준 A^* 탐색보다 최대 26.8% 적은 탐색 단계를 사용하는 Searchformer 모델을 소개합니다. Searchformer는 A^*의 탐색 동역학을 예측하도록 훈련된 인코더-디코더 트랜스포머 모델입니다. 이 모델은 전문가 반복(expert iterations)을 통해 미세 조정되어 A^* 탐색보다 적은 탐색 단계를 사용하면서도 최적의 계획을 생성합니다. 우리의 훈련 방법에서 A^*의 탐색 동역학은 심볼릭 플래닝 동안 작업 상태가 탐색 트리에 추가되고 제거되는 시점을 개괄하는 토큰 시퀀스로 표현됩니다. 미로 탐색에 대한 절제 연구(ablation studies)에서 Searchformer는 최적의 계획을 직접 예측하는 베이스라인을 크게 능가하며, 모델 크기는 5-10배 더 작고 훈련 데이터셋은 10배 더 작은 것으로 나타났습니다. 또한 Searchformer가 소코반과 같은 더 크고 복잡한 의사결정 작업으로 확장되면서 해결된 작업의 비율이 개선되고 탐색 동역학이 단축되는 것을 보여줍니다.
보다 포괄적인 Vision-Language Models(VLMs)을 추구하는 이 연구는 Palo라는 대규모 다국어 멀티모달 모델을 소개합니다. Palo는 영어, 중국어, 힌디어, 스페인어, 프랑스어, 아랍어, 벵골어, 러시아어, 우르두어, 일본어 등 총 10개의 주요 언어에서 시각적 추론 능력을 제공하며, 이는 전 세계 인구의 65%에 해당하는 약 50억 명을 아우릅니다. 우리의 접근 방식은 미세 조정된 대형 언어 모델을 사용하여 멀티모달 명령어 데이터셋을 영어에서 대상 언어로 반자동 번역하는 것으로, 높은 언어적 충실도를 보장하면서도 최소한의 수작업으로 확장성을 가능하게 합니다. 다양한 명령어 세트를 통합함으로써 힌디어, 아랍어, 벵골어, 우르두어와 같이 상대적으로 덜 다뤄진 언어를 포함한 다국어 전반의 성능을 향상시킬 수 있었습니다. 결과적으로 얻은 모델은 1.7B, 7B, 13B 파라미터의 세 가지 규모로 훈련되어 일반화 및 확장성을 보여주며, 강력한 베이스라인 대비 상당한 개선을 관찰할 수 있습니다. 또한, 우리는 다국어 멀티모달 벤치마크를 최초로 제안하여 향후 접근법들이 다양한 언어 간의 시각-언어 추론 능력을 평가할 수 있도록 합니다. 코드: https://github.com/mbzuai-oryx/PALO.
우리는 소규모 대형 멀티모달 모델(LMMs)의 설계와 분석을 위한 통합된 관점을 제공하는 TinyLLaVA 프레임워크를 제시합니다. 다양한 비전 인코더, 연결 모듈, 언어 모델, 학습 데이터 및 학습 레시피의 효과를 실증적으로 연구했습니다. 우리의 광범위한 실험 결과, 더 나은 품질의 데이터와 더 나은 학습 레시피를 결합할 경우, 더 작은 LMMs가 더 큰 LMMs와 동등한 성능을 꾸준히 달성할 수 있음을 보여주었습니다. 이 프레임워크 하에서, 우리는 소규모 LMMs 패밀리를 학습시켰습니다. 우리의 최고 모델인 TinyLLaVA-3.1B는 LLaVA-1.5 및 Qwen-VL과 같은 기존의 7B 모델 대비 더 나은 전반적인 성능을 달성했습니다. 우리의 연구 결과가 데이터 스케일링, 학습 설정 및 모델 선택 측면에서 향후 연구의 기준으로 활용되기를 바랍니다. 우리의 모델 가중치와 코드는 공개될 예정입니다.
Transformer 기반의 시각 모델은 일반적으로 이미지를 고정 크기의 정사각형 패치로 토큰화하여 입력 단위로 사용하는데, 이는 이미지 내용에 대한 적응성이 부족하며 고유한 픽셀 그룹화 구조를 간과합니다. 언어 모델에서 널리 채택된 서브워드 토큰화에서 영감을 받아, 우리는 서브오브젝트 수준의 이미지 토큰화기를 제안합니다. 여기서 서브오브젝트는 세그멘테이션 모델(예: Segment Anything 모델)을 통해 얻은 의미론적으로 의미 있는 이미지 세그먼트로 표현됩니다. 서브오브젝트 토큰화를 기반으로 한 학습 시스템을 구현하기 위해, 우리는 먼저 다양한 크기와 형태의 서브오브젝트 세그먼트를 컴팩트한 임베딩 벡터로 압축하기 위해 시퀀스-투-시퀀스 오토인코더(SeqAE)를 도입했습니다. 그런 다음 서브오브젝트 임베딩을 대형 언어 모델에 입력하여 시각 언어 학습을 수행했습니다. 실험 결과는 우리의 서브오브젝트 수준 토큰화가 전통적인 패치 수준 토큰화에 비해 이미지를 객체 및 속성 설명으로 변환하는 학습을 효율적으로 촉진함을 보여주었습니다. 코드와 모델은 https://github.com/ChenDelong1999/subobjects에서 공개될 예정입니다.
광범위한 실험 설계 영역에서 회귀 분석은 주어진 매개변수 집합을 바탕으로 시스템 또는 모델의 결과 지표를 정확하게 예측하는 강력한 도구로 사용되어 왔지만, 전통적으로 특정 작업에만 적용 가능한 방법들로 제한되어 왔습니다. 본 논문에서는 다양한 실제 실험에서 얻은 (x, y) 평가 데이터에 대해 언어 모델을 범용적인 종단 간 회귀 분석기로 훈련시키는 OmniPred 프레임워크를 제안합니다. 세계 최대의 블랙박스 최적화 데이터베이스 중 하나인 Google Vizier에서 수집한 데이터를 사용한 광범위한 실험을 통해, 수학적 매개변수와 값을 텍스트로만 표현하더라도 언어 모델이 매우 정밀한 수치 회귀 분석을 수행할 수 있으며, 여러 작업에 걸쳐 훈련할 기회가 주어진다면 전통적인 회귀 모델을 크게 능가할 수 있음을 입증했습니다.
대규모 언어 모델(LLMs)의 급속한 발전과 함께, 다중 에이전트 애플리케이션 분야에서도 상당한 진전이 이루어졌다. 그러나 에이전트 간 협력을 조정하는 복잡성과 LLMs의 예측 불가능한 성능은 견고하고 효율적인 다중 에이전트 애플리케이션 개발에 있어 상당한 도전 과제로 작용한다. 이러한 도전 과제를 해결하기 위해, 우리는 메시지 교환을 핵심 통신 메커니즘으로 하는 개발자 중심의 다중 에이전트 플랫폼인 AgentScope를 제안한다. 다양한 구문 도구, 내장 리소스, 그리고 사용자 친화적인 상호작용과 함께, 우리의 통신 메커니즘은 개발과 이해의 장벽을 크게 낮춘다. 견고하고 유연한 다중 에이전트 애플리케이션을 위해, AgentScope는 내장된 및 사용자 정의 가능한 내결함성 메커니즘을 제공하며, 다중 모드 데이터 생성, 저장 및 전송을 위한 시스템 수준의 지원도 갖추고 있다. 또한, 우리는 액터 기반 분산 프레임워크를 설계하여, 로컬과 분산 배포 간의 쉬운 전환과 추가 노력 없이 자동 병렬 최적화를 가능하게 한다. 이러한 기능을 통해, AgentScope는 개발자들이 지능형 에이전트의 잠재력을 완전히 실현할 수 있는 애플리케이션을 구축할 수 있도록 지원한다. 우리는 AgentScope를 https://github.com/modelscope/agentscope 에 공개하였으며, AgentScope가 이 빠르게 발전하는 분야에서 더 넓은 참여와 혁신을 이끌어내길 바란다.
확산 확률 모델(Diffusion Probabil Models, DPM)에서 샘플링은 고품질 이미지 생성을 위해 종종 비용이 많이 들며, 일반적으로 대형 모델을 사용하여 많은 단계를 거쳐야 합니다. 본 논문에서는 샘플링 효율성을 크게 향상시키면서도 생성 품질의 저하가 거의 없거나 전혀 없는 간단하면서도 효율적인 기법인 Trajectory Stitching T-Stitch를 소개합니다. T-Stitch는 전체 샘플링 궤적에 대해 대형 DPM만을 사용하는 대신, 초기 단계에서 더 작은 DPM을 대형 DPM의 저렴한 대체재로 활용하고 후반 단계에서 대형 DPM으로 전환합니다. 우리의 핵심 통찰은 동일한 학습 데이터 분포 하에서 다른 확산 모델들이 유사한 인코딩을 학습하며, 더 작은 모델들이 초기 단계에서 좋은 전역 구조를 생성할 수 있다는 것입니다. 광범위한 실험을 통해 T-Stitch가 학습이 필요 없으며, 다양한 아키텍처에 일반적으로 적용 가능하고, 대부분의 기존 고속 샘플링 기법과 유연한 속도와 품질의 트레이드오프를 통해 상호 보완적임을 입증했습니다. 예를 들어, DiT-XL에서 초기 시간 단계의 40%를 10배 더 빠른 DiT-S로 안전하게 대체할 수 있으며, 클래스 조건부 ImageNet 생성에서 성능 저하 없이 이를 달성할 수 있습니다. 또한, 본 방법이 인기 있는 사전 학습된 안정적 확산(Stable Diffusion, SD) 모델의 가속화뿐만 아니라 공개 모델 저장소에서 스타일화된 SD 모델의 프롬프트 정렬을 개선하는 데에도 드롭인 기법으로 사용될 수 있음을 추가로 보여줍니다. 코드는 https://github.com/NVlabs/T-Stitch에서 공개되었습니다.
대규모 언어 모델(LLM)을 통합 개발 환경(IDE)에 접목하는 것은 현대 소프트웨어 개발에서 중요한 주제로 부상했습니다. OpenAI의 GPT-3.5/4와 Code Llama와 같은 LLM은 지능형 채팅 기반 프로그래밍 도우미로서 개발자 생산성을 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 LLM을 그대로 사용하는 것은 특정 시나리오에서 최적의 결과를 보장하기 어렵습니다. 각 시스템은 최상의 성능을 위해 LLM이 해당 휴리스틱에 맞게 세밀하게 조정되어야 합니다. 본 논문에서는 'Copilot 평가 하네스'를 소개합니다. 이는 다양한 프로그래밍 시나리오와 언어를 포괄하는 LLM 기반 IDE 상호작용을 평가하기 위한 데이터와 도구 세트입니다. 우리는 기존의 최신 평가 시스템보다 더 견고하고 정보가 풍부한 평가 지표를 제안합니다. 또한, 자연어에서 코드 생성(generate), 코드에서 문서 생성(doc), 테스트 케이스 생성(test), 버그 수정(fix), 작업 공간 이해 및 쿼리 해결(workspace) 등 다양한 개발자 작업을 포함하는 시나리오에 대해 정적 및 실행 기반 성공 지표를 설계하고 계산합니다. 이러한 성공 지표는 주어진 IDE와 해당 매개변수 공간 내에서 LLM의 성능을 평가하기 위해 설계되었습니다. 우리는 이러한 지표를 사용하여 세 가지 일반적인 LLM을 평가한 결과를 통해 향후 LLM 기반 IDE 시나리오의 개발과 검증에 유용한 통찰을 제공할 수 있습니다.
저자원 언어에서의 데이터 부족 문제는 고자원 언어의 레이블된 작업 데이터를 이중 언어 사전을 사용해 단어 대 단어로 번역함으로써 해결할 수 있습니다. 그러나 이중 언어 사전은 종종 작업 데이터와 제한된 어휘 중복을 보여, 이는 번역 범위와 사전 활용도가 낮은 결과를 초래합니다. 우리는 저자원 언어 분류 작업 데이터를 대규모로 생성하는 방법인 사전 조건부 데이터 생성(LexC-Gen)을 제안합니다. 구체적으로, LexC-Gen은 먼저 이중 언어 사전의 고자원 언어 단어를 사용해 사전과 호환 가능한 작업 데이터를 생성한 후, 이를 단어 번역을 통해 저자원 언어로 번역합니다. 17개의 극도로 저자원 언어에서 LexC-Gen으로 생성된 데이터는 전문가가 번역한 골드 데이터와 경쟁력을 보였으며, 감정 분석 및 주제 분류 작업에서 기존의 사전 기반 단어 번역 방법보다 각각 평균 5.6점과 8.9점의 개선을 달성했습니다. 우리는 이중 언어 사전에 조건을 부여하는 것이 LexC-Gen의 핵심 요소임을 보여줍니다. LexC-Gen은 실용적이기도 한데, 대규모 데이터 생성을 위해 단일 GPU만 필요하며, 오픈 액세스 대형 언어 모델(LLM)과 잘 작동하고, GPT4 기반 다국어 데이터 생성 비용의 5분의 1 수준입니다.
본 연구에서는 손-물체 상호작용(HOI)의 잡음 제거라는 어려운 문제를 다룹니다. 오류가 있는 상호작용 시퀀스가 주어졌을 때, 목표는 잘못된 손 궤적을 개선하여 상호작용 아티팩트를 제거하고 지각적으로 현실적인 시퀀스를 만드는 것입니다. 이 문제는 부자연스러운 손 자세와 잘못된 손-물체 관계를 포함한 복잡한 상호작용 잡음과 새로운 상호작용 및 다양한 잡음 패턴에 대한 강력한 일반화 능력을 필요로 합니다. 우리는 이러한 문제를 해결하기 위해 두 가지 핵심 설계를 포함한 새로운 접근 방식인 GeneOH Diffusion을 제안합니다: GeneOH라는 혁신적인 접촉 중심 HOI 표현과 새로운 도메인 일반화 가능한 잡음 제거 기법입니다. 접촉 중심 표현인 GeneOH는 HOI 과정을 정보적으로 매개변수화하여 다양한 HOI 시나리오에서 향상된 일반화를 가능하게 합니다. 새로운 잡음 제거 기법은 백색화된 잡음 공간에서의 잡음 데이터 샘플을 깨끗한 데이터 매니폴드로 투영하도록 훈련된 표준 잡음 제거 모델과, 다양한 잡음 패턴을 가진 입력 궤적을 먼저 백색화된 잡음 공간에 맞게 확산시킨 후 표준 잡음 제거기를 통해 정제하는 "확산을 통한 잡음 제거" 전략으로 구성됩니다. 상당한 도메인 변이를 가진 네 가지 벤치마크에서의 광범위한 실험을 통해 우리 방법의 우수한 효과를 입증했습니다. GeneOH Diffusion은 또한 다양한 다운스트림 애플리케이션에 대한 가능성을 보여줍니다. 프로젝트 웹사이트: https://meowuu7.github.io/GeneOH-Diffusion/.
대형 언어 모델(LLM)은 콘텐츠 조정을 위한 강력한 도구이지만, 추론 비용과 지연 시간으로 인해 Google Ads 저장소와 같은 대규모 데이터셋에 대한 일상적인 사용에는 적합하지 않습니다. 본 연구에서는 Google Ads의 콘텐츠 조정을 위해 LLM 검토를 확장하는 방법을 제안합니다. 먼저, 휴리스틱을 사용하여 필터링 및 중복 제거를 통해 후보를 선정하고, 클러스터 내에서 대표 광고를 하나씩 선택합니다. 그런 다음, LLM을 사용하여 대표 광고만 검토합니다. 마지막으로, 대표 광고에 대한 LLM의 결정을 해당 클러스터로 전파합니다. 이 방법은 검토 횟수를 3자릿수 이상 줄이면서도 비-LLM 기준 모델 대비 2배의 재현율을 달성합니다. 이 접근법의 성공은 클러스터링 및 레이블 전파에 사용된 표현에 크게 의존하며, 교차 모달 유사성 표현이 단일 모달 표현보다 더 나은 결과를 제공한다는 것을 발견했습니다.
대규모 텍스트-이미지 모델은 텍스트 프롬프트나 공간적 제어를 통해 다양한 이미지 편집 기법을 가능하게 합니다. 그러나 이러한 편집 방법을 단일 장면을 묘사한 다중 뷰 이미지에 적용하면 3D 일관성이 떨어지는 결과가 발생합니다. 본 연구에서는 공간 제어 기반의 기하학적 조작에 초점을 맞추고, 다양한 뷰에서 편집 프로세스를 통합하는 방법을 소개합니다. 우리는 두 가지 통찰을 바탕으로 접근합니다: (1) 생성 과정 전반에 걸쳐 일관된 특징을 유지하는 것이 다중 뷰 편집의 일관성을 달성하는 데 도움이 되며, (2) 자기 주의(self-attention) 레이어의 쿼리가 이미지 구조에 큰 영향을 미친다는 점입니다. 따라서 우리는 쿼리의 일관성을 강제함으로써 편집된 이미지의 기하학적 일관성을 개선하는 방법을 제안합니다. 이를 위해, 편집된 이미지의 내부 쿼리 특징을 기반으로 학습된 신경 방사 필드(Neural Radiance Field, QNeRF)를 도입합니다. QNeRF는 일단 학습되면 3D 일관성을 가진 쿼리를 렌더링할 수 있으며, 이 쿼리들은 생성 과정 중 자기 주의 레이어에 부드럽게 주입되어 다중 뷰 일관성을 크게 향상시킵니다. 우리는 확산 시간 단계(diffusion timesteps)에 걸쳐 쿼리를 더 잘 통합할 수 있는 점진적, 반복적 방법을 통해 이 프로세스를 개선합니다. 우리는 제안된 방법을 다양한 기존 기술과 비교하고, 더 나은 다중 뷰 일관성과 입력 장면에 대한 높은 충실도를 달성할 수 있음을 입증합니다. 이러한 장점 덕분에 시각적 결함이 적고 목표 기하학과 더 잘 정렬된 NeRF를 학습할 수 있습니다.
3D 가우시안 스플래팅(3DGS)의 등장은 최근 신경 렌더링 분야에 혁신을 가져왔으며, 실시간 속도로 고품질 렌더링을 가능하게 했습니다. 그러나 3DGS는 구조적 모션 추정(SfM) 기법으로 생성된 초기화된 포인트 클라우드에 크게 의존합니다. 텍스처가 없는 표면이 불가피하게 포함된 대규모 장면을 다룰 때, SfM 기법은 이러한 표면에서 충분한 포인트를 생성하지 못하고 3DGS에 대한 좋은 초기화를 제공할 수 없습니다. 결과적으로, 3DGS는 최적화가 어렵고 렌더링 품질이 낮아지는 문제를 겪습니다. 본 논문에서는 고전적인 다중 뷰 스테레오(MVS) 기법에서 영감을 받아, 3D 가우시안의 밀도화를 안내하는 점진적 전파 전략을 적용한 새로운 방법인 GaussianPro를 제안합니다. 3DGS에서 사용되는 단순한 분할 및 복제 전략과 비교하여, 우리의 방법은 장면의 기존 재구성된 기하학적 사전 정보와 패치 매칭 기법을 활용하여 정확한 위치와 방향을 가진 새로운 가우시안을 생성합니다. 대규모 및 소규모 장면에 대한 실험을 통해 우리 방법의 효과를 검증하였으며, Waymo 데이터셋에서 3DGS를 크게 능가하며 PSNR 측면에서 1.15dB의 향상을 보였습니다.
본 논문에서는 실제 세계의 작업을 위해 시뮬레이션된 인간 데모를 활용하는 새로운 로봇 모방 학습 접근법인 CyberDemo를 소개한다. 시뮬레이션 환경에서 광범위한 데이터 증강을 통합함으로써, CyberDemo는 실제 세계로 전이될 때 다양한 물리적 및 시각적 조건을 처리하며 기존의 실제 세계 데모를 능가한다. 데이터 수집의 경제성과 편의성에도 불구하고, CyberDemo는 다양한 작업에서 성공률 측면에서 기준 방법들을 능가하며, 이전에 보지 못한 물체에 대한 일반화 능력을 보여준다. 예를 들어, 인간 데모가 삼중 밸브만을 포함했음에도 불구하고, 새로운 사중 밸브와 오중 밸브를 회전시킬 수 있다. 본 연구는 실제 세계의 정교한 조작 작업을 위한 시뮬레이션된 인간 데모의 상당한 잠재력을 입증한다. 더 자세한 내용은 https://cyber-demo.github.io에서 확인할 수 있다.
유망한 3D 생성 기술로서, 멀티뷰 확산(Multiview Diffusion, MVD)은 일반화 능력, 품질, 효율성 측면에서의 장점으로 인해 많은 관심을 받고 있습니다. MVD 방법은 사전 학습된 대형 이미지 확산 모델을 3D 데이터로 미세 조정하여, 이미지 또는 텍스트 프롬프트를 기반으로 3D 객체의 여러 뷰를 먼저 생성한 다음, 멀티뷰 3D 재구성을 통해 3D 형태를 복원합니다. 그러나 생성된 이미지의 희소한 뷰와 일관성 없는 디테일로 인해 3D 재구성이 어려운 문제가 있습니다. 본 논문에서는 멀티뷰 확산(MVD) 이미지를 위한 효율적인 3D 재구성 방법인 MVD^2를 제안합니다. MVD^2는 투영과 컨볼루션을 통해 이미지 특징을 3D 특징 볼륨으로 집계한 다음, 볼륨 특징을 3D 메쉬로 디코딩합니다. 우리는 3D 형태 컬렉션과 3D 형태의 렌더링 뷰를 프롬프트로 한 MVD 이미지를 사용하여 MVD^2를 학습시킵니다. 생성된 멀티뷰 이미지와 3D 형태의 실제 뷰 간의 차이를 해결하기 위해, 간단하면서도 효율적인 뷰 종속 학습 방식을 설계했습니다. MVD^2는 MVD의 3D 생성 품질을 향상시키며, 다양한 MVD 방법에 대해 빠르고 강력합니다. 학습 후에는 1초 이내에 멀티뷰 이미지에서 3D 메쉬를 효율적으로 디코딩할 수 있습니다. 우리는 Zero-123++와 ObjectVerse-LVIS 3D 데이터셋을 사용하여 MVD^2를 학습시키고, 합성 및 실제 이미지를 프롬프트로 사용하여 다양한 MVD 방법으로 생성된 멀티뷰 이미지에서 3D 모델을 생성하는 데 있어 우수한 성능을 입증했습니다.
최근 연구에 따르면, 특히 선형 어텐션 모델과 같은 트랜스포머는 순방향 추론 단계에서 컨텍스트 내 제공된 데이터에 대해 경사 하강법과 유사한 알고리즘을 암묵적으로 실행하는 것으로 나타났습니다. 그러나 이들이 더 복잡한 문제를 처리하는 능력은 아직 탐구되지 않았습니다. 본 논문에서는 모든 선형 트랜스포머가 암묵적인 선형 모델을 유지하며, 사전 조건화된 경사 하강법의 변형을 수행하는 것으로 해석될 수 있음을 증명합니다. 또한, 우리는 훈련 데이터가 다양한 수준의 노이즈로 오염된 어려운 시나리오에서 선형 트랜스포머의 사용을 조사합니다. 특히, 이 문제에 대해 선형 트랜스포머가 복잡하고 매우 효과적인 최적화 알고리즘을 발견하며, 여러 합리적인 베이스라인을 능가하거나 그에 맞먹는 성능을 보인다는 점을 입증합니다. 우리는 이 알고리즘을 역공학하여, 노이즈 수준에 기반한 모멘텀과 적응형 리스케일링을 통합한 새로운 접근 방식임을 보여줍니다. 우리의 연구 결과는 심지어 선형 트랜스포머도 정교한 최적화 전략을 발견할 수 있는 놀라운 능력을 가지고 있음을 보여줍니다.
모방 학습은 수작업으로 설계된 보상 함수 없이도 시연 데이터로부터 정책을 학습합니다. 자율 주행 경주와 같은 많은 로봇 작업에서, 모방된 정책은 복잡한 환경 역학과 인간의 의사결정 과정을 모델링해야 합니다. 시퀀스 모델링은 복잡한 동작 시퀀스의 패턴을 효과적으로 포착하지만, 실제 로봇 작업에서 흔히 발생하는 새로운 환경이나 분포 변화에 적응하는 데 어려움을 겪습니다. 반면, 적대적 모방 학습(AIL)은 이러한 문제를 완화할 수 있지만, 샘플 효율성이 떨어지고 복잡한 동작 패턴을 처리하는 데 어려움을 겪습니다. 따라서 우리는 인간 시연 데이터로부터 학습된 Behavior Transformer(BeT) 정책과 온라인 AIL을 결합한 BeTAIL: Behavior Transformer Adversarial Imitation Learning을 제안합니다. BeTAIL은 BeT 정책에 AIL 잔여 정책을 추가하여 인간 전문가의 순차적 의사결정 과정을 모델링하고, 분포 외 상태나 환경 역학의 변화를 보정합니다. 우리는 BeTAIL을 Gran Turismo Sport에서 실제 인간 플레이어의 전문가 수준 시연 데이터를 사용한 세 가지 도전 과제에서 테스트했습니다. 우리가 제안한 잔여 BeTAIL은 환경 상호작용을 줄이고, BeT가 다운스트림 학습과 다른 트랙에서 사전 학습된 경우에도 경주 성능과 안정성을 향상시켰습니다. 비디오와 코드는 https://sites.google.com/berkeley.edu/BeTAIL/home에서 확인할 수 있습니다.