번역이 포함된 일일 선별된 AI 연구 논문
한 사람과 다른 사람이 입은 의상을 각각 묘사한 두 장의 이미지가 주어졌을 때, 우리의 목표는 입력된 사람에게 그 의상이 어떻게 보일지에 대한 시각화를 생성하는 것입니다. 주요 과제는 의상의 세부 사항을 사실적으로 보존하면서, 대상 간의 상당한 신체 자세와 형태 변화를 수용하기 위해 의상을 변형시키는 것입니다. 기존의 방법들은 효과적인 자세와 형태 변화 없이 의상 세부 사항 보존에 초점을 맞추거나, 원하는 형태와 자세로 입어보기를 허용하지만 의상 세부 사항이 부족했습니다. 본 논문에서는 두 개의 UNet(Parallel-UNet이라 칭함)을 통합한 확산 기반 아키텍처를 제안하여, 단일 네트워크 내에서 의상 세부 사항을 보존하고 상당한 자세 및 신체 변화를 위한 의상 변형을 가능하게 합니다. Parallel-UNet의 핵심 아이디어는 다음과 같습니다: 1) 교차 주의 메커니즘을 통해 의상이 암묵적으로 변형되고, 2) 의상 변형과 사람 혼합이 두 개의 별도 작업 시퀀스가 아닌 통합된 프로세스의 일부로 이루어집니다. 실험 결과는 TryOnDiffusion이 질적 및 양적으로 최첨단 성능을 달성함을 보여줍니다.
인간 눈의 반사 특성은 우리 주변 세계가 어떻게 보이는지에 대한 정보의 소스로서 과소평가되어 왔습니다. 움직이는 사람의 눈을 이미지화함으로써, 우리는 카메라의 직접적인 시야 밖에 있는 장면의 여러 관점을 눈의 반사를 통해 수집할 수 있습니다. 본 논문에서는 눈 반사가 포함된 초상 이미지를 사용하여 카메라의 시야 밖에 있는 3D 장면을 재구성합니다. 이 작업은 1) 눈의 자세를 정확하게 추정하는 것의 어려움과 2) 눈 홍채와 장면 반사의 복잡한 외관 때문에 도전적입니다. 우리의 방법은 각막 자세, 장면을 묘사하는 광도장(radiance field), 그리고 관찰자의 눈 홍채 질감을 함께 정제합니다. 또한, 재구성 품질을 향상시키기 위해 홍채 질감 패턴에 대한 간단한 정규화 사전(regularization prior)을 제안합니다. 다양한 눈 색깔을 가진 사람들을 포함한 합성 및 실제 촬영 데이터에 대한 다양한 실험을 통해, 우리는 눈 반사를 사용하여 3D 장면을 복구하는 우리의 접근법의 실현 가능성을 입증합니다.
StarCoder와 같은 코드 대형 언어 모델(Code LLMs)은 코드 관련 작업에서 탁월한 성능을 보여주고 있습니다. 그러나 대부분의 기존 모델들은 방대한 원시 코드 데이터만으로 사전 학습되었으며, 명령어 미세 조정은 이루어지지 않았습니다. 본 논문에서는 코드 영역에 Evol-Instruct 방법을 적용하여 복잡한 명령어 미세 조정을 통해 Code LLMs의 성능을 강화한 WizardCoder를 소개합니다. HumanEval, HumanEval+, MBPP, DS-1000 등 네 가지 주요 코드 생성 벤치마크에 대한 포괄적인 실험을 통해 우리 모델의 뛰어난 능력을 입증했습니다. 이 모델은 모든 오픈소스 Code LLMs을 상당한 차이로 능가하며, HumanEval과 HumanEval+에서는 Anthropic의 Claude와 Google의 Bard와 같은 가장 큰 폐쇄형 LLMs보다도 더 나은 성능을 보였습니다. 우리의 코드, 모델 가중치, 데이터는 https://github.com/nlpxucan/WizardLM에서 공개되어 있습니다.
대규모 언어 모델(LLMs)에 대한 최근 연구는 일반적인 NLP AI 어시스턴트 분야에서 놀라운 발전을 이끌어냈습니다. 일부 연구는 더 나아가 LLMs를 활용하여 다양한 모달리티의 사용자 질의를 해결하기 위해 모델이나 API를 계획하고 호출하는 방법을 탐구했습니다. 그러나 이러한 진전에도 불구하고, 복잡한 시각 기반 작업은 여전히 도전적인 과제로 남아 있습니다. 이는 시각 작업의 다양성에서 비롯되며, 이 다양성은 두 가지 측면에서 나타납니다: 1) 추론 경로. 많은 실제 응용 사례에서, 질의 자체만을 검토하여 정확하게 분해하는 것은 어렵습니다. 특정 시각적 콘텐츠와 각 단계의 결과를 기반으로 한 계획이 일반적으로 필요합니다. 2) 유연한 입력 및 중간 결과. 실제 상황에서 입력 형태는 유연할 수 있으며, 단일 이미지나 비디오뿐만 아니라 비디오와 이미지의 혼합, 예를 들어 사용자 시점 이미지와 참조 비디오 등이 포함될 수 있습니다. 또한, 복잡한 추론 과정은 비디오 내레이션, 분할된 비디오 클립 등과 같은 다양한 다중 모달 중간 결과를 생성합니다. 이러한 일반적인 사례를 해결하기 위해, 우리는 LLMs와 다양한 도구를 통합하기 위해 Plan, Execute, Inspect, and Learn(PEIL)이라는 교차 코드 및 언어 추론 방식을 사용하는 다중 모달 AI 어시스턴트인 AssistGPT를 제안합니다. 구체적으로, Planner는 현재 추론 진행 상황을 기반으로 Executor의 어떤 도구가 다음 작업을 수행해야 하는지를 자연어로 계획할 수 있습니다. Inspector는 Planner가 특정 도구에 적절한 시각 정보를 제공할 수 있도록 돕는 효율적인 메모리 관리자입니다. 마지막으로, 전체 추론 과정이 복잡하고 유연하기 때문에, Learner는 모델이 자율적으로 최적의 해결책을 탐색하고 발견할 수 있도록 설계되었습니다. 우리는 A-OKVQA와 NExT-QA 벤치마크에서 실험을 수행하여 최첨단 결과를 달성했습니다. 또한, 벤치마크에서 발견되는 것보다 훨씬 더 복잡한 질문을 처리할 수 있는 우리 시스템의 능력을 보여주는 사례를 제시했습니다.
지식 증류(Knowledge Distillation, KD)는 대규모 언어 모델(LLMs)의 높은 계산 요구량을 줄이기 위한 유망한 기술입니다. 그러나 기존의 KD 방법들은 주로 화이트박스 분류 모델에 적용되거나 ChatGPT와 같은 블랙박스 모델 API를 모방하도록 소형 모델을 훈련시키는 데 사용되었습니다. 화이트박스 생성형 LLMs로부터 효과적으로 지식을 증류하는 방법은 아직 충분히 탐구되지 않았으며, LLMs의 발전과 함께 그 중요성이 점점 더 커지고 있습니다. 본 연구에서는 생성형 대형 언어 모델로부터 더 작은 언어 모델을 증류하는 MiniLLM을 제안합니다. 먼저, 표준 KD 접근법에서 사용되는 순방향 쿨백-라이블러 발산(Kullback-Leibler Divergence, KLD) 목표를 역방향 KLD로 대체하여, 학생 모델이 교사 분포의 낮은 확률 영역을 과대평가하는 것을 방지합니다. 이는 생성형 언어 모델에 더 적합합니다. 그런 다음, 이 목표를 학습하기 위한 효과적인 최적화 접근법을 도출합니다. 지시 따르기 설정에서의 광범위한 실험 결과, MiniLLM 모델은 더 정확한 응답을 생성하며 전반적인 품질이 높고, 노출 편향이 낮으며, 보정이 더 잘 되고, 긴 텍스트 생성 성능이 더 뛰어납니다. 또한, 우리의 방법은 120M에서 13B 파라미터까지 다양한 모델 패밀리에 대해 확장 가능합니다. 코드와 모델 체크포인트는 https://aka.ms/MiniLLM에서 공개할 예정입니다.
대규모 언어 모델(LLM)의 전례 없는 성능은 평가 방법의 개선을 요구합니다. 단순히 LLM의 능력 범위를 탐색하는 것보다, 우리는 철저하고 편향 없으며 적용 가능한 평가를 위해 세심하고 신중한 설계가 필수적이라고 믿습니다. LLM에 있어 세계 지식의 중요성을 고려하여, 우리는 지식 중심의 LLM 평가 벤치마크(KoLA)를 구축했습니다. 여기서 우리는 세 가지 핵심 요소를 신중하게 설계했습니다: (1) 능력 모델링을 위해, 인간의 인지를 모방하여 지식 관련 능력을 4단계로 분류하고 19개의 작업을 포함시켰습니다. (2) 데이터 측면에서는, 공정한 비교를 위해 LLM이 일반적으로 사전 학습한 위키피디아와 지속적으로 수집되는 신규 코퍼스를 모두 사용하여, 보지 못한 데이터와 진화하는 지식을 처리하는 능력을 평가하고자 했습니다. (3) 평가 기준으로는, 작업과 모델 간의 수치적 비교를 용이하게 하기 위한 전체 표준 점수와, 지식 환각을 자동으로 평가하기 위한 독자적인 자기 대조 지표를 포함한 대조 시스템을 채택했습니다. 우리는 21개의 오픈소스 및 상용 LLM을 평가하고 흥미로운 결과를 얻었습니다. KoLA 데이터셋과 참여형 리더보드는 https://kola.xlore.cn에서 공개되었으며, LLM 및 지식 관련 시스템 개발을 위한 참고 자료를 제공하기 위해 지속적으로 업데이트될 예정입니다.
GPT-4와 같은 기초 대형 언어 모델(LLMs)은 자연어 처리를 통한 실생활 응용으로 인해 AI 분야에서 혁명을 일으켰습니다. 그러나 이러한 모델들은 편향적이거나 사적인, 유해한 텍스트의 존재, 그리고 저작권이 있는 자료의 무단 포함과 같은 상당한 위험 요소도 내포하고 있습니다. 우리는 생성형 사전 훈련 변환기(GPTs)를 기반으로 한 대형 언어 모델(LLMs)의 생성 및 사용을 위한 오픈소스 코드 저장소 모음인 h2oGPT를 소개합니다. 이 프로젝트의 목표는 폐쇄형 GPTs에 대한 세계 최고의 진정한 오픈소스 대안을 만드는 것입니다. 놀랍고도 멈출 수 없는 오픈소스 커뮤니티와의 협력 속에서, 우리는 상업적 사용이 가능한 완전히 허가된 Apache 2.0 라이선스 하에 70억에서 400억 파라미터에 이르는 여러 세부 조정된 h2oGPT 모델을 오픈소스로 공개합니다. 우리의 릴리스에는 자연어를 사용한 100% 사적인 문서 검색 기능도 포함되어 있습니다. 오픈소스 언어 모델은 AI 개발을 촉진하고 이를 더 접근 가능하며 신뢰할 수 있게 만드는 데 도움을 줍니다. 이들은 진입 장벽을 낮춰 개인과 단체가 이러한 모델을 자신들의 필요에 맞게 조정할 수 있게 합니다. 이러한 개방성은 혁신, 투명성, 그리고 공정성을 증가시킵니다. AI의 혜택을 공정하게 공유하기 위해서는 오픈소스 전략이 필요하며, H2O.ai는 AI와 LLMs의 민주화를 계속해서 추진할 것입니다.
우리는 텍스트 설명만으로부터 사실적인 애니메이션 가능한 3D 인간 아바타 모델을 생성하는 방법인 DreamHuman을 소개합니다. 최근의 텍스트-투-3D 방법들은 생성 측면에서 상당한 진전을 이루었지만, 여전히 중요한 측면에서 부족함이 있습니다. 제어와 공간 해상도는 여전히 제한적이며, 기존 방법들은 고정된 3D 인간 모델을 생성할 뿐 애니메이션 가능한 모델을 생성하지 못합니다. 또한, 사람과 같은 복잡한 구조에 대한 인체 측정학적 일관성은 여전히 과제로 남아 있습니다. DreamHuman은 대규모 텍스트-투-이미지 합성 모델, 신경 방사 필드(NeRF), 그리고 통계적 인체 모델을 새로운 모델링 및 최적화 프레임워크로 연결합니다. 이를 통해 고품질 텍스처와 인스턴스별로 학습된 표면 변형을 갖춘 동적 3D 인간 아바타를 생성할 수 있습니다. 우리의 방법이 텍스트로부터 다양한 애니메이션 가능한 사실적인 3D 인간 모델을 생성할 수 있음을 보여줍니다. 우리의 3D 모델은 다양한 외모, 의상, 피부톤 및 체형을 가지며, 일반적인 텍스트-투-3D 접근법과 이전의 텍스트 기반 3D 아바타 생성기를 시각적 충실도 측면에서 크게 능가합니다. 더 많은 결과와 애니메이션을 보려면 https://dream-human.github.io 웹사이트를 방문해 주세요.
명령어 튜닝된 대형 언어 모델(LLMs)이 다양한 NLP 작업에서 놀라운 능력을 보여주었지만, 텍스트를 넘어선 다른 데이터 양식에 대한 효과는 아직 충분히 연구되지 않았습니다. 본 연구에서는 시각, 청각, 텍스트 정보를 원활하게 통합한 새로운 다중 모달 LLM인 Macaw-LLM을 제안합니다. Macaw-LLM은 다중 모달 데이터를 인코딩하는 모달리티 모듈, 사전 학습된 LLM을 활용하는 인지 모듈, 다양한 표현을 조화시키는 정렬 모듈로 구성됩니다. 우리의 새로운 정렬 모듈은 다중 모달 특징을 텍스트 특징과 원활하게 연결하여 모달리티 모듈에서 인지 모듈로의 적응 과정을 단순화합니다. 또한, 69K개의 이미지 인스턴스와 50K개의 비디오 인스턴스를 포함한 대규모 다중 모달 명령어 데이터셋을 다중 턴 대화 형식으로 구축했습니다. 우리는 데이터, 코드 및 모델을 공개하여, 다중 모달 LLM의 미래 연구를 위한 길을 열고 LLM이 다양한 데이터 양식을 처리하고 복잡한 실제 시나리오를 해결할 수 있는 능력을 확장할 수 있기를 바랍니다.
대규모 언어 모델(LLM)은 문맥 학습을 통해 논리적 추론부터 코드 작성에 이르기까지 다양한 새로운 능력을 획득하는 데 있어 흥미로운 진전을 보여주었습니다. 로봇공학 연구자들 또한 로봇 제어 능력을 발전시키기 위해 LLM을 활용하는 방법을 탐구해 왔습니다. 그러나 저수준 로봇 동작은 하드웨어에 의존적이며 LLM 학습 코퍼스에서 충분히 다루어지지 않았기 때문에, LLM을 로봇공학에 적용하려는 기존의 노력은 대부분 LLM을 의미론적 계획자로 취급하거나 인간이 설계한 제어 기본 요소에 의존하여 로봇과 인터페이스하는 방식에 머물러 있었습니다. 반면, 보상 함수는 다양한 작업을 달성하기 위해 제어 정책을 최적화할 수 있는 유연한 표현으로 입증되었으며, 그 의미론적 풍부함으로 인해 LLM에 의해 지정되기에 적합합니다. 본 연구에서는 이러한 통찰을 활용하여 LLM을 통해 다양한 로봇 작업을 최적화하고 달성할 수 있는 보상 매개변수를 정의하는 새로운 패러다임을 소개합니다. LLM에 의해 생성된 중간 인터페이스로서 보상을 사용함으로써, 우리는 고수준 언어 지시 또는 수정 사항과 저수준 로봇 동작 사이의 간극을 효과적으로 메울 수 있습니다. 동시에, 이를 실시간 최적화 도구인 MuJoCo MPC와 결합함으로써 사용자가 즉각적인 결과를 관찰하고 시스템에 피드백을 제공할 수 있는 상호작용형 행동 생성 경험을 가능하게 합니다. 제안된 방법의 성능을 체계적으로 평가하기 위해, 우리는 시뮬레이션된 사족 보행 로봇과 민첩한 조작 로봇을 위한 총 17개의 작업을 설계했습니다. 우리는 제안된 방법이 설계된 작업의 90%를 안정적으로 해결하는 반면, Code-as-policies를 사용한 기본 인터페이스 방식은 작업의 50%를 달성함을 보여줍니다. 또한, 우리는 실제 로봇 팔에서 복잡한 조작 기술(예: 비파지형 밀기)이 우리의 상호작용 시스템을 통해 나타남을 추가로 검증했습니다.
실제 세계의 객체 다양성은 거의 무한하며, 따라서 고정된 범주 집합으로 훈련된 모델로는 이를 포착하는 것이 불가능합니다. 그 결과, 최근 몇 년 동안 오픈-보캐뷸러리(open-vocabulary) 방법들이 커뮤니티의 관심을 끌고 있습니다. 본 논문은 제로샷(zero-shot) 오픈-보캐뷸러리 세그멘테이션을 위한 새로운 방법을 제안합니다. 기존 연구는 주로 이미지-텍스트 쌍을 사용한 대조 학습(contrastive training)에 의존하며, 언어와 정렬되고 잘 지역화된 이미지 특징을 학습하기 위해 그룹핑 메커니즘을 활용합니다. 그러나 이는 유사한 캡션을 가진 이미지들의 시각적 외관이 종종 다르기 때문에 모호성을 초래할 수 있습니다. 대신, 우리는 대규모 텍스트-이미지 확산 모델(text-to-image diffusion models)의 생성적 특성을 활용하여 주어진 텍스트 범주에 대한 지원 이미지 집합을 샘플링합니다. 이는 주어진 텍스트에 대한 외관 분포를 제공하여 모호성 문제를 우회합니다. 또한, 우리는 샘플링된 이미지의 배경 맥락을 고려하여 객체를 더 잘 지역화하고 배경을 직접 세그멘테이션하는 메커니즘을 제안합니다. 우리의 방법은 여러 기존의 사전 훈련된 자기 지도(self-supervised) 특징 추출기를 자연어로 기반을 두고, 지원 집합의 영역으로 매핑하여 설명 가능한 예측을 제공할 수 있음을 보여줍니다. 우리의 제안은 훈련이 필요 없으며, 사전 훈련된 구성 요소만을 사용하지만, 다양한 오픈-보캐뷸러리 세그멘테이션 벤치마크에서 강력한 성능을 보이며, Pascal VOC 벤치마크에서 10% 이상의 선두를 기록합니다.
의사결정 과제를 해결할 때, 인간은 일반적으로 두 가지 주요 정보원에 의존합니다: (1) 환경으로부터의 상호작용 재현을 제공하는 역사적 정책 데이터, 그리고 (2) 귀중한 사고 과정이나 전략적 고려사항을 드러내는 자연어 형태의 분석적 통찰입니다. 그럼에도 불구하고, 대부분의 선행 연구는 단일 정보원에만 초점을 맞추고 있습니다: 역사적 재현을 독점적으로 사용하여 정책이나 가치 함수를 직접 학습하거나, 단순히 언어 코퍼스를 활용하여 언어 모델 훈련에만 집중합니다. 본 논문에서는 강력한 자율 에이전트가 이 두 정보원을 모두 포괄해야 한다고 주장합니다. 따라서 우리는 체스 게임에서 이 두 정보원의 데이터를 통합함으로써 정책 학습과 언어 모델링을 연결하는 GPT 모델인 ChessGPT를 제안합니다. 구체적으로, 우리는 체스와 관련된 대규모 게임 및 언어 데이터셋을 구축했습니다. 이 데이터셋을 활용하여 정책 학습과 언어 모델링을 통합한 두 가지 모델 예시인 ChessCLIP과 ChessGPT를 선보입니다. 마지막으로, 언어 모델의 체스 능력을 평가하기 위한 포괄적인 평가 프레임워크를 제안합니다. 실험 결과는 우리의 모델과 데이터셋의 효과성을 입증합니다. 우리는 코드, 모델, 그리고 데이터셋을 https://github.com/waterhorse1/ChessGPT에서 오픈소스로 공개합니다.
우리는 MIT 수학 및 전기공학과 컴퓨터과학(EECS) 학위 취득에 필요한 모든 강좌의 문제 세트, 중간고사, 기말고사에서 4,550개의 질문과 해답으로 구성된 포괄적인 데이터셋을 정리했습니다. 우리는 대형 언어 모델이 MIT 수학 및 EECS 전공의 졸업 요건을 충족할 수 있는 능력을 평가합니다. 우리의 결과는 GPT-3.5가 전체 MIT 커리큘럼의 3분의 1을 성공적으로 해결하는 반면, 프롬프트 엔지니어링을 적용한 GPT-4는 이미지 기반 질문을 제외한 테스트 세트에서 완벽한 해결률을 달성함을 보여줍니다. 우리는 이 데이터셋을 사용하여 오픈소스 대형 언어 모델을 미세 조정했습니다. 또한 GPT-4를 활용해 모델 응답을 자동으로 채점하고, 강좌, 질문, 답변 유형별로 상세한 성능 분석을 제공합니다. 질문을 저차원 공간에 임베딩함으로써, 우리는 질문, 주제, 강좌 간의 관계를 탐구하고 소수 샷 학습을 통해 다른 질문과 강좌를 해결하는 데 필요한 질문과 강좌를 발견합니다. 우리의 분석은 강좌 선수과목 및 커리큘럼 설계에 대한 유용한 통찰을 제공하며, 언어 모델이 수학 및 EECS 교육을 학습하고 개선하는 데 있어 잠재력을 강조합니다.
우리는 '예측(anticipation)'이라는 방법을 소개한다: 이는 두 번째 상관된 프로세스(제어 프로세스)의 실현에 비동기적으로 조건부로 설정된 시간적 포인트 프로세스(이벤트 프로세스)의 제어 가능한 생성 모델을 구축하는 방법이다. 이를 위해 이벤트와 제어의 시퀀스를 교차 배치하여, 이벤트 시퀀스에서 정지 시간(stopping time) 이후에 제어가 나타나도록 한다. 이 연구는 기호 음악 생성 제어에서 발생하는 문제들에 의해 동기가 부여되었다. 우리는 '채우기(infilling)' 제어 작업에 초점을 맞추는데, 여기서 제어는 이벤트 자체의 부분집합이며, 조건부 생성은 고정된 제어 이벤트가 주어진 상태에서 이벤트 시퀀스를 완성한다. 우리는 대규모이고 다양한 Lakh MIDI 음악 데이터셋을 사용하여 예측적 채우기 모델을 학습시킨다. 이러한 모델들은 프롬프트 기반 음악 생성에서 자기회귀(autoregressive) 모델의 성능을 따라잡을 뿐만 아니라, 반주를 포함한 채우기 제어 작업을 수행할 수 있는 추가적인 능력을 갖추고 있다. 인간 평가자들은 예측 모델이 20초 클립 동안 인간이 작곡한 음악과 유사한 음악성을 가진 반주를 생성한다고 보고했다.
우리는 사용자가 자유 형식의 자연어로 음악 선택을 안내할 수 있도록 하면서 입력 비디오에 적합한 음악을 추천하는 방법을 제안합니다. 이 문제 설정의 주요 과제는 기존의 음악 비디오 데이터셋이 필요한 (비디오, 음악) 학습 쌍을 제공하지만, 음악에 대한 텍스트 설명이 부족하다는 점입니다. 본 연구는 다음과 같은 세 가지 기여로 이 문제를 해결합니다. 첫째, 우리는 대규모 언어 모델(BLOOM-176B)을 사용하여 사전 훈련된 음악 태거 출력과 소량의 인간 작성 텍스트 설명을 기반으로 자연어 음악 설명을 생성하는 유추 기반 프롬프팅 절차를 통한 텍스트 합성 접근법을 제안합니다. 둘째, 이러한 합성된 음악 설명을 사용하여 텍스트와 비디오 입력 표현을 융합하여 음악 샘플을 쿼리하는 새로운 트리모달 모델을 훈련합니다. 훈련 과정에서 우리는 모델 성능에 중요한 텍스트 드롭아웃 정규화 메커니즘을 도입합니다. 우리의 모델 설계는 검색된 음악 오디오가 비디오에 묘사된 시각적 스타일과 자연어 쿼리에서 설명된 음악 장르, 분위기 또는 악기 구성과 일치하도록 합니다. 셋째, 우리의 접근 방식을 평가하기 위해 YT8M-MusicVideo 데이터셋의 4,000개 클립 하위 집합에 자연어 음악 설명을 주석 처리하여 테스트 데이터셋을 수집하고 이를 공개합니다. 우리의 접근 방식이 비디오-음악 검색에서 기존 방법의 성능을 따라가거나 능가하면서 텍스트 안내를 사용할 때 검색 정확도를 크게 향상시킬 수 있음을 보여줍니다.
우리는 민첩한 로봇 공학의 벤치마크 과제인 고속으로 던져진 물체 잡기에 대해 다룹니다. 이는 물체의 시각적 관측과 로봇의 자체 감각 상태만을 이용하여, 불과 몇 분의 1초 안에 물체를 추적, 가로채고 받아내는 도전적인 과제입니다. 우리는 두 가지 근본적으로 다른 해결 전략의 상대적 장점을 제시합니다: (i) 가속화된 제약 조건 하의 궤적 최적화를 사용한 모델 예측 제어, 그리고 (ii) 영차 최적화를 사용한 강화 학습. 우리는 샘플 효율성, 시뮬레이션-실제 전이, 분포 변화에 대한 견고성, 그리고 전체 몸체 다중 모드성과 같은 다양한 성능 상충 관계에 대한 통찰을 하드웨어 실험을 통해 제공합니다. 마지막으로, 민첩한 로봇 제어를 위해 "고전적" 기법과 "학습 기반" 기법을 융합하는 방안을 제안합니다. 우리의 실험 영상은 https://sites.google.com/view/agile-catching에서 확인할 수 있습니다.
사전 학습된 다중 모달 비전-언어 모델(VLMs)은 특히 소수 샷 및 제로 샷 설정에서 다운스트림 비전 애플리케이션에서의 뛰어난 성능으로 인해 점점 더 인기를 얻고 있습니다. 그러나 일부 다운스트림 애플리케이션에 대해 최고 성능을 보이는 VLM을 선택하는 것은 데이터셋과 작업에 따라 달라지기 때문에 간단하지 않습니다. 한편, 새로운 애플리케이션에서 사용 가능한 모든 VLM을 철저히 평가하는 것은 시간과 계산 자원이 많이 소모될 뿐만 아니라 평가를 위한 레이블이 지정된 데이터셋을 수집해야 한다는 문제가 있습니다. 오픈소스 VLM 변형의 수가 증가함에 따라, 정제된 평가 데이터셋에 대한 접근 없이도 효율적으로 모델을 선택할 수 있는 전략이 필요합니다. 본 논문은 다운스트림 작업 데이터셋에 접근하지 않고도 VLMs의 제로 샷 성능을 효율적으로 평가하기 위한 새로운 작업과 벤치마크를 제안합니다. 구체적으로, 우리는 LOVM(Language-Only Vision Model Selection)이라는 새로운 작업을 소개합니다. 이 작업에서는 원하는 다운스트림 애플리케이션에 대한 텍스트 설명만을 기반으로 모델 선택과 성능 예측을 수행해야 합니다. 그런 다음, 35개의 사전 학습된 VLMs와 23개의 데이터셋에 대한 실제 평가로 구성된 광범위한 LOVM 벤치마크를 도입했습니다. 이 벤치마크에서는 사전 학습된 VLMs를 순위 매기고 그들의 제로 샷 성능을 예측하는 방법이 요구됩니다.
최근 디퓨전 기반 생성 모델은 이미지 생성 및 편집 분야에서 놀라운 성과를 거두었습니다. 그러나 비디오 편집에 대한 활용은 여전히 중요한 한계에 직면해 있습니다. 본 논문은 강력한 시간적 및 공간적 일관성을 보장하는 제로샷 텍스트 기반 비디오 편집을 위한 새로운 방법인 VidEdit을 소개합니다. 첫째, 아틀라스 기반 모델과 사전 학습된 텍스트-이미지 디퓨전 모델을 결합하여 학습 없이도 효율적인 편집 방법을 제안하며, 이는 설계상 시간적 부드러움을 충족합니다. 둘째, 기성품 범용 분할기와 에지 검출기를 활용하고, 이를 조건부 디퓨전 기반 아틀라스 편집에 적응시킵니다. 이를 통해 원본 비디오의 구조를 엄격히 보존하면서도 대상 영역에 대한 정교한 공간적 제어가 가능합니다. 정량적 및 정성적 실험 결과, VidEdit은 DAVIS 데이터셋에서 의미론적 충실도, 이미지 보존, 시간적 일관성 지표 측면에서 최신 기술을 능가하는 것으로 나타났습니다. 이 프레임워크를 사용하면 단일 비디오 처리에 약 1분밖에 걸리지 않으며, 단일 텍스트 프롬프트를 기반으로 여러 호환 가능한 편집을 생성할 수 있습니다. 프로젝트 웹페이지는 https://videdit.github.io에서 확인할 수 있습니다.
최근 3D 장면 이해 분야의 발전으로 다양한 장면으로 구성된 대규모 데이터셋에서 표현을 확장 가능하게 학습할 수 있게 되었습니다. 그 결과, 보지 못한 장면과 객체에 대한 일반화, 단일 또는 소수의 입력 이미지로부터 새로운 시점 렌더링, 그리고 편집을 지원하는 제어 가능한 장면 생성이 이제 가능해졌습니다. 그러나 대규모 장면 데이터셋을 공동으로 학습하는 경우, 일반적으로 NeRF와 같은 단일 장면 최적화 모델에 비해 렌더링 품질이 저하되는 문제가 있습니다. 본 논문에서는 확산 모델(diffusion model)의 최근 발전을 활용하여 3D 장면 표현 학습 모델이 고품질의 새로운 시점 렌더링을 수행할 수 있도록 하면서도 객체 수준의 장면 편집과 같은 이점을 크게 유지할 수 있는 방법을 제안합니다. 특히, 우리는 객체 중심의 슬롯 기반 장면 표현을 조건으로 하는 3D 장면 생성을 위해 비디오 확산 아키텍처를 적용한 DORSal을 제안합니다. 복잡한 합성 다중 객체 장면과 대규모 실세계 Street View 데이터셋에서 DORSal이 객체 수준 편집이 가능한 확장 가능한 신경 렌더링을 지원하며 기존 접근법을 개선함을 보여줍니다.
우리는 비디오를 통해 새로운 조명 조건에서 장면의 사실적이고 자유로운 시점 렌더링을 가능하게 하는 모델을 구축하는 방법을 보여줍니다. 우리의 방법인 UrbanIR(Urban Scene Inverse Rendering)은 비디오로부터 역그래픽스 표현을 계산합니다. UrbanIR은 알려지지 않은 조명 조건의 무한한 야외 장면을 담은 단일 비디오로부터 형상, 알베도, 가시성, 태양 및 하늘 조명을 함께 추론합니다. UrbanIR은 차량에 장착된 카메라로 촬영된 비디오를 사용합니다(일반적인 NeRF 스타일 추정에서와 같은 동일 지점의 다중 뷰와 대조적). 결과적으로, 표준 방법은 지붕과 같은 형상 추정이 좋지 않고, 수많은 '플로터(floater)'가 발생합니다. 역그래픽스 추론의 오류는 강한 렌더링 아티팩트를 초래할 수 있습니다. UrbanIR은 이러한 오류와 다른 오류 원인을 제어하기 위해 새로운 손실 함수를 사용합니다. UrbanIR은 원본 장면의 그림자 볼륨을 매우 정확하게 추정하기 위해 새로운 손실 함수를 사용합니다. 결과적으로 얻은 표현은 제어 가능한 편집을 용이하게 하여, 재조명된 장면과 삽입된 객체의 사실적인 자유 시점 렌더링을 제공합니다. 정성적 평가는 최신 기술 대비 강력한 개선을 보여줍니다.
본 논문에서는 자율적인 정보 탐색 시각적 질문응답 프레임워크인 AVIS를 제안합니다. 우리의 방법은 대형 언어 모델(LLM)을 활용하여 외부 도구의 사용을 동적으로 전략화하고, 그 출력을 조사함으로써 제기된 질문에 답변하기 위해 필수적인 지식을 획득합니다. "이 이미지에 묘사된 건물이 기념하는 행사는 무엇인가?"와 같이 외부 지식이 필요한 시각적 질문에 응답하는 것은 복잡한 작업입니다. 이 작업은 API 호출, 그 응답 분석, 정보에 기반한 결정을 포함하는 일련의 행동을 요구하는 조합적 탐색 공간을 제시합니다. 우리는 사용자 연구를 통해 이 작업에 직면했을 때 인간의 의사결정 과정의 다양한 사례를 수집합니다. 이 데이터는 세 가지 구성 요소로 이루어진 시스템을 설계하는 데 사용됩니다: 다음에 사용할 도구를 동적으로 결정하는 LLM 기반 플래너, 도구 출력에서 주요 정보를 분석하고 추출하는 LLM 기반 리저너, 그리고 과정 전반에 걸쳐 획득한 정보를 유지하는 작업 메모리 구성 요소입니다. 수집된 사용자 행동은 우리 시스템을 두 가지 주요 방식으로 안내합니다. 첫째, 사용자의 의사결정 순서를 분석하여 전이 그래프를 생성합니다. 이 그래프는 구별된 상태를 명시하고 각 상태에서 가능한 행동 집합을 제한합니다. 둘째, 사용자 의사결정 사례를 활용하여 LLM 기반 플래너와 리저너에 관련된 문맥적 사례를 제공함으로써 정보에 기반한 결정을 내리는 능력을 강화합니다. 우리는 AVIS가 Infoseek 및 OK-VQA와 같은 지식 집약적 시각적 질문응답 벤치마크에서 최첨단 결과를 달성함을 보여줍니다.
최근 신경망 기반 3D 재구성 기술의 발전으로, 일상적으로 촬영된 이미지 컬렉션에서도 고품질의 3D 객체 재구성이 가능해졌다. 현재의 기술들은 주로 Structure-from-Motion(SfM) 기법을 통해 정확한 카메라 포즈(GT)를 제공할 수 있는 비교적 단순한 이미지 컬렉션에서의 진전을 분석하고 있다. 그러나 SfM 기법은 다양한 배경과 조명 조건을 가진 이미지 검색 결과와 같은 실제 환경의 이미지 컬렉션에서는 실패하는 경향이 있다. 일상적인 이미지 캡처에서의 3D 재구성 연구를 체계적으로 진행하기 위해, 우리는 NAVI라는 새로운 데이터셋을 제안한다. NAVI는 카테고리와 무관한 객체의 이미지 컬렉션으로, 고품질의 3D 스캔과 함께 이미지별 2D-3D 정렬을 제공하여 거의 완벽한 GT 카메라 파라미터를 제공한다. 이러한 2D-3D 정렬을 통해 밀집 픽셀 대응, 깊이 및 세그멘테이션 맵과 같은 정확한 파생 주석을 추출할 수 있다. 우리는 NAVI 이미지 컬렉션을 다양한 문제 설정에서 사용하는 방법을 보여주며, NAVI가 기존 데이터셋으로는 불가능했던 보다 철저한 평가를 가능하게 한다는 것을 입증한다. 우리는 NAVI가 3D 재구성 및 대응 추정 연구의 체계적인 진전에 기여할 것이라고 믿는다. 프로젝트 페이지: https://navidataset.github.io
본 연구에서는 대규모 언어 모델(LLM)이 YouTube 동영상의 자동 음성 인식(ASR)에 미치는 영향을 분석합니다. 여기서 YouTube 동영상을 장문형 ASR의 소스로 활용하였습니다. 실험 결과, 미국 영어(en-us)와 코드 스위칭이 포함된 인도 영어(en-in) 장문형 ASR 테스트 세트에서 단어 오류율(WER)이 최대 8% 상대적으로 감소하였으며, 최대 엔트로피 기반 언어 모델을 사용한 강력한 1차 통과 기준선 대비 주요 용어 오류율(STER)이 최대 30% 상대적으로 감소하였음을 입증했습니다. 개선된 격자 처리로 인해 적절한(비트리) 방향 그래프 토폴로지를 가진 격자가 생성되고 이전 세그먼트의 1-최적 가설에서 컨텍스트를 전달함으로써 LLM을 이용한 재점수화에서 상당한 성과를 거두었습니다. 또한, 방대한 양의 데이터(예: C4)로 훈련된 LLM과 기존의 신경망 언어 모델을 결합했을 때 성능 향상이 가산적이며, 최대 엔트로피 언어 모델을 사용한 강력한 1차 통과 기준선을 크게 능가한다는 사실을 발견했습니다.
다양한 조명 조건에서 물체와 장면을 재구성하고 재조명하는 것은 어려운 과제입니다: 기존의 신경망 기반 렌더링 방법들은 종종 재질과 빛 사이의 복잡한 상호작용을 처리하지 못합니다. 사전 계산된 복사 전달(radiance transfer) 기법을 도입하면 전역 조명(global illumination)을 구현할 수 있지만, 여전히 표면 아래 산란(subsurface scattering) 효과가 있는 재질을 다루는 데 어려움이 있습니다. 본 논문에서는 볼륨 렌더링을 통해 복사 전달 필드를 학습하고 다양한 외관(appearance) 단서를 활용하여 기하학을 종단 간(end-to-end)으로 정제하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 데이터 주도 방식으로 더 넓은 범위의 재질을 처리할 수 있도록 재조명 및 재구성 기능을 확장합니다. 결과 모델은 기존 및 새로운 조건에서 그럴듯한 렌더링 결과를 생성합니다. 우리는 코드와 표면 아래 산란 효과가 있는 물체들로 구성된 새로운 라이트 스테이지 데이터셋을 공개할 예정입니다.
정교하게 조립된 레고 스포츠카가 있는 책상을 정리하는 임무를 맡은 로봇을 생각해 보자. 인간은 이 스포츠카를 분해하여 "정리"의 일부로 치우는 것이 사회적으로 적절하지 않다는 것을 인지할 수 있다. 로봇은 어떻게 그런 결론에 도달할 수 있을까? 최근 대형 언어 모델(LLM)이 사회적 추론을 가능하게 하는 데 사용되고 있지만, 이러한 추론을 현실 세계에 적용하는 것은 어려운 과제였다. 현실 세계에서 추론하기 위해 로봇은 LLM에 수동적으로 질의하는 것을 넘어, 올바른 결정을 내리기 위해 필요한 정보를 *환경에서 능동적으로 수집*해야 한다. 예를 들어, 가려진 자동차가 있다는 것을 감지한 후, 로봇은 그것이 레고로 만들어진 고급 모델카인지 아니면 유아가 만든 장난감 자동차인지 알기 위해 능동적으로 자동차를 인지해야 할 수 있다. 우리는 로봇이 현실 세계에 기반한 사회적 추론을 수행하기 위해 환경을 능동적으로 인지하도록 돕기 위해 LLM과 시각 언어 모델(VLM)을 활용하는 접근 방식을 제안한다. 우리의 프레임워크를 대규모로 평가하기 위해, 정리가 필요한 70개의 실제 세계 표면 이미지를 포함한 MessySurfaces 데이터셋을 공개한다. 또한, 우리는 신중하게 설계된 2개의 표면에서 로봇을 통해 우리의 접근 방식을 시연한다. 능동적 인지를 사용하지 않는 베이스라인 대비 MessySurfaces 벤치마크에서 평균 12.9%의 개선을, 로봇 실험에서 평균 15%의 개선을 확인했다. 우리의 접근 방식에 대한 데이터셋, 코드, 비디오는 https://minaek.github.io/groundedsocialreasoning에서 확인할 수 있다.
딥러닝 모델의 하이퍼파라미터 튜닝은 동일한 계산량 대비 성능을 수준급으로 향상시킬 수 있습니다. 그럼에도 불구하고, 특히 대형 모델의 경우 체계적인 튜닝은 드물게 이루어지는데, 이는 평가 비용이 높고 많은 하이퍼파라미터를 가지고 있어 트레이드오프, 예산, 탐색 범위에 대한 어려운 판단이 필요하기 때문입니다. 이러한 문제를 해결하고 대형 모델을 견고하게 튜닝할 수 있는 실용적인 방법을 제안하기 위해, 우리는 성능-비용 파레토 프론티어 주변에서 지역 탐색을 수행하는 베이지안 최적화 알고리즘인 Cost-Aware Pareto Region Bayesian Search(CARBS)를 소개합니다. CARBS는 많은 하이퍼파라미터를 가진 무제한 탐색 공간에서도 잘 작동하며, 모델이 확장됨에 따라 튜닝할 수 있도록 스케일링 관계를 학습하고, 튜닝의 많은 부분을 자동화하여 "블랙 매직"을 줄입니다. 우리의 결과 중 하나로, 단순한 베이스라인(PPO, 원래 ProcGen 논문에서 제공된)을 튜닝함으로써 ProcGen 벤치마크 전체를 효과적으로 해결했습니다. 또한, Chinchilla 프로젝트(Hoffmann et al. 2022)의 모델 크기 대 학습 토큰 스케일링 결과를 재현하면서, 모든 다른 하이퍼파라미터에 대한 스케일링 법칙을 발견했습니다. 이는 상당히 적은 계산량을 사용하며 모든 딥러닝 문제(언어 모델뿐만 아니라)에 적용 가능한 쉬운 자동화 프로세스를 통해 이루어졌습니다.