번역이 포함된 일일 선별된 AI 연구 논문
최근 몇 달 동안, 대형 언어 모델(LLM)이 인간 사용자의 질문에 단순히 응답하는 것을 넘어 목표 지향적인 다단계 작업을 스스로 수행할 수 있는 자율 언어 에이전트로 강화되는 강력한 새로운 트렌드가 등장했다. 그러나 대부분의 기존 언어 에이전트는 환경 특화 보상을 사용하여 최적화되지 않았다. 일부 에이전트는 언어적 피드백을 통해 반복적 개선을 가능하게 하지만, 보상에 기반한 경사 하강법 학습과 호환되는 방식으로 추론 및 계획을 수행하지는 않는다. 본 논문은 회고 모델을 학습함으로써 대형 언어 에이전트를 강화하는 원칙적인 프레임워크를 소개한다. 이 프레임워크는 정책 경사법을 통해 환경 피드백으로부터 언어 에이전트 프롬프트를 자동으로 조정한다. 구체적으로, 제안된 에이전트 아키텍처는 여러 환경과 작업에서 보상을 학습하여, 사전 훈련된 언어 모델을 미세 조정하고, 이전 실패 시도의 근본 원인을 요약하고 행동 계획을 제안함으로써 언어 에이전트 프롬프트를 개선한다. 다양한 작업에 대한 실험 결과는 언어 에이전트가 시간이 지남에 따라 개선되며, 제안된 접근 방식이 환경으로부터의 경사를 적절히 활용하지 않는 기준선을 상당히 능가함을 보여준다. 이는 정책 경사법 최적화를 사용하여 언어 에이전트를 개선하는 것이 유망하며, 우리의 연구가 이 분야의 선구적인 작업 중 하나로 간주될 수 있음을 시사한다. 또한, 이 방법은 에이전트 아키텍처 내의 다른 모델을 최적화하여 시간이 지남에 따라 에이전트 성능을 향상시키는 데도 적용될 수 있다.
우리는 복잡한 멀티모달 작업에 대한 대규모 멀티모델(LMM)을 평가하기 위한 벤치마크인 MM-Vet을 제안합니다. 최근의 LMM들은 칠판에 쓰여진 수학 문제를 해결하거나, 뉴스 이미지 속 사건과 유명인에 대해 추론하거나, 시각적 유머를 설명하는 등 다양한 흥미로운 능력을 보여주었습니다. 이러한 모델의 급속한 발전은 평가 벤치마크 개발에 있어 여러 도전 과제를 제기합니다. 주요 문제는 다음과 같습니다: (1) 복잡한 멀티모달 작업을 체계적으로 구조화하고 평가하는 방법; (2) 다양한 질문과 답변 유형에 적합한 평가 지표를 설계하는 방법; (3) 단순한 성능 순위를 넘어 모델에 대한 통찰을 제공하는 방법. 이를 위해, 우리는 복잡한 작업을 해결하는 흥미로운 능력이 종종 다양한 핵심 시각-언어(VL) 능력을 통합할 수 있는 일반 모델에 의해 달성된다는 통찰을 바탕으로 MM-Vet을 설계했습니다. MM-Vet은 6가지 핵심 VL 능력을 정의하고, 이러한 능력 조합에서 도출된 16가지 통합 사례를 검토합니다. 평가 지표로서, 우리는 개방형 출력을 평가하기 위한 LLM 기반 평가자를 제안합니다. 이 평가자는 다양한 질문 유형과 답변 스타일을 아우르는 평가를 가능하게 하여 통일된 점수 체계를 제공합니다. 우리는 MM-Vet을 통해 대표적인 LMM들을 평가하며, 다양한 LMM 시스템 패러다임과 모델의 능력에 대한 통찰을 제공합니다. 코드와 데이터는 https://github.com/yuweihao/MM-Vet에서 확인할 수 있습니다.
오픈-보커블러리 분할(Open-vocabulary segmentation)은 오픈 세트 카테고리에서 객체를 분할하고 인식해야 하는 어려운 작업입니다. 이 문제를 해결하기 위한 한 가지 방법은 CLIP과 같은 다중 모달 모델을 활용하여 이미지와 텍스트 특징을 공유 임베딩 공간에 제공함으로써 폐쇄형 보커블러리와 오픈 보커블러리 인식 간의 격차를 줄이는 것입니다. 따라서 기존 방법들은 주로 두 단계 프레임워크를 채택하여 문제를 해결하는데, 입력이 먼저 마스크 생성기를 통과한 후 예측된 마스크와 함께 CLIP 모델을 거치는 방식입니다. 이 과정에서는 이미지에서 특징을 여러 번 추출해야 하기 때문에 비효율적이고 비용이 많이 듭니다. 이에 반해, 우리는 공유된 Frozen Convolutional CLIP 백본을 사용하여 모든 것을 단일 단계 프레임워크로 통합하는 방법을 제안합니다. 이는 현재의 두 단계 파이프라인을 크게 단순화할 뿐만 아니라 더 나은 정확도-비용 트레이드오프를 제공합니다. 제안된 FC-CLIP은 다음과 같은 관찰에서 이점을 얻습니다: 고정된(frozen) CLIP 백본은 오픈 보커블러리 분류 능력을 유지하면서도 강력한 마스크 생성기 역할을 할 수 있으며, 컨볼루셔널 CLIP은 대조적 이미지-텍스트 사전 학습에서 사용된 것보다 더 큰 입력 해상도에 잘 일반화됩니다. COCO 팬옵틱 데이터만으로 학습하고 제로샷 방식으로 테스트할 때, FC-CLIP은 ADE20K에서 26.8 PQ, 16.8 AP, 34.1 mIoU, Mapillary Vistas에서 18.2 PQ, 27.9 mIoU, Cityscapes에서 44.0 PQ, 26.8 AP, 56.2 mIoU를 달성하며, 각각 ADE20K에서 +4.2 PQ, +2.4 AP, +4.2 mIoU, Mapillary Vistas에서 +4.0 PQ, Cityscapes에서 +20.1 PQ로 기존 최신 기술을 능가합니다. 또한, FC-CLIP의 학습 및 테스트 시간은 동일한 기존 기술보다 7.5배 및 6.6배 빠르며, 5.9배 적은 파라미터를 사용합니다. FC-CLIP은 또한 다양한 오픈 보커블러리 의미론적 분할 데이터셋에서 새로운 최첨단 성능을 설정합니다. 코드는 https://github.com/bytedance/fc-clip에서 확인할 수 있습니다.
임상 시험 매칭은 의료 서비스 제공과 연구 개발에서 핵심적인 과정입니다. 실제로 이 과정은 방대한 양의 비정형 데이터와 확장 불가능한 수동 처리로 인해 어려움을 겪고 있습니다. 본 논문에서는 대규모 언어 모델(LLMs)을 활용하여 임상 시험 매칭을 확장하는 방법에 대해 체계적으로 연구하며, 특히 종양학 분야에 초점을 맞춥니다. 이 연구는 현재 미국의 대형 의료 네트워크에서 시험 배포 중인 임상 시험 매칭 시스템을 기반으로 합니다. 초기 연구 결과는 매우 긍정적입니다: GPT-4와 같은 최첨단 LLMs는 별도의 추가 작업 없이도 임상 시험의 복잡한 자격 기준을 구조화하고 중첩된 AND/OR/NOT과 같은 복잡한 매칭 논리를 추출할 수 있습니다. 아직 완벽하지는 않지만, LLMs는 기존의 강력한 베이스라인을 크게 능가하며, 인간의 감독 하에 환자-시험 후보를 선별하는 예비 솔루션으로 활용될 가능성이 있습니다. 또한, 본 연구는 LLMs를 종단간 임상 시험 매칭에 적용하는 데 있어 몇 가지 중요한 개선 영역을 밝혀냈습니다. 특히, 장기간의 의료 기록에서 환자 정보를 구조화하는 과정에서의 컨텍스트 제한과 정확성 문제가 그 예입니다.
생체모방적이고 민첩한 로봇 손은 인간이 수행할 수 있는 다양한 작업을 복제하고, 일반적인 조작 플랫폼으로서의 지위를 달성할 잠재력을 가지고 있다. 최근 강화학습(Reinforcement Learning, RL) 프레임워크의 발전은 사족 보행과 민첩한 조작 작업에서 뛰어난 성능을 달성하였다. GPU 기반의 고도로 병렬화된 시뮬레이션과 결합되어 수천 대의 로봇을 동시에 시뮬레이션할 수 있는 능력 덕분에, RL 기반 제어기는 더 확장 가능하고 접근 가능해졌다. 그러나 RL로 훈련된 정책을 실제 세계에 적용하기 위해서는 물리적 액추에이터와 센서와 호환되는 정책을 출력할 수 있는 훈련 프레임워크와, 접근 가능한 재료로 제조되면서도 상호작용 정책을 실행할 수 있을 만큼 견고한 하드웨어 플랫폼이 필요하다. 본 연구는 생체모방적인 텐던 구동 방식의 Faive Hand와 그 시스템 아키텍처를 소개하며, 이는 텐던 구동 롤링 접촉 관절을 사용하여 3D 프린팅 가능하고 견고한 고자유도(high-DoF) 손 설계를 달성한다. 우리는 손의 각 요소를 모델링하고 GPU 시뮬레이션 환경에 통합하여 RL로 정책을 훈련시키며, 민첩한 손 내 구체 회전 기술을 물리적 로봇 손으로 제로샷 전이(zero-shot transfer)를 달성한다.
우리는 구획화된 확산 모델(Compartmentalized Diffusion Models, CDM)을 소개합니다. 이 방법은 서로 다른 데이터 소스에 대해 개별적인 확산 모델(또는 프롬프트)을 훈련시키고, 추론 시점에 이들을 자유롭게 조합할 수 있게 합니다. 각각의 모델은 독립적으로, 서로 다른 시점에, 그리고 다양한 분포와 도메인에서 훈련될 수 있으며, 나중에 이들을 조합하여 모든 데이터를 동시에 훈련한 기준 모델과 비슷한 성능을 달성할 수 있습니다. 더욱이, 각 모델은 훈련 중에 노출된 데이터의 부분집합에 대한 정보만을 포함하므로, 여러 형태의 훈련 데이터 보호가 가능합니다. 특히, CDM은 대규모 확산 모델에 대해 선택적 망각(selective forgetting)과 지속 학습(continual learning)을 동시에 가능하게 하는 최초의 방법이며, 사용자의 접근 권한에 따라 맞춤형 모델을 제공할 수 있게 합니다. 또한 CDM은 특정 샘플을 생성하는 데 있어 데이터의 부분집합의 중요성을 결정할 수 있게 합니다.