번역이 포함된 일일 선별된 AI 연구 논문
대규모 시각-언어 모델(VLMs)은 다중 모달 인식과 추론 분야에서 상당한 진전을 이루었습니다. 더 나아가, 이러한 모델이 구현된 에이전트에 원활하게 통합될 경우, 정밀한 계획 수립과 명령 실행이 가능한 자율적이고 상황 인식이 가능한 시스템을 만드는 데 있어 중요한 진전을 의미합니다. 본 논문에서는 에이전트의 시각 및 텍스트 기반 작업 목표를 능숙하게 해석하고 복잡한 행동 시퀀스를 구성하며 실행 가능한 코드를 생성할 수 있는 새로운 VLM인 Octopus를 소개합니다. 우리의 설계는 시뮬레이터 내 일상적인 작업부터 복잡한 비디오 게임에서의 정교한 상호작용에 이르기까지 다양한 작업을 능숙하게 처리할 수 있도록 합니다. Octopus는 GPT-4를 활용하여 탐색 에이전트를 제어함으로써 OctoVerse라는 실험 환경 내에서 훈련 데이터, 즉 행동 청사진과 해당 실행 코드를 생성하도록 학습됩니다. 또한, 환경 피드백을 통한 강화 학습(RLEF)이라는 향상된 훈련 방식을 가능하게 하는 피드백을 수집합니다. 일련의 실험을 통해 Octopus의 기능을 조명하고 설득력 있는 결과를 제시하며, 제안된 RLEF가 에이전트의 의사결정을 개선하는 것으로 나타났습니다. 우리는 모델 아키텍처, 시뮬레이터 및 데이터셋을 오픈소스로 공개함으로써 더 넓은 구현형 AI 커뮤니티 내에서의 혁신과 협업적 응용을 촉발하고자 합니다.
우리는 다재다능한 언어 에이전트의 기반이 될 수 있도록 자연어와 코딩 능력 모두에 최적화된 공개 접근 가능한 언어 모델인 Lemur와 Lemur-Chat을 소개한다. 언어 채팅 모델에서 기능적 언어 에이전트로의 진화는 모델이 인간 상호작용, 추론, 계획을 숙달할 뿐만 아니라 관련 환경에 기반을 두는 것을 요구한다. 이는 모델 내에서 언어와 코딩 능력의 조화로운 융합을 필요로 한다. Lemur와 Lemur-Chat은 이러한 필요를 해결하기 위해 제안되었으며, 기존의 오픈소스 모델들이 한쪽에 치우치는 경향과 달리 두 영역 모두에서 균형 잡힌 능력을 보여준다. 코드 중심의 코퍼스를 사용한 꼼꼼한 사전 학습과 텍스트 및 코드 데이터에 대한 지시 미세 조정을 통해, 우리의 모델은 오픈소스 모델 중 다양한 텍스트 및 코딩 벤치마크에서 최첨단의 평균 성능을 달성한다. 포괄적인 실험을 통해 Lemur가 기존 오픈소스 모델을 능가하며, 완전 및 부분 관찰 가능 환경에서의 인간 커뮤니케이션, 도구 사용, 상호작용과 관련된 다양한 에이전트 작업에서의 숙련도를 입증한다. 자연어와 프로그래밍 언어 간의 조화는 Lemur-Chat이 에이전트 능력에 있어 독점 모델과의 격차를 크게 좁히게 하며, 환경 간 원활하게 추론, 계획, 운영할 수 있는 고급 오픈소스 에이전트 개발에 대한 핵심 통찰을 제공한다. https://github.com/OpenLemur/Lemur
"아이디어에서 이미지로(Idea to Image)"라는 시스템을 소개합니다. 이 시스템은 GPT-4V(ision)를 활용한 다중모달 반복적 자기 개선을 통해 자동 이미지 설계 및 생성을 가능하게 합니다. 인간은 반복적인 탐색을 통해 다양한 텍스트-이미지(T2I) 모델의 특성을 빠르게 파악할 수 있습니다. 이를 통해 사용자는 높은 수준의 생성 아이디어를 효과적인 T2I 프롬프트로 효율적으로 변환하여 우수한 이미지를 생성할 수 있습니다. 우리는 대규모 다중모달 모델(LMM) 기반 시스템이 미지의 모델이나 환경을 자기 개선 시도를 통해 탐색할 수 있는 유사한 다중모달 자기 개선 능력을 개발할 수 있는지 연구합니다. Idea2Img는 탐색된 T2I 모델의 특성에 대한 기억을 바탕으로 수정된 T2I 프롬프트를 순환적으로 생성하고, 초안 이미지를 합성하며, 프롬프트 수정을 위한 방향성 피드백을 제공합니다. 이 반복적 자기 개선은 Idea2Img가 일반 T2I 모델에 비해 다양한 이점을 가져다줍니다. 특히, Idea2Img는 이미지-텍스트 시퀀스가 교차된 입력 아이디어를 처리할 수 있고, 설계 지침이 포함된 아이디어를 따를 수 있으며, 더 나은 의미론적 및 시각적 품질의 이미지를 생성할 수 있습니다. 사용자 선호도 연구는 자동 이미지 설계 및 생성에서 다중모달 반복적 자기 개선의 효용성을 검증합니다.
최근 텍스트 프롬프트로부터 3D 자산을 생성하는 기술이 인상적인 결과를 보여주고 있습니다. 2D와 3D 디퓨전 모델 모두 프롬프트를 기반으로 괜찮은 3D 객체를 생성할 수 있습니다. 3D 디퓨전 모델은 3D 일관성이 뛰어나지만, 학습 가능한 3D 데이터가 비싸고 구하기 어렵기 때문에 품질과 일반화 능력이 제한적입니다. 반면, 2D 디퓨전 모델은 강력한 일반화 능력과 세밀한 생성 능력을 갖추고 있지만, 3D 일관성을 보장하기가 어렵습니다. 본 논문은 최근의 명시적이고 효율적인 3D 가우시안 스플래팅 표현을 통해 두 유형의 디퓨전 모델의 장점을 결합하려고 시도합니다. 빠른 3D 생성 프레임워크인 \name을 제안하며, 여기서 3D 디퓨전 모델은 초기화를 위한 포인트 클라우드 사전 정보를 제공하고, 2D 디퓨전 모델은 형상과 외관을 풍부하게 만듭니다. 초기화된 가우시안을 강화하기 위해 노이즈 포인트 성장과 색상 섭동 작업이 도입되었습니다. 우리의 \name은 단일 GPU에서 25분 이내에 고품질의 3D 인스턴스를 생성할 수 있으며, 이는 이전 방법들보다 훨씬 빠른 속도입니다. 또한 생성된 인스턴스는 실시간으로 직접 렌더링될 수 있습니다. 데모와 코드는 https://taoranyi.com/gaussiandreamer/에서 확인할 수 있습니다.
대규모 텍스트-이미지 모델에서의 상당한 발전에도 불구하고, 초현실적인 인간 이미지 생성을 달성하는 것은 여전히 바람직하지만 해결되지 않은 과제로 남아 있습니다. Stable Diffusion과 DALL-E 2와 같은 기존 모델들은 종종 일관성 없는 부분이나 부자연스러운 자세를 가진 인간 이미지를 생성하는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리의 핵심 통찰은 인간 이미지가 기본적으로 여러 세분화 수준에서 구조적이라는 것입니다. 이는 거친 수준의 신체 골격에서부터 세밀한 공간 기하학에 이르기까지 다양합니다. 따라서, 명시적인 외관과 잠재적 구조 간의 이러한 상관관계를 하나의 모델에서 포착하는 것은 일관적이고 자연스러운 인간 이미지를 생성하는 데 필수적입니다. 이를 위해, 우리는 고도의 현실성과 다양한 레이아웃을 가진 야외 인간 이미지를 생성하는 통합 프레임워크인 HyperHuman을 제안합니다. 구체적으로, 1) 먼저 인간 포즈, 깊이, 표면 법선과 같은 포괄적인 주석이 포함된 340M 이미지로 구성된 대규모 인간 중심 데이터셋인 HumanVerse를 구축합니다. 2) 다음, 합성된 RGB 이미지와 함께 깊이와 표면 법선을 동시에 노이즈 제거하는 Latent Structural Diffusion Model을 제안합니다. 우리의 모델은 이미지 외관, 공간 관계, 기하학의 공동 학습을 통합 네트워크에서 강제하며, 모델의 각 분기는 구조적 인식과 질감의 풍부함을 서로 보완합니다. 3) 마지막으로, 시각적 품질을 더욱 향상시키기 위해, 더 높은 해상도의 세부 생성을 위해 예측된 조건을 구성하는 Structure-Guided Refiner를 제안합니다. 광범위한 실험을 통해 우리의 프레임워크가 다양한 시나리오에서 초현실적인 인간 이미지를 생성하며 최첨단 성능을 달성함을 입증합니다. 프로젝트 페이지: https://snap-research.github.io/HyperHuman/
대규모 사전 학습된 확산 모델은 다양한 비디오 생성에서 뛰어난 능력을 보여주고 있습니다. 동일한 동작 개념을 가진 비디오 클립 집합이 주어졌을 때, 모션 커스터마이제이션(Motion Customization) 작업은 기존의 텍스트-투-비디오(text-to-video) 확산 모델을 적응시켜 해당 동작을 가진 비디오를 생성하는 것입니다. 예를 들어, 특정 카메라 움직임에 따라 규정된 방식으로 차가 움직이는 비디오를 생성하여 영화를 만들거나, 곰이 역기를 드는 모습을 보여주는 비디오를 생성하여 창작자들에게 영감을 줄 수 있습니다. 주제나 스타일과 같은 외형을 커스터마이징하기 위한 적응 방법은 개발되었지만, 모션에 대한 연구는 아직 이루어지지 않았습니다. 모션 커스터마이제이션을 위해 주류 적응 방법을 확장하는 것은 간단합니다. 이는 전체 모델 튜닝, 추가 레이어의 파라미터 효율적 튜닝, 그리고 Low-Rank Adaptions (LoRAs)를 포함합니다. 그러나 이러한 방법으로 학습된 모션 개념은 종종 훈련 비디오의 제한된 외형과 결합되어 있어, 커스터마이즈된 모션을 다른 외형으로 일반화하기 어렵게 만듭니다. 이 문제를 극복하기 위해, 우리는 외형과 모션의 학습을 분리하기 위한 이중 경로 LoRAs 아키텍처를 가진 MotionDirector를 제안합니다. 더 나아가, 우리는 시간적 훈련 목표에 대한 외형의 영향을 완화하기 위한 새로운 외형 편향 제거 시간적 손실을 설계했습니다. 실험 결과는 제안된 방법이 커스터마이즈된 모션을 위한 다양한 외형의 비디오를 생성할 수 있음을 보여줍니다. 우리의 방법은 또한 각각의 외형과 모션을 가진 다양한 비디오를 혼합하거나, 단일 이미지를 커스터마이즈된 모션으로 애니메이션화하는 등 다양한 다운스트림 애플리케이션을 지원합니다. 우리의 코드와 모델 가중치는 공개될 예정입니다.