번역이 포함된 일일 선별된 AI 연구 논문
우리는 초인간적 에이전트를 달성하기 위해서는 미래의 모델들이 적절한 훈련 신호를 제공하기 위해 초인간적 피드백이 필요하다고 가정한다. 현재의 접근법들은 일반적으로 인간의 선호도로부터 보상 모델을 훈련시키는데, 이는 인간의 성능 수준에 의해 병목 현상이 발생할 수 있으며, 둘째로 이러한 분리된 고정된 보상 모델들은 대형 언어 모델(LLM) 훈련 중에 개선을 학습할 수 없다. 본 연구에서는 언어 모델 자체가 LLM-as-a-Judge 프롬프팅을 통해 훈련 중에 자체 보상을 제공하는 자기 보상 언어 모델(Self-Rewarding Language Models)을 연구한다. 우리는 반복적 DPO 훈련 중에 명령 수행 능력이 향상될 뿐만 아니라, 자체적으로 고품질의 보상을 제공하는 능력도 향상됨을 보여준다. Llama 2 70B를 우리의 접근법의 세 번의 반복으로 미세 조정한 결과, AlpacaEval 2.0 리더보드에서 Claude 2, Gemini Pro, GPT-4 0613을 포함한 많은 기존 시스템들을 능가하는 모델을 얻었다. 이는 예비 연구에 불과하지만, 이 연구는 두 축에서 지속적으로 개선할 수 있는 모델의 가능성을 열어준다.
최근 하드웨어 인식 설계를 갖춘 상태 공간 모델(SSMs), 즉 Mamba가 장기 시퀀스 모델링에서 큰 잠재력을 보여주고 있다. SSMs만을 기반으로 효율적이고 범용적인 비전 백본을 구축하는 것은 매력적인 방향이다. 그러나 시각 데이터의 위치 민감성과 시각 이해를 위한 전역 컨텍스트 요구 사항으로 인해 SSMs가 시각 데이터를 표현하는 것은 어려운 과제이다. 본 논문에서는 시각 표현 학습이 자기 주의(self-attention)에 의존할 필요가 없음을 보이고, 양방향 Mamba 블록(Vim)을 사용한 새로운 범용 비전 백본을 제안한다. 이는 이미지 시퀀스에 위치 임베딩을 표시하고 양방향 상태 공간 모델을 통해 시각 표현을 압축한다. ImageNet 분류, COCO 객체 탐지, ADE20k 의미론적 분할 작업에서 Vim은 DeiT와 같은 잘 알려진 비전 트랜스포머보다 더 높은 성능을 달성하면서도 계산 및 메모리 효율성을 크게 개선했다. 예를 들어, Vim은 1248×1248 해상도의 이미지에서 배치 추론을 수행하여 특징을 추출할 때 DeiT보다 2.8배 빠르고 GPU 메모리를 86.8% 절약한다. 이러한 결과는 Vim이 고해상도 이미지에 대한 트랜스포머 스타일 이해를 수행하는 데 있어 계산 및 메모리 제약을 극복할 수 있으며, 차세대 비전 기반 모델의 백본이 될 수 있는 큰 잠재력을 가지고 있음을 보여준다. 코드는 https://github.com/hustvl/Vim에서 확인할 수 있다.
본 연구에서는 GPT-4 수준의 정확도를 달성하는 대화형 질의응답(Conversational QA) 모델군인 ChatQA를 소개한다. 구체적으로, 우리는 대형 언어 모델(LLMs)의 제로샷 대화형 질의응답 결과를 크게 개선할 수 있는 2단계 지시 튜닝(instruction tuning) 방법을 제안한다. 대화형 질의응답에서의 검색(retrieval)을 처리하기 위해, 우리는 다중 턴 질의응답 데이터셋에서 밀집 검색기(dense retriever)를 미세 조정(fine-tune)하였으며, 이는 최신 질의 재작성(query rewriting) 모델을 사용하는 것과 비슷한 결과를 제공하면서도 배포 비용을 크게 절감한다. 특히, 우리의 ChatQA-70B는 OpenAI GPT 모델에서 생성된 합성 데이터에 의존하지 않으면서도 10개의 대화형 질의응답 데이터셋에서 평균 점수(54.14 대 53.90) 기준으로 GPT-4를 능가할 수 있다.
대규모 언어 모델(LLM)의 추론 능력을 향상시키는 한 가지 방법은 Chain-of-Thought(CoT) 주석을 사용한 지도 미세 조정(SFT)을 수행하는 것입니다. 그러나 이 접근법은 주어진 CoT 데이터에만 의존하기 때문에 충분히 강력한 일반화 능력을 보여주지 못합니다. 예를 들어, 수학 문제 해결에서 훈련 데이터의 각 질문에는 일반적으로 하나의 주석 처리된 추론 경로만 존재합니다. 직관적으로, 알고리즘이 주어진 질문에 대해 여러 주석 처리된 추론 경로로부터 학습하는 것이 더 나을 것입니다. 이 문제를 해결하기 위해 우리는 수학 문제 해결을 예로 들어, 추론을 위한 LLM 학습의 일반화 능력을 향상시키는 간단하면서도 효과적인 방법인 강화 미세 조정(ReFT)을 제안합니다. ReFT는 먼저 SFT로 모델을 워밍업한 후, 온라인 강화 학습(이 논문에서는 구체적으로 PPO 알고리즘)을 사용하여 모델을 추가로 미세 조정합니다. 이때, 질문에 대해 다양한 추론 경로가 자동으로 샘플링되고, 보상은 정답에서 자연스럽게 도출됩니다. GSM8K, MathQA, SVAMP 데이터셋에 대한 광범위한 실험 결과, ReFT는 SFT를 크게 능가하며, 다수결 투표 및 재순위와 같은 추론 시 전략을 결합하면 성능이 더욱 향상될 가능성이 있음을 보여줍니다. ReFT는 SFT와 동일한 훈련 질문을 사용하여 개선을 달성하며, 추가 또는 증강된 훈련 질문에 의존하지 않습니다. 이는 ReFT의 뛰어난 일반화 능력을 나타냅니다.
그룹화는 본질적으로 모호한 작업입니다. 왜냐하면 장면을 여러 수준의 세분성으로 분해할 수 있기 때문입니다. 예를 들어 굴삭기의 바퀴를 별도의 개체로 간주해야 할지, 아니면 전체의 일부로 간주해야 할지 결정하기 어렵습니다. 우리는 이러한 문제를 해결하기 위해 Radiance Fields를 활용한 Group Anything(GARField) 접근법을 제안합니다. 이 방법은 포즈가 지정된 이미지 입력을 통해 3D 장면을 의미론적으로 의미 있는 그룹의 계층 구조로 분해합니다. 이를 위해 우리는 물리적 규모를 통해 그룹 모호성을 수용합니다: 규모에 따라 조건화된 3D 친화도 특징 필드를 최적화함으로써, 세계의 한 점이 다양한 크기의 다른 그룹에 속할 수 있도록 합니다. 우리는 이 필드를 Segment Anything(SAM)에서 제공된 2D 마스크 세트로부터 최적화하며, 이를 통해 coarse-to-fine 계층 구조를 존중하고, 서로 다른 시점에서의 상충하는 마스크를 일관되게 융합하기 위해 규모를 사용합니다. 이 필드로부터 자동 트리 구성 또는 사용자 상호작용을 통해 가능한 그룹화의 계층 구조를 도출할 수 있습니다. 우리는 GARField을 다양한 실제 장면에서 평가했으며, 이 방법이 객체 클러스터, 개별 객체, 그리고 다양한 하위 부분 등 여러 수준에서 효과적으로 그룹을 추출함을 확인했습니다. GARField은 다중 뷰 일관성 그룹화를 본질적으로 표현하며, 입력 SAM 마스크보다 더 높은 충실도의 그룹을 생성합니다. GARField의 계층적 그룹화는 3D 자산 추출이나 동적 장면 이해와 같은 흥미로운 하위 작업에 적용될 수 있습니다. 프로젝트 웹사이트는 https://www.garfield.studio/에서 확인할 수 있습니다.
3D 시각-언어 그라운딩은 언어를 3D 물리적 환경과 정렬하는 데 초점을 맞추며, 구현된 에이전트 개발의 초석으로 자리 잡고 있다. 최근 2D 영역에서의 발전과 비교할 때, 3D 장면에서 언어를 그라운딩하는 데는 몇 가지 중요한 도전 과제가 존재한다: (i) 다양한 객체 구성, 풍부한 속성, 복잡한 관계로 인한 3D 장면의 본질적 복잡성; (ii) 그라운디드 학습을 지원하기 위한 짝을 이루는 3D 시각-언어 데이터의 부족; 그리고 (iii) 그라운디드 3D 데이터로부터 지식을 추출하기 위한 통합 학습 프레임워크의 부재. 본 연구에서는 실내 환경에서 3D 시각-언어 학습을 체계적으로 확장하는 잠재력을 검토함으로써 3D 시각-언어 분야의 이 세 가지 주요 도전 과제를 해결하고자 한다. 우리는 약 68,000개의 3D 실내 장면과 인간 주석 및 확장 가능한 장면 그래프 기반 생성 접근법에서 도출된 250만 개의 시각-언어 쌍을 포함하는 최초의 백만 규모 3D 시각-언어 데이터셋인 SceneVerse를 소개한다. 우리는 이러한 확장이 3D 시각-언어 학습을 위한 통합 사전 학습 프레임워크인 Grounded Pre-training for Scenes (GPS)를 가능하게 함을 보여준다. 광범위한 실험을 통해 GPS의 효과를 입증하며, 기존의 모든 3D 시각 그라운딩 벤치마크에서 최첨단 성능을 달성한다. SceneVerse와 GPS의 방대한 잠재력은 도전적인 3D 시각-언어 작업에서의 제로샷 전이 실험을 통해 드러난다. 프로젝트 웹사이트: https://scene-verse.github.io.
월드 모델(World Model)은 세계의 역학을 이해하고 예측하는 데 중요한 역할을 하며, 이는 비디오 생성에 필수적입니다. 그러나 기존의 월드 모델은 게임이나 운전과 같은 특정 시나리오에 국한되어 있어 일반적인 세계 역학 환경의 복잡성을 포착하는 데 한계가 있습니다. 따라서 우리는 일반 세계 물리학과 움직임에 대한 포괄적인 이해를 촉진하고 비디오 생성 능력을 크게 향상시키는 선구적인 월드 모델인 WorldDreamer를 소개합니다. 대규모 언어 모델의 성공에서 영감을 받은 WorldDreamer는 월드 모델링을 비지도 시각적 시퀀스 모델링 문제로 프레임화합니다. 이는 시각적 입력을 이산 토큰으로 매핑하고 마스킹된 토큰을 예측함으로써 달성됩니다. 이 과정에서 우리는 월드 모델 내 상호작용을 촉진하기 위해 다중 모달 프롬프트를 통합합니다. 우리의 실험은 WorldDreamer가 자연 경관과 운전 환경을 포함한 다양한 시나리오에서 비디오를 생성하는 데 탁월함을 보여줍니다. WorldDreamer는 텍스트-투-비디오 변환, 이미지-투-비디오 합성, 비디오 편집과 같은 작업을 수행하는 데 있어 다재다능함을 보여줍니다. 이러한 결과는 WorldDreamer가 다양한 일반 세계 환경 내 동적 요소를 효과적으로 포착하는 데 있어 그 효율성을 입증합니다.
확산 기반 비디오 생성은 학계와 산업계 모두에서 광범위한 관심을 받으며 상당한 성공을 거두었습니다. 그러나 현재의 연구는 주로 단일 목표 또는 단일 작업 비디오 생성, 예를 들어 텍스트, 이미지 또는 텍스트와 이미지의 조합에 의해 구동되는 생성에 집중되어 있습니다. 이는 실제 응용 시나리오의 요구를 완전히 충족시키지 못하는데, 사용자는 이미지와 텍스트 조건을 개별적으로 또는 조합하여 유연하게 입력할 가능성이 높기 때문입니다. 이를 해결하기 위해, 우리는 텍스트와 이미지 양식에 걸쳐 다양한 비디오 생성 작업을 처리할 수 있는 통합 모달 비디오 생성 시스템을 제안합니다. 이를 위해, 우리는 생성 자유도의 관점에서 시스템 내 다양한 비디오 생성 작업을 재검토하고, 이를 높은 자유도와 낮은 자유도 비디오 생성 범주로 분류합니다. 높은 자유도 비디오 생성을 위해, 우리는 입력 이미지 또는 텍스트의 의미와 일치하는 비디오를 생성하기 위해 다중 조건 교차 주의를 사용합니다. 낮은 자유도 비디오 생성을 위해, 우리는 순수한 무작위 가우시안 노이즈를 대체하여 입력 조건의 내용을 더 잘 보존하는 편향된 가우시안 노이즈를 도입합니다. 우리의 방법은 공개 학술 벤치마크인 MSR-VTT에서 가장 낮은 프레셰 비디오 거리(Fréchet Video Distance, FVD)를 달성했으며, 현재의 오픈소스 방법들을 인간 평가에서 능가하고, 현재의 클로즈드소스 방법인 Gen2와 동등한 성능을 보입니다. 더 많은 샘플을 보려면 https://univg-baidu.github.io를 방문하십시오.
대규모 언어 모델(LLM)의 배포 및 확장은 다양한 애플리케이션에 침투하면서 높은 처리량과 낮은 지연 시간을 요구하는 서빙 시스템의 필요성이 중요해지고 있다. 기존 프레임워크는 특히 긴 프롬프트를 가진 작업 부하에서 이러한 요구 사항을 균형 있게 충족시키는 데 어려움을 겪고 있다. 본 논문은 DeepSpeed-FastGen을 소개하며, 이 시스템은 새로운 프롬프트 및 생성 조합 전략인 Dynamic SplitFuse를 사용하여 vLLM과 같은 최신 시스템 대비 최대 2.3배 높은 유효 처리량, 평균 2배 낮은 지연 시간, 그리고 최대 3.7배 낮은 (토큰 수준) 꼬리 지연 시간을 제공한다. 우리는 DeepSpeed-MII와 DeepSpeed-Inference의 시너지 효과를 활용하여 LLM을 위한 효율적이고 사용하기 쉬운 서빙 시스템을 제공한다. DeepSpeed-FastGen의 고급 구현은 다양한 모델을 지원하며, 비지속적 및 지속적 배포 옵션을 제공하여 인터랙티브 세션부터 장기 실행 애플리케이션까지 다양한 사용자 시나리오에 대응한다. 우리는 상세한 벤치마킹 방법론을 제시하고, 지연 시간-처리량 곡선을 통해 성능을 분석하며, 로드 밸런싱을 통해 확장성을 조사한다. 평가 결과, 다양한 모델과 하드웨어 구성에서 처리량과 지연 시간의 상당한 개선을 입증한다. 우리는 향후 개선을 위한 로드맵을 논의하며, 더 넓은 모델 지원과 새로운 하드웨어 백엔드를 포함한다. DeepSpeed-FastGen 코드는 커뮤니티 참여와 기여를 위해 쉽게 이용 가능하다.
텍스트-투-비디오 생성은 주어진 프롬프트를 기반으로 비디오를 생성하는 것을 목표로 합니다. 최근 여러 상용 비디오 모델이 최소한의 노이즈, 뛰어난 디테일, 높은 미적 점수를 가진 그럴듯한 비디오를 생성할 수 있게 되었습니다. 그러나 이러한 모델들은 커뮤니티가 접근할 수 없는 대규모의 잘 필터링된 고품질 비디오에 의존하고 있습니다. WebVid-10M 데이터셋과 같은 저품질 데이터를 사용하여 모델을 학습시키는 많은 기존 연구들은 WebVid-10M에 맞추어 최적화되기 때문에 고품질 비디오를 생성하는 데 어려움을 겪습니다. 본 연구에서는 Stable Diffusion에서 확장된 비디오 모델의 학습 방식을 탐구하고, 저품질 비디오와 합성된 고품질 이미지를 활용하여 고품질 비디오 모델을 얻는 가능성을 조사합니다. 먼저, 비디오 모델의 공간 및 시간 모듈 간의 연결과 저품질 비디오로의 분포 변화를 분석합니다. 모든 모듈을 완전히 학습시키는 것이 시간 모듈만 학습시키는 것보다 공간 및 시간 모듈 간의 더 강한 결합을 초래한다는 것을 관찰합니다. 이러한 강한 결합을 기반으로, 고품질 이미지로 공간 모듈을 미세 조정하여 모션 저하 없이 더 높은 품질로 분포를 이동시킴으로써 일반적인 고품질 비디오 모델을 얻습니다. 제안된 방법의 우수성, 특히 화질, 모션, 개념 구성 측면에서의 우수성을 입증하기 위해 평가를 수행합니다.
우리는 Diffusion Transformers(DiT)를 기반으로 구축된 생성 모델 패밀리인 Scalable Interpolant Transformers(SiT)를 소개한다. 보간 프레임워크는 표준 확산 모델보다 더 유연한 방식으로 두 분포를 연결할 수 있게 하여, 동적 전송을 기반으로 한 생성 모델에 영향을 미치는 다양한 설계 선택의 모듈식 연구를 가능하게 한다. 이는 이산 시간 학습 대 연속 시간 학습의 사용, 모델이 학습할 목적 함수의 결정, 분포를 연결하는 보간 함수의 선택, 그리고 결정론적 또는 확률적 샘플러의 배치 등을 포함한다. 위의 요소들을 신중하게 도입함으로써, SiT는 동일한 백본, 매개변수 수 및 GFLOPs를 사용하여 조건부 ImageNet 256x256 벤치마크에서 모델 크기 전반에 걸쳐 DiT를 균일하게 능가한다. 학습과 별도로 조정할 수 있는 다양한 확산 계수를 탐색함으로써, SiT는 FID-50K 점수 2.06을 달성한다.
본 논문에서는 소수의 입력 이미지(3~5장)로부터 재조명 가능한 텍스처를 임의의 범주의 대상 3D 모델로 전이하는 새로운 이미지 기반 텍스처 합성 방법인 TextureDreamer를 제안한다. 텍스처 생성은 비전 및 그래픽스 분야에서 중요한 과제로, 산업계에서는 숙련된 아티스트를 고용하여 3D 자산에 대한 텍스처를 수작업으로 제작한다. 기존의 고전적 방법은 밀집된 시점 샘플링과 정확하게 정렬된 지오메트리를 요구하며, 학습 기반 방법은 데이터셋 내의 특정 범주에 한정된 형태에만 적용 가능하다. 반면, TextureDreamer는 실제 환경에서 캡처된 몇 장의 이미지만으로도 고도로 세밀하고 복잡한 텍스처를 임의의 객체로 전이할 수 있어, 텍스처 생성의 민주화를 크게 촉진할 잠재력을 지닌다. 본 연구의 핵심 아이디어인 개인화된 지오메트리 인식 점수 증류(PGSD)는 최근의 확산 모델 발전에서 영감을 얻었으며, 텍스처 정보 추출을 위한 개인화된 모델링, 세밀한 외관 합성을 위한 변분 점수 증류, 그리고 ControlNet을 통한 명시적 지오메트리 안내를 포함한다. 이러한 통합과 몇 가지 필수적인 수정을 통해 텍스처 품질이 크게 개선되었다. 다양한 범주의 실제 이미지에 대한 실험 결과, TextureDreamer는 이전의 최첨단 기술을 뛰어넘는 고도로 사실적이고 의미론적으로 의미 있는 텍스처를 임의의 객체에 성공적으로 전이할 수 있음을 보여준다.
로컬 확률적 경사 하강법(Local-SGD), 또는 연합 평균화(federated averaging)로도 불리는 이 방법은 각 장치가 통신당 하나 이상의 SGD 업데이트를 수행하는 분산 최적화 접근법이다. 본 연구는 언어 모델 학습을 위한 비동기식 Local-SGD의 실증적 연구를 제시한다. 즉, 각 작업자는 SGD 단계를 마치자마자 전역 매개변수를 업데이트한다. 우리는 작업자의 하드웨어 이질성, 모델 크기, 작업자 수, 그리고 최적화기가 학습 성능에 미치는 영향을 종합적으로 조사한다. 우리는 단순한 구현에서 비동기식 Local-SGD가 동기식 대비 더 많은 반복을 통해 수렴하며, 전역 모델 매개변수를 더 자주 업데이트함에도 불구하고 더 느리게 수렴함을 발견했다. 작업자 그래디언트가 오래된 경우 전역 매개변수에 대한 모멘텀 가속이 주요 문제로 확인되었다. 우리는 지연된 네스테로프 모멘텀 업데이트를 활용하고 작업자의 계산 속도에 기반하여 로컬 학습 단계를 조정하는 새로운 방법을 제안한다. 이 접근법은 C4 데이터셋에서 최대 1억 5천만 개의 매개변수를 가진 모델로 평가되었으며, 업데이트 단계당 혼란도(perplexity) 측면에서 동기식 Local-SGD와 동등한 성능을 보였고, 실제 소요 시간 측면에서는 이를 크게 능가했다.
텍스트가 텍스트 조건부 확산 모델에서 정확한 레이아웃 표현을 제공하는 데 한계가 있음을 해결하기 위해, 많은 연구에서는 생성된 이미지 내 특정 속성을 조건화하기 위해 추가 신호를 통합합니다. 이러한 접근은 성공적이었지만, 기존 연구들은 이러한 속성의 구체적인 위치를 3차원 평면으로 확장하여 고려하지 않았습니다. 이러한 맥락에서, 우리는 3차원 객체 배치에 대한 제어와 여러 예시 이미지로부터의 전역적 스타일 의미론을 분리된 표현으로 통합한 조건부 확산 모델을 제시합니다. 구체적으로, 우리는 먼저 객체의 상대적 깊이를 추정기로 활용하기 위해 깊이 분리 학습을 도입하여, 합성 이미지 삼중항을 사용해 보이지 않는 객체의 절대적 위치를 식별할 수 있도록 합니다. 또한, 추가적인 위치 정보 없이 전역적 의미론을 대상 영역에 부과하는 소프트 가이던스 방법을 소개합니다. 우리의 통합 프레임워크인 Compose and Conquer(CnC)는 이러한 기술들을 통합하여 여러 조건을 분리된 방식으로 위치 지정합니다. 우리의 접근 방식이 다양한 깊이에서 객체를 인식할 수 있으면서도, 다른 전역적 의미론을 가진 지역화된 객체를 구성하기 위한 다용도 프레임워크를 제공함을 입증합니다. 코드: https://github.com/tomtom1103/compose-and-conquer/
Neural Radiance Fields(NeRF)는 2D 이미지 집합이 주어졌을 때 새로운 시점 합성(Novel View Synthesis, NVS)에서 뛰어난 성능을 보여준다. 그러나 NeRF 학습은 일반적으로 Structure-from-Motion(SfM) 파이프라인을 통해 얻은 각 입력 뷰에 대한 정확한 카메라 포즈를 필요로 한다. 최근 연구들은 이러한 제약을 완화하려는 시도를 해왔지만, 여전히 개선할 수 있는 적절한 초기 포즈에 의존하는 경우가 많다. 본 연구에서는 포즈 초기화 요구 사항을 제거하는 것을 목표로 한다. 우리는 2D 비디오 프레임으로부터 NeRF를 학습하기 위한 최적화 절차인 Incremental CONfidence(ICON)를 제안한다. ICON은 초기 포즈 추정을 위해 카메라 운동이 부드럽다는 가정만을 전제로 한다. 또한, ICON은 모델 품질의 적응형 측정치인 "신뢰도"를 도입하여 동적으로 그래디언트를 재가중한다. ICON은 NeRF를 학습하기 위해 높은 신뢰도의 포즈에 의존하며, 포즈를 학습하기 위해 NeRF에 의해 인코딩된 높은 신뢰도의 3D 구조에 의존한다. 우리는 ICON이 사전 포즈 초기화 없이도 CO3D와 HO3D에서 SfM 포즈를 사용하는 방법들보다 우수한 성능을 달성함을 보여준다.