번역이 포함된 일일 선별된 AI 연구 논문
최적화는 어디에나 존재합니다. 도함수 기반 알고리즘은 다양한 문제에 대한 강력한 도구로 사용되어 왔지만, 기울기의 부재는 많은 실제 응용 분야에서 어려움을 야기합니다. 본 연구에서는 대규모 언어 모델(LLM)을 최적화 도구로 활용하는 간단하면서도 효과적인 접근법인 PROmpting을 통한 최적화(OPRO)를 제안합니다. 이 방법에서는 최적화 작업을 자연어로 기술하고, 각 최적화 단계에서 LLM이 이전에 생성된 솔루션과 그 값들을 포함한 프롬프트로부터 새로운 솔루션을 생성한 후, 이를 평가하여 다음 최적화 단계를 위한 프롬프트에 추가합니다. 우리는 먼저 선형 회귀와 외판원 문제에서 OPRO를 시연한 후, 작업 정확도를 극대화하는 지시문을 찾는 프롬프트 최적화로 넘어갑니다. 다양한 LLM을 사용하여, OPRO로 최적화된 최고의 프롬프트가 인간이 설계한 프롬프트보다 GSM8K에서 최대 8%, Big-Bench Hard 작업에서 최대 50% 더 우수한 성능을 보임을 입증합니다.
대규모 언어 모델(LLM)은 자연어 처리(NLP) 및 멀티모달 작업에서 놀라운 성과를 거두었습니다. 이러한 성공에도 불구하고, LLM의 개발은 두 가지 주요 과제에 직면해 있습니다: (i) 높은 계산 비용; (ii) 공정하고 객관적인 평가 수행의 어려움. LLM은 매우 비용이 많이 들어, 소수의 주요 기업만이 이를 훈련시킬 수 있어 연구 및 응용 기회가 제한됩니다. 이는 비용 효율적인 LLM 훈련의 중요성을 강조합니다. 본 논문에서는 성장 전략을 활용하여 LLM 훈련 비용을 크게 절감합니다. 우리는 101B 매개변수와 0.31TB 토큰을 가진 LLM을 100K 예산으로 훈련시킬 수 있음을 보여줍니다. 또한, 지식 중심 능력에 더 초점을 맞춘 기존 평가를 보완하여 LLM의 IQ 평가를 위한 체계적인 평가 패러다임을 채택합니다. 우리는 상징적 매핑, 규칙 이해, 패턴 마이닝, 간섭 방지 등 지능의 중요한 측면에 대한 평가를 포함한 벤치마크를 소개합니다. 이러한 평가는 암기의 잠재적 영향을 최소화합니다. 실험 결과, 100K 예산으로 훈련된 우리의 모델 FLM-101B는 GPT-3 및 GLM-130B와 같은 강력하고 잘 알려진 모델과 특히 훈련 데이터에서 보지 못한 컨텍스트를 포함한 IQ 벤치마크 평가에서 비슷한 성능을 달성함을 보여줍니다. FLM-101B의 체크포인트는 https://huggingface.co/CofeAI/FLM-101B에서 오픈소스로 공개될 예정입니다.
인상적인 성능에도 불구하고, 대규모 언어 모델(LLMs)은 환각 현상, 즉 사전 학습 중 접한 사실과 벗어난 내용을 생성하는 경향이 있습니다. 본 연구에서는 사전 학습된 LLMs의 환각 현상을 줄이기 위한 간단한 디코딩 전략을 제안합니다. 이 전략은 외부 지식을 검색하여 조건을 설정하거나 추가적인 미세 조정을 필요로 하지 않습니다. 우리의 접근법은 LLMs에서 사실적 지식이 일반적으로 특정 트랜스포머 계층에 국한되어 있다는 점을 활용하여, 후반 계층과 초반 계층을 어휘 공간에 투영하여 얻은 로짓(logits)의 차이를 대조함으로써 다음 토큰 분포를 얻습니다. 이 계층 대조 디코딩(Decoding by Contrasting Layers, DoLa) 접근법은 사실적 지식을 더 잘 표면화하고 잘못된 사실의 생성을 줄일 수 있음을 발견했습니다. DoLa는 다중 선택 과제와 자유 형성 과제에서 진실성을 일관되게 향상시켰으며, 예를 들어 TruthfulQA에서 LLaMA 계열 모델의 성능을 12-17% 절대 점수로 향상시켜, LLMs가 신뢰할 수 있는 진실한 사실을 생성하는 데 있어 그 잠재력을 입증했습니다.
비디오 세그멘테이션을 위한 학습 데이터는 주석을 달기 위해 많은 비용이 듭니다. 이는 특히 대규모 어휘 설정에서 새로운 비디오 세그멘테이션 작업으로의 종단 간(end-to-end) 알고리즘 확장을 방해합니다. 각 개별 작업에 대해 비디오 데이터를 학습하지 않고도 '어떤 것이든 추적'하기 위해, 우리는 작업별 이미지 수준 세그멘테이션과 클래스/작업에 구애받지 않는 양방향 시간적 전파로 구성된 분리된 비디오 세그멘테이션 접근법(DEVA)을 개발했습니다. 이 설계 덕분에, 우리는 대상 작업을 위한 이미지 수준 모델(학습 비용이 더 저렴함)과 한 번 학습하면 여러 작업에 걸쳐 일반화되는 범용 시간적 전파 모델만 필요로 합니다. 이 두 모듈을 효과적으로 결합하기 위해, 우리는 다른 프레임에서의 세그멘테이션 가설을 (준)온라인 방식으로 융합하여 일관된 세그멘테이션을 생성하기 위해 양방향 전파를 사용합니다. 우리는 이 분리된 구성이 대규모 어휘 비디오 팬옵틱 세그멘테이션, 오픈 월드 비디오 세그멘테이션, 참조 비디오 세그멘테이션, 그리고 비지도 비디오 객체 세그멘테이션을 포함한 여러 데이터가 부족한 작업에서 종단 간 접근법보다 우수함을 보여줍니다. 코드는 다음에서 확인할 수 있습니다: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
플로우 기반 전파와 시공간 트랜스포머는 비디오 인페인팅(VI)에서 두 가지 주류 메커니즘입니다. 이러한 구성 요소들의 효과성에도 불구하고, 여전히 성능에 영향을 미치는 몇 가지 한계점이 존재합니다. 기존의 전파 기반 접근법들은 이미지 도메인 또는 특징 도메인에서 별도로 수행되었습니다. 학습과 분리된 전역 이미지 전파는 부정확한 광학 흐름으로 인해 공간적 불일치를 초래할 수 있습니다. 또한, 메모리나 계산적 제약으로 인해 특징 전파와 비디오 트랜스포머의 시간적 범위가 제한되어, 먼 프레임 간의 대응 정보 탐색이 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 개선된 프레임워크인 ProPainter를 제안합니다. 이는 향상된 전파(ProPagation)와 효율적인 트랜스포머를 포함합니다. 구체적으로, 우리는 이미지 와핑과 특징 와핑의 장점을 결합한 이중 도메인 전파를 도입하여, 전역 대응 정보를 신뢰성 있게 활용합니다. 또한, 마스크 기반 희소 비디오 트랜스포머를 제안하여 불필요하고 중복된 토큰을 제거함으로써 높은 효율성을 달성합니다. 이러한 구성 요소를 통해, ProPainter는 PSNR에서 기존 최신 기술 대비 1.46 dB의 큰 격차로 우수한 성능을 보이면서도 매력적인 효율성을 유지합니다.
우리는 ImageBind을 통해 대규모 언어 모델(LLMs)의 다중 모달리티 명령어 튜닝 방법인 ImageBind-LLM을 제안합니다. 기존 연구들은 주로 언어와 이미지 명령어 튜닝에 초점을 맞추고 있는 반면, 우리의 ImageBind-LLM은 오디오, 3D 포인트 클라우드, 비디오 및 이들의 임베딩 공간 연산을 포함한 다중 모달리티 조건에 응답할 수 있습니다. 이는 단순히 이미지-텍스트 정렬 훈련만으로 가능합니다. 훈련 과정에서, 우리는 LLaMA와 ImageBind의 이미지 인코더 간의 임베딩 공간을 정렬하기 위해 학습 가능한 바인드 네트워크를 채택합니다. 그런 다음, 바인드 네트워크에 의해 변환된 이미지 특징은 LLaMA의 모든 레이어의 단어 토큰에 추가되어, 주의 메커니즘 없이 제로 초기화된 게이팅 메커니즘을 통해 시각적 명령어를 점진적으로 주입합니다. ImageBind의 공동 임베딩의 도움으로, 단순한 이미지-텍스트 훈련은 우리 모델이 우수한 다중 모달리티 명령어 수행 능력을 보이도록 합니다. 추론 과정에서, 다중 모달리티 입력은 해당 ImageBind 인코더에 입력되고, 제안된 시각적 캐시 모델에 의해 추가적인 교차 모달리티 임베딩 강화를 위해 처리됩니다. 훈련이 필요 없는 이 캐시 모델은 ImageBind에 의해 추출된 3백만 개의 이미지 특징에서 검색하여, 훈련-추론 모달리티 불일치를 효과적으로 완화합니다. 특히, 우리의 접근 방식으로 인해 ImageBind-LLM은 다양한 모달리티의 명령어에 응답할 수 있고, 뛰어난 언어 생성 품질을 보여줍니다. 코드는 https://github.com/OpenGVLab/LLaMA-Adapter에서 공개되었습니다.
우리는 컴퓨터 비전 작업을 인간의 지시와 정렬하기 위한 통합적이고 일반적인 프레임워크인 InstructDiffusion을 제안합니다. 기존 접근법들이 각 비전 작업에 대해 사전 지식을 통합하고 출력 공간(예: 카테고리 및 좌표)을 미리 정의하는 것과 달리, 우리는 다양한 비전 작업을 유연하고 상호작용 가능한 픽셀 공간을 출력으로 하는 인간 직관적인 이미지 조작 프로세스로 변환합니다. 구체적으로, 이 모델은 확산 프로세스(diffusion process)를 기반으로 구축되었으며, 사용자 지시에 따라 픽셀을 예측하도록 훈련됩니다. 예를 들어, 남자의 왼쪽 어깨를 빨간색으로 둘러싸거나 왼쪽 차에 파란색 마스크를 적용하는 등의 작업을 수행할 수 있습니다. InstructDiffusion은 세그멘테이션 및 키포인트 검출과 같은 이해 작업과 편집 및 향상과 같은 생성 작업을 포함한 다양한 비전 작업을 처리할 수 있습니다. 심지어 이 모델은 보지 못한 작업을 처리할 수 있는 능력을 보여주며, 새로운 데이터셋에서 기존 방법들을 능가합니다. 이는 비전 작업을 위한 일반적인 모델링 인터페이스로 나아가는 중요한 한 걸음이며, 컴퓨터 비전 분야에서 인공 일반 지능(artificial general intelligence)을 발전시키는 데 기여합니다.
본 논문에서는 단일 뷰 이미지로부터 다중 뷰 일관성 이미지를 생성하는 새로운 확산 모델을 제안합니다. 대규모 2D 확산 모델을 사전 학습하여 사용한 최근 연구인 Zero123은 단일 뷰 이미지에서 그럴듯한 새로운 뷰를 생성할 수 있음을 보여주었습니다. 그러나 생성된 이미지의 기하학적 구조와 색상 일관성을 유지하는 것은 여전히 과제로 남아 있습니다. 이 문제를 해결하기 위해, 우리는 다중 뷰 이미지의 결합 확률 분포를 모델링하여 단일 역과정에서 다중 뷰 일관성 이미지를 생성할 수 있는 동기화된 다중 뷰 확산 모델을 제안합니다. SyncDreamer는 3D 인지 기능 주의 메커니즘을 통해 역과정의 각 단계에서 생성된 모든 이미지의 중간 상태를 동기화하며, 이를 통해 서로 다른 뷰 간의 해당 특징들을 상호 연관시킵니다. 실험 결과, SyncDreamer는 서로 다른 뷰 간에 높은 일관성을 가진 이미지를 생성하며, 이는 새로운 뷰 합성, 텍스트-투-3D, 이미지-투-3D와 같은 다양한 3D 생성 작업에 적합함을 보여줍니다.
ControlNet과 같은 확산 모델의 최근 발전으로 기하학적으로 제어 가능한 고품질 텍스트-이미지 생성이 가능해졌습니다. 그러나 이러한 제어 기능을 텍스트-3D 생성에 추가하는 문제는 아직 해결되지 않았습니다. 이에 대응하여, 우리는 Text2Control3D를 제안합니다. 이는 핸드헬드 카메라로 캐주얼하게 촬영된 단안 비디오를 기반으로 얼굴 표정을 제어할 수 있는 제어 가능한 텍스트-3D 아바타 생성 방법입니다. 우리의 주요 전략은 ControlNet에서 생성된 제어된 시점 인식 이미지 세트로 최적화된 Neural Radiance Fields(NeRF) 내에 3D 아바타를 구축하는 것입니다. 여기서 ControlNet의 조건 입력은 입력 비디오에서 추출된 깊이 맵입니다. 시점 인식 이미지를 생성할 때, 우리는 교차 참조 주의(cross-reference attention)를 활용하여 잘 제어된 참조 얼굴 표정과 외관을 교차 주의(cross attention)를 통해 주입합니다. 또한, 우리는 확산 모델의 가우시안 잠재 공간에 대해 저역 통과 필터링을 수행하여, 우리의 실험적 분석에서 관찰된 시점에 무관한 텍스처 문제를 완화합니다. 이 문제는 시점 인식 이미지가 3D에서는 이해할 수 없는 동일한 픽셀 위치에 동일한 텍스처를 포함하는 현상입니다. 마지막으로, 시점 인식 이미지이지만 기하학적으로 엄격하게 일관되지 않은 이미지로 NeRF를 학습시키기 위해, 우리의 접근 방식은 이미지별 기하학적 변형을 공유된 3D 표준 공간에서의 변형으로 간주합니다. 결과적으로, 우리는 변형 필드 테이블을 통해 이미지별 변형 세트를 학습함으로써 변형 가능한 NeRF의 표준 공간 내에 3D 아바타를 구축합니다. 우리는 실험 결과를 보여주고 우리 방법의 효과에 대해 논의합니다.
대규모 언어 모델(LLMs)은 다양한 분야에서 보편적으로 사용되며, 정보와 상호작용하고 연구를 수행하는 방식을 혁신적으로 변화시키고 있습니다. 그러나 대부분의 고성능 LLM은 여전히 독점적인 벽 안에 갇혀 있어 과학적 진전을 저해하고 있습니다. 반면, 대부분의 오픈소스 LLM은 더 긴 시퀀스 길이를 지원하는 능력이 제한적이며, 이는 입력 컨텍스트에 대한 추론이 필요한 많은 작업에서 핵심 요구 사항입니다. 이를 해결하기 위해 우리는 최대 8K 시퀀스 길이와 최대 1.5T 토큰으로 7B 파라미터 모델 시리즈인 XGen을 학습시켰습니다. 또한 공개 도메인의 지시 데이터를 활용해 XGen 모델을 미세 조정하여 지시 튜닝 버전(XGen-Inst)을 생성했습니다. 우리는 연구 발전과 상업적 응용을 위해 이 모델들을 오픈소스로 공개합니다. 표준 벤치마크에서의 평가 결과, XGen 모델은 최신 오픈소스 LLM과 비교해 비슷하거나 더 나은 성능을 보여줍니다. 또한, 긴 시퀀스 모델링 작업에 대한 특화된 평가를 통해 8K 시퀀스 모델이 2K 시퀀스 오픈소스 LLM보다 우수한 성능을 보이는 것을 확인했습니다.
우리는 실제 세계의 로봇 학습 시스템에 대한 심층 분석을 제시합니다. 이 시스템은 이전 연구에서 인간과 수백 번의 탁구 랠리를 수행할 수 있고, 공을 원하는 목표 지점에 정확히 되돌려 보낼 수 있는 능력을 보여준 바 있습니다. 이 시스템은 고도로 최적화된 인식 서브시스템, 고속 저지연 로봇 제어기, 실제 세계에서의 손상을 방지하고 제로샷 전이를 위한 정책을 훈련할 수 있는 시뮬레이션 패러다임, 그리고 물리적 로봇에서의 자율 훈련과 평가를 가능하게 하는 자동화된 실제 환경 리셋 기능을 통합하고 있습니다. 우리는 다양한 지연 원인을 완화하는 것의 중요성, 훈련과 배포 분포 변화를 고려하는 것, 인식 시스템의 견고성, 정책 하이퍼파라미터에 대한 민감도, 그리고 행동 공간 선택과 같은 요소들을 명확히 하는 연구들을 통해, 일반적으로 널리 공유되지 않는 수많은 설계 결정을 포함한 완전한 시스템 설명을 보완합니다. 시스템의 구성 요소와 실험 결과의 상세 내용을 보여주는 비디오는 https://youtu.be/uFcnWjB42I0에서 확인할 수 있습니다.
이미지 합성 분야에서 잠재 확산 모델(Latent Diffusion Models, LDMs)의 놀라운 성공에 영감을 받아, 우리는 텍스트-투-비디오 생성에 LDM을 적용하는 방법을 연구했습니다. 이는 모델 학습과 추론 과정에서 발생하는 계산 및 메모리 제약으로 인해 매우 어려운 과제입니다. 단일 LDM은 일반적으로 매우 제한된 수의 비디오 프레임만 생성할 수 있습니다. 기존의 일부 연구는 더 많은 비디오 프레임을 생성하기 위해 별도의 예측 모델에 초점을 맞추고 있지만, 이는 추가적인 학습 비용과 프레임 수준의 불안정성을 초래합니다. 본 논문에서는 LDM에 의해 이미 생성된 프레임을 기반으로 더 많은 프레임을 생성하기 위해 "Reuse and Diffuse"라는 프레임워크인 VidRD를 제안합니다. 소수의 프레임으로 구성된 초기 비디오 클립을 조건으로, 원래의 잠재 특징을 재사용하고 이전의 확산 과정을 따르는 방식으로 추가 프레임을 반복적으로 생성합니다. 또한, 픽셀 공간과 잠재 공간 간의 변환을 위해 사용되는 오토인코더의 디코더에 시간적 레이어를 주입하고, 이러한 레이어를 미세 조정하여 더 높은 시간적 일관성을 달성했습니다. 우리는 또한 동작 인식을 위한 비디오 데이터셋과 이미지-텍스트 데이터셋을 포함한 다양한 기존 데이터셋의 콘텐츠를 활용하여 비디오-텍스트 데이터를 구성하기 위한 일련의 전략을 제안합니다. 광범위한 실험을 통해 우리의 방법이 양적 및 질적 평가 모두에서 좋은 결과를 달성함을 보여줍니다. 우리의 프로젝트 페이지는 https://anonymous0x233.github.io/ReuseAndDiffuse/{여기}에서 확인할 수 있습니다.