번역이 포함된 일일 선별된 AI 연구 논문
대규모 데이터 사전 학습에 의해 주도되는 Segment Anything Model(SAM)은 강력하고 프롬프트 가능한 프레임워크로 입증되며, 세그멘테이션 모델에 혁신을 가져왔습니다. 그러나 이러한 일반성에도 불구하고, 특정 시각적 개념에 대해 SAM을 수동 프롬프트 없이 맞춤화하는 방법은 아직 충분히 탐구되지 않았습니다. 예를 들어, 다양한 이미지에서 애완견을 자동으로 세그먼트하는 것과 같은 작업이 이에 해당합니다. 본 논문에서는 SAM을 위한 훈련이 필요 없는 개인화 접근법인 PerSAM을 제안합니다. 단일 이미지와 참조 마스크만 주어지면, PerSAM은 위치 사전 정보를 통해 대상 개념을 지역화하고, 대상 유도 주의, 대상 의미론적 프롬프트, 그리고 계단식 사후 정제라는 세 가지 기술을 통해 다른 이미지나 비디오에서 이를 세그먼트합니다. 이를 통해 우리는 어떠한 훈련도 없이 SAM을 개인용으로 효과적으로 적용합니다. 마스크 모호성을 더욱 완화하기 위해, 우리는 효율적인 원샷 미세 조정 변형인 PerSAM-F를 제시합니다. 전체 SAM을 고정한 상태에서, 우리는 다중 스케일 마스크를 위한 두 개의 학습 가능한 가중치를 도입하여 단 10초 내에 2개의 매개변수만 훈련함으로써 성능을 향상시킵니다. 우리의 효율성을 입증하기 위해, 우리는 개인화 평가를 위한 새로운 세그먼테이션 데이터셋인 PerSeg를 구축하고, 비디오 객체 세그먼테이션에서 경쟁력 있는 성능으로 우리의 방법을 테스트합니다. 또한, 우리의 접근법은 DreamBooth를 강화하여 Stable Diffusion을 텍스트-이미지 생성에 개인화할 수 있으며, 이는 배경 간섭을 제거하여 대상 외관 학습을 개선합니다. 코드는 https://github.com/ZrrSkywalker/Personalize-SAM에서 공개되었습니다.
ChatGPT와 같은 대규모 언어 모델의 출력을 특정 사용자 요구에 맞게 조정하는 것은 모델의 인상적인 생성 품질에도 불구하고 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 생성된 출력의 맞춤화를 강화하기 위해 생성기, 지시자, 편집자로 구성된 삼중 에이전트 생성 파이프라인을 제안합니다. 생성기는 초기 출력을 생성하고, 사용자별 지시자는 편집 지침을 생성하며, 편집자는 사용자 선호도에 맞춰 수정된 출력을 생성합니다. 추론 전용 대규모 언어 모델(ChatGPT)은 생성기와 편집자 역할을 동시에 수행하며, 더 작은 모델은 사용자별 지시자로 작동하여 생성 과정을 사용자 요구에 맞게 유도합니다. 지시자는 대규모 편집자 모델의 피드백을 활용한 편집자 주도 강화 학습을 통해 훈련되어 지침 생성을 최적화합니다. 두 개의 요약 생성 데이터셋에서의 실험 결과는 본 접근 방식이 사용자 기대를 더 잘 충족하는 출력을 생성하는 데 효과적임을 입증합니다.
본 논문에서는 3D 자산을 위한 조건부 생성 모델인 Shap-E를 소개한다. 최근의 3D 생성 모델 연구가 단일 출력 표현을 생성하는 데 초점을 맞추고 있는 반면, Shap-E는 텍스처가 적용된 메시와 신경 방사 필드(NeRF)로 모두 렌더링될 수 있는 암시적 함수의 매개변수를 직접 생성한다. Shap-E는 두 단계로 학습된다: 첫째, 3D 자산을 암시적 함수의 매개변수로 결정론적으로 매핑하는 인코더를 학습하고, 둘째, 이 인코더의 출력에 대해 조건부 확산 모델을 학습한다. 대규모 3D 및 텍스트 데이터 쌍으로 학습된 결과, 본 모델은 복잡하고 다양한 3D 자산을 단 몇 초 만에 생성할 수 있다. 점 구름에 대한 명시적 생성 모델인 Point-E와 비교했을 때, Shap-E는 더 높은 차원의 다중 표현 출력 공간을 모델링함에도 불구하고 더 빠르게 수렴하며, 유사하거나 더 나은 샘플 품질을 달성한다. 모델 가중치, 추론 코드 및 샘플은 https://github.com/openai/shap-e에서 공개한다.
최근 ChatGPT와 같은 AI 어시스턴트 에이전트는 대규모 언어 모델(LLM)의 출력을 인간의 의도와 일치시키고, 도움이 되고 윤리적이며 신뢰할 수 있도록 보장하기 위해 주로 인간 주석을 통한 지도 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)에 의존하고 있습니다. 그러나 이러한 의존성은 인간 감독을 얻는 데 드는 높은 비용과 품질, 신뢰성, 다양성, 자기 일관성 및 바람직하지 않은 편향과 관련된 문제로 인해 AI 어시스턴트 에이전트의 진정한 잠재력을 크게 제한할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 최소한의 인간 감독으로 AI 에이전트의 자기 정렬을 위해 원칙 기반 추론과 LLM의 생성 능력을 결합한 SELF-ALIGN이라는 새로운 접근 방식을 제안합니다. 우리의 접근 방식은 네 단계로 구성됩니다: 첫째, LLM을 사용하여 합성 프롬프트를 생성하고, 주제 기반 방법을 통해 프롬프트 다양성을 확장합니다. 둘째, AI 모델이 따를 소규모의 인간 작성 원칙을 사용하고, 원칙 적용의 데모를 통해 컨텍스트 내 학습을 통해 LLM을 안내하여 사용자의 질문에 도움이 되고 윤리적이며 신뢰할 수 있는 응답을 생성합니다. 셋째, 원래의 LLM을 고품질의 자기 정렬 응답으로 미세 조정하여 결과 모델이 원칙 집합과 데모 없이도 각 질문에 대해 바람직한 응답을 직접 생성할 수 있도록 합니다. 마지막으로, 지나치게 간략하거나 간접적인 응답의 문제를 해결하기 위한 정제 단계를 제공합니다. SELF-ALIGN을 LLaMA-65b 기본 언어 모델에 적용하여 Dromedary라는 AI 어시스턴트를 개발했습니다. 300줄 미만의 인간 주석(200개 미만의 시드 프롬프트, 16개의 일반 원칙, 컨텍스트 내 학습을 위한 5개의 예제 포함)을 사용하여 Dromedary는 다양한 설정의 벤치마크 데이터셋에서 Text-Davinci-003 및 Alpaca를 포함한 여러 최첨단 AI 시스템의 성능을 크게 능가합니다.