번역이 포함된 일일 선별된 AI 연구 논문
ChatGPT와 같은 모델들은 요약, 코딩, 번역 등 다양한 인공지능 응용 분야에서 혁명을 일으키며 인간의 성능을 따라잡거나 이를 뛰어넘는 성과를 보여주고 있습니다. 그러나 현재의 환경에서는 이러한 강력한 모델들, 특히 수십억 개의 파라미터 규모로 학습할 때 접근 가능하고 효율적이며 비용 효율적인 종단 간 RLHF(Reinforcement Learning with Human Feedback) 학습 파이프라인이 부족한 실정입니다. 본 논문은 RLHF 학습을 민주화하여 AI 커뮤니티가 더 쉽게 접근할 수 있도록 하는 새로운 시스템인 DeepSpeed-Chat을 소개합니다. DeepSpeed-Chat은 세 가지 주요 기능을 제공합니다: ChatGPT와 같은 모델을 위한 사용하기 쉬운 학습 및 추론 환경, InstructGPT의 학습 파이프라인을 재현하는 DeepSpeed-RLHF 파이프라인, 그리고 학습과 추론을 위한 다양한 최적화 기술을 통합한 강력한 DeepSpeed-RLHF 시스템입니다. 이 시스템은 전례 없는 효율성과 확장성을 제공하여 수천억 개의 파라미터를 가진 모델을 기록적인 시간과 저렴한 비용으로 학습할 수 있게 합니다. 이러한 발전을 통해 DeepSpeed-Chat은 제한된 자원을 가진 데이터 과학자들도 고급 RLHF 학습에 더 쉽게 접근할 수 있도록 하여, AI 분야의 혁신과 추가 발전을 촉진할 것입니다.
희소 전문가 혼합 아키텍처(MoE)는 훈련 또는 추론 비용의 큰 증가 없이 모델 용량을 확장합니다. 그 성공에도 불구하고, MoE는 여러 문제를 겪고 있습니다: 훈련 불안정성, 토큰 누락, 전문가 수 확장 불가능, 또는 비효율적인 미세 조정 등이 그것입니다. 본 연구에서는 이러한 문제를 해결하면서도 MoE의 장점을 유지하는 완전히 미분 가능한 희소 트랜스포머인 Soft MoE를 제안합니다. Soft MoE는 모든 입력 토큰의 다양한 가중치 조합을 각 전문가에게 전달함으로써 암묵적인 소프트 할당을 수행합니다. 다른 MoE 연구와 마찬가지로, Soft MoE의 전문가들은 (결합된) 토큰의 일부만 처리하여 더 큰 모델 용량을 낮은 추론 비용으로 가능하게 합니다. 시각 인식 분야에서 Soft MoE는 표준 트랜스포머(ViT)와 인기 있는 MoE 변형(Tokens Choice 및 Experts Choice)을 크게 능가합니다. 예를 들어, Soft MoE-Base/16은 ViT-Huge/14와 유사한 훈련 후 성능을 유지하면서 추론 비용을 10.5배(벽시계 시간 기준 5.7배) 낮춥니다. Soft MoE는 또한 확장성이 뛰어납니다: 16개의 MoE 레이어에 128명의 전문가를 가진 Soft MoE Huge/14는 ViT Huge/14보다 40배 이상 많은 파라미터를 가지고 있음에도 불구하고 추론 시간 비용은 단 2%만 증가하며, 훨씬 더 나은 성능을 보입니다.
언어 기반 이미지 조작이 놀라운 발전을 이루었음에도 불구하고, 인간의 의도를 충실히 반영한 조작 과정을 어떻게 지시할 것인가라는 과제는 여전히 남아 있습니다. 자연어를 사용하여 조작 작업을 정확하고 포괄적으로 설명하는 것은 노력이 많이 들며, 언어 표현에 내재된 불확실성과 모호성으로 인해 때로는 불가능하기까지 합니다. 외부의 교차 모달 언어 정보에 의존하지 않고 이미지 조작을 수행하는 것이 가능할까요? 이러한 가능성이 존재한다면, 내재된 모달리티 간의 격차는 쉽게 해소될 것입니다. 본 논문에서는 더 정확한 이미지 편집을 위한 시각적 지침을 학습하는 새로운 조작 방법론인 ImageBrush를 제안합니다. 우리의 핵심 아이디어는 변환 이미지 쌍을 시각적 지침으로 사용하는 것으로, 이는 인간의 의도를 정확히 포착할 뿐만 아니라 실제 시나리오에서의 접근성을 용이하게 합니다. 시각적 지침을 포착하는 것은 특히 어려운 과제인데, 이는 시각적 데모로부터 내재된 의도를 추출한 후 이를 새로운 이미지에 적용하는 과정을 포함하기 때문입니다. 이 문제를 해결하기 위해, 우리는 시각적 지침 학습을 확산 기반의 인페인팅 문제로 공식화하며, 이 과정에서 반복적인 생성 과정을 통해 문맥 정보를 충분히 활용합니다. 시각적 프롬프트 인코더는 시각적 지침 뒤에 숨겨진 인간의 의도를 발견하는 모델의 능력을 강화하기 위해 신중하게 설계되었습니다. 광범위한 실험을 통해 우리의 방법이 데모에 포함된 변환을 따르는 매력적인 조작 결과를 생성함을 보여줍니다. 또한, 우리 모델은 포즈 전이, 이미지 변환, 비디오 인페인팅과 같은 다양한 하위 작업에서 강력한 일반화 능력을 보여줍니다.
우리의 접근 방식은 Embeddings for Language/Image-aligned X-Rays(ELIXR)라고 명명되었으며, 언어 정렬 이미지 인코더를 고정된 대형 언어 모델(LLM)인 PaLM 2와 결합하거나 접목시켜 다양한 작업을 수행합니다. 우리는 MIMIC-CXR 데이터셋에서 제공되는 자유 텍스트 형태의 방사선 보고서와 짝을 이루는 이미지를 사용하여 이 경량 어댑터 아키텍처를 학습시켰습니다. ELIXR은 제로샷 흉부 X선(CXR) 분류(13가지 소견에 대한 평균 AUC 0.850), 데이터 효율적 CXR 분류(5가지 소견(무기폐, 심비대, 폐경화, 흉막 삼출, 폐부종)에 대해 1%(약 2,200장) 및 10%(약 22,000장)의 학습 데이터로 각각 평균 AUC 0.893 및 0.898 달성), 그리고 의미론적 검색(19개 쿼리에 대해 정규화된 누적 할인 이득(NDCG) 0.76, 이 중 12개 쿼리에서 완벽한 검색 성능)에서 최첨단 성능을 보였습니다. 지도 대조 학습(SupCon)을 포함한 기존의 데이터 효율적 방법들과 비교했을 때, ELIXR은 유사한 성능을 달성하는 데 두 배 이상 적은 데이터를 필요로 했습니다. 또한 ELIXR은 CXR 시각-언어 작업에서도 유망한 결과를 보였으며, 시각적 질문 응답과 보고서 품질 보증 작업에서 각각 58.7%와 62.5%의 전반적인 정확도를 달성했습니다. 이러한 결과는 ELIXR이 CXR AI에 있어 견고하고 다재다능한 접근 방식임을 시사합니다.
DETR 기반 접근법이 COCO 탐지 및 세분화 벤치마크에서 새로운 기록을 수립한 것에 고무되어, 최근 많은 연구들이 백본을 고정한 상태에서 Transformer를 자기 지도 방식으로 사전 학습함으로써 DETR 기반 접근법을 더욱 개선하는 방법에 대해 점점 더 많은 관심을 보이고 있습니다. 일부 연구에서는 이미 정확도 측면에서 상당한 개선을 달성했다고 주장하고 있습니다. 본 논문에서는 이러한 연구들의 실험 방법론을 자세히 살펴보고, H-Deformable-DETR와 같은 최신 최첨단 기술에서도 여전히 효과적인지 검증합니다. COCO 객체 탐지 작업에 대한 철저한 실험을 통해 사전 학습 데이터셋 선택, 위치 지정 및 분류 목표 생성 방식의 영향을 연구합니다. 그러나 안타깝게도 DETReg와 같은 이전의 대표적인 자기 지도 학습 접근법은 전체 데이터 체제에서 강력한 DETR 기반 접근법의 성능을 향상시키지 못하는 것으로 나타났습니다. 우리는 그 이유를 더 깊이 분석하고, 더 정확한 박스 예측기와 Objects365 벤치마크를 단순히 결합하는 것만으로도 후속 실험에서 결과를 크게 개선할 수 있음을 발견했습니다. 우리의 접근법의 효과를 입증하기 위해 COCO 검증 세트에서 AP=59.3%의 강력한 객체 탐지 결과를 달성했으며, 이는 H-Deformable-DETR + Swin-L을 +1.4% 앞섭니다. 마지막으로, 최신 이미지-텍스트 캡션 생성 모델(LLaVA)과 텍스트-이미지 생성 모델(SDXL)을 결합하여 일련의 합성 사전 학습 데이터셋을 생성합니다. 특히, 이러한 합성 데이터셋으로 사전 학습을 수행하면 객체 탐지 성능이 눈에 띄게 향상됩니다. 앞으로는 합성 사전 학습 데이터셋의 확장을 통해 상당한 이점을 기대할 수 있을 것으로 예상됩니다.
CLIP은 기초적인 비전-언어 모델로서, 다양한 시각적 개념과 자연어 설명을 이해할 수 있는 능력 덕분에 제로샷 이미지 분류에서 널리 사용되고 있습니다. 그러나 CLIP의 전례 없는 인간 수준의 이해 능력을 최대한 활용하여 더 나은 제로샷 분류를 달성하는 방법은 여전히 미해결 과제로 남아 있습니다. 본 논문은 인간의 시각 인지 과정에서 영감을 얻었습니다: 현대 신경과학의 관점에 따르면, 인간은 물체를 분류할 때 먼저 클래스와 무관한 속성(예: 배경과 방향)을 추론하여 전경 물체를 배경과 분리한 후, 이 정보를 바탕으로 결정을 내립니다. 이를 바탕으로, 우리는 CLIP에 문맥적 속성을 제공하면 제로샷 분류가 개선되고 허위 특징에 대한 의존성이 완화된다는 것을 관찰했습니다. 또한 CLIP 자체가 이미지로부터 이러한 속성을 합리적으로 추론할 수 있다는 점도 확인했습니다. 이러한 관찰을 바탕으로, 우리는 PerceptionCLIP이라는 훈련이 필요 없는 두 단계의 제로샷 분류 방법을 제안합니다. 이 방법은 주어진 이미지에 대해 먼저 문맥적 속성(예: 배경)을 추론한 후, 이를 조건으로 하여 물체 분류를 수행합니다. 우리의 실험 결과, PerceptionCLIP은 더 나은 일반화, 그룹 견고성, 그리고 더 나은 해석 가능성을 달성했습니다. 예를 들어, ViT-L/14를 사용한 PerceptionCLIP은 Waterbirds 데이터셋에서 최악의 그룹 정확도를 16.5% 향상시켰고, CelebA에서는 3.5% 향상시켰습니다.