번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 불과 몇 년 만에 머신러닝 담론에서 존재하지 않던 상태에서 어디서나 찾아볼 수 있는 존재로 자리 잡았습니다. 이 분야의 빠른 발전 속도로 인해 남아 있는 과제들과 이미 성과를 거둔 응용 분야들을 파악하기가 어려운 상황입니다. 본 논문에서는 머신러닝 연구자들이 해당 분야의 현재 상태를 더 빠르게 이해하고 생산적으로 기여할 수 있도록, 체계적인 미해결 문제들과 성공적인 응용 사례들을 정립하고자 합니다.
2022년 말부터 대형 언어 모델(LLMs)은 ChatGPT와 Bard와 같은 모델들이 수백만 명의 사용자를 확보하며 매우 두각을 나타내고 있습니다. 매주 수백 개의 새로운 LLM이 발표되며, 이 중 다수는 머신러닝 모델과 데이터셋의 저장소인 Hugging Face에 등록됩니다. 현재까지 이 사이트에는 거의 16,000개의 텍스트 생성 모델이 업로드되었습니다. 이러한 LLM의 급증 속에서 어떤 LLM 백본, 설정, 훈련 방법 및 계열이 인기 있는지 또는 트렌드인지 파악하는 것이 중요합니다. 그러나 현재 LLM을 종합적으로 정리한 인덱스는 존재하지 않습니다. 우리는 Hugging Face의 LLM 명명 체계가 비교적 체계적이라는 점을 활용하여 n-그램과 TF-IDF(단어 빈도-역문서 빈도)를 사용해 계층적 클러스터링을 수행하고 LLM 간의 커뮤니티를 식별했습니다. 우리의 방법은 LLM 계열을 성공적으로 식별하고 LLM을 의미 있는 하위 그룹으로 정확하게 클러스터링합니다. 우리는 15,821개의 LLM을 담은 아틀라스인 Constellation을 탐색하고 조사할 수 있는 공개 웹 애플리케이션을 제시합니다. Constellation은 덴드로그램, 그래프, 워드 클라우드, 산점도 등 다양한 시각화를 신속하게 생성합니다. Constellation은 다음 링크에서 이용 가능합니다: https://constellation.sites.stanford.edu/.
시각 콘텐츠 생성이 기계 학습에 의해 점점 더 주도되는 시대에서, 생성 모델에 인간 피드백을 통합하는 것은 사용자 경험과 출력 품질을 향상시키는 중요한 기회를 제공한다. 본 연구는 확산 기반 텍스트-이미지 모델의 생성 과정에 반복적인 인간 피드백을 통합하기 위한 전략을 탐구한다. 우리는 가장 널리 사용되는 아키텍처에 존재하는 자기 주의(self-attention) 계층을 활용하여 피드백 이미지 집합에 기반한 확산 과정을 조건화하는, 다양한 인기 있는 확산 모델에 적용 가능한 학습이 필요 없는 접근 방식인 FABRIC을 제안한다. 우리의 접근 방식을 엄격하게 평가하기 위해, 인간 피드백을 통합한 생성 시각 모델의 성능을 정량화할 수 있는 강력한 메커니즘을 제공하는 포괄적인 평가 방법론을 소개한다. 우리는 반복적인 피드백을 통해 생성 결과가 개선됨을 철저한 분석을 통해 보여주며, 임의의 사용자 선호도를 암묵적으로 최적화한다. 이러한 연구 결과의 잠재적 응용 분야는 개인화된 콘텐츠 생성 및 맞춤화와 같은 분야로 확장될 수 있다.
레이어 합성은 아마추어와 전문가 모두에게 가장 인기 있는 이미지 편집 워크플로 중 하나입니다. 확산 모델의 성공에 영감을 받아, 우리는 레이어 이미지 생성 관점에서 레이어 합성을 탐구합니다. 단일 이미지를 생성하는 대신, 배경, 전경, 레이어 마스크, 그리고 합성된 이미지를 동시에 생성하는 방법을 제안합니다. 레이어 이미지 생성을 달성하기 위해, 우리는 레이어 이미지를 재구성할 수 있는 오토인코더를 학습시키고 잠재 표현에 대해 확산 모델을 학습시킵니다. 제안된 문제의 한 가지 장점은 고품질 이미지 출력 외에도 더 나은 합성 워크플로를 가능하게 한다는 점입니다. 또 다른 장점은 별도의 이미지 분할 단계에서 생성된 마스크보다 더 높은 품질의 레이어 마스크를 생성한다는 것입니다. 실험 결과는 제안된 방법이 고품질의 레이어 이미지를 생성할 수 있으며, 향후 연구를 위한 벤치마크를 제시함을 보여줍니다.
언어 모델과 시각 언어 모델은 최근 텍스트 형태로 인간의 의도 이해, 추론, 장면 이해, 계획과 유사한 행동 등 전례 없는 능력을 보여주고 있습니다. 본 연구에서는 이러한 능력을 강화 학습(Reinforcement Learning, RL) 에이전트에 내재화하고 활용하는 방법을 탐구합니다. 우리는 언어를 핵심 추론 도구로 사용하는 프레임워크를 설계하여, 이를 통해 에이전트가 효율적인 탐색, 경험 데이터 재사용, 스킬 스케줄링, 관찰로부터의 학습 등 전통적으로 별도의 수직 설계 알고리즘이 필요한 일련의 근본적인 RL 과제에 어떻게 대처할 수 있는지 탐구합니다. 우리는 이 방법을 희소 보상 시뮬레이션 로봇 조작 환경에서 테스트하며, 로봇이 일련의 물체를 쌓아야 하는 과제를 수행합니다. 우리는 탐색 효율성과 오프라인 데이터셋으로부터 데이터를 재사용하는 능력에서 기준선 대비 상당한 성능 향상을 입증하고, 학습된 스킬을 재사용하여 새로운 과제를 해결하거나 인간 전문가의 비디오를 모방하는 방법을 보여줍니다.
대화형 AI의 발전에도 불구하고, 언어 모델은 다양한 대화 작업을 처리하는 데 어려움을 겪으며, 기존의 대화 데이터셋 컬렉션은 다양성과 포괄성이 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 DialogStudio를 소개합니다: 가장 크고 다양한 대화 데이터셋 컬렉션으로, 일관된 형식으로 통합되면서도 원본 정보를 보존합니다. 우리의 컬렉션은 개방형 도메인 대화, 작업 지향 대화, 자연어 이해, 대화형 추천, 대화 요약, 지식 기반 대화 등 다양한 데이터를 포함하여 대화 연구와 모델 학습을 위한 매우 풍부하고 다양한 리소스를 제공합니다. DialogStudio의 유용성을 더욱 높이기 위해, 각 데이터셋의 라이선스를 식별하고 선택된 대화에 대해 도메인 인식 프롬프트를 설계하여 지시어 인식 미세 조정을 용이하게 합니다. 또한, 이 데이터셋 컬렉션을 사용하여 대화형 AI 모델을 개발했으며, 제로샷 및 퓨샷 학습 시나리오에서의 실험을 통해 DialogStudio의 우수성을 입증했습니다. 투명성을 높이고 데이터셋 및 작업 기반 연구, 그리고 언어 모델 사전 학습을 지원하기 위해, DialogStudio와 관련된 모든 데이터셋, 라이선스, 코드, 모델은 https://github.com/salesforce/DialogStudio에서 공개적으로 접근 가능합니다.
디바이스 제어 시스템에 대한 관심이 점차 증가하고 있으며, 이러한 시스템은 인간의 자연어 명령을 해석하여 디지털 디바이스의 사용자 인터페이스를 직접 제어함으로써 해당 명령을 실행할 수 있습니다. 본 논문에서는 디바이스 제어 연구를 위한 데이터셋인 Android in the Wild(AITW)를 소개합니다. 이 데이터셋은 기존 데이터셋보다 규모가 훨씬 크며, 디바이스 상호작용에 대한 인간의 데모, 화면 및 동작, 그리고 해당 자연어 명령을 포함하고 있습니다. 이 데이터셋은 30,000개의 고유한 명령어로 구성된 715,000개의 에피소드로 이루어져 있으며, Android 버전 10부터 13까지의 네 가지 버전과 Pixel 2 XL부터 Pixel 6까지의 여덟 가지 디바이스 유형을 포함합니다. 또한, 다양한 화면 해상도를 지원하며, 언어와 시각적 맥락에 대한 의미적 이해가 필요한 다단계 작업을 포함하고 있습니다. 이 데이터셋은 새로운 도전 과제를 제시합니다: 사용자 인터페이스를 통해 가능한 동작은 시각적 외관으로부터 추론되어야 합니다. 그리고 단순한 UI 요소 기반의 동작 대신, 정확한 제스처(예: 캐러셀 위젯을 조작하기 위한 수평 스크롤)로 구성된 동작 공간을 포함합니다. 우리는 이 데이터셋을 디바이스 제어 시스템의 견고성 분석을 촉진하기 위해 구성했습니다. 즉, 새로운 작업 설명, 새로운 애플리케이션, 또는 새로운 플랫폼 버전이 있을 때 시스템이 얼마나 잘 수행되는지 분석할 수 있도록 설계했습니다. 우리는 두 가지 에이전트를 개발하고 데이터셋 전반에 걸친 성능을 보고합니다. 이 데이터셋은 https://github.com/google-research/google-research/tree/master/android_in_the_wild에서 확인할 수 있습니다.
LLM(대형 언어 모델)은 이전까지 인간의 고유 능력으로 여겨졌던 크라우드소싱 작업에서 인간과 유사한 행동을 모방하는 데 유망한 가능성을 보여주었다. 그러나 현재의 연구는 주로 단순한 원자적 작업에 초점을 맞추고 있다. 본 연구에서는 LLM이 더 복잡한 크라우드소싱 파이프라인을 모방할 수 있는지 탐구한다. 우리는 현대의 LLM이 이러한 "인간 계산 알고리즘"에서 크라우드워커의 일부 능력을 시뮬레이션할 수 있음을 발견했지만, 성공 수준은 요청자가 LLM의 능력을 이해하는 정도, 하위 작업에 필요한 특정 기술, 그리고 이러한 하위 작업을 수행하기 위한 최적의 상호작용 방식에 따라 다양하게 나타난다. 우리는 인간과 LLM이 지시에 대해 서로 다른 민감성을 보인다는 점을 반영하고, LLM에 대한 인간 중심의 안전장치를 마련하는 것의 중요성을 강조하며, 상호 보완적인 기술 세트를 갖춘 인간과 LLM을 훈련시킬 가능성에 대해 논의한다. 특히, 크라우드소싱 파이프라인을 모방하는 것이 (1) 다양한 작업에 대한 LLM의 상대적 강점(하위 작업 간 성능을 교차 비교함으로써)과 (2) 복잡한 작업에서 LLM의 잠재력을 조사하는 데 유용한 플랫폼을 제공한다는 점을 보여준다. 여기서 LLM은 작업의 일부를 완료하고 나머지는 인간에게 맡길 수 있다.
실사적인 인간 중심 렌더링은 컴퓨터 비전과 컴퓨터 그래픽스 분야에서 핵심적인 역할을 한다. 지난 몇 년간 알고리즘 측면에서 급속한 발전이 이루어졌지만, 기존의 인간 중심 렌더링 데이터셋과 벤치마크는 다양성 측면에서 상당히 빈약한 실정이며, 이는 렌더링 효과에 있어 중요한 요소이다. 연구자들은 현재의 데이터셋을 통해 소수의 렌더링 문제를 탐구하고 평가하는 데 제약을 받는 반면, 실제 응용에서는 다양한 시나리오에서도 견고한 방법이 요구된다. 본 연구에서는 신경망 기반 배우 렌더링을 위한 대규모 고품질 인간 성능 데이터 저장소인 DNA-Rendering을 소개한다. DNA-Rendering은 몇 가지 매력적인 특성을 지닌다. 첫째, 우리의 데이터셋은 1500명 이상의 인간 피험자, 5000개의 동작 시퀀스, 그리고 6750만 프레임의 데이터 양을 포함한다. 둘째, 각 피험자에 대해 2D/3D 인체 키포인트, 전경 마스크, SMPLX 모델, 의복/액세서리 재질, 다중 뷰 이미지 및 비디오와 같은 풍부한 자산을 제공한다. 이러한 자산은 하류 렌더링 작업에서 현재 방법의 정확도를 향상시킨다. 셋째, 우리는 데이터를 캡처하기 위해 60대의 동기화된 카메라로 구성된 전문 다중 뷰 시스템을 구축했으며, 최대 4096 x 3000 해상도, 15fps 속도, 엄격한 카메라 보정 단계를 통해 작업 훈련 및 평가를 위한 고품질 자원을 보장한다. 데이터셋과 함께, 우리는 새로운 시점 합성, 새로운 포즈 애니메이션 합성, 새로운 신원 렌더링 방법의 기존 진전을 평가하기 위한 다중 작업을 포함한 대규모 정량적 벤치마크를 제공한다. 이 원고에서 우리는 DNA-Rendering의 노력을 통해 인간 중심 렌더링에 대한 새로운 관찰, 도전, 그리고 미래 방향을 제시한다. 데이터셋, 코드, 벤치마크는 https://dna-rendering.github.io/에서 공개될 예정이다.
대규모 딥러닝 모델 훈련에서 적응형 그래디언트 기반 최적화 도구, 특히 Adam은 그 흔적을 남겼다. 이러한 최적화 도구의 강점은 하이퍼파라미터 선택에 더 강인하면서도 빠른 수렴을 보인다는 점이다. 그러나 이들은 비적응형 방법들보다 일반적으로 더 나쁜 일반화 성능을 보이는 경우가 많다. 최근 연구들은 이러한 성능 격차를 평탄한 최소값 선택과 연관지어 설명한다: 적응형 방법들은 손실 지형의 더 날카로운 골짜기에서 해결책을 찾는 경향이 있으며, 이는 결국 일반화를 저해한다. 이 문제를 극복하기 위해, 우리는 훈련 중에 중요한 모멘텀 항들의 버퍼를 사용하여 더 평탄한 최소값을 향한 탐색을 촉진하는 새로운 메모리 증강 버전의 Adam을 제안한다. 직관적으로, 버퍼의 사용은 최적화 도구가 충분히 넓지 않은 경우, 끌개 골짜기 바깥으로 넘어가도록 만든다. 우리는 실험적으로 우리의 방법이 표준 지도 학습 언어 모델링 및 이미지 분류 작업에서 여러 Adam 변형들의 성능을 향상시킨다는 것을 보여준다.