번역이 포함된 일일 선별된 AI 연구 논문
대화형 생성 AI는 생명의학 분야 실무자들에게 유용한 잠재력을 보여주고 있지만, 현재 연구는 단일 모드인 텍스트에 집중되어 있습니다. 멀티모달 대화형 AI는 공개 웹에서 수집된 수십억 개의 이미지-텍스트 쌍을 활용하여 빠르게 발전하고 있지만, 이러한 일반 도메인의 시각-언어 모델은 여전히 생명의학 이미지를 이해하고 이에 대해 대화하는 데 있어 정교함이 부족합니다. 본 논문에서는 생명의학 이미지에 대한 개방형 연구 질문에 답할 수 있는 시각-언어 대화형 어시스턴트를 효율적으로 훈련하는 방법을 제안합니다. 핵심 아이디어는 PubMed Central에서 추출한 대규모의 광범위한 생명의학 도표-캡션 데이터셋을 활용하고, GPT-4를 사용하여 캡션에서 개방형 지시-따르기 데이터를 자가 생성한 후, 새로운 커리큘럼 학습 방법을 통해 대규모 일반 도메인 시각-언어 모델을 미세 조정하는 것입니다. 구체적으로, 모델은 먼저 도표-캡션 쌍을 그대로 사용하여 생명의학 어휘를 정렬하는 방법을 배우고, 이후 GPT-4가 생성한 지시-따르기 데이터를 사용하여 개방형 대화 의미를 숙달하는 방법을 배웁니다. 이는 일반인이 점차 생명의학 지식을 습득하는 과정을 넓게 모방한 것입니다. 이를 통해 8개의 A100 GPU를 사용하여 15시간 이내에 생명의학을 위한 대규모 언어 및 시각 어시스턴트(LLaVA-Med)를 훈련할 수 있었습니다. LLaVA-Med은 우수한 멀티모달 대화 능력을 보여주며, 생명의학 이미지에 대한 문의를 지원하기 위해 개방형 지시를 따를 수 있습니다. 세 가지 표준 생명의학 시각 질문 응답 데이터셋에서 LLaVA-Med은 특정 지표에서 이전의 지도 학습 최첨단 모델을 능가했습니다. 생명의학 멀티모달 연구를 촉진하기 위해, 우리는 지시-따르기 데이터와 LLaVA-Med 모델을 공개할 예정입니다.
사전 학습된 대형 텍스트-이미지 모델은 적절한 텍스트 프롬프트를 사용하여 인상적인 이미지를 합성합니다. 그러나 자연어에 내재된 모호성과 분포 외 효과로 인해 특정 디자인 패턴, 질감 또는 재질을 활용한 이미지 스타일을 합성하는 것은 어려운 작업입니다. 본 논문에서는 텍스트-이미지 모델을 사용하여 특정 스타일을 충실히 따르는 이미지를 합성할 수 있는 StyleDrop 방법을 소개합니다. 제안된 방법은 매우 다재다능하며, 사용자가 제공한 스타일의 색상 구성, 음영, 디자인 패턴, 그리고 지역적 및 전역적 효과와 같은 미묘한 차이와 세부 사항을 포착합니다. 이 방법은 매우 적은 수의 학습 가능한 매개변수(전체 모델 매개변수의 1% 미만)를 미세 조정하고, 인간 또는 자동화된 피드백을 통한 반복적인 학습을 통해 품질을 향상시킴으로써 새로운 스타일을 효율적으로 학습합니다. 더 나아가, StyleDrop은 사용자가 원하는 스타일을 지정하는 단일 이미지만 제공하더라도 인상적인 결과를 제공할 수 있습니다. 광범위한 연구 결과, 스타일 튜닝 텍스트-이미지 모델 작업에서 Muse에 구현된 StyleDrop은 Imagen 또는 Stable Diffusion에서의 DreamBooth 및 텍스트 반전을 포함한 다른 방법들을 압도적으로 능가함을 보여줍니다. 더 많은 결과는 프로젝트 웹사이트(https://styledrop.github.io)에서 확인할 수 있습니다.
우리는 Atari 100K 벤치마크에서 인간을 뛰어넘는 성능을 달성하는 가치 기반 강화학습(RL) 에이전트를 소개하며, 이를 BBF라고 명명합니다. BBF는 가치 추정을 위해 사용되는 신경망의 규모 확장과 함께, 이러한 확장을 샘플 효율적으로 가능하게 하는 여러 설계 선택에 의존합니다. 우리는 이러한 설계 선택에 대한 광범위한 분석을 수행하고 향후 연구를 위한 통찰을 제공합니다. 마지막으로 ALE(Arcade Learning Environment)에서의 샘플 효율적 RL 연구 목표를 업데이트하는 것에 대한 논의로 마무리합니다. 우리는 코드와 데이터를 https://github.com/google-research/google-research/tree/master/bigger_better_faster에서 공개적으로 제공합니다.
Stable Diffusion과 같은 확산 모델로 생성된 이미지가 점점 더 널리 퍼지고 있습니다. 최근 연구와 소송 사례에서도 이러한 모델들이 사용자에게 알려지지 않은 상태에서 학습 데이터를 복제하는 경향이 있음이 밝혀졌습니다. 본 논문에서는 먼저 텍스트-이미지 확산 모델에서의 이러한 기억화 문제를 분석합니다. 학습 데이터셋 내 중복 이미지가 추론 시 콘텐츠 복제의 원인으로 널리 알려져 있지만, 우리는 모델의 텍스트 조건화가 이와 유사하게 중요한 역할을 한다는 점을 관찰했습니다. 실제로 실험에서 무조건 모델의 경우 데이터 복제가 자주 발생하지 않는 반면, 텍스트 조건 모델에서는 흔히 발생함을 확인했습니다. 이러한 발견을 바탕으로, 우리는 학습 데이터셋 내 이미지 캡션을 무작위화하고 증강함으로써 학습 및 추론 시 데이터 복제를 줄이는 여러 기술을 제안합니다.
트랜스포머(Transformers)는 최첨단 자연어 처리 모델의 초석으로 자리 잡으며, 다양한 AI 애플리케이션에서 탁월한 성능을 보여주고 있습니다. 그러나 트랜스포머의 자기 주의(self-attention) 메커니즘과 대규모 피드포워드 네트워크(feedforward network)가 요구하는 메모리로 인해, 긴 시퀀스를 처리하는 능력이 제한되어 다중 긴 시퀀스나 장기 의존성을 포함하는 작업에 어려움이 발생합니다. 본 논문에서는 블록 단위 계산을 활용한 자기 주의와 피드포워드 네트워크 융합을 통해 메모리 비용을 최소화하는 새로운 접근 방식인 블록 단위 병렬 트랜스포머(Blockwise Parallel Transformer, BPT)를 제안합니다. BPT는 더 긴 입력 시퀀스를 처리하면서도 메모리 효율성을 유지함으로써, 기존 트랜스포머보다 최대 32배, 그리고 기존의 메모리 효율적인 방법들보다 2~4배 더 긴 시퀀스를 학습할 수 있게 합니다. 언어 모델링 및 강화 학습 작업에 대한 광범위한 실험을 통해 BPT가 메모리 요구 사항을 줄이고 성능을 개선하는 데 효과적임을 입증합니다.
대규모 언어 모델(LLM)의 급속한 발전을 고려하여, 우리는 다음과 같은 질문을 연구합니다: (어떻게) 대규모 언어 모델이 과학 논문 또는 제안서의 리뷰에 도움을 줄 수 있을까? 먼저, 몇 가지 파일럿 연구를 수행한 결과, (i) GPT-4가 다른 LLM들(Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM)보다 우수한 성능을 보였으며, (ii) 특정 질문(예: 오류 식별)을 통해 프롬프팅하는 것이 단순히 리뷰를 작성하도록 프롬프팅하는 것보다 더 나은 성과를 보였습니다. 이러한 통찰을 바탕으로, 우리는 LLM(특히 GPT-4)의 활용을 세 가지 작업에 대해 연구했습니다: 1. **오류 식별**: 우리는 각각 의도적으로 오류를 삽입한 13개의 짧은 컴퓨터 과학 논문을 구성하고, LLM에게 이 논문들의 정확성을 확인하도록 요청했습니다. 그 결과, LLM은 수학적 오류와 개념적 오류를 포함하여 7개의 논문에서 오류를 발견했습니다. 2. **체크리스트 검증**: 우리는 LLM에게 15개의 NeurIPS 2022 논문의 각 섹션에서 16개의 폐쇄형 체크리스트 질문을 검증하도록 요청했습니다. 119개의 {체크리스트 질문, 논문} 쌍에서 LLM은 86.6%의 정확도를 보였습니다. 3. **"더 나은" 논문 선택**: 우리는 10쌍의 초록을 생성했으며, 각 쌍에서 하나의 초록이 명확히 더 우수하도록 설계했습니다. 그러나 LLM은 이러한 비교적 간단한 차이를 정확하게 구분하는 데 어려움을 겪었고, 10쌍 중 6쌍에서 평가 오류를 범했습니다. 이러한 실험을 바탕으로, 우리는 LLM이 특정 리뷰 작업에 대한 리뷰 보조 도구로서 유망한 가능성을 가지고 있지만, 아직 논문 또는 제안서의 완전한 평가에는 적합하지 않다고 생각합니다.
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 이미지와 텍스트 데이터 쌍을 사용하여 전이 가능한 비전 모델을 학습시키는 가장 효과적이고 확장 가능한 방법 중 하나로 자리 잡고 있습니다. CLIP 모델은 대조 손실(contrastive loss)을 사용하여 학습되며, 이는 일반적으로 과적합과 단축 경로(shortcuts)를 방지하기 위해 데이터 증강을 활용합니다. 그러나 CLIP 학습 패러다임에서는 데이터 증강이 이미지 입력에만 적용되고, 언어 입력은 전체 학습 과정 동안 변경되지 않아 동일한 이미지에 대해 다양한 텍스트를 노출시키는 데 한계가 있습니다. 본 논문에서는 언어 재작성(language rewrites)을 통해 CLIP 학습을 향상시키는 간단하면서도 매우 효과적인 접근 방식인 언어 증강 CLIP(Language augmented CLIP, LaCLIP)을 소개합니다. 대규모 언어 모델의 문맥 내 학습(in-context learning) 능력을 활용하여 각 이미지와 연관된 텍스트 설명을 재작성합니다. 이러한 재작성된 텍스트는 원본의 핵심 개념과 의미를 보존하면서 문장 구조와 어휘 측면에서 다양성을 보여줍니다. 학습 과정에서 LaCLIP은 각 이미지에 대해 원본 텍스트 또는 재작성된 버전 중 하나를 무작위로 선택하여 텍스트 증강으로 사용합니다. CC3M, CC12M, RedCaps 및 LAION-400M 데이터셋에 대한 광범위한 실험을 통해 언어 재작성을 통한 CLIP 사전학습이 학습 중 계산 또는 메모리 오버헤드 없이 전이 성능을 크게 향상시킴을 보여줍니다. 특히 ImageNet 제로샷(zero-shot) 정확도에서 LaCLIP은 CC12M에서 CLIP 대비 8.2%, LAION-400M에서 2.4% 더 우수한 성능을 보였습니다. 코드는 https://github.com/LijieFan/LaCLIP에서 확인할 수 있습니다.
최근 몇 년간 텍스트 지시를 이용한 이미지 편집 기술은 상당한 성과를 거두었습니다. 그러나 이러한 편집기를 동적 장면 편집에 적용할 경우, 2D 편집기의 프레임 단위 특성으로 인해 새로운 스타일의 장면이 시간적 일관성을 유지하지 못하는 경향이 있습니다. 이 문제를 해결하기 위해, 우리는 고화질 및 시간적 일관성을 갖춘 4D 초상화 편집을 위한 새로운 접근 방식인 Control4D를 제안합니다. Control4D는 효율적인 4D 표현과 2D 디퓨전 기반 편집기를 기반으로 구축되었습니다. 우리의 방법은 편집기로부터 직접적인 감독을 사용하는 대신, 이를 통해 4D GAN을 학습하고 일관되지 않은 감독 신호를 피합니다. 구체적으로, 우리는 편집된 이미지를 기반으로 생성 분포를 학습하기 위해 판별기를 사용하고, 그런 다음 판별 신호를 통해 생성기를 업데이트합니다. 더 안정적인 학습을 위해, 편집된 이미지에서 다중 수준의 정보를 추출하여 생성기의 학습을 촉진합니다. 실험 결과는 Control4D가 기존 접근 방식을 능가하며 더욱 사실적이고 일관된 4D 편집 성능을 달성함을 보여줍니다. 우리 프로젝트 웹사이트 링크는 https://control4darxiv.github.io 입니다.
오프라인 강화 학습(RL)은 오프라인 데이터셋으로부터 최적의 정책을 학습하는 것을 목표로 하며, 이때 정책의 매개변수화는 중요하지만 종종 간과됩니다. 최근, Diffusion-QL은 확산 모델을 사용하여 정책을 표현함으로써 오프라인 RL의 성능을 크게 향상시켰는데, 이 모델의 성공은 샘플링을 위해 수백 단계의 매개변수화된 마르코프 체인에 의존합니다. 그러나 Diffusion-QL은 두 가지 중요한 한계를 가지고 있습니다. 1) 학습 중 전체 마르코프 체인을 통해 순방향 및 역방향으로 진행하는 것이 계산적으로 비효율적입니다. 2) 확산 모델의 가능도가 계산 불가능하기 때문에 최대 가능도 기반 RL 알고리즘(예: 정책 경사법)과 호환되지 않습니다. 따라서 우리는 이러한 두 가지 문제를 극복하기 위해 효율적인 확산 정책(EDP)을 제안합니다. EDP는 학습 중 샘플링 체인을 실행하지 않기 위해 손상된 액션으로부터 액션을 근사적으로 구성합니다. 우리는 D4RL 벤치마크에서 광범위한 실험을 수행했습니다. 결과는 EDP가 gym-locomotion 작업에서 확산 정책 학습 시간을 5일에서 5시간으로 단축할 수 있음을 보여줍니다. 또한, EDP가 다양한 오프라인 RL 알고리즘(TD3, CRR, IQL)과 호환되며, 이전 방법들에 비해 큰 차이로 D4RL에서 새로운 최첨단 성능을 달성함을 보여줍니다. 우리의 코드는 https://github.com/sail-sg/edp에서 확인할 수 있습니다.
우리는 시간에 걸쳐 인간을 재구성하고 추적하는 접근 방식을 제시합니다. 우리 접근법의 핵심은 인간 메쉬 복구를 위한 네트워크의 완전히 "트랜스포머화(transformerized)"된 버전을 제안하는 것입니다. 이 네트워크인 HMR 2.0은 최신 기술을 발전시키고, 과거 단일 이미지로부터 재구성하기 어려웠던 비정형 자세를 분석할 수 있는 능력을 보여줍니다. 비디오를 분석하기 위해, 우리는 HMR 2.0의 3D 재구성 결과를 3D에서 작동하는 추적 시스템의 입력으로 사용합니다. 이를 통해 여러 사람을 처리하고, 가림 현상이 발생해도 신원을 유지할 수 있습니다. 우리의 완전한 접근 방식인 4DHumans는 단안 비디오에서 사람을 추적하는 데 있어 최신 기술을 달성합니다. 또한, 우리는 HMR 2.0이 동작 인식이라는 하위 작업에서의 효과를 입증하며, 이전의 자세 기반 동작 인식 접근법에 비해 상당한 개선을 이루었습니다. 우리의 코드와 모델은 프로젝트 웹사이트(https://shubham-goel.github.io/4dhumans/)에서 확인할 수 있습니다.
"인간인가 아닌가?"라는 튜링 테스트에서 영감을 받은 온라인 게임을 소개한다. 이 게임은 AI 챗봇이 대화에서 인간을 모방하는 능력과 인간이 봇과 다른 인간을 구별하는 능력을 측정한다. 한 달 동안 진행된 이 게임은 150만 명 이상의 사용자가 참여했으며, 익명의 2분 채팅 세션을 통해 다른 인간 또는 인간처럼 행동하도록 설정된 AI 언어 모델과 대화를 나누었다. 플레이어의 임무는 자신이 대화한 상대가 인간인지 AI인지를 정확히 맞추는 것이었다. 지금까지 진행된 가장 대규모의 튜링 스타일 테스트에서 몇 가지 흥미로운 사실이 밝혀졌다. 예를 들어, 전체적으로 사용자들은 게임의 68%에서만 상대방의 정체성을 정확히 맞췄다. 사용자가 AI 봇과 대결한 게임의 하위 집단에서는 사용자의 정답률이 60%로 더 낮았다(즉, 우연에 의한 추측보다 크게 높지 않았다). 이 백서는 이 독특한 실험의 개발, 배포 및 결과를 상세히 설명한다. 이 실험은 많은 확장과 개선을 요구하지만, 이러한 발견들은 이미 인간과 AI가 혼재할 불가피한 가까운 미래에 대한 통찰을 제공하기 시작한다.
대규모 언어 모델(LLMs)은 다양한 자연어 생성 작업에서 놀라운 성공을 보여 왔으며, 이때 적절한 프롬프트 설계가 큰 영향을 미칩니다. 기존의 프롬프트 방법은 일반적으로 정확한 정보를 제공하는 데 제한되어 있지만, 본 논문에서는 모델이 숙고하도록 유도하는 새로운 'Deliberate then Generate(DTG)' 프롬프트 프레임워크를 제안합니다. 이 프레임워크는 오류 탐지 지침과 오류를 포함할 수 있는 후보들로 구성됩니다. DTG는 간단하면서도 효과적인 기술로, 최소한의 수정만으로 다양한 텍스트 생성 작업에 적용할 수 있습니다. 우리는 요약, 번역, 대화 등 7가지 텍스트 생성 작업에 걸쳐 20개 이상의 데이터셋에서 광범위한 실험을 수행했습니다. 실험 결과, DTG는 기존의 프롬프트 방법을 일관되게 능가하며 여러 텍스트 생성 작업에서 최첨단 성능을 달성함을 보여줍니다. 또한, DTG의 내부 메커니즘을 심층적으로 분석하여 향후 LLMs를 위한 프롬프트 연구에 영감을 줄 수 있는 통찰을 제공합니다.
절차적 계획(Procedural planning)은 상위 수준의 목표를 시간 순서로 정렬된 일련의 단계로 분해하는 작업으로, 기계에게 있어 중요하면서도 복잡한 과제입니다. 이는 상식 지식을 통합하여 종종 반사실적(counterfactual)인 복잡한 상황적 맥락을 추론하는 것을 포함합니다. 예를 들어, "전화 없이 의사 예약을 잡는 것"과 같은 상황이 여기에 해당합니다. 현재의 접근 방식은 대형 언어 모델(LLMs)을 사용하여 고무적인 결과를 보여주고 있지만, 비용이 많이 드는 API 호출 및 재현성 문제와 같은 단점에 직면해 있습니다. 본 논문에서는 더 작은 언어 모델을 사용한 계획을 주장합니다. 우리는 PlaSma라는 새로운 이중 접근 방식을 제시하여, 작은 언어 모델에 절차적 지식과 (반사실적) 계획 능력을 부여합니다. 구체적으로, 우리는 작은 언어 모델의 암묵적 지식을 강화하기 위한 기호적 절차적 지식 증류(symbolic procedural knowledge distillation)와 더 구조적이고 정확한 추론을 촉진하기 위한 추론 시점 알고리즘을 개발했습니다. 또한, 반사실적 상황에 대처하기 위해 계획을 수정해야 하는 새로운 과제인 반사실적 계획(Counterfactual Planning)을 소개합니다. 원래 설정과 반사실적 설정 모두에서, 우리는 크기가 훨씬 작은 모델(770M-11B 파라미터)이 더 큰 교사 모델의 능력을 따라잡고 종종 능가할 수 있음을 보여줍니다.