번역이 포함된 일일 선별된 AI 연구 논문
텍스트-이미지 생성 분야는 최근 놀라운 성과를 보여주고 있습니다. 우리는 고도로 예술적인 이미지를 생성하는 텍스트 조건부 이미지 확산 모델인 RAPHAEL을 소개합니다. 이 모델은 여러 명사, 형용사, 동사를 포함한 텍스트 프롬프트를 정확하게 묘사합니다. 이는 수십 개의 전문가 혼합(MoE) 레이어, 즉 공간-MoE와 시간-MoE 레이어를 쌓아 네트워크 입력에서 출력까지 수십억 개의 확산 경로(루트)를 가능하게 함으로써 달성됩니다. 각 경로는 직관적으로 특정 텍스트 개념을 지정된 이미지 영역에 확산 시간 단계에서 그리는 "화가" 역할을 합니다. 포괄적인 실험 결과, RAPHAEL은 Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, DALL-E 2와 같은 최신 최첨단 모델을 이미지 품질과 미적 매력 측면에서 능가하는 것으로 나타났습니다. 첫째, RAPHAEL은 일본 만화, 리얼리즘, 사이버펑크, 잉크 일러스트레이션과 같은 다양한 스타일 간 이미지 전환에서 우수한 성능을 보입니다. 둘째, 1,000개의 A100 GPU에서 두 달 동안 훈련된 30억 개의 파라미터를 가진 단일 모델은 COCO 데이터셋에서 6.61의 최첨단 제로샷 FID 점수를 달성했습니다. 또한, RAPHAEL은 ViLG-300 벤치마크에서 인간 평가에서도 경쟁 모델들을 크게 앞섭니다. 우리는 RAPHAEL이 학계와 산업계 모두에서 이미지 생성 연구의 최전선을 이끌어 이 빠르게 진화하는 분야의 미래 돌파구를 열어줄 잠재력을 가지고 있다고 믿습니다. 더 자세한 내용은 프로젝트 웹페이지(https://raphael-painter.github.io/)에서 확인할 수 있습니다.
우리는 사전 학습된 이미지 인코더 및 디코더 모델과 고정된 텍스트 전용 대형 언어 모델(LLM)을 임베딩 공간 간 매핑을 통해 융합하는 방법을 제안합니다. 우리 모델은 이미지 검색, 새로운 이미지 생성, 그리고 멀티모달 대화를 포함한 다양한 기능을 보여줍니다. 우리의 접근 방식은 임의로 교차된 이미지와 텍스트 입력을 조건으로 하여 일관된 이미지(및 텍스트) 출력을 생성할 수 있는 최초의 방법입니다. 이미지 생성에서 강력한 성능을 달성하기 위해, 우리는 LLM을 기성 텍스트-이미지 생성 모델에 연결하는 효율적인 매핑 네트워크를 제안합니다. 이 매핑 네트워크는 텍스트의 숨겨진 표현을 시각 모델의 임베딩 공간으로 변환하여, LLM의 강력한 텍스트 표현을 시각적 출력에 활용할 수 있게 합니다. 우리의 접근 방식은 더 길고 복잡한 언어를 포함한 작업에서 기준 생성 모델을 능가합니다. 새로운 이미지 생성 외에도, 우리 모델은 사전 지정된 데이터셋에서 이미지를 검색할 수 있으며, 추론 시점에 검색할지 생성할지를 결정합니다. 이는 LLM의 숨겨진 표현을 조건으로 하는 학습된 결정 모듈을 통해 이루어집니다. 우리 모델은 기존의 멀티모달 언어 모델에 비해 더 넓은 범위의 기능을 보여줍니다. 이미지와 텍스트 입력을 처리하고, 검색된 이미지, 생성된 이미지, 그리고 생성된 텍스트를 출력할 수 있으며, 여러 텍스트-이미지 작업에서 비 LLM 기반 생성 모델을 능가합니다. 이러한 작업들은 문맥 의존성을 측정합니다.
Stable Diffusion과 같은 공개 대규모 텍스트-이미지 확산 모델은 커뮤니티로부터 상당한 관심을 받고 있습니다. 이러한 모델은 저순위 적응(LoRA)을 통해 새로운 개념으로 쉽게 맞춤화할 수 있습니다. 그러나 다중 개념 LoRA를 활용하여 여러 맞춤화된 개념을 공동으로 지원하는 것은 여전히 과제로 남아 있습니다. 우리는 이러한 시나리오를 단일 클라이언트 개념 튜닝과 중앙 노드 개념 융합을 포함하는 분산형 다중 개념 맞춤화(decentralized multi-concept customization)라고 부릅니다. 본 논문에서는 기존 단일 클라이언트 LoRA 튜닝으로 인한 개념 충돌과 모델 융합 중 발생하는 정체성 손실과 같은 분산형 다중 개념 맞춤화의 과제를 해결하기 위해 Mix-of-Show라는 새로운 프레임워크를 제안합니다. Mix-of-Show는 단일 클라이언트 튜닝을 위해 임베딩 분해 LoRA(ED-LoRA)를 채택하고, 중앙 노드에서는 그레이디언트 융합을 통해 단일 개념의 도메인 내 본질을 보존하면서 이론적으로 무제한의 개념 융합을 지원합니다. 또한, 다중 개념 샘플링에서 속성 바인딩 및 객체 누락 문제를 해결하기 위해 공간적으로 제어 가능한 샘플링(예: ControlNet 및 T2I-Adaptor)을 확장한 지역적 제어 샘플링(regionally controllable sampling)을 도입합니다. 광범위한 실험을 통해 Mix-of-Show가 캐릭터, 객체, 장면을 포함한 여러 맞춤화된 개념을 높은 충실도로 구성할 수 있음을 입증합니다.
Stable Diffusion은 기술적 텍스트로부터 이미지 생성을 혁신적으로 변화시켰다. GPT-2, GPT-3(.5), 그리고 GPT-4는 다양한 언어 작업에서 놀라운 성능을 보여주었다. ChatGPT는 이러한 언어 모델을 대중에게 소개했다. 이제 대규모 언어 모델(LLMs)이 계속해서 존재하며 온라인 텍스트와 이미지의 전체 생태계에 급격한 변화를 가져올 것임이 명확해졌다. 본 논문에서는 미래에 어떤 일이 일어날지 고려한다. LLMs가 온라인에서 발견되는 언어의 상당 부분을 기여하게 되면 GPT-{n}에 어떤 일이 일어날까? 우리는 모델 생성 콘텐츠를 훈련에 사용할 경우 결과 모델에 돌이킬 수 없는 결함이 발생하며, 원본 콘텐츠 분포의 꼬리가 사라지는 현상을 발견했다. 우리는 이러한 현상을 모델 치매(model dementia)라고 부르며, 이 현상이 변분 자동인코더(VAEs), 가우시안 혼합 모델(GMMs), 그리고 LLMs에서 발생할 수 있음을 보여준다. 우리는 이 현상에 대한 이론적 직관을 구축하고 모든 학습된 생성 모델에서 이 현상이 보편적으로 나타남을 설명한다. 우리는 웹에서 수집된 대규모 데이터로부터 훈련의 이점을 지속하려면 이 현상을 심각하게 받아들여야 함을 입증한다. 실제로, LLMs에 의해 생성된 콘텐츠가 인터넷에서 크롤링된 데이터에 존재할 때, 시스템과의 진정한 인간 상호작용에 대해 수집된 데이터의 가치는 점점 더 중요해질 것이다.
본 논문은 대규모 언어 모델(LLMs)이 다중 모드 도구를 효율적으로 사용할 수 있도록 하는 것을 목표로 한다. ChatGPT 및 GPT-4와 같은 고급 전용 LLMs는 정교한 프롬프트 엔지니어링을 통해 도구 사용의 큰 잠재력을 보여주었다. 그러나 이러한 모델들은 일반적으로 과도한 계산 비용과 공개적으로 접근할 수 없는 데이터에 의존한다. 이러한 문제를 해결하기 위해, 우리는 LLaMA 및 OPT와 같은 오픈소스 LLMs가 도구를 사용할 수 있도록 자기 지시(self-instruct) 기반의 GPT4Tools를 제안한다. 이 방법은 다양한 다중 모드 컨텍스트를 통해 고급 교사 모델에 프롬프트를 제공하여 지시-따르기 데이터셋을 생성한다. Low-Rank Adaptation (LoRA) 최적화를 사용함으로써, 우리의 접근 방식은 오픈소스 LLMs가 시각적 이해 및 이미지 생성과 같은 다양한 시각적 문제를 해결할 수 있도록 돕는다. 또한, 우리는 LLMs의 도구 사용 능력을 평가하기 위한 벤치마크를 제공하며, 이는 제로샷 및 미세 조정 방식으로 수행된다. 다양한 언어 모델에 대한 광범위한 실험을 통해 우리의 방법이 기존 도구 호출의 정확도를 크게 향상시킬 뿐만 아니라, 새로운 도구에 대한 제로샷 능력도 가능하게 함을 입증하였다. 코드와 데모는 https://github.com/StevenGrove/GPT4Tools에서 확인할 수 있다.
본 논문에서는 뇌 활동으로부터 시각적 이미지를 검색 및 재구성하기 위한 새로운 fMRI-to-image 접근법인 MindEye를 소개한다. MindEye 모델은 검색(대조 학습 활용)과 재구성(확산 사전 활용)에 특화된 두 개의 병렬 서브모듈로 구성된다. MindEye는 fMRI 뇌 활동을 CLIP 이미지 공간과 같은 고차원 다중모드 잠재 공간으로 매핑할 수 있으며, 이 잠재 공간의 임베딩을 입력으로 받는 생성 모델을 통해 이미지 재구성을 가능하게 한다. 본 연구에서는 정성적 병렬 비교와 정량적 평가를 통해 MindEye를 기존 방법들과 포괄적으로 비교하였으며, MindEye가 재구성 및 검색 과제 모두에서 최첨단 성능을 달성함을 보여준다. 특히, MindEye는 매우 유사한 후보군들 사이에서도 원본 이미지를 정확히 검색할 수 있어, 뇌 임베딩이 세밀한 이미지 특정 정보를 보존하고 있음을 나타낸다. 이를 통해 LAION-5B와 같은 대규모 데이터베이스에서도 정확한 이미지 검색이 가능하다. Ablation 실험을 통해 MindEye의 성능 향상이 검색 및 재구성을 위한 특화된 서브모듈, 개선된 학습 기법, 그리고 기존보다 훨씬 많은 매개변수를 가진 모델 학습에서 비롯됨을 입증하였다. 또한, 별도의 오토인코더 출력을 활용한 img2img를 통해 MindEye가 재구성된 이미지에서 저수준 이미지 특징을 더 잘 보존할 수 있음을 보여준다. 모든 코드는 GitHub에서 확인할 수 있다.
정확한 스토리 시각화를 위해서는 프레임 간의 정체성 일관성, 평문과 시각적 콘텐츠 간의 정렬, 이미지 내 객체의 합리적인 레이아웃과 같은 여러 필수 요소가 필요합니다. 대부분의 기존 연구들은 동일한 스타일과 동일한 캐릭터를 가진 비디오 세트(예: FlintstonesSV 데이터셋)에 텍스트-이미지(T2I) 모델을 적용하여 이러한 요구사항을 충족하려고 노력했습니다. 그러나 학습된 T2I 모델은 일반적으로 새로운 캐릭터, 장면, 스타일에 적응하는 데 어려움을 겪으며, 합성된 이미지의 레이아웃을 수정할 수 있는 유연성이 부족한 경우가 많습니다. 본 논문은 여러 새로운 캐릭터를 처리하고 레이아웃 및 로컬 구조 편집을 지원할 수 있는 일반적인 인터랙티브 스토리 시각화 시스템을 제안합니다. 이 시스템은 대규모 코퍼스로 훈련된 대형 언어 모델과 T2I 모델의 사전 지식을 활용하여 개발되었습니다. 시스템은 스토리-프롬프트 생성(S2P), 텍스트-레이아웃 생성(T2L), 제어 가능한 텍스트-이미지 생성(C-T2I), 이미지-비디오 애니메이션(I2V)의 네 가지 상호 연결된 구성 요소로 이루어져 있습니다. 먼저, S2P 모듈은 간결한 스토리 정보를 후속 단계에서 필요한 상세한 프롬프트로 변환합니다. 다음으로, T2L은 프롬프트를 기반으로 다양하고 합리적인 레이아웃을 생성하며, 사용자가 레이아웃을 조정하고 세부적으로 다듬을 수 있도록 합니다. 핵심 구성 요소인 C-T2I는 레이아웃, 스케치, 캐릭터별 식별자를 통해 이미지를 생성하여 시각화 전반에 걸쳐 일관성과 세부 사항을 유지할 수 있게 합니다. 마지막으로, I2V는 생성된 이미지를 애니메이션화하여 시각화 과정을 풍부하게 합니다. 제안된 시스템의 인터랙티브 편집의 효과성과 유연성을 검증하기 위해 광범위한 실험과 사용자 연구가 수행되었습니다.
대규모 언어 모델(LLM)은 다양한 자연어 간 번역에서 유망한 성능을 보여줍니다. 그러나 BLOOM이나 LLaMA와 같은 오픈소스 LLM은 특히 영어 중심적이며 수십 개의 자연어만을 지원하기 때문에, LLM의 언어 번역 잠재력이 충분히 탐구되지 못하고 있습니다. 본 연구에서는 20개 언어만을 지원하는 LLaMA를 기반으로 100개 이상의 언어에 대한 다국어 번역 능력을 강화한 BigTrans를 제안합니다. BigTrans는 LLaMA-13B를 기반으로 세 단계의 최적화 과정을 거쳐 구축되었습니다. 첫째, 대규모 중국어 단일 언어 데이터를 사용하여 LLaMA를 추가 학습시켰습니다. 둘째, 102개 자연어를 아우르는 대규모 병렬 데이터셋으로 모델을 추가 학습시켰습니다. 셋째, 다국어 번역 지시문을 사용하여 기반 모델을 지시 튜닝함으로써 BigTrans 모델을 완성했습니다. 다국어 번역에 대한 예비 실험 결과, BigTrans는 많은 언어에서 ChatGPT 및 Google 번역과 비슷한 성능을 보였으며, 8개 언어 쌍에서는 ChatGPT를 능가하는 성과를 거두었습니다. 우리는 BigTrans 모델을 공개하여 연구 발전에 기여하고자 합니다.
자연어 처리 작업에서 강력한 능력을 보이는 대형 언어 모델(LLMs)이 등장하여 과학, 금융, 소프트웨어 공학 등 다양한 분야에 빠르게 적용되고 있습니다. 그러나 화학 분야를 발전시킬 수 있는 LLMs의 능력은 아직 명확하지 않습니다. 본 논문에서는 1) 이름 예측, 2) 특성 예측, 3) 수율 예측, 4) 반응 예측, 5) 역합성(생성물로부터 반응물 예측), 6) 텍스트 기반 분자 설계, 7) 분자 설명, 8) 시약 선택을 포함한 8가지 실용적인 화학 작업을 포괄하는 벤치마크를 구축했습니다. 우리의 분석은 BBBP, Tox21, PubChem, USPTO, ChEBI와 같은 널리 인정받는 데이터셋을 기반으로 하여, 실용적인 화학 맥락에서 LLMs의 능력을 광범위하게 탐구할 수 있도록 합니다. 세 가지 GPT 모델(GPT-4, GPT-3.5, Davinci-003)이 각 화학 작업에 대해 제로샷 및 퓨샷 인컨텍스트 학습 설정에서 신중하게 선택된 데모 예제와 특별히 설계된 프롬프트를 사용하여 평가되었습니다. 우리 연구의 주요 결과는 다음과 같습니다: 1) GPT-4가 평가된 세 모델 중 다른 두 모델을 능가함; 2) GPT 모델은 반응 예측 및 역합성과 같이 분자 SMILES 표현의 정확한 이해를 요구하는 작업에서 경쟁력이 떨어짐; 3) GPT 모델은 분자 설명과 같은 텍스트 관련 설명 작업에서 강력한 능력을 보임; 4) GPT 모델은 특성 예측 및 수율 예측과 같이 분류 또는 순위 지정 작업으로 변환할 수 있는 화학 문제에서 기존의 기계 학습 모델과 비슷하거나 더 나은 성능을 보임.
현재의 텍스트-이미지 생성 모델들은 종종 텍스트 지시를 따르는 데 어려움을 겪으며, 특히 공간적 추론을 요구하는 지시에서 더욱 그러하다. 반면, GPT-4와 같은 대형 언어 모델(LLMs)은 텍스트 입력을 그래픽으로 스케치하기 위한 코드 조각을 생성하는 데 있어 뛰어난 정확성을 보여주었다(예: TikZ를 통해). 본 연구에서는 GPT-4에 의해 생성된 프로그래밍적 스케치를 통해 확산 기반 텍스트-이미지 파이프라인을 안내하는 Control-GPT를 소개하여, 지시를 따르는 능력을 향상시킨다. Control-GPT는 GPT-4에 TikZ 코드 작성을 요청하고, 생성된 스케치를 텍스트 지시와 함께 확산 모델(예: ControlNet)에 대한 참조로 사용하여 사실적인 이미지를 생성한다. 우리의 파이프라인을 훈련시키는 데 있어 주요한 과제는 텍스트, 이미지, 스케치가 정렬된 데이터셋의 부재이다. 이 문제를 해결하기 위해 기존 데이터셋의 인스턴스 마스크를 다각형으로 변환하여 테스트 시 사용되는 스케치를 모방하였다. 그 결과, Control-GPT는 이미지 생성의 제어 가능성을 크게 향상시켰다. 이는 공간적 배열 및 객체 위치 생성에서 새로운 최첨단 기술을 확립하고, 사용자가 객체의 위치, 크기 등을 제어하는 능력을 강화하여, 기존 모델의 정확도를 거의 두 배로 높였다. 본 연구는 컴퓨터 비전 작업의 성능을 향상시키기 위해 LLMs를 활용하는 가능성을 보여주는 첫 번째 시도로서 의미가 있다.
이미지와 시각적 콘텐츠가 디지털 환경을 지배하는 시대에서, 이러한 이미지를 조작하고 개인화하는 능력은 필수적이 되었습니다. 햇빛이 비치는 창가에 누워 있는 얼룩고양이를 사진 속에서 당신의 장난스러운 강아지로 원래의 매력과 구도를 유지하며 매끄럽게 대체하는 것을 상상해 보십시오. 우리는 기존 이미지에서 개인화된 주체 교체를 통해 이러한 몰입형 이미지 편집 경험을 가능하게 하는 새로운 접근 방식인 Photoswap을 소개합니다. Photoswap은 먼저 참조 이미지에서 주체의 시각적 개념을 학습한 후, 사전 훈련된 확산 모델을 사용하여 훈련 없이 타겟 이미지에 이를 교체합니다. 우리는 잘 개념화된 시각적 주체가 적절한 자기 주의력(self-attention)과 교차 주의력(cross-attention) 조작을 통해 어떤 이미지에도 매끄럽게 전달될 수 있으며, 교체된 주체의 포즈와 이미지의 전반적인 일관성을 유지할 수 있음을 입증합니다. 포괄적인 실험은 Photoswap의 개인화된 주체 교체에서의 효율성과 제어 가능성을 강조합니다. 더 나아가, Photoswap은 주체 교체, 배경 보존, 전반적인 품질 측면에서 인간 평가에서 기준 방법들을 크게 능가하며, 엔터테인먼트부터 전문 편집에 이르기까지 광범위한 응용 잠재력을 보여줍니다.
대규모 이미지-텍스트 데이터셋과 확산 모델의 발전을 활용하여, 텍스트 기반 생성 모델은 이미지 생성 및 편집 분야에서 놀라운 진전을 이루어냈습니다. 본 연구는 이러한 텍스트 기반 능력을 다중 텍스트 조건 하의 긴 비디오 생성 및 편집으로 확장할 가능성을 탐구합니다. 현재의 비디오 생성 및 편집 방법론은 혁신적이지만, 매우 짧은 비디오(일반적으로 24프레임 미만)에 국한되고 단일 텍스트 조건에 제한되는 경우가 많습니다. 이러한 제약은 실제 비디오가 일반적으로 다양한 의미 정보를 담은 여러 세그먼트로 구성된다는 점을 고려할 때 그 응용 가능성을 크게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 Gen-L-Video라는 새로운 패러다임을 제안합니다. 이 패러다임은 추가적인 학습 없이도 수백 프레임의 다양한 의미 세그먼트를 포함한 비디오를 생성 및 편집할 수 있도록 기존의 짧은 비디오 확산 모델을 확장할 수 있으며, 내용의 일관성을 유지합니다. 우리는 세 가지 주요 텍스트 기반 비디오 생성 및 편집 방법론을 구현하고, 이를 우리가 제안한 패러다임을 통해 다양한 의미 세그먼트를 포함한 더 긴 비디오에 적용할 수 있도록 확장했습니다. 실험 결과는 우리의 접근 방식이 비디오 확산 모델의 생성 및 편집 능력을 크게 확장하며, 향후 연구와 응용에 새로운 가능성을 제공함을 보여줍니다. 코드는 https://github.com/G-U-N/Gen-L-Video에서 확인할 수 있습니다.
본 논문에서는 인간 인지의 이중 과정 이론에서 영감을 받아 복잡한 상호작용적 추론 과제에서의 행동 계획에 탁월한 성능을 발휘하도록 설계된 새로운 에이전트 프레임워크인 SwiftSage를 소개한다. SwiftSage는 행동 복제와 대형 언어 모델(LLMs) 프롬프팅의 강점을 통합하여 과제 완수 성능을 향상시킨다. 이 프레임워크는 빠르고 직관적인 사고를 나타내는 Swift 모듈과 숙고적 사고 과정을 모방하는 Sage 모듈이라는 두 가지 주요 모듈로 구성된다. Swift 모듈은 오라클 에이전트의 행동 궤적에 대해 미세 조정된 소형 인코더-디코더 언어 모델이며, Sage 모듈은 GPT-4와 같은 LLMs를 활용하여 하위 목표 계획 및 근거 설정을 수행한다. 두 모듈을 조화롭게 통합하기 위한 휴리스틱 방법을 개발함으로써 더 효율적이고 강력한 문제 해결 과정을 구현하였다. ScienceWorld 벤치마크의 30개 과제에서 SwiftSage는 SayCan, ReAct, Reflexion과 같은 다른 방법들을 크게 능가하며, 복잡한 실세계 과제 해결에서의 효과성을 입증하였다.
언어 모델(LM)의 미세 조정(fine-tuning)은 다양한 다운스트림 작업에서 성공을 거두었지만, LM의 크기가 커짐에 따라 역전파(backpropagation)는 엄청난 양의 메모리를 요구하게 된다. 제로차(zeroth-order, ZO) 방법은 원칙적으로 두 번의 순전파(forward pass)만으로도 그래디언트를 추정할 수 있지만, 대규모 모델을 최적화하는 데 있어 치명적으로 느리다고 이론적으로 예측되어 왔다. 본 연구에서는 메모리 효율적인 제로차 최적화기(MeZO)를 제안하며, 이는 고전적인 ZO-SGD 방법을 인플레이스(in-place) 방식으로 동작하도록 조정하여 LM을 추론(inference)과 동일한 메모리 사용량으로 미세 조정할 수 있게 한다. 예를 들어, 단일 A100 80GB GPU를 사용할 경우, MeZO는 300억 개의 파라미터를 가진 모델을 학습할 수 있는 반면, 역전파를 통한 미세 조정은 동일한 예산으로 27억 개의 파라미터를 가진 LM만을 학습할 수 있다. 우리는 다양한 모델 유형(마스킹된 LM과 자기회귀적 LM), 모델 규모(최대 660억 개의 파라미터), 그리고 다운스트림 작업(분류, 다중 선택, 생성)에 걸쳐 포괄적인 실험을 수행하였다. 실험 결과는 (1) MeZO가 컨텍스트 내 학습(in-context learning)과 선형 탐사(linear probing)를 크게 능가함을 보여주며, (2) MeZO가 여러 작업에서 역전파를 통한 미세 조정과 비슷한 성능을 달성하면서 최대 12배의 메모리 절감을 가능하게 함을 보여준다. 또한 (3) MeZO는 전체 파라미터 튜닝과 LoRA 및 프리픽스 튜닝(prefix tuning)과 같은 파라미터 효율적 튜닝 기법과 모두 호환되며, (4) MeZO는 미분 불가능한 목표(예: 정확도 또는 F1 점수 최대화)를 효과적으로 최적화할 수 있다. 우리는 이러한 실험적 결과를 이론적 통찰로 뒷받침하며, 고전적인 ZO 분석이 예측한 것과 달리 충분한 사전 학습과 작업 프롬프트가 MeZO가 대규모 모델을 미세 조정할 수 있게 하는 이유를 강조한다.
최근, 일관성 있고 잘 구성된 시각적 텍스트를 생성할 수 있는 확산 기반 텍스트-이미지 생성 모델 개발에 대한 관심이 증가하고 있다. 본 논문에서는 이러한 과제를 해결하기 위해 GlyphControl이라는 새로운 효율적인 접근 방식을 제안한다. ByT5와 같은 문자 인식 텍스트 인코더에 의존하고 텍스트-이미지 모델의 재학습을 요구하는 기존 방법과 달리, 우리의 접근 방식은 추가적인 글리프 조건 정보를 활용하여 오프더셸프 Stable-Diffusion 모델의 성능을 향상시켜 정확한 시각적 텍스트를 생성한다. 글리프 지침을 통합함으로써 사용자는 생성된 텍스트의 내용, 위치, 크기를 특정 요구 사항에 맞게 사용자 정의할 수 있다. 시각적 텍스트 생성에 대한 추가 연구를 촉진하기 위해 LAION-Glyph라는 훈련 벤치마크 데이터셋을 구축하였다. 생성된 시각적 텍스트의 OCR 기반 지표와 CLIP 점수를 측정하여 우리의 접근 방식의 효과를 평가하였다. 실험적 평가 결과, GlyphControl은 최근의 DeepFloyd IF 접근 방식보다 OCR 정확도와 CLIP 점수 측면에서 우수한 성능을 보여 우리 방법의 효용성을 입증하였다.
대규모 언어 모델(LLM)이 지속적으로 발전함에 따라, 이들의 평가는 점점 더 중요해지면서도 도전적인 과제가 되고 있습니다. 본 연구는 대규모 언어 모델의 다단계 추론 능력을 평가하기 위한 오픈소스 평가 도구인 Chain-of-Thought Hub를 제안합니다. 우리가 이 설정에 관심을 가지는 이유는 두 가지입니다: (1) GPT와 PaLM 모델 패밀리의 동작을 통해, 복잡한 추론이 약한 LLM과 강한 LLM을 구분하는 주요 차별점이 될 가능성이 높다는 것을 관찰했기 때문입니다; (2) 대규모 언어 모델이 차세대 컴퓨팅 플랫폼이 되고 LLM 기반의 새로운 애플리케이션 생태계를 조성할 것으로 예상되며, 이는 자연스럽게 기반 모델이 언어적 및 논리적 연산의 조합을 포함하는 복잡한 작업을 수행할 것을 요구하기 때문입니다. 우리의 접근 방식은 LLM의 진전을 추적하기 위해 도전적인 추론 벤치마크 모음을 컴파일하는 것입니다. 현재 결과는 다음과 같습니다: (1) 모델 규모는 추론 능력과 명확한 상관관계가 있습니다; (2) 2023년 5월 기준으로 Claude-v1.3과 PaLM-2가 GPT-4와 비슷한 수준인 유일한 두 모델이며, 오픈소스 모델은 여전히 뒤처져 있습니다; (3) LLaMA-65B는 code-davinci-002와 유사한 성능을 보이며, 인간 피드백을 통한 강화 학습(RLHF)과 같은 추가 개발이 성공적으로 이루어진다면 GPT-3.5-Turbo에 근접할 수 있는 잠재력이 큽니다. 우리의 결과는 또한 오픈소스 노력이 따라잡기 위해 커뮤니티가 더 나은 기반 모델 구축과 RLHF 탐구에 더 집중할 필요가 있음을 시사합니다.
매혹적인 마인크래프트의 세계는 최근 몇 년 동안 개방형 환경에서 기능할 수 있는 지능형 에이전트를 개발하기 위한 풍부한 플랫폼으로서 상당한 연구 관심을 끌어왔다. 그러나 현재의 연구 동향은 "ObtainDiamond"와 같은 특정 목표에 주로 초점을 맞추고 있으며, 더 광범위한 작업에 대한 효과적인 일반화는 아직 보여주지 못하고 있다. 더욱이, "ObtainDiamond" 작업에 대한 현재 최고 성공률은 약 20%로, 기존 방법에서 사용되는 강화 학습(RL) 기반 컨트롤러의 한계를 강조한다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(LLM)을 텍스트 기반 지식 및 메모리와 통합한 새로운 프레임워크인 Ghost in the Minecraft(GITM)를 소개한다. 이 프레임워크는 마인크래프트에서 일반적으로 능력 있는 에이전트(GCAs)를 생성하는 것을 목표로 한다. LLM의 논리와 상식 능력을 갖춘 이러한 에이전트는 텍스트 기반 상호작용을 통해 복잡하고 희소한 보상 환경을 능숙하게 탐색할 수 있다. 우리는 구조화된 동작 세트를 개발하고 LLM을 활용하여 에이전트가 실행할 동작 계획을 생성한다. 결과적으로, LLM 기반 에이전트는 기존 방법을 크게 능가하며, "ObtainDiamond" 작업에서 +47.5%의 놀라운 성공률 향상을 달성하여 전통적인 RL 기반 컨트롤러에 비해 우수한 견고성을 보여준다. 특히, 우리의 에이전트는 마인크래프트 오버월드 기술 트리의 모든 아이템을 획득한 첫 번째 사례로, 그 광범위한 능력을 입증한다. GITM은 훈련을 위해 GPU가 필요하지 않으며, 32개의 CPU 코어를 가진 단일 CPU 노드로 충분하다. 이 연구는 LLM이 장기적이고 복잡한 작업을 처리하고 개방형 환경의 불확실성에 적응할 수 있는 능력 있는 에이전트를 개발하는 데 있어 잠재력을 보여준다. 프로젝트 웹사이트는 https://github.com/OpenGVLab/GITM에서 확인할 수 있다.
대규모 언어 모델(LLM)은 기계 생성 텍스트의 유창성과 다양성을 크게 향상시켰다. 그러나 이러한 발전은 주어진 텍스트의 출처를 탐지하는 데 있어 상당한 도전 과제를 제시하며, 탐지 방법에 대한 현재의 연구는 LLM의 급속한 진화에 뒤처져 있다. 기존의 훈련 기반 방법은 새로운 도메인에 적응하는 데 있어 유연성이 부족하며, 종종 설명력을 결여한다. 이러한 격차를 해결하기 위해, 우리는 Divergent N-Gram Analysis (DNA-GPT)라는 새로운 훈련 없는 탐지 전략을 제안한다. 주어진 텍스트를 중간에서 잘라낸 후, 앞부분만을 LLM에 입력하여 새로운 나머지 부분을 재생성한다. 블랙박스에서의 N-gram 분석 또는 화이트박스에서의 확률 발산을 통해 원본과 새로운 나머지 부분 간의 차이를 분석함으로써, 기계 생성 텍스트와 인간 작성 텍스트 간의 상당한 차이를 명확히 보여줄 수 있다. 우리는 OpenAI의 가장 최신 LLM인 text-davinci-003, GPT-3.5-turbo, GPT-4뿐만 아니라 GPT-NeoX-20B 및 LLaMa-13B와 같은 오픈소스 모델에 대해 광범위한 실험을 수행했다. 결과는 우리의 제로샷 접근법이 네 개의 영어 데이터셋과 하나의 독일어 데이터셋에서 인간과 GPT 생성 텍스트를 구별하는 데 있어 최첨단 성능을 보이며, 수백만 개의 텍스트를 훈련한 OpenAI의 자체 분류기를 능가함을 보여준다. 또한, 우리의 방법은 주장을 뒷받침하는 합리적인 설명과 증거를 제공하며, 이는 설명 가능한 탐지의 독특한 특징이다. 우리의 방법은 수정된 텍스트 공격 하에서도 견고하며, 추가적으로 모델 소싱 문제를 해결할 수 있다. 코드는 https://github.com/Xianjun-Yang/DNA-GPT에서 확인할 수 있다.
텍스트-이미지 생성 분야에서 확산 생성 모델의 엄청난 성공에도 불구하고, 이를 이미지 압축 영역에서 재현하는 것은 어려운 과제로 남아 있었습니다. 본 논문에서는 확산 모델이 주어진 비트레이트에서 지각적 품질을 크게 향상시킬 수 있음을 보여주며, FID 점수 측면에서 최신 기술인 PO-ELIC 및 HiFiC 접근법을 능가함을 입증합니다. 이는 MSE를 목표로 하는 오토인코더와 추가적인 스코어 기반 디코더를 결합한 간단하지만 이론적으로 타당한 2단계 접근법을 통해 달성되었습니다. 그러나 구현 세부 사항이 중요하며, 최적의 설계 결정은 일반적인 텍스트-이미지 모델과 크게 다를 수 있음을 보여줍니다.