번역이 포함된 일일 선별된 AI 연구 논문
우리는 생성적 사전 지식과 모델 스케일링의 힘을 활용한 획기적인 이미지 복원 방법인 SUPIR(Scaling-UP Image Restoration)을 소개합니다. 다중 모달 기법과 고급 생성적 사전 지식을 활용한 SUPIR은 지능적이고 현실적인 이미지 복원 분야에서 중요한 진전을 이루었습니다. SUPIR 내에서 핵심 촉매 역할을 하는 모델 스케일링은 그 능력을 극적으로 향상시키며 이미지 복원에 대한 새로운 잠재력을 보여줍니다. 우리는 모델 학습을 위해 고해상도 고품질 이미지 2천만 장으로 구성된 데이터셋을 수집했으며, 각 이미지는 설명 텍스트 주석으로 보강되었습니다. SUPIR은 텍스트 프롬프트에 의해 안내된 이미지 복원 기능을 제공하여 응용 범위와 잠재력을 확장합니다. 또한, 지각적 품질을 더욱 개선하기 위해 부정적 품질 프롬프트를 도입했습니다. 또한, 생성 기반 복원에서 발생하는 충실도 문제를 억제하기 위해 복원 가이드 샘플링 방법을 개발했습니다. 실험 결과, SUPIR의 탁월한 복원 효과와 텍스트 프롬프트를 통해 복원을 조작하는 새로운 능력이 입증되었습니다.
토큰 없는 언어 모델은 원시 바이트에서 직접 학습하며 서브워드 토큰화의 편향을 제거합니다. 그러나 바이트 단위로 작동하면 시퀀스 길이가 상당히 길어지며, 표준 자기회귀 트랜스포머는 이러한 설정에서 성능이 크게 저하됩니다. 우리는 Mamba 상태 공간 모델을 바이트 시퀀스에 대해 자기회귀적으로 학습시킨 토큰 없는 적응 모델인 MambaByte를 실험했습니다. 실험 결과, MambaByte는 다른 바이트 수준 모델에 비해 계산 효율성이 뛰어난 것으로 나타났습니다. 또한 MambaByte는 최신 서브워드 트랜스포머와 경쟁력이 있으며, 심지어 이를 능가하는 성능을 보였습니다. 더욱이, 길이에 대한 선형 스케일링 덕분에 MambaByte는 트랜스포머에 비해 빠른 추론 속도를 자랑합니다. 이러한 결과는 MambaByte가 토큰 없는 언어 모델링을 가능하게 하는 데 있어 그 타당성을 입증합니다.
지난 한 해 동안, 멀티모달 대형 언어 모델(MultiModal Large Language Models, MM-LLMs)은 상당한 발전을 이루었으며, 비용 효율적인 훈련 전략을 통해 기존의 대형 언어 모델(LLMs)을 개선하여 멀티모달(MM) 입력 또는 출력을 지원하도록 확장하였다. 그 결과, 이러한 모델들은 LLMs의 본질적인 추론 및 의사 결정 능력을 유지하면서도 다양한 멀티모달 작업을 수행할 수 있게 되었다. 본 논문에서는 MM-LLMs의 추가 연구를 촉진하기 위한 포괄적인 조사를 제공한다. 구체적으로, 먼저 모델 아키텍처와 훈련 파이프라인에 대한 일반적인 설계 방식을 개괄한다. 이어서, 각각의 특정한 설계 방식을 특징으로 하는 26개의 기존 MM-LLMs에 대한 간략한 소개를 제공한다. 또한, MM-LLMs의 주류 벤치마크에서의 성능을 검토하고, MM-LLMs의 효능을 강화하기 위한 주요 훈련 방법을 요약한다. 마지막으로, MM-LLMs의 유망한 방향성을 탐구하면서, 해당 분야의 최신 개발 동향을 실시간으로 추적하는 웹사이트를 유지한다. 본 조사가 MM-LLMs 분야의 지속적인 발전에 기여하기를 바란다.
대규모 언어 모델(LLMs)의 발전은 현실 세계에서의 자율적 애플리케이션 개발로 특징지어지는 새로운 시대를 열어가며, 고급 웹 기반 에이전트의 혁신을 주도하고 있다. 기존의 웹 에이전트는 일반적으로 단일 입력 양식만을 처리하며, 단순화된 웹 시뮬레이터나 정적 웹 스냅샷에서만 평가되어, 현실 세계 시나리오에서의 적용 가능성이 크게 제한되어 왔다. 이러한 격차를 해소하기 위해, 우리는 실제 웹사이트와 상호작용하여 사용자 지시를 종단 간 완료할 수 있는 혁신적인 대형 멀티모달 모델(LMM) 기반 웹 에이전트인 WebVoyager를 소개한다. 또한, GPT-4V의 강력한 멀티모달 이해 능력을 활용하여 개방형 웹 에이전트 작업의 자동 평가에 대한 도전 과제를 해결하기 위한 새로운 평가 프로토콜을 제안한다. 우리는 15개의 널리 사용되는 웹사이트에서 실제 작업을 수집하여 새로운 벤치마크를 생성하고, 이를 통해 우리의 에이전트를 평가한다. WebVoyager는 55.7%의 작업 성공률을 달성하며, GPT-4(All Tools) 및 WebVoyager(텍스트 전용) 설정의 성능을 크게 능가함으로써, WebVoyager의 실질적인 응용에서의 탁월한 능력을 입증한다. 우리가 제안한 자동 평가는 인간의 판단과 85.3%의 일치율을 보이며, 현실 세계 설정에서 웹 에이전트의 추가 개발을 위한 길을 열어준다.
최근 텍스트-이미지 생성 모델은 입력 프롬프트를 충실히 따르는 이미지를 생성하는 데 놀라운 성과를 보여주고 있습니다. 그러나 원하는 개념을 설명하기 위해 단어를 사용해야 한다는 요구사항은 생성된 개념의 외관을 제어하는 데 제한적입니다. 본 연구에서는 기존 텍스트-이미지 확산 모델에 개인화 기능을 추가하는 접근 방식을 제안하여 이러한 단점을 해결하고자 합니다. 우리는 사용자가 객체의 참조 이미지를 제공하여 생성된 이미지에서 개념의 외관을 안내할 수 있도록 하는 새로운 아키텍처(BootPIG)를 제안합니다. 제안된 BootPIG 아키텍처는 사전 학습된 텍스트-이미지 확산 모델에 최소한의 수정만을 가하며, 별도의 UNet 모델을 활용하여 생성물을 원하는 외관으로 유도합니다. 우리는 사전 학습된 텍스트-이미지 모델, LLM 채팅 에이전트, 이미지 분할 모델에서 생성된 데이터를 사용하여 BootPIG 아키텍처에 개인화 기능을 부트스트랩할 수 있는 학습 절차를 소개합니다. 기존 방법들이 며칠에 걸친 사전 학습을 필요로 하는 것과 달리, BootPIG 아키텍처는 약 1시간 내에 학습이 가능합니다. DreamBooth 데이터셋에 대한 실험 결과, BootPIG는 제로샷 방법을 능가하며 테스트 시점 미세 조정 접근법과도 비슷한 성능을 보여줍니다. 사용자 연구를 통해, BootPIG가 생성한 이미지가 참조 객체의 외관에 대한 충실도를 유지하고 텍스트 프롬프트와도 잘 맞는다는 점에서 기존 방법들보다 선호됨을 검증하였습니다.
대형 언어 모델은 자연어 처리 분야에서 최첨단 기술을 발전시켜 왔습니다. 그러나 이러한 모델들은 주로 영어 또는 제한된 언어 집단을 대상으로 설계되어, 저자원 언어에 대한 효과성 측면에서 상당한 격차를 보이고 있습니다. 이러한 격차를 해소하기 위해, 우리는 534개 언어를 포괄하는 새로운 대형 언어 모델인 MaLA-500을 소개합니다. MaLA-500을 학습시키기 위해, 우리는 LLaMA 2 모델에 Glot500-c 데이터를 활용한 어휘 확장 및 지속적 사전 학습을 적용했습니다. SIB-200 데이터셋에서의 실험 결과, MaLA-500은 컨텍스트 내 학습에서 최첨단 성능을 달성했습니다. MaLA-500은 https://huggingface.co/MaLA-LM에서 공개되었습니다.
대규모 언어 모델의 사전 학습은 매우 많은 자원을 소모하며, 종종 비효율적이고 학습 텍스트 시퀀스에 포함된 정보를 충분히 활용하지 못하는 것으로 알려져 있다. 본 논문에서는 (1) 스팬 손상(SC)과 토큰 교체 탐지(RTD)를 결합한 하이브리드 목적 함수와 (2) 초기 tau 반복 동안 하이브리드 목적 함수를 최적화한 후 표준 SC 손실로 전환하는 두 단계 커리큘럼으로 구성된 새로운 학습 절차인 SpacTor를 제안한다. 우리는 하이브리드 목적 함수의 효과가 두 단계 사전 학습 스케줄과 밀접하게 연관되어 있음을 실증적으로 보여주고, 그 이유에 대한 광범위한 분석을 제공한다. 다양한 NLP 작업에서 인코더-디코더 아키텍처(T5)를 사용한 실험에서 SpacTor-T5는 표준 SC 사전 학습과 동일한 다운스트림 성능을 보이면서도 사전 학습 반복 횟수를 50% 줄이고 총 FLOPs를 40% 감소시켰다. 또는 동일한 컴퓨팅 예산을 고려할 때, SpacTor는 다운스트림 벤치마크 성능을 크게 향상시키는 것으로 나타났다.
최근, 텍스트-3D 접근법은 텍스트 설명을 사용하여 고해상도 3D 콘텐츠 생성을 달성했습니다. 그러나 생성된 객체는 확률적이며 세밀한 제어가 부족합니다. 스케치는 이러한 세밀한 제어를 도입하는 경제적인 방법을 제공합니다. 그럼에도 불구하고, 스케치의 추상성과 모호성으로 인해 유연한 제어를 달성하는 것은 어려운 과제입니다. 본 논문에서는 스케치 제어를 3D 생성에 추가하기 위한 다중 뷰 스케치 기반 텍스트-3D 생성 프레임워크(즉, Sketch2NeRF)를 제안합니다. 구체적으로, 우리의 방법은 사전 훈련된 2D 확산 모델(예: Stable Diffusion 및 ControlNet)을 활용하여 신경 방사 필드(NeRF)로 표현된 3D 장면의 최적화를 감독합니다. 우리는 NeRF를 효과적으로 최적화하기 위해 새로운 동기화 생성 및 재구성 방법을 제안합니다. 실험에서는 제안된 방법을 평가하기 위해 두 종류의 다중 뷰 스케치 데이터셋을 수집했습니다. 우리의 방법이 텍스트 프롬프트에 대한 고해상도를 유지하면서 세밀한 스케치 제어로 3D 일관성 있는 콘텐츠를 합성할 수 있음을 입증합니다. 광범위한 결과는 우리의 방법이 스케치 유사성과 텍스트 정렬 측면에서 최첨단 성능을 달성함을 보여줍니다.
기존의 텍스트-이미지 확산 모델은 주로 텍스트 프롬프트로부터 이미지를 생성합니다. 그러나 텍스트 설명의 본질적인 간결성은 특정 개체나 장면과 같은 복잡한 세부 사항을 충실히 합성하는 데 어려움을 초래합니다. 본 논문은 텍스트와 시각적 입력이 교차된 다중 모달 프롬프트를 기반으로 작동하며, 텍스트 기반 및 주제 기반 이미지 생성 모두에 통합된 능력을 보여주는 간단한 다중 모달 조건부 확산 프레임워크인 UNIMO-G를 제시합니다. UNIMO-G는 다중 모달 프롬프트를 인코딩하기 위한 다중 모달 대형 언어 모델(MLLM)과 인코딩된 다중 모달 입력을 기반으로 이미지를 생성하기 위한 조건부 노이즈 제거 확산 네트워크라는 두 가지 핵심 구성 요소로 이루어져 있습니다. 본 프레임워크를 효과적으로 학습시키기 위해 두 단계의 학습 전략을 활용합니다: 첫째, 대규모 텍스트-이미지 쌍에 대한 사전 학습을 통해 조건부 이미지 생성 능력을 개발하고, 둘째, 다중 모달 프롬프트를 사용한 지시 튜닝을 통해 통합된 이미지 생성 능력을 달성합니다. 언어 기반 및 이미지 분할을 포함한 잘 설계된 데이터 처리 파이프라인을 사용하여 다중 모달 프롬프트를 구성합니다. UNIMO-G는 텍스트-이미지 생성과 제로샷 주제 기반 합성 모두에서 뛰어난 성능을 보이며, 특히 여러 이미지 개체를 포함한 복잡한 다중 모달 프롬프트로부터 고해상도 이미지를 생성하는 데 매우 효과적입니다.
최근 AI 분야의 발전으로 인해 텍스트와 이미지 내 시각적 콘텐츠에 대한 복합적 추론이 가능한 대규모 멀티모달 모델(Large Multimodal Models, LMMs)이 개발되었습니다(예: 공공 장소에서의 지도 탐색). 본 논문은 LMMs의 문맥 민감적 텍스트-시각 추론 능력을 평가하기 위해 특별히 설계된 지침으로 구성된 새로운 벤치마크인 ConTextual을 소개합니다. ConTextual은 시간 읽기, 내비게이션, 쇼핑 등 다양한 실제 시나리오를 강조하며, 텍스트와 시각적 요소 간의 상호작용에 대한 깊은 이해를 요구합니다. 연구 결과, 가장 우수한 성능을 보인 LMM인 GPT-4V(ision)와 인간의 능력 간에는 30.8%의 상당한 성능 격차가 존재하며, 이는 문맥 민감적 텍스트-시각 추론 분야에서 개선의 여지가 크다는 것을 시사합니다. 특히, GPT-4V는 밈(meme) 및 명언 해석과 같은 추상적 범주에서 뛰어난 성능을 보였지만, 전반적인 성능은 여전히 인간에 미치지 못했습니다. 인간 평가 외에도 GPT-4를 활용한 자동 평가 지표를 사용하여 유사한 성능 격차를 확인하였습니다. 또한, 다양한 시각적 문맥에 대한 세분화된 평가와 정성적 분석을 수행함으로써 향후 LMM 설계의 발전을 위한 견고한 프레임워크를 제공합니다. https://con-textual.github.io/
대규모 텍스트-이미지 생성 모델은 다양한 고품질 이미지를 합성할 수 있는 능력을 보여주며 인상적인 발전을 이루어 왔습니다. 그러나 이러한 모델을 예술적 이미지 편집에 적용하기 위해서는 두 가지 주요 과제가 존재합니다. 첫째, 사용자가 입력 이미지의 시각적 요소를 세밀하게 기술하는 텍스트 프롬프트를 작성하는 데 어려움을 겪는다는 점입니다. 둘째, 널리 사용되는 모델들은 특정 영역을 수정할 때 전체 예술적 스타일을 자주 훼손하여, 일관성 있고 미적으로 통일된 작품을 얻는 것을 어렵게 만듭니다. 이러한 장애물을 극복하기 위해, 우리는 다중 모드 입력을 조율하고 예술적 이미지 생성 분야에서 다중 작업을 수행할 수 있는 확산 모델을 기반으로 한 혁신적인 통합 프레임워크인 CreativeSynth를 구축했습니다. CreativeSynth는 다중 모드 특징을 맞춤형 주의 메커니즘과 통합함으로써, 역변환 및 실시간 스타일 전이를 통해 현실 세계의 의미론적 내용을 예술 영역으로 가져올 수 있도록 합니다. 이를 통해 원본 모델 파라미터의 무결성을 유지하면서 이미지 스타일과 내용을 정밀하게 조작할 수 있습니다. 엄격한 정성적 및 정량적 평가를 통해 CreativeSynth가 예술적 이미지의 충실도를 향상시키고 그 고유한 미적 본질을 보존하는 데 탁월함을 입증했습니다. 생성 모델과 예술적 섬세함 사이의 간극을 메우는 CreativeSynth는 맞춤형 디지털 팔레트로 자리 잡았습니다.