번역이 포함된 일일 선별된 AI 연구 논문
디퓨전 모델은 고품질 이미지와 비디오 생성을 위한 사실상의 표준 접근법이지만, 고차원 모델 학습은 계산적 및 최적화적 도전으로 인해 여전히 어려운 과제로 남아 있습니다. 기존 방법들은 픽셀 공간에서 캐스케이드 모델을 학습하거나 별도로 훈련된 오토인코더의 다운샘플된 잠재 공간을 사용하는 경우가 많습니다. 본 논문에서는 고해상도 이미지 및 비디오 합성을 위한 종단 간(end-to-end) 프레임워크인 Matryoshka 디퓨전 모델(MDM)을 소개합니다. 우리는 다중 해상도에서 입력을 공동으로 노이즈 제거하는 디퓨전 프로세스를 제안하며, 소규모 입력을 위한 특징과 매개변수가 대규모 입력의 특징과 매개변수 내에 중첩된 NestedUNet 아키텍처를 사용합니다. 또한, MDM은 낮은 해상도에서 높은 해상도로의 점진적인 훈련 스케줄을 가능하게 하여 고해상도 생성을 위한 최적화에서 상당한 개선을 이끌어냅니다. 우리는 클래스 조건부 이미지 생성, 고해상도 텍스트-이미지, 텍스트-비디오 응용 프로그램을 포함한 다양한 벤치마크에서 우리의 접근법의 효과를 입증합니다. 특히, 단일 픽셀 공간 모델을 최대 1024x1024 픽셀 해상도로 훈련할 수 있으며, 1200만 장의 이미지만 포함된 CC12M 데이터셋을 사용하여 강력한 제로샷 일반화 능력을 보여줍니다.
대규모 언어 모델(LLMs)은 비전 모델과 정렬되고 비전-언어 모델(VLMs)로 통합된 후, 이미지 추론 작업에서 인상적인 개선을 가져올 수 있습니다. 이는 최근 출시된 GPT-4V(ison)와 LLaVA-1.5 등에서 확인할 수 있습니다. 그러나 이러한 최첨단 LVLM(Large Vision-Language Models)에서 강력한 언어 사전 지식은 양날의 검이 될 수 있습니다: 이들은 이미지 문맥을 무시하고 (심지어 모순되는) 언어 사전 지식만을 의존하여 추론할 수 있습니다. 반면, VLM의 비전 모듈은 LLM보다 약하며 잘못된 시각적 표현을 생성할 수 있고, 이는 LLM에 의해 확신에 찬 오류로 번역될 수 있습니다. 이러한 두 가지 유형의 VLM 오류, 즉 언어 환각과 시각적 착각을 연구하기 위해, 우리는 GPT-4V와 LLaVA-1.5에게도 여전히 도전적인 이미지 문맥 추론 벤치마크인 HallusionBench를 구축했습니다. 우리는 HallusionBench의 예시에 대한 상세한 분석을 제공하며, 이는 VLM의 착각 또는 환각에 대한 새로운 통찰과 향후 개선 방안을 제시합니다. 벤치마크와 코드베이스는 https://github.com/tianyi-lab/HallusionBench에서 공개될 예정입니다.
본 논문에서는 시각 디자인 시나리오에 특화된 텍스트-이미지(T2I) 생성 벤치마크인 DEsignBench를 소개한다. 최근 DALL-E 3와 같은 T2I 모델들은 텍스트 입력과 밀접하게 일치하는 사실적인 이미지를 생성하는 놀라운 능력을 보여주었다. 시각적으로 매력적인 이미지를 창조하는 매력은 부인할 수 없지만, 우리의 강조점은 단순한 미적 즐거움을 넘어선다. 우리는 이러한 강력한 모델들을 실제 디자인 맥락에서 활용할 가능성을 탐구하고자 한다. 이를 위해, 우리는 "디자인 기술 능력"과 "디자인 응용 시나리오" 두 가지 측면에서 T2I 모델을 평가하기 위해 설계된 테스트 샘플을 포함한 DEsignBench를 개발하였다. 이 두 차원은 각각 다양한 특정 디자인 카테고리로 지원된다. 우리는 DALL-E 3와 다른 주요 T2I 모델들을 DEsignBench에서 탐구하며, 이를 통해 나란히 비교할 수 있는 포괄적인 시각 갤러리를 구축하였다. DEsignBench 벤치마킹을 위해, 우리는 DEsignBench 갤러리에서 생성된 이미지에 대해 이미지-텍스트 일치, 시각적 미학, 디자인 창의성 기준에 따라 인간 평가를 수행한다. 또한, 텍스트 렌더링, 레이아웃 구성, 색조 조화, 3D 디자인, 매체 스타일을 포함한 다른 전문 디자인 능력도 고려한다. 인간 평가 외에도, GPT-4V로 구동되는 최초의 자동 이미지 생성 평가기를 도입한다. 이 평가기는 인간의 판단과 잘 일치하는 평가를 제공하면서도 쉽게 복제 가능하고 비용 효율적이다. 고해상도 버전은 https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=에서 확인할 수 있다.
대규모 비디오 데이터셋의 등장과 확산 모델(diffusion model)의 발전으로 인해, 텍스트 기반 비디오 생성 기술은 상당한 진전을 이루었습니다. 그러나 기존의 비디오 생성 모델들은 일반적으로 제한된 수의 프레임으로 학습되기 때문에, 추론 과정에서 고화질의 긴 비디오를 생성하는 데 한계가 있습니다. 더욱이, 이러한 모델들은 단일 텍스트 조건만을 지원하는 반면, 실제 생활에서는 비디오 내용이 시간에 따라 변화함에 따라 다중 텍스트 조건이 필요한 경우가 많습니다. 이러한 문제를 해결하기 위해, 본 연구는 다중 텍스트 조건 하에서 더 긴 비디오를 생성할 수 있는 텍스트 기반 능력을 확장하는 가능성을 탐구합니다. 1) 먼저, 비디오 확산 모델에서 초기 노이즈의 영향을 분석합니다. 그리고 이러한 노이즈 관찰을 바탕으로, 사전 학습된 비디오 확산 모델의 생성 능력을 향상시키면서도 내용 일관성을 유지하는, 추가 학습이 필요 없고 시간 효율적인 패러다임인 FreeNoise를 제안합니다. 구체적으로, 모든 프레임에 대해 노이즈를 초기화하는 대신, 장거리 상관 관계를 위해 노이즈 시퀀스를 재조정하고, 이를 윈도우 기반 함수를 통해 시간적 주의를 수행합니다. 2) 또한, 다중 텍스트 프롬프트 조건 하에서 비디오를 생성할 수 있도록 새로운 모션 주입 방법을 설계합니다. 광범위한 실험을 통해, 우리의 패러다임이 비디오 확산 모델의 생성 능력을 확장하는 데 있어 우수성을 입증합니다. 특히, 이전 최고 성능의 방법이 255%의 추가 시간 비용을 발생시킨 반면, 우리의 방법은 약 17%의 미미한 시간 비용만을 발생시킵니다. 생성된 비디오 샘플은 우리 웹사이트(http://haonanqiu.com/projects/FreeNoise.html)에서 확인할 수 있습니다.
최근 일반 도메인 대규모 언어 모델(LLM)의 성공은 자연어 처리 패러다임을 도메인과 애플리케이션 전반에 걸친 통합 기반 모델로 크게 변화시켰습니다. 본 논문에서는 현재까지 가장 강력한 LLM인 GPT-4의 성능을 평가하는 데 초점을 맞추어, 텍스트 기반의 방사선 보고서 애플리케이션에서 최신 기술(SOTA)의 방사선 특화 모델과 비교합니다. 다양한 프롬프트 전략을 탐구하며, GPT-4를 다양한 일반적인 방사선 작업에 대해 평가한 결과, GPT-4는 현재의 SOTA 방사선 모델을 능가하거나 동등한 성능을 보였습니다. 제로샷 프롬프팅에서 GPT-4는 시간적 문장 유사성 분류(정확도)와 자연어 추론(F_1)에서 방사선 모델 대비 상당한 성능 향상(약 10% 절대적 개선)을 달성했습니다. 데이터셋 특정 스타일이나 스키마를 학습해야 하는 작업(예: 발견 요약)의 경우, GPT-4는 예제 기반 프롬프팅을 통해 개선되었으며 지도 학습 SOTA와 동등한 성능을 보였습니다. 보드 인증 방사선 전문의와 함께 진행한 광범위한 오류 분석 결과, GPT-4는 복잡한 맥락에서 미묘한 도메인 지식을 요구하는 경우를 제외하고는 충분한 수준의 방사선 지식을 갖추고 있음이 확인되었습니다. 발견 요약 작업에서 GPT-4의 출력은 기존의 수동으로 작성된 요약과 전반적으로 비슷한 수준으로 평가되었습니다.
우리는 가정 환경에서의 인간-로봇 협업 과제 연구를 위한 시뮬레이션 플랫폼인 Habitat 3.0을 소개합니다. Habitat 3.0은 세 가지 주요 측면에서 기여를 제공합니다: (1) 정확한 휴머노이드 시뮬레이션: 복잡한 변형 가능한 신체와 외형 및 동작의 다양성을 모델링하는 데 있어 어려움을 해결하면서도 높은 시뮬레이션 속도를 보장합니다. (2) 인간-참여형(Human-in-the-loop) 인프라: 마우스/키보드 또는 VR 인터페이스를 통해 실제 인간이 시뮬레이션된 로봇과 상호작용할 수 있게 하여, 인간의 입력을 포함한 로봇 정책 평가를 가능하게 합니다. (3) 협업 과제: 두 가지 협업 과제인 소셜 네비게이션(Social Navigation)과 소셜 재배치(Social Rearrangement)를 연구합니다. 소셜 네비게이션은 로봇이 미지의 환경에서 휴머노이드 아바타를 찾아 따라가는 능력을 조사하며, 소셜 재배치는 휴머노이드와 로봇이 장면을 재배치하는 과정에서의 협업을 다룹니다. 이러한 기여를 통해 우리는 인간-로봇 협업을 위한 종단간 학습 및 휴리스틱 기반선을 심층적으로 연구하고, 인간이 참여한 상태에서 이를 평가할 수 있습니다. 우리의 실험은 학습된 로봇 정책이 이전에 보지 못한 휴머노이드 에이전트 및 인간 파트너와 협업할 때 효율적인 과제 완료를 이끌어냄을 보여줍니다. 또한, 협업 과제 실행 중에 로봇이 휴머노이드 에이전트를 방해할 때 공간을 양보하는 등의 새로운 행동이 나타남을 관찰했습니다. 이는 휴머노이드 에이전트가 과제를 효과적으로 완료할 수 있도록 돕습니다. 더 나아가, 인간-참여형 도구를 사용한 실험은 휴머노이드와의 자동화된 평가가 실제 인간 협업자와 평가할 때 다양한 정책의 상대적 순서를 예측할 수 있음을 보여줍니다. Habitat 3.0은 구현된 AI(Embodied AI) 시뮬레이터에 흥미로운 새로운 기능을 제공하며, 우리는 이를 통해 구현된 인간-AI 상호작용 능력의 새로운 지평을 열기를 기대합니다.
대형 언어 모델(LLM)은 복잡한 사용자 제약 조건을 충족하거나 여러 측면과 기준을 고려해야 하는 다면적 언어 생성 및 평가 작업에 자주 사용됩니다. 그러나 이러한 모델은 일관성이 부족하고 문제를 계획하고 분해하는 능력이 부족하여 성능이 떨어질 수 있습니다. 우리는 이러한 도전적인 자연어 작업을 해결하기 위해 대형 언어 모델 프로그램인 Branch-Solve-Merge(BSM)를 제안합니다(Schlag et al., 2023). BSM은 기본 LLM에 특정 프롬프트로 매개변수화된 branch, solve, merge 모듈로 구성됩니다. 이 세 모듈은 작업을 여러 병렬 하위 작업으로 분해하고, 이를 독립적으로 해결하며, 하위 작업의 해결책을 통합합니다. 우리는 이 방법을 LLM 응답 평가 및 제약 조건이 있는 텍스트 생성 작업에 적용하고, Vicuna, LLaMA-2-chat, GPT-4을 포함한 여러 LLM을 사용하여 그 효과를 평가했습니다. BSM은 인간-LLM 일치도를 최대 26% 향상시키고, 길이 및 쌍별 위치 편향을 최대 50% 감소시켜 각 LLM의 평가 정확성과 일관성을 개선하며, LLaMA-2-chat이 대부분의 도메인에서 GPT-4과 동등하거나 더 나은 성능을 보이도록 합니다. 제약 조건이 있는 스토리 생성 작업에서 BSM은 스토리의 일관성을 개선하면서 제약 조건 충족률도 12% 향상시킵니다.
본 논문에서는 대규모 텍스트 기반 이미지 확산 모델을 활용하여 주어진 3D 기하 구조에 대한 텍스처를 합성하는 새로운 방법인 TexFusion(Texture Diffusion)을 소개합니다. 최근 연구들이 느리고 불안정한 최적화 과정을 통해 2D 텍스트-이미지 확산 모델을 활용하여 3D 객체를 추출하는 것과 달리, TexFusion은 텍스처 합성을 위해 특별히 설계된 새로운 3D 일관성 생성 기법을 도입합니다. 이 기법은 서로 다른 2D 렌더링 뷰에서 정규 확산 모델 샘플링을 사용합니다. 구체적으로, 잠재 확산 모델을 활용하고 3D 객체의 2D 렌더링 세트에 확산 모델의 노이즈 제거기를 적용한 후, 공유된 잠재 텍스처 맵에 다양한 노이즈 제거 예측을 통합합니다. 최종 출력 RGB 텍스처는 잠재 텍스처의 2D 렌더링 디코딩에 대한 중간 신경망 색상 필드를 최적화하여 생성됩니다. TexFusion을 철저히 검증하여 다양하고 고품질이며 전역적으로 일관된 텍스처를 효율적으로 생성할 수 있음을 보여줍니다. 우리는 이미지 확산 모델만을 사용하여 최첨단 텍스트 기반 텍스처 합성 성능을 달성함과 동시에 이전의 추출 기반 방법의 문제점을 피합니다. 텍스트 조건화는 세밀한 제어를 제공하며, 학습을 위해 실제 3D 텍스처 데이터에 의존하지 않습니다. 이로 인해 우리의 방법은 다양한 기하 구조와 텍스처 유형에 적용 가능하며 다용도로 사용될 수 있습니다. TexFusion이 가상 현실, 게임 디자인, 시뮬레이션 등에서 3D 자산의 AI 기반 텍스처링을 발전시키길 기대합니다.
Stable-Diffusion 및 Imagen과 같은 텍스트-이미지 확산 모델(Text-to-Image Diffusion Models)은 MS-COCO 및 기타 생성 벤치마크에서 최첨단 FID(Fréchet Inception Distance) 점수를 달성하며 전례 없는 수준의 사실적 화질을 구현했습니다. 캡션(caption)이 주어졌을 때, 이미지 생성은 객체 구조, 스타일, 시점(viewpoint)과 같은 속성에 대한 세밀한 지식을 요구합니다. 이러한 정보는 텍스트-이미지 생성 모델의 어디에 존재할까요? 본 논문에서는 이 질문을 다루며, 다양한 시각적 속성에 해당하는 지식이 대규모 텍스트-이미지 확산 모델에서 어떻게 저장되는지 이해합니다. 우리는 텍스트-이미지 모델을 위해 인과 매개 분석(Causal Mediation Analysis)을 적용하고, (i) UNet과 (ii) 확산 모델의 텍스트 인코더(text-encoder) 내 다양한 (인과적) 구성 요소로부터 구별되는 시각적 속성에 대한 지식을 추적합니다. 특히, 생성형 대규모 언어 모델(generative large-language models)과 달리, 다양한 속성에 대한 지식은 고립된 구성 요소에 국한되지 않고, 조건부 UNet(conditional UNet) 내 일련의 구성 요소들에 분산되어 있음을 보여줍니다. 이러한 구성 요소 집합은 종종 서로 다른 시각적 속성에 대해 구별됩니다. 주목할 만한 점은, Stable-Diffusion과 같은 공개 텍스트-이미지 모델에서 CLIP 텍스트 인코더(CLIP text-encoder)는 다양한 시각적 속성에 걸쳐 단 하나의 인과적 상태(causal state)만을 포함하며, 이는 캡션 내 속성의 마지막 주체 토큰(subject token)에 해당하는 첫 번째 자기 주의 층(self-attention layer)이라는 것입니다. 이는 종종 중간 MLP 층(mid-MLP layers)이 인과적 상태인 다른 언어 모델과는 대조적입니다. 텍스트 인코더 내 단 하나의 인과적 상태라는 이 관찰을 바탕으로, 우리는 텍스트-이미지 모델에서 개념을 효과적으로 편집할 수 있는 빠르고 데이터가 필요 없는 모델 편집 방법인 Diff-QuickFix를 소개합니다. Diff-QuickFix는 폐쇄형 업데이트(closed-form update)를 통해 1초 미만으로 개념을 편집(또는 제거)할 수 있으며, 기존의 미세 조정(fine-tuning) 기반 편집 방법과 비교할 만한 성능을 제공하면서도 1000배의 속도 향상을 달성합니다.
컨텍스트 내 학습(In-Context Learning, ICL)을 데이터 생성에 활용하는 Self-Instruct(Wang et al., 2023) 또는 후속 연구인 Alpaca(Taori et al., 2023)와 같은 기술은 적은 양의 인간 감독만으로도 강력한 대화형 에이전트를 훈련시킬 수 있습니다. 이러한 접근법의 한계는 매우 큰 언어 모델(약 175B 파라미터)에 의존하며, 이 모델들은 독점적이고 공개되지 않았다는 점입니다. 본 연구에서는 이러한 기술을 훨씬 작은 크기(약 10B~40B 파라미터)의 언어 모델에 적용하고, 허가가 자유로운 라이선스를 가진 모델을 탐구합니다. Self-Instruct 접근법은 이러한 크기에서는 덜 효과적인 것으로 나타났으며, 우리는 두 가지 주요 아이디어를 기반으로 한 새로운 ICL 방법을 제안합니다: (a) ICL 템플릿의 범주화 및 단순화를 통해 언어 모델이 프롬프트 학습을 더 쉽게 할 수 있도록 하고, (b) 여러 언어 모델 출력을 앙상블하여 고품질의 합성 예제를 선택하는 데 도움을 줍니다. 우리의 알고리즘은 Self-Instruct의 175개 시드 작업을 활용하며, 입력이 필요한 지시문과 입력이 필요하지 않은 지시문을 위해 별도의 파이프라인을 사용합니다. 다양한 언어 모델을 사용한 실험적 연구 결과는 다음과 같습니다: (1) 제안된 방법은 Self-Instruct보다 더 높은 품질의 지시 튜닝 데이터를 생성하며, (2) 일반 언어 모델과 지시 튜닝된 언어 모델 모두의 성능을 상당히 향상시키고, (3) 더 작은 크기의 지시 튜닝된 언어 모델이 더 큰 크기의 튜닝되지 않은 모델보다 더 유용한 출력을 생성합니다. 우리의 코드베이스는 https://github.com/IBM/ensemble-instruct에서 확인할 수 있습니다.
인간 피드백은 대화형 모델에서 지나치게 유해한 발화를 방지할 수 있지만, 자기 보존이나 권력에 대한 명시적 욕구와 같은 미묘한 문제 행동을 자동으로 완화하지는 못할 수 있습니다. 헌법적 AI(Constitutional AI)는 이러한 대안을 제공하며, 인간 피드백을 서면 원칙 목록에 기반한 AI 모델의 피드백으로 대체합니다. 우리는 이 접근 방식이 그러한 행동의 표현을 효과적으로 방지한다는 것을 발견했습니다. 단순한 원칙의 성공은 우리에게 다음과 같은 질문을 하게 합니다: 모델이 단일 서면 원칙만으로 일반적인 윤리적 행동을 배울 수 있을까요? 이를 테스트하기 위해, 우리는 "인류를 위해 최선을 다하라"라는 대략적인 원칙을 사용하여 실험을 실행했습니다. 우리는 가장 큰 대화 모델이 이 짧은 헌법에서 일반화할 수 있으며, 권력과 같은 특정 동기에 대한 명시적 관심 없이 무해한 도우미를 만들어낸다는 것을 발견했습니다. 따라서 일반적인 원칙은 잠재적으로 유해한 행동을 대상으로 하는 긴 헌법 목록의 필요성을 부분적으로 피할 수 있습니다. 그러나 더 상세한 헌법은 여전히 특정 유형의 해악에 대한 세밀한 통제를 개선합니다. 이는 일반적이고 구체적인 원칙 모두가 AI를 안전하게 조종하는 데 가치가 있음을 시사합니다.
대규모 언어 모델(LLMs)의 발전과 함께, 스프레드시트를 포함한 다양한 도메인에서 점점 더 복잡한 NLP(Natural Language Processing) 작업을 해결할 수 있게 되었습니다. 본 연구는 LLMs가 자연어 사용자 지시를 통해 제공된 Excel 특정 작업을 해결하는 코드(Excel OfficeScripts, Excel에서 다양한 작업을 실행하기 위한 TypeScript API)를 생성할 수 있는지 조사합니다. 이를 위해 우리는 Excel의 'Automate' 기능을 활용하여 사용자의 동작에서 OfficeScripts를 자동으로 생성함으로써 새로운 대규모 벤치마크인 InstructExcel을 소개합니다. 우리의 벤치마크는 2,000개 이상의 공개된 Excel 스프레드시트에서 170개 이상의 Excel 작업을 다루는 10,000개 이상의 샘플을 포함합니다. 다양한 제로샷(zero-shot) 및 퓨샷(few-shot) 설정에서의 실험은 InstructExcel이 GPT-4와 같은 최첨단 모델에게도 어려운 벤치마크임을 보여줍니다. 우리는 (1) GPT-3.5 대신 GPT-4를 사용하는 것, (2) 더 많은 문맥 내 예제를 제공하는 것, 그리고 (3) 동적 프롬프팅(dynamic prompting)이 이 벤치마크에서 성능을 향상시키는 데 도움이 될 수 있음을 관찰했습니다.