번역이 포함된 일일 선별된 AI 연구 논문
본 보고서는 이미지, 오디오, 비디오, 텍스트 이해에 걸쳐 뛰어난 능력을 보여주는 새로운 멀티모달 모델 패밀리인 Gemini를 소개한다. Gemini 패밀리는 Ultra, Pro, Nano 크기로 구성되어 있으며, 복잡한 추론 작업부터 기기 내 메모리가 제한된 사용 사례까지 다양한 응용 분야에 적합하다. 다양한 벤치마크에 대한 평가 결과, 가장 강력한 Gemini Ultra 모델은 32개 벤치마크 중 30개에서 최첨단 기술을 발전시켰으며, 특히 잘 알려진 시험 벤치마크인 MMLU에서 인간 전문가 수준의 성능을 달성한 최초의 모델로 기록되었고, 검토한 20개 멀티모달 벤치마크 모두에서 최첨단 기술을 개선했다. 우리는 Gemini 모델의 교차 모달 추론 및 언어 이해 분야에서의 새로운 능력이 다양한 사용 사례를 가능하게 할 것으로 믿으며, 이를 사용자에게 책임감 있게 배포하기 위한 접근 방식에 대해 논의한다.
본 논문에서는 다양한 위상 구조와 정밀한 제어점 위치를 가진 벡터 폰트를 생성할 수 있는 새로운 신경망 구조인 VecFusion을 소개한다. 우리의 접근 방식은 래스터 확산 모델과 벡터 확산 모델로 구성된 캐스케이드 확산 모델이다. 래스터 모델은 폰트의 전반적인 스타일과 형태를 포착하며, 보조 제어점 정보를 포함한 저해상도의 래스터화된 폰트를 생성한다. 반면, 벡터 모델은 첫 단계에서 생성된 저해상도 래스터 폰트를 조건으로 하여 벡터 폰트를 합성한다. 길고 복잡한 곡선을 합성하기 위해, 우리의 벡터 확산 모델은 트랜스포머 아키텍처와 다양한 벡터 기하학을 모델링하고 제어점을 정확하게 예측할 수 있는 새로운 벡터 표현 방식을 사용한다. 실험 결과, 기존의 벡터 그래픽 생성 모델과 비교하여 우리의 새로운 캐스케이드 벡터 확산 모델이 복잡한 구조와 다양한 스타일을 가진 더 높은 품질의 벡터 폰트를 생성함을 보여준다.
이미지 확산 모델은 텍스트-이미지 생성 및 제어 가능한 이미지 합성과 같은 다양한 작업에 활용되어 왔다. 최근 연구에서는 기존 모델에 미세한 조정을 가하는 튜닝 방법을 도입하여, 기본 생성 확산 모델의 특정 적응에서 유망한 결과를 얻었다. 본 연구에서는 확산 모델의 주요 백본을 수정하는 대신, U-Net의 스킵 연결(skip connection) 역할을 탐구하고, 인코더와 디코더 간 장거리 정보를 집계하는 계층적 특징이 이미지 생성의 내용과 품질에 상당한 영향을 미친다는 점을 밝혔다. 이러한 관찰을 바탕으로, 우리는 SC-Tuner라는 경량 튜닝 모듈을 사용하여 스킵 연결을 통합하고 편집하는 효율적인 생성 튜닝 프레임워크인 SCEdit을 제안한다. 또한, 제안된 프레임워크는 Controllable SC-Tuner를 통해 다양한 조건을 주입함으로써 제어 가능한 이미지 합성으로의 직관적인 확장을 가능하게 하여, 다중 조건 입력을 위한 네트워크 설계를 단순화하고 통일한다. 우리의 SCEdit은 경량 튜너로 인해 학습 매개변수, 메모리 사용량 및 계산 비용을 크게 줄이며, 역전파는 디코더 블록에만 전달된다. 텍스트-이미지 생성 및 제어 가능한 이미지 합성 작업에서 수행된 광범위한 실험은 우리의 방법이 효율성과 성능 측면에서 우수함을 입증한다. 프로젝트 페이지: https://scedit.github.io/
대규모 언어 모델(LLMs)은 인간 수준의 추론 및 생성 능력에서 놀라운 숙련도를 보여주며, 이는 수학 문제 해결에 대한 광범위한 연구를 촉진하고 있습니다. 그러나 현재의 연구는 주로 텍스트 기반 수학 문제에 초점이 맞춰져 있으며, 기하학적 정보를 포함하는 문제에 대한 연구는 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 LLMs가 이미지 입력을 이해하여 기하학적 문제를 해결할 수 있도록 하는 것을 목표로 합니다. 먼저, 현재의 다중모달 대규모 언어 모델(MLLMs)의 한계를 분석합니다: 이들은 기본적인 기하학적 요소와 그들 간의 관계를 정확히 이해하는 데 어려움을 겪습니다. 이러한 문제를 극복하기 위해, 우리는 기하학적 문제의 고유한 특성(예: 고유한 기하학적 논리 형태, 기하학적 확장성)과 텍스트 기반 LLMs의 능력을 활용하여 기존 데이터를 기반으로 한 풍부한 다중모달 기하학 데이터셋을 구축합니다. 이 증강된 데이터셋인 Geo170K은 170,000개 이상의 기하학적 이미지-캡션 및 질문-답변 쌍을 포함합니다. 우리가 구축한 Geo170K 데이터셋을 활용하여, 우리는 G-LLaVA를 개발하였으며, 이는 기하학적 문제 해결에서 탁월한 성능을 보여주며, MathVista 벤치마크에서 GPT-4-V를 크게 능가하는 성과를 보였습니다. 이는 단 7B 파라미터만으로도 가능했습니다.
최근 Stable Diffusion과 Imagen과 같은 텍스트-이미지(T2I) 생성 모델은 텍스트 설명을 기반으로 고해상도 이미지를 생성하는 데 있어 상당한 진전을 이루었습니다. 그러나 생성된 많은 이미지들은 여전히 아티팩트/비현실성, 텍스트 설명과의 불일치, 그리고 낮은 미적 품질과 같은 문제를 겪고 있습니다. 대규모 언어 모델에 대한 인간 피드백을 활용한 강화 학습(RLHF)의 성공에 영감을 받아, 선행 연구들은 생성된 이미지에 대한 인간이 제공한 점수를 피드백으로 수집하고 보상 모델을 훈련시켜 T2I 생성을 개선했습니다. 본 논문에서는 (i) 텍스트와 불일치하거나 비현실적인 이미지 영역을 표시하고, (ii) 텍스트 프롬프트에서 이미지에 잘못 표현되거나 누락된 단어를 주석 처리함으로써 피드백 신호를 풍부하게 합니다. 우리는 18,000개의 생성된 이미지에 대해 이러한 풍부한 인간 피드백을 수집하고, 이를 자동으로 예측하기 위해 다중 모드 트랜스포머를 훈련시켰습니다. 예측된 풍부한 인간 피드백은 이미지 생성을 개선하는 데 활용될 수 있음을 보여줍니다. 예를 들어, 고품질의 훈련 데이터를 선택하여 생성 모델을 미세 조정하고 개선하거나, 예측된 히트맵을 사용하여 문제가 있는 영역을 인페인팅하는 마스크를 생성하는 방식으로 활용할 수 있습니다. 특히, 이러한 개선은 인간 피드백 데이터가 수집된 이미지를 생성하는 데 사용된 모델(Stable Diffusion 변종)을 넘어 다른 모델(Muse)에도 일반화됩니다.
가우시안 스플래팅(Gaussian splatting)은 명시적(메시) 및 암시적(NeRF) 3D 표현의 장점을 모두 활용하는 강력한 3D 표현 방식으로 부상하고 있다. 본 논문에서는 텍스트 설명으로부터 사실적인 애니메이션 가능한 아바타를 생성하기 위해 가우시안 스플래팅을 활용하고자 하며, 메시 또는 NeRF 기반 표현 방식의 한계(예: 유연성 및 효율성)를 해결하고자 한다. 그러나 가우시안 스플래팅을 단순히 적용하는 것만으로는 고품질의 애니메이션 가능한 아바타를 생성할 수 없으며 학습 불안정성을 겪게 되고, 미세한 아바타 형상을 포착하지 못하거나 퇴화된 신체 부위를 초래하는 경우가 많다. 이러한 문제를 해결하기 위해, 우리는 먼저 포즈 기반 프리미티브 내부에 가우시안을 정의하여 애니메이션을 용이하게 하는 프리미티브 기반 3D 가우시안 표현 방식을 제안한다. 둘째, 수백만 개의 가우시안 학습을 안정화하고 분산시키기 위해 신경망 암시적 필드를 사용하여 가우시안 속성(예: 색상)을 예측하는 방법을 제안한다. 마지막으로, 미세한 아바타 형상을 포착하고 상세한 메시를 추출하기 위해, 3D 가우시안에 대한 새로운 SDF 기반 암시적 메시 학습 접근법을 제안한다. 이 방법은 기본 형상을 규제하고 매우 상세한 텍스처 메시를 추출한다. 우리가 제안한 방법인 GAvatar는 텍스트 프롬프트만을 사용하여 다양한 애니메이션 가능한 아바타를 대규모로 생성할 수 있게 한다. GAvatar는 외관 및 형상 품질 측면에서 기존 방법을 크게 능가하며, 1K 해상도에서 초고속 렌더링(100 fps)을 달성한다.
최근, 자율 에이전트가 더 나은 의사결정을 수행할 수 있도록 3D 이해가 주목받고 있다. 그러나 기존의 3D 데이터셋과 방법론은 특정 작업에 한정되는 경우가 많다. 반면, 대형 언어 모델(LLMs)과 다중 모달 언어 모델(MLMs)의 최근 발전은 일반 언어 및 이미지 작업에서 탁월한 성능을 보여주었다. 따라서 MLM의 잠재력을 활용하여 더 넓은 범위의 작업을 위한 3D 일반주의자로 만드는 것은 흥미로운 주제이다. 그러나 현재 MLM 연구는 대규모 3D 명령 수행 데이터셋의 부족으로 인해 3D 작업에 덜 초점을 맞추고 있다. 본 연구에서는 M3DBench라는 포괄적인 3D 명령 수행 데이터셋을 소개한다. 이 데이터셋은 다음과 같은 특징을 가진다: 1) 텍스트, 이미지, 3D 객체 및 기타 시각적 프롬프트가 교차된 일반적인 다중 모달 명령을 지원한다. 2) 지역 및 장면 수준에서 다양한 3D 작업을 통합하며, 실제 3D 환경에서의 다양한 기본 능력을 다룬다. 3) 320,000개 이상의 명령-응답 쌍으로 구성된 대규모 3D 명령 수행 데이터셋이다. 또한, 다중 모달 3D 프롬프트 이해에서 대형 모델의 성능을 평가하기 위한 새로운 벤치마크를 구축하였다. 광범위한 실험을 통해 우리의 데이터셋과 베이스라인이 일반적인 3D 중심 작업을 지원하는 데 효과적임을 입증하였으며, 이는 향후 연구에 영감을 줄 수 있을 것이다.
다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)에 대한 관심이 급증하면서, 특히 OpenAI의 GPT-4V(ision)와 같은 모델들은 학계와 산업계에서 중요한 트렌드로 자리 잡았습니다. 이러한 모델들은 대형 언어 모델(LLMs)에 강력한 시각 이해 능력을 부여하여 다양한 다중 모달 작업을 처리할 수 있게 합니다. 최근 Google은 다중 모달리티를 위해 처음부터 구축된 최신이자 가장 강력한 MLLM인 Gemini를 출시했습니다. 이 모델의 우수한 추론 능력을 고려할 때, Gemini가 다중 모달 학습 분야에서 GPT-4V의 선두 위치에 도전할 수 있을까요? 본 논문에서는 Gemini Pro의 시각 이해 능력을 네 가지 영역(기본 인지, 고급 인지, 도전적인 시각 작업, 다양한 전문가 역량)에 걸쳐 포괄적으로 탐구한 예비 연구를 제시합니다. 우리는 Gemini Pro를 최첨단 GPT-4V와 비교하여 그 상한선을 평가하고, 최신 오픈소스 MLLM인 Sphinx를 통해 수동 노력과 블랙박스 시스템 간의 격차를 드러냅니다. 질적 샘플 분석 결과, GPT-4V와 Gemini는 서로 다른 답변 스타일과 선호도를 보이지만, 비슷한 수준의 시각 추론 능력을 보여주는 반면, Sphinx는 도메인 일반화 측면에서 여전히 뒤처지는 것으로 나타났습니다. 특히, GPT-4V는 상세한 설명과 중간 단계를 자세히 기술하는 경향이 있는 반면, Gemini는 직접적이고 간결한 답변을 선호합니다. 인기 있는 MME 벤치마크에서의 정량적 평가 또한 GPT-4V에 대한 강력한 도전자로서 Gemini의 잠재력을 입증합니다. Gemini에 대한 초기 조사에서 우리는 MLLM들이 여전히 인공 일반 지능(AGI)에 도달하기까지 상당한 거리가 남아 있음을 시사하는 몇 가지 공통적인 문제점들을 관찰했습니다. MLLM의 발전을 추적하기 위한 우리의 프로젝트는 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models에서 공개되었습니다.
시각적 스토리텔링은 종종 두루마리 그림, 만화 스트립, 파노라마와 같은 비전형적인 화면비 이미지를 사용하여 표현력 있고 매력적인 내러티브를 창조합니다. 생성형 AI는 창의적인 산업을 재구성할 잠재력을 보이며 큰 성공을 거두었지만, 임의의 크기와 제어 가능한 스타일, 개념, 레이아웃을 갖춘 일관되고 흥미로운 콘텐츠를 생성하는 것은 여전히 과제로 남아 있습니다. 이러한 요소들은 시각적 스토리텔링에 필수적입니다. 반복적인 콘텐츠, 스타일 불일치, 제어력 부족 등 이전 방법들의 단점을 극복하기 위해, 우리는 새로운 의미 인식 노이즈 제거 과정을 갖춘 다층적이고 점진적인 확산 기반 이미지 생성 프레임워크인 MagicScroll을 제안합니다. 이 모델은 텍스트, 이미지, 레이아웃 조건을 통해 객체, 장면, 배경 수준에서 생성된 이미지에 대한 세밀한 제어를 가능하게 합니다. 또한, 우리는 그림, 만화, 영화적 파노라마와 같은 매체를 포함한 시각적 스토리텔링을 위한 비전형적인 화면비 이미지 생성을 위한 첫 번째 벤치마크를 구축하고, 체계적인 평가를 위한 맞춤형 지표를 설정했습니다. 비교 및 제거 연구를 통해 MagicScroll은 내러티브 텍스트와의 일치, 시각적 일관성 개선, 관객 참여 측면에서 유망한 결과를 보여줍니다. 우리는 AI 연구자와 시각적 스토리텔링을 포함한 창의적 실무자 간의 더 나은 협력을 위해 코드와 벤치마크를 공개할 계획입니다.
언어 모델(LMs)은 일반적으로 훈련에서 제외된 단일 데이터에 대한 복잡도(perplexity)를 보고합니다. 이 데이터는 암묵적으로 또는 명시적으로 다양한 언어 분포를 가진 도메인들로 구성됩니다. 하나의 분포에서의 복잡도가 다른 분포로 외삽된다고 가정하는 대신, 언어 모델 평가를 위한 복잡도 분석(Paloma)은 nytimes.com부터 Reddit의 r/depression까지 585개의 텍스트 도메인에 대한 언어 모델의 적합성을 측정합니다. 우리는 벤치마크에 대한 제출을 요청하며, 사전 훈련에서 벤치마크 오염 제거와 같은 지침 준수 여부를 기준으로 결과를 비교 가능성에 따라 정리합니다. 제출물은 또한 매개변수와 훈련 토큰 수를 기록하여 이러한 비용 측정치에 따른 성능의 파레토 효율성을 비교할 수 있도록 합니다. 우리는 인기 있는 코퍼스로 사전 훈련된 6개의 기준 모델의 결과로 벤치마크를 구성합니다. 사례 연구에서 우리는 Paloma를 통해 가능한 분석을 보여주며, Common Crawl을 넘어서는 데이터 없이 사전 훈련을 수행하면 많은 도메인에 대한 일관되지 않은 적합성을 초래한다는 점을 발견합니다.
최근 확산 기반 이미지 편집 접근법은 단순한 구성을 가진 이미지에서 인상적인 편집 능력을 보여주고 있다. 그러나 복잡한 시나리오에서의 지역적 편집은 실제 수요가 증가함에도 불구하고 문헌에서 충분히 연구되지 않았다. 기존의 마스크 기반 인페인팅 방법은 편집 영역 내의 기본 구조를 유지하는 데 한계가 있다. 한편, 마스크 없는 주의 기반 방법은 더 복잡한 구성에서 편집 누출과 정렬 오류를 보이는 경우가 많다. 본 연구에서는 복잡한 시나리오에서 지역적 이미지 편집을 가능하게 하는 학습이 필요 없는 추론 단계 최적화 방법인 MAG-Edit을 개발한다. 특히, MAG-Edit은 편집 토큰의 두 가지 마스크 기반 교차 주의 제약을 최대화함으로써 확산 모델의 잡음 잠재 특징을 최적화하며, 이를 통해 원하는 프롬프트와의 지역적 정렬을 점진적으로 강화한다. 광범위한 정량적 및 정성적 실험을 통해 복잡한 시나리오 내에서 지역적 편집을 위한 텍스트 정렬과 구조 보존을 동시에 달성하는 본 방법의 효과를 입증한다.
본 논문은 대규모 시각-언어 모델(LVLMs)의 선호도 정제를 탐구하여 시각적 맥락에 기반한 유용하고 신뢰할 수 있는 응답 생성 능력을 향상시키는 방법을 제안한다. 먼저, AI 주석을 활용하여 시각-언어 피드백(VLFeedback) 데이터셋을 구축한다. 구체적으로, 다양한 데이터셋에서 추출된 다중 모달 명령어를 기반으로 12개의 LVLM에서 샘플링된 모델들이 응답을 생성한다. 생성된 출력물의 유용성, 시각적 신뢰성, 윤리적 고려 사항을 평가하기 위해 GPT-4V를 사용한다. 또한, 직접 선호도 최적화(DPO) 방법을 통해 Qwen-VL-Chat에 선호도 감독을 정제한다. 그 결과로 얻은 Silkie 모델은 MME 벤치마크에서 지각 및 인지 능력 측면에서 각각 6.9%와 9.5%의 상대적 개선을 달성한다. Silkie는 또한 MMHal-Bench 벤치마크에서 3.02의 새로운 최첨단 점수를 기록하여 환각 현상을 줄이는 데 성공했다. 추가 분석에 따르면, VLFeedback 데이터셋을 사용한 DPO는 LVLM의 세밀한 지각 능력과 복잡한 인지 능력을 주로 향상시켜, 인간 주석 선호도 데이터셋에 비해 더 포괄적인 개선을 이끌어냈다.
디퓨전 모델은 고품질 이미지 생성에서 상당한 진전을 이루었지만, 시간적 움직임의 복잡성으로 인해 비디오 생성에의 적용은 여전히 어려운 과제로 남아 있습니다. 제로샷 비디오 편집은 사전 훈련된 이미지 디퓨전 모델을 활용하여 소스 비디오를 새로운 비디오로 변환함으로써 이 문제에 대한 해결책을 제시합니다. 그러나 기존 방법들은 엄격한 시간적 일관성을 유지하고 효율적인 메모리 소비를 달성하는 데 어려움을 겪고 있습니다. 본 연구에서는 프레임 간의 자기 주의 토큰을 병합함으로써 생성된 비디오의 시간적 일관성을 향상시키는 새로운 접근 방식을 제안합니다. 프레임 간의 시간적으로 중복된 토큰을 정렬하고 압축함으로써, 우리의 방법은 시간적 일관성을 개선하고 자기 주의 계산에서의 메모리 소비를 줄입니다. 이 병합 전략은 프레임 간의 시간적 대응 관계에 따라 토큰을 매칭하고 정렬하여, 생성된 비디오 프레임에서 자연스러운 시간적 일관성을 촉진합니다. 비디오 처리의 복잡성을 관리하기 위해, 우리는 비디오를 청크로 나누고 청크 내부의 지역적 토큰 병합과 청크 간의 전역적 토큰 병합을 개발하여, 단기 비디오 연속성과 장기 콘텐츠 일관성을 모두 보장합니다. 우리의 비디오 편집 접근 방식은 이미지 편집의 발전을 비디오 편집으로 원활하게 확장하며, 최신 방법들에 비해 시간적 일관성에서 유리한 결과를 보여줍니다.
추측적 디코딩은 더 큰 대상 모델이 검토할 초안을 작성하기 위해 초안 모델을 활용함으로써 대규모 언어 모델(LLM)의 효율성을 향상시킨다. 그러나 추측적 디코딩에서의 초안 작성은 느린 자기회귀적 생성과 동일한 시간 할당으로 다른 중요성을 가진 토큰을 생성하는 과정을 포함한다. 이러한 두 가지 비효율성은 최적이 아닌 성능으로 이어진다. 이 문제를 해결하기 위해, 우리는 두 가지 유형의 캐스케이드를 활용한 새로운 접근 방식인 캐스케이드 추측적 초안 작성(CS. Drafting)을 소개한다. 수직 캐스케이드는 신경망 모델에서 자기회귀적 생성을 제거한다. 수평 캐스케이드는 우리의 이론적 분석에 의해 최적성이 입증된 효율적인 시간 할당을 초안 작성에 적용한다. 두 캐스케이드를 결합한 CS. Drafting 알고리즘은 동일한 출력 분포를 유지하면서 실험에서 추측적 디코딩 대비 최대 72%의 추가 속도 향상을 달성했다.
대형 언어 모델(LLMs)은 복잡한 다단계 계획 작업에 점점 더 많이 활용되고 있으며, 이러한 작업에서 도구 검색(TR) 단계는 성공적인 결과를 달성하는 데 중요한 역할을 합니다. TR을 위한 두 가지 주요 접근 방식은 전체 쿼리를 활용하는 단일 단계 검색과 작업 분해(TD)를 사용한 순차적 검색입니다. 후자의 경우 전체 쿼리를 개별적인 원자적 하위 작업으로 분할합니다. 단일 단계 검색은 "도구 간 의존성"을 처리하는 데 유연성이 부족한 반면, TD 접근 방식은 도구 상자가 동적으로 변화할 수 있기 때문에 "하위 작업-도구 원자성 정렬"을 유지해야 합니다. 이러한 한계를 해결하기 위해, 우리는 점진적 도구 검색을 통해 계획을 개선하는 ProTIP(Progressive Tool retrieval to Improve Planning) 프레임워크를 제안합니다. ProTIP은 하위 작업 레이블을 명시적으로 요구하지 않으면서도 TD를 암묵적으로 수행하고, 동시에 하위 작업-도구 원자성을 유지하는 경량의 대조 학습 기반 프레임워크입니다. ToolBench 데이터셋에서 ProTIP은 ChatGPT의 작업 분해 기반 접근 방식을 크게 능가하며, TR에서 Recall@K=10 기준 24%의 향상을, 계획 생성에서 도구 정확도 41%의 개선을 달성했습니다.
대규모 언어 모델의 성공은 자연어 처리(NLP) 분야의 평가 패러다임을 변화시켰다. 이제 학계의 관심은 다양한 작업, 도메인, 데이터셋에 걸쳐 NLP 모델을 비교하는 데로 옮겨갔으며, 종종 극단적인 규모로 이루어진다. 이는 새로운 엔지니어링적 도전을 야기한다: 데이터셋과 모델 구축 노력이 분산되어 있으며, 그 형식과 인터페이스가 호환되지 않는다. 결과적으로, 공정하고 통제된 대규모 비교를 수행하기 위해서는 상당한 (재)구현 노력이 필요하다. Catwalk는 이러한 문제를 해결하기 위해 설계되었다. Catwalk는 기존의 다양한 NLP 데이터셋과 모델에 대한 통합 인터페이스를 제공하며, 전통적인 지도 학습 및 미세 조정부터 최근의 인-컨텍스트 학습과 같은 현대적 패러다임까지 포괄한다. 신중하게 설계된 추상화를 통해 다른 많은 모델과 데이터셋으로의 확장이 용이하다. Catwalk는 대규모 통제 실험을 수행하는 데 필요한 장벽을 크게 낮춘다. 예를 들어, 단일 명령어로 86개 이상의 데이터셋에서 64개 이상의 모델을 미세 조정하고 평가할 수 있으며, 코드 작성 없이도 가능하다. Allen Institute for Artificial Intelligence(AI2)의 AllenNLP 팀이 유지 관리하는 Catwalk는 지속적인 오픈소스 프로젝트이다: https://github.com/allenai/catwalk.
지식 증류(Knowledge distillation) 방법은 최근 대규모 확산 모델의 합성 속도를 높이는 유망한 방향으로 주목받고 있으며, 이를 위해 단 몇 번의 추론 단계만 필요로 한다. 여러 강력한 증류 방법이 최근 제안되었지만, 학생 모델이 생성한 샘플의 전반적인 품질은 일반적으로 교사 모델에 비해 낮아 실용적인 사용에 제약이 따른다. 본 연구에서는 교사 텍스트-이미지 확산 모델과 그 증류된 학생 버전이 생성한 샘플의 상대적 품질을 조사한다. 주요 실험 결과로서, 학생 모델이 생성한 샘플 중 상당 부분이 교사 모델의 샘플보다 더 우수한 충실도를 보이는 현상을 발견하였다. 이러한 발견을 바탕으로, 효과적인 텍스트-이미지 합성을 위해 학생과 교사 확산 모델 간의 적응적 협업을 제안한다. 구체적으로, 증류된 모델이 초기 샘플을 생성한 후, 오라클이 느린 교사 모델을 통해 추가 개선이 필요한지 여부를 결정한다. 광범위한 실험을 통해 설계된 파이프라인이 다양한 추론 예산에서 인간 선호도 측면에서 최신 텍스트-이미지 대안을 능가함을 입증하였다. 또한, 제안된 접근법은 텍스트 기반 이미지 편집 및 제어 가능한 생성과 같은 인기 있는 응용 프로그램에 자연스럽게 활용될 수 있다.
디퓨전 모델에서의 학습 없이 가이드된 샘플링은 미리 학습된 네트워크(예: 미적 평가 모델)를 활용하여 생성 과정을 안내합니다. 현재의 학습 없이 가이드된 샘플링 알고리즘은 깨끗한 이미지의 일단계 추정을 기반으로 가이던스 에너지 함수를 얻습니다. 그러나 미리 학습된 네트워크가 깨끗한 이미지에 대해 학습되었기 때문에, 디퓨전 모델의 생성 과정 초기 단계에서 특히 깨끗한 이미지의 일단계 추정 절차가 부정확할 수 있습니다. 이로 인해 초기 시간 단계에서의 가이던스가 부정확해질 수 있습니다. 이 문제를 해결하기 위해, 우리는 두 단계의 내부 과정에서 그래디언트 가이던스를 계산하는 Symplectic Adjoint Guidance(SAG)를 제안합니다. 첫째, SAG는 n번의 함수 호출을 통해 깨끗한 이미지를 추정하며, 여기서 n은 특정 이미지 품질 요구 사항에 맞게 조정 가능한 유연한 하이퍼파라미터 역할을 합니다. 둘째, SAG는 메모리 요구 사항 측면에서 정확하고 효율적으로 그래디언트를 얻기 위해 심플렉틱 수반 방법을 사용합니다. 광범위한 실험을 통해 SAG가 가이드된 이미지 및 비디오 생성 작업에서 기준선보다 더 높은 품질의 이미지를 생성함을 입증했습니다.
본 논문은 텍스트-3D 생성(text-to-3D generation)을 위한 혁신적인 3D 볼륨 인코더를 소개한다. 확산 모델(diffusion model)의 학습 데이터를 확장하기 위해, 경량 네트워크를 개발하여 다중 뷰 이미지로부터 효율적으로 특징 볼륨(feature volumes)을 획득한다. 이후 3D 볼륨은 3D U-Net을 사용하여 텍스트-3D 생성을 위한 확산 모델에 학습된다. 본 연구는 또한 부정확한 객체 캡션과 고차원 특징 볼륨의 문제를 해결한다. 공개된 Objaverse 데이터셋으로 학습된 제안 모델은 텍스트 프롬프트로부터 다양하고 인식 가능한 샘플을 생성하는 데 있어 유망한 결과를 보여준다. 특히, 텍스트 단서를 통해 객체 부품 특성을 더 세밀하게 제어할 수 있으며, 단일 객체 내에서 여러 개념을 원활하게 결합함으로써 모델의 창의성을 촉진한다. 본 연구는 효율적이고 유연하며 확장 가능한 표현 방법론을 도입함으로써 3D 생성 기술의 발전에 크게 기여한다. 코드는 https://github.com/tzco/VolumeDiffusion에서 확인할 수 있다.
단안 비디오에 특화된 변형 가능한 3D 가우시안을 활용한 동적 장면 재구성 방법을 제안한다. 가우시안 스플래팅의 효율성을 기반으로, 본 접근법은 정규 공간에 위치한 변형 가능한 가우시안 집합과 다층 퍼셉트론(MLP)에 의해 정의된 시간 의존적 변형 필드를 통해 동적 요소를 수용하도록 표현을 확장한다. 또한, 대부분의 자연 장면이 정적인 영역을 크게 차지한다는 가정 하에, MLP가 표현력을 집중할 수 있도록 정적 가우시안 포인트 클라우드를 추가적으로 포함시킨다. 동적 및 정적 포인트 클라우드를 결합하여 가우시안 스플래팅 래스터라이저에 입력함으로써 실시간 렌더링이 가능하다. 이 미분 가능 파이프라인은 자기 지도 렌더링 손실을 통해 종단 간 최적화된다. 본 방법은 최신 동적 신경 방사 필드 방법과 비슷한 결과를 달성하면서도 훨씬 빠른 최적화와 렌더링을 가능하게 한다. 프로젝트 웹사이트: https://lynl7130.github.io/gaufre/index.html