번역이 포함된 일일 선별된 AI 연구 논문
확산 모델(Diffusion Model)은 이미지 및 비디오 생성 분야에서 주목할 만한 성과를 거두었다. 본 연구에서는 확산 모델이 고성능 신경망 매개변수 생성에도 활용될 수 있음을 입증한다. 우리의 접근 방식은 오토인코더(Autoencoder)와 표준 잠재 확산 모델(Latent Diffusion Model)을 활용한 간단한 방법이다. 오토인코더는 훈련된 신경망 매개변수의 부분 집합에 대한 잠재 표현을 추출한다. 이후 확산 모델은 무작위 노이즈로부터 이러한 잠재 매개변수 표현을 합성하도록 훈련된다. 이 모델은 새로운 잠재 표현을 생성하며, 이는 오토인코더의 디코더를 통과하여 신경망 매개변수의 새로운 부분 집합으로 바로 사용될 수 있다. 다양한 아키텍처와 데이터셋에서 우리의 확산 과정은 훈련된 신경망과 비교할 만하거나 더 나은 성능을 보이는 모델을 일관적으로 생성하며, 추가 비용은 최소화된다. 특히, 실험적으로 생성된 모델이 훈련된 신경망과는 다른 성능을 보임을 확인하였다. 이러한 결과는 확산 모델의 다용도 활용에 대한 더 많은 탐구를 촉진한다.
우리는 대규모 언어 모델(LLM)의 지시 튜닝을 위한 일반적이고 확장 가능한 방법인 Generalized Instruction Tuning(GLAN)을 소개한다. 기존 연구들이 시드 예제나 기존 데이터셋에 의존하여 지시 튜닝 데이터를 구성한 것과 달리, GLAN은 사전에 정리된 인간 지식과 능력의 분류 체계만을 입력으로 사용하여 모든 학문 분야에 걸친 대규모 합성 지시 데이터를 생성한다. 구체적으로, 인간 교육 체계의 체계적 구조에서 영감을 받아, 우리는 LLM의 도움을 받아 인간 지식과 능력을 다양한 분야, 하위 분야, 그리고 궁극적으로 구별되는 학문 영역으로 반자동적으로 분해하여 분류 체계를 구축한다. 이후, 각 학문 영역에 대한 포괄적인 주제 목록을 생성하고, 다시 LLM을 활용하여 각 주제에 맞춤화된 강의 계획서를 설계한다. 강의 계획서의 각 수업 세션에 상세히 기술된 세분화된 핵심 개념을 바탕으로, 우리는 인간 지식과 기술의 전체 스펙트럼을 광범위하게 포괄하는 다양한 지시문을 생성할 수 있다. Mistral과 같은 대규모 언어 모델에 대한 광범위한 실험 결과, GLAN은 수학적 추론, 코딩, 학업 시험, 논리적 추론부터 일반적인 지시 수행에 이르기까지 여러 차원에서 우수한 성능을 보이며, 이러한 작업들에 대한 작업별 훈련 데이터를 사용하지 않았다. 또한, GLAN은 사용자 정의가 용이하며, 새로운 분야나 기술을 추가하기 위해 분류 체계에 새로운 노드를 간단히 통합하는 것만으로도 가능하다.
대부분의 비디오 캡셔닝 모델은 몇 초 길이의 짧은 비디오 클립을 처리하고, 객체, 장면, 단순 동작과 같은 저수준 시각적 개념을 설명하는 텍스트를 출력하도록 설계되었습니다. 그러나 실제 세계의 비디오는 대부분 수분에서 수 시간에 걸쳐 있으며, 다양한 시간적 세분화 수준에 걸친 복잡한 계층적 구조를 가지고 있습니다. 우리는 1초부터 2시간까지 극적으로 다른 길이의 비디오 입력을 처리하고 여러 계층 수준에서 비디오 캡션을 출력할 수 있는 재귀적 비디오 캡셔닝 모델인 Video ReCap을 제안합니다. 이 재귀적 비디오-언어 아키텍처는 다양한 비디오 계층 간의 시너지를 활용하며, 시간 단위의 긴 비디오를 효율적으로 처리할 수 있습니다. 우리는 비디오의 계층적 구조를 학습하기 위해 커리큘럼 학습 방식을 사용하여, 단순 동작을 설명하는 클립 수준의 캡션에서 시작해 세그먼트 수준의 설명에 초점을 맞추고, 마지막으로 시간 단위의 비디오 요약을 생성하는 방식으로 학습을 진행합니다. 또한, Ego4D 데이터셋에 8,267개의 수동으로 수집된 장거리 비디오 요약을 추가하여 Ego4D-HCap 데이터셋을 소개합니다. 우리의 재귀 모델은 다양한 계층 수준에서 유연하게 캡션을 생성할 수 있을 뿐만 아니라, EgoSchema의 VideoQA와 같은 복잡한 비디오 이해 작업에도 유용합니다. 데이터, 코드, 모델은 https://sites.google.com/view/vidrecap에서 확인할 수 있습니다.
우리는 다양한 비디오 이해 작업을 단일 고정 모델로 해결하는 범용 비디오 인코더인 VideoPrism을 소개합니다. VideoPrism은 3,600만 개의 고품질 비디오-캡션 쌍과 5억 8,200만 개의 노이즈가 있는 병렬 텍스트(예: ASR 트랜스크립트)를 포함한 이질적인 코퍼스로 사전 학습되었습니다. 이 사전 학습 접근법은 시맨틱 비디오 임베딩의 글로벌-로컬 디스틸레이션과 토큰 셔플링 기법을 통해 마스크드 오토인코딩을 개선하여, VideoPrism이 비디오 모달리티에 주로 집중하면서도 비디오와 연관된 귀중한 텍스트를 활용할 수 있도록 합니다. 우리는 VideoPrism을 웹 비디오 질의응답부터 과학을 위한 컴퓨터 비전에 이르는 네 가지 광범위한 비디오 이해 작업 그룹에서 광범위하게 테스트하였으며, 33개 비디오 이해 벤치마크 중 30개에서 최첨단 성능을 달성했습니다.
대규모 언어 모델(LLM) 기반 어시스턴트가 진화하는 정보 요구에 효과적으로 적응하기 위해서는 새로운 데이터에 대한 지속적인 학습을 통해 사실적 지식을 업데이트할 수 있어야 합니다. 이를 위한 표준적인 방법은 새로운 문서에 대한 지속적인 사전 학습과 질문-답변(QA) 쌍에 대한 명령어 튜닝을 포함합니다. 그러나 우리는 이 방법으로 학습된 LLM이 문서의 복잡성을 최소화함에도 불구하고 질문에 답하는 데 어려움을 겪는 것을 발견했습니다. QA 쌍은 일반적으로 단순한 반면, 문서는 여러 사실적 진술을 복잡하게 엮어내는 경향이 있습니다. 따라서 우리는 복잡한 문서에서 지식을 인코딩하는 과정이 질문을 통해 이 지식에 접근하는 방식을 고려할 수 있도록, 문서에 대한 지속적인 사전 학습 전에 LLM을 QA 쌍에 노출시키는 것이 유익할 것이라는 가설을 세웠습니다. 이를 바탕으로, 우리는 문서 학습 전에 질문에 대한 명령어 튜닝을 수행하는 사전 명령어 튜닝(PIT) 방법을 제안합니다. 이는 문서 학습 후 지식을 추출하는 방법을 학습하는 표준 명령어 튜닝과 대조됩니다. 광범위한 실험과 제거 연구를 통해 PIT가 새로운 문서에서 지식을 흡수하는 LLM의 능력을 크게 향상시키며, 표준 명령어 튜닝보다 17.8% 더 우수한 성능을 보임을 입증했습니다.
LLM(대형 언어 모델)은 NLP(자연어 처리)를 혁신적으로 변화시켰으며 다양한 분야에서 잠재력을 보여주고 있지만, 금융 분야에서의 가능성은 철저한 평가의 부족과 금융 업무의 복잡성으로 인해 충분히 탐구되지 못했습니다. 이는 LLM의 급속한 발전과 더불어, LLM을 위한 체계적인 금융 평가 벤치마크의 시급한 필요성을 강조합니다. 본 논문에서는 금융 분야에서 LLM의 능력을 철저히 평가하기 위해 특별히 설계된 최초의 포괄적인 오픈소스 평가 벤치마크인 FinBen을 소개합니다. FinBen은 Cattell-Horn-Carroll 이론에서 영감을 받은 세 가지 난이도 스펙트럼으로 구성된 23개의 금융 작업에 걸친 35개의 데이터셋을 포함하며, LLM의 귀납적 추론, 연상 기억, 정량적 추론, 결정화 지능 등의 인지 능력을 평가합니다. GPT-4, ChatGPT, 최신 Gemini를 포함한 15개의 대표적인 LLM을 평가한 결과, 금융 분야에서의 강점과 한계에 대한 통찰을 얻었습니다. 연구 결과에 따르면, GPT-4는 정량화, 추출, 수치 추론 및 주식 거래에서 선두를 달리는 반면, Gemini는 생성 및 예측에서 두각을 나타냈습니다. 그러나 둘 다 복잡한 추출과 예측에서 어려움을 겪으며, 목표 지향적인 개선의 필요성이 명확히 드러났습니다. 지시 튜닝은 단순 작업 성능을 향상시키지만, 복잡한 추론 및 예측 능력 개선에는 한계가 있습니다. FinBen은 금융 분야에서 LLM을 지속적으로 평가하고, 작업과 모델의 정기적인 업데이트를 통해 AI 발전을 촉진하고자 합니다.
본 논문에서는 2D 이미지만을 지도 신호로 사용하여 분해된 저랭크 텐서로 표현된 카메라 포즈와 장면 기하학의 공동 정제를 가능하게 하는 알고리즘을 제안한다. 먼저, 1D 신호를 기반으로 한 파일럿 연구를 수행하고 이를 3D 시나리오와 연관지어, 복셀 기반 NeRF에서의 단순한 공동 포즈 최적화가 쉽게 차선의 해로 이어질 수 있음을 보인다. 또한, 주파수 스펙트럼 분석을 바탕으로 2D 및 3D 복사 필드에 컨볼루션 가우시안 필터를 적용하여 카메라 포즈 공동 최적화를 가능하게 하는 coarse-to-fine 학습 스케줄을 제안한다. 분해된 저랭크 텐서의 분해 특성을 활용함으로써, 제안 방법은 적은 계산 오버헤드만으로도 브루트 포스 3D 컨볼루션과 동등한 효과를 달성한다. 공동 최적화의 견고성과 안정성을 더욱 개선하기 위해, 평활화된 2D 지도 신호, 무작위로 스케일링된 커널 파라미터, 그리고 에지 가이드 손실 마스크 기법도 제안한다. 광범위한 정량적 및 정성적 평가를 통해 제안된 프레임워크가 새로운 시점 합성에서 우수한 성능을 달성할 뿐만 아니라 최적화를 위한 빠른 수렴을 보임을 입증한다.
본 논문은 카메라 포즈 없이 하나 또는 소수의 이미지가 주어졌을 때, 물체의 조밀하고 고해상도의 뷰를 합성하는 3D 객체 재구성을 위한 신경망 아키텍처인 MVDiffusion++를 제시한다. MVDiffusion++는 두 가지 놀랍도록 간단한 아이디어를 통해 우수한 유연성과 확장성을 달성한다: 1) 2D 잠재 특성들 간의 표준 자기 주의 메커니즘이 카메라 포즈 정보를 명시적으로 사용하지 않고도 임의의 수의 조건부 및 생성 뷰 간의 3D 일관성을 학습하는 "포즈 없는 아키텍처"; 2) 훈련 중 상당한 수의 출력 뷰를 버리는 "뷰 드롭아웃 전략"으로, 이는 훈련 시 메모리 사용량을 줄이고 테스트 시 조밀하고 고해상도의 뷰 합성을 가능하게 한다. 우리는 Objaverse 데이터셋을 훈련에 사용하고 Google Scanned Objects 데이터셋을 평가에 사용하여 표준 새로운 뷰 합성 및 3D 재구성 지표를 통해 MVDiffusion++가 현재 최신 기술을 크게 능가함을 보여준다. 또한, MVDiffusion++를 텍스트-이미지 생성 모델과 결합하여 텍스트-3D 응용 예시를 시연한다.
3D 메쉬에 대한 텍스처를 수동으로 생성하는 것은 전문 시각 콘텐츠 제작자에게도 시간이 많이 소요되는 작업입니다. 우리는 사용자가 제공한 텍스트 프롬프트를 기반으로 입력된 3D 메쉬에 자동으로 텍스처를 입히는 빠른 접근 방식을 제안합니다. 특히, 우리의 접근 방식은 결과 텍스처에서 조명을 표면 재질/반사율과 분리하여 메쉬가 어떤 조명 환경에서도 적절히 재조명되고 렌더링될 수 있도록 합니다. 우리는 ControlNet 아키텍처를 기반으로 한 새로운 텍스트-이미지 모델인 LightControlNet을 소개합니다. 이 모델은 원하는 조명을 조건부 이미지로 지정할 수 있게 해줍니다. 우리의 텍스트-텍스처 파이프라인은 두 단계로 텍스처를 구성합니다. 첫 번째 단계에서는 LightControlNet을 사용하여 메쉬의 시각적으로 일관된 희소 참조 뷰 세트를 생성합니다. 두 번째 단계에서는 LightControlNet과 함께 작동하는 Score Distillation Sampling (SDS) 기반의 텍스처 최적화를 적용하여 텍스처 품질을 높이면서도 표면 재질과 조명을 분리합니다. 우리의 파이프라인은 기존의 텍스트-텍스처 방법들보다 훨씬 빠르면서도 고품질의 재조명 가능한 텍스처를 생성합니다.
촉각은 인간에게 중요한 감각 양식이지만, 아직 다중모드 생성 언어 모델에 통합되지 못했습니다. 이는 부분적으로 촉각 데이터에 대한 자연어 라벨을 얻는 것의 어려움과 촉각 측정값을 시각적 관찰 및 언어 설명과 정렬하는 복잡성 때문입니다. 이러한 격차를 해소하기 위한 한 걸음으로, 본 연구는 44K의 실생활 시각-촉각 쌍으로 구성된 새로운 데이터셋을 소개합니다. 이 데이터셋은 인간이 주석을 단 영어 라벨(10%)과 GPT-4V에서 생성된 텍스트 의사 라벨(90%)을 포함합니다. 우리는 이 데이터셋을 사용하여 개방형 어휘 분류를 위한 시각-언어 정렬 촉각 인코더와 훈련된 인코더를 사용하여 텍스트 생성을 위한 촉각-시각-언어(TVL) 모델을 학습시킵니다. 결과에 따르면, 촉각을 통합함으로써 TVL 모델은 기존의 어떤 두 모드 쌍으로 훈련된 모델들보다 촉각-시각-언어 정렬을 개선(+29% 분류 정확도)했습니다. 데이터셋의 일부만 인간이 라벨을 달았음에도 불구하고, TVL 모델은 새로운 촉각-시각 이해 벤치마크에서 GPT-4V(+12%)와 오픈소스 시각-언어 모델(+32%)보다 향상된 시각-촉각 이해 능력을 보여줍니다. 코드와 데이터: https://tactile-vlm.github.io.
멀티모달 대형 언어 모델(MLLMs)의 놀라운 발전에도 불구하고, 이러한 모델들은 여전히 특정한 도전에 직면해 있습니다. 특히, 프롬프트에 포함된 기만적인 정보를 처리할 때 환각적인 응답을 생성하는 문제가 두드러집니다. 이러한 취약성을 정량적으로 평가하기 위해, 우리는 MAD-Bench라는 신중하게 구성된 벤치마크를 제시합니다. 이 벤치마크는 존재하지 않는 객체, 객체의 수, 공간적 관계, 시각적 혼란 등 6가지 범주로 나뉜 850개의 테스트 샘플을 포함하고 있습니다. 우리는 GPT-4V, Gemini-Pro부터 LLaVA-1.5, CogVLM과 같은 오픈소스 모델에 이르기까지 인기 있는 MLLMs에 대한 포괄적인 분석을 제공합니다. 실험적으로, GPT-4V와 다른 모델들 사이에 상당한 성능 격차가 관찰되었으며, 이전의 강력한 지시 튜닝 모델들인 LRV-Instruction과 LLaVA-RLHF도 이 새로운 벤치마크에서는 효과적이지 못했습니다. GPT-4V는 MAD-Bench에서 75.02%의 정확도를 달성한 반면, 우리 실험에서 다른 모델들의 정확도는 5%에서 35% 사이에 머물렀습니다. 우리는 추가적으로, 모델이 질문에 답하기 전에 다시 한 번 생각하도록 유도하기 위해 기만적인 프롬프트에 추가 단락을 첨가하는 해결책을 제안합니다. 놀랍게도, 이 간단한 방법은 정확도를 두 배로 높일 수 있었지만, 절대적인 수치는 여전히 만족스럽지 못한 수준입니다. 우리는 MAD-Bench가 기만적인 프롬프트에 대한 모델의 회복력을 강화하기 위한 추가 연구를 촉진하는 가치 있는 벤치마크로 활용되기를 바랍니다.
단일 문서 뉴스 요약 분야에서는 최근 사실적 일관성 또는 환각 현상에 대한 평가 연구를 통해 충실도 측면에서 상당한 진전이 이루어졌다. 우리는 이러한 발전이 다른 텍스트 요약 영역으로도 이어지는지 질문한다. 이를 위해 다양한 크기의 대형 언어 모델(LLM)이 생성한 주제 중심 대화 요약에 대한 새로운 평가 벤치마크를 제안한다. 우리는 이러한 요약문의 사실적 일관성에 대한 이진 문장 수준의 인간 주석과 함께 사실적으로 일관되지 않은 문장에 대한 상세한 설명을 제공한다. 우리의 분석에 따르면, 기존 LLM들은 모델의 크기와 관계없이 대화 영역에서 상당량의 사실적 오류를 생성하는 것으로 나타났다. 반면, GPT-4를 포함한 LLM들이 이진 사실 평가자로 사용될 때, 이들은 성능이 저조하며 기존의 최첨단 전문화된 사실성 평가 지표에 뒤처지는 것으로 나타났다. 마지막으로, 우리는 정제된 오류 분류 체계를 통해 환각 유형에 대한 분석을 수행했다. 모델 생성 요약문에는 다양한 오류와 오류 분포가 존재하며, LLM 기반 평가자보다 비-LLM 기반 지표가 모든 오류 유형을 더 잘 포착할 수 있음을 발견했다.
Diffusion models have achieved remarkable advancements in text-to-image generation. However, existing models still have many difficulties when faced with multiple-object compositional generation. In this paper, we propose a new training-free and transferred-friendly text-to-image generation framework, namely RealCompo, which aims to leverage the advantages of text-to-image and layout-to-image models to enhance both realism and compositionality of the generated images. An intuitive and novel balancer is proposed to dynamically balance the strengths of the two models in denoising process, allowing plug-and-play use of any model without extra training. Extensive experiments show that our RealCompo consistently outperforms state-of-the-art text-to-image models and layout-to-image models in multiple-object compositional generation while keeping satisfactory realism and compositionality of the generated images. Code is available at https://github.com/YangLing0818/RealCompo