번역이 포함된 일일 선별된 AI 연구 논문
다중 모달 대형 언어 모델(MLLMs)의 놀라운 발전은 시각적 맥락에서의 우수한 성능으로 인해 전례 없는 관심을 받고 있습니다. 그러나 시각적 수학 문제 해결에서의 능력은 아직 충분히 평가되고 이해되지 못하고 있습니다. 우리는 현재 벤치마크를 조사하여 텍스트 질문 내에 과도한 시각적 내용을 포함시키는 것이 MLLMs가 입력된 다이어그램을 진정으로 해석하지 않고도 답을 추론하는 데 도움을 줄 수 있다는 점을 발견했습니다. 이를 위해 우리는 MLLMs의 공정하고 심층적인 평가를 위해 설계된 포괄적인 시각적 수학 벤치마크인 MathVerse를 소개합니다. 우리는 공개적으로 이용 가능한 소스에서 2,612개의 고품질 다중 주제 수학 문제와 다이어그램을 꼼꼼히 수집했습니다. 각 문제는 인간 주석자에 의해 6개의 서로 다른 버전으로 변환되며, 각 버전은 다중 모달리티에서 다양한 정도의 정보 내용을 제공하여 총 15,000개의 테스트 샘플을 구성합니다. 이 접근 방식은 MathVerse가 MLLMs가 수학적 추론을 위해 시각적 다이어그램을 진정으로 이해할 수 있는지, 그리고 얼마나 이해하는지를 포괄적으로 평가할 수 있게 합니다. 또한, 우리는 출력 답변의 세밀한 평가를 위한 Chain-of-Thought(CoT) 평가 전략을 제안합니다. 단순히 참 또는 거짓을 판단하는 대신, GPT-4(V)를 사용하여 중요한 추론 단계를 적응적으로 추출한 후 각 단계를 상세한 오류 분석과 함께 점수화함으로써 MLLMs의 중간 CoT 추론 품질을 드러낼 수 있습니다. 우리는 MathVerse 벤치마크가 MLLMs의 미래 발전을 이끌기 위한 독특한 통찰력을 제공할 수 있기를 바랍니다. 프로젝트 페이지: https://mathverse-cuhk.github.io
텍스트 프롬프트를 통한 3D 콘텐츠 생성은 최근 눈부신 성공을 거두고 있습니다. 그러나 현재의 텍스트-투-3D 방법들은 종종 인간의 선호도와 잘 맞지 않는 3D 결과물을 생성합니다. 본 논문에서는 인간의 선호도 피드백을 통해 텍스트-투-3D 모델을 학습하고 개선하기 위한 포괄적인 프레임워크인 DreamReward를 제안합니다. 먼저, 평점 및 순위 매기기를 포함한 체계적인 주석 파이프라인을 기반으로 25,000개의 전문가 비교 데이터를 수집합니다. 그런 다음, 인간의 선호도를 효과적으로 인코딩하기 위한 최초의 범용 텍스트-투-3D 인간 선호도 보상 모델인 Reward3D를 구축합니다. 3D 보상 모델을 기반으로, 이론적 분석을 수행하고 재정의된 스코어를 통해 다중 뷰 확산 모델을 최적화하는 직접 튜닝 알고리즘인 Reward3D 피드백 학습(DreamFL)을 제시합니다. 이론적 증명과 광범위한 실험 비교를 통해, 우리의 DreamReward는 인간의 의도와의 프롬프트 정렬에서 상당한 향상을 보이며 고해상도 및 3D 일관성 있는 결과물을 성공적으로 생성합니다. 우리의 결과는 인간 피드백을 통해 텍스트-투-3D 모델을 개선하는 데 있어 큰 잠재력을 보여줍니다.
최근 몇 년간 다양한 분야에서 멀티모달 대형 언어 모델(MLLM)의 적용이 놀라운 성공을 거두었습니다. 그러나 많은 다운스트림 작업의 기반 모델로서, 현재의 MLLM은 잘 알려진 Transformer 네트워크로 구성되어 있으며, 이는 덜 효율적인 2차 계산 복잡도를 가지고 있습니다. 이러한 기본 모델의 효율성을 개선하기 위해, 우리는 선형 계산 복잡도의 MLLM인 Cobra를 제안합니다. 구체적으로, Cobra는 효율적인 Mamba 언어 모델을 시각 모달리티에 통합합니다. 또한, 우리는 다양한 모달리티 융합 방식을 탐구하고 연구하여 효과적인 멀티모달 Mamba를 생성합니다. 광범위한 실험을 통해 (1) Cobra는 현재의 계산 효율적인 최신 방법들(예: LLaVA-Phi, TinyLLaVA, MobileVLM v2)과 매우 경쟁력 있는 성능을 달성하며, Cobra의 선형 순차 모델링 덕분에 더 빠른 속도를 보여줍니다. (2) 흥미롭게도, 폐쇄형 도전 예측 벤치마크 결과는 Cobra가 시각적 착각과 공간 관계 판단을 극복하는 데 잘 작동함을 보여줍니다. (3) 특히, Cobra는 LLaVA와 비교하여 약 43%의 파라미터 수로도 비슷한 성능을 달성합니다. 우리는 Cobra의 모든 코드를 오픈소스로 공개할 것이며, 제안된 방법이 MLLM의 복잡성 문제에 대한 미래 연구를 촉진하기를 바랍니다. 우리의 프로젝트 페이지는 https://sites.google.com/view/cobravlm에서 확인할 수 있습니다.
비디오 간 편집은 소스 비디오와 추가적인 제어 요소(예: 텍스트 프롬프트, 주제, 스타일 등)를 함께 사용하여 소스 비디오와 제공된 제어 요소에 맞는 새로운 비디오를 생성하는 과정을 포함합니다. 기존의 방법들은 특정 편집 유형에 제한되어 있어 다양한 사용자 요구를 충족시키는 데 한계가 있었습니다. 본 논문에서는 AnyV2V라는 새로운 학습 없이도 사용 가능한 프레임워크를 소개합니다. 이 프레임워크는 비디오 편집을 두 가지 주요 단계로 단순화합니다: (1) 기존의 이미지 편집 모델(예: InstructPix2Pix, InstantID 등)을 사용하여 첫 번째 프레임을 수정하고, (2) 기존의 이미지-투-비디오 생성 모델(예: I2VGen-XL)을 사용하여 DDIM 역변환 및 특징 주입을 수행합니다. 첫 번째 단계에서 AnyV2V는 기존의 모든 이미지 편집 도구를 활용할 수 있어 다양한 비디오 편집 작업을 지원합니다. 전통적인 프롬프트 기반 편집 방법을 넘어, AnyV2V는 참조 기반 스타일 전이, 주제 기반 편집, 아이덴티티 조작과 같은 새로운 비디오 편집 작업도 지원하며, 이는 이전 방법들로는 달성할 수 없었던 기능들입니다. 두 번째 단계에서 AnyV2V는 기존의 이미지-투-비디오 모델을 활용하여 DDIM 역변환 및 중간 특징 주입을 수행함으로써 소스 비디오와의 외관 및 동작 일관성을 유지합니다. 프롬프트 기반 편집에서 AnyV2V는 이전 최고의 접근법보다 프롬프트 정렬에서 35%, 인간 선호도에서 25% 더 우수한 성능을 보였습니다. 또한 세 가지 새로운 작업에서도 AnyV2V는 높은 성공률을 달성했습니다. 우리는 AnyV2V가 빠르게 발전하는 이미지 편집 방법들을 원활하게 통합할 수 있는 능력 덕분에 계속해서 성장할 것이라고 믿습니다. 이러한 호환성은 AnyV2V가 다양한 사용자 요구를 충족시키기 위해 그 다양성을 증가시키는 데 도움을 줄 것입니다.
텍스트 기반 확산 모델의 최근 발전은 강력한 이미지 조작 기능을 가능하게 했습니다. 그러나 이러한 방법을 실제 이미지에 적용하기 위해서는 사전 학습된 확산 모델의 도메인으로 이미지를 역변환해야 합니다. 특히 적은 수의 노이즈 제거 단계로 이미지를 생성하도록 훈련된 최신 모델의 경우, 충실한 역변환을 달성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 연산 횟수를 증가시키지 않으면서 재구성 정확도를 향상시키는 고품질 대 연산 비율의 역변환 방법을 소개합니다. 확산 샘플링 과정을 역으로 진행하는 기반 위에, 우리의 방법은 각 역변환 샘플링 단계에서 반복적인 재노이즈 메커니즘을 사용합니다. 이 메커니즘은 사전 학습된 확산 모델을 반복적으로 적용하고 이러한 예측을 평균화함으로써 순방향 확산 경로를 따라 예측된 점의 근사치를 개선합니다. 우리는 ReNoise 기법의 성능을 다양한 샘플링 알고리즘과 모델, 최근의 가속화된 확산 모델을 포함하여 평가합니다. 포괄적인 평가와 비교를 통해 정확도와 속도 측면에서의 효과성을 입증합니다. 또한, 실제 이미지에 대한 텍스트 기반 이미지 편집을 시연함으로써 우리의 방법이 편집 가능성을 유지한다는 것을 확인합니다.
비디오 확산 모델은 최근 생성 품질 면에서 큰 진전을 이루었지만, 여전히 높은 메모리와 계산 요구량으로 인해 제약을 받고 있습니다. 이는 현재의 비디오 확산 모델들이 고차원 비디오를 직접 처리하려고 시도하기 때문입니다. 이 문제를 해결하기 위해, 우리는 사전 훈련된 이미지 확산 모델을 비디오 생성에 효율적으로 확장한 새로운 방법인 콘텐츠-모션 잠재 확산 모델(CMD)을 제안합니다. 구체적으로, 우리는 비디오를 콘텐츠 프레임(이미지와 유사)과 저차원 모션 잠재 표현의 조합으로 간결하게 인코딩하는 오토인코더를 제안합니다. 전자는 공통 콘텐츠를 나타내고, 후자는 비디오의 기본 모션을 각각 나타냅니다. 콘텐츠 프레임은 사전 훈련된 이미지 확산 모델을 미세 조정하여 생성하고, 모션 잠재 표현은 새로운 경량 확산 모델을 훈련하여 생성합니다. 여기서 핵심 혁신은 사전 훈련된 이미지 확산 모델을 직접 활용할 수 있는 컴팩트한 잠재 공간의 설계로, 이는 기존의 잠재 비디오 확산 모델에서는 시도되지 않았던 접근 방식입니다. 이를 통해 훨씬 더 나은 품질의 생성과 계산 비용의 감소를 달성할 수 있습니다. 예를 들어, CMD는 512×1024 해상도와 길이 16의 비디오를 3.1초 만에 생성함으로써 기존 방법보다 7.7배 빠르게 샘플링할 수 있습니다. 또한, CMD는 WebVid-10M에서 212.7의 FVD 점수를 달성하여, 이전 최고 기록인 292.4보다 27.3% 더 우수한 성능을 보입니다.
최근 대규모 시각-언어 모델(VLMs)은 시각적 콘텐츠에 대한 텍스트 설명을 이해하고 생성하는 데 있어 뛰어난 능력을 보여주었습니다. 그러나 이러한 모델들은 사용자별 개념을 이해하지 못하는 한계가 있습니다. 본 연구에서는 VLMs의 개인화를 위한 첫걸음을 내딛어, 사용자가 제공한 개념을 학습하고 추론할 수 있도록 합니다. 예를 들어, 이러한 모델들이 이미지에서 사용자를 인식하고 사용자가 무엇을 하고 있는지 설명할 수 있는지 탐구하며, 모델이 개인의 경험과 관계를 반영하도록 맞춤화합니다. 다양한 사용자별 개념을 효과적으로 인식하기 위해, 우리는 VLMs에 외부 개념 헤드를 추가하여 모델이 주어진 이미지에서 특정 대상 개념의 존재를 식별할 수 있도록 합니다. 개념을 인식한 후, 우리는 VLMs의 중간 특징 공간에서 새로운 개념 임베딩을 학습합니다. 이 임베딩은 언어 모델이 생성한 응답에 대상 개념을 자연스럽게 통합하도록 안내하는 역할을 합니다. 우리는 이 기술을 BLIP-2와 LLaVA에 적용하여 개인화된 이미지 캡셔닝을 수행하고, 더 나아가 개인화된 시각 질의응답에 대한 적용 가능성을 보여줍니다. 우리의 실험은 학습된 개념의 보이지 않는 이미지에 대해 일반화할 수 있는 능력을 입증하면서, 관련 없는 입력에 대한 모델의 동작을 유지합니다.
우리는 희소 뷰 이미지에서 0.1초 내외로 3D 자산을 복원할 수 있는 대규모 재구성기인 GRM을 소개합니다. GRM은 피드포워드 트랜스포머 기반 모델로, 다중 뷰 정보를 효율적으로 통합하여 입력 픽셀을 픽셀 정렬 가우시안으로 변환합니다. 이 가우시안들은 역투영되어 장면을 나타내는 고밀도 분포의 3D 가우시안 집합을 생성합니다. 우리의 트랜스포머 아키텍처와 3D 가우시안의 사용은 확장 가능하고 효율적인 재구성 프레임워크를 가능하게 합니다. 광범위한 실험 결과는 우리의 방법이 재구성 품질과 효율성 측면에서 대안들보다 우수함을 입증합니다. 또한, 우리는 GRM을 기존의 다중 뷰 확산 모델과 통합하여 텍스트-투-3D 및 이미지-투-3D와 같은 생성 작업에서의 잠재력을 보여줍니다. 프로젝트 웹사이트는 https://justimyhxu.github.io/projects/grm/에서 확인할 수 있습니다.
우리는 복잡한 3D 효과를 실시간으로 고품질 렌더링 및 편집하기 위한 새로운 메시 기반 표현인 Gaussian Frosting을 제안합니다. 우리의 접근 방식은 최근의 3D Gaussian Splatting 프레임워크를 기반으로 하며, 이 프레임워크는 이미지로부터 방사장(radiance field)을 근사하기 위해 3D 가우시안 집합을 최적화합니다. 우리는 최적화 과정에서 가우시안으로부터 기본 메시를 먼저 추출한 후, 메시 주변에 가변 두께의 적응형 가우시안 레이어를 구축하고 정제하여 표면 근처의 미세한 디테일과 체적 효과(예: 머리카락이나 풀)를 더 잘 포착할 것을 제안합니다. 우리는 이 레이어를 Gaussian Frosting이라고 부르며, 이는 케이크 위의 프로스팅 코팅과 유사합니다. 재질이 더 퍼지면 프로스팅 두께도 더 두꺼워집니다. 또한, 우리는 가우시안이 프로스팅 레이어 내부에 유지되도록 강제하고, 메시를 변형, 크기 조정, 편집 또는 애니메이션할 때 자동으로 매개변수를 조정하는 가우시안 파라미터화를 도입합니다. 우리의 표현은 가우시안 스플래팅을 사용한 효율적인 렌더링과 기본 메시를 수정하여 편집 및 애니메이션을 가능하게 합니다. 우리는 다양한 합성 및 실제 장면에서 우리 방법의 효과를 입증하고, 기존의 표면 기반 접근법을 능가함을 보여줍니다. 추가 기여로 코드와 웹 기반 뷰어를 공개할 예정입니다. 우리의 프로젝트 페이지는 다음과 같습니다: https://anttwo.github.io/frosting/
우리는 비디오 생성을 제어하여 주어진 시작 프레임과 종료 프레임만을 기반으로 임의의 카메라 및 피사체 움직임을 합성하는 일반화된 작업으로서 경계 생성(bounded generation)을 소개합니다. 우리의 목표는 원본 모델의 추가 학습이나 미세 조정 없이 이미지-투-비디오 모델의 내재된 일반화 능력을 최대한 활용하는 것입니다. 이를 위해 우리는 시간 역방향 융합(Time Reversal Fusion)이라는 새로운 샘플링 전략을 제안합니다. 이 전략은 시작 프레임과 종료 프레임에 각각 조건화된 시간적 순방향 및 역방향 디노이징 경로를 융합합니다. 융합된 경로는 두 프레임을 부드럽게 연결하는 비디오를 생성하며, 이는 충실한 피사체 움직임의 중간 프레임 생성, 정적 장면의 새로운 시점, 그리고 두 경계 프레임이 동일할 때 원활한 비디오 루핑을 가능하게 합니다. 우리는 다양한 이미지 쌍으로 구성된 평가 데이터셋을 구축하고 기존의 가장 유사한 방법들과 비교합니다. 시간 역방향 융합은 모든 하위 작업에서 관련 연구를 능가하며, 경계 프레임에 의해 유도된 복잡한 움직임과 3D 일관성 있는 시점을 생성할 수 있는 능력을 보여줍니다. 프로젝트 페이지는 https://time-reversal.github.io에서 확인할 수 있습니다.
우리는 사전 학습된 StyleGAN을 사용하여 정적인 풍경 이미지로부터 자동으로 시네마그래프를 생성할 수 있는 방법을 제안합니다. 최근의 무조건 비디오 생성의 성공에 영감을 받아, 우리는 강력한 사전 학습된 이미지 생성기를 활용하여 고품질의 시네마그래프를 합성합니다. 기존의 접근 방식들이 주로 사전 학습된 StyleGAN의 잠재 공간을 활용한 것과 달리, 우리의 접근 방식은 GAN 역전사와 시네마그래프 생성을 위해 StyleGAN의 깊은 특징 공간을 활용합니다. 구체적으로, 우리는 다양한 해상도에서 사전 학습된 StyleGAN의 중간 특징들을 왜곡하는 다중 스케일 깊은 특징 왜곡(MSDFW)을 제안합니다. MSDFW를 사용함으로써 생성된 시네마그래프는 고해상도이며 자연스러운 루프 애니메이션을 보여줍니다. 우리는 사용자 연구와 최신 시네마그래프 생성 방법 및 사전 학습된 StyleGAN을 사용하는 비디오 생성 방법과의 정량적 비교를 통해 우리 방법의 우수성을 입증합니다.
연구자와 개발자들은 고객 서비스, 정보 검색, 콘텐츠 생성과 같은 환경에서 생성형 언어 모델의 출력을 조절하기 위해 점점 더 독성 점수화(toxicity scoring)에 의존하고 있습니다. 그러나 독성 점수화는 관련 정보에 대한 접근을 차단하거나, 문화적 규범을 경직화하거나 "가치 고정"시킬 수 있으며, 특히 소외된 사람들의 언어 재활 과정을 방해할 수 있습니다. 본 연구에서는 알고리즘적 재조정(algorithmic recourse) 개념을 생성형 언어 모델로 확장합니다: 사용자가 독성 필터링을 위한 임계값을 동적으로 설정함으로써 원하는 예측 결과를 달성할 수 있는 새로운 메커니즘을 제공합니다. 이를 통해 사용자는 기본 시스템과 상호작용할 때보다 더 큰 주체성을 행사할 수 있습니다. 파일럿 연구(n = 30)는 고정 임계값 독성 필터링과 비교하여 제안된 재조정 메커니즘이 사용성 측면에서 개선 가능성을 보여줍니다. 향후 연구는 독성 점수화, 모델 제어 가능성, 사용자 주체성, 언어 재활 과정의 교차점을 탐구해야 하며, 특히 생성형 언어 모델과 상호작용할 때 많은 커뮤니티가 직면하는 편향성에 주목해야 할 것입니다.