AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

MLLM에서의 시각 표현 법칙
Law of Vision Representation in MLLMs

Aug 29

ByShijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu

본 논문에서는 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)에서의 "시각 표현 법칙(Law of Vision Representation)"을 제시한다. 이 법칙은 교차모달 정렬(cross-modal alignment), 시각 표현 간의 일관성(correspondence in vision representation), 그리고 MLLM 성능 간의 강력한 상관관계를 밝힌다. 우리는 교차모달 정렬 및 일관성 점수(Alignment and Correspondence score, AC 점수)를 사용하여 이 두 요소를 정량화하였다. 13가지의 다양한 시각 표현 설정과 8개의 벤치마크를 통한 광범위한 실험을 통해, AC 점수가 모델 성능과 선형적으로 상관관계를 가짐을 확인하였다. 이러한 관계를 활용하여, 우리는 언어 모델을 매번 미세 조정(finetuning)할 필요 없이 최적의 시각 표현만을 식별하고 학습할 수 있었으며, 이를 통해 계산 비용을 99.7% 절감할 수 있었다.

CogVLM2: 이미지 및 비디오 이해를 위한 시각 언어 모델
CogVLM2: Visual Language Models for Image and Video Understanding

Aug 29

ByWenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang

VisualGLM과 CogVLM을 시작으로, 우리는 향상된 시각-언어 융합, 효율적인 고해상도 아키텍처, 그리고 더 넓은 모달리티와 응용 분야를 추구하며 지속적으로 VLM(Vision-Language Model)을 탐구하고 있습니다. 여기서 우리는 이미지와 비디오 이해를 위한 새로운 세대의 시각 언어 모델인 CogVLM2 패밀리(CogVLM2, CogVLM2-Video, GLM-4V)를 제안합니다. 이미지 이해 모델로서, CogVLM2는 시각 전문가 아키텍처를 계승하며 사전 학습과 사후 학습 단계에서 개선된 훈련 방법을 도입하여 최대 1344×1344 픽셀의 입력 해상도를 지원합니다. 비디오 이해 모델로서, CogVLM2-Video는 타임스탬프와 함께 다중 프레임 입력을 통합하고 자동화된 시간적 그라운딩 데이터 구성을 제안합니다. 특히, CogVLM2 패밀리는 MMBench, MM-Vet, TextVQA, MVBench, VCGBench 등의 벤치마크에서 최첨단 성과를 달성했습니다. 모든 모델은 https://github.com/THUDM/CogVLM2와 https://github.com/THUDM/GLM-4에서 오픈소스로 제공되어 해당 분야의 발전에 기여하고 있습니다.

WavTokenizer: 오디오 언어 모델링을 위한 효율적인 음향 이산 코드 토크나이저
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Aug 29

ByShengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao

언어 모델은 이미지, 비디오, 음성, 오디오와 같은 자연 신호를 모델링하는 데 효과적으로 적용되어 왔습니다. 이러한 모델의 중요한 구성 요소는 고차원의 자연 신호를 저차원의 이산 토큰으로 압축하는 코덱 토크나이저입니다. 본 논문에서는 오디오 도메인에서 기존 SOTA 음향 코덱 모델 대비 여러 가지 장점을 제공하는 WavTokenizer를 소개합니다: 1) 극단적인 압축. 양자화기 계층과 이산 코덱의 시간 차원을 압축함으로써, 24kHz 샘플링 속도의 1초 오디오에 대해 단일 양자화기와 40 또는 75개의 토큰만 필요합니다. 2) 향상된 주관적 품질. 토큰 수가 줄어들었음에도 불구하고, WavTokenizer는 우수한 UTMOS 점수와 더 풍부한 의미 정보를 내포한 최첨단 재구성 품질을 달성합니다. 특히, 더 넓은 VQ 공간, 확장된 컨텍스트 윈도우, 개선된 어텐션 네트워크를 설계하고, 강력한 멀티스케일 판별기와 역 푸리에 변환 구조를 도입함으로써 이러한 결과를 달성했습니다. 음성, 오디오, 음악 도메인에서 광범위한 재구성 실험을 수행했습니다. WavTokenizer는 최첨단 모델 대비 다양한 객관적 및 주관적 지표에서 강력한 성능을 보였습니다. 또한 의미 정보, VQ 활용도, 생성 모델에 대한 적응성도 테스트했습니다. 포괄적인 어블레이션 연구는 WavTokenizer의 각 모듈의 필요성을 확인합니다. 관련 코드, 데모, 사전 학습된 모델은 https://github.com/jishengpeng/WavTokenizer에서 확인할 수 있습니다.

ReconX: 비디오 확산 모델을 활용한 희소 뷰에서의 장면 재구성
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

Aug 29

ByFangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

3D 장면 재구성 기술의 발전으로 인해 실세계의 2D 이미지들이 3D 모델로 변환되며, 수백 장의 입력 사진으로부터 사실적인 3D 결과물을 생성할 수 있게 되었습니다. 밀집 뷰 재구성 시나리오에서는 큰 성공을 거두었지만, 불충분한 뷰에서 세부적인 장면을 렌더링하는 것은 여전히 잘 정의되지 않은 최적화 문제로, 보이지 않는 영역에서 아티팩트와 왜곡이 발생하는 경우가 많습니다. 본 논문에서는 이러한 모호한 재구성 문제를 시간적 생성 작업으로 재구성하는 새로운 3D 장면 재구성 패러다임인 ReconX를 제안합니다. 핵심 통찰은 희소 뷰 재구성을 위해 대규모 사전 학습된 비디오 확산 모델의 강력한 생성 사전 지식을 활용하는 것입니다. 그러나 사전 학습된 모델에서 직접 생성된 비디오 프레임에서는 3D 뷰 일관성을 정확하게 유지하기 어렵습니다. 이를 해결하기 위해, 제안된 ReconX는 제한된 입력 뷰가 주어졌을 때 먼저 전역 포인트 클라우드를 구성하고 이를 3D 구조 조건으로서 컨텍스트 공간에 인코딩합니다. 이 조건의 지도 하에 비디오 확산 모델은 세부 사항을 보존하면서도 높은 수준의 3D 일관성을 나타내는 비디오 프레임을 합성하여 다양한 관점에서 장면의 일관성을 보장합니다. 마지막으로, 생성된 비디오를 통해 신뢰도 기반 3D 가우시안 스플래팅 최적화 기법을 사용하여 3D 장면을 복원합니다. 다양한 실세계 데이터셋에 대한 광범위한 실험을 통해 ReconX가 품질과 일반화 능력 측면에서 최신 방법들을 능가함을 보여줍니다.

SAM2Point: 제로샷 및 프롬프트 가능한 방식으로 3D를 비디오로 세그먼트화
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

Aug 29

ByZiyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

우리는 Segment Anything Model 2(SAM 2)를 제로샷 및 프롬프트 가능한 3D 세그멘테이션에 적용한 예비 탐구인 SAM2Point를 소개합니다. SAM2Point는 모든 3D 데이터를 다방향 비디오 시리즈로 해석하고, 추가적인 학습이나 2D-3D 투영 없이 SAM 2를 활용하여 3D 공간 세그멘테이션을 수행합니다. 우리의 프레임워크는 3D 포인트, 박스, 마스크 등 다양한 프롬프트 유형을 지원하며, 3D 객체, 실내 장면, 야외 환경, 원시 희소 LiDAR와 같은 다양한 시나리오에 일반화할 수 있습니다. Objaverse, S3DIS, ScanNet, Semantic3D, KITTI 등 여러 3D 데이터셋에서의 데모는 SAM2Point의 강력한 일반화 능력을 보여줍니다. 우리가 아는 한, 이는 3D에서 SAM을 가장 충실하게 구현한 것으로, 프롬프트 가능한 3D 세그멘테이션에 대한 향후 연구의 출발점이 될 수 있습니다. 온라인 데모: https://huggingface.co/spaces/ZiyuG/SAM2Point . 코드: https://github.com/ZiyuGuo99/SAM2Point .

언어 모델의 물리학: 2.2부, 초등학교 수학 문제에서 실수를 통해 배우는 방법
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Aug 29

ByTian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

언어 모델은 추론 과제 해결에서 놀라운 성능을 보여주고 있지만, 가장 강력한 모델들조차도 여전히 가끔씩 추론 오류를 범합니다. 최근에는 특히 사전 학습된 언어 모델을 사용하여 다중 라운드 프롬프팅을 통해 "자기 수정"을 함으로써 추론 정확도를 향상시키려는 연구가 활발히 진행되고 있습니다. 본 논문에서는 이러한 연구 흐름을 따르되, 사전 학습 단계에 "오류 수정" 데이터를 직접 통합하는 것의 유용성을 이해하는 데 초점을 맞춥니다. 이 데이터는 잘못된 해결 단계와 그에 이은 수정 사항으로 구성됩니다. 합성 수학 데이터셋을 사용하여, 우리는 이러한 유형의 사전 학습 데이터가 동일한 양의 오류 없는 데이터를 사전 학습하는 것에 비해 언어 모델이 더 높은 추론 정확도를 직접적으로(즉, 다중 라운드 프롬프팅 없이 단순한 자동 회귀를 통해) 달성하는 데 도움이 될 수 있다는 유망한 결과를 보여줍니다. 또한 우리는 (1) 이 접근법이 빔 서치와 어떻게 다른지, (2) 이러한 데이터를 어떻게 준비할 수 있는지, (3) 잘못된 토큰에 마스킹이 필요한지 여부, (4) 필요한 오류의 양, (5) 이러한 데이터를 미세 조정 단계로 미룰 수 있는지 여부 등과 같은 많은 세부 사항들을 깊이 있게 탐구합니다.

CSGO: 텍스트-이미지 생성에서의 콘텐츠-스타일 구성
CSGO: Content-Style Composition in Text-to-Image Generation

Aug 29

ByPeng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li

디퓨전 모델은 제어된 이미지 생성에서 뛰어난 능력을 보여주며, 이는 이미지 스타일 변환에 대한 관심을 더욱 고조시켰습니다. 기존 연구들은 특정 데이터의 부족으로 인해 주로 프리베이스 방법(예: 이미지 인버전)을 훈련하는 데 초점을 맞추었습니다. 본 연구에서는 콘텐츠-스타일-스타일화된 이미지 트리플렛을 위한 데이터 구축 파이프라인을 제시하며, 이는 스타일화된 데이터 트리플렛을 생성하고 자동으로 정제합니다. 이 파이프라인을 기반으로, 우리는 210k개의 이미지 트리플렛을 포함한 첫 번째 대규모 스타일 변환 데이터셋인 IMAGStyle을 구축하여 커뮤니티가 탐구하고 연구할 수 있도록 제공합니다. IMAGStyle을 활용하여, 우리는 엔드투엔드 훈련 기반의 스타일 변환 모델인 CSGO를 제안합니다. 이 모델은 독립적인 특징 주입을 통해 콘텐츠와 스타일 특징을 명시적으로 분리합니다. 통합된 CSGO는 이미지 기반 스타일 변환, 텍스트 기반 스타일화 합성, 그리고 텍스트 편집 기반 스타일화 합성을 구현합니다. 광범위한 실험을 통해 우리의 접근 방식이 이미지 생성에서 스타일 제어 능력을 향상시키는 데 효과적임을 입증합니다. 추가 시각화 자료와 소스 코드는 프로젝트 페이지(https://csgo-gen.github.io/)에서 확인할 수 있습니다.

공간 메모리를 활용한 3D 재구성
3D Reconstruction with Spatial Memory

Aug 28

ByHengyi Wang, Lourdes Agapito

우리는 정렬된 또는 비정렬된 이미지 컬렉션으로부터 고밀도 3D 재구성을 위한 새로운 접근법인 Spann3R을 소개합니다. Spann3R은 DUSt3R 패러다임을 기반으로 하며, 트랜스포머 기반 아키텍처를 사용하여 장면이나 카메라 파라미터에 대한 사전 지식 없이도 이미지로부터 포인트맵을 직접 회귀합니다. DUSt3R이 각 이미지 쌍에 대해 로컬 좌표계로 표현된 포인트맵을 예측하는 것과 달리, Spann3R은 전역 좌표계로 표현된 이미지별 포인트맵을 예측할 수 있어, 최적화 기반의 전역 정렬이 필요 없습니다. Spann3R의 핵심 아이디어는 이전의 모든 관련 3D 정보를 추적하는 외부 공간 메모리를 관리하는 것입니다. Spann3R은 이 공간 메모리를 쿼리하여 다음 프레임의 3D 구조를 전역 좌표계로 예측합니다. DUSt3R의 사전 훈련된 가중치를 활용하고, 데이터셋의 일부에 대해 추가 미세 조정을 수행함으로써, Spann3R은 다양한 보이지 않는 데이터셋에서 경쟁력 있는 성능과 일반화 능력을 보여주며, 정렬된 이미지 컬렉션을 실시간으로 처리할 수 있습니다. 프로젝트 페이지: https://hengyiwang.github.io/projects/spanner

StyleRemix: 스타일 요소의 증류와 변형을 통한 해석 가능한 저자 익명화
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Aug 28

ByJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

작가 익명화, 즉 텍스트를 재작성하여 의도적으로 작가의 정체성을 숨기는 작업은 중요하지만 어려운 과제입니다. 현재 대형 언어 모델(LLM)을 사용한 방법들은 해석 가능성과 제어 가능성이 부족하며, 종종 작가 특유의 스타일적 특징을 무시하여 전반적으로 덜 견고한 성능을 보입니다. 이 문제를 해결하기 위해, 우리는 원본 입력 텍스트의 구체적이고 세밀한 스타일 요소를 교란하는 적응적이고 해석 가능한 익명화 방법인 StyleRemix를 개발했습니다. StyleRemix는 사전 훈련된 Low Rank Adaptation (LoRA) 모듈을 사용하여 입력 텍스트를 다양한 스타일 축(예: 형식성과 길이)을 따라 재작성하면서도 낮은 계산 비용을 유지합니다. StyleRemix는 자동 및 인간 평가를 통해 다양한 도메인에서 최신 베이스라인과 훨씬 더 큰 LLM을 능가하는 성능을 보입니다. 또한, 우리는 14명의 다양한 작가와 4개의 도메인에서 수집된 30,000개의 고품질 장문 텍스트로 구성된 대규모 데이터셋인 AuthorMix와, 7개의 스타일 축을 16개의 독특한 방향으로 아우르는 1,500개의 텍스트로 구성된 병렬 코퍼스인 DiSC를 공개합니다.

확산 및 흐름 기반 XGBoost 모델의 규모 확장
Scaling Up Diffusion and Flow-based XGBoost Models

Aug 28

ByJesse C. Cresswell, Taewoo Kim

표 형식 데이터 생성을 위한 새로운 기계 학습 방법들은 종종 과학적 응용에 필요한 규모에 미치지 못하는 소규모 데이터셋에서 개발됩니다. 우리는 최근 제안된 XGBoost를 확산(diffusion) 및 플로우 매칭(flow-matching) 모델의 함수 근사기로 사용하는 방법을 조사했는데, 이 방법은 아주 작은 데이터셋에서도 매우 높은 메모리 사용량을 보였습니다. 본 연구에서는 기존 구현을 엔지니어링 관점에서 비판적으로 분석하고, 이러한 한계가 방법론 자체의 근본적인 문제가 아님을 보여줍니다. 더 나은 구현을 통해 이전에 사용된 데이터셋보다 370배 더 큰 규모로 확장할 수 있음을 입증했습니다. 우리의 효율적인 구현은 또한 모델을 훨씬 더 큰 규모로 확장할 수 있게 해주며, 이는 벤치마크 작업에서 성능 향상으로 직접 이어짐을 보여줍니다. 또한, 생성 모델링에 적합한 다중 출력 트리(multi-output trees)를 포함하여 자원 사용과 모델 성능을 더욱 개선할 수 있는 알고리즘적 개선안을 제안합니다. 마지막으로, 실험 입자 물리학에서 파생된 대규모 과학 데이터셋에 대한 결과를 Fast Calorimeter Simulation Challenge의 일환으로 제시합니다. 코드는 https://github.com/layer6ai-labs/calo-forest에서 확인할 수 있습니다.

메타 플로우 매칭: 와서스테인 매니폴드 상의 벡터 필드 통합
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold

Aug 26

ByLazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov

수많은 생물학적 및 물리적 과정은 시간에 따라 지속적으로 진화하는 상호작용 개체들의 시스템으로 모델링될 수 있습니다. 예를 들어, 세포 간의 통신이나 물리적 입자의 역학이 이에 해당합니다. 이러한 시스템의 역학을 학습하는 것은 새로운 샘플과 보이지 않는 환경에서의 개체군의 시간적 진화를 예측하는 데 필수적입니다. 플로우 기반 모델은 이러한 역학을 개체군 수준에서 학습할 수 있게 해줍니다. 이 모델은 샘플 전체의 분포 진화를 모델링합니다. 그러나 현재의 플로우 기반 모델은 단일 초기 개체군과 서로 다른 역학을 설명하는 미리 정의된 조건들로 제한되어 있습니다. 우리는 자연과학의 여러 과정이 확률 밀도의 와서스테인 매니폴드(Wasserstein manifold) 상의 벡터 필드로 표현되어야 한다고 주장합니다. 즉, 시간의 어느 순간에서든 개체군의 변화는 샘플 간의 상호작용으로 인해 개체군 자체에 의존합니다. 특히, 이는 개인 맞춤형 의학에서 질병의 발달과 그에 따른 치료 반응이 각 환자에게 특정한 세포의 미세 환경에 의존하는 경우에 중요합니다. 우리는 메타 플로우 매칭(Meta Flow Matching, MFM)을 제안합니다. 이는 초기 개체군에 대해 플로우 모델을 분산시켜 와서스테인 매니폴드 상의 이러한 벡터 필드를 통합하는 실용적인 접근법입니다. 구체적으로, 우리는 그래프 신경망(Graph Neural Network, GNN)을 사용하여 샘플 개체군을 임베딩하고, 이러한 임베딩을 사용하여 플로우 매칭 모델을 학습시킵니다. 이는 MFM이 이전에 제안된 방법들과 달리 초기 분포를 일반화할 수 있는 능력을 부여합니다. 우리는 대규모 다중 환자 단일 세포 약물 스크리닝 데이터셋에서 개별 치료 반응 예측을 개선하는 MFM의 능력을 입증합니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

MLLM에서의 시각 표현 법칙
Law of Vision Representation in MLLMs

Aug 29

ByShijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu

CogVLM2: 이미지 및 비디오 이해를 위한 시각 언어 모델
CogVLM2: Visual Language Models for Image and Video Understanding

Aug 29

WavTokenizer: 오디오 언어 모델링을 위한 효율적인 음향 이산 코드 토크나이저
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

Aug 29

ByShengpeng Ji, Ziyue Jiang, Xize Cheng, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao

ReconX: 비디오 확산 모델을 활용한 희소 뷰에서의 장면 재구성
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model

Aug 29

ByFangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan

SAM2Point: 제로샷 및 프롬프트 가능한 방식으로 3D를 비디오로 세그먼트화
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners

Aug 29

ByZiyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng

언어 모델의 물리학: 2.2부, 초등학교 수학 문제에서 실수를 통해 배우는 방법
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

Aug 29

ByTian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

CSGO: 텍스트-이미지 생성에서의 콘텐츠-스타일 구성
CSGO: Content-Style Composition in Text-to-Image Generation

Aug 29

ByPeng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, Zechao Li

공간 메모리를 활용한 3D 재구성
3D Reconstruction with Spatial Memory

Aug 28

ByHengyi Wang, Lourdes Agapito

StyleRemix: 스타일 요소의 증류와 변형을 통한 해석 가능한 저자 익명화
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Aug 28

ByJillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

확산 및 흐름 기반 XGBoost 모델의 규모 확장
Scaling Up Diffusion and Flow-based XGBoost Models

Aug 28

ByJesse C. Cresswell, Taewoo Kim

메타 플로우 매칭: 와서스테인 매니폴드 상의 벡터 필드 통합
Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold

Aug 26

ByLazar Atanackovic, Xi Zhang, Brandon Amos, Mathieu Blanchette, Leo J. Lee, Yoshua Bengio, Alexander Tong, Kirill Neklyudov