번역이 포함된 일일 선별된 AI 연구 논문
이미지 이해와 생성의 통합은 최근 멀티모달 모델 연구에서 점점 더 많은 관심을 받고 있다. 이미지 이해를 위한 설계 선택은 광범위하게 연구되었지만, 이미지 생성을 포함한 통합 프레임워크를 위한 최적의 모델 아키텍처와 훈련 방법은 아직 충분히 탐구되지 않았다. 고품질 생성과 확장성 측면에서 자기회귀 모델과 확산 모델의 강력한 잠재력에 주목하여, 우리는 이들의 통합 멀티모달 설정에서의 활용을 이미지 표현, 모델링 목표, 훈련 전략을 중심으로 포괄적으로 연구한다. 이러한 연구를 바탕으로, 우리는 기존의 VAE 기반 표현과 대조적으로 확산 트랜스포머를 사용하여 의미적으로 풍부한 CLIP 이미지 특징을 생성하는 새로운 접근 방식을 제안한다. 이 설계는 더 높은 훈련 효율성과 향상된 생성 품질을 동시에 제공한다. 또한, 통합 모델을 위한 순차적 사전 훈련 전략—먼저 이미지 이해를 훈련하고 이후에 이미지 생성을 훈련하는 방식—이 이미지 이해 능력을 유지하면서 강력한 이미지 생성 능력을 개발하는 데 실용적인 이점을 제공함을 입증한다. 마지막으로, 우리는 다양한 장면, 객체, 인간의 제스처 등을 포함한 다양한 캡션을 사용하여 GPT-4o를 프롬프팅하여 이미지 생성을 위한 고품질의 지시 튜닝 데이터셋인 BLIP3o-60k를 신중하게 구성한다. 우리의 혁신적인 모델 설계, 훈련 방법, 데이터셋을 기반으로, 우리는 최첨단 통합 멀티모달 모델군인 BLIP3-o를 개발한다. BLIP3-o는 이미지 이해와 생성 작업을 아우르는 대부분의 인기 벤치마크에서 우수한 성능을 달성한다. 향후 연구를 촉진하기 위해, 우리는 코드, 모델 가중치, 훈련 스크립트, 사전 훈련 및 지시 튜닝 데이터셋을 포함한 모델을 완전히 오픈소스로 공개한다.
대규모 언어 모델(LLM)의 급속한 확장은 메모리 용량, 계산 효율성, 상호 연결 대역폭 등 현재 하드웨어 아키텍처의 중요한 한계를 드러냈습니다. 2,048개의 NVIDIA H800 GPU로 훈련된 DeepSeek-V3는 하드웨어 인식 모델 공동 설계가 이러한 과제를 효과적으로 해결하고, 규모에 맞는 비용 효율적인 훈련과 추론을 가능하게 하는 방법을 보여줍니다. 본 논문은 DeepSeek-V3/R1 모델 아키텍처와 AI 인프라에 대한 심층 분석을 제시하며, 향상된 메모리 효율성을 위한 Multi-head Latent Attention(MLA), 최적화된 계산-통신 트레이드오프를 위한 Mixture of Experts(MoE) 아키텍처, 하드웨어 성능의 잠재력을 최대한 활용하기 위한 FP8 혼합 정밀도 훈련, 클러스터 수준 네트워크 오버헤드를 최소화하는 Multi-Plane Network Topology와 같은 주요 혁신을 강조합니다. DeepSeek-V3 개발 과정에서 마주한 하드웨어 병목 현상을 바탕으로, 학계 및 산업 동료들과 함께 정밀한 저정밀도 계산 유닛, 스케일업과 스케일아웃의 융합, 저지연 통신 패브릭의 혁신 등 잠재적인 미래 하드웨어 방향에 대한 광범위한 논의를 진행합니다. 이러한 통찰은 AI 워크로드의 증가하는 요구를 충족시키기 위한 하드웨어와 모델 공동 설계의 중요한 역할을 강조하며, 차세대 AI 시스템의 혁신을 위한 실용적인 청사진을 제공합니다.
대규모 다중모달 모델(Large Multimodal Models, LMM) 훈련에 널리 사용되는 자연어 이미지 캡션 데이터셋은 주로 자연스러운 시나리오에 초점을 맞추며, 문제 해결에 중요한 수학적 도형의 복잡한 세부 사항을 간과하여 현재 LMM의 다중모달 수학적 추론 발전을 저해하고 있다. 이를 위해 우리는 코드를 교차모달 정렬을 위한 감독으로 활용할 것을 제안한다. 코드는 해당 도형을 생성하는 데 필요한 모든 정보를 내재적으로 인코딩하므로 두 모달리티 간의 정확한 연결을 확립할 수 있기 때문이다. 구체적으로, 우리는 모델-인-더-루프(model-in-the-loop) 접근법을 통해 이미지-투-코드 모델과 데이터셋을 공동 개발하여, FigCodifier라는 이미지-투-코드 모델과 현재까지 가장 큰 이미지-코드 데이터셋인 ImgCode-8.6M을 구축하였다. 더 나아가, FigCodifier를 활용하여 새로운 수학적 도형을 합성하고, 고품질 다중모달 수학 지시 미세조정 데이터셋인 MM-MathInstruct-3M을 구성하였다. 마지막으로, 교차모달 정렬을 위해 ImgCode-8.6M으로 훈련되고, 다중모달 수학 문제 해결을 위해 MM-MathInstruct-3M에서 미세조정된 MathCoder-VL을 제시한다. 우리의 모델은 모든 6가지 메트릭에서 새로운 오픈소스 SOTA(State-of-the-Art)를 달성하였다. 특히, MathVista의 기하학 문제 해결 하위 집합에서 GPT-4o와 Claude 3.5 Sonnet을 각각 8.9%와 9.2% 앞섰다. 데이터셋과 모델은 https://github.com/mathllm/MathCoder에서 공개될 예정이다.
밀집 시각 예측 작업들은 사전 정의된 범주에 의존함으로써 제약을 받아왔으며, 이는 시각 개념이 무한한 실제 세계 시나리오에서의 적용 가능성을 제한해 왔습니다. CLIP과 같은 Vision-Language Models(VLMs)가 개방형 어휘 작업에서 유망한 성과를 보였지만, 이러한 모델들을 밀집 예측에 직접 적용할 경우 지역적 특징 표현의 한계로 인해 최적의 성능을 달성하지 못하는 경우가 많습니다. 본 연구에서는 CLIP의 이미지 토큰들이 공간적 또는 의미적으로 관련된 영역들로부터 정보를 효과적으로 집계하는 데 어려움을 겪으며, 이로 인해 지역적 식별력과 공간적 일관성이 부족한 특징들이 생성된다는 관찰을 제시합니다. 이러한 문제를 해결하기 위해, 우리는 CLIP을 개선한 새로운 프레임워크인 DeCLIP을 제안합니다. DeCLIP은 self-attention 모듈을 분리하여 각각 "내용(content)"과 "맥락(context)" 특징을 얻는 방식을 채택합니다. "내용" 특징은 이미지 크롭 표현과 정렬되어 지역적 식별력을 향상시키고, "맥락" 특징은 DINO와 같은 시각 기반 모델의 지도 하에 공간적 상관관계를 유지하도록 학습됩니다. 광범위한 실험을 통해 DeCLIP이 객체 탐지 및 의미론적 분할을 포함한 다양한 개방형 어휘 밀집 예측 작업에서 기존 방법들을 크게 능가함을 입증합니다. 코드는 magenta{https://github.com/xiaomoguhz/DeCLIP}에서 확인할 수 있습니다.
우리는 이미지 내 광원에 대한 세밀하고 파라미터화된 제어를 가능하게 하는 간단하지만 효과적인 디퓨전 기반 방법을 제안합니다. 기존의 재조명 방법들은 추론 시점에서 역렌더링을 수행하기 위해 다중 입력 뷰에 의존하거나, 광 변화에 대한 명시적 제어를 제공하지 못하는 한계가 있었습니다. 우리의 방법은 소규모의 실제 원본 사진 쌍과 대규모로 합성된 렌더링 이미지를 보조 데이터로 사용하여 디퓨전 모델을 미세 조정함으로써, 재조명을 위한 사실적인 사전 지식을 유도합니다. 우리는 광의 선형성을 활용하여 특정 광원 또는 주변 조명의 제어된 변화를 묘사한 이미지 쌍을 합성합니다. 이러한 데이터와 적절한 미세 조정 방식을 사용하여, 광 강도와 색상에 대한 명시적 제어가 가능한 정밀한 조명 변화 모델을 학습합니다. 마지막으로, 우리의 방법이 어떻게 설득력 있는 광 편집 결과를 달성할 수 있는지 보여주며, 사용자 선호도 측면에서 기존 방법들을 능가함을 입증합니다.
지난 10년간 컴퓨터 비전 분야에서 딥러닝의 성공은 대규모 레이블 데이터셋과 강력한 사전 학습 모델에 기반해 왔습니다. 데이터가 부족한 환경에서는 이러한 사전 학습 모델의 품질이 효과적인 전이 학습에 있어 결정적인 역할을 합니다. 이미지 분류와 자기 지도 학습은 전통적으로 CNN(합성곱 신경망) 및 트랜스포머 기반 아키텍처를 사전 학습하는 주요 방법으로 사용되어 왔습니다. 최근 텍스트-이미지 생성 모델, 특히 잠재 공간에서 디노이징 확산을 사용하는 모델의 부상은 대규모 캡션 이미지 데이터셋으로 학습된 새로운 종류의 기초 모델을 소개했습니다. 이러한 모델들이 보지 못한 콘텐츠의 현실적인 이미지를 생성할 수 있는 능력은 시각 세계에 대한 깊은 이해를 가지고 있음을 시사합니다. 본 연구에서는 Marigold라는 조건부 생성 모델 패밀리와 사전 학습된 잠재 확산 모델(예: Stable Diffusion)의 지식을 추출하여 단안 깊이 추정, 표면 법선 예측, 내재적 분해와 같은 밀집 이미지 분석 작업에 적응시키는 미세 조정 프로토콜을 제시합니다. Marigold는 사전 학습된 잠재 확산 모델의 아키텍처를 최소한으로 수정하며, 단일 GPU에서 소규모 합성 데이터셋으로 며칠 동안 학습하고, 최첨단 제로샷 일반화 성능을 보여줍니다. 프로젝트 페이지: https://marigoldcomputervision.github.io
모방은 인간의 기본적인 학습 메커니즘으로, 개인이 전문가를 관찰하고 흉내 내며 새로운 작업을 배울 수 있게 합니다. 그러나 이러한 능력을 로봇에 적용하는 것은 인간과 로봇의 시각적 외형과 물리적 능력 사이의 근본적인 차이로 인해 상당한 어려움을 겪습니다. 기존 방법들은 공통된 장면과 작업을 포함하는 교차 구현체 데이터셋을 사용하여 이러한 격차를 메우려 했지만, 인간과 로봇 간의 정렬된 데이터를 대규모로 수집하는 것은 간단한 일이 아닙니다. 본 논문에서는 대규모 교차 구현체 비디오 데이터에서 레이블 없이 구현체에 구애받지 않는 기술 표현을 학습하는 새로운 프레임워크인 UniSkill을 제안합니다. 이를 통해 인간 비디오 프롬프트에서 추출된 기술이 로봇 데이터만으로 훈련된 로봇 정책에 효과적으로 전이될 수 있습니다. 시뮬레이션과 실제 환경에서의 실험 결과, 우리의 교차 구현체 기술은 보지 못한 비디오 프롬프트에서도 로봇이 적절한 행동을 선택하도록 성공적으로 안내함을 보여줍니다. 프로젝트 웹사이트는 https://kimhanjung.github.io/UniSkill에서 확인할 수 있습니다.
단일 RGB 이미지에서 고품질 3D 장면을 복원하는 것은 컴퓨터 그래픽스 분야에서 어려운 과제입니다. 현재의 방법들은 도메인 특정적 한계나 낮은 품질의 객체 생성에 어려움을 겪는 경우가 많습니다. 이를 해결하기 위해, 우리는 CAST(Component-Aligned 3D Scene Reconstruction from a Single RGB Image)라는 새로운 3D 장면 복원 및 복구 방법을 제안합니다. CAST는 입력 이미지에서 객체 수준의 2D 세그멘테이션과 상대적 깊이 정보를 추출하는 것으로 시작하며, 이후 GPT 기반 모델을 사용하여 객체 간의 공간적 관계를 분석합니다. 이를 통해 장면 내에서 객체들이 어떻게 서로 관련되어 있는지 이해함으로써 더 일관된 복원을 가능하게 합니다. CAST는 그 다음, MAE와 포인트 클라우드 조건화를 사용하여 가려짐과 부분적 객체 정보의 영향을 완화하고, 소스 이미지의 기하학적 구조와 텍스처와 정확하게 정렬되도록 각 객체의 전체 기하학적 구조를 독립적으로 생성하기 위해 가려짐을 고려한 대규모 3D 생성 모델을 사용합니다. 각 객체를 장면에 정렬하기 위해, 정렬 생성 모델은 필요한 변환을 계산하여 생성된 메쉬가 장면의 포인트 클라우드에 정확하게 배치되고 통합될 수 있도록 합니다. 마지막으로, CAST는 세밀한 관계 그래프를 활용하여 제약 그래프를 생성하는 물리학적 인식 보정 단계를 포함합니다. 이 그래프는 객체 포즈의 최적화를 안내하여 물리적 일관성과 공간적 일관성을 보장합니다. Signed Distance Fields(SDF)를 활용함으로써, 모델은 가려짐, 객체 침투, 공중에 떠 있는 객체와 같은 문제를 효과적으로 해결하여 생성된 장면이 실제 세계의 물리적 상호작용을 정확하게 반영하도록 합니다. CAST는 로보틱스 분야에서 활용될 수 있으며, 실시간-시뮬레이션 워크플로우를 효율적으로 가능하게 하고 로봇 시스템을 위한 현실적이고 확장 가능한 시뮬레이션 환경을 제공합니다.
GPT-4o-audio와 같은 종단 간 음성 대화 모델은 최근 음성 분야에서 상당한 주목을 받고 있습니다. 그러나 음성 대화 모델의 대화 성능 평가는 크게 간과되어 왔습니다. 이는 주로 지능형 챗봇이 텍스트 기반 언어 모델(예: ChatGPT)로는 쉽게 측정할 수 없는 다양한 비텍스트 정보를 전달하기 때문입니다. 이러한 격차를 해결하기 위해, 우리는 음성 입력을 통해 음성 대화 시스템의 IQ와 EQ를 모두 평가할 수 있는 오디오 언어 모델 기반의 보상 피드백 모델인 WavReward를 제안합니다. 구체적으로, 1) 오디오 언어 모델을 기반으로 WavReward는 심층 추론 과정과 사후 학습을 위한 비선형 보상 메커니즘을 통합합니다. 강화 학습 알고리즘을 통해 다중 샘플 피드백을 활용함으로써, 음성 대화 모델에 특화된 평가자를 구축합니다. 2) WavReward를 훈련하기 위해 사용된 선호도 데이터셋인 ChatReward-30K를 소개합니다. ChatReward-30K는 음성 대화 모델의 이해와 생성 측면을 모두 포함하며, 텍스트 기반 채팅, 지시 채팅의 9가지 음향 속성, 암묵적 채팅 등 다양한 작업을 아우릅니다. WavReward는 여러 음성 대화 시나리오에서 이전의 최신 평가 모델을 능가하며, Qwen2.5-Omni 대비 객관적 정확도에서 55.1%에서 91.5%로 상당한 개선을 달성했습니다. 주관적 A/B 테스트에서도 WavReward는 83%의 차이로 앞섰습니다. 포괄적인 어블레이션 연구는 WavReward의 각 구성 요소의 필요성을 확인합니다. 모든 데이터와 코드는 논문이 승인된 후 https://github.com/jishengpeng/WavReward에서 공개될 예정입니다.
최근 다중 모달 LLM인 Qwen2.5-Omni를 오디오 질의응답 데이터셋에 GRPO 강화 학습 방법으로 미세 조정한 Omni-R1을 제안합니다. 이를 통해 최근 MMAU 벤치마크에서 새로운 최첨단 성능을 달성했습니다. Omni-R1은 Test-mini와 Test-full 분할 모두에서 사운드, 음악, 음성 및 전체 평균 카테고리에서 가장 높은 정확도를 보였습니다. 성능 향상을 이해하기 위해 오디오를 포함한 모델과 포함하지 않은 모델을 테스트한 결과, GRPO로 인한 성능 향상의 상당 부분이 텍스트 기반 추론의 개선에 기인함을 발견했습니다. 또한, 텍스트 전용 데이터셋에서 오디오 없이 미세 조정하는 것이 오디오 기반 성능을 개선하는 데 효과적이라는 놀라운 발견을 했습니다.
소프트웨어 이슈 로컬라이제이션은 자연어로 작성된 이슈 설명(예: 버그 리포트, 기능 요청)과 관련된 정확한 코드 위치(파일, 클래스 또는 함수)를 식별하는 작업으로, 소프트웨어 개발에서 중요하지만 시간이 많이 소요되는 부분입니다. 최근 LLM 기반 에이전트 접근 방식이 유망한 결과를 보여주고 있지만, 복잡한 다단계 추론과 폐쇄형 LLM에 의존함으로써 상당한 지연 시간과 비용이 발생합니다. 반면, 전통적인 코드 랭킹 모델은 일반적으로 쿼리-투-코드 또는 코드-투-코드 검색에 최적화되어 있어, 이슈 로컬라이제이션 쿼리의 장황하고 실패를 설명하는 특성에 대처하기 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 소프트웨어 이슈 로컬라이제이션을 위한 효율적이고 효과적인 검색 및 재랭킹 프레임워크인 SweRank을 소개합니다. 학습을 용이하게 하기 위해, 우리는 공개 GitHub 저장소에서 수집한 대규모 데이터셋인 SweLoc을 구축했습니다. 이 데이터셋은 실제 이슈 설명과 해당 코드 수정 사항을 짝지어 제공합니다. SWE-Bench-Lite와 LocBench에서의 실험 결과는 SweRank이 기존 랭킹 모델과 Claude-3.5와 같은 폐쇄형 LLM을 사용하는 비용이 많이 드는 에이전트 기반 시스템을 모두 능가하는 최첨단 성능을 달성함을 보여줍니다. 또한, 우리는 SweLoc이 다양한 기존 검색 및 재랭킹 모델의 이슈 로컬라이제이션 성능을 향상시키는 데 유용함을 입증하며, 이 데이터셋이 커뮤니티에 귀중한 자원임을 확인합니다.
비디오 이해 분야의 최근 발전에도 불구하고, 대형 비디오 언어 모델(LVLMs)의 비디오 기반 인과적 추론 능력은 여전히 충분히 탐구되지 않고 있습니다. 이는 주로 시각적으로 근거를 둔 목표 지향적 환경에서 인과적 추론을 평가하기 위한 관련성 있고 전용 벤치마크의 부재 때문입니다. 이러한 공백을 메우기 위해, 우리는 비디오 기반 장편 인과적 추론(Video-based long-form Causal Reasoning, VCRBench)이라는 새로운 벤치마크를 소개합니다. VCRBench는 일상적인 간단한 활동의 절차적 비디오를 사용하여 만들어졌으며, 각 클립이 주요 인과적 사건을 포착하도록 단계를 의도적으로 섞어, LVLMs가 특정 목표를 달성하기 위해 필요한 사건을 식별하고, 추론하며, 올바르게 순서화할 수 있는지를 테스트합니다. 또한, 이 벤치마크는 다중 선택 또는 이진 질의응답 형식에서 볼 수 있는 언어적 단축키를 LVLMs가 악용하는 것을 방지하도록 신중하게 설계되었으며, 동시에 개방형 질의응답 평가와 관련된 어려움도 피합니다. VCRBench에서 최첨단 LVLMs를 평가한 결과, 이러한 모델들이 비디오 기반 장편 인과적 추론에 어려움을 겪는 것으로 나타났으며, 이는 주로 시각적 관찰로부터 장거리 인과적 의존성을 직접 모델링하는 데 어려움을 겪기 때문입니다. 이러한 능력을 가능하게 하는 간단한 단계로, 우리는 비디오 기반 인과적 추론을 비디오 인식과 인과적 추론이라는 두 하위 작업으로 분해하는 모듈식 접근법인 인식-추론 분해(Recognition-Reasoning Decomposition, RRD)를 제안합니다. VCRBench에서의 실험 결과, RRD는 정확도를 최대 25.2%까지 크게 향상시키는 것으로 나타났습니다. 마지막으로, 우리의 철저한 분석은 LVLMs가 복잡한 비디오 기반 장편 인과적 추론 작업에서 주로 언어 지식에 의존한다는 흥미로운 통찰을 제공합니다.
프리트레이닝 데이터셋은 멀티모달 모델 개발의 기초가 되지만, 웹 규모의 코퍼스에서 유래한 고유한 편향과 유해 콘텐츠를 포함하는 경우가 많습니다. 본 논문에서는 LLaVA 이미지-텍스트 프리트레이닝 데이터셋에서 유해 콘텐츠의 유행을 조사하고, 다양한 모달리티에서 유해 콘텐츠가 어떻게 나타나는지 살펴봅니다. 우리는 일반적인 유해 콘텐츠 카테고리에 대한 포괄적인 분석을 제시하고, 표적 완화 전략을 제안하여 정제된 유해 콘텐츠 완화 데이터셋을 생성합니다. 이 데이터셋은 LLaVA 프리트레이닝 데이터셋에서 7,531개의 유해 이미지-텍스트 쌍을 제거합니다. 또한, 강력한 유해 콘텐츠 탐지 파이프라인을 구현하기 위한 가이드라인을 제공합니다. 우리의 연구 결과는 혐오 발언, 노골적인 이미지, 표적 괴롭힘과 같은 유해 콘텐츠를 적극적으로 식별하고 필터링하여 더 책임감 있고 공정한 멀티모달 시스템을 구축할 필요성을 강조합니다. 유해 콘텐츠 완화 데이터셋은 오픈 소스로 제공되며, 추가 연구를 위해 이용 가능합니다.
개인 재식별(ReID) 기술은 통제된 지상 조건에서는 상대적으로 잘 작동하는 것으로 여겨져 왔지만, 실제 도전적인 현실 환경에서 배포될 경우 성능이 크게 저하됩니다. 이는 해상도, 시점 변화, 크기 변동, 가려짐, 그리고 의상이나 세션 변화로 인한 외모 변화와 같은 극단적인 데이터 변동 요인들 때문입니다. 더욱이, 공개적으로 이용 가능한 데이터셋들은 이러한 종류와 규모의 변동성을 현실적으로 반영하지 못하고 있어, 이 기술의 발전을 제한하고 있습니다. 본 논문은 실제 환경에서의 ReID를 위한 스트레스 테스트로 명시적으로 설계된 대규모 공중-지상 개인 데이터셋인 DetReIDX를 소개합니다. DetReIDX는 3개 대륙의 7개 대학 캠퍼스에서 드론 고도 5.8미터에서 120미터 사이로 수집된 509명의 신원에 대한 1,300만 개 이상의 바운딩 박스를 포함하는 다중 세션 데이터셋입니다. 더 중요한 것은, DetReIDX의 피험자들은 최소 두 번 이상의 서로 다른 날짜에 의상, 일광, 위치가 변경된 상태로 기록되어 장기간 개인 ReID를 실제로 평가하기에 적합합니다. 또한, 데이터는 16개의 소프트 생체 인식 속성과 탐지, 추적, ReID, 행동 인식을 위한 멀티태스크 레이블로 주석 처리되었습니다. DetReIDX의 유용성을 실증적으로 입증하기 위해, 인간 탐지와 ReID의 특정 작업을 고려했으며, SOTA(State-of-the-Art) 방법들이 DetReIDX의 조건에 노출되었을 때 탐지 정확도에서 최대 80%, Rank-1 ReID에서 70% 이상의 성능 저하를 보였습니다. 이 데이터셋, 주석, 공식 평가 프로토콜은 https://www.it.ubi.pt/DetReIDX/에서 공개적으로 이용 가능합니다.
최근 대규모 시각-언어 모델(VLMs)의 급속한 발전을 목격했습니다. 이러한 모델들은 주로 널리 사용되는 언어에서 학술 벤치마크에서 인상적인 결과를 보여주었지만, 저자원 언어와 다양한 문화적 맥락에서는 성능이 부족했습니다. 이러한 한계를 해결하기 위해, 우리는 오픈소스 다국어 VLM인 Maya를 소개합니다. 우리의 기여는 다음과 같습니다: 1) LLaVA 사전 학습 데이터셋을 기반으로 한 8개 언어의 다국어 이미지-텍스트 사전 학습 데이터셋; 그리고 2) 이러한 언어를 지원하는 다국어 이미지-텍스트 모델로, 시각-언어 작업에서 문화적 및 언어적 이해를 강화합니다. 코드는 https://github.com/nahidalam/maya에서 확인할 수 있습니다.
'어떤 붉은색 가구가 앉는 데 사용될 수 있는가?'와 같은 복잡한 시각적 질문에 답하기 위해서는 객체 인식, 속성 필터링, 관계적 이해를 포함한 다단계 추론이 필요합니다. 최근 연구에서는 다중 모드 대형 언어 모델(MLLMs)의 해석 가능성을 개선하기 위해 작업을 하위 작업 프로그램으로 분해하는 방법을 제안했지만, 이러한 방법은 계산 비용이 많이 들고 대상 데이터에 대한 적응이 부족해 정확도가 낮은 문제가 있습니다. 이를 해결하기 위해, 우리는 VISTAR(Visually Interpretable Subtask-Aware Reasoning Model)을 소개합니다. VISTAR는 MLLMs 내에서 텍스트 및 시각적 설명을 생성함으로써 해석 가능성과 추론 능력을 모두 향상시키는 하위 작업 중심의 훈련 프레임워크입니다. 외부 모델에 의존하는 대신, VISTAR는 MLLMs를 미세 조정하여 구조화된 '하위 작업 사고'(Subtask-of-Thought) 근거(단계별 추론 시퀀스)를 생성합니다. 두 벤치마크에서의 실험 결과, VISTAR는 해석 가능성을 유지하면서도 추론 정확도를 꾸준히 향상시키는 것으로 나타났습니다. 우리의 코드와 데이터셋은 https://github.com/ChengJade/VISTAR에서 공개될 예정입니다.
3D 가우시안 스플래팅(3DGS)은 실시간 고해상도 신시점 합성을 위한 강력한 기술로 부상했습니다. 3DGS는 장면을 가우시안 프리미티브의 혼합으로 표현함으로써 GPU 래스터화 파이프라인을 활용하여 효율적인 렌더링과 재구성을 가능하게 합니다. 장면 커버리지를 최적화하고 미세한 디테일을 포착하기 위해 3DGS는 추가 포인트를 생성하기 위한 밀집화 알고리즘을 사용합니다. 그러나 이 과정은 종종 중복된 포인트 클라우드를 초래하여 과도한 메모리 사용, 느린 성능 및 상당한 저장 공간 요구를 야기하며, 이는 자원이 제한된 장치에서의 배포에 상당한 어려움을 제기합니다. 이러한 한계를 해결하기 위해, 우리는 3DGS에서의 밀도 제어를 명확히 하고 개선하는 이론적 프레임워크를 제안합니다. 우리의 분석은 분할이 안장점을 탈출하는 데 중요하다는 것을 보여줍니다. 최적화 이론적 접근을 통해, 우리는 밀집화를 위한 필요 조건을 확립하고, 최소한의 자식 가우시안 수를 결정하며, 최적의 매개변수 업데이트 방향을 식별하고, 자식 불투명도 정규화를 위한 분석적 해를 제공합니다. 이러한 통찰을 바탕으로, 우리는 SteepGS를 도입하여, 가장 급격한 밀도 제어를 통한 원칙적 전략을 통해 손실을 최소화하면서도 컴팩트한 포인트 클라우드를 유지합니다. SteepGS는 렌더링 품질을 저하시키지 않으면서 가우시안 포인트를 약 50% 감소시켜, 효율성과 확장성을 크게 향상시킵니다.