번역이 포함된 일일 선별된 AI 연구 논문
장문맥 자동회귀 모델링은 언어 생성 분야에서 큰 진전을 이루었지만, 비디오 생성은 여전히 확장된 시간적 맥락을 완전히 활용하는 데 어려움을 겪고 있습니다. 장문맥 비디오 모델링을 연구하기 위해, 우리는 비디오 자동회귀 모델링을 위한 강력한 기준선인 프레임 자동회귀(FAR)를 소개합니다. 언어 모델이 토큰 간의 인과적 의존성을 학습하는 것(즉, 토큰 AR)과 마찬가지로, FAR는 연속된 프레임 간의 시간적 인과적 의존성을 모델링하여 토큰 AR과 비디오 확산 트랜스포머보다 더 나은 수렴을 달성합니다. FAR를 기반으로, 우리는 장문맥 비전 모델링이 시각적 중복성으로 인해 어려움에 직면한다는 것을 관찰했습니다. 기존의 RoPE는 원거리 맥락에 대한 효과적인 시간적 감쇠가 부족하며, 긴 비디오 시퀀스로의 외삽이 잘 되지 않습니다. 또한, 긴 비디오를 학습하는 것은 계산 비용이 많이 드는데, 이는 비전 토큰이 언어 토큰보다 훨씬 빠르게 증가하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 지역성과 장거리 의존성의 균형을 맞추는 것을 제안합니다. 우리는 RoPE에 유연한 시간적 감쇠를 추가하여 16배 더 긴 비전 맥락으로의 외삽을 가능하게 하는 테스트 시간 기법인 FlexRoPE를 소개합니다. 더 나아가, 우리는 고해상도의 단기 맥락 창이 세밀한 시간적 일관성을 보장하는 반면, 무제한의 장기 맥락 창이 더 적은 토큰을 사용하여 장거리 정보를 인코딩하는 장단기 맥락 모델링을 제안합니다. 이 접근 방식을 통해, 우리는 관리 가능한 토큰 맥락 길이로 긴 비디오 시퀀스를 학습할 수 있습니다. 우리는 FAR가 짧은 비디오와 긴 비디오 생성 모두에서 최첨단 성능을 달성하며, 비디오 자동회귀 모델링을 위한 간단하지만 효과적인 기준선을 제공한다는 것을 보여줍니다.
고해상도 시각적 세부 사항 인식은 일상 작업에 있어 매우 중요합니다. 그러나 현재의 시각 사전 훈련은 더 큰 이미지를 처리하는 데 드는 이차 비용으로 인해 여전히 낮은 해상도(예: 378 x 378 픽셀)로 제한됩니다. 우리는 PS3를 소개하며, 이는 CLIP 스타일의 시각 사전 훈련을 4K 해상도로 확장하면서 거의 일정한 비용을 유지합니다. 전역 이미지 표현에 대한 대조 학습 대신, PS3는 지역 영역을 선택적으로 처리하고 이를 지역 세부 캡션과 대조함으로써 사전 훈련되며, 이는 계산 오버헤드를 크게 줄이면서 고해상도 표현 학습을 가능하게 합니다. 사전 훈련된 PS3는 낮은 해상도에서 전역 이미지를 인코딩할 수 있을 뿐만 아니라, 텍스트 프롬프트와의 관련성이나 중요도에 따라 지역 고해상도 영역을 선택적으로 처리할 수 있습니다. PS3를 다중 모드 LLM(MLLM)에 적용할 때, 결과 모델인 VILA-HD는 AnyRes 및 S^2와 같은 고해상도 시각 사전 훈련이 없는 기준선에 비해 고해상도 시각적 인식을 크게 개선하며, 최대 4.3배 적은 토큰을 사용합니다. PS3는 또한 VILA-HD의 매력적인 확장 특성을 해제하며, 이에는 무료로 해상도를 확장하고 더 나은 성능을 위해 테스트 시간 계산을 확장하는 것이 포함됩니다. 최신 기술과 비교할 때, VILA-HD는 NVILA 및 Qwen2-VL과 같은 이전 MLLM을 여러 벤치마크에서 능가하며, 최신 토큰 프루닝 접근 방식보다 더 나은 효율성을 달성합니다. 마지막으로, 우리는 현재 벤치마크가 4K 해상도 인식을 요구하지 않는다는 것을 발견했으며, 이는 4K 해상도에서의 이미지 QA를 위한 새로운 벤치마크인 4KPro를 제안하게 되었습니다. VILA-HD는 이 벤치마크에서 모든 이전 MLLM을 능가하며, GPT-4o에 비해 14.5%의 개선과 Qwen2-VL에 비해 3.2%의 개선 및 2.96배의 속도 향상을 달성했습니다.
사전 학습된 플로우 모델을 위한 추론 시점 스케일링 접근법을 제안한다. 최근 대형 언어 모델(LLM)과 확산 모델에서 추론 시점 스케일링이 주목받으며, 추가 계산을 통해 샘플 품질을 향상시키거나 사용자 선호에 더 잘 맞는 출력을 생성하는 데 기여하고 있다. 확산 모델의 경우, 중간 노이즈 제거 단계에서의 확률적 특성 덕분에 입자 샘플링이 더 효율적인 스케일링을 가능하게 했다. 반면, 플로우 모델은 확산 모델의 대안으로 빠른 생성 속도와 최신 이미지 및 비디오 생성 모델에서의 고품질 출력을 제공하며 인기를 얻고 있지만, 확산 모델에 사용된 효율적인 추론 시점 스케일링 방법은 플로우 모델의 결정론적 생성 과정 때문에 직접 적용할 수 없다. 플로우 모델에서 효율적인 추론 시점 스케일링을 가능하게 하기 위해, 우리는 세 가지 핵심 아이디어를 제안한다: 1) SDE 기반 생성으로 플로우 모델에서 입자 샘플링을 가능하게 함, 2) 인터폴란트 변환으로 탐색 공간을 확장하고 샘플 다양성을 향상시킴, 3) 롤오버 예산 강제(RBF)로 시간 단계별 계산 자원을 적응적으로 할당하여 예산 활용을 극대화함. 실험 결과, 특히 분산 보존(VP) 인터폴란트 기반 생성이 플로우 모델에서 추론 시점 스케일링을 위한 입자 샘플링 방법의 성능을 향상시키는 것으로 나타났다. 또한, VP-SDE와 함께 RBF를 사용할 때 최고의 성능을 달성하며, 이전의 모든 추론 시점 스케일링 접근법을 능가하는 것을 보여준다.
대규모 멀티모달 모델(LMMs)의 환각 현상, 즉 겉보기에는 정확해 보이지만 실제로는 잘못된 응답을 제공하는 문제는 이들의 신뢰성과 적용 가능성을 제한합니다. 본 논문은 동적인 특성을 가진 비디오 모달리티에서의 LMMs 환각 문제를 연구하는 것을 목표로 합니다. 이는 이미지와 텍스트와 같은 정적 모달리티에 비해 더욱 도전적인 과제입니다. 이러한 동기에서, 우리는 먼저 비디오 이해 작업에서 LMMs의 환각 현상을 평가하기 위한 HAVEN이라는 포괄적인 벤치마크를 제시합니다. 이는 환각 원인, 환각 측면, 질문 형식이라는 세 가지 차원을 기반으로 구축되었으며, 총 6,000개의 질문으로 구성됩니다. 그런 다음, 제시된 벤치마크를 통해 16개의 LMMs에 대한 실험을 통해 비디오의 지속 시간, 모델 크기, 모델 추론 등 환각에 영향을 미치는 7가지 주요 요인을 정량적으로 연구합니다. 또한, OpenAI o1과 같은 최신 사고 모델에서 영감을 받아, 지도 추론 미세 조정(SRFT)과 직접 선호 최적화(TDPO)를 통해 LMMs의 환각 현상을 완화하기 위한 비디오 사고 모델을 제안합니다. 여기서 SRFT는 추론 능력을 강화하고, TDPO는 사고 과정에서의 환각을 줄입니다. 광범위한 실험과 분석을 통해 이의 효과를 입증하였으며, 특히 환각 평가에서 정확도를 7.65% 향상시키고 편향 점수를 4.5% 감소시켰습니다. 코드와 데이터는 https://github.com/Hongcheng-Gao/HAVEN에서 공개되어 있습니다.
사전 학습된 비전 기반 모델(Vision Foundation Models, VFMs)은 다양한 애플리케이션에 강력한 시각적 표현을 제공합니다. 본 논문에서는 기존의 VFM을 멀티모달 방식으로 지속적으로 사전 학습시켜, 원래의 사전 학습 과정과 관계없이 다양한 크기의 시각적 입력을 쉽게 처리하고 언어 표현과 더욱 정렬된 시각적 표현을 생성할 수 있도록 합니다. 이를 위해, 우리는 CoMP라는 신중하게 설계된 멀티모달 사전 학습 파이프라인을 소개합니다. CoMP는 원본 해상도에서의 지속적 사전 학습을 지원하기 위한 Continual Rotary Position Embedding과 언어 프로토타입을 통한 시각 및 텍스트 특징 간의 Alignment Loss를 사용하여 멀티모달 표현을 정렬합니다. 3단계 학습을 통해, 우리의 VFM은 멀티모달 이해뿐만 아니라 분류 및 세분화와 같은 다른 다운스트림 작업에서도 뛰어난 개선을 달성합니다. 특히, CoMP-SigLIP은 0.5B 규모의 LLM을 사용하여 ChartQA에서 66.7점, DocVQA에서 75.9점을 기록하면서도, 고정된 청크 평가에서 ImageNet-1K에서 87.4%의 정확도와 ADE20K에서 49.5 mIoU를 유지합니다.
최근 OpenAI-o1 및 DeepSeek-R1과 같은 대형 언어 모델(LLMs)의 발전은 테스트 시간 스케일링의 효과를 입증하며, 확장된 추론 과정이 모델 성능을 크게 향상시킬 수 있음을 보여주었습니다. 그러나 현재 모델들은 긴 텍스트 처리와 강화 학습(RL) 훈련 효율성에서의 한계로 인해 제약을 받고 있습니다. 이러한 문제를 해결하기 위해, 우리는 간단하면서도 효과적인 테스트 시간 스케일링 접근법인 다중 라운드 사고(Multi-round Thinking)를 제안합니다. 이 방법은 이전 답변을 후속 라운드의 프롬프트로 활용하여 모델의 추론을 반복적으로 개선합니다. QwQ-32B 및 DeepSeek-R1을 포함한 여러 모델에 걸친 광범위한 실험은 AIME 2024, MATH-500, GPQA-diamond, LiveCodeBench와 같은 다양한 벤치마크에서 일관된 성능 향상을 보여줍니다. 예를 들어, QwQ-32B의 정확도는 AIME 2024 데이터셋에서 80.3%(1라운드)에서 82.1%(2라운드)로 향상되었으며, DeepSeek-R1도 79.7%에서 82.0%로 유사한 증가를 보였습니다. 이러한 결과는 다중 라운드 사고가 모델 성능의 안정적인 향상을 달성하기 위한 폭넓게 적용 가능하고 간단한 접근법임을 확인하며, 테스트 시간 스케일링 기술의 미래 발전 가능성을 강조합니다. 주요 프롬프트: {원본 질문 프롬프트} 어시스턴트의 이전 답변은: <answer> {이전 라운드 답변} </answer>이며, 다시 답변해 주세요.
인공지능 생성 콘텐츠(AIGC) 기술의 급속한 발전으로 합성 이미지가 일상생활에서 점점 더 널리 사용되면서, 진위 판단 및 탐지에 새로운 도전 과제가 제기되고 있습니다. 기존의 이미지 진위 평가 및 위조 위치 탐지 방법들은 효과적이지만, 종종 인간이 이해하기 어렵고 합성 데이터의 점점 더 복잡해지는 문제를 완전히 해결하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 일반적인 합성 이미지 및 딥페이크 탐지 작업을 위해 특화된 대규모 멀티모달 모델인 FakeVLM을 소개합니다. FakeVLM은 진짜와 가짜 이미지를 구별하는 데 뛰어난 성능을 보일 뿐만 아니라, 이미지 아티팩트에 대한 명확하고 자연스러운 언어 설명을 제공하여 해석 가능성을 향상시킵니다. 또한, 우리는 7개 카테고리에 걸쳐 10만 장 이상의 이미지를 포함하고 자연어로 세밀한 아티팩트 단서가 주석 처리된 포괄적인 데이터셋인 FakeClue를 제시합니다. FakeVLM은 추가 분류기가 필요 없이도 전문가 모델에 필적하는 성능을 보여주며, 합성 데이터 탐지를 위한 강력한 솔루션으로 자리 잡았습니다. 여러 데이터셋에 걸친 광범위한 평가를 통해 FakeVLM은 진위 분류 및 아티팩트 설명 작업 모두에서 우수성을 입증하며, 합성 이미지 탐지의 새로운 벤치마크를 설정했습니다. 데이터셋과 코드는 https://github.com/opendatalab/FakeVLM에서 공개될 예정입니다.
문서 질의응답(Document Question Answering, DocQA)은 매우 일반적인 과제입니다. 기존의 대형 언어 모델(Large Language Models, LLMs)이나 대형 시각 언어 모델(Large Vision Language Models, LVLMs) 및 검색 증강 생성(Retrieval Augmented Generation, RAG)을 사용하는 방법들은 종종 단일 모달리티의 정보를 우선시하여 텍스트와 시각적 단서를 효과적으로 통합하지 못합니다. 이러한 접근 방식은 복잡한 다중 모달리티 추론에 어려움을 겪으며, 실제 문서에 대한 성능이 제한됩니다. 우리는 MDocAgent(다중 모달리티 다중 에이전트 문서 이해 프레임워크)를 제안합니다. 이는 텍스트와 이미지를 모두 활용하는 새로운 RAG 및 다중 에이전트 프레임워크입니다. 우리의 시스템은 일반 에이전트, 중요 에이전트, 텍스트 에이전트, 이미지 에이전트 및 요약 에이전트라는 다섯 가지 전문 에이전트를 사용합니다. 이러한 에이전트들은 다중 모달리티 컨텍스트 검색을 수행하며, 각각의 통찰력을 결합하여 문서 내용을 더 포괄적으로 이해합니다. 이 협업적 접근 방식은 텍스트와 시각적 구성 요소 모두에서 정보를 종합할 수 있게 하여 질의응답의 정확도를 향상시킵니다. MMLongBench, LongDocURL과 같은 다섯 가지 벤치마크에 대한 예비 실험은 우리의 MDocAgent의 효과를 입증하며, 현재 최첨단 방법 대비 평균 12.1%의 개선을 달성했습니다. 이 연구는 풍부한 텍스트와 시각적 정보를 포함한 실제 문서의 복잡성을 처리할 수 있는 더 강력하고 포괄적인 DocQA 시스템 개발에 기여합니다. 우리의 데이터와 코드는 https://github.com/aiming-lab/MDocAgent에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 OpenAI-o1과 DeepSeek-R1의 성공 사례에서 볼 수 있듯이, 추론 능력에서 뛰어난 성과를 보여주고 있습니다. 그러나 외부 검색 프로세스와의 추론 통합은 여전히 어려운 과제로 남아 있으며, 특히 여러 단계의 검색이 필요한 복잡한 다중 홉(multi-hop) 질문의 경우 더욱 그러합니다. 우리는 ReSearch라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 지도 데이터 없이 강화 학습을 통해 LLM이 검색과 함께 추론하도록 훈련시킵니다. 우리의 접근 방식은 검색 작업을 추론 체인의 필수 구성 요소로 간주하며, 언제 그리고 어떻게 검색을 수행할지는 텍스트 기반 사고에 의해 안내되고, 검색 결과는 이후의 추론에 영향을 미칩니다. 우리는 Qwen2.5-7B(-Instruct)와 Qwen2.5-32B(-Instruct) 모델에 ReSearch를 훈련시키고 다양한 실험을 수행했습니다. 단 하나의 데이터셋으로만 훈련되었음에도 불구하고, 우리의 모델은 다양한 벤치마크에서 강력한 일반화 능력을 보여주었습니다. 분석 결과, ReSearch는 강화 학습 과정 중에 반성(reflection)과 자기 수정(self-correction)과 같은 고급 추론 능력을 자연스럽게 이끌어냄을 확인할 수 있었습니다.
컴포즈드 이미지 검색(Composed Image Retrieval, CIR)은 멀티모달 쿼리를 기반으로 이미지를 검색하는 복잡한 작업입니다. 일반적인 학습 데이터는 참조 이미지, 원하는 수정 사항을 설명하는 텍스트, 그리고 타겟 이미지로 구성된 삼중항(triplet)으로 이루어져 있으며, 이를 수집하는 데는 많은 비용과 시간이 소요됩니다. CIR 데이터셋의 부족으로 인해 합성 삼중항을 활용하거나 웹에서 크롤링된 이미지-캡션 쌍을 이용한 제로샷(zero-shot) 접근법이 주로 사용되고 있습니다. 그러나 이러한 방법들은 상당한 한계를 가지고 있습니다: 합성 삼중항은 규모가 제한적이고 다양성이 부족하며, 수정 텍스트가 부자연스러운 반면, 이미지-캡션 쌍은 삼중항 데이터가 없어 멀티모달 쿼리의 공통 임베딩 학습을 방해합니다. 또한, 기존 방법들은 시각과 언어 모달리티의 정교한 융합과 이해를 요구하는 복잡하고 미묘한 수정 텍스트를 처리하는 데 어려움을 겪습니다. 본 논문에서는 이러한 한계를 효과적으로 해결하는 원스톱 프레임워크인 CoLLM을 제안합니다. 우리의 접근 방식은 이미지-캡션 쌍에서 실시간으로 삼중항을 생성하여 수동 주석 없이도 지도 학습을 가능하게 합니다. 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 참조 이미지와 수정 텍스트의 공통 임베딩을 생성함으로써 더 깊은 멀티모달 융합을 촉진합니다. 또한, 340만 개의 샘플로 구성된 대규모 데이터셋인 Multi-Text CIR(MTCIR)를 소개하고, 기존 CIR 벤치마크(CIRR 및 Fashion-IQ)를 개선하여 평가의 신뢰성을 높였습니다. 실험 결과, CoLLM은 여러 CIR 벤치마크와 설정에서 최첨단 성능을 달성했습니다. MTCIR는 최대 15%의 성능 향상을 보이며 경쟁력 있는 결과를 보여주었습니다. 우리가 개선한 벤치마크는 CIR 모델에 대한 더 신뢰할 수 있는 평가 지표를 제공하여 이 중요한 분야의 발전에 기여합니다.
본 논문에서는 잠재 공간에서의 초해상도(super-resolution)를 직접 활용하여 1K를 초고해상도 이미지 생성을 위한 새로운 프레임워크인 LSRNA를 제안합니다. 기존의 확산 모델(diffusion models)은 학습 해상도를 넘어 확장하는 데 어려움을 겪으며, 종종 구조적 왜곡이나 내용 반복을 초래합니다. 참조 기반 방법(reference-based methods)은 저해상도 참조를 업샘플링하여 고해상도 생성을 안내함으로써 이러한 문제를 해결합니다. 그러나 이러한 방법들은 잠재 공간에서의 업샘플링이 매니폴드 편차(manifold deviation)를 유발하여 출력 품질을 저하시키는 중요한 문제에 직면합니다. 반면, RGB 공간에서의 업샘플링은 지나치게 부드러운 출력을 생성하는 경향이 있습니다. 이러한 한계를 극복하기 위해 LSRNA는 매니폴드 정렬을 위한 잠재 공간 초해상도(Latent space Super-Resolution, LSR)와 고주파 세부 정보를 강화하기 위한 영역별 노이즈 추가(Region-wise Noise Addition, RNA)를 결합합니다. 우리의 광범위한 실험 결과, LSRNA를 통합한 방법이 다양한 해상도와 메트릭에서 최신 참조 기반 방법들을 능가하며, 세부 정보와 선명도를 보존하는 데 있어 잠재 공간 업샘플링의 중요한 역할을 입증합니다. 코드는 https://github.com/3587jjh/LSRNA에서 확인할 수 있습니다.
지식 발견과 수집은 전통적으로 고품질의 결과물을 보장하기 위해 상당한 인간의 노력이 필요한 지능 집약적인 작업입니다. 최근 연구에서는 인터넷에서 정보를 검색하고 종합하여 위키피디아 스타일의 문서를 자동으로 생성하기 위한 다중 에이전트 프레임워크를 탐구해 왔습니다. 그러나 이러한 방법들은 주로 텍스트만을 대상으로 한 생성에 초점을 맞추고 있어, 정보성과 참여도를 높이는 데 중요한 다중 양식 콘텐츠의 중요성을 간과하고 있습니다. 본 연구에서는 자동화된 다중 양식 위키피디아 스타일 문서 생성을 위한 새로운 시스템인 WikiAutoGen을 소개합니다. 기존 접근법과 달리, WikiAutoGen은 텍스트와 함께 관련 이미지를 검색하고 통합하여 생성된 콘텐츠의 깊이와 시각적 매력을 풍부하게 합니다. 또한, 사실적 정확성과 포괄성을 더욱 개선하기 위해, 검색된 콘텐츠를 다양한 관점에서 비판적으로 평가하여 신뢰성, 폭넓음, 일관성 등을 강화하는 다중 관점 자기 반성 메커니즘을 제안합니다. 추가적으로, 더 도전적인 주제에 대한 다중 양식 지식 생성을 평가하기 위해 텍스트와 이미지 기반 표현이 짝을 이루는 위키피디아 문서로 구성된 WikiSeek 벤치마크를 소개합니다. 실험 결과, WikiAutoGen은 WikiSeek 벤치마크에서 기존 방법들보다 8%-29% 더 우수한 성능을 보이며, 더 정확하고 일관적이며 시각적으로 풍부한 위키피디아 스타일 문서를 생성합니다. 생성된 예시 일부는 https://wikiautogen.github.io/에서 확인할 수 있습니다.
현재의 비디오 생성 기반 모델은 주로 텍스트-투-비디오 작업에 초점을 맞추고 있어, 세밀한 비디오 콘텐츠 생성에 대한 제어가 제한적입니다. 어댑터 기반 접근법(예: ControlNet)은 최소한의 미세 조정으로 추가적인 제어를 가능하게 하지만, 여러 조건을 통합할 때 다음과 같은 문제에 직면합니다: 독립적으로 훈련된 어댑터 간의 분기 충돌, 매개변수 중복으로 인한 계산 비용 증가, 그리고 전체 미세 조정에 비해 낮은 성능. 이러한 문제를 해결하기 위해, 우리는 FullDiT를 소개합니다. FullDiT는 통합된 전체-어텐션 메커니즘을 통해 여러 조건을 원활하게 통합하는 비디오 생성을 위한 통합 기반 모델입니다. 다중 작업 조건을 통합된 시퀀스 표현으로 융합하고, 전체 자기-어텐션의 장문맥 학습 능력을 활용하여 조건 동역학을 포착함으로써, FullDiT는 매개변수 오버헤드를 줄이고 조건 충돌을 방지하며 확장성과 창발적 능력을 보여줍니다. 또한, 우리는 다중 작업 비디오 생성을 평가하기 위한 FullBench를 소개합니다. 실험 결과, FullDiT는 복잡한 다중 작업 비디오 생성에서 전체-어텐션의 효율성을 입증하며 최첨단 결과를 달성했습니다.
단일 뷰 이미지로부터 고품질의 360도 인간 머리 뷰를 생성하는 것은 접근 가능한 몰입형 원격 현존 애플리케이션과 확장 가능한 개인화 콘텐츠 제작을 가능하게 하는 데 필수적입니다. 최첨단 전체 머리 생성 방법은 사실적인 인간 머리 모델링에 국한되어 있으며, 최신 확산 기반 스타일-전지적 머리 합성 접근법은 정면 뷰만 생성할 수 있고 뷰 일관성에 어려움을 겪어 임의의 각도에서 렌더링할 수 있는 진정한 3D 모델로의 변환을 방해합니다. 우리는 인간, 스타일화된, 그리고 인간형 형태를 포함하여 안경과 모자와 같은 액세서리를 수용하는 완전히 일관된 360도 머리 뷰를 생성하는 새로운 접근법을 소개합니다. 우리의 방법은 DiffPortrait3D 프레임워크를 기반으로, 뒷머리 세부 사항 생성을 위한 맞춤형 ControlNet과 전면-후면 전역 일관성을 보장하는 이중 외관 모듈을 통합합니다. 연속적인 뷰 시퀀스에 대한 훈련과 후면 참조 이미지 통합을 통해, 우리의 접근법은 강력하고 지역적으로 연속적인 뷰 합성을 달성합니다. 우리의 모델은 실시간 자유 시점 렌더링을 위한 고품질 신경 방사 필드(NeRF)를 생성하는 데 사용될 수 있으며, 매우 도전적인 입력 초상화에 대해 최첨단 객체 합성 및 360도 머리 생성 방법을 능가합니다.
3D 에셋을 활용한 장면 생성은 높은 수준의 의미론적 이해와 낮은 수준의 기하학적 추론을 모두 요구하는 복잡한 과제입니다. 다중모드 대형 언어 모델(MLLMs)은 의미론적 작업에서 뛰어난 성능을 보이지만, 3D 기하학에 대한 제한된 이해로 인해 3D 장면 생성에 적용하는 데 어려움이 있습니다. 본 논문에서는 MLLMs를 객체 배치 작업에 효과적으로 활용하는 방법을 탐구합니다. 이를 위해 우리는 FirePlace라는 새로운 프레임워크를 제안하며, 이는 기존 MLLMs를 (1) 3D 기하학적 추론 및 3D 장면에서 관련 기하학적 세부 정보 추출, (2) 추출된 낮은 수준의 기하학에 대한 제약 조건 구성 및 해결, (3) 상식에 부합하는 최종 배치를 위한 가지치기에 적용합니다. 기하학적 추론과 MLLMs의 실세계 이해를 결합함으로써, 우리의 방법은 기하학적 제약 조건과 높은 수준의 의미론적 상식적 고려 사항을 모두 충족하는 객체 배치를 제안할 수 있습니다. 실험 결과, 이러한 능력 덕분에 우리의 방법은 복잡한 기하학을 가진 장면에서 객체를 더 효과적으로 배치할 수 있으며, 이전 연구의 품질을 능가함을 보여줍니다.
실세계 객체의 물리적 디지털 트윈을 생성하는 것은 로보틱스, 콘텐츠 제작, XR 분야에서 엄청난 잠재력을 가지고 있습니다. 본 논문에서는 상호작용 중인 동적 객체의 희소한(sparse) 비디오를 사용하여 사진처럼 사실적이고 물리적으로 현실적인 실시간 상호작용 가상 복제본을 생성하는 새로운 프레임워크인 PhysTwin을 소개합니다. 우리의 접근 방식은 두 가지 핵심 구성 요소를 중심으로 합니다: (1) 현실적인 물리 시뮬레이션을 위한 스프링-질량 모델, 기하학적 구조를 위한 생성적 형태 모델, 그리고 렌더링을 위한 가우시안 스플랫을 결합한 물리 기반 표현; (2) 비디오로부터 완전한 기하학적 구조를 복원하고, 밀집된 물리적 속성을 추론하며, 현실적인 외관을 재현하는 새로운 다단계 최적화 기반 역모델링 프레임워크. 우리의 방법은 역물리학 프레임워크와 시각적 인지 단서를 통합하여 부분적, 가려짐, 제한된 시점에서도 고품질의 복원을 가능하게 합니다. PhysTwin은 로프, 봉제 인형, 천, 배송용 패키지 등 다양한 변형 가능한 객체의 모델링을 지원합니다. 실험 결과, PhysTwin은 복원, 렌더링, 미래 예측, 새로운 상호작용 하의 시뮬레이션에서 경쟁 방법들을 능가하는 성능을 보여줍니다. 또한, 우리는 상호작용 가능한 실시간 시뮬레이션과 모델 기반 로봇 모션 계획에서의 응용 사례를 추가로 시연합니다.
파인튜닝은 대규모 언어 모델(LLM)이 특정 도메인에 적응할 수 있게 해주지만, 종종 이전에 확립된 안전성 정렬을 약화시킵니다. 파인튜닝 과정에서 모델의 안전성이 저하되는 문제를 완화하기 위해, 우리는 부분적인 답변 접두사를 미리 보는 방식으로 학습 데이터를 수정하는 두 가지 간단하고 저비용이며 효과적인 데이터 기반 방법으로 구성된 LookAhead Tuning을 소개합니다. 두 방법 모두 초기 토큰 분포에 대한 변화를 최소화함으로써 모델의 내재된 안전 메커니즘을 보존하는 것을 목표로 합니다. 포괄적인 실험을 통해 LookAhead Tuning이 하류 작업에서의 강력한 성능을 희생하지 않으면서도 모델의 안전성을 효과적으로 유지한다는 것을 입증했습니다. 우리의 연구 결과는 LookAhead Tuning을 LLM의 안전하고 효과적인 적응을 위한 신뢰할 수 있고 효율적인 솔루션으로 자리매김합니다. 코드는 https://github.com/zjunlp/LookAheadTuning에서 공개되었습니다.
현대의 대형 언어 모델(LLM)은 효율적인 업데이트에 어려움을 겪고 있으며, 새로운 사전 학습 모델 버전마다 비용이 많이 드는 정렬 과정을 반복해야 합니다. 이러한 문제는 특정 도메인이나 언어에 특화된 모델에도 적용되며, 새로운 기본 모델이 출시될 때마다 특수 데이터에 대한 미세 조정을 다시 수행해야 합니다. 본 논문에서는 모델 버전 간 미세 조정 업데이트의 전이를 탐구합니다. 구체적으로, 우리는 미세 조정으로 인한 가중치 변화를 나타내는 diff 벡터를 하나의 소스 모델 버전에서 도출하고, 이를 다른 대상 버전의 기본 모델에 적용합니다. 다양한 오픈 가중치 모델 버전에 대한 실험적 평가를 통해, diff 벡터를 전이함으로써 대상 기본 모델을 크게 개선할 수 있으며, 종종 미세 조정된 모델과 비슷한 성능을 달성할 수 있음을 보여줍니다. 예를 들어, Llama 3.0 8B의 미세 조정 업데이트를 재사용하면 GPQA에서 추가 학습 없이도 기본 Llama 3.1 8B보다 10.7%의 절대 정확도 향상을 달성하며, Llama 3.1 8B Instruct를 능가합니다. 다국어 모델 개발 환경에서, 이 접근법은 재학습 없이도 대상 언어 작업에서 성능을 크게 향상시킬 수 있으며, Global MMLU에서 말라가시어와 터키어에 대해 각각 4.7%와 15.5%의 절대적 개선을 달성합니다. 우리의 통제된 실험은 소스 모델과 대상 모델이 매개변수 공간에서 선형적으로 연결될 때 미세 조정 전이가 가장 효과적임을 보여줍니다. 또한, 미세 조정 전이는 추가 미세 조정을 위한 더 강력하고 계산적으로 효율적인 시작점을 제공함을 입증합니다. 마지막으로, 우리는 지속적인 모델 개발을 위한 반복적인 재활용 후 미세 조정 접근법을 제안하며, 이는 효율성과 효과성을 모두 개선합니다. 우리의 연구 결과는 미세 조정 전이가 모델 성능을 유지하면서도 학습 비용을 줄이는 실행 가능한 전략임을 시사합니다.
몇 장의 이미지만으로 사실적인 애니메이션을 갖춘 개인화된 3D 인간 아바타를 재구성하는 새로운 방법을 제안합니다. 신체 형태, 자세, 의복 유형의 다양성으로 인해 기존 방법들은 주로 추론 과정에서 대상별로 수 시간에 걸친 최적화를 필요로 하며, 이는 실제 응용에 제약을 줍니다. 이와 대조적으로, 우리는 천 명 이상의 의복을 입은 인간 데이터로부터 보편적인 사전 지식을 학습하여 즉각적인 피드포워드 생성과 제로샷 일반화를 달성합니다. 구체적으로, 아바타에 공유된 스키닝 가중치를 적용하는 대신, 개인화된 아바타 형태, 스키닝 가중치, 그리고 자세에 따른 변형을 함께 추론함으로써 전반적인 기하학적 충실도를 효과적으로 개선하고 변형 아티팩트를 줄입니다. 또한, 자세 변화를 정규화하고 정규 형태와 스키닝 가중치 간의 복합적 모호성을 해결하기 위해, 픽셀 정렬 초기 조건을 생성하는 3D 정규화 프로세스를 설계하여 세밀한 기하학적 디테일의 재구성을 돕습니다. 그런 다음, 정규화 과정에서 발생하는 아티팩트를 견고하게 줄이고 개인별 정체성을 보존하는 그럴듯한 아바타를 융합하기 위해 다중 프레임 특징 집계를 제안합니다. 마지막으로, 다양한 인간 대상과 고품질 3D 스캔이 쌍을 이루는 대규모 캡처 데이터셋에서 모델을 종단 간 프레임워크로 학습시킵니다. 광범위한 실험을 통해 우리의 방법이 최신 기술보다 더 진실된 재구성과 애니메이션을 생성하며, 일상적으로 촬영된 휴대폰 사진 입력에도 직접 일반화될 수 있음을 보여줍니다. 프로젝트 페이지와 코드는 https://github.com/rongakowang/FRESA에서 확인할 수 있습니다.
긴 컨텍스트 윈도우를 갖춘 대형 언어 모델(LLMs)은 강력한 애플리케이션을 가능하게 하지만, 키와 값 상태(KV-Cache)를 저장하기 위한 높은 메모리 소비라는 비용이 따른다. 최근 연구들은 여러 레이어의 KV-Cache를 공유된 표현으로 병합하려는 시도를 했으나, 이러한 접근법들은 비용이 많이 드는 사전 학습을 요구하거나, 실제로는 일반적으로 성립하지 않는 레이어 간 높은 토큰별 코사인 유사성을 가정에 의존한다. 우리는 KV-Cache의 여러 레이어에서 지배적인 특이 벡터(singular vectors)가 놀랍도록 잘 정렬되어 있음을 발견했다. 이러한 통찰을 활용하여, 우리는 그룹화된 레이어의 KV-Cache에 특이값 분해(SVD)를 적용하는 간단한 사후 학습 방법인 xKV를 제안한다. xKV는 여러 레이어의 KV-Cache를 공유된 저차원 부분 공간으로 통합하여 KV-Cache 크기를 크게 줄인다. 널리 사용되는 LLMs(예: Llama-3.1 및 Qwen2.5)을 사용한 RULER 장문 컨텍스트 벤치마크에서의 광범위한 평가를 통해, xKV는 최신 인터레이어 기술보다 최대 6.8배 높은 압축률을 달성하면서 정확도를 2.7% 향상시켰다. 또한, xKV는 새롭게 등장한 다중 헤드 잠재 어텐션(Multi-Head Latent Attention, MLA)(예: DeepSeek-Coder-V2)과 호환되어, 성능 저하 없이 코딩 작업에서 3배의 압축률을 달성했다. 이러한 결과는 xKV가 장문 컨텍스트 LLM 추론에서의 메모리 병목 현상을 해결하는 데 있어 강력한 능력과 다용성을 보여준다. 우리의 코드는 https://github.com/abdelfattah-lab/xKV에서 공개되어 있다.
연속 심플렉스(continuous simplex)에서의 플로우 매칭(Flow Matching)은 DNA 서열 설계를 위한 유망한 전략으로 부상했지만, 펩타이드 및 단백질 생성에 필요한 더 높은 차원의 심플렉스로 확장하는 데 어려움을 겪고 있습니다. 우리는 시간에 따라 변하는 온도를 가진 새로운 Gumbel-Softmax 보간법을 기반으로 심플렉스 상에서의 생성 프레임워크인 Gumbel-Softmax Flow 및 스코어 매칭(Score Matching)을 소개합니다. 이 보간법을 사용하여, 우리는 매끄러운 범주형 분포에서 심플렉스의 단일 정점에 집중된 분포로 전달하는 매개변수화된 속도 필드를 도출함으로써 Gumbel-Softmax Flow Matching을 제안합니다. 또한, 우리는 확률 밀도의 기울기를 회귀하는 방법인 Gumbel-Softmax 스코어 매칭을 제안합니다. 우리의 프레임워크는 고품질의 다양한 생성을 가능하게 하며, 더 높은 차원의 심플렉스로 효율적으로 확장할 수 있습니다. 훈련 없이도 가이던스를 가능하게 하기 위해, 우리는 무조건적 속도 필드를 심플렉스의 최적 정점으로 조종하기 위해 스트레이트-스루 추정기(straight-through estimators)를 활용하는 분류기 기반 가이던스 방법인 Straight-Through Guided Flows(STGFlow)를 제안합니다. STGFlow는 깨끗한 서열에 대해 사전 훈련된 분류기를 사용하여 추론 시간에 효율적인 가이던스를 가능하게 하며, 모든 이산 플로우 방법과 함께 사용할 수 있습니다. 이러한 구성 요소들은 통제 가능한 데노보(de novo) 서열 생성을 위한 강력한 프레임워크를 형성합니다. 우리는 조건부 DNA 프로모터 설계, 서열만을 이용한 단백질 생성, 희귀 질환 치료를 위한 표적 결합 펩타이드 설계에서 최첨단 성능을 입증합니다.
열적외선 비디오에서 다중 무인항공기(UAV)를 탐지하고 추적하는 것은 낮은 대비, 환경 노이즈, 그리고 작은 표적 크기로 인해 본질적으로 어려운 과제입니다. 본 논문은 최근의 탐지 및 추적 기술 발전을 활용하여 열적외선 비디오에서 다중 UAV 추적을 해결하기 위한 직관적인 접근 방식을 제시합니다. YOLOv5와 DeepSORT 파이프라인에 의존하는 대신, YOLOv12와 BoT-SORT를 기반으로 구축된 추적 프레임워크를 제안하며, 이를 맞춤형 학습 및 추론 전략으로 강화하였습니다. 우리의 접근 방식은 4차 Anti-UAV Challenge의 지표를 따라 평가되었으며, 경쟁력 있는 성능을 입증하였습니다. 특히, UAV 특징을 강화하기 위해 대비 향상이나 시간적 정보 융합을 사용하지 않고도 강력한 결과를 달성함으로써, 다중 UAV 추적 작업을 위한 "강력한 기준선(Strong Baseline)"으로서의 가능성을 보여주었습니다. 구현 세부 사항, 심층적인 실험 분석, 그리고 잠재적인 개선 사항에 대한 논의를 제공합니다. 코드는 https://github.com/wish44165/YOLOv12-BoT-SORT-ReID에서 확인할 수 있습니다.
실세계 환경에서 작동하는 AI 에이전트에게 구체화된 의사결정은 근본적으로 중요합니다. 비주얼 언어 모델(VLMs)이 이러한 능력을 발전시켜 왔음에도 불구하고, 특히 인간의 필요와 가치에 대한 깊은 사고를 요구하는 인간 중심의 상황에서 복잡한 결정을 내리는 데는 여전히 어려움을 겪고 있습니다. 본 연구에서는 다중모드 인간 중심 의사결정 과제에 대해 오픈소스 VLMs를 체계적으로 평가합니다. 우리는 실제 이미지를 처리하는 유사 규모의 VLM 대비 오직 텍스트 설명만을 받는 대형 언어 모델(LLMs)이 예상치 못하게 더 나은 성능을 보임을 발견했는데, 이는 시각적 정렬이 VLM의 능력을 저해할 수 있음을 시사합니다. 이러한 문제를 해결하기 위해, 우리는 합성된 텍스트 데이터를 활용한 새로운 텍스트 전용 학습 접근법을 제안합니다. 이 방법은 VLMs의 언어 구성 요소를 강화하고 학습된 능력을 다중모드 추론으로 전이시켜, 고비용의 이미지-텍스트 쌍 데이터의 필요성을 제거합니다. 더 나아가, VLMs가 GPT-4와 같은 더 큰 교사 모델에 의존하기보다는 LLM 동료가 생성한 학습 데이터를 사용하여 자기 개선을 통해 상당한 성능 향상을 달성할 수 있음을 보여줍니다. 우리의 연구 결과는 VLMs의 인간 중심 의사결정 능력을 향상시키는 더 효율적이고 확장 가능한 접근법을 확립하며, 자기 개선 메커니즘을 통해 VLMs를 최적화하는 새로운 길을 열어줍니다.
지구 관측(EO) 기반 모델의 발전으로 인해 위성 빅데이터를 활용하여 우주로부터 일반적인 표현을 학습할 수 있는 잠재력이 열렸으며, 이는 우리 행성에 중요한 다양한 다운스트림 애플리케이션에 혜택을 주고 있습니다. 그러나 대부분의 기존 연구는 고정된 스펙트럼 센서에 국한되어 있으며, 지구 표면에만 초점을 맞추고 이미지 외의 가치 있는 메타데이터를 간과하고 있습니다. 본 연구에서는 차세대 EO 기반 모델을 향한 한 걸음을 내딛기 위해 세 가지 핵심 요소를 제시합니다: 1) 지구 표면부터 대기까지 모든 주요 코페르니쿠스 센티넬 미션에서 수집된 1,870만 개의 정렬된 이미지를 통합한 대규모 사전 학습 데이터셋인 Copernicus-Pretrain; 2) 확장된 동적 하이퍼네트워크와 유연한 메타데이터 인코딩을 통해 모든 스펙트럼 및 비스펙트럼 센서 모달리티를 처리할 수 있는 통합 기반 모델인 Copernicus-FM; 3) 각 센티넬 미션에 대한 전처리부터 특수 애플리케이션까지 15개의 계층적 다운스트림 작업으로 구성된 체계적인 평가 벤치마크인 Copernicus-Bench. 우리의 데이터셋, 모델, 벤치마크는 EO 기반 모델의 확장성, 다양성, 다중 모달 적응성을 크게 향상시키는 동시에 EO, 기상, 기후 연구를 연결할 수 있는 새로운 기회를 창출합니다. 코드, 데이터셋 및 모델은 https://github.com/zhu-xlab/Copernicus-FM에서 확인할 수 있습니다.
인간 행동을 이해하기 위해서는 행동적 동작을 측정해야 합니다. 행동의 복잡성으로 인해, 이를 언어와 같은 풍부한 의미 구조에 매핑하는 것이 가장 적합합니다. 최근 다중 모드 대형 언어 모델(MLLMs)의 발전은 다양한 행동 이해 작업에 있어 유망한 후보로 떠오르고 있습니다. 본 연구에서는 MLLMs의 행동 인식 능력을 평가하고 개선하는 데 초점을 맞춥니다. 우리는 가장 크고 도전적인 에고센트릭 행동 데이터셋 중 하나인 EPIC-KITCHENS-100을 비디오 다중 질문 응답(EPIC-KITCHENS-100-MQA) 형태로 재구성했습니다. 어려운 오답을 방해 요소로 샘플링할 경우, 주요 MLLMs가 올바른 행동을 인식하는 데 어려움을 겪는 것을 보여줍니다. 우리는 MLLMs의 행동 인식 능력을 크게 향상시키는 일련의 방법을 제안하며, EPIC-KITCHENS-100 검증 세트에서 최신 기술을 달성하고, EPIC-KITCHENS-100-MQA에서 GPT-4o를 21점 차이로 능가하는 정확도를 보여줍니다. 마지막으로, EgoSchema, PerceptionTest, LongVideoBench, VideoMME 및 MVBench와 같은 다른 행동 관련 비디오 벤치마크에서도 개선 사항을 보여주며, MLLMs가 복잡한 행동 작업에 있어 유망한 방향임을 시사합니다. 코드와 모델은 https://github.com/AdaptiveMotorControlLab/LLaVAction에서 확인할 수 있습니다.
우리는 단일 RGB-D 앵커 이미지만으로도 새로운 장면에서 알려지지 않은 물체의 6D 포즈와 크기를 추정할 수 있는 모델 프리 프레임워크인 Any6D를 소개합니다. 텍스처가 적용된 3D 모델이나 다중 시점에 의존하는 기존 방법과 달리, Any6D는 2D-3D 정렬 및 미터법 스케일 추정을 향상시키기 위해 공동 물체 정렬 프로세스를 활용합니다. 우리의 접근 방식은 렌더링 및 비교 전략을 통합하여 포즈 가설을 생성하고 개선함으로써, 가림, 겹치지 않는 시야, 다양한 조명 조건, 그리고 큰 환경 간 변동이 있는 시나리오에서도 견고한 성능을 발휘할 수 있도록 합니다. 우리는 REAL275, Toyota-Light, HO3D, YCBINEOAT, LM-O 등 5개의 도전적인 데이터셋에서 우리의 방법을 평가하며, 새로운 물체 포즈 추정에서 최신 방법들을 크게 능가하는 효과를 입증합니다. 프로젝트 페이지: https://taeyeop.com/any6d
비전-언어 모델(VLMs)은 3D 장면 이해에 있어 큰 잠재력을 보여주지만, 주로 실내 공간이나 자율 주행에 적용되며 세분화와 같은 저수준 작업에 초점을 맞추고 있습니다. 본 연구는 다중 시점 항공 이미지에서 얻은 3D 재구성을 활용하여 이러한 모델의 활용 범위를 도시 규모 환경으로 확장합니다. 우리는 OpenCity3D라는 접근 방식을 제안하며, 이는 인구 밀도 추정, 건물 연령 분류, 부동산 가격 예측, 범죄율 평가, 소음 오염 평가와 같은 고수준 작업을 다룹니다. 우리의 연구 결과는 OpenCity3D의 인상적인 제로샷 및 퓨샷 능력을 강조하며, 새로운 맥락에 대한 적응력을 보여줍니다. 이 연구는 언어 기반 도시 분석을 위한 새로운 패러다임을 정립하여 계획, 정책, 환경 모니터링 분야에서의 응용을 가능하게 합니다. 프로젝트 페이지를 참조하세요: opencity3d.github.io
최근 몇 년 동안 AI 모델은 실세계 이미지를 설명하고 이에 대한 질문에 답변하는 능력에서 상당한 진전을 이루었습니다. 또한 오디오 입력을 사용하여 실시간으로 사용자와 대화하는 능력에서도 발전을 거두었습니다. 이는 다음과 같은 질문을 제기합니다: 카메라와 마이크에 연결된 AI 모델이 카메라 앞에서 실시간으로 펼쳐지는 장면과 사건에 대해 사용자와 실시간으로 대화할 수 있는 수준에 도달했는가? 이는 AI 분야에서 오랜 목표였으며, 실세계 AI 어시스턴트와 휴머노이드 로봇이 일상적인 상황에서 인간과 상호작용하기 위한 전제 조건입니다. 본 연구에서는 새로운 데이터셋과 벤치마크인 퀄컴 인터랙티브 비디오 데이터셋(IVD)을 소개합니다. 이를 통해 기존 모델이 이러한 능력을 어느 정도 지원할 수 있는지, 그리고 이러한 능력을 미세 조정을 통해 어느 정도까지 향상시킬 수 있는지 평가할 수 있습니다. 이 데이터셋은 사용자가 질문을 하고 시스템이 카메라와 오디오 입력을 기반으로 실시간으로 답변해야 하는 간단한 질문-답변 설정을 기반으로 합니다. 우리는 기존 모델이 이 작업에서 인간의 성능에 크게 뒤처지는 것을 보여주고, 성능 격차의 주요 원인을 식별합니다. 그러나 필요한 많은 인지 능력에 대해 이러한 형태의 데이터로 미세 조정을 수행하면 이 격차를 상당히 줄일 수 있음을 보여줍니다.
대형 교사 모델을 활용하여 더 작은 학생 모델의 학습을 안내하는 것은 효율적이고 효과적인 학습을 위한 주류 패러다임이 되었습니다. 그러나 교사와 학생 언어 모델 간의 어휘 불일치는 언어 모델링에서 상당한 문제를 야기하며, 이는 서로 다른 토큰 시퀀스와 출력 분포를 초래합니다. 이러한 한계를 극복하기 위해, 우리는 어휘 불일치로 인한 격차를 해소하는 새로운 접근법인 어휘 독립적 교사 지도 언어 모델링(Vocabulary-agnostic Teacher Guided Language Modeling, VocAgnoLM)을 제안합니다. 이 방법은 두 가지 핵심 기법을 통해 작동합니다: (1) 토큰 수준 어휘 정렬(Token-level Lexical Alignment), 이는 불일치하는 어휘 간의 토큰 시퀀스를 정렬하며, (2) 교사 지도 손실(Teacher Guided Loss), 이는 교사 모델의 손실을 활용하여 학생 모델의 효과적인 학습을 안내합니다. 우리는 다양한 어휘를 가진 7B 교사 모델을 사용하여 1B 학생 모델의 언어 모델링에서 이 방법의 효과를 입증했습니다. 특히, TinyLlama와 약 6%의 어휘만을 공유하는 Qwen2.5-Math-Instruct 교사 모델을 사용할 때, VocAgnoLM은 단순한 지속적 사전 학습에 비해 46%의 성능 향상을 달성했습니다. 또한, VocAgnoLM이 더 강력한 교사 모델로부터 일관되게 이점을 얻음을 보여주며, 이는 언어 모델링에서의 어휘 불일치에 대한 견고한 해결책을 제공합니다.
동적 컨볼루션(Dynamic Convolution, DY-Conv)은 여러 병렬 가중치와 어텐션 메커니즘을 결합하여 적응형 가중치 선택을 가능하게 함으로써 유망한 성능을 보여왔지만, 이러한 가중치의 주파수 응답은 높은 유사성을 보이는 경향이 있어 높은 파라미터 비용을 초래하는 반면 적응성은 제한적입니다. 본 연구에서는 이러한 한계를 완화하기 위해 푸리에 도메인에서 고정된 파라미터 예산을 학습하는 새로운 접근 방식인 주파수 동적 컨볼루션(Frequency Dynamic Convolution, FDConv)을 소개합니다. FDConv는 이 예산을 서로 겹치지 않는 푸리에 인덱스를 가진 주파수 기반 그룹으로 나누어, 파라미터 비용을 증가시키지 않으면서도 주파수 다양성을 갖는 가중치를 구성할 수 있게 합니다. 더 나아가 적응성을 강화하기 위해 커널 공간 변조(Kernel Spatial Modulation, KSM)와 주파수 대역 변조(Frequency Band Modulation, FBM)를 제안합니다. KSM은 각 필터의 주파수 응답을 공간 수준에서 동적으로 조정하며, FBM은 가중치를 주파수 도메인에서 별개의 주파수 대역으로 분해하고 로컬 콘텐츠에 기반하여 동적으로 변조합니다. 객체 탐지, 세그멘테이션, 분류에 대한 광범위한 실험을 통해 FDConv의 효과성을 검증하였습니다. ResNet-50에 적용했을 때, FDConv는 단 +3.6M 파라미터의 적은 증가로도 우수한 성능을 달성하며, 파라미터 예산이 크게 증가하는 기존 방법들(예: CondConv +90M, KW +76.5M)을 능가함을 보여줍니다. 또한 FDConv는 ConvNeXt, Swin-Transformer를 포함한 다양한 아키텍처에 원활하게 통합되어 현대 비전 작업을 위한 유연하고 효율적인 솔루션을 제공합니다. 코드는 https://github.com/Linwei-Chen/FDConv에서 공개되었습니다.
우리는 Vision-and-Language Models(VLMs)을 활용한 개방형 어휘 시맨틱 세그멘테이션을 위한 학습이 필요 없는 방법을 제안한다. 우리의 접근 방식은 패치 간 관계를 통합하여 예측을 공동으로 최적화하는 레이블 전파를 통해 VLMs의 초기 픽셀 단위 예측을 향상시킨다. VLMs가 주로 교차 모달 정렬에 최적화되어 있고 내부 모달 유사성을 잘 포착하지 못하기 때문에, 이러한 관계를 더 잘 포착하는 것으로 관찰된 Vision Model(VM)을 사용한다. 패치 기반 인코더에 내재된 해상도 한계를 해결하기 위해 픽셀 수준에서 레이블 전파를 적용하여 클래스 경계 근처의 세그멘테이션 정확도를 크게 개선한다. LPOSS+라고 명명된 우리의 방법은 전체 이미지에 대해 추론을 수행하며, 윈도우 기반 처리를 피함으로써 이미지 전체에 걸친 문맥적 상호작용을 포착한다. LPOSS+는 다양한 데이터셋에서 학습이 필요 없는 방법 중 최첨단 성능을 달성한다. 코드: https://github.com/vladan-stojnic/LPOSS
시공간 추론은 자율 주행 및 스포츠 분석 등 다양한 분야에서 실제 환경을 이해하는 데 필수적입니다. 최근 대규모 데이터 도입을 통해 비전-언어 모델(VLMs)의 공간 추론 능력이 향상되었지만, 이러한 모델들은 여전히 이동 거리와 속도와 같은 운동학적 요소를 분석하는 데 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해, 우리는 운동학적 명령 튜닝을 포함한 시공간 추론 데이터셋과 벤치마크인 STKit과 STKit-Bench를 구축했습니다. 이들은 3D 주석이 포함된 실제 영상으로 구성되어 있으며, 이동 거리, 속도, 이동 방향, 객체 간 거리 비교, 상대적 이동 방향과 같은 객체 운동 역학을 상세히 설명합니다. 또한 3D 레이블이 없는 영상에 대해 이러한 데이터 구축을 확장하기 위해, 실제 규모의 4D 재구성을 사용하여 자동으로 가짜 레이블을 생성하는 파이프라인을 제안합니다. 우리의 시공간 추론을 위한 운동학적 명령 튜닝 데이터를 활용하여, 시공간 추론 능력이 강화된 VLM인 ST-VLM을 제시하며, 이는 STKit-Bench에서 뛰어난 성능을 보입니다. 더 나아가, ST-VLM은 다양한 도메인과 작업에서 강력한 일반화 능력을 보이며, 다른 시공간 벤치마크(예: ActivityNet, TVQA+)에서 기준 모델을 능가합니다. 마지막으로, 학습된 시공간 추론 능력을 기존 능력과 통합함으로써, ST-VLM은 복잡한 다단계 추론을 가능하게 합니다. 프로젝트 페이지: https://ikodoh.github.io/ST-VLM.
장면의 기하학적 및 의미론적 특성을 이해하는 것은 자율 주행에서 매우 중요하며, 특히 무인 항공기(UAV) 내비게이션의 경우 더욱 어려운 과제입니다. 이러한 정보는 주변 환경의 깊이 및 의미론적 분할 맵을 추정함으로써 얻을 수 있으며, 자율 주행에서의 실질적인 활용을 위해서는 이 과정이 실시간에 가깝게 수행되어야 합니다. 본 논문에서는 저고도 비정형 환경에서 단안 카메라를 활용하여 깊이 및 의미론적 맵을 예측합니다. 우리는 두 작업을 정확하고 빠르게 수행할 수 있는 결합된 딥러닝 아키텍처를 제안하며, MidAir 및 Aeroscapes 벤치마크 데이터셋에서 그 효과를 검증합니다. 우리의 결합 아키텍처는 단일 및 결합 아키텍처 방법들에 비해 경쟁력이 있거나 우수한 성능을 보이며, 단일 NVIDIA Quadro P5000 GPU에서 20.2 FPS로 빠르게 예측을 수행하고 낮은 메모리 사용량을 자랑합니다. 학습 및 예측을 위한 모든 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/Malga-Vision/Co-SemDepth