번역이 포함된 일일 선별된 AI 연구 논문
자기 지도 학습(self-supervised learning)은 수동 데이터 주석의 필요성을 없애고, 모델이 대규모 데이터셋과 더 큰 아키텍처로 쉽게 확장될 수 있도록 하는 가능성을 가지고 있습니다. 특정 작업이나 도메인에 맞춰지지 않음으로써, 이 학습 패러다임은 자연 이미지부터 항공 이미지까지 다양한 소스로부터 단일 알고리즘을 사용하여 시각적 표현을 학습할 수 있는 잠재력을 가지고 있습니다. 이 기술 보고서는 간단하지만 효과적인 전략을 활용하여 이러한 비전을 실현하기 위한 주요 이정표인 DINOv3를 소개합니다. 먼저, 데이터 준비, 설계 및 최적화를 통해 데이터셋과 모델 크기의 확장 이점을 활용합니다. 둘째, 긴 학습 스케줄 동안 밀집 특성 맵(dense feature maps)이 저하되는 알려졌지만 해결되지 않은 문제를 효과적으로 해결하는 새로운 방법인 Gram anchoring을 소개합니다. 마지막으로, 해상도, 모델 크기 및 텍스트와의 정렬과 관련하여 모델의 유연성을 더욱 향상시키는 사후 전략(post-hoc strategies)을 적용합니다. 그 결과, 우리는 미세 조정(fine-tuning) 없이도 다양한 설정에서 특화된 최신 기술을 능가하는 다목적 시각 기반 모델(versatile vision foundation model)을 제시합니다. DINOv3는 다양한 시각 작업에서 뛰어난 성능을 달성하는 고품질의 밀집 특성을 생성하며, 이전의 자기 지도 및 약한 지도 기반 모델을 크게 능가합니다. 또한, 우리는 다양한 자원 제약과 배포 시나리오에 대한 확장 가능한 솔루션을 제공함으로써 광범위한 작업과 데이터에 대한 최신 기술을 발전시키기 위해 설계된 DINOv3 시각 모델 제품군을 공유합니다.
본 연구에서는 대규모 언어 모델(LLM)이 강화 학습(RL)에서 에이전트 탐색 작업을 위한 효율적인 시뮬레이터로 활용될 가능성을 탐구함으로써, 외부 검색 엔진과의 비용이 많이 드는 상호작용에 대한 의존도를 줄이는 방안을 제시한다. 이를 위해 먼저 구조화된 프롬프팅과 반복 샘플링을 통해 LLM의 내재적 탐색 능력을 정량화하였으며, 이를 Self-Search로 명명하였다. 실험 결과, LLM은 추론 예산에 대해 강력한 스케일링 행동을 보이며, 특히 BrowseComp와 같은 도전적인 질의응답 벤치마크에서 높은 pass@k 성능을 달성함을 확인하였다. 이러한 관찰을 바탕으로, 형식 기반 및 규칙 기반 보상을 통해 LLM의 Self-Search 능력을 강화한 Self-Search RL(SSRL)을 제안한다. SSRL은 외부 도구에 대한 접근 없이도 모델이 내부적으로 지식 활용을 반복적으로 개선할 수 있도록 한다. 실증적 평가 결과, SSRL로 훈련된 정책 모델은 검색 기반 RL 훈련을 위한 비용 효율적이고 안정적인 환경을 제공하며, 외부 검색 엔진에 대한 의존도를 줄이고 견고한 시뮬레이션-실제 전이를 가능하게 한다. 본 연구는 다음과 같은 결론을 도출하였다: 1) LLM은 고성능 달성을 위해 효과적으로 활용될 수 있는 세계 지식을 보유하고 있다; 2) SSRL은 내부 지식을 활용하여 환각 현상을 줄일 수 있는 잠재력을 보여준다; 3) SSRL로 훈련된 모델은 추가적인 노력 없이도 외부 검색 엔진과 원활하게 통합된다. 본 연구 결과는 LLM이 확장 가능한 RL 에이전트 훈련을 지원할 수 있는 잠재력을 강조한다.
OpenAI가 '이미지를 통한 사고' 개념을 소개한 이후, 최근 연구들은 인지 및 추론 과제에서 모델 성능을 향상시키기 위해 시각 정보를 활용하는 방식을 탐구해 왔습니다. 그러나 우리가 아는 한, 현재 오픈소스 작업 중에는 다양한 이미지 조작을 수행하고 동시에 코드를 통해 논리적 추론 능력을 강화할 수 있는 O3와 같은 독점 모델만큼 풍부한 기능 세트를 제공하는 것이 없습니다. 본 논문에서는 이러한 방향으로의 초기 시도로서, Thyme(Think Beyond Images)이라는 새로운 패러다임을 소개합니다. Thyme은 MLLM(Multimodal Large Language Model)이 실행 가능한 코드를 통해 다양한 이미지 처리 및 계산 작업을 자율적으로 생성하고 실행함으로써 기존의 '이미지를 통한 사고' 접근법을 뛰어넘을 수 있도록 합니다. 이 접근법은 크롭핑, 회전, 대비 강화와 같은 즉석에서의 풍부한 이미지 조작뿐만 아니라 수학적 계산도 가능하게 하며, 이러한 작업을 언제 어떻게 적용할지에 대한 높은 자율성을 유지합니다. 우리는 이 능력을 두 단계의 학습 전략을 통해 활성화합니다: 첫째, 코드 생성을 가르치기 위해 500K 샘플로 구성된 데이터셋에 대한 초기 SFT(Supervised Fine-Tuning)를 수행하고, 둘째, 의사결정을 개선하기 위해 RL(Reinforcement Learning) 단계를 진행합니다. RL 단계에서는 학습 난이도를 높이기 위해 고해상도 질문-답변 쌍을 수동으로 수집 및 설계하고, 텍스트와 코드 생성에 각기 다른 온도를 적용하여 추론 탐색과 코드 실행 정확도를 균형 있게 조절하는 GRPO-ATS(Group Relative Policy Optimization with Adaptive Temperature Sampling) 알고리즘을 제안합니다. 우리는 광범위한 실험 분석과 어블레이션 연구를 수행했습니다. 20개에 가까운 벤치마크에 대한 종합적 평가 결과, Thyme은 특히 도전적인 고해상도 인지 및 복잡한 추론 과제에서 상당하고 일관된 성능 향상을 보여주었습니다.
대규모 언어 모델(LLM) 사전 학습의 최근 발전은 단순히 데이터 양을 확장하는 것이 결국에는 수익 체감을 일으켜 데이터 벽에 부딪힌다는 것을 보여주었다. 이에 대응하여, 성능의 한계를 넘어서기 위한 사전 학습용 합성 데이터 사용이 유망한 패러다임으로 부상했다. 그럼에도 불구하고, 합성 데이터 품질에 영향을 미치는 요소들은 여전히 잘 이해되지 않고 있다. 본 연구에서는 사전 학습을 위한 고품질 합성 데이터를 생성하는 BeyondWeb라는 합성 데이터 생성 프레임워크를 소개한다. BeyondWeb은 기존의 웹 규모 데이터셋의 기능을 크게 확장하여, Cosmopedia 및 Nemotron-CC의 고품질 합성 데이터셋(Nemotron-Synth)과 같은 최첨단 합성 사전 학습 데이터셋을 14개의 벤치마크 평가에서 평균적으로 각각 최대 5.1%포인트(pp) 및 2.6%포인트(pp) 앞질렀다. 또한, BeyondWeb은 오픈 웹 데이터보다 최대 7.7배 빠른 학습 속도를 제공하며, Nemotron-Synth보다는 2.7배 빠른 학습 속도를 보였다. 특히, BeyondWeb에서 180B 토큰으로 학습된 3B 모델은 동일한 토큰 예산으로 Cosmopedia에서 학습된 8B 모델을 능가했다. 우리는 또한 BeyondWeb을 통해 사전 학습용 합성 데이터에 대한 몇 가지 통찰을 제시한다: 그 이점을 이끄는 요소, 어떤 데이터를 어떻게 재구성할 것인지, 그리고 모델 크기와 계열이 데이터 품질에 미치는 영향 등이다. 전반적으로, 본 연구는 고품질 합성 사전 학습 데이터를 생성하기 위한 만능 해결책은 없음을 보여준다. 최상의 결과를 얻기 위해서는 많은 요소들을 공동으로 최적화해야 하며, 이는 엄격한 과학과 실용적인 전문 지식을 요구하는 도전적인 과제이다. 단순한 접근법은 상당한 비용을 들여도 겸손한 개선만을 가져올 수 있는 반면, BeyondWeb에서 보여준 것처럼 잘 실행된 방법은 혁신적인 개선을 가져올 수 있다.
LLM 추론은 많은 다운스트림 애플리케이션에서 중요한 워크로드로 부상했지만, 상당한 메모리 공간과 대역폭 요구 사항으로 인해 LLM을 효율적으로 추론하는 것은 어려운 과제입니다. 동시에, 지난 수십 년 동안 컴퓨팅 능력은 메모리 용량과 대역폭을 꾸준히 앞질러 왔으며, 이는 현대 GPU 하드웨어에서도 여전히 뚜렷하게 나타나며 LLM 추론의 어려움을 더욱 가중시키고 있습니다. 이에 따라, 메모리 연산을 줄이기 위해 계산량을 늘리는 새로운 알고리즘들이 등장하고 있습니다. 이러한 맥락에서, 우리는 XQuant를 제안합니다. XQuant는 이러한 추세를 활용하여 저비트 양자화를 통해 메모리 소비를 크게 줄이고, 최신 KV 캐시 양자화 방법 대비 상당한 정확도 이점을 제공합니다. 이를 위해, 우리는 표준 KV 캐싱 대신 레이어 입력 활성화 X를 양자화하고 캐싱한 다음, 추론 중에 Keys와 Values를 실시간으로 재구성합니다. 이는 KV 캐싱에 비해 즉각적인 2배의 메모리 절약을 가져옵니다. XQuant를 적용함으로써, FP16 기준 대비 <0.1의 perplexity 저하로 최대 약 7.7배의 메모리 절약을 달성합니다. 또한, 우리의 접근 방식은 X 값이 레이어 간에 유사하다는 사실을 활용합니다. 이 관찰을 바탕으로, 우리는 X 임베딩의 크로스 레이어 유사성을 극단적인 압축에 활용하는 XQuant-CL을 소개합니다. 다양한 모델에서 XQuant-CL은 FP16 기준 대비 단 0.01의 perplexity 저하로 최대 10배의 메모리 절약을 달성하며, 0.1의 perplexity 저하로는 12.5배의 메모리 절약을 달성합니다. XQuant는 하드웨어 플랫폼의 빠르게 증가하는 컴퓨팅 능력을 활용하여 메모리 병목 현상을 제거하고, 최신 KV 캐시 양자화 방법을 능가하며 다양한 모델에서 거의 FP16 수준의 정확도를 달성합니다.
논문 검색은 연구자들에게 중요한 활동으로, 일반적으로 특정 주제를 설명하는 쿼리를 사용하여 관련 논문을 찾는 과정을 포함합니다. 연구가 심화됨에 따라 논문 검색 요구사항은 더 유연해질 수 있으며, 때로는 거시적인 주제에 국한되지 않고 모듈 구성과 같은 세부 사항을 포함하기도 합니다. 그러나 기존의 논문 검색 시스템은 이러한 유연한 세분화 요구사항을 충족할 수 없는데, 이는 이러한 시스템이 주로 논문 초록을 수집하여 코퍼스 인덱스를 구성하기 때문에 더 세분화된 쿼리에 대한 검색을 지원할 수 있는 상세 정보가 부족하기 때문입니다. 본 연구에서는 오프라인 계층적 인덱싱과 온라인 적응형 검색으로 구성된 PaperRegister를 제안합니다. 이는 기존의 초록 기반 인덱스를 계층적 인덱스 트리로 변환하여 유연한 세분화 수준의 쿼리를 지원합니다. 다양한 세분화 수준에서의 논문 검색 작업에 대한 실험 결과, PaperRegister는 최첨단 성능을 달성했으며, 특히 세밀한 시나리오에서 뛰어난 성능을 보여 실제 애플리케이션에서 유연한 세분화 논문 검색을 위한 효과적인 솔루션으로서의 좋은 잠재력을 강조합니다. 본 연구의 코드는 https://github.com/Li-Z-Q/PaperRegister에서 확인할 수 있습니다.
고해상도 텍스처를 특징으로 하는 대규모 3D 데이터셋인 TexVerse를 소개합니다. 최근 대규모 3D 데이터셋의 발전으로 고해상도 형상 생성이 개선되었지만, 적합한 데이터셋의 부족으로 인해 고해상도 텍스처를 엔드투엔드로 생성하는 연구는 여전히 미흡한 상태입니다. TexVerse는 Sketchfab에서 수집한 858K개 이상의 고유한 고해상도 3D 모델로 구성된 정제된 컬렉션을 제공하며, 이 중 158K개 이상의 모델은 물리 기반 렌더링(PBR) 재질을 포함하고 있습니다. 각 모델은 모든 고해상도 변형을 포함하여 총 1.6M개의 3D 인스턴스를 제공합니다. TexVerse는 또한 특화된 하위 집합인 TexVerse-Skeleton(69K개의 리깅된 모델)과 TexVerse-Animation(54K개의 애니메이션 모델)을 포함하며, 이 두 하위 집합은 사용자가 업로드한 원본 스켈레톤 및 애니메이션 데이터를 보존합니다. 또한, 전반적인 특성, 구조적 구성 요소, 복잡한 특징을 설명하는 상세한 모델 주석을 제공합니다. TexVerse는 텍스처 합성, PBR 재질 개발, 애니메이션, 다양한 3D 비전 및 그래픽 작업에 광범위한 잠재적 응용 가능성을 지닌 고품질 데이터 리소스를 제공합니다.
최근 오디오 기반 초상화 애니메이션 기술은 놀라운 성능을 보여주고 있다. 그러나 기존 방법들은 동작의 자연스러움, 입술 싱크 정확도, 시각적 품질과 같은 다차원적 인간 선호도와의 정렬에 어려움을 겪고 있다. 이는 상호 충돌하는 선호 목표들 간의 최적화가 어렵고, 다차원적 선호도 주석이 포함된 대규모 고품질 데이터셋이 부족하기 때문이다. 이를 해결하기 위해, 우리는 먼저 생성된 비디오가 다차원적 기대치를 얼마나 잘 충족하는지를 정량화하기 위해 인간과 정렬된 보상 함수를 학습하는 다중모달 보상 모델인 Talking-Critic를 소개한다. 이 모델을 활용하여 410K의 선호도 쌍을 포함한 대규모 다차원적 인간 선호도 데이터셋인 Talking-NSQ를 구축하였다. 마지막으로, 우리는 디퓨전 기반 초상화 애니메이션 모델을 세밀한 다차원적 선호도와 정렬시키기 위한 새로운 프레임워크인 Timestep-Layer 적응형 다중 전문가 선호도 최적화(TLPO)를 제안한다. TLPO는 선호도를 전문가 모듈로 분리한 후, 이를 시간 단계와 네트워크 계층 간에 융합하여 상호 간섭 없이 모든 차원에서 포괄적이고 세밀한 개선을 가능하게 한다. 실험 결과, Talking-Critic는 인간 선호도 평가와의 정렬에서 기존 방법들을 크게 능가하는 것으로 나타났다. 한편, TLPO는 입술 싱크 정확도, 동작의 자연스러움, 시각적 품질에서 베이스라인 모델 대비 상당한 개선을 달성하였으며, 질적 및 양적 평가 모두에서 우수한 성능을 보였다. 프로젝트 페이지: https://fantasy-amap.github.io/fantasy-talking2/
본 논문에서는 사용자 정의 텍스트 설명을 기반으로 특정 스타일을 지정하여 스타일화된 3D Morphable Model(3DMM)을 구축할 수 있는 새로운 프레임워크인 StyleMM을 소개한다. 기존의 3DMM 기반 사실적인 인간 얼굴을 위한 사전 훈련된 메시 변형 네트워크와 텍스처 생성기를 기반으로, 본 접근법은 확산 모델을 사용한 텍스트 기반 이미지-이미지(i2i) 변환을 통해 생성된 스타일화된 얼굴 이미지를 활용하여 이러한 모델을 미세 조정한다. 이 스타일화된 이미지는 렌더링된 메시의 스타일화 목표로 사용된다. i2i 변환 과정에서 원치 않는 신원, 얼굴 정렬 또는 표정의 변화를 방지하기 위해, 본 연구에서는 소스 이미지의 얼굴 속성을 명시적으로 보존하는 스타일화 방법을 제안한다. 이미지 스타일화 과정에서 이러한 중요한 속성을 유지함으로써, 제안된 접근법은 이미지 기반 훈련을 통해 3DMM 매개변수 공간 전반에 걸쳐 일관된 3D 스타일 전이를 보장한다. 훈련이 완료되면, StyleMM은 형태, 표정 및 텍스처 매개변수를 명시적으로 제어할 수 있는 스타일화된 얼굴 메시의 순방향 생성을 가능하게 하며, 일관된 정점 연결성과 애니메이션 가능성을 가진 메시를 생성한다. 정량적 및 정성적 평가를 통해, 본 접근법이 신원 수준의 얼굴 다양성과 스타일화 능력 측면에서 최신 기술을 능가함을 입증한다. 코드와 비디오는 [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page)에서 확인할 수 있다.
그래프 신경망(GNN)은 데이터 인스턴스 간의 구조적 의존성을 포착함으로써 컴퓨터 비전 및 의료 영상 분류 작업에서 최첨단 성과를 달성했습니다. 그러나 GNN의 의사결정 과정은 여전히 불투명하여, 해석 가능성이 필수적인 고위험 임상 응용 분야에서의 신뢰성을 제한하고 있습니다. 기존의 GNN 설명 가능성 기법은 일반적으로 사후적이고 전역적이어서, 개별 노드의 결정이나 지역적 추론에 대한 통찰을 제한적으로 제공합니다. 우리는 X-Node를 소개합니다. 이는 각 노드가 예측 과정의 일부로 자체 설명을 생성하는 자기 설명형 GNN 프레임워크입니다. 각 노드에 대해, 우리는 해당 노드의 지역적 토폴로지 내에서 해석 가능한 단서(예: 연결성, 중심성, 클러스터링, 특징 중요도, 레이블 일치성)를 인코딩하는 구조화된 컨텍스트 벡터를 구성합니다. 경량화된 Reasoner 모듈은 이 컨텍스트를 간결한 설명 벡터로 매핑하며, 이 벡터는 세 가지 목적을 제공합니다: (1) 노드의 잠재 임베딩을 디코더를 통해 재구성하여 충실성을 강화, (2) 사전 훈련된 대형 언어 모델(예: Grok 또는 Gemini)을 사용하여 자연어 설명 생성, (3) 설명을 메시지 전달 파이프라인에 다시 주입하는 "텍스트 주입" 메커니즘을 통해 GNN 자체를 안내. 우리는 X-Node를 MedMNIST와 MorphoMNIST에서 파생된 두 개의 그래프 데이터셋에서 평가하며, 이를 GCN, GAT, GIN 백본과 통합했습니다. 우리의 결과는 X-Node가 경쟁력 있는 분류 정확도를 유지하면서도 충실한 노드별 설명을 생성함을 보여줍니다. 저장소: https://github.com/basiralab/X-Node.
다중모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)이 광범위하게 적용됨에 따라, 이를 다양한 사용자 요구에 맞게 조정하는 것이 점점 더 중요해지고 있다. 본 논문에서는 제어된 디코딩을 통해 MLLMs의 적응을 연구한다. 이를 위해, 우리는 MLLMs의 보상 기반 디코딩을 위한 첫 번째 방법을 소개하고, 이를 시각적 근거(visual grounding) 개선에 적용하는 것을 보여준다. 우리의 방법은 시각적 근거를 위한 보상 모델을 구축하고 이를 MLLM의 디코딩 과정을 안내하는 데 사용하는 것을 포함한다. 구체적으로, 우리는 모델 출력에서 객체 정밀도(object precision)와 재현율(recall)의 정도를 독립적으로 제어하기 위해 두 개의 별도 보상 모델을 구축한다. 우리의 접근 방식은 두 가지 방식으로 MLLM의 추론 과정에 대한 실시간 제어를 가능하게 한다: 첫째, 디코딩 과정에서 각 보상 함수의 상대적 중요도를 제어함으로써, 사용자가 이미지 캡션 작업에서 객체 정밀도와 재현율을 동적으로 조정할 수 있게 한다; 둘째, 디코딩 과정에서 탐색의 범위를 제어함으로써, 사용자가 테스트 시간 계산량과 시각적 근거의 정도 사이의 균형을 조절할 수 있게 한다. 우리는 이 방법을 표준 객체 환각(object hallucination) 벤치마크에서 평가하여, MLLM 추론에 대한 상당한 제어 가능성을 제공하면서도 기존의 환각 완화 방법들을 일관되게 능가함을 보여준다.
자기 지도 학습(self-supervised learning)은 원격 탐사 분야에서 큰 잠재력을 가지고 있지만, 표준 자기 지도 학습 방법은 지구 관측 데이터의 독특한 특성에 맞게 조정되어야 합니다. 우리는 이 방향으로 한 걸음 나아가, 다중 모달(multimodal), 다중 시계열(multitemporal), 다중 스펙트럼(multispectral) 지구 관측 데이터에 대한 융합 전략과 재구축 목표 정규화 기법을 포괄적으로 벤치마킹했습니다. 이를 바탕으로, 우리는 MAESTRO를 제안합니다. MAESTRO는 Masked Autoencoder의 새로운 적응 버전으로, 최적화된 융합 전략과 스펙트럴 사전 정보를 자기 지도 신호로 도입하는 맞춤형 목표 정규화 기법을 특징으로 합니다. 네 가지 지구 관측 데이터셋에서 평가된 MAESTRO는 다중 시계열 동역학에 크게 의존하는 작업에서 새로운 최첨단 성능을 달성했으며, 단일 시점 모달리티가 주도하는 작업에서도 매우 경쟁력 있는 성능을 유지했습니다. 우리의 모든 실험을 재현할 수 있는 코드는 https://github.com/ignf/maestro에서 확인할 수 있습니다.
딥러닝은 의료 영상 분야에 혁신을 가져왔지만, 레이블이 지정된 훈련 데이터의 부족으로 인해 그 효과가 심각하게 제한되고 있다. 본 논문은 클래스당 5개에서 50개의 레이블 샘플로 구성된 다양한 환경에서 평가된, 낮은 레이블 데이터 환경을 위해 특별히 설계된 새로운 GAN 기반의 준지도 학습 프레임워크를 소개한다. 우리의 접근 방식은 클래스 조건부 이미지 변환을 위한 생성기, 진위 여부 평가 및 분류를 위한 판별기, 그리고 전용 분류기로 구성된 세 가지 특수 신경망을 3단계 훈련 프레임워크 내에 통합한다. 이 방법은 제한된 레이블 데이터에 대한 지도 학습과 노이즈로부터의 생성이 아닌 이미지 간 변환을 통해 풍부한 비레이블 이미지를 활용하는 비지도 학습을 번갈아 수행한다. 우리는 판별기와 분류기의 신뢰도 가중 예측을 지수 이동 평균을 통해 시간적 일관성과 결합한 앙상블 기반의 가짜 레이블링을 사용하여, 비레이블 데이터에 대한 신뢰할 수 있는 레이블 추정을 가능하게 한다. 11개의 MedMNIST 데이터셋에 대한 포괄적인 평가를 통해, 우리의 접근 방식이 6개의 최신 GAN 기반 준지도 학습 방법보다 통계적으로 유의미한 성능 향상을 달성했으며, 특히 레이블 데이터의 부족이 가장 심각한 극단적인 5샷 환경에서 강력한 성능을 보임을 입증했다. 이 프레임워크는 평가된 모든 환경(클래스당 5, 10, 20, 50샷)에서 우수성을 유지한다. 우리의 접근 방식은 주석 비용이 과도한 의료 영상 응용 분야에서 실질적인 해결책을 제공하며, 최소한의 레이블 데이터로도 견고한 분류 성능을 가능하게 한다. 코드는 https://github.com/GuidoManni/SPARSE에서 확인할 수 있다.