번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 대규모 언어 모델(LLMs)의 수학적 추론 능력을 향상시킬 수 있는 잠재적 요인들을 탐구한다. 우리는 현대 LLMs의 수학적 추론 능력에 대한 데이터 스케일링 법칙이 아직 포화 상태에 이르지 않았음을 주장하며, 데이터 양의 증가에 따라 모델의 품질이 어떻게 개선되는지를 강조한다. 이를 뒷받침하기 위해, 우리는 제안된 2.5M 인스턴스의 Skywork-MathQA 데이터셋을 사용하여 일반적인 7B LLMs에 지도 미세 조정(SFT)을 적용한 Skywork-Math 모델 시리즈를 소개한다. Skywork-Math 7B는 SFT 데이터만을 사용하여 경쟁 수준의 MATH 벤치마크에서 51.2%, GSM8K 벤치마크에서 83.9%의 인상적인 정확도를 달성했으며, MATH에서 초기 버전의 GPT-4를 능가했다. Skywork-Math 모델의 우수한 성능은 두 단계의 데이터 합성 및 모델 SFT 파이프라인에 기인하며, 이는 세 가지 다른 증강 방법과 다양한 시드 문제 세트를 포함하여 Skywork-MathQA 데이터셋의 양과 질을 다양한 난이도 수준에서 보장한다. 무엇보다도, 우리는 연구 및 산업 응용을 위해 LLMs의 수학적 추론 능력을 향상시키기 위한 여러 실용적인 시사점을 제공한다.
기초 비디오 확산 모델 구축을 위한 상당한 진전을 이루었습니다. 이러한 모델들은 대규모 비지도 데이터를 사용해 훈련되기 때문에, 특정 하위 작업에 맞게 모델을 적응시키는 것이 중요해졌습니다. 지도 학습을 통한 미세 조정을 위해선 대상 비디오 데이터셋을 수집해야 하는데, 이는 어렵고 지루한 작업입니다. 본 연구에서는 강력한 시각 판별 모델 위에서 선호도를 통해 학습된 사전 훈련된 보상 모델을 활용하여 비디오 확산 모델을 적응시킵니다. 이러한 모델들은 생성된 RGB 픽셀에 대한 밀집된 그래디언트 정보를 포함하고 있어, 비디오와 같은 복잡한 탐색 공간에서 효율적인 학습에 필수적입니다. 보상 모델에서 비디오 확산 모델로 그래디언트를 역전파함으로써, 계산 및 샘플 효율적인 비디오 확산 모델 정렬이 가능함을 보여줍니다. 다양한 보상 모델과 비디오 확산 모델에 걸쳐 결과를 제시하며, 우리의 접근 방식이 기존의 그래디언트 없는 접근법보다 보상 질의 및 계산 측면에서 훨씬 더 효율적으로 학습할 수 있음을 입증합니다. 코드, 모델 가중치 및 추가 시각화 자료는 https://vader-vid.github.io에서 확인할 수 있습니다.
현재 대부분의 대형 멀티모달 모델(LMM)은 자연 경관 사진이나 인물 사진을 이해할 수 있지만, 차트, 지도, 레이아웃과 같은 추상적 이미지에 대한 이해와 시각적 추론 능력은 여전히 매우 초보적인 수준에 머물러 있습니다. 이러한 모델들은 시계에서 시간을 읽거나, 플로우차트를 이해하거나, 도로 지도를 사용해 경로를 계획하는 것과 같은 간단한 일상적 작업에서도 종종 어려움을 겪습니다. 이를 고려하여, 우리는 대형 언어 모델과 그 코드 생성 능력을 활용하여 일상 시나리오 전반에 걸친 대량의 추상적 이미지와 시각적 추론 지침을 합성하는 멀티모달 자기 지도(multi-modal self-instruct) 방식을 설계했습니다. 우리의 전략은 차트, 테이블, 시뮬레이션 지도, 대시보드, 플로우차트, 관계 그래프, 평면도, 시각적 퍼즐 등 8가지 시각적 시나리오에 대한 11,193개의 지침으로 구성된 멀티모달 벤치마크를 손쉽게 생성합니다. 이 벤치마크는 단순한 선과 기하학적 요소로 구성되어 있어 Claude-3.5-Sonnet 및 GPT-4o와 같은 최첨단 LMM들이 추상적 이미지 이해, 공간 관계 추론, 시각적 요소 유도에서 보이는 한계를 드러냅니다. 또한, 우리는 합성 데이터의 품질을 검증하기 위해 62,476개의 합성 차트, 테이블, 도로 지도 지침을 사용하여 LMM을 미세 조정했습니다. 그 결과, 차트 이해와 지도 내비게이션 성능이 개선되었으며, 다른 시각적 추론 작업에서도 잠재적 이점이 있음을 보여주었습니다. 우리의 코드는 https://github.com/zwq2018/Multi-modal-Self-instruct에서 확인할 수 있습니다.
다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)은 최근 학계와 산업계에서 중요한 주목을 받고 있습니다. 이러한 모델들은 일반적인 다중 모달 시나리오에서 뛰어난 성능을 보이지만, 시각적 맥락에서의 수학 문제 해결 능력은 아직 충분히 탐구되지 않았습니다. 우리는 MLLMs 내에서 개선이 필요한 세 가지 주요 영역을 식별했습니다: 수학 다이어그램의 시각적 인코딩, 다이어그램-언어 정렬, 그리고 수학적 추론 능력입니다. 이는 시각적 수학 분야에서 대규모의 고품질 데이터와 훈련 파이프라인의 긴급한 필요성을 제기합니다. 본 논문에서 우리는 MLLMs를 위한 첫 번째 수학적 시각적 지침 튜닝 패러다임인 MAVIS를 제안합니다. MAVIS는 일련의 수학적 시각 데이터셋과 특화된 MLLMs를 포함합니다. 세 가지 문제를 해결하기 위해 MAVIS는 처음부터 세 단계의 점진적인 훈련 단계를 포함합니다. 첫째, 558K개의 다이어그램-캡션 쌍으로 구성된 MAVIS-Caption을 통해 대조 학습을 통해 수학 특화 시각 인코더(CLIP-Math)를 미세 조정하여 다이어그램 시각적 인코딩을 개선합니다. 둘째, MAVIS-Caption을 활용하여 CLIP-Math와 대형 언어 모델(LLM)을 투영 계층을 통해 정렬하여 수학적 도메인에서의 시각-언어 정렬을 강화합니다. 셋째, 900K개의 세심하게 수집되고 주석이 달린 시각적 수학 문제를 포함하는 MAVIS-Instruct를 도입하여, 최종적으로 MLLM을 지시 튜닝하여 견고한 수학적 추론 능력을 갖추도록 합니다. MAVIS-Instruct에서는 각 문제에 대한 완전한 사고 과정(Chain-of-Thought, CoT) 논리를 포함하고, 텍스트적 중복을 최소화하여 모델이 시각적 요소에 집중하도록 합니다. 데이터와 모델은 https://github.com/ZrrSkywalker/MAVIS에서 공개됩니다.
대규모 언어 모델(LLMs)을 학습시키는 것은 많은 수의 파라미터와 관련된 최적화 상태로 인해 메모리 사용량이 매우 높습니다. 최근에 제안된 GaLore 방법은 성능 저하 없이 가중치 그래디언트를 저차원 부분공간으로 투영하여 메모리 사용량을 줄입니다. 그러나 GaLore는 부분공간을 식별하기 위해 시간이 많이 소요되는 특이값 분해(SVD) 연산에 의존하며, 빈번한 부분공간 업데이트로 인해 학습 시간이 크게 증가합니다. 또한, GaLore는 접근 가능한 미세 조정 시나리오에서 LoRA와 비교하여 정확도와 효율성 측면에서 미미한 개선만을 제공합니다. 이러한 한계를 해결하기 위해, 우리는 양자화와 저차원 투영을 결합하여 GaLore의 이점을 능가하는 메모리 사용량을 크게 줄이는 새로운 접근 방식인 Q-GaLore를 소개합니다. 우리의 방법은 두 가지 주요 관찰에 기반합니다: (i) 그래디언트 부분공간은 다양한 특성을 보이며, 일부 층은 학습 초기에 수렴하는 반면 다른 층은 빈번한 변화를 겪습니다; (ii) 투영 행렬은 저비트 양자화에 대해 매우 강인합니다. 이러한 통찰을 활용하여, Q-GaLore는 부분공간의 수렴 통계를 기반으로 그래디언트 부분공간을 적응적으로 업데이트하여, SVD 연산 횟수를 크게 줄이면서도 비슷한 성능을 달성합니다. 우리는 투영 행렬을 INT4 형식으로, 가중치를 INT8 형식으로 유지하며, 누적된 그래디언트 정보를 포착하기 위해 확률적 반올림을 적용합니다. 이 접근 방식은 저정밀도 가중치만 사용하여도 고정밀도의 학습 경로를 가능하게 합니다. 우리는 Q-GaLore가 탁월한 메모리 효율성과 함께 매우 경쟁력 있는 성능을 달성함을 보여줍니다. 사전 학습 단계에서 Q-GaLore는 단일 NVIDIA RTX 4060 Ti(16GB 메모리)에서 LLaMA-7B 모델을 처음부터 학습시키는 것을 가능하게 합니다. 미세 조정 단계에서는 LoRA 및 GaLore와 비교하여 메모리 소비를 최대 50%까지 줄이면서도 동일한 메모리 비용에서 QLoRA를 지속적으로 능가합니다.
우리는 비전 애플리케이션에 특화된 새로운 하이브리드 Mamba-Transformer 백본을 제안하며, 이를 MambaVision이라고 명명합니다. 우리의 핵심 기여는 시각적 특징을 효율적으로 모델링하기 위해 Mamba 공식을 재설계한 것입니다. 또한, Vision Transformers(ViT)와 Mamba를 통합하는 것의 타당성에 대한 포괄적인 절제 연구를 수행했습니다. 우리의 결과는 Mamba 아키텍처의 최종 레이어에 여러 개의 self-attention 블록을 추가함으로써 장거리 공간 의존성을 포착하는 모델링 능력이 크게 향상됨을 보여줍니다. 이러한 발견을 바탕으로, 다양한 설계 기준을 충족하기 위해 계층적 아키텍처를 가진 MambaVision 모델군을 소개합니다. ImageNet-1K 데이터셋에서의 이미지 분류 작업에서 MambaVision 모델 변종들은 Top-1 정확도와 이미지 처리량 측면에서 새로운 최첨단(SOTA) 성능을 달성했습니다. MS COCO 및 ADE20K 데이터셋에서의 객체 탐지, 인스턴스 분할, 의미론적 분할과 같은 다운스트림 작업에서 MambaVision은 비슷한 크기의 백본들을 능가하며 더 우수한 성능을 보여줍니다. 코드: https://github.com/NVlabs/MambaVision.
점점 더 많은 애플리케이션이 소수의 폐쇄형 언어 모델(LMs)에 의존하고 있습니다. 이러한 의존성은 언어 모델이 자기 인식 능력을 개발할 경우 새로운 보안 위험을 초래할 수 있습니다. 인간의 신원 확인 방법에서 영감을 받아, 우리는 모델이 생성한 "보안 질문"을 사용하여 언어 모델의 자기 인식을 평가하는 새로운 접근 방식을 제안합니다. 우리의 테스트는 내부 모델 매개변수나 출력 확률에 접근할 필요가 없기 때문에 외부에서 관리되어 최첨단 모델을 추적하는 데 사용될 수 있습니다. 우리는 이 테스트를 사용하여 현재 공개적으로 사용 가능한 가장 강력한 오픈소스 및 폐쇄형 언어 모델 10개를 대상으로 자기 인식을 조사했습니다. 광범위한 실험 결과, 조사된 모든 언어 모델에서 일반적이거나 일관된 자기 인식의 경험적 증거는 발견되지 않았습니다. 대신, 우리의 결과는 언어 모델이 주어진 대안 중에서 "최선"의 답을 선택하려는 경향이 있으며, 그 답의 출처와는 무관하다는 것을 시사합니다. 또한, 어떤 모델이 가장 좋은 답을 생성하는지에 대한 선호도가 언어 모델 간에 일관적이라는 징후를 발견했습니다. 추가적으로, 우리는 다중 선택 설정에서 언어 모델의 위치 편향 고려 사항에 대한 새로운 통찰력을 발견했습니다.
이미지 생성과 자유 형식 텍스트 생성 분야의 눈부신 발전으로, 이미지와 텍스트가 교차된 콘텐츠 생성은 점점 더 흥미로운 연구 분야로 부상하고 있습니다. 특히 내러티브 텍스트와 생동감 있는 이미지를 교차적으로 생성하는 멀티모달 스토리 생성은 광범위한 응용 가능성을 지닌 가치 있고 실용적인 과제로 대두되었습니다. 그러나 이 과제는 텍스트와 이미지 간의 복잡한 상호작용을 이해하고, 일관성 있고 맥락적으로 관련된 긴 텍스트와 시각적 요소를 생성해야 한다는 점에서 상당한 도전 과제를 안고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 멀티모달 대형 언어 모델(MLLM)을 활용하여 확장된 멀티모달 스토리를 생성하는 새로운 방법인 SEED-Story를 제안합니다. 우리의 모델은 MLLM의 강력한 이해 능력을 기반으로 텍스트 토큰과 시각적 토큰을 예측하며, 이를 적응형 시각적 디토크나이저로 처리하여 일관된 캐릭터와 스타일을 가진 이미지를 생성합니다. 또한, 최대 25개의 시퀀스(학습 시에는 10개만 사용)로 구성된 스토리를 고효율의 자기회귀 방식으로 생성할 수 있도록 멀티모달 주의력 싱크(attention sink) 메커니즘을 제안합니다. 더불어, 우리는 모델 학습과 멀티모달 스토리 생성 과제를 다양한 측면에서 정량적으로 평가하기 위해 대규모 고해상도 데이터셋인 StoryStream을 제시합니다.
탁월한 수학적 추론 능력은 대규모 언어 모델(LLMs)의 위력을 보여주는 핵심 특징 중 하나입니다. LLMs의 수학적 능력을 포괄적으로 정의하고 평가하며, 실제 시나리오에서의 사용자 경험을 반영하는 방법은 중요한 문제로 대두되고 있습니다. 현재 벤치마크는 주로 문제 해결 능력에 초점을 맞추고 있어, 모델의 과적합 위험이 크고 진정한 수학적 추론 능력을 정확히 반영하지 못하는 한계가 있습니다. 본 논문에서는 모델이 문제를 진정으로 이해한다면, 다양한 작업에 견고하고 쉽게 적용될 수 있어야 한다는 점을 주장합니다. 이를 바탕으로 우리는 작업 일반화와 추론 견고성을 테스트하기 위해 잘 설계된 체크리스트인 MATHCHECK와 이를 효율적으로 생성하는 자동화 도구를 소개합니다. MATHCHECK는 다양한 수학적 추론 작업과 견고성 테스트 유형을 포함하여 수학적 추론 능력과 행동 테스트를 포괄적으로 평가할 수 있도록 합니다. MATHCHECK를 활용하여, 우리는 수학적 텍스트 추론 능력을 평가하는 MATHCHECK-GSM과 다중 모달 추론 능력을 평가하는 MATHCHECK-GEO를 개발했습니다. 이들은 GSM8k, GeoQA, UniGeo, Geometry3K 등의 벤치마크를 업그레이드한 버전으로서의 역할을 합니다. 우리는 MATHCHECK-GSM과 MATHCHECK-GEO를 사용하여 20개 이상의 LLMs와 11개의 MLLMs를 평가하며, 그들의 포괄적인 수학적 추론 능력을 평가했습니다. 결과는 GPT-4o와 같은 최첨단 LLMs가 체크리스트의 다양한 능력에서 계속 우수한 성과를 보이는 반면, 많은 다른 모델 패밀리에서는 상당한 성능 저하가 나타남을 보여줍니다. 추가 실험은 전통적인 수학 벤치마크와 비교하여 MATHCHECK가 진정한 수학적 능력을 더 잘 반영하고 수학적 지능을 더 선형적으로 나타내며, 이는 우리의 설계를 뒷받침함을 보여줍니다. 우리의 MATHCHECK를 통해, 우리는 모델을 깊이 있게 조사하기 위해 상세한 행동 분석을 쉽게 수행할 수 있습니다.
기존의 다중모달 대형 언어 모델(MLLM)은 여러 객체, 텍스트 정보, 공간 관계 등 다양한 시각 요소에 대한 복잡한 이해를 점점 더 강조하고 있습니다. 이러한 포괄적인 시각 인지 능력을 개발하기 위해서는 다양한 시각 요소와 상세한 이미지 설명을 제공하는 고품질의 이미지-텍스트 데이터셋의 가용성이 핵심입니다. 그러나 현재 이러한 초세밀 데이터셋의 부족은 MLLM 커뮤니티의 발전을 저해하고 있습니다. 이러한 병목 현상은 현재의 캡션 엔진이 완전하고 정확한 주석을 제공하는 데 한계가 있는 제한된 인지 능력에서 비롯됩니다. 포괄적인 시각 인지에 대한 MLLM의 최첨단 연구를 촉진하기 위해, 우리는 완전하고 정확한 이미지 설명을 위한 저예산이지만 매우 효과적인 캡션 엔진인 Perceptual Fusion을 제안합니다. 구체적으로, Perceptual Fusion은 다양한 인지 전문가를 이미지 사전 정보로 통합하여 시각 요소에 대한 명시적인 정보를 제공하고, 고급 MLLM의 인지 능력을 모방하기 위한 중심 축으로 효율적인 MLLM을 채택합니다. 우리는 비정제된 LAION 데이터셋에서 100만 개의 대표성이 높은 이미지를 신중하게 선택하고, DenseFusion-1M이라는 이름의 엔진을 사용하여 밀도 높은 설명을 생성합니다. 광범위한 실험을 통해 우리의 엔진이 경쟁 제품을 능가하며, 결과 데이터셋이 다양한 시각-언어 벤치마크에서 기존 MLLM의 인지 및 인식 능력을 크게 향상시킴을 검증했습니다. 특히 고해상도 이미지를 입력으로 사용할 때 이러한 개선이 두드러졌습니다. 데이터셋과 코드는 https://github.com/baaivision/DenseFusion에서 공개적으로 이용 가능합니다.
일반 목적 에이전트 개발에 있어서 대형 언어 모델(LLM)과 다양한 도구의 통합에 상당한 관심이 집중되고 있습니다. 이는 LLM의 도구 사용 능력에 대한 도전으로 작용합니다. 그러나 기존의 도구 사용 평가와 실제 시나리오 사이에는 뚜렷한 격차가 존재합니다. 현재의 평가는 주로 AI 생성 쿼리, 단일 단계 작업, 더미 도구, 그리고 텍스트 전용 상호작용을 사용하여 에이전트의 실제 문제 해결 능력을 효과적으로 드러내지 못하고 있습니다. 이를 해결하기 위해 우리는 GTA(General Tool Agents)라는 벤치마크를 제안합니다. 이 벤치마크는 세 가지 주요 측면을 포함합니다: (i) 실제 사용자 쿼리: 간단한 실제 목표를 가진 인간이 작성한 쿼리로, 도구 사용이 암시적이며 LLM이 적합한 도구를 추론하고 해결 단계를 계획해야 합니다. (ii) 실제 배포된 도구: 인지, 운영, 논리, 창의성 카테고리에 걸친 도구를 갖춘 평가 플랫폼으로, 에이전트의 실제 작업 실행 성능을 평가합니다. (iii) 실제 다중 모드 입력: 공간적 장면, 웹 페이지 스크린샷, 테이블, 코드 조각, 인쇄/필기 자료와 같은 실제 이미지 파일을 쿼리 컨텍스트로 사용하여 실제 시나리오와 밀접하게 일치시킵니다. 우리는 229개의 실제 작업과 실행 가능한 도구 체인을 설계하여 주요 LLM을 평가했습니다. 우리의 연구 결과는 실제 사용자 쿼리가 기존 LLM에게 어려운 것으로 나타났으며, GPT-4은 작업의 50% 미만을 완료했고 대부분의 LLM은 25% 미만의 성과를 보였습니다. 이 평가는 현재 LLM의 도구 사용 능력이 실제 시나리오에서 겪는 병목 현상을 드러내며, 일반 목적 도구 에이전트의 발전을 위한 미래 방향을 제시합니다. 코드와 데이터셋은 https://github.com/open-compass/GTA에서 확인할 수 있습니다.
본 논문에서는 텍스트 음성 합성(TTS)을 위한 새로운 연속값 토큰 기반 언어 모델링 접근법인 MELLE를 제안한다. MELLE는 벡터 양자화 과정을 거치지 않고 텍스트 조건에서 직접 연속적인 멜-스펙트로그램 프레임을 자동회귀적으로 생성한다. 벡터 양자화는 원래 오디오 압축을 위해 설계된 기술로, 멜-스펙트로그램에 비해 충실도가 떨어진다는 단점이 있다. 구체적으로, (i) 교차 엔트로피 손실 대신 제안된 스펙트로그램 플럭스 손실 함수를 적용하여 연속값 토큰의 확률 분포를 모델링한다. (ii) MELLE에 변분 추론을 도입하여 샘플링 메커니즘을 개선함으로써 출력 다양성과 모델 강건성을 향상시켰다. 실험 결과, 두 단계 코덱 언어 모델인 VALL-E 및 그 변형 모델들과 비교했을 때, 단일 단계 MELLE는 이산 코드 샘플링의 고질적인 문제를 피함으로써 강건성 문제를 완화하고, 여러 평가 지표에서 우수한 성능을 달성하며, 무엇보다도 더 간결한 패러다임을 제공한다. 우리의 작업 데모는 https://aka.ms/melle에서 확인할 수 있다.
최근 몇 년 동안 대규모 언어 모델(LLM)의 급속한 발전이 이루어져 왔다. 강력한 LLM을 기반으로, 다중 모달 LLM(MLLM)은 텍스트에서 더 넓은 영역으로 모달리티를 확장하여 더 광범위한 응용 시나리오로 인해 폭넓은 관심을 끌고 있다. LLM과 MLLM이 방대한 모델 파라미터와 데이터에 의존하여 새로운 능력을 달성함에 따라, 데이터의 중요성이 점점 더 널리 인식되고 있다. 최근 MLLM을 위한 데이터 중심 작업을 추적하고 분석해 보면, 모델과 데이터의 발전이 별개의 경로가 아니라 상호 연결되어 있음을 알 수 있다. 한편으로는 더 방대하고 고품질의 데이터가 MLLM의 성능을 향상시키는 데 기여하며, 다른 한편으로는 MLLM이 데이터의 발전을 촉진할 수 있다. 다중 모달 데이터와 MLLM의 공동 발전을 위해서는 1) MLLM의 어떤 발전 단계에서 특정 데이터 중심 접근법을 사용하여 어떤 능력을 강화할 수 있는지, 그리고 2) 어떤 능력을 활용하고 어떤 역할을 수행함으로써 모델이 다중 모달 데이터에 기여할 수 있는지에 대한 명확한 시각이 필요하다. MLLM 커뮤니티를 위한 데이터-모델 공동 발전을 촉진하기 위해, 우리는 데이터-모델 공동 발전 관점에서 MLLM과 관련된 기존 작업을 체계적으로 검토한다. 이 설문과 관련된 정기적으로 유지되는 프로젝트는 https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md에서 접근할 수 있다.
신경망(NN)은 다양한 과제에서 뛰어난 성과를 달성하지만, 해석 가능성, 범주형 특징 지원, 에지 디바이스에 적합한 경량 구현 등 핵심 특성을 갖추지 못하고 있습니다. 이러한 문제를 해결하기 위한 노력이 지속되고 있지만, 그래디언트 부스팅 트리(GBT)는 이러한 요구 사항을 본질적으로 충족합니다. 그 결과, GBT는 많은 실제 애플리케이션과 경쟁에서 지도 학습 과제를 위한 주요 방법으로 자리 잡았습니다. 그러나 온라인 학습 시나리오, 특히 강화 학습(RL)에서의 적용은 제한적이었습니다. 본 연구에서는 GBT의 장점을 RL 영역으로 확장하는 그래디언트 부스팅 RL(GBRL) 프레임워크를 소개하여 이러한 격차를 해소합니다. GBRL 프레임워크를 사용하여 다양한 액터-크리틱 알고리즘을 구현하고, 이를 NN 기반 알고리즘과 성능을 비교합니다. NN의 공유 백본에서 영감을 받아, 정책 및 가치 함수에 대해 서로 다른 학습률을 가진 트리 공유 방식을 도입하여 수백만 번의 상호작용에서 학습 효율성을 향상시킵니다. GBRL은 구조화된 또는 범주형 특징이 있는 영역에서 특히 뛰어난 성능을 보이며, 다양한 과제에서 경쟁력 있는 성과를 달성합니다. 또한, 널리 사용되는 RL 라이브러리와 원활하게 통합되는 고성능 GPU 가속 구현을 제시합니다(https://github.com/NVlabs/gbrl에서 확인 가능). GBRL은 RL 실무자들을 위한 도구를 확장하며, 특히 구조화된 또는 범주형 특징이 있는 영역에서 GBT의 실현 가능성과 잠재력을 입증합니다.
대규모 언어 모델(Large Language Models)은 텍스트와 오디오와 같은 스트리밍 데이터를 생성하는 데 있어 놀라운 효율성을 보여주었는데, 이는 현재 토큰과 이전 토큰 간의 상관관계를 모델링하는 시간적 단방향 어텐션 메커니즘 덕분입니다. 그러나 실시간 비디오 처리에 대한 필요성이 증가함에도 불구하고, 비디오 스트리밍은 여전히 많이 탐구되지 않은 분야로 남아 있습니다. 최첨단 비디오 확산 모델(video diffusion models)은 현재 프레임과 주변(즉, 미래 프레임을 포함한) 모든 프레임 간의 상관관계를 모델링하기 위해 양방향 시간적 어텐션을 활용하는데, 이는 스트리밍 비디오 처리를 방해합니다. 이 문제를 해결하기 위해, 우리는 실시간 스트리밍 비디오 변환을 목표로 하는 단방향 시간적 어텐션을 갖춘 비디오 확산 모델을 설계한 최초의 시도인 Live2Diff를 제안합니다. 기존 연구와 비교하여, 우리의 접근 방식은 미래 프레임 없이 현재 프레임과 그 전 프레임 및 몇 개의 초기 워밍업 프레임 간의 상관관계를 설정함으로써 시간적 일관성과 부드러움을 보장합니다. 또한, 우리는 KV 캐시 메커니즘과 파이프라이닝을 특징으로 하는 고효율 디노이징 기법을 사용하여 인터랙티브 프레임 속도에서 스트리밍 비디오 변환을 용이하게 합니다. 광범위한 실험을 통해 제안된 어텐션 메커니즘과 파이프라인의 효과가 입증되었으며, 시간적 부드러움과/또는 효율성 측면에서 기존 방법들을 능가하는 성능을 보여줍니다.
모션 모델링은 플로우 기반 비디오 프레임 보간(Video Frame Interpolation, VFI)에서 매우 중요합니다. 기존 패러다임은 양방향 플로우의 선형 조합을 고려하거나 주어진 타임스탬프에 대한 양측 플로우를 직접 예측하는 방식으로, 유리한 모션 사전 정보를 탐색하지 않아 실제 비디오에서의 시공간 역학을 효과적으로 모델링하는 능력이 부족했습니다. 이러한 한계를 해결하기 위해, 본 연구에서는 VFI를 위한 새로운 모션 모델링 접근법인 일반화 가능한 암묵적 모션 모델링(Generalizable Implicit Motion Modeling, GIMM)을 제안합니다. 구체적으로, GIMM을 효과적인 모션 모델링 패러다임으로 만들기 위해, 사전 학습된 플로우 추정기에서 추출한 양방향 플로우로부터 시공간 모션 잠재 공간을 모델링하는 모션 인코딩 파이프라인을 설계하여 입력 특정 모션 사전 정보를 효과적으로 표현합니다. 그런 다음, 시공간 좌표와 모션 잠재 공간을 입력으로 사용하여 적응형 좌표 기반 신경망을 통해 두 인접 입력 프레임 사이의 임의의 타임스텝 광학 흐름을 암묵적으로 예측합니다. 우리의 GIMM은 추가 수정 없이 기존의 플로우 기반 VFI 작업과 원활하게 통합될 수 있습니다. 실험 결과, GIMM은 VFI 벤치마크에서 현재 최신 기술보다 더 나은 성능을 보여줍니다.
탑다운(Top-down) 방식의 조감도(Bird's Eye View, BEV) 맵은 지상 로봇 네비게이션에서 풍부한 정보와 다운스트림 작업에 대한 유연성으로 인해 널리 사용되는 표현 방식입니다. 최근 방법론들은 1인칭 시점(First-Person View, FPV) 이미지에서 BEV 맵을 예측하는 데 유망한 결과를 보여주었지만, 이러한 방법론의 일반화 능력은 현재 자율주행 차량 기반 데이터셋이 포착한 작은 지역에 한정되어 있습니다. 이러한 맥락에서, 우리는 두 가지 대규모 크라우드소싱 매핑 플랫폼인 FPV 이미지를 위한 Mapillary와 BEV 시맨틱 맵을 위한 OpenStreetMap을 사용하여 일반화 가능한 맵 예측을 위한 더 확장 가능한 접근 방식을 제시합니다. 우리는 기존 오픈소스 맵 플랫폼에서 라벨링된 맵 예측 데이터를 원활하게 큐레이션하고 모델링할 수 있는 데이터 엔진인 'Map It Anywhere(MIA)'를 소개합니다. MIA 데이터 엔진을 사용하여 다양한 지리적 환경, 풍경, 환경 요인, 카메라 모델 및 촬영 시나리오를 포함하는 120만 쌍의 FPV 이미지와 BEV 맵 데이터셋을 자동으로 수집하는 용이성을 보여줍니다. 또한, 이 데이터를 사용하여 카메라 모델에 구애받지 않는 간단한 모델을 BEV 맵 예측을 위해 학습시킵니다. 기존 벤치마크와 우리의 데이터셋을 사용한 광범위한 평가 결과, MIA가 큐레이션한 데이터는 일반화 가능한 BEV 맵 예측을 위한 효과적인 사전 학습을 가능하게 하며, 제로샷(zero-shot) 성능이 기존 데이터셋으로 학습된 베이스라인을 35%나 능가함을 보여줍니다. 우리의 분석은 대규모 공개 맵을 사용하여 일반화 가능한 BEV 인식을 개발하고 테스트하는 데 있어 그 가능성을 강조하며, 더 견고한 자율 네비게이션을 위한 길을 열어줍니다.
이 관점 논문에서 우리는 인공 일반 지능(AGI)을 향한 중요한 이정표로서 특화된 일반 인공지능(Specialized Generalist Artificial Intelligence, SGAI 또는 간단히 SGI) 개념을 소개한다. 일반적인 능력을 직접 확장하는 것과 비교하여, SGI는 최소한 한 가지 작업에서 인간 전문가를 능가하는 특화 능력을 유지하면서도 일반적인 능력을 보유하는 AI로 정의된다. 이러한 융합 경로는 SGI가 고부가가치 영역을 빠르게 달성할 수 있게 한다. 우리는 전문 기술 숙련도와 일반성 성능 수준에 기반하여 SGI를 세 단계로 분류한다. 또한, 대규모 언어 모델과 관련된 문제들, 즉 불충분한 일반성, 특화된 능력, 혁신의 불확실성, 그리고 실용적 응용 등을 해결하는 데 있어 SGI의 필요성을 논의한다. 더 나아가, 우리는 시스템 1과 시스템 2 인지 처리의 강점을 통합한 SGI 개발을 위한 개념적 프레임워크를 제안한다. 이 프레임워크는 개별 능력 강화와 협력적 진화를 촉진하는 데 초점을 맞춘 세 개의 층과 네 가지 핵심 구성 요소로 이루어져 있다. 마지막으로, 잠재적인 도전 과제를 요약하고 향후 연구 방향을 제안하며, 제안된 SGI가 AGI 달성을 위한 추가 연구와 응용에 통찰을 제공할 수 있기를 기대한다.
3D 장면 재구성 분야는 사실적인 화질로 인해 NeRF(Neural Radiance Fields)가 주도하고 있지만, 최근 3D Gaussian Splatting(3DGS)이 등장하며 실시간 렌더링 속도로 유사한 품질을 제공하고 있습니다. 그러나 두 방법 모두 잘 제어된 3D 장면에서 뛰어난 성능을 보이는 반면, 폐색, 동적 객체, 다양한 조명 등으로 특징지어지는 실제 환경 데이터(in-the-wild data)에서는 여전히 어려움을 겪고 있습니다. NeRF는 이미지별 임베딩 벡터를 통해 이러한 조건에 쉽게 적응할 수 있지만, 3DGS는 명시적 표현과 공유 매개변수의 부재로 인해 어려움을 겪습니다. 이를 해결하기 위해 우리는 3DGS에서 폐색과 외관 변화를 처리하는 새로운 접근법인 WildGaussians를 소개합니다. 강력한 DINO 기능을 활용하고 3DGS 내에 외관 모델링 모듈을 통합함으로써, 우리의 방법은 최첨단 결과를 달성합니다. WildGaussians는 3DGS의 실시간 렌더링 속도를 유지하면서 실제 환경 데이터 처리에서 3DGS와 NeRF 기준선을 모두 능가하며, 간단한 아키텍처 프레임워크 내에서 이를 달성함을 보여줍니다.
우리는 실내외 장면을 위한 3D 정규화 객체 좌표 공간(NOCS) 맵, 객체 마스크, 그리고 3D 바운딩 박스 주석을 포함한 대규모 단안 데이터셋인 OmniNOCS를 제안합니다. OmniNOCS는 기존 NOCS 데이터셋(NOCS-Real275, Wild6D)보다 20배 더 많은 객체 클래스와 200배 더 많은 인스턴스를 포함하고 있습니다. 우리는 OmniNOCS를 사용하여 다양한 클래스에 걸쳐 2D 객체 탐지로부터 정확한 NOCS, 인스턴스 마스크, 그리고 포즈를 예측할 수 있는 새로운 트랜스포머 기반 단안 NOCS 예측 모델(NOCSformer)을 학습시켰습니다. 이는 2D 박스로 프롬프트될 때 광범위한 클래스로 일반화할 수 있는 최초의 NOCS 모델입니다. 우리는 3D 방향 바운딩 박스 예측 작업에서 모델을 평가했으며, Cube R-CNN과 같은 최신 3D 탐지 방법과 비슷한 결과를 달성했습니다. 다른 3D 탐지 방법과 달리, 우리의 모델은 또한 상세하고 정확한 3D 객체 형태와 세분화를 제공합니다. 우리는 OmniNOCS를 기반으로 NOCS 예측 작업을 위한 새로운 벤치마크를 제안하며, 이는 이 분야의 향후 연구에 유용한 기준이 되기를 바랍니다. 우리의 데이터셋과 코드는 프로젝트 웹사이트(https://omninocs.github.io)에서 확인할 수 있습니다.
개인화된 이미지 미적 평가 과제는 단 몇 가지 사용자 입력만으로도 개인의 선호도에 맞춘 미적 점수 예측 모델을 조정하는 것을 목표로 합니다. 그러나 현재 접근법들은 비용이 많이 드는 정제된 데이터베이스에 의존함으로써 확장성과 일반화 능력이 상당히 제한되고 있습니다. 이러한 오랜 확장성 문제를 극복하기 위해, 우리는 일반적인 이미지 미적 평가와 이미지 품질 평가를 위해 쉽게 이용 가능한 데이터베이스를 활용하는 독창적인 접근법을 제시합니다. 구체적으로, 우리는 각 데이터베이스를 개인화 가능성이 다양한 독립적인 이미지 점수 회귀 과제로 간주합니다. 각 데이터베이스의 특정 특성을 나타내는 것으로 알려진 과제 벡터들의 최적 조합을 결정함으로써, 우리는 개인 맞춤형 모델을 성공적으로 생성합니다. 이러한 다중 모델 통합 접근법은 상당한 양의 데이터를 활용할 수 있게 해줍니다. 우리의 광범위한 실험은 이전 접근법들이 달성하기 어려웠던, 이전에 보지 못한 도메인으로의 일반화에서 우리 접근법의 효과성을 입증하며, 이를 실제 시나리오에 매우 적용 가능하게 만듭니다. 우리의 새로운 접근법은 개인화된 미적 평가를 위한 확장 가능한 솔루션을 제공하고 향후 연구를 위한 높은 기준을 설정함으로써 이 분야를 크게 발전시킵니다. https://yeolj00.github.io/personal-projects/personalized-aesthetics/