번역이 포함된 일일 선별된 AI 연구 논문
텍스트나 이미지로부터 몰입적이고 플레이 가능한 3D 세계를 생성하는 것은 컴퓨터 비전과 그래픽스 분야에서 여전히 근본적인 과제로 남아 있습니다. 기존의 세계 생성 접근법은 일반적으로 두 가지 범주로 나뉩니다: 풍부한 다양성을 제공하지만 3D 일관성과 렌더링 효율성이 부족한 비디오 기반 방법과, 기하학적 일관성을 제공하지만 제한된 학습 데이터와 메모리 비효율적인 표현으로 어려움을 겪는 3D 기반 방법입니다. 이러한 한계를 해결하기 위해, 우리는 텍스트와 이미지 조건으로부터 몰입적이고 탐색 가능하며 상호작용 가능한 3D 장면을 생성하기 위해 두 가지 접근법의 장점을 결합한 새로운 프레임워크인 HunyuanWorld 1.0을 제안합니다. 우리의 접근법은 세 가지 주요 장점을 특징으로 합니다: 1) 파노라마 세계 프록시를 통한 360도 몰입형 경험; 2) 기존 컴퓨터 그래픽스 파이프라인과의 원활한 호환성을 위한 메시 내보내기 기능; 3) 향상된 상호작용을 위한 분리된 객체 표현. 우리 프레임워크의 핵심은 파노라마 이미지를 360도 세계 프록시로 활용하여 의미론적으로 계층화된 3D 메시 표현을 통해 다양한 3D 세계를 생성할 수 있도록 하는 의미론적 세계 분해 및 재구성입니다. 광범위한 실험을 통해 우리의 방법이 일관성 있고 탐색 가능하며 상호작용 가능한 3D 세계를 생성하는 데 있어 최첨단 성능을 달성함과 동시에 가상 현실, 물리 시뮬레이션, 게임 개발, 그리고 인터랙티브 콘텐츠 제작 등 다양한 응용 분야에서 활용 가능함을 입증했습니다.
시각적 콘텐츠에 대한 "다음 토큰 예측" 패러다임을 확장하여 이미지 생성과 이해를 위한 통합 접근 방식을 구축하려는 수많은 노력이 이루어져 왔다. 그러나 이산 토큰을 사용한 자기회귀 모델링을 통해 이미지를 생성하려는 시도는 낮은 시각적 충실도, 왜곡된 출력, 복잡한 세부 사항을 렌더링할 때 지시를 따르지 못하는 등의 문제로 인해 어려움을 겪어 왔다. 이러한 단점은 자기회귀 추론 과정에서 누적되는 오류나 이산화 과정에서 발생하는 정보 손실로 인한 것으로 보인다. 이러한 문제로 인해 최근 연구는 통합 모델링 접근 방식에서 벗어나 확산 목표를 사용한 이미지 생성과 자기회귀 목표를 사용한 언어 생성을 함께 훈련하는 방향으로 점점 더 전환되고 있다. 본 연구에서는 강화 학습이 이산 자기회귀 모델링 방법의 아티팩트를 효과적으로 완화하고 생성 품질을 크게 향상시켜 이미지와 언어 생성을 원활하게 통합할 수 있음을 보여준다. 우리의 프레임워크는 의미론적 이미지 토크나이저, 언어와 이미지를 위한 통합 자기회귀 모델, 그리고 이미지 생성을 위한 오프라인 확산 디코더로 구성되며, 이를 X-Omni라고 명명한다. X-Omni는 7B 언어 모델을 사용하여 이미지 생성 작업에서 최첨단 성능을 달성하며, 높은 미적 품질의 이미지를 생성하면서도 지시를 따르고 긴 텍스트를 렌더링하는 데 강력한 능력을 보여준다.
대규모 언어 모델(LLM)이 인상적인 발전을 이루었음에도 불구하고, 화학과 같은 과학 분야에서의 적용은 얕은 도메인 이해와 제한된 추론 능력으로 인해 여전히 어려움을 겪고 있습니다. 본 연구에서는 화학이라는 특정 분야에 초점을 맞추어 화학 추론 LLM인 ChemDFM-R을 개발합니다. 먼저, 모델이 화학의 기본 원리와 논리적 구조를 더 잘 이해할 수 있도록 원자화된 지식 포인트로 구성된 포괄적인 데이터셋을 구축합니다. 그런 다음, 전문가가 선별한 지식과 일반 도메인 추론 능력을 통합한 혼합 소스 증류 전략을 제안하고, 이를 화학 추론을 강화하기 위한 도메인 특화 강화 학습으로 이어갑니다. 다양한 화학 벤치마크에서의 실험 결과, ChemDFM-R은 최첨단 성능을 달성하면서도 해석 가능하고 근거 기반의 출력을 제공함을 보여줍니다. 추가 사례 연구를 통해 명시적인 추론 체인이 실제 인간-AI 협업 시나리오에서 모델의 신뢰성, 투명성 및 실용성을 크게 향상시키는 방식을 설명합니다.
대형 언어 모델(Large Language Models)의 급속한 발전으로 인한 GPU 컴퓨팅 자원에 대한 수요의 기하급수적 증가는 자동화된 CUDA 최적화 전략의 시급한 필요성을 야기했습니다. 최근 LLM의 발전이 코드 생성에 있어 유망한 가능성을 보여주고 있지만, 현재 최첨단 모델들(예: R1, o1)은 CUDA 속도 개선에 있어 낮은 성공률을 보이고 있습니다. 본 논문에서는 CUDA 최적화를 위한 자동화된 강화 학습 프레임워크인 CUDA-L1을 소개합니다. CUDA-L1은 CUDA 최적화 작업에서 성능 개선을 달성했습니다: NVIDIA A100에서 학습된 이 모델은 KernelBench의 250개 CUDA 커널 전반에 걸쳐 평균 17.7배의 속도 향상을 보였으며, 최대 449배의 속도 향상을 기록했습니다. 또한, 이 모델은 GPU 아키텍처 간 우수한 이식성을 보여주었는데, A100에 특화되어 최적화되었음에도 H100에서 평균 17.8배, RTX 3090에서 19.0배, L40에서 16.5배, H800에서 14.7배, H20에서 13.9배의 속도 향상을 달성했습니다. 이러한 벤치마크 결과를 넘어, CUDA-L1은 다음과 같은 주목할 만한 특성을 보여줍니다: 1) 다양한 CUDA 최적화 기법을 발견하고 이를 전략적으로 결합하여 최적의 성능을 달성함; 2) CUDA 최적화의 근본적인 원리를 발견함; 3) 명백하지 않은 성능 병목 현상을 식별하고, 성능을 저해하는 겉보기에는 유익해 보이는 최적화를 거부함. CUDA-L1의 능력은 강화 학습이 초기에 낮은 성능을 보이는 LLM을 인간 전문가나 도메인 지식 없이 속도 향상 기반 보상 신호만으로 효과적인 CUDA 최적화 도구로 변모시킬 수 있음을 보여줍니다. 더 중요한 것은, 학습된 RL 모델이 획득한 추론 능력을 새로운 커널에까지 확장할 수 있다는 점입니다. 이러한 패러다임은 CUDA 연산의 자동화된 최적화 가능성을 열어주며, GPU 효율성을 크게 증진시키고 GPU 컴퓨팅 자원에 대한 증가하는 압박을 완화할 수 있는 잠재력을 가지고 있습니다.
뇌-컴퓨터 인터페이스(BCI)는 뇌와 외부 장치 간의 직접적인 통신을 가능하게 합니다. 최근의 EEG 기반 모델들은 다양한 BCI 패러다임에 걸쳐 일반화된 표현을 학습하는 것을 목표로 합니다. 그러나 이러한 접근 방식은 패러다임별로 고유한 신경생리학적 차이를 간과하여 일반화 능력을 제한합니다. 특히, 실제 BCI 적용에서는 뇌졸중 재활이나 보조 로봇공학을 위한 운동 상상(MI)과 같은 특정 패러다임이 일반적으로 데이터 수집 전에 결정됩니다. 본 논문은 MI 패러다임에 맞춰 설계된 첫 번째 EEG 기반 모델인 MIRepNet을 제안합니다. MIRepNet은 임의의 전극 구성으로 EEG 헤드셋에 적용 가능한 신경생리학적 정보를 반영한 채널 템플릿을 포함한 고품질 EEG 전처리 파이프라인으로 구성됩니다. 또한, 자기 지도 학습 방식의 마스크된 토큰 재구성과 지도 학습 방식의 MI 분류를 결합한 하이브리드 사전 학습 전략을 도입하여, 클래스당 30회 미만의 시행으로도 새로운 하류 MI 작업에 대한 빠른 적응과 정확한 디코딩을 가능하게 합니다. 5개의 공개 MI 데이터셋에 대한 광범위한 평가 결과, MIRepNet은 특화된 EEG 모델과 일반화된 EEG 모델 모두를 크게 능가하며, 지속적으로 최첨단 성능을 달성함을 입증했습니다. 우리의 코드는 GitHub(https://github.com/staraink/MIRepNet)에서 공개될 예정입니다.
사용자를 대신하는 대규모 언어 모델(LLM) 시대가 전개됨에 따라, 선호도 최적화(Preference Optimization, PO) 방법은 LLM을 인간의 선호도에 맞추고 성능을 개선하기 위한 핵심 접근법으로 자리 잡았습니다. 우리는 사전 보상 지식을 명시적으로 최적화 목표에 통합하는 선호도 학습 프레임워크인 최대사후확률 선호도 최적화(Maximum a Posteriori Preference Optimization, MaPPO)를 제안합니다. 기존의 직접 선호도 최적화(Direct Preference Optimization, DPO) 및 그 변형 방법들이 선호도 학습을 최대우도추정(Maximum Likelihood Estimation, MLE) 문제로 다루는 반면, MaPPO는 이 패러다임을 확장하여 사전 보상 추정치를 체계적인 최대사후확률(Maximum a Posteriori, MaP) 목표에 통합합니다. 이는 DPO와 그 변형 방법들을 일반화할 뿐만 아니라, 응답의 지나치게 단순화된 이진 분류를 완화함으로써 정렬 성능을 향상시킵니다. 더 중요한 것은, MaPPO는 추가적인 하이퍼파라미터를 도입하지 않으며, 오프라인 및 온라인 설정 모두에서 선호도 최적화를 지원한다는 점입니다. 또한, MaPPO는 널리 사용되는 SimPO, IPO, CPO를 포함한 DPO 변형 방법들에 일관된 개선을 제공하는 플러그인으로 사용될 수 있습니다. MT-Bench, AlpacaEval 2.0, Arena-Hard를 포함한 세 가지 표준 벤치마크에서 다양한 모델 크기와 모델 시리즈에 대한 광범위한 실험 평가를 통해, 계산 효율성을 희생하지 않으면서도 정렬 성능의 일관된 개선을 입증했습니다.
야생동물 관찰은 생물다양성 보전에 중요한 역할을 하며, 야생동물 개체군 및 종간 상호작용을 모니터링하기 위한 견고한 방법론이 필요합니다. 최근 컴퓨터 비전의 발전은 동물 탐지 및 종 식별과 같은 기본적인 야생동물 관찰 작업의 자동화에 크게 기여해 왔습니다. 그러나 발자국이나 배설물과 같은 간접적 증거로부터 종을 정확하게 식별하는 것은 야생동물 모니터링에 기여하는 데 중요함에도 불구하고 상대적으로 덜 탐구된 분야로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 간접적 증거 이미지로부터 종을 식별하기 위한 첫 번째 대규모 데이터셋인 AnimalClue를 소개합니다. 우리의 데이터셋은 발자국, 배설물, 알, 뼈, 깃털 등 다섯 가지 범주의 간접적 단서를 포함하는 159,605개의 바운딩 박스로 구성되어 있습니다. 이 데이터셋은 968종, 200과, 65목을 포괄합니다. 각 이미지는 종 수준의 라벨, 바운딩 박스 또는 세그멘테이션 마스크, 그리고 활동 패턴 및 서식지 선호도와 같은 세부적인 특성 정보로 주석 처리되어 있습니다. 기존의 데이터셋이 주로 동물의 외형과 같은 직접적인 시각적 특징에 초점을 맞추고 있는 반면, AnimalClue는 더 세밀하고 미묘한 시각적 특징을 인식해야 하는 분류, 탐지, 인스턴스 세그멘테이션 작업에 있어 독특한 도전 과제를 제시합니다. 우리의 실험에서는 대표적인 비전 모델을 광범위하게 평가하고, 동물의 흔적로부터 종을 식별하는 데 있어 주요 도전 과제를 식별했습니다. 우리의 데이터셋과 코드는 https://dahlian00.github.io/AnimalCluePage/에서 확인할 수 있습니다.
본 연구는 동일한 움직임 패턴을 가진 소수의 주석 예제를 기반으로 동영상 내 동적 객체를 분할하는 것을 목표로 하는 움직임 기반 소수 샷 비디오 객체 분할(FSVOS)을 다룹니다. 기존의 FSVOS 데이터셋과 방법론은 일반적으로 객체 카테고리에 초점을 맞추며, 이는 동영상의 풍부한 시간적 동역학을 무시하는 정적 속성으로, 움직임 이해가 필요한 시나리오에서의 적용을 제한합니다. 이러한 격차를 메우기 위해, 우리는 움직임 기반 FSVOS를 위해 특별히 설계된 대규모 데이터셋인 MOVE를 소개합니다. MOVE를 기반으로, 우리는 2가지 실험 설정에서 3개의 관련 작업에서 6개의 최신 방법론을 종합적으로 평가합니다. 우리의 결과는 현재의 방법론들이 움직임 기반 FSVOS를 해결하는 데 어려움을 겪고 있음을 보여주며, 이와 관련된 도전 과제를 분석하고 기반 방법론인 Decoupled Motion Appearance Network(DMA)를 제안합니다. 실험 결과, 우리의 접근 방식은 소수 샷 움직임 이해에서 우수한 성능을 달성하며, 이 방향의 향후 연구를 위한 견고한 기반을 마련합니다.
최근 멀티모달 대형 언어 모델(MLLMs)은 시각-언어 작업에서 상당한 발전을 이루었으나, 잠재적으로 유해하거나 신뢰할 수 없는 콘텐츠를 생성할 가능성이 있다. 언어 모델의 신뢰성을 조사한 연구는 많지만, 특히 시각적으로 답변할 수 없는 질문에 직면했을 때 MMLMs의 정직한 행동 능력은 여전히 크게 탐구되지 않고 있다. 본 연구는 다양한 MLLMs의 정직성 행동에 대한 첫 번째 체계적인 평가를 제시한다. 우리는 모델이 답변할 수 없는 시각적 질문에 대한 응답 행동에서 정직성을 정의하고, 이러한 질문의 네 가지 대표 유형을 정의하며, 12,000개 이상의 시각적 질문 샘플로 구성된 대규모 MMLM 정직성 벤치마크인 MoHoBench를 구축했다. 이 벤치마크의 품질은 다단계 필터링과 인간 검증을 통해 보장되었다. MoHoBench를 사용하여 우리는 28개의 인기 있는 MMLMs의 정직성을 벤치마킹하고 포괄적인 분석을 수행했다. 우리의 연구 결과는 다음과 같다: (1) 대부분의 모델이 필요할 때 적절히 답변을 거부하지 못하며, (2) MMLMs의 정직성은 단순히 언어 모델링 문제가 아니라 시각적 정보에 깊이 영향을 받아, 멀티모달 정직성 정렬을 위한 전용 방법의 개발이 필요하다. 따라서 우리는 정직성 행동을 개선하기 위해 지도 학습과 선호 학습을 사용한 초기 정렬 방법을 구현했으며, 이는 신뢰할 수 있는 MLLMs에 대한 향후 연구의 기초를 제공한다. 우리의 데이터와 코드는 https://github.com/DSTTSD/MoHoBench에서 확인할 수 있다.
아프리카의 야생동물 개체군은 심각한 위협에 직면해 있으며, 지난 50년 동안 척추동물의 수가 65% 이상 감소했다. 이에 대응하여 딥러닝을 활용한 이미지 분류 기술이 생물다양성 모니터링 및 보존을 위한 유망한 도구로 부상하고 있다. 본 논문은 아프리카 야생동물 이미지를 자동으로 분류하기 위한 딥러닝 모델의 비교 연구를 제시하며, 고정된 특징 추출기를 사용한 전이 학습에 초점을 맞춘다. 버팔로, 코끼리, 코뿔소, 얼룩말 등 네 종의 공개 데이터셋을 사용하여 DenseNet-201, ResNet-152, EfficientNet-B4, Vision Transformer ViT-H/14의 성능을 평가했다. DenseNet-201은 합성곱 신경망 중에서 가장 우수한 성능(67% 정확도)을 보였으며, ViT-H/14는 전체적으로 가장 높은 정확도(99%)를 달성했지만, 상당히 높은 계산 비용으로 인해 배포에 대한 우려가 제기되었다. 본 실험은 정확도, 자원 요구 사항, 배포 가능성 간의 상충 관계를 강조한다. 가장 우수한 성능을 보인 CNN(DenseNet-201)은 실시간 현장 사용을 위해 Hugging Face Gradio Space에 통합되었으며, 경량 모델을 보존 환경에 배포하는 것이 가능함을 입증했다. 이 연구는 모델 선택, 데이터셋 준비, 야생동물 보존을 위한 딥러닝 도구의 책임 있는 배포에 대한 실질적인 통찰을 제공함으로써 아프리카 기반의 AI 연구에 기여한다.