번역이 포함된 일일 선별된 AI 연구 논문
벤치마크는 대규모 언어 모델(LLM) 능력의 급속한 발전을 추적하는 중요한 도구입니다. 그러나 벤치마크는 난이도에서 발전에 미치지 못하고 있습니다: LLM은 현재 MMLU와 같은 인기 있는 벤치마크에서 90% 이상의 정확도를 달성하며, 최신 LLM 능력의 측정에 제한을 가하고 있습니다. 이에 우리는 인류의 마지막 시험(HLE)을 소개합니다. 이는 인류의 지식의 최전선에 위치한 다중 모달 벤치마크로, 폭넓은 주제를 다루는 종결적인 폐쇄형 학술 벤치마크로 설계되었습니다. HLE는 수학, 인문학, 자연과학을 포함한 수십 개의 주제를 다루는 3,000개의 문제로 구성되어 있습니다. HLE는 전 세계의 주제 전문가들에 의해 개발되었으며, 자동 채점에 적합한 객관식과 단답형 문제로 구성되어 있습니다. 각 문제에는 명확하고 쉽게 검증 가능한 알려진 해결책이 있지만, 인터넷 검색을 통해 빠르게 답할 수는 없습니다. 최신 LLM은 HLE에서 낮은 정확도와 보정을 보여주며, 폐쇄형 학술 문제에 대한 현재 LLM 능력과 전문가 수준의 인간의 차이를 강조합니다. 모델 능력에 대한 명확한 이해를 바탕으로 연구와 정책 결정을 지원하기 위해, 우리는 HLE을 https://lastexam.ai에서 공개하였습니다.
본 논문은 최종 답변을 생성하기 전에 관련 정보를 단계별로 검색하고 추론하는 o1과 유사한 RAG 모델을 훈련하는 방법을 소개합니다. 기존 RAG 방법은 일반적으로 생성 프로세스 이전에 단일 검색 단계를 수행하는데, 이는 불완전한 검색 결과로 인해 복잡한 쿼리를 처리하는 데 효과적이지 못합니다. 대조적으로, 우리의 제안된 방법인 CoRAG (Chain-of-Retrieval Augmented Generation)은 모델이 진화하는 상태에 기반하여 쿼리를 동적으로 재정의할 수 있도록 합니다. CoRAG를 효과적으로 훈련하기 위해 우리는 거절 샘플링을 활용하여 중간 검색 체인을 자동으로 생성하여, 올바른 최종 답변만 제공하는 기존 RAG 데이터셋을 보강합니다. 시험 시간에는 모델의 시험 시간 계산을 조절하기 위해 다양한 디코딩 전략을 제안하여 검색된 체인의 길이와 수를 제어합니다. 다양한 벤치마크를 통한 실험 결과는 CoRAG의 효능을 검증하며, 특히 다중 점프 질문 응답 작업에서 강력한 기준선과 비교하여 EM 점수에서 10점 이상의 향상을 관찰합니다. KILT 벤치마크에서 CoRAG는 지식 중심 작업의 다양한 범위에서 새로운 최고 성능을 확립합니다. 더 나아가, CoRAG의 확장 동작을 이해하기 위한 포괄적인 분석을 제공하여 사실적이고 근거 있는 기초 모델 개발을 목표로 한 미래 연구를 위한 기초를 마련합니다.
크리티크는 대형 언어 모델(LLMs)의 성능을 향상시키는 데 중요하며, 결함을 식별하고 개선을 제안함으로써 자가 개선과 다른 이들에게 건설적인 피드백을 가능하게 합니다. 그러나 LLMs의 크리티크 능력을 평가하는 것은 열린 문제의 본질 때문에 상당한 어려움을 겪습니다. 본 연구에서는 LLMs의 크리티크 능력을 평가하기 위해 설계된 새로운 벤치마크를 소개합니다. 기존의 벤치마크와는 달리 일반적으로 개방 루프 방식으로 작동하는 접근과는 달리, 우리의 방법론은 크리티크에서 생성된 수정의 품질을 평가하는 폐쇄 루프 방법론을 사용합니다. 더불어, 이 벤치마크는 자가 크리티크, 교차 크리티크, 반복적 크리티크와 같은 기능을 통합하여 고급 추론 모델의 능력을 전통적인 모델과 구별하는 데 중요합니다. 우리는 이 벤치마크를 8가지 어려운 추론 작업을 사용하여 구현했습니다. 몇 가지 흥미로운 결과를 얻었습니다. 첫째, 직접적인 사고 체인 생성에서 유사한 성능을 보이지만, 전통적 LLMs는 모든 크리티크 시나리오에서 고급 추론 기반 모델 o1-mini에 크게 뒤처지는 것으로 나타났습니다. 둘째, 자가 크리티크와 반복적 크리티크 설정에서 전통적 LLMs는 기본 능력에 비해 심지어 성능이 떨어질 수 있습니다. 이 벤치마크가 향후 발전을 이끌어낼 소중한 자원으로 기대합니다. 코드와 데이터는 https://github.com/tangzhy/RealCritic에서 사용할 수 있습니다.
다중 모달리티 대규모 언어 모델(MLLMs)의 빠른 반복과 분야의 진화하는 요구에 따라 매년 생산되는 벤치마크 수가 수백 개로 급증했습니다. 이 신속한 성장은 불가피하게 벤치마크 사이에 상당한 중복을 야기했습니다. 따라서 현재의 중복 상태를 비평적으로 평가하고 효과적인 MLLM 벤치마크를 구축하기 위한 목표 지침을 제안하는 것이 중요합니다. 본 논문에서는 세 가지 주요 관점에서 중복에 초점을 맞춥니다: 1) 벤치마크 능력 차원의 중복, 2) 테스트 질문 수의 중복, 그리고 3) 특정 도메인 내에서의 벤치마크 간 중복. 20개 이상의 벤치마크를 통해 수백 개의 MLLM의 성능을 종합적으로 분석함으로써 기존 MLLM 평가에서의 중복 수준을 정량적으로 측정하고, 미래 MLLM 벤치마크의 발전을 안내하는 가치 있는 통찰을 제공하며, 중복 문제를 정제하고 대응하는 전략을 효과적으로 제시하고자 합니다.
만약 인공지능이 훈련을 받은 문제뿐만 아니라 새로운 문제를 해결하기 위해 스스로 가르치는 학습(meta-learn)을 할 수 있다면 어떨까요? 본 연구에서는 강화 학습을 통해 세밀하게 조정된 사전 훈련된 트랜스포머가 여러 에피소드에 걸쳐 발전하여 이전에 접하지 못한 문제를 해결하는 능력을 발달시키는 것을 증명합니다 - 이를 'In-Context Reinforcement Learning (ICRL)'이라고 하는 신생능력입니다. 이 강력한 메타-러너는 보이지 않는 인-분포 환경에서 뛌륭한 샘플 효율성으로 높은 성능을 보이는데 그치지 않고, 아웃-오브-분포 환경에서도 강한 성능을 보여줍니다. 더불어, 훈련 데이터의 품질에 대한 견고성을 보여주며, 문맥에서 행동을 매끄럽게 결합하고, 비정상적인 환경에 적응하는 것을 보여줍니다. 이러한 행동들은 강화 학습을 받은 트랜스포머가 자체 해결책을 반복적으로 개선할 수 있음을 보여주며, 이를 통해 우수한 일반적인 문제 해결자가 될 수 있음을 입증합니다.
우리는 Relightable Full-Body Gaussian Codec Avatars를 제안합니다. 이는 얼굴과 손을 포함한 세밀한 세부 사항을 가진 relightable full-body 아바타를 모델링하기 위한 새로운 접근 방식입니다. relightable full-body 아바타를 위한 독특한 도전 과제는 몸의 관절 운동에 의한 큰 변형과 이로 인한 빛 전달에 의한 외관 변화에 있습니다. 몸의 자세 변화는 몸의 표면이 빛에 대해 방향을 크게 변경하게 하며, 결과적으로 국소 빛 전달 함수의 변경으로 인한 지역적 외관 변화와 몸의 부분 간 가려짐으로 인한 비지역적 변화가 발생합니다. 이를 해결하기 위해 우리는 빛 전달을 국소 및 비지역적 효과로 분해합니다. 국소적 외관 변화는 확산 방사 전송을 위한 학습 가능한 존 알몬드를 사용하여 모델링됩니다. 구 형 알몬드와 달리, 존 알몬드는 관절 운동 아래에서 회전이 매우 효율적입니다. 이를 통해 우리는 지역 좌표 프레임에서 확산 방사 전송을 학습할 수 있으며, 이는 지역 방사 전송을 몸의 관절 운동에서 분리합니다. 비지역적 외관 변화를 고려하기 위해 사전 계산된 기본 메시 위에 들어오는 입사 복사로 그림자를 예측하는 그림자 네트워크를 도입합니다. 이는 몸의 부분 간 비지역적 그림자를 학습하는 데 도움이 됩니다. 마지막으로 우리는 반사 방사 전송을 모델링하고 눈 반짝임과 같은 반사와 강조를 더 잘 포착하기 위해 지연 쉐이딩 접근 방식을 사용합니다. 우리의 접근 방식이 relightable full-body 아바타에 필요한 지역 및 비지역 빛 전달을 성공적으로 모델링하며, 새로운 조명 조건 및 보이지 않는 자세에서도 우수한 일반화 능력을 갖는 것을 시연합니다.
의료 시스템은 지속적으로 방대한 양의 전자 건강 기록(EHRs)을 생성하며, 이는 일반적으로 Fast Healthcare Interoperability Resources (FHIR) 표준에 저장됩니다. 이러한 기록에는 다양한 정보가 포함되어 있지만, 그 복잡성과 양 때문에 사용자들이 중요한 건강 정보를 검색하고 해석하기 어렵습니다. 최근 대형 언어 모델(LLMs)의 발전은 의료 데이터에 대한 의미론적 질문 응답(QA)을 가능하게 하여 사용자들이 건강 기록과 보다 효과적으로 상호 작용할 수 있도록 합니다. 그러나 개인 정보 보호와 규정 준수를 보장하기 위해서는 LLMs의 엣지 및 개인 배포가 필요합니다. 본 논문은 사용자 쿼리(Task1)에 가장 관련성 높은 FHIR 리소스를 먼저 식별하고, 이러한 리소스를 기반으로 쿼리에 답변하는 새로운 의미론적 QA 접근 방식을 제안합니다(Task2). 우리는 프라이빗하게 호스팅된, 세밀하게 튜닝된 LLMs의 성능을 탐구하며, GPT-4 및 GPT-4o와 같은 벤치마크 모델과 비교합니다. 우리의 결과는 세밀하게 튜닝된 LLMs가 크기면에서 250배 작지만, Task1의 F1 점수에서 GPT-4 패밀리 모델을 0.55% 능가하고, Task2의 Meteor Task에서 42% 우수함을 입증합니다. 더불어, 순차적 세밀 튜닝, 모델 자가 평가(나르시시즘 평가), 그리고 훈련 데이터 크기가 성능에 미치는 영향과 같은 LLM 사용의 고급 측면을 조사합니다. 모델 및 데이터셋은 여기에서 확인할 수 있습니다: https://huggingface.co/genloop
최근 대형 다중 모달 모델(LMMs)의 발전은 세밀한 그라운딩을 시각 이해와 대화의 필수적인 요소로 인식했습니다. 그러나 이러한 표현의 장점은 LMMs에서 자연 이미지 영역으로 제한되어 있으며, 이러한 모델들은 원격 감지(RS)에 대해 성능이 저하됩니다. 고해상도 RS 이미지에서의 독특한 도상 시점, 스케일 변화, 그리고 작은 물체의 존재는 영역 수준 이해에서 독특한 도전을 제시합니다. 게다가 RS 내에서 LMMs의 그라운딩 대화 능력의 발전은 세밀하고 RS 도메인 특정한 그라운딩 데이터 부족으로 방해받고 있습니다. 이러한 한계를 해결하기 위해, 우리는 GeoPixel을 제안합니다 - 픽셀 수준 그라운딩을 지원하는 최초의 엔드 투 엔드 고해상도 RS-LMM입니다. 이 능력은 대화에서 교차된 마스크를 생성함으로써 세밀한 시각 지각을 가능하게 합니다. GeoPixel은 어떠한 종횡비에서도 4K HD 해상도를 지원하며, 고정밀 RS 이미지 분석에 이상적입니다. RS 이미지에서 그라운딩 대화 생성(GCG)을 지원하기 위해, 우리는 RS 데이터에 특화된 시각적으로 그라운딩된 데이터셋 GeoPixelD를 세밀하게 조절된 데이터 생성 과정을 위해 RS 데이터에 맞춘 마크 세트 프롬프팅과 공간 사전을 활용하는 반자동화된 파이프라인을 통해 선별합니다. GeoPixel은 픽셀 수준 이해에서 우수한 성능을 보여주며, 단일 대상 및 다중 대상 분할 작업에서 기존 LMMs를 능가합니다. 우리의 방법론적 소거 연구는 전체 아키텍처에서 각 구성 요소의 효과를 검증합니다. 우리의 코드와 데이터는 공개적으로 공개될 것입니다.
비전 기반 모델, 특히 ViT 패밀리는 풍부한 의미적 특징을 제공하여 이미지 이해를 혁신적으로 바꿨다. 그러나 2D 이해에서의 성공에도 불구하고, 이러한 모델들이 3D 공간 관계를 파악하는 능력은 여전히 명확하지 않다. 본 연구에서는 ViT 기반 모델의 3D 인식을 평가하고 향상시킨다. 먼저, 이러한 모델들이 3D 동질 특징을 학습하는 능력을 체계적으로 평가하며, 특히 다양한 시각에서 의미 임베딩의 일관성을 조사한다. 우리의 연구 결과는 개선된 3D 동질성이 자세 추정, 추적 및 의미 전이를 포함한 다양한 하향 작업에서 더 나은 성능을 이끌어낸다는 것을 보여준다. 이 통찰력을 기반으로, 우리는 3D 대응을 획기적으로 향상시키는 간단하면서 효과적인 3D 대응 기반의 세밀 조정 전략을 제안한다. 놀랍게도, 하나의 객체에 대해 단 한 번의 반복적인 세밀 조정조차도 상당한 성능 향상을 가져온다. 모든 코드와 자원은 3D 인식 비전 모델의 추가 발전을 지원하기 위해 공개적으로 제공될 것이다. 우리의 코드는 https://github.com/qq456cvb/3DCorrEnhance에서 이용 가능하다.
가상 시착(VTON) 기술은 이미지와 비디오의 현실적인 의류 시각화를 가능하게 함으로써 온라인 소매를 변화시킬 잠재력으로 인해 주목을 받고 있습니다. 그러나 대부분의 기존 방법은 특히 긴 비디오 시나리오에서 고품질 결과를 달성하기 어려워합니다. 본 연구에서는 이미지 및 비디오 시착 작업에서 단일 확산 트랜스포머 모델을 지원하는 간단하고 효과적인 시각 기반 가상 시착(V2TON) 방법인 CatV2TON을 소개합니다. 의류와 사람 입력을 시간적으로 연결하고 이미지 및 비디오 데이터셋의 혼합으로 훈련함으로써 CatV2TON은 정적 및 동적 환경에서 견고한 시착 성능을 달성합니다. 효율적인 긴 비디오 생성을 위해 순차 프레임 가이드 및 적응 클립 정규화(AdaCN)를 사용하는 중첩 클립 기반 추론 전략을 제안합니다. 또한 향상된 시간적 일관성을 위해 후면 프레임을 필터링하고 3D 마스크 스무딩을 적용하여 달성된 ViViD-S라는 정제된 비디오 시착 데이터셋을 제시합니다. 포괄적인 실험은 CatV2TON이 이미지 및 비디오 시착 작업에서 기존 방법을 능가하며 다양한 시나리오에서 현실적인 가상 시착을 위한 다재다능하고 신뢰할 수 있는 솔루션을 제공함을 입증합니다.
이미지 획득 과정에서는 잡음, 안개, 비 등 다양한 형태의 저하가 빈번히 발생합니다. 이러한 저하는 일반적으로 카메라의 내재적 한계나 불리한 주변 조건에서 비롯됩니다. 저하된 버전에서 깨끗한 이미지를 복원하기 위해 여러 특화된 복원 방법이 개발되었는데, 각각은 특정 유형의 저하를 대상으로 합니다. 최근에는 모든 유형의 저하를 하나의 모델 내에서 다루어 입력 저하 유형의 사전 정보가 필요하지 않도록 하는 올인원 알고리즘들이 큰 관심을 받고 있습니다. 그러나 이러한 방법들은 순전히 공간 영역에서만 작동하며 다른 저하 유형에 내재된 고유한 주파수 변동에 대해 탐구하지 않습니다. 이 간극을 해결하기 위해 주파수 채굴과 변조에 기반한 적응형 올인원 이미지 복원 네트워크를 제안합니다. 우리의 접근 방식은 서로 다른 저하 유형이 이미지 콘텐츠에 서로 다른 주파수 서브밴드에 영향을 미치므로 각 복원 작업에 대해 다른 처리가 필요하다는 관찰에서 출발합니다. 구체적으로, 먼저 저하된 이미지의 적응적으로 분리된 스펙트라에 안내되는 입력 특징에서 저주파 및 고주파 정보를 채굴합니다. 추출된 특징은 다른 주파수 구성 요소 간의 상호 작용을 용이하게 하기 위해 양방향 연산자에 의해 변조됩니다. 마지막으로, 변조된 특징은 원래 입력에 병합되어 점진적으로 안내되는 복원이 이루어집니다. 이 접근 방식을 통해 모델은 다른 입력 저하에 따라 정보 전달 주파수 서브밴드를 강조함으로써 적응적 재구성을 달성합니다. 광범위한 실험을 통해 제안된 방법이 소음 제거, 안개 제거, 비 제거, 모션 흐림 제거 및 저조도 이미지 향상을 포함한 다양한 이미지 복원 작업에서 최첨단 성능을 달성한다는 것을 입증합니다. 우리의 코드는 https://github.com/c-yn/AdaIR에서 사용할 수 있습니다.
학습 기반 이미지 복원 방법은 상당한 진전을 이루었지만, 합성 데이터로 훈련되어 발생하는 심각한 도메인 갭으로 실제 세계 시나리오에 대한 한정된 일반화로 인해 여전히 어려움을 겪고 있습니다. 기존 방법은 데이터 합성 파이프라인 개선, 저하 커널 추정, 심층 내부 학습 적용, 도메인 적응 및 정규화를 통해 이 문제에 대처합니다. 이전 도메인 적응 방법은 특징 공간이나 픽셀 공간에서 도메인에 불변한 지식을 학습하여 도메인 갭을 줄이려고 했습니다. 그러나 이러한 기술은 종종 안정적이고 간결한 프레임워크 내에서 저수준 비전 작업으로 확장하는 데 어려움을 겪습니다. 본 논문에서는 확산 모델을 사용하여 잡음 공간을 통해 도메인 적응을 수행할 수 있다는 것을 보여줍니다. 특히, 보조 조건 입력이 다단계 제거 과정에 어떻게 영향을 미치는 독특한 특성을 활용하여, 복원 모델을 안내하는 의미 있는 확산 손실을 유도합니다. 이를 통해 복원된 합성 및 실제 세계 출력을 대상 깨끗한 분포에 점진적으로 일치시키는 방법을 제시합니다. 이 방법을 '적응으로의 제거'라고 합니다. 공동 훈련 중 단축키를 방지하기 위해 채널 섞기 레이어 및 잔차 교환 대조 학습과 같은 중요한 전략을 확산 모델에서 제시합니다. 이러한 전략은 조건이 붙은 합성 및 실제 데이터 사이의 경계를 흐리게 하고 모델이 쉽게 식별 가능한 특징에 의존하는 것을 방지합니다. 잡음 제거, 흐림 제거 및 비오는 것 제거와 같은 세 가지 고전적 이미지 복원 작업에 대한 실험 결과는 제안된 방법의 효과를 입증합니다.