번역이 포함된 일일 선별된 AI 연구 논문
우리는 대규모 언어 모델(LLM) 내 다양한 관점을 활용하여 다양한 합성 데이터를 생성하는 새로운 페르소나 기반 데이터 합성 방법론을 제안한다. 이 방법론을 대규모로 효과적으로 활용하기 위해, 웹 데이터에서 자동으로 수집된 10억 개의 다양한 페르소나로 구성된 '페르소나 허브(Persona Hub)'를 소개한다. 이 10억 개의 페르소나(전 세계 인구의 약 13%)는 세계 지식의 분산된 담지자 역할을 하며, LLM 내에 담긴 거의 모든 관점을 활용할 수 있어 다양한 시나리오에서 대규모로 다양한 합성 데이터를 생성하는 것을 가능하게 한다. 페르소나 허브가 고품질의 수학적 및 논리적 추론 문제, 명령어(즉, 사용자 프롬프트), 지식이 풍부한 텍스트, 게임 NPC 및 도구(함수)를 대규모로 합성하는 데 활용된 사례를 통해, 페르소나 기반 데이터 합성이 다재다능하고 확장 가능하며 유연하고 사용하기 쉬운 방법임을 입증한다. 이는 합성 데이터 생성과 실제 응용 분야에서 패러다임 전환을 이끌어낼 잠재력을 가지며, LLM 연구 및 개발에 깊은 영향을 미칠 수 있다.
GPT-4V와 같은 다중모달 대형 언어 모델(MLLMs)의 급속한 발전은 상당한 진전을 이끌어냈습니다. 그러나 이러한 모델들은 여전히 의료 다중모달 능력에서 한계를 겪고 있는데, 이는 데이터 프라이버시 문제와 높은 주석 비용으로 인해 의료 시각-텍스트 데이터의 양과 질이 제한적이기 때문입니다. 선구적인 접근법들은 이러한 한계를 해결하기 위해 PubMed의 대규모, 비식별화된 의료 이미지-텍스트 쌍을 활용하지만, 여전히 내재된 데이터 노이즈로 인해 부족함을 보입니다. 이를 해결하기 위해 우리는 PubMed의 의료 이미지-텍스트 쌍을 정제하고 MLLMs(GPT-4V)를 '비블라인드' 방식으로 활용하여 데이터의 노이즈를 제거하고 재구성함으로써 130만 개의 의료 VQA 샘플로 구성된 PubMedVision 데이터셋을 생성했습니다. 우리의 검증 결과는 다음과 같습니다: (1) PubMedVision은 현재 MLLMs의 의료 다중모달 능력을 크게 향상시킬 수 있으며, MMMU Health & Medicine 트랙을 포함한 벤치마크에서 상당한 개선을 보여줍니다; (2) 의료 전문가들의 수동 검사와 실험 결과는 우리의 데이터셋이 다른 데이터 구축 방법들에 비해 우수한 데이터 품질을 가지고 있음을 입증합니다. PubMedVision을 사용하여 우리는 34B 의료 MLLM인 HuatuoGPT-Vision을 학습시켰으며, 이는 오픈소스 MLLMs 중에서 의료 다중모달 시나리오에서 우수한 성능을 보여줍니다.
대규모 언어 모델(LLM) 분야에서 지식 증류(Knowledge Distillation, KD)는 교사 모델의 능력을 학생 모델로 전이하는 핵심 기술입니다. 그러나 기존의 KD 방법들은 LLM 증류 과정에서 효율성 문제와 전통적인 KL 발산(Kullback-Leibler divergence)의 측정 능력 부족과 같은 한계와 도전에 직면해 있습니다. 연구에 따르면, LLM은 KL 발산을 보완하는 암시적 보상 함수(implicit reward function)로 활용될 수 있음이 입증되었습니다. 본 연구에서는 LLM을 위한 직접 선호 지식 증류(Direct Preference Knowledge Distillation, DPKD) 방법을 제안합니다. DPKD는 분포 발산을 활용하여 선호 손실(preference loss)과 암시적 보상 함수를 표현합니다. 우리는 LLM의 KD를 두 단계로 재구성했습니다: 첫째, 암시적 보상과 역 KL 발산으로 구성된 목적 함수를 최적화하고, 둘째, 교사 모델의 출력이 학생 모델의 출력보다 선호될 확률을 높이는 것입니다. 120M에서 13B에 이르는 다양한 LLM 파라미터를 사용한 데이터셋에서 실험과 분석을 수행하여 DPKD 접근법의 광범위한 적용 가능성과 효과성을 입증했습니다. 동시에, 실험과 이론적 분석을 통해 도입된 암시적 보상과 출력 선호가 KD에서 가지는 가치와 효과성을 입증했습니다. DPKD 방법은 출력 응답 정확도와 정확 일치 비율(exact match percentage) 모두에서 기준 방법을 능가하는 성능을 보였습니다. 코드와 데이터는 https://aka.ms/dpkd에서 확인할 수 있습니다.
광범위한 세계 지식과 강력한 추론 능력을 갖춘 대형 언어 모델(LLMs)은 다양한 도메인에 걸친 과제를 대화 스타일의 지시-응답 쌍으로 제시함으로써 해결할 수 있습니다. 본 논문에서는 로봇 동작 정책을 대화로 공식화하고, 정책 학습을 보완하는 보조 데이터로 훈련할 때 개선된 응답을 제공하는 LLaRA: 대형 언어 및 로봇 보조 프레임워크를 제안합니다. 시각적 입력을 갖춘 LLMs, 즉 시각 언어 모델(VLMs)은 상태 정보를 시각-텍스트 프롬프트로 처리하고 텍스트로 최적의 정책 결정을 생성할 수 있는 능력을 가지고 있습니다. 이러한 동작 정책 VLMs을 훈련하기 위해, 우리는 먼저 기존의 행동 복제 데이터로부터 다양한 고품질 로봇 지시 데이터를 생성하는 자동화된 파이프라인을 소개합니다. 로봇 작업에 맞춤화된 대화 스타일 공식화를 기반으로 한 데이터셋 컬렉션으로 미세 조정된 VLM은 의미 있는 로봇 동작 정책 결정을 생성할 수 있습니다. 여러 시뮬레이션 및 실제 환경에서의 실험을 통해 제안된 LLaRA 프레임워크의 최첨단 성능을 입증합니다. 코드, 데이터셋 및 사전 훈련된 모델은 https://github.com/LostXine/LLaRA에서 확인할 수 있습니다.
최근 3D 가우시안 스플래팅(3D-GS)은 실세계 장면의 재구성 및 렌더링에서 큰 성공을 거두었습니다. 이러한 높은 렌더링 품질을 생성 작업으로 전환하기 위해, 일련의 연구 작업들이 텍스트로부터 3D 가우시안 자산을 생성하려 시도해 왔습니다. 그러나 생성된 자산들은 재구성 작업에서의 품질과 동일한 수준에 도달하지 못했습니다. 우리는 생성 과정에서 불확정성이 발생함에 따라 가우시안들이 통제 없이 성장하는 경향을 관찰했습니다. 생성 품질을 크게 향상시키기 위해, 우리는 GaussianDreamerPro라는 새로운 프레임워크를 제안합니다. 주요 아이디어는 가우시안들을 합리적인 기하 구조에 결속시키는 것으로, 이 기하 구조는 전체 생성 과정을 통해 진화합니다. 우리 프레임워크의 다양한 단계를 따라 기하 구조와 외관 모두 점진적으로 풍부해질 수 있습니다. 최종 출력 자산은 메시에 결속된 3D 가우시안들로 구성되며, 이전 방법들과 비교하여 상당히 향상된 디테일과 품질을 보여줍니다. 특히, 생성된 자산은 애니메이션, 합성, 시뮬레이션 등과 같은 하위 조작 파이프라인에 원활하게 통합될 수 있어, 다양한 응용 분야에서의 잠재력을 크게 증진시킵니다. 데모는 https://taoranyi.com/gaussiandreamerpro/에서 확인할 수 있습니다.
Segment Anything Model(SAM)은 시각적 프롬프트를 통한 우수한 인터랙티브 세그멘테이션 능력으로 널리 주목받았지만, 텍스트 프롬프트에 대한 추가적인 탐구는 부족한 상태입니다. 본 논문에서는 참조 표현 세그멘테이션을 위해 SAM을 적용하는 데 적합한 텍스트 프롬프트 인코더(예: CLIP 또는 LLM)를 실증적으로 조사하고, Early Vision-language Fusion 기반 SAM(EVF-SAM)을 소개합니다. EVF-SAM은 다중모달 프롬프트(이미지 및 텍스트)를 활용하고, 참조 프롬프트를 생성하기 위해 사전 훈련된 비전-언어 모델과 세그멘테이션을 위한 SAM 모델로 구성된 간단하면서도 효과적인 참조 세그멘테이션 방법입니다. 놀랍게도, 우리는 (1) 다중모달 프롬프트와 (2) 초기 융합을 갖춘 비전-언어 모델(예: BEIT-3)이 정확한 참조 세그멘테이션을 위해 SAM을 프롬프트하는 데 유리하다는 점을 관찰했습니다. 우리의 실험은 BEIT-3 기반의 제안된 EVF-SAM이 RefCOCO/+/g에서 참조 표현 세그멘테이션을 위해 최첨단 성능을 달성할 수 있음을 보여주며, 초기 비전-언어 융합을 통해 SAM을 프롬프트하는 것의 우수성을 입증합니다. 또한, 제안된 EVF-SAM은 1.32B 매개변수로 이전의 대형 다중모달 모델 기반 SAM 방법과 비교하여 매개변수를 거의 82% 줄이면서도 현저히 더 높은 성능을 달성합니다.
대형 언어 모델(Large Language Models)의 최근 발전은 머신러닝/인공지능(ML/AI) 개발을 혁신적으로 변화시켰으며, 이로 인해 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템을 위한 AutoML 원칙의 재평가가 필요하게 되었습니다. RAG에서의 하이퍼파라미터 최적화와 온라인 적응의 문제를 해결하기 위해, 우리는 AutoRAG-HP 프레임워크를 제안합니다. 이 프레임워크는 하이퍼파라미터 튜닝을 온라인 다중 슬롯 머신(Multi-Armed Bandit, MAB) 문제로 공식화하고, 대규모 탐색 공간을 효율적으로 탐색하기 위한 새로운 2단계 계층적 MAB(Hierarchical MAB, Hier-MAB) 방법을 도입합니다. 우리는 ALCE-ASQA 및 Natural Questions 데이터셋을 사용하여 상위 k개의 검색 문서, 프롬프트 압축 비율, 임베딩 방법과 같은 하이퍼파라미터 튜닝에 대한 광범위한 실험을 수행했습니다. 세 가지 하이퍼파라미터를 동시에 최적화한 평가 결과, MAB 기반 온라인 학습 방법은 탐색 공간에서 뚜렷한 기울기가 있는 시나리오에서 Grid Search 접근 방식에 필요한 LLM API 호출의 약 20%만 사용하여 Recall@5 약 0.8을 달성할 수 있음을 보여주었습니다. 또한, 제안된 Hier-MAB 접근 방식은 더 어려운 최적화 시나리오에서 다른 베이스라인을 능가하는 성능을 보였습니다. 코드는 https://aka.ms/autorag에서 공개될 예정입니다.
심층 강화 학습(Deep Reinforcement Learning, RL) 방법의 규모 확장은 상당한 도전 과제로 남아 있습니다. 생성 모델링 분야의 발전에 이어, 모델 기반 RL은 강력한 경쟁자로 자리 잡고 있습니다. 최근 시퀀스 모델링의 발전으로 인해 효과적인 트랜스포머 기반 세계 모델이 등장했지만, 환경을 정확하게 시뮬레이션하기 위해 필요한 긴 토큰 시퀀스로 인해 계산 부담이 크다는 단점이 있습니다. 본 연구에서는 Delta-IRIS라는 새로운 에이전트를 제안합니다. 이 에이전트는 시간 단계 간의 확률적 델타를 인코딩하는 이산 오토인코더와 현재 세계 상태를 연속 토큰으로 요약하여 미래 델타를 예측하는 자기회귀 트랜스포머로 구성된 세계 모델 아키텍처를 갖추고 있습니다. Crafter 벤치마크에서 Delta-IRIS는 다양한 프레임 예산에서 새로운 최고 성능을 달성했으며, 이전의 주의 기반 접근법보다 훈련 속도가 한 차례 빠릅니다. 우리는 코드와 모델을 https://github.com/vmicheli/delta-iris에서 공개합니다.
우리는 생물다양성 응용을 위한 AI 발전을 목적으로 설계된, 공개적으로 접근 가능한 가장 큰 데이터셋인 Arboretum을 소개합니다. 이 데이터셋은 iNaturalist 커뮤니티 과학 플랫폼에서 수집되었으며, 정확성을 보장하기 위해 해당 분야 전문가들의 검증을 거쳤습니다. 총 134.6백만 개의 이미지를 포함하고 있어 기존 데이터셋의 규모를 한 차원 넘어섭니다. 이 데이터셋은 새(Aves), 거미/진드기/응애(Arachnida), 곤충(Insecta), 식물(Plantae), 균류/버섯(Fungi), 달팽이(Mollusca), 그리고 뱀/도마뱀(Reptilia) 등 다양한 종의 이미지-언어 쌍 데이터를 포함하고 있어, 생물다양성 평가 및 농업 연구를 위한 멀티모달 비전-언어 AI 모델에 귀중한 자원이 됩니다. 각 이미지는 학명, 분류학적 세부 정보, 그리고 일반명으로 주석 처리되어 있어 AI 모델 학습의 견고성을 높입니다. 우리는 Arboretum의 가치를 입증하기 위해 4천만 개의 캡션 처리된 이미지 하위 집합을 사용하여 학습된 CLIP 모델 세트를 공개합니다. 또한, 엄격한 평가를 위한 여러 새로운 벤치마크를 소개하고, 제로샷 학습의 정확성을 보고하며, 생애 주기, 희귀종, 혼동 종, 그리고 다양한 분류학적 계층 수준에 걸친 평가를 수행합니다. 우리는 Arboretum이 해충 방제 전략, 작물 모니터링, 전 세계 생물다양성 평가 및 환경 보존에 이르는 다양한 디지털 도구를 가능하게 하는 AI 모델 개발을 촉진할 것으로 기대합니다. 이러한 발전은 식량 안보를 보장하고, 생태계를 보존하며, 기후 변화의 영향을 완화하는 데 중요합니다. Arboretum은 공개적으로 이용 가능하며, 쉽게 접근할 수 있고, 즉시 사용할 준비가 되어 있습니다. 데이터, 모델, 코드에 대한 링크는 https://baskargroup.github.io/Arboretum/{프로젝트 웹사이트}를 참조하십시오.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 큰 성공을 거두었습니다. 현재 널리 사용되는 RLHF 접근 방식은 보상 기반이며 Bradley-Terry(BT) 모델 가정을 따르는데, 이는 인간 선호도의 복잡성을 완전히 포착하지 못할 수 있습니다. 본 논문에서는 일반적인 선호도 프레임워크 하에서 RLHF를 탐구하고 게임 이론적 관점에서 접근합니다. 구체적으로, 문제를 두 명의 플레이어 게임으로 공식화하고 새로운 알고리즘인 반복 내시 정책 최적화(INPO)를 제안합니다. 핵심 아이디어는 정책이 무후회 학습을 통해 스스로와 경쟁함으로써 내시 정책을 근사화하는 것입니다. 기존 방법과 달리, INPO는 개별 응답에 대한 예상 승률을 추정할 필요를 우회하며, 이는 일반적으로 높은 계산 비용이나 주석 비용을 초래합니다. 대신, 우리는 선호도 데이터셋에서 직접 최소화되는 새로운 손실 목표를 도입합니다. 우리는 이 접근 방식에 대한 이론적 분석을 제공하고 다양한 대표적인 벤치마크에서의 실험을 통해 그 효과를 입증합니다. LLaMA-3-8B 기반의 SFT 모델을 사용하여, INPO는 AlpacaEval 2.0에서 41.5%의 길이 제어 승률을, Arena-Hard에서 38.3%의 승률을 달성하며, BT 모델 가정 하에서 최신 반복 알고리즘[Dong et al., 2024] 대비 상당한 개선을 보여줍니다. 또한, 우리의 어블레이션 연구는 응답 길이 제어를 위해 KL 정규화를 통합하는 이점을 강조합니다.
본 논문은 AI 모델이 생성한 의학 보고서의 품질을 평가하기 위해 'RaTEScore(Radiological Report (Text) Evaluation)'라는 새로운 엔티티 인식 지표를 소개합니다. RaTEScore는 진단 결과 및 해부학적 세부 사항과 같은 중요한 의학 엔티티를 강조하며, 복잡한 의학 동의어에 강건하고 부정 표현에 민감합니다. 기술적으로, 우리는 포괄적인 의학 NER 데이터셋인 RaTE-NER를 개발하고 이를 위해 특화된 NER 모델을 학습시켰습니다. 이 모델은 복잡한 방사선학적 보고서를 구성 의학 엔티티로 분해할 수 있게 합니다. 이 지표는 언어 모델에서 얻은 엔티티 임베딩의 유사성을 그 유형과 임상적 중요성에 기반하여 비교함으로써 도출됩니다. 우리의 평가 결과, RaTEScore는 기존 지표들보다 인간의 선호도와 더 밀접하게 일치하며, 이는 기존의 공개 벤치마크와 우리가 새롭게 제안한 RaTE-Eval 벤치마크에서 모두 검증되었습니다.