번역이 포함된 일일 선별된 AI 연구 논문
우리는 rStar-Math를 제시하여 작은 언어 모델(SLM)이 우수한 모델로부터의 증류 없이도 OpenAI o1의 수학 추론 능력을 견줄하거나 심지어 능가할 수 있다는 것을 입증합니다. rStar-Math는 Monte Carlo Tree Search (MCTS)를 통해 "심층적 사고"를 수행함으로써 이를 달성합니다. 여기서 수학 정책 SLM은 SLM 기반의 프로세스 보상 모델에 의해 안내되는 테스트 시간 검색을 수행합니다. rStar-Math는 두 SLM을 훈련하는 과정에서 발생하는 도전에 대응하기 위해 세 가지 혁신을 도입합니다: (1) 정책 SLM을 훈련하는 데 사용되는 단계별 검증된 추론 경로를 생성하기 위해 광범위한 MCTS 롤아웃을 수행하는 혁신적인 코드 보강 CoT 데이터 합성 방법; (2) 단계별 점수 주석을 피하고 더 효과적인 프로세스 선호 모델 (PPM)을 얻는 새로운 프로세스 보상 모델 훈련 방법; (3) 정책 SLM과 PPM을 처음부터 구축하고 추론 능력을 향상시키기 위해 반복적으로 진화시키는 자체 진화 레시피. 747k개의 수학 문제에 대한 수백만 개의 합성 솔루션을 통해 4회의 자체 진화를 통해 rStar-Math는 SLM의 수학 추론을 최첨단 수준으로 끌어올립니다. MATH 벤치마크에서는 Qwen2.5-Math-7B를 58.8%에서 90.0%로, Phi3-mini-3.8B를 41.4%에서 86.4%로 개선하여 o1-preview를 +4.5% 및 +0.9% 초과합니다. USA 수학 올림피아드(AIME)에서 rStar-Math는 평균 53.3% (8/15)의 문제를 해결하여 가장 뛰어난 고등학교 수학 학생들 중 상위 20%에 속합니다. 코드와 데이터는 https://github.com/microsoft/rStar에서 제공될 예정입니다.
우리는 Meta Chain-of-Thought (Meta-CoT)이라는 혁신적인 프레임워크를 제안합니다. 이 프레임워크는 특정 CoT에 도달하기 위해 필요한 근본적인 추론을 명시적으로 모델링하여 전통적인 Chain-of-Thought (CoT)을 확장합니다. 우리는 최첨단 모델들로부터 얻은 경험적 증거를 제시하며, 문맥 내 검색과 일관된 행동을 나타내는 방법을 탐구하고, 과정 감독, 합성 데이터 생성 및 검색 알고리즘을 통해 Meta-CoT을 생성하는 방법을 살펴봅니다. 마지막으로, 우리는 모델이 Meta-CoT을 생성하도록 훈련하기 위한 구체적인 파이프라인을 개요하며, 선형화된 검색 추적과 강화 학습 후 훈련을 통합한 지시 조정을 포함합니다. 마지막으로, 우리는 스케일링 법칙, 확인자 역할, 그리고 혁신적인 추론 알고리즘 발견 가능성을 포함한 미해결된 연구 문제들에 대해 논의합니다. 이 연구는 LLMs에서 Meta-CoT을 가능케 하는 이론적 및 실용적 로드맵을 제시하여, 인공지능에서 더 강력하고 인간적인 추론을 위한 길을 열어줍니다.
과학적 발견은 역사적으로 오랜 시간과 막대한 비용이 필요한 과정이었습니다. 초기 아이디어에서 최종 결과물까지 상당한 시간과 자원을 요구했습니다. 과학적 발견을 가속화하고 연구 비용을 줄이며 연구 품질을 향상시키기 위해, 우리는 Agent Laboratory를 소개합니다. 이는 자율 LLM 기반 프레임워크로, 전체 연구 과정을 완료할 수 있는 능력을 갖추고 있습니다. 이 프레임워크는 사용자가 제공한 연구 아이디어를 수용하고 문헌 검토, 실험, 보고서 작성 세 단계를 거쳐 코드 저장소와 연구 보고서를 포함한 포괄적인 연구 결과물을 생산하며, 사용자가 각 단계에서 피드백과 지도를 제공할 수 있도록 합니다. 우리는 다양한 최첨단 LLM을 사용하여 Agent Laboratory를 배포하고 여러 연구자들을 초대하여 설문 조사에 참여하고, 연구 과정을 안내하기 위해 인간 피드백을 제공하고, 마지막으로 최종 논문을 평가하도록 합니다. 우리는 다음을 발견했습니다: (1) o1-preview에 의해 주도되는 Agent Laboratory가 가장 우수한 연구 결과를 생성합니다; (2) 생성된 기계 학습 코드는 기존 방법과 비교하여 최첨단 성능을 달성할 수 있습니다; (3) 각 단계에서 피드백을 제공하는 인간의 참여가 연구의 전반적인 품질을 크게 향상시킵니다; (4) Agent Laboratory는 이전 자율 연구 방법과 비교하여 연구 비용을 크게 줄여 84%의 감소를 달성합니다. 우리는 Agent Laboratory가 연구자들이 낮은 수준의 코딩과 작성보다는 창의적인 아이디어에 더 많은 노력을 할 수 있도록 하여, 최종적으로 과학적 발견을 가속화하는 데 기여할 것을 기대합니다.
Chain-of-thought (CoT) 추론은 대규모 언어 모델의 수학적 추론에서 널리 적용되어 왔습니다. 최근에는 CoT 경로에 대한 파생 프로세스 감독의 도입이 테스트 시 스케일링 능력을 향상시키는 데 있어서 논의를 불러일으키며, 이 모델들의 잠재력을 증대시키고 있습니다. 그러나 다중 모달 수학적 추론에서 고품질 CoT 훈련 데이터의 부족으로 인해 기존 모델들이 높은 정밀도의 CoT 추론을 달성하지 못하고 테스트 시 추론 능력을 제한하고 있습니다. 본 연구에서는 CoT 증류, 경로 형식 재작성 및 형식 통합을 통합하는 세 가지 모듈 합성 전략을 제안합니다. 이는 다중 모달 수학에서 고품질 CoT 추론 지시 튜닝 데이터 세트인 MMathCoT-1M을 도출합니다. 우리는 훈련된 URSA-7B 모델의 최첨단 성능을 다중 모달 수학 벤치마크에서 철저하게 검증합니다. 테스트 시 스케일링을 위해, 해석과 논리 모두에 초점을 맞춘 프로세스 주석 데이터 세트인 DualMath-1.1M을 자동으로 생성하는 데이터 합성 전략을 소개합니다. DualMath-1.1M에서 URSA-7B를 추가로 훈련함으로써 CoT 추론 능력에서 견고한 감독 능력으로 전환합니다. 훈련된 URSA-RM-7B는 검증자 역할을 하여 URSA-7B의 성능을 효과적으로 향상시킵니다. URSA-RM-7B는 뛰어난 OOD(분포 밖) 검증 능력을 보여주며 일반화 능력을 증명합니다. 모델 가중치, 훈련 데이터 및 코드는 오픈 소스로 공개될 예정입니다.
최근 몇 년간 대형 언어 모델(Large Language Models, LLMs)의 급격한 발전은 과학 연구의 풍경을 변화시켰으며, 연구 주기의 다양한 단계에서 전례 없는 지원을 제공하고 있습니다. 본 논문은 LLMs가 과학 연구 과정을 혁신하는 방법을 탐색하기 위해 헌신된 첫 번째 체계적 조사를 제시합니다. 우리는 연구의 네 가지 중요한 단계인 가설 발견, 실험 계획 및 실행, 과학적 저술, 그리고 피어 리뷰에 걸쳐 LLMs가 하는 독특한 역할을 분석합니다. 우리의 검토는 과제별 방법론과 평가 기준을 포괄적으로 소개합니다. 현재의 도전과 미래 연구 방향을 식별함으로써, 이 조사는 LLMs의 혁신적 잠재력을 강조할 뿐만 아니라 연구자와 실무자들이 과학적 탐구를 발전시키기 위해 LLMs를 활용하는 데 영감을 주고 안내하기 위한 목적을 가지고 있습니다. 자료는 다음 저장소에서 확인할 수 있습니다: https://github.com/du-nlp-lab/LLM4SR
그래픽 사용자 인터페이스(GUI) 에이전트는 다중 모달 대형 언어 모델(MLLMs)을 기반으로 하며, 컴퓨터 및 모바일 기기와 같은 컴퓨팅 장치에서의 작업 자동화에 대한 큰 잠재력을 보여주고 있습니다. 그러나 기존의 에이전트들은 다단계 추론과 텍스트 주석에 의존하는 도전에 직면하여 효과적이지 못한 한계가 있습니다. 우리는 InfiGUIAgent를 소개합니다. 이는 두 단계의 지도된 파인튜닝 파이프라인을 통해 훈련된 MLLM 기반 GUI 에이전트입니다. 첫 번째 단계는 GUI 이해와 기초적인 기초를 강화하고, 두 번째 단계는 계층적 추론과 예측-반사 추론 기술을 통합하여 에이전트의 원시적 추론 능력을 가능하게 하는 합성 데이터를 사용합니다. InfiGUIAgent는 여러 GUI 벤치마크에서 경쟁력 있는 성능을 달성하며, 자동화 작업을 위한 GUI 상호작용을 향상시키는 데 원시적 추론 능력의 영향을 강조합니다. 자원은 https://github.com/Reallm-Labs/InfiGUIAgent에서 이용할 수 있습니다.
문서 검색 기술은 대규모 정보 시스템 개발의 기초를 형성합니다. 현재의 방법론은 바이-인코더를 구축하고 의미 유사성을 계산하는 것입니다. 그러나 이러한 스칼라 유사성은 충분한 정보를 반영하기 어렵고 검색 결과를 이해하는 데 어려움을 줍니다. 또한, 이 계산 과정은 주로 전역 의미를 강조하며 쿼리와 문서 내 복잡한 텍스트 간의 세밀한 의미 관계를 무시합니다. 본 논문에서는 퓨전과 디코딩 모듈을 통합한 새로운 방법인 Generation Augmented Retrieval (GeAR)을 제안합니다. 이를 통해 GeAR은 쿼리와 문서의 퓨전 표현을 기반으로 문서로부터 관련 텍스트를 생성함으로써 세밀한 정보에 "집중"하는 학습을 합니다. 또한, 검색기로 사용될 때, GeAR은 바이-인코더보다 계산 부담을 추가하지 않습니다. 새로운 프레임워크의 교육을 지원하기 위해 대규모 언어 모델을 활용하여 고품질 데이터를 효율적으로 합성하는 파이프라인을 도입했습니다. GeAR은 다양한 시나리오와 데이터셋에서 경쟁력 있는 검색 및 지역화 성능을 보여줍니다. 게다가, GeAR에 의해 생성된 결과를 통해 검색 결과의 해석에 대한 새로운 통찰을 제공합니다. 코드, 데이터 및 모델은 기술 검토를 완료한 후 릴리스되어 향후 연구를 용이하게 할 것입니다.
본 논문에서는 세밀한 3D 생성의 한계를 넘어 진정한 창의적 영역으로 확장합니다. 현재 방법들은 복잡한 세부 사항이 부족하거나 기존 객체를 그대로 모방하는 한계가 있습니다. 우리는 이 두 가지를 모두 가능하게 합니다. 다중 뷰 확산과 부분 잠재 변수를 연속 분포로 모델링하여 2D 세밀한 이해를 3D로 확장함으로써, 보간과 샘플링을 통해 전혀 새로운, 그러나 타당한 부분을 생성할 수 있는 능력을 발휘합니다. 자기 지도 학습 특징 일관성 손실은 이러한 보이지 않는 부분들의 안정적인 생성을 보장합니다. 결과적으로, 기존 예시를 초월하는 종 특이적 세부 사항을 갖춘 새로운 3D 객체를 생성할 수 있는 첫 번째 시스템이 탄생합니다. 우리는 새에 대해 접근법을 시연하였지만, 기본 프레임워크는 지저귀는 것 이외의 대상에도 확장 가능합니다! 코드는 https://github.com/kamwoh/chirpy3d에서 공개될 예정입니다.
우리는 단일 이미지 3D 객체 재구성 문제를 연구합니다. 최근 연구는 회귀 기반 모델링과 생성 모델링 두 가지 방향으로 분화되었습니다. 회귀 방법은 효율적으로 가시적 표면을 추론하지만 가려진 영역에서 어려움을 겪습니다. 생성 방법은 분포를 모델링하여 불확실한 영역을 더 잘 처리하지만 계산 비용이 높고 생성물이 종종 가시적 표면과 일치하지 않습니다. 본 논문에서는 두 방향의 장점을 결합하고자 하는 새로운 이차 접근 방식인 SPAR3D를 제안합니다. SPAR3D의 첫 번째 단계는 빠른 샘플링 속도를 가진 가벼운 점 확산 모델을 사용하여 희소한 3D 포인트 클라우드를 생성합니다. 두 번째 단계는 샘플링된 포인트 클라우드와 입력 이미지를 모두 사용하여 매우 상세한 메쉬를 생성합니다. 우리의 이차 설계는 불확실한 단일 이미지 3D 작업의 확률적 모델링을 가능하게 하면서 높은 계산 효율성과 훌륭한 출력 충실도를 유지합니다. 중간 표현으로서의 포인트 클라우드 사용은 상호 작용적 사용자 편집을 가능하게 합니다. 다양한 데이터셋에서 평가한 결과, SPAR3D는 이전 최첨단 방법보다 우수한 성능을 보여주며 추론 속도는 0.7초입니다. 코드와 모델이 포함된 프로젝트 페이지: https://spar3d.github.io
효과적인 명령 조정은 코드 LLM의 최적화에 꼭 필요하며, 모델 동작을 사용자 기대에 맞추고 실제 응용 프로그램에서 모델 성능을 향상시키는 데 중요합니다. 그러나 대부분의 기존 방법은 코드 조각에 초점을 맞추고 있으며, 이는 특정 기능과 엄격한 구조에 제한되어 합성 데이터의 복잡성과 다양성을 제한합니다. 이러한 제한 사항을 해결하기 위해 우리는 Abstract Syntax Trees (AST)에서 영감을 받은 새로운 특징 트리 기반 합성 프레임워크를 소개합니다. AST가 코드의 구문 구조를 캡처하는 반면, 우리의 프레임워크는 코드 요소 간의 의미적 관계를 모델링하여 더 세밀하고 다양한 데이터를 생성할 수 있게 합니다. 특징 트리는 원시 데이터에서 구성되어 추출된 특징의 양과 다양성을 증가시키기 위해 반복적으로 정제됩니다. 이 과정을 통해 코드 내에서 더 복잡한 패턴과 관계를 식별할 수 있습니다. 제어된 깊이와 폭으로 하위 트리를 샘플링함으로써, 우리의 프레임워크는 생성된 코드의 복잡성을 정밀하게 조정하여 단순한 함수 수준 작업부터 복잡한 다중 파일 시나리오까지 다양한 작업을 지원합니다. 우리는 널리 사용되는 기본 모델을 세밀하게 조정하여 EpiCoder 시리즈를 만들었으며, 다중 벤치마크에서 기능 및 파일 수준에서 최첨단 성능을 달성했습니다. 특히 경험적 증거는 우리의 접근 방식이 매우 복잡한 리포지토리 수준의 코드 데이터를 합성하는 데 상당한 잠재력을 보여준다는 것을 나타냅니다. 추가적인 분석은 소프트웨어 공학 원칙과 LLM-판사 방법을 통해 데이터 복잡성과 다양성을 엄밀히 평가함으로써 이 접근 방식의 장점을 명확히 밝혀냅니다.
대형 언어 모델(LLMs)의 급속한 성장은 많은 응용 프로그램을 가능케 했지만, 동시에 다양한 가치와 선호도와 조화를 이루는 것에 대한 어려움을 강조합니다. 직접 선호도 최적화(DPO)는 조화에 중요하지만 고정된 발산과 제한된 특징 변환으로 제약을 받습니다. 우리는 이러한 문제를 해결하기 위해 커널 방법을 통합한 DPO-Kernels를 제안합니다. 이는 네 가지 주요 기여를 통해 이 문제에 대처합니다: (i) 다양한 변환을 위한 다항식, RBF, Mahalanobis, 그리고 스펙트럴 커널을 통합한 커널화된 표현, 그리고 임베딩 기반과 확률 기반 목표를 결합한 하이브리드 손실을 포함합니다; (ii) 안정성을 높이기 위한 발산 대안(Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein, 그리고 f-발산); (iii) 최적의 커널-발산 쌍을 자동으로 선택하는 데이터 주도 선택 메트릭; 그리고 (iv) 지역적 정밀도와 전역적 모델링을 위한 계층적 커널 혼합. 12개 데이터셋에서의 평가는 사실성, 안전성, 추론, 그리고 지시 따르기에서 최첨단 성능을 보여줍니다. Heavy-Tailed Self-Regularization에 기반을 둔 DPO-Kernels는 LLMs에 대한 견고한 일반화를 유지하며, 추가 조화 연구를 위한 포괄적 자원을 제공합니다.
검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)을 배포할 때 일반적으로 사용되며, 환상적이거나 오래된 정보를 생성하는 등의 전형적인 한계를 해결할 수 있습니다. 그러나 실제 RAG 응용 프로그램을 구축할 때 실용적인 문제가 발생합니다. 첫째, 검색된 정보는 일반적으로 도메인별입니다. LLM을 세밀하게 조정하는 것은 계산 비용이 많이 들기 때문에, 검색기를 세밀하게 조정하여 LLM 입력에 포함된 데이터의 품질을 향상시키는 것이 더 실용적입니다. 둘째, 동일한 실제 시스템에 더 많은 응용 프로그램을 배포할 경우 별도의 검색기를 배포할 여력이 없습니다. 게다가, 이러한 RAG 응용 프로그램은 일반적으로 다른 종류의 데이터를 검색합니다. 우리의 해결책은 다양한 도메인별 작업에서 작은 검색기 인코더를 지시적으로 세밀하게 조정하여 여러 사용 사례에 대응할 수 있는 인코더를 배포할 수 있도록 하는 것입니다. 이를 통해 저렴한 비용, 확장성 및 속도를 달성할 수 있습니다. 이 인코더가 도메인 밖 설정 및 실제 기업 사용 사례에서 보이지 않는 검색 작업에 대해 어떻게 일반화되는지 보여줍니다.