번역이 포함된 일일 선별된 AI 연구 논문
"심층 추론" 패러다임은 수학과 같은 검증 가능한 영역에서 상당한 진전을 이끌어냈지만, 개방형 창의적 생성 작업에의 적용은 여전히 중요한 과제로 남아 있습니다. 추론 능력을 부여하기 위한 두 가지 주요 방법인 강화 학습(RL)과 지시 증류는 이 분야에서 한계를 보입니다. RL은 명확한 보상 신호와 고품질 보상 모델의 부재로 어려움을 겪는 반면, 증류 방식은 비용이 과도하게 높고 교사 모델의 능력에 의해 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 REverse-Engineered Reasoning(REER)이라는 새로운 패러다임을 소개합니다. REER은 시행착오나 모방을 통해 추론 과정을 "순방향"으로 구축하는 대신, 알려진 우수한 솔루션에서 출발하여 이를 생성할 수 있었던 잠재적 단계별 심층 추론 과정을 계산적으로 발견하는 "역방향" 접근법을 취합니다. 이 확장 가능한 경사 없음(gradient-free) 방식을 활용하여, 우리는 개방형 작업을 위한 20,000개의 심층 추론 궤적을 포함한 대규모 데이터셋인 DeepWriting-20K를 구축 및 공개했습니다. 이 데이터로 학습된 우리의 모델인 DeepWriter-8B는 강력한 오픈소스 기반 모델을 능가할 뿐만 아니라, GPT-4o 및 Claude 3.5와 같은 선도적인 독점 모델과 경쟁적이며 때로는 더 우수한 성능을 보여줍니다.
대규모 언어 모델(LLMs)의 패러다임은 점점 더 에이전트 기반 애플리케이션으로 전환되고 있으며, 이 과정에서 웹 브라우징 기능은 다양한 온라인 소스로부터 정보를 검색하는 데 필수적입니다. 그러나 기존의 오픈소스 웹 에이전트들은 복잡한 작업에서 제한된 정보 탐색 능력을 보이거나 투명한 구현이 부족한 문제를 안고 있습니다. 본 연구에서는 이러한 문제의 핵심 원인이 정보 탐색을 위한 도전적인 데이터의 부족에 있음을 확인했습니다. 이 한계를 극복하기 위해, 우리는 모델 기반 탐색과 반복적이며 장문에서 단문으로의 질의 진화를 활용한 체계적인 데이터 생성 접근법인 WebExplorer를 소개합니다. 이 방법은 다단계 추론과 복잡한 웹 탐색을 요구하는 도전적인 질의-응답 쌍을 생성합니다. 우리가 정제한 고품질 데이터셋을 활용하여, 지도 미세 조정과 강화 학습을 통해 고급 웹 에이전트 WebExplorer-8B를 성공적으로 개발했습니다. 우리의 모델은 128K의 컨텍스트 길이와 최대 100회의 도구 호출을 지원하며, 장기적인 문제 해결이 가능합니다. 다양한 정보 탐색 벤치마크에서 WebExplorer-8B는 해당 규모에서 최고의 성능을 달성했습니다. 특히, 8B 크기의 모델임에도 불구하고 WebExplorer-8B는 강화 학습 훈련 후 평균 16회의 탐색을 효과적으로 수행하며, BrowseComp-en/zh에서 WebSailor-72B보다 높은 정확도를 달성하고, WebWalkerQA와 FRAMES에서 100B 파라미터 이하 모델 중 최고의 성능을 보였습니다. 이러한 정보 탐색 작업을 넘어, 우리의 모델은 지식 집약적인 QA 데이터만으로 훈련되었음에도 HLE 벤치마크에서 강력한 일반화 능력을 보였습니다. 이러한 결과는 우리의 접근법이 장기적인 웹 에이전트 개발을 위한 실용적인 방향임을 강조합니다.
우리는 추론 경로를 사후 훈련에 통합하고 다양한 아키텍처에 적용 가능한 확산 언어 모델(DLM)을 위한 궤적 인식 강화 학습 프레임워크인 TraceRL을 제안합니다. 훈련 안정성을 향상시키는 확산 기반 가치 모델을 장착하여 복잡한 수학 및 코딩 작업에서 향상된 추론 성능을 입증했습니다. 또한, 이는 블록별 모델을 더 큰 블록에 적응시켜 샘플링 유연성을 개선하는 데도 적용할 수 있습니다. TraceRL을 사용하여 최첨단 확산 언어 모델 시리즈인 TraDo를 도출했습니다. 7B 규모의 AR 모델보다 작은 TraDo-4B-Instruct는 여전히 복잡한 수학 추론 작업에서 일관되게 더 나은 성능을 보입니다. TraDo-8B-Instruct는 수학적 추론 벤치마크에서 Qwen2.5-7B-Instruct 대비 6.1%, Llama3.1-8B-Instruct 대비 51.3%의 상대적 정확도 향상을 달성했습니다. 커리큘럼 학습을 통해 첫 번째 장기 CoT DLM을 도출하여 MATH500에서 Qwen2.5-7B-Instruct 대비 18.1%의 상대적 정확도 향상을 보였습니다. 재현 가능한 연구와 실용적인 응용을 위해 다양한 아키텍처에서 확산 LLM을 구축, 훈련 및 배포하기 위한 포괄적인 오픈소스 프레임워크를 공개합니다. 이 프레임워크는 추론 및 강화 학습을 위한 가속화된 KV-캐시 기술과 추론 엔진을 통합하고, 수학, 코딩 및 일반 작업을 위한 다양한 지도 미세 조정 및 RL 방법의 구현을 포함합니다. 코드와 모델: https://github.com/Gen-Verse/dLLM-RL
다양한 자연 이미지로 사전 학습된 대규모 비전 기반 모델의 등장은 컴퓨터 비전 분야에서 패러다임 전환을 가져왔습니다. 그러나 최첨단 비전 기반 모델의 효용성이 의료 영상과 같은 특수 분야로 어떻게 전이되는지는 여전히 미해결된 문제로 남아 있습니다. 본 보고서는 밀집 예측(dense prediction) 작업에서 강력한 성능을 보이는 최신 자기 지도 학습 비전 트랜스포머(ViT)인 DINOv3가 도메인 특화 사전 학습 없이도 의료 비전 작업을 위한 강력하고 통합된 인코더로 직접 사용될 수 있는지 조사합니다. 이를 위해 우리는 DINOv3를 다양한 의료 영상 모달리티에서의 2D/3D 분류 및 세분화를 포함한 일반적인 의료 비전 작업에 대해 벤치마킹합니다. 또한 모델 크기와 입력 이미지 해상도를 변화시켜가며 확장성을 체계적으로 분석합니다. 연구 결과, DINOv3는 인상적인 성능을 보이며 새로운 강력한 기준선을 수립했습니다. 특히, 자연 이미지만으로 학습되었음에도 불구하고 BiomedCLIP 및 CT-Net과 같은 의료 특화 기반 모델을 여러 작업에서 능가할 수 있음을 확인했습니다. 그러나 우리는 명확한 한계점도 발견했습니다: 전체 슬라이드 병리 이미지(WSI), 전자 현미경(EM), 양전자 방출 단층촬영(PET)과 같이 깊은 도메인 특수화가 필요한 시나리오에서는 모델의 특징이 저하되었습니다. 또한, DINOv3가 의료 도메인에서 스케일링 법칙을 일관되게 따르지 않음을 관찰했습니다. 더 큰 모델이나 더 세밀한 특징 해상도가 항상 성능 향상으로 이어지지는 않았으며, 작업 간 다양한 스케일링 행동을 보였습니다. 궁극적으로, 우리의 연구는 DINOv3를 강력한 기준선으로 확립하며, 그 강력한 시각적 특징이 여러 복잡한 의료 작업을 위한 견고한 사전 지식으로 활용될 수 있음을 입증했습니다. 이는 3D 재구성에서 다중 뷰 일관성을 강화하기 위한 특징 활용과 같은 유망한 미래 연구 방향을 열어줍니다.
시각적 추론은 인간 지능의 초석으로, 다양한 시각적 문제를 해결하는 데 필수적인 복잡한 지각 및 논리적 과정을 포괄합니다. 컴퓨터 비전의 발전으로 다양한 지각 작업에 강력한 모델들이 개발되었지만, 이를 일반적인 시각적 추론에 활용하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 연구에서는 시각 모델을 지도 학습을 통해 대형 언어 모델(LLM)에 통합하면 성능이 향상된다는 것을 보여주었지만, 이는 비용이 많이 드는 데이터 생성, 신중한 데이터 필터링에 대한 의존성, 그리고 낮은 일반화 능력과 같은 주요 한계를 가지고 있습니다. 이러한 문제를 해결하기 위해, 우리는 강화 학습을 통해 다중 모달 LLM의 시각적 도구 사용 및 추론 능력을 향상시키는 ReVPT를 제안합니다. 우리는 GRPO를 기반으로 한 새로운 강화 학습 알고리즘을 도입하여, 네 가지 시각적 도구를 사용하여 모델을 학습시키도록 설계했습니다. 광범위한 실험을 통해, 우리의 방법이 SAT, CV-Bench, BLINK 및 MMStar와 같은 여러 지각 중심 벤치마크에서 최첨단 성능을 달성하며, 지도 학습 및 텍스트 기반 강화 학습 파인튜닝 기준선을 크게 능가함을 보여줍니다. 특히, ReVPT-3B와 ReVPT-7B는 CV-Bench에서 인스트럭트 모델을 각각 9.03%와 9.44% 앞섰습니다. 마지막으로, 우리는 광범위한 어블레이션을 통해 강화 학습 기반 시각적 도구 사용에 대한 새로운 통찰력을 커뮤니티에 제공합니다. 우리의 코드는 https://github.com/ls-kelvin/REVPT에서 확인할 수 있습니다.
복잡한 다단계 작업을 해결하기 위해 추론, 오픈 웹 및 사용자 파일 검색, 도구 사용을 조율하는 에이전트형 AI인 딥 리서치 시스템은 플래너, 코디네이터, 실행자로 구성된 계층적 배치로 나아가고 있습니다. 실제로 전체 스택을 종단 간 학습하는 것은 여전히 비현실적이기 때문에, 대부분의 연구는 검색, 브라우징, 코드와 같은 핵심 도구에 연결된 단일 플래너를 학습합니다. SFT(지도 미세 조정)는 프로토콜 충실도를 제공하지만, 모방 및 노출 편향에 취약하며 환경 피드백을 충분히 활용하지 못합니다. DPO와 같은 선호도 정렬 방법은 스키마와 프록시에 의존적이며, 오프-폴리시 방식이고, 장기적 신용 할당과 다목적 균형 조정에 약합니다. SFT와 DPO의 또 다른 한계는 스키마 설계와 레이블된 비교를 통해 인간이 정의한 결정 지점과 하위 기술에 의존한다는 점입니다. 강화 학습은 폐쇄 루프 및 도구 상호작용 연구와 일치하며, 궤적 수준의 정책을 최적화함으로써 탐색, 복구 행동, 원칙적 신용 할당을 가능하게 하고, 이러한 인간 사전 지식과 평가자 편향에 대한 의존도를 줄입니다. 이 조사는 우리가 아는 한 딥 리서치 시스템의 강화 학습 기초에 전념한 첫 번째 연구입니다. 이는 DeepSeek-R1 이후의 작업을 세 가지 축으로 체계화합니다: (i) 데이터 합성 및 큐레이션; (ii) 안정성, 샘플 효율성, 긴 문맥 처리, 보상 및 신용 설계, 다목적 최적화, 다중 모달 통합을 포함한 에이전트형 리서치를 위한 강화 학습 방법; (iii) 에이전트형 강화 학습 훈련 시스템 및 프레임워크. 또한 에이전트 아키텍처와 조정, 그리고 최근의 QA, VQA, 장문 합성, 도메인 기반 도구 상호작용 작업을 포함한 평가 및 벤치마크를 다룹니다. 우리는 반복되는 패턴을 정제하고, 인프라 병목 현상을 표면화하며, 강화 학습을 통해 견고하고 투명한 딥 리서치 에이전트를 훈련하기 위한 실용적인 지침을 제공합니다.
멀티태스크 학습(MTL)은 종종 파인튜닝 전에 데이터셋을 병합하는 방식으로 이루어지지만, 파인튜닝된 모델의 증가로 인해 태스크 산술을 통한 모델 병합과 같은 새로운 접근법이 등장했습니다. 이러한 환경에서 주요한 과제는 태스크 간 간섭으로, 태스크 수가 증가함에 따라 더 악화됩니다. 우리는 서로 다른 태스크에 대해 훈련된 모델들을 단일 모델로 병합하면서 모든 태스크에서 강력한 성능을 유지하는 방법을 제안합니다. 우리의 접근법은 추가 레이블 데이터 없이도 병합 과정을 안내하기 위해 젠센-샤논 발산을 활용하며, 태스크 중요도를 자동으로 조정합니다. 기존 방법과 달리, 우리의 접근법은 태스크 수가 증가해도 견고하게 작동하며, 이전 연구를 일관적으로 능가합니다.
우리는 연구 논문을 AI 에이전트로 변환하는 자동화 프레임워크인 Paper2Agent를 소개합니다. Paper2Agent는 연구 결과물을 수동적인 아티팩트에서 능동적인 시스템으로 변환하여 다운스트림 활용, 채택 및 발견을 가속화합니다. 기존의 연구 논문은 독자들이 논문의 코드, 데이터 및 방법을 이해하고 자신의 작업에 적용하기 위해 상당한 노력을 투자해야 하므로, 전파와 재사용에 장벽이 됩니다. Paper2Agent는 이러한 문제를 해결하기 위해 논문을 지식이 풍부한 연구 보조자 역할을 하는 AI 에이전트로 자동 변환합니다. 이 프레임워크는 여러 에이전트를 사용하여 논문과 관련 코드베이스를 체계적으로 분석하여 Model Context Protocol(MCP) 서버를 구축한 후, 반복적으로 테스트를 생성하고 실행하여 결과 MCP를 개선하고 강화합니다. 이러한 논문 MCP는 채팅 에이전트(예: Claude Code)와 유연하게 연결되어 원본 논문의 도구와 워크플로우를 호출하면서 자연어를 통해 복잡한 과학적 질의를 수행할 수 있습니다. 우리는 심층적인 사례 연구를 통해 Paper2Agent가 신뢰할 수 있고 유능한 논문 에이전트를 생성하는 데 효과적임을 입증합니다. Paper2Agent는 AlphaGenome을 활용하여 게놈 변이를 해석하는 에이전트와 ScanPy 및 TISSUE를 기반으로 단일 세포 및 공간 전사체 분석을 수행하는 에이전트를 생성했습니다. 우리는 이러한 논문 에이전트가 원본 논문의 결과를 재현할 수 있고 새로운 사용자 질의를 정확하게 수행할 수 있음을 검증합니다. Paper2Agent는 정적인 논문을 동적이고 상호작용 가능한 AI 에이전트로 전환함으로써, 지식 전파를 위한 새로운 패러다임과 AI 공동 과학자들의 협업 생태계를 위한 기반을 마련합니다.
비전-언어 모델(VLMs)은 다양한 시각적 작업에서 뛰어난 성과를 보여왔지만, 복잡한 시각적 환경에서는 성능이 저하됩니다. 기존의 개선 방법들은 추가적인 학습이 필요하거나 외부 분할 도구에 의존하거나 거친 수준에서 작동하며, VLMs 내재된 능력을 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 VLMs의 주의 패턴을 조사하고 다음과 같은 사실을 발견했습니다: (1) 시각적 복잡성은 주의 엔트로피와 강한 상관관계를 가지며, 이는 추론 성능에 부정적인 영향을 미칩니다; (2) 주의는 얕은 층에서의 전역적 스캐닝에서 깊은 층으로 갈수록 집중적 수렴으로 점진적으로 정제되며, 수렴 정도는 시각적 복잡성에 의해 결정됩니다. (3) 이론적으로, 일반적인 쿼리와 작업 특화 쿼리 간의 주의 맵 대비를 통해 시각적 신호를 의미적 신호와 시각적 잡음 성분으로 분해할 수 있음을 증명했습니다. 이러한 통찰을 바탕으로, 우리는 픽셀 수준에서 주의 대비를 통해 작업 관련 시각적 신호를 추출하는 학습이 필요 없는 방법인 Contrastive Attention Refinement for Visual Enhancement (CARVE)를 제안합니다. 광범위한 실험을 통해 CARVE가 성능을 지속적으로 향상시키며, 오픈소스 모델에서 최대 75%의 성능 개선을 달성함을 입증했습니다. 우리의 연구는 시각적 복잡성과 주의 메커니즘 간의 상호작용에 대한 중요한 통찰을 제공하며, 대비 주의를 통해 시각적 추론을 개선하는 효율적인 경로를 제시합니다.
최근 통합 멀티모달 이해 및 생성 모델은 이미지 생성 능력에서 상당한 개선을 이루었으나, GPT-4o와 같이 이해와 생성을 긴밀하게 결합한 시스템에 비해 명령어 수행 및 세부 사항 보존 측면에서 큰 격차가 남아 있습니다. 최근의 인터리빙 추론(interleaving reasoning) 기술 발전에 영감을 받아, 이러한 추론이 텍스트-이미지(T2I) 생성 능력을 더욱 향상시킬 수 있는지 탐구합니다. 우리는 인터리빙 추론 생성(Interleaving Reasoning Generation, IRG) 프레임워크를 소개합니다. 이 프레임워크는 텍스트 기반 사고와 이미지 합성을 번갈아 수행합니다: 모델은 먼저 초기 이미지를 안내하기 위한 텍스트 기반 사고를 생성한 후, 결과를 반영하여 세부 사항, 시각적 품질, 미학을 개선하면서 의미론적 요소를 보존합니다. IRG를 효과적으로 학습하기 위해, 우리는 인터리빙 추론 생성 학습(Interleaving Reasoning Generation Learning, IRGL)을 제안합니다. 이는 두 가지 하위 목표를 달성합니다: (1) 초기 사고 및 생성 단계를 강화하여 핵심 콘텐츠와 기본 품질을 확립하고, (2) 고품질의 텍스트 반영과 이러한 개선 사항을 후속 이미지에 충실히 구현하는 능력을 가능하게 합니다. 우리는 IRGL-300K 데이터셋을 구축했으며, 이는 텍스트 기반 사고와 전체 사고-이미지 궤적을 함께 다루는 여섯 가지 분해된 학습 모드로 구성됩니다. 인터리빙 텍스트-이미지 출력을 기본적으로 생성하는 통합 기반 모델에서 출발하여, 두 단계의 학습은 먼저 강력한 사고와 반영 능력을 구축한 후, 전체 사고-이미지 궤적 데이터에서 IRG 파이프라인을 효율적으로 조정합니다. 광범위한 실험 결과, GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN에서 5-10점의 절대적 성능 향상을 보였으며, 시각적 품질과 세부 사항 정확도에서도 상당한 개선이 확인되었습니다. 코드, 모델 가중치 및 데이터셋은 https://github.com/Osilly/Interleaving-Reasoning-Generation 에 공개될 예정입니다.
우리는 조율된 오디오와 비디오를 동시에 생성할 수 있는 통합된 Veo-3 유사 모델인 UniVerse-1을 소개합니다. 학습 효율성을 높이기 위해, 처음부터 학습하는 방식을 우회하고 대신 전문가 모델 결합(SoE) 기법을 사용합니다. 이 접근 방식은 사전 학습된 비디오 및 음악 생성 전문가 모델의 해당 블록을 깊이 융합함으로써, 이들의 기초 능력을 최대한 활용합니다. 환경음 및 음성이 비디오 콘텐츠와 정확한 시간적 정렬을 갖도록 하기 위해, 우리는 학습 과정에서 필요한 학습 데이터를 처리하고 레이블을 생성하는 온라인 주석 파이프라인을 개발했습니다. 이 전략은 텍스트 기반 주석의 잘못된 정렬로 인해 종종 발생하는 성능 저하를 방지합니다. 이러한 기술들의 시너지를 통해, 약 7,600시간의 오디오-비디오 데이터에 대해 미세 조정된 우리의 모델은 환경음 생성에서 잘 조율된 오디오-비주얼 결과를 생성하며, 음성 생성에서도 강력한 정렬을 보여줍니다. 제안된 방법을 체계적으로 평가하기 위해, 우리는 새로운 벤치마크 데이터셋인 Verse-Bench를 도입했습니다. 오디오-비디오 생성 연구를 발전시키고 Veo3와 같은 최첨단 모델과의 성능 격차를 줄이기 위해, 우리는 모델과 코드를 공개적으로 제공합니다. 이 기여가 더 넓은 연구 커뮤니티에 도움이 되기를 바랍니다. 프로젝트 페이지: https://dorniwang.github.io/UniVerse-1/.
텍스트-이미지(T2I) 생성은 텍스트 프롬프트에서 이미지를 합성하는 것을 목표로 하며, 이 프롬프트는 무엇을 보여줘야 하는지를 명시하고 무엇을 추론할 수 있는지를 암시함으로써 두 가지 핵심 능력인 구성(composition)과 추론(reasoning)에 대응합니다. 그러나 T2I 모델의 추론 능력이 구성 능력을 넘어서는 최신 발전에도 불구하고, 기존 벤치마크는 이러한 능력들 간 및 내부에서 포괄적인 평가를 제공하는 데 명확한 한계를 드러냅니다. 동시에, 이러한 발전은 모델이 더 복잡한 프롬프트를 처리할 수 있게 하지만, 현재 벤치마크는 낮은 장면 밀도와 단순화된 일대일 추론에 머물러 있습니다. 이러한 한계를 해결하기 위해, 우리는 T2I 모델의 구성과 추론 능력을 모두 평가하는 포괄적이고 복잡한 벤치마크인 T2I-CoReBench를 제안합니다. 포괄성을 보장하기 위해, 우리는 구성을 장면 그래프 요소(인스턴스, 속성, 관계)를 중심으로 구조화하고, 추론은 철학적 추론 프레임워크(연역적, 귀납적, 귀추적)를 중심으로 구조화하여 12차원 평가 분류 체계를 수립했습니다. 복잡성을 높이기 위해, 우리는 현실 세계 시나리오의 고유한 복잡성을 기반으로 각 프롬프트를 높은 구성 밀도와 다단계 추론을 포함하도록 큐레이션했습니다. 또한, 각 프롬프트에 세부적이고 신뢰할 수 있는 평가를 용이하게 하기 위해 개별 예/아니오 질문으로 구성된 체크리스트를 함께 제공하여 각 의도된 요소를 독립적으로 평가할 수 있도록 했습니다. 통계적으로, 우리의 벤치마크는 1,080개의 도전적인 프롬프트와 약 13,500개의 체크리스트 질문으로 구성됩니다. 27개의 최신 T2I 모델을 대상으로 한 실험 결과, 이들의 구성 능력은 여전히 복잡한 고밀도 시나리오에서 제한적이며, 추론 능력은 더욱 뒤처져 중요한 병목 현상으로 작용하며, 모든 모델이 프롬프트에서 암시적 요소를 추론하는 데 어려움을 겪는 것으로 나타났습니다. 우리의 프로젝트 페이지: https://t2i-corebench.github.io/.
대규모 언어 모델(LLMs)을 자동 정리 증명에 통합하는 것은 엄청난 가능성을 보여주었지만, 훈련 시 강화 학습(RL)과 추론 시 계산 자원의 확장성 문제로 인해 근본적인 제약을 받고 있습니다. 본 논문은 이러한 이중 확장 문제를 해결하기 위해 설계된 BFS-Prover-V2 시스템을 소개합니다. 우리는 두 가지 주요 혁신을 제시합니다. 첫 번째는 훈련 시 LLM 단계 증명기의 성능을 지속적으로 개선하기 위한 새로운 다중 턴 오프-폴리시 RL 프레임워크입니다. 이 프레임워크는 AlphaZero의 원리에 영감을 받아, 적응형 전술 수준 데이터 필터링과 주기적 재훈련을 특징으로 하는 다단계 전문가 반복 파이프라인을 통해 LLM 기반 에이전트의 장기 RL에서 일반적으로 발생하는 성능 정체를 극복합니다. 두 번째 혁신은 추론 시 추론 능력을 확장하는 플래너 강화 다중 에이전트 탐색 아키텍처입니다. 이 아키텍처는 일반 추론 모델을 고수준 플래너로 사용하여 복잡한 정리들을 일련의 단순한 하위 목표로 반복적으로 분해합니다. 이 계층적 접근법은 탐색 공간을 크게 줄여, 병렬 증명 에이전트 팀이 공유 증명 캐시를 활용하여 효율적으로 협업할 수 있게 합니다. 우리는 이러한 이중 확장 접근법이 기존의 형식적 수학 벤치마크에서 최첨단 결과를 달성함을 보여줍니다. BFS-Prover-V2는 MiniF2F와 ProofNet 테스트 세트에서 각각 95.08%와 41.4%의 성능을 달성했습니다. 본 연구에서 제시된 RL 및 추론 기술은 형식적 수학 영역에서 입증되었지만, 장기적 다중 턴 추론과 복잡한 탐색이 필요한 다른 영역에도 적용될 수 있는 광범위한 관심을 가질 수 있습니다.
복잡하고 교차된 추론 및 도구 사용 능력을 대형 언어 모델(LLMs)에 부여하는 것은 에이전트형 AI 연구의 주요 초점이 되었으며, 특히 최근의 추론 중심("사고") 모델의 발전과 더불어 그 중요성이 더욱 부각되고 있습니다. 이러한 능력은 여러 중요한 애플리케이션을 구현하는 데 핵심적인 역할을 합니다. 그 중 하나는 다양한 소스에 대한 광범위한 검색과 추론을 요구하는 딥 리서치(DR)입니다. 본 논문에서는 최소한의 웹 크롤링과 Python 도구 통합을 특징으로 하는 DR을 위한 네이티브 자율 단일 에이전트 모델 개발에 초점을 맞추고 있습니다. 다중 에이전트 시스템이 각 에이전트가 미리 정의된 역할을 맡고 정적 워크플로우에서 각 단계마다 수행할 작업을 지시받는 것과 달리, 자율 단일 에이전트는 수동 지시 없이 컨텍스트에 따라 다음 동작을 동적으로 결정합니다. 기존 연구에서는 기본 또는 지시 튜닝된 LLMs를 위한 학습 레시피를 제안했지만, 우리는 추론 능력을 유지하면서 에이전트 기술을 더욱 강화하기 위해 추론 최적화 모델의 지속적 강화 학습(RL)에 초점을 맞춥니다. 이를 위해 완전히 합성된 데이터를 사용한 간단한 RL 레시피를 제안하고, 이를 다양한 오픈소스 LLMs에 적용합니다. 우리의 최고 성능 변형인 SFR-DR-20B는 Humanity's Last Exam 벤치마크에서 최대 28.7%의 성능을 달성합니다. 또한, 우리의 방법론에 대한 더 깊은 통찰을 제공하기 위해 주요 분석 실험을 수행합니다.
테스트 시간 스케일링은 모델이 긴 추론 체인을 생성할 수 있도록 함으로써 추론 시간 계산을 증가시키며, 다양한 도메인에서 강력한 성능을 보여왔습니다. 그러나 본 연구에서는 이러한 접근 방식이 높은 사실적 정확도와 낮은 환각(hallucination) 발생률이 필수적인 지식 집약적 작업에는 아직 효과적이지 않음을 보여줍니다. 우리는 두 가지 지식 집약적 벤치마크에서 12개의 추론 모델을 사용하여 테스트 시간 스케일링에 대한 포괄적인 평가를 수행했습니다. 그 결과, 테스트 시간 계산을 증가시키는 것이 정확도를 일관되게 향상시키지 못하며, 많은 경우 오히려 더 많은 환각을 유발한다는 사실을 발견했습니다. 이후, 확장된 추론이 환각 행동에 미치는 영향을 분석했습니다. 우리는 환각 감소가 종종 사실적 회상의 개선보다는 모델이 더 깊이 생각한 후 답변을 자제하는 선택에서 비롯된다는 것을 발견했습니다. 반대로, 일부 모델의 경우 더 긴 추론은 이전에 답변하지 않았던 질문에 대한 시도를 촉진하며, 이 중 많은 경우 환각으로 이어졌습니다. 사례 연구는 확장된 추론이 확인 편향을 유발하여 과도하게 확신에 찬 환각을 초래할 수 있음을 보여줍니다. 이러한 한계에도 불구하고, 우리는 생각을 활성화하는 것이 생각을 하지 않는 것에 비해 여전히 유리하다는 점을 관찰했습니다. 코드와 데이터는 https://github.com/XuZhao0/tts-knowledge에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 다양한 애플리케이션 통합은 구조적이고 신뢰할 수 있는 응답의 필요성을 촉진시켰습니다. 검색 증강 생성(RAG) 시스템에서의 주요 과제는 출력이 예상 형식에 부합하면서도 환각(hallucination)을 최소화하는 것입니다. 본 연구는 RAG 시스템에서 가이디드 디코딩(guided decoding)의 역할을 조사하며, 아웃라인(Outlines), XGrammar, LM Format Enforcer라는 세 가지 방법을 다양한 다중 턴 프롬프트 설정(0-턴, 1-턴, 2-턴)에서 비교합니다. 성공률, 환각률 및 출력 품질을 평가함으로써 이들의 성능과 적용 가능성에 대한 통찰을 제공합니다. 연구 결과는 다중 턴 상호작용이 가이디드 디코딩에 미치는 영향을 밝히고, 특정 사용 사례에 대한 방법 선택에 도움을 줄 수 있는 예상치 못한 성능 변동을 발견합니다. 이 연구는 RAG 시스템에서의 구조적 출력 생성에 대한 이해를 진전시키며, LLM 배포를 위한 이론적 통찰과 실질적인 지침을 제공합니다.
온라인 밈에서의 블랙 유머는 암묵적이고 민감하며 문화적 맥락에 의존하는 특성으로 인해 독특한 도전 과제를 제시합니다. 다중 양식 콘텐츠에서 블랙 유머를 탐지하기 위한 자원과 방법론의 부족을 해결하기 위해, 우리는 4,379개의 레딧 밈으로 구성된 새로운 데이터셋을 소개합니다. 이 데이터셋은 블랙 유머, 대상 카테고리(성별, 정신 건강, 폭력, 인종, 장애, 기타), 그리고 세 단계의 강도 등급(경미, 중간, 심각)으로 주석이 달려 있습니다. 이 자원을 바탕으로, 우리는 대규모 시각-언어 모델(VLM)을 사용하여 각 밈에 대한 구조화된 설명을 먼저 생성하는 추론 강화 프레임워크를 제안합니다. 역할 반전 자기 루프(Role-Reversal Self-Loop)를 통해 VLM은 저자의 관점을 채택하여 설명을 반복적으로 개선하며, 완전성과 일관성을 보장합니다. 그런 다음, OCR 전사본과 자기 개선된 추론에서 텍스트 특징을 텍스트 인코더를 통해 추출하고, 시각 특징은 비전 트랜스포머를 사용하여 얻습니다. 트리-스트림 교차 추론 네트워크(TCRNet)는 이 세 가지 스트림(텍스트, 이미지, 추론)을 쌍별 주의 메커니즘을 통해 융합하여 분류를 위한 통합된 표현을 생성합니다. 실험 결과는 우리의 접근 방식이 블랙 유머 탐지, 대상 식별, 강도 예측이라는 세 가지 작업에서 강력한 베이스라인을 능가함을 보여줍니다. 데이터셋, 주석, 코드는 다중 양식 유머 이해와 콘텐츠 조정 연구를 촉진하기 위해 공개되었습니다. 코드와 데이터셋은 다음에서 확인할 수 있습니다: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
영어 중심 편향성을 해결하기 위한 삼중언어 기반 모델인 Llama-GENBA-10B를 소개합니다. Llama 3.1-8B를 기반으로 구축되고 100억 개의 파라미터로 확장된 Llama-GENBA-10B는 1,640억 개의 토큰(영어 820억, 독일어 820억, 바이에른어 8천만)을 지속적으로 사전 학습하여 자원을 균형 있게 분배하면서 영어의 지배를 방지합니다. 독일 NLP 커뮤니티를 대상으로 한 이 모델은 저자원 언어인 바이에른어를 촉진하는 역할도 합니다. 개발 과정에서는 네 가지 과제를 해결했습니다: (1) 바이에른어 자료의 부족에도 불구하고 다국어 코퍼스를 구축, (2) 영어, 독일어, 바이에른어를 위한 통합 토크나이저 생성, (3) 교차 언어 전이를 위한 아키텍처 및 언어 비율 하이퍼파라미터 최적화, (4) 독일어 벤치마크를 바이에른어로 번역하여 최초의 표준화된 삼중언어 평가 스위트를 구축. 평가 결과, Llama-GENBA-10B는 강력한 교차 언어 성능을 보여주며, 미세 조정된 버전은 바이에른어에서 Apertus-8B-2509와 gemma-2-9b를 능가하고 이 언어 분야에서 최고의 모델로 자리 잡았습니다. 또한 영어에서는 EuroLLM을 능가하고 독일어에서는 동등한 결과를 보였습니다. Cerebras CS-2에서의 학습은 문서화된 에너지 사용과 함께 대규모 다국어 사전 학습의 효율성을 입증하며, 저자원 언어를 통합하는 포용적인 기반 모델을 위한 청사진을 제공합니다.
드래그 기반 이미지 편집은 직관적인 이미지 조작을 위한 강력한 패러다임으로 부상했습니다. 그러나 기존 접근 방식은 주로 생성 모델의 잠재 공간을 조작하는 데 의존하여 제한된 정밀도, 지연된 피드백, 그리고 모델 특정적인 제약을 초래했습니다. 이에 따라, 우리는 Inpaint4Drag라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 드래그 기반 편집을 픽셀 공간의 양방향 워핑과 이미지 인페인팅으로 분해합니다. 물리 세계의 탄성 물체 변형에서 영감을 받아, 우리는 이미지 영역을 사용자 조작 하에서 자연스러운 형태를 유지하는 변형 가능한 재료로 취급합니다. 우리의 방법은 512x512 해상도에서 실시간 워핑 미리보기(0.01초)와 효율적인 인페인팅(0.3초)을 달성하여, 편집당 수 분이 소요되는 기존 방법들에 비해 상호작용 경험을 크게 개선합니다. 드래그 입력을 직접 표준 인페인팅 형식으로 변환함으로써, 우리의 접근 방식은 아키텍처 수정 없이도 모든 인페인팅 모델에 대한 범용 어댑터 역할을 하며, 인페인팅 기술의 모든 미래 개선 사항을 자동으로 상속받습니다. 광범위한 실험을 통해 우리의 방법이 실시간 성능을 유지하면서도 우수한 시각적 품질과 정밀한 제어를 달성함을 입증했습니다. 프로젝트 페이지: https://visual-ai.github.io/inpaint4drag/
이 포지션 페이퍼에서 우리는 빠르게 성장하는 AI 역량과 뒤처지는 안전성 진보 사이의 지속적인 격차를 다룹니다. 기존 패러다임은 사후 정렬과 안전 장치를 적용하지만 여전히 취약하고 반응적인 "AI를 안전하게 만들기(Make AI Safe)"와 본질적 안전성을 강조하지만 개방형 환경에서 예상치 못한 위험을 다루기 어려운 "안전한 AI 만들기(Make Safe AI)"로 나뉩니다. 따라서 우리는 생물학적 면역 체계에서 영감을 받아 안전성을 동적이고 적대적이며 지속적인 학습 과정으로 만드는 "안전한 AI 만들기" 패러다임의 새로운 공식화인 공진화에 의한 안전성(safe-by-coevolution)을 제안합니다. 이 비전을 실현하기 위해, 우리는 알려진 위협에 대한 저항성과 예상치 못한 위험에 대한 회복력을 통합한 실용적 프레임워크인 R^2AI(Resistant and Resilient AI)를 소개합니다. R^2AI는 빠르고 느린 안전 모델, 안전성 풍동을 통한 적대적 시뮬레이션 및 검증, 그리고 안전성과 역량이 공진화하도록 이끄는 지속적인 피드백 루프를 통합합니다. 우리는 이 프레임워크가 동적 환경에서 지속적인 안전성을 유지하기 위한 확장 가능하고 선제적인 경로를 제공하며, AI가 AGI와 ASI로 나아가면서 단기적 취약성과 장기적 실존적 위험을 모두 해결할 수 있다고 주장합니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 새로운 작업, 양식 및 환경에 빠르게 적응할 수 있는 범용 구현 에이전트를 실현하기 위한 유망한 접근법입니다. 그러나 VLA를 해석하고 조종하는 방법은 기존의 로봇공학 파이프라인에 비해 크게 뒤처져 있습니다. 기존 로봇공학 파이프라인은 운동학, 동역학 및 제어에 대한 명시적 모델에 기반을 두고 있습니다. 이러한 기계적 통찰력의 부족은 강건성과 설명 가능성이 중요한 실제 로봇공학에서 학습된 정책을 배포하는 데 있어 주요한 과제입니다. 대규모 언어 모델에 대한 기계적 해석 가능성의 발전에 영감을 받아, 우리는 VLA의 내부 표현을 통해 이를 해석하고 조종하는 최초의 프레임워크를 소개합니다. 이 프레임워크는 추론 시점에 모델 행동에 직접 개입할 수 있게 합니다. 우리는 트랜스포머 계층 내의 순방향 활성화를 토큰 임베딩 기저에 투영하여 속도와 방향과 같은 희소한 의미론적 방향을 식별합니다. 이러한 발견을 활용하여, 우리는 실시간으로 행동을 조절하는 일반적인 활성화 조종 방법을 소개합니다. 이 방법은 미세 조정, 보상 신호 또는 환경 상호작용 없이도 작동합니다. 우리는 이 방법을 최근 공개된 두 개의 VLA, Pi0와 OpenVLA에 대해 평가하고, 시뮬레이션(LIBERO)과 실제 로봇(UR5)에서의 제로샷 행동 제어를 입증합니다. 이 연구는 구현된 VLA의 해석 가능한 구성 요소가 체계적으로 제어에 활용될 수 있음을 보여줌으로써, 로봇공학에서 투명하고 조종 가능한 기초 모델을 위한 새로운 패러다임을 확립합니다.
스마트폰과 컴퓨터와 같은 다양한 플랫폼에서 GUI 에이전트의 효율성을 향상시키기 위해, 유연한 GUI 작업과 효율적인 단축키(예: API, 딥 링크)를 결합한 하이브리드 패러다임이 유망한 방향으로 부상하고 있습니다. 그러나 이러한 하이브리드 에이전트를 체계적으로 벤치마킹하기 위한 프레임워크는 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위한 첫걸음으로, 우리는 모바일 도메인에 특화된 GUI-단축키 하이브리드 에이전트의 평가를 선도하는 벤치마크인 MAS-Bench를 소개합니다. MAS-Bench는 미리 정의된 단축키를 사용하는 것을 넘어, 에이전트가 재사용 가능하고 저비용의 워크플로를 발견하고 생성함으로써 단축키를 자율적으로 생성하는 능력을 평가합니다. 이 벤치마크는 11개의 실제 애플리케이션에서 139개의 복잡한 작업, 88개의 미리 정의된 단축키(API, 딥 링크, RPA 스크립트) 지식 베이스, 그리고 7개의 평가 지표를 포함합니다. 작업은 GUI만으로도 해결 가능하도록 설계되었지만, 단축키를 지능적으로 활용함으로써 상당히 가속화될 수 있습니다. 실험 결과, 하이브리드 에이전트는 GUI만 사용하는 에이전트에 비해 훨씬 높은 성공률과 효율성을 달성했습니다. 이 결과는 또한 에이전트의 단축키 생성 능력을 평가하는 우리의 방법의 효과를 입증합니다. MAS-Bench는 중요한 평가 격차를 메우며, 더 효율적이고 강력한 지능형 에이전트를 개발하기 위한 미래의 발전을 위한 기초 플랫폼을 제공합니다.
CLIP과 같은 시각-언어 모델(VLMs)은 다양한 응용 분야에서 인상적인 제로샷 및 퓨샷 학습 능력을 보여주었습니다. 그러나 이러한 모델을 새로운 세분화된 도메인에 적응시키는 것은 프롬프트 엔지니어링에 대한 의존성과 전체 모델 미세 조정의 높은 비용으로 인해 여전히 어려운 과제입니다. 기존의 적응 접근 방식은 프롬프트 토큰 및 어댑터 모듈과 같은 추가 구성 요소에 의존하는데, 이는 적응 품질을 제한하고 모델을 불안정하게 만들며 사전 학습 중 습득한 풍부한 지식을 훼손할 수 있습니다. 본 연구에서는 CLIP-SVD를 제안합니다. 이는 특이값 분해(SVD)를 활용하여 추가 모듈을 주입하지 않고 CLIP의 내부 매개변수 공간을 수정하는 새로운 다중 모달 및 매개변수 효율적 적응 기술입니다. 구체적으로, 우리는 CLIP 매개변수 행렬의 특이값만 미세 조정하여 사전 학습된 모델을 유지하면서 도메인 적응을 위한 기저 벡터를 재조정합니다. 이 설계는 모델 전체 매개변수의 0.04%만 사용하여 향상된 적응 성능과 더 나은 일반화 능력을 보존할 수 있게 합니다. CLIP-SVD는 11개의 자연 데이터셋과 10개의 생물의학 데이터셋에서 최신 분류 결과를 달성하며, 퓨샷 설정에서 정확도와 일반화 측면에서 이전 방법들을 능가합니다. 또한, 우리는 자연 언어 기반 접근 방식을 활용하여 CLIP 적응의 효과와 동적 특성을 분석함으로써 CLIP-SVD의 해석 가능성을 제공합니다. 코드는 https://github.com/HealthX-Lab/CLIP-SVD에서 공개되어 있습니다.
고품질이며 논리적으로 타당한 데이터의 부족은 대규모 언어 모델(LLMs)의 수학적 추론 능력을 발전시키는 데 있어 중요한 병목 현상입니다. 우리의 연구는 이 문제에 직면하여 수십 년간의 자동 정리 증명 연구를 확장 가능한 데이터 엔진으로 전환합니다. 오류가 발생하기 쉬운 LLMs나 Lean 및 Isabelle과 같은 복잡한 증명 보조 도구의 구문에 의존하는 대신, 우리의 프레임워크는 TPTP 공리 라이브러리에서 E-prover의 포화 능력을 활용하여 방대하고 검증된 정리 코퍼스를 도출합니다. 우리의 파이프라인은 원칙적이고 단순합니다: 공리를 포화시키고, "흥미로운" 정리를 필터링하며, 과제를 생성합니다. LLMs를 사용하지 않음으로써, 우리는 구조적으로 사실 오류를 제거합니다. 이 순수 기호 데이터는 세 가지 난이도 조절 과제로 변환됩니다: 함의 검증, 전제 선택, 그리고 증명 재구성입니다. 최첨단 모델에 대한 제로샷 실험은 깊고 구조적인 추론이 필요한 과제에서 성능이 급격히 저하되는 명확한 약점을 보여줍니다. 우리의 프레임워크는 이 격차를 측정할 수 있는 진단 도구와 이를 해결하기 위한 확장 가능한 기호 학습 데이터의 원천을 제공합니다. 우리는 코드와 데이터를 공개적으로 제공합니다. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
LiDAR 포인트 클라우드 정합은 로봇의 인식 및 탐색에 있어 기본적인 요소입니다. 그러나 기하학적으로 퇴화된 환경이나 좁은 공간에서는 정합 문제가 불안정해져 해의 불안정성과 정확도 저하를 초래합니다. 기존의 접근법들은 이러한 문제를 해결하려 시도했지만, 핵심적인 과제인 불안정성을 정확히 탐지, 해석, 해결하는 데는 실패하여 탐지 누락이나 왜곡된 해를 초래했습니다. 본 연구에서는 이러한 불안정한 정합 문제를 체계적으로 해결하기 위해 세 가지 통합된 혁신을 도입한 DCReg 프레임워크를 소개합니다. 첫째, DCReg는 헤시안 행렬에 Schur 보수 분해를 적용하여 신뢰할 수 있는 불안정성 탐지를 달성합니다. 이 기법은 정합 문제를 깔끔한 회전 및 병진 부분공간으로 분리함으로써 기존 분석에서 퇴화 패턴을 가리는 결합 효과를 제거합니다. 둘째, 이러한 깔끔한 부분공간 내에서 수학적 고유공간과 물리적 운동 방향 간의 명시적 매핑을 설정하는 정량적 특성화 기법을 개발하여, 어떤 특정 운동이 제약을 받지 않는지에 대한 실행 가능한 통찰을 제공합니다. 마지막으로, 이 깔끔한 부분공간을 활용하여 표적 완화 전략을 설계합니다: 이는 식별된 불안정한 방향만을 선택적으로 안정화하면서 관측 가능한 공간 내의 모든 잘 제약된 정보를 보존하는 새로운 전처리기입니다. 이를 통해 단일 물리적 해석 가능한 매개변수를 사용한 Preconditioned Conjugate Gradient 방법을 통해 효율적이고 강력한 최적화가 가능합니다. 다양한 환경에서의 광범위한 실험을 통해 DCReg가 최신 방법 대비 최소 20% - 50%의 위치 정확도 향상과 5-100배의 속도 향상을 달성함을 입증했습니다. 우리의 구현은 https://github.com/JokerJohn/DCReg에서 확인할 수 있습니다.