번역이 포함된 일일 선별된 AI 연구 논문
최근 수많은 오픈소스 기반 모델들이 등장하며, 일부 주목받는 분야에서 폐쇄형 모델에 근접한 성능을 보이며 눈부신 발전을 이루었습니다. 그러나 높은 가치를 지니지만 더 도전적인 과학 전문 분야에서는 여전히 전문가 모델에 의존하거나, 일반 기반 모델의 발전이 대중적인 분야에 비해 크게 뒤처져 있어 과학 연구를 혁신하기에는 턱없이 부족하며, 이러한 과학 분야에서 오픈소스 모델과 폐쇄형 모델 간의 상당한 격차가 존재합니다. 이러한 격차를 줄이고 인공 일반 지능(AGI)으로 한 걸음 더 나아가기 위해, 우리는 일반적인 이해와 추론 능력을 갖추고 다양한 과학 모달 데이터를 분석할 수 있는 전문 지식을 가진 특화된 일반주의 모델인 Intern-S1을 소개합니다. Intern-S1은 280억 개의 활성화된 매개변수와 2,410억 개의 총 매개변수를 가진 다중 모달 Mixture-of-Experts(MoE) 모델로, 과학 분야에서 나온 2.5T 토큰을 포함하여 총 5T 토큰에 대해 지속적으로 사전 학습되었습니다. 사후 학습 단계에서, Intern-S1은 오프라인 및 온라인 강화 학습(RL)을 InternBootCamp에서 진행하며, 여기서 우리는 1,000개 이상의 작업을 동시에 RL 훈련에 통합하기 위해 Mixture-of-Rewards(MoR)를 제안합니다. 알고리즘, 데이터, 훈련 시스템의 통합 혁신을 통해, Intern-S1은 온라인 RL 훈련에서 최상위 성능을 달성했습니다. 종합 평가 벤치마크에서, Intern-S1은 일반 추론 작업에서 오픈소스 모델 중 경쟁력 있는 성능을 보였으며, 과학 분야에서는 오픈소스 모델을 크게 앞섰고, 분자 합성 계획, 반응 조건 예측, 결정체의 열역학적 안정성 예측과 같은 전문 작업에서 폐쇄형 최첨단 모델을 능가했습니다. 우리의 모델은 https://huggingface.co/internlm/Intern-S1에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 자기 일관성과 다수결 투표와 같은 테스트 시간 스케일링 방법을 통해 추론 작업에서 큰 잠재력을 보여주었습니다. 그러나 이러한 접근 방식은 정확도가 점차 감소하고 높은 계산 오버헤드를 초래하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 테스트 시간에 추론 효율성과 성능을 모두 향상시키는 간단하지만 강력한 방법인 Deep Think with Confidence(DeepConf)를 소개합니다. DeepConf는 모델 내부의 신뢰도 신호를 활용하여 생성 중 또는 생성 후에 저품질 추론 흔적을 동적으로 걸러냅니다. 이 방법은 추가적인 모델 학습이나 하이퍼파라미터 튜닝이 필요하지 않으며, 기존의 서비스 프레임워크에 원활하게 통합될 수 있습니다. 우리는 DeepConf를 다양한 추론 작업과 최신 오픈소스 모델(예: Qwen 3 및 GPT-OSS 시리즈)에서 평가했습니다. 특히, AIME 2025와 같은 도전적인 벤치마크에서 DeepConf@512는 최대 99.9%의 정확도를 달성하고, 전체 병렬 사고에 비해 생성된 토큰을 최대 84.7%까지 줄였습니다.
본 논문은 GUI-Owl을 소개하며, 이는 데스크톱 및 모바일 환경에서의 10가지 GUI 벤치마크에서 오픈소스 종단 간(end-to-end) 모델 중 최첨단 성능을 달성한 기초 GUI 에이전트 모델입니다. GUI-Owl은 그라운딩(grounding), 질의 응답, 계획 수립, 의사 결정, 절차적 지식을 포괄합니다. GUI-Owl-7B는 AndroidWorld에서 66.4, OSWorld에서 29.4의 성능을 달성했습니다. 이를 기반으로, 우리는 Mobile-Agent-v3를 제안하며, 이는 AndroidWorld에서 73.3, OSWorld에서 37.7의 성능으로 더욱 향상된 범용 GUI 에이전트 프레임워크로, 오픈소스 GUI 에이전트 프레임워크의 새로운 최첨단을 설정했습니다. GUI-Owl은 세 가지 주요 혁신을 통합합니다: (1) 대규모 환경 인프라: Android, Ubuntu, macOS, Windows를 아우르는 클라우드 기반 가상 환경으로, Self-Evolving GUI Trajectory Production 프레임워크를 가능하게 합니다. 이는 자동화된 질의 생성과 정확성 검증을 통해 고품질 상호작용 데이터를 생성하며, GUI-Owl을 활용하여 궤적을 반복적으로 개선함으로써 자기 개선 루프를 형성합니다. 이는 다양한 데이터 파이프라인을 지원하고 수동 주석 작업을 줄입니다. (2) 다양한 기초 에이전트 능력: UI 그라운딩, 계획 수립, 액션 의미론, 추론 패턴을 통합함으로써, GUI-Owl은 종단 간 의사 결정을 지원하며 다중 에이전트 시스템에서 모듈식 구성 요소로 작동할 수 있습니다. (3) 확장 가능한 환경 강화 학습(RL): 우리는 실세계 정렬을 위한 완전 비동기식 훈련을 포함한 확장 가능한 강화 학습 프레임워크를 개발했습니다. 또한 온라인 RL을 위한 Trajectory-aware Relative Policy Optimization(TRPO)을 도입하여 OSWorld에서 34.9의 성능을 달성했습니다. GUI-Owl과 Mobile-Agent-v3는 https://github.com/X-PLUG/MobileAgent에서 오픈소스로 제공됩니다.
도구 호출은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하기 위한 핵심 능력으로 부상했습니다. 모델 컨텍스트 프로토콜(MCP)은 도구 통합을 위한 강력한 표준화된 프레임워크를 제공하지만, AI 에이전트가 현실적이고 동적인 시나리오에서 다양한 MCP 도구를 사용하여 다단계 작업을 효과적으로 해결하는 능력을 벤치마킹하는 데는 상당한 격차가 있습니다. 본 연구에서는 웹 검색, 파일 작업, 수학적 추론, 데이터 분석을 포함한 여러 MCP 도구의 조정된 사용이 필요한 101개의 신중하게 선별된 실제 쿼리로 구성된 LiveMCP-101 벤치마크를 제시합니다. 이 쿼리들은 반복적인 LLM 재작성과 수동 검토를 통해 정제되었습니다. 더 나아가, 우리는 원시 API 출력보다는 실제 실행 계획을 활용한 새로운 평가 방식을 도입하여 현실 세계 환경의 진화하는 특성을 더 잘 반영합니다. 실험 결과, 최첨단 LLM조차도 60% 미만의 성공률을 달성하며, 도구 조정에서의 주요한 도전 과제를 강조합니다. 상세한 절제 연구와 오류 분석은 토큰 사용에서의 비효율성과 구별되는 실패 모드를 추가로 밝혀내며, 현재 모델을 발전시킬 구체적인 방향을 제시합니다. LiveMCP-101은 도구 사용을 통해 복잡한 작업을 신뢰성 있게 실행하는 자율적인 AI 시스템으로 나아가기 위한 현실 세계 에이전트 능력 평가의 엄격한 기준을 설정합니다.
우리는 통합 이미지 및 비디오 생성을 위한 고성능 기반 모델인 Waver를 소개합니다. Waver는 720p의 기본 해상도로 5초에서 10초 길이의 비디오를 직접 생성할 수 있으며, 이를 1080p로 업스케일링합니다. 이 모델은 단일 통합 프레임워크 내에서 텍스트-투-비디오(T2V), 이미지-투-비디오(I2V), 텍스트-투-이미지(T2I) 생성을 동시에 지원합니다. 우리는 모달리티 정렬을 강화하고 훈련 수렴을 가속화하기 위해 Hybrid Stream DiT 아키텍처를 도입했습니다. 훈련 데이터의 품질을 보장하기 위해, 우리는 포괄적인 데이터 큐레이션 파이프라인을 구축하고 MLLM 기반 비디오 품질 모델을 수동으로 주석 처리 및 훈련시켜 최고 품질의 샘플을 필터링했습니다. 또한, 고품질 비디오 생성을 용이하게 하기 위해 상세한 훈련 및 추론 레시피를 제공합니다. 이러한 기여를 바탕으로, Waver는 복잡한 동작을 포착하는 데 탁월하며, 비디오 합성에서 우수한 동작 범위와 시간적 일관성을 달성합니다. 특히, Artificial Analysis의 T2V 및 I2V 리더보드(2025년 7월 30일 10:00 GMT+8 기준)에서 Top 3 안에 랭크되어, 기존 오픈소스 모델을 꾸준히 능가하고 최신 상용 솔루션과 동등하거나 그 이상의 성능을 보여줍니다. 우리는 이 기술 보고서가 커뮤니티가 고품질 비디오 생성 모델을 더 효율적으로 훈련하고 비디오 생성 기술의 발전을 가속화하는 데 도움이 되기를 바랍니다. 공식 페이지: https://github.com/FoundationVision/Waver.
3D 콘텐츠 생성은 VR/AR 및 구체화된 AI(Embodied AI) 분야에서의 응용 가능성으로 인해 최근 상당한 연구 관심을 끌고 있습니다. 본 연구에서는 단일 장면 이미지 내에서 여러 3D 자산을 합성하는 어려운 과제를 다룹니다. 구체적으로, 우리의 기여는 다음과 같이 네 가지로 요약됩니다: (i) 장면 이미지와 해당 객체 마스크를 입력으로 받아 여러 3D 자산을 기하학적 구조와 텍스처와 함께 동시에 생성하는 새로운 프레임워크인 SceneGen을 제안합니다. 특히, SceneGen은 최적화나 자산 검색 없이도 작동합니다; (ii) 특징 추출 모듈 내에서 시각적 및 기하학적 인코더로부터 지역적 및 전역적 장면 정보를 통합하는 새로운 특징 집계 모듈을 소개합니다. 이는 위치 헤드와 결합되어 단일 순방향 전달로 3D 자산과 그들의 상대적 공간 위치를 생성할 수 있게 합니다; (iii) SceneGen이 다중 이미지 입력 시나리오로 직접 확장 가능함을 입증합니다. 단일 이미지 입력으로만 훈련되었음에도 불구하고, 우리의 아키텍처 설계는 다중 이미지 입력 시 향상된 생성 성능을 가능하게 합니다; 그리고 (iv) 광범위한 정량적 및 정성적 평가를 통해 우리 접근법의 효율성과 강력한 생성 능력을 확인합니다. 우리는 이 패러다임이 고품질 3D 콘텐츠 생성을 위한 새로운 솔루션을 제공하며, 하위 작업에서의 실용적 응용을 발전시킬 잠재력이 있다고 믿습니다. 코드와 모델은 https://mengmouxu.github.io/SceneGen에서 공개될 예정입니다.
최근 몇 년 동안 대규모 언어 모델의 능력이 깊이와 폭에서 급속히 발전함에 따라, 이에 상응하는 다양한 평가 벤치마크가 점점 더 많이 등장하고 있습니다. 모델 성능을 정량적으로 평가하는 도구로서, 벤치마크는 모델 능력을 측정하는 핵심 수단일 뿐만 아니라 모델 개발 방향을 안내하고 기술 혁신을 촉진하는 중요한 요소이기도 합니다. 우리는 대규모 언어 모델 벤치마크의 현황과 발전을 처음으로 체계적으로 검토하여, 283개의 대표적인 벤치마크를 일반 능력, 도메인 특화, 목표 특화의 세 가지 범주로 분류했습니다. 일반 능력 벤치마크는 핵심 언어학, 지식, 추론 등의 측면을 다루며, 도메인 특화 벤치마크는 자연과학, 인문사회과학, 공학 기술 등의 분야에 초점을 맞춥니다. 목표 특화 벤치마크는 위험성, 신뢰성, 에이전트 등에 주목합니다. 우리는 현재의 벤치마크가 데이터 오염으로 인한 점수 부풀림, 문화 및 언어적 편향으로 인한 불공정한 평가, 과정 신뢰성과 동적 환경에 대한 평가 부족 등의 문제를 가지고 있음을 지적하고, 향후 벤치마크 혁신을 위한 참조 가능한 설계 패러다임을 제시합니다.
대형 언어 모델(LLM)의 최근 발전으로 인해 AI 에이전트가 과학적 제안을 자율적으로 생성하고, 실험을 수행하며, 논문을 작성하고, 동료 평가를 수행할 수 있게 되었습니다. 그러나 이러한 AI 생성 연구 콘텐츠의 급증은 분열적이고 대체로 폐쇄적인 출판 생태계와 충돌하고 있습니다. 전통적인 저널과 학회는 인간 동료 평가에 의존하므로 확장이 어렵고, AI 생성 연구 콘텐츠를 수용하는 데 소극적입니다. 기존의 프리프린트 서버(예: arXiv)는 엄격한 품질 관리 메커니즘이 부족합니다. 결과적으로, 상당량의 고품질 AI 생성 연구는 적절한 발표 장소가 부족하여 과학적 진보를 촉진할 잠재력을 저해하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 인간과 AI 과학자를 위한 차세대 오픈 액세스 플랫폼인 aiXiv를 소개합니다. aiXiv의 다중 에이전트 아키텍처는 연구 제안과 논문이 인간과 AI 과학자 모두에 의해 제출, 검토 및 반복적으로 개선될 수 있도록 합니다. 또한 API와 MCP 인터페이스를 제공하여 이질적인 인간과 AI 과학자들의 원활한 통합을 가능하게 하여, 자율적인 과학적 발견을 위한 확장 가능하고 확장성 있는 생태계를 조성합니다. 광범위한 실험을 통해, 우리는 aiXiv가 반복적인 수정과 검토를 거친 후 AI 생성 연구 제안과 논문의 품질을 크게 향상시키는 신뢰할 수 있고 견고한 플랫폼임을 입증했습니다. 우리의 작업은 AI 과학자를 위한 차세대 오픈 액세스 생태계의 기반을 마련함으로써, 고품질 AI 생성 연구 콘텐츠의 출판과 보급을 가속화합니다. 코드는 https://github.com/aixiv-org에서 확인할 수 있으며, 웹사이트는 https://forms.gle/DxQgCtXFsJ4paMtn8에서 이용 가능합니다.
파라메트릭 신체 모델은 다양한 자세, 체형, 표정에 걸쳐 인간을 표현력 있게 3D로 표현하며, 일반적으로 등록된 3D 메시에 대한 기저를 학습하여 도출됩니다. 그러나 기존의 인간 메시 모델링 접근법은 제한된 훈련 데이터 다양성과 제한적인 모델링 가정으로 인해 다양한 신체 자세와 체형에 걸친 세부적인 변이를 포착하는 데 어려움을 겪습니다. 더욱이, 일반적인 패러다임은 선형 기저를 사용하여 외부 신체 표면을 먼저 최적화한 다음, 표면 정점으로부터 내부 골격 관절을 회귀합니다. 이 접근법은 내부 골격과 외부 연조직 간의 문제적인 의존성을 도입하여 신장과 뼈 길이에 대한 직접적인 제어를 제한합니다. 이러한 문제를 해결하기 위해, 우리는 240대의 동기화된 카메라로 캡처된 60만 개의 고해상도 스캔으로부터 학습된 고충실도 신체 모델인 ATLAS를 제시합니다. 이전 방법과 달리, 우리는 메시 표현을 인간 골격에 기반을 두어 형태와 골격 기저를 명시적으로 분리합니다. 이러한 분리는 향상된 형태 표현력, 신체 속성의 세밀한 맞춤 설정, 그리고 외부 연조직 특성과 독립적인 키포인트 피팅을 가능하게 합니다. ATLAS는 다양한 자세에서 보이지 않는 대상자를 더 정확하게 피팅함으로써 기존 방법을 능가하며, 정량적 평가는 우리의 비선형 자세 보정이 선형 모델에 비해 복잡한 자세를 더 효과적으로 포착함을 보여줍니다.
최근 확산 모델의 발전은 지시 기반 이미지 편집에 있어 놀라운 시각적 충실도를 가져왔습니다. 그러나 이러한 모델의 전역적 노이즈 제거 과정은 필연적으로 편집된 영역을 전체 이미지 맥락과 얽히게 하여, 의도하지 않은 부수적 수정과 편집 지시에 대한 충실도 저하를 초래합니다. 이와 대조적으로, 자기회귀 모델은 이미지 합성을 이산적 시각 토큰에 대한 순차적 과정으로 공식화함으로써 독자적인 패러다임을 제공합니다. 이들의 인과적 및 구성적 메커니즘은 확산 기반 방법의 충실도 문제를 자연스럽게 우회합니다. 본 논문에서는 이미지 편집을 다음 스케일 예측 문제로 재구성하는 시각적 자기회귀(VAR) 프레임워크인 VAREdit를 소개합니다. VAREdit는 원본 이미지 특징과 텍스트 지시를 조건으로 하여 다중 스케일 대상 특징을 생성함으로써 정밀한 편집을 달성합니다. 이 패러다임에서의 핵심 과제는 원본 이미지 토큰을 효과적으로 조건화하는 방법입니다. 우리는 가장 미세한 스케일의 원본 특징이 더 거친 대상 특징의 예측을 효과적으로 안내할 수 없다는 점을 관찰했습니다. 이러한 격차를 해소하기 위해, 우리는 스케일 정렬 참조(SAR) 모듈을 도입하여 첫 번째 자기 주의 계층에 스케일이 일치하는 조건화 정보를 주입합니다. VAREdit는 편집 충실도와 효율성 모두에서 상당한 진전을 보여줍니다. 표준 벤치마크에서 VAREdit는 선두 확산 기반 방법보다 30% 이상 높은 GPT-Balance 점수를 기록했습니다. 또한, 512x512 크기의 편집을 1.2초 내에 완료하여 유사한 크기의 UltraEdit보다 2.2배 빠른 성능을 보입니다. 모델은 https://github.com/HiDream-ai/VAREdit에서 확인할 수 있습니다.
인터랙티브 디지털 지도는 사람들이 여행하고 세계에 대해 배우는 방식을 혁신적으로 바꿔 놓았습니다. 그러나 이러한 지도는 GIS 데이터베이스(예: 도로 네트워크, POI 인덱스)에 미리 구조화된 데이터에 의존하기 때문에, 세계가 어떻게 보이는지와 관련된 지리 시각적 질문에 대응하는 데 한계가 있습니다. 우리는 '지리 시각적 에이전트(Geo-Visual Agents)'에 대한 비전을 소개합니다. 이는 대규모 지리 공간 이미지 저장소(예: Google 스트리트 뷰, TripAdvisor, Yelp와 같은 장소 기반 사진, 위성 사진과 같은 항공 이미지)를 전통적인 GIS 데이터 소스와 결합하여 분석함으로써, 세밀한 시각-공간적 질문을 이해하고 응답할 수 있는 멀티모달 AI 에이전트입니다. 우리는 이 비전을 정의하고, 감지 및 상호작용 접근 방식을 설명하며, 세 가지 예시를 제공하고, 향후 연구를 위한 주요 도전 과제와 기회를 열거합니다.
희소한 뷰에서 3D 인체를 재구성하는 것은 관련 애플리케이션의 범위를 넓히는 데 있어 중요한 주제로 주목받아 왔다. 본 논문에서는 단 두 장의 이미지, 즉 정면과 후면 뷰만으로 인체를 재구성하는 매우 도전적이지만 가치 있는 과제를 제안한다. 이는 사용자가 자신만의 3D 디지털 인간을 생성하는 데 있어 진입 장벽을 크게 낮출 수 있다. 주요 도전 과제는 3D 일관성을 구축하고 매우 희소한 입력에서 누락된 정보를 복원하는 데 있다. 우리는 기초 재구성 모델을 기반으로 한 기하학적 재구성 모델을 재설계하여, 입력 이미지가 광범위한 인간 데이터 훈련과 겹치는 부분이 적더라도 일관된 포인트 클라우드를 예측할 수 있도록 했다. 더불어, 누락된 색상 정보를 보완하기 위해 강화 알고리즘을 적용하여 완전한 색상 정보를 가진 인체 포인트 클라우드를 얻고, 이를 더 나은 렌더링 품질을 위해 3D 가우시안으로 직접 변환한다. 실험 결과, 우리의 방법은 단일 NVIDIA RTX 4090에서 1024x1024 해상도의 두 장의 이미지를 사용하여 190ms 내에 전체 인체를 재구성할 수 있으며, THuman2.0 및 크로스 도메인 데이터셋에서 최첨단 성능을 보여준다. 또한, 저비용 모바일 장치로 캡처된 이미지로도 인체 재구성을 완료할 수 있어 데이터 수집 요구 사항을 줄인다. 데모와 코드는 https://hustvl.github.io/Snap-Snap/에서 확인할 수 있다.
대규모 음성-언어 모델(Large Speech-Language Models, LSLMs)의 개발은 파편화된 아키텍처와 투명성 부족으로 인해 지연되어 왔으며, 이는 연구의 체계적인 비교와 재현성을 저해해 왔다. 비전-언어 분야와 달리, LSLM 분야는 모델 가중치를 해당 학습 데이터 및 구성 없이 공개하는 관행이 일반적이다. 이러한 중요한 격차를 해결하기 위해, 우리는 대규모 음성-언어 모델링을 위한 최초의 완전히 개방된 엔드투엔드 프레임워크인 LLaSO를 소개한다. LLaSO는 커뮤니티에 세 가지 필수 리소스를 제공한다: (1) 1,200만 개의 음성-텍스트 정렬 코퍼스인 LLaSO-Align, (2) 1,350만 개의 다중 작업 명령어 튜닝 데이터셋인 LLaSO-Instruct, 그리고 (3) 표준화된 평가를 위한 재현 가능한 벤치마크인 LLaSO-Eval. 우리의 프레임워크를 검증하기 위해, 우리는 공개 데이터만으로 학습된 38억 개의 파라미터를 가진 참조 모델인 LLaSO-Base를 구축하고 공개한다. 이 모델은 정규화 점수 0.72를 달성하여, 비교 가능한 모델들을 능가하는 강력하고 재현 가능한 기준선을 확립한다. 우리의 분석은 더 넓은 학습 범위가 성능을 향상시키지만, 특히 순수 오디오 시나리오에서 보이지 않는 작업에 대한 상당한 일반화 격차가 지속됨을 보여준다. 데이터, 벤치마크, 모델의 완전한 스택을 공개함으로써, LLaSO는 연구 노력을 통합하고 LSLM 분야에서 커뮤니티 주도의 진전을 가속화하기 위한 기초적인 개방형 표준을 확립한다. 우리는 코드, 데이터셋, 사전 학습된 모델, 그리고 결과를 https://github.com/EIT-NLP/LLaSO에서 공개한다.
비디오를 이해하는 것은 개방형 질문에 답하는 것 이상을 요구하며, 사건이 언제 발생하는지 정확히 파악하고 시간에 걸쳐 엔티티들이 어떻게 상호작용하는지를 파악할 수 있는 능력이 필요합니다. 최근 비디오 LLM(Video Large Language Models)은 전체적인 추론에서 놀라운 진전을 이루었지만, 시간적 인식 측면에서는 여전히 거친 수준에 머물러 있습니다: 타임스탬프가 암묵적으로만 인코딩되고, 프레임 수준의 특징은 연속성을 포착하는 데 약하며, 언어와 비전의 정렬이 종종 관심 대상 엔티티에서 벗어나는 경향이 있습니다. 본 논문에서는 이러한 한계를 극복하기 위해 세 가지 주요 혁신을 도입한 Grounded VideoDiT를 소개합니다. 첫째, Diffusion Temporal Latent (DTL) 인코더는 경계 민감성을 강화하고 시간적 일관성을 유지합니다. 둘째, 객체 기반 표현은 쿼리 엔티티를 지역화된 시각적 증거에 명시적으로 연결하여 정렬을 강화합니다. 셋째, 이산적 시간 토큰을 포함한 혼합 토큰 방식은 명시적인 타임스탬프 모델링을 제공하여 세밀한 시간적 추론을 가능하게 합니다. 이러한 설계를 통해 Grounded VideoDiT는 강력한 기반 능력을 갖추게 되었으며, Charades STA, NExT GQA 및 여러 VideoQA 벤치마크에서 최첨단 결과를 통해 검증되었습니다.
프로세스 보상 모델(PRMs)은 대규모 언어 모델(LLMs)의 중간 추론 과정을 감독하기 위한 유망한 프레임워크로 부상했으나, 기존 PRMs는 주로 일반적인 도메인이나 과학, 기술, 공학, 수학(STEM) 분야에서 훈련되어 금융과 같은 도메인 특화적 맥락에서는 한계를 보입니다. 금융 분야에서는 추론이 더 구조화되고 상징적이며 사실적 및 규제적 정확성에 민감합니다. 우리는 금융 작업에서 중간 추론 단계를 평가하기 위해 도메인 특화적이고 궤적 인식(aware) PRM인 Fin-PRM을 소개합니다. Fin-PRM은 단계별 및 궤적별 보상 감독을 통합하여 금융 논리에 부합하는 추론 흔적을 세밀하게 평가할 수 있습니다. 우리는 Fin-PRM을 오프라인 및 온라인 보상 학습 설정에 적용하여 세 가지 주요 응용을 지원합니다: (i) 증류 기반 지도 미세 조정을 위한 고품질 추론 궤적 선택, (ii) 강화 학습을 위한 밀집 프로세스 수준 보상 제공, (iii) 테스트 시 보안 Best-of-N 추론을 안내. CFLUE 및 FinQA를 포함한 금융 추론 벤치마크에서의 실험 결과는 Fin-PRM이 궤적 선택 품질에서 일반 목적 PRMs 및 강력한 도메인 베이스라인을 지속적으로 능가함을 보여줍니다. Fin-PRM으로 훈련된 다운스트림 모델은 베이스라인 대비 상당한 개선을 보이며, 지도 학습에서 12.9%, 강화 학습에서 5.2%, 테스트 시간 성능에서 5.1%의 향상을 달성했습니다. 이러한 결과는 전문가 수준의 금융 추론과 LLMs를 정렬하기 위한 도메인 특화 보상 모델링의 가치를 강조합니다. 우리의 프로젝트 리소스는 https://github.com/aliyun/qwen-dianjin에서 확인할 수 있습니다.
AI 동반자 관계, 즉 사용자가 AI 시스템과 감정적 유대를 형성하는 현상은 긍정적이면서도 우려스러운 함의를 지닌 중요한 패턴으로 부상하고 있다. 본 연구에서는 언어 모델의 동반자 행동을 평가하기 위한 벤치마크인 상호작용 및 기계 애착 벤치마크(INTIMA)를 소개한다. 심리학 이론과 사용자 데이터를 바탕으로, 우리는 4개 범주에 걸쳐 31가지 행동과 368개의 표적 프롬프트로 구성된 분류 체계를 개발하였다. 이러한 프롬프트에 대한 응답은 동반자 관계 강화, 경계 유지, 중립으로 평가된다. INTIMA를 Gemma-3, Phi-4, o3-mini, Claude-4에 적용한 결과, 모든 모델에서 동반자 관계 강화 행동이 훨씬 더 일반적으로 나타났으나, 모델 간에 뚜렷한 차이가 관찰되었다. 상업적 제공자들은 벤치마크의 더 민감한 부분에서 서로 다른 범주를 우선시하는데, 이는 사용자의 웰빙을 위해 적절한 경계 설정과 감정적 지원이 모두 중요하다는 점에서 우려스러운 부분이다. 이러한 발견은 감정적으로 민감한 상호작용을 처리하는 데 있어 더 일관된 접근 방식의 필요성을 강조한다.