번역이 포함된 일일 선별된 AI 연구 논문
검증 가능한 보상을 활용한 대규모 강화 학습(RLVR)은 단일 턴 추론 작업에서 대규모 언어 모델(LLM)의 잠재력을 활용하는 데 있어 그 효과를 입증했습니다. 현실적인 추론 시나리오에서, LLM은 종종 외부 도구를 활용하여 문제 해결 과정을 지원할 수 있습니다. 그러나 현재의 강화 학습 알고리즘은 모델의 내재적인 장기 추론 능력과 다중 턴 도구 상호작용 능력 간의 균형을 적절히 맞추지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 다중 턴 LLM 기반 에이전트를 훈련하기 위해 특화된 새로운 에이전트 강화 학습 알고리즘인 Agentic Reinforced Policy Optimization(ARPO)을 제안합니다. 예비 실험을 통해, LLM이 외부 도구와 상호작용한 직후 생성된 토큰의 엔트로피 분포가 증가하는 등 매우 불확실한 행동을 보이는 경향이 있음을 관찰했습니다. 이러한 관찰에 기반하여, ARPO는 엔트로피 기반의 적응형 롤아웃 메커니즘을 도입하여 전역 궤적 샘플링과 단계별 샘플링을 동적으로 균형 있게 조정함으로써 도구 사용 후 높은 불확실성이 있는 단계에서의 탐색을 촉진합니다. 또한, 이점 속성 추정을 통합함으로써 ARPO는 LLM이 단계별 도구 사용 상호작용에서의 이점 차이를 내재화할 수 있도록 합니다. 우리는 계산적 추론, 지식 추론, 깊이 탐색 분야의 13가지 도전적인 벤치마크에서 실험을 진행하여 ARPO가 궤적 수준의 강화 학습 알고리즘을 능가하는 우수성을 입증했습니다. 특히, ARPO는 기존 방법이 요구하는 도구 사용 예산의 절반만으로도 향상된 성능을 달성하며, LLM 기반 에이전트를 실시간 동적 환경에 맞추는 확장 가능한 솔루션을 제공합니다. 우리의 코드와 데이터셋은 https://github.com/dongguanting/ARPO에서 공개되었습니다.
대형 언어 모델(LLMs)은 강력한 능력을 보여주었지만 근본적으로 정적이며, 새로운 작업, 진화하는 지식 영역, 또는 동적인 상호작용 맥락에 맞춰 내부 매개변수를 적응시킬 수 없습니다. LLMs가 점점 더 개방적이고 상호작용적인 환경에 배포됨에 따라, 이러한 정적 특성은 실시간으로 적응적으로 추론, 행동, 진화할 수 있는 에이전트의 필요성을 야기하는 중요한 병목 현상이 되었습니다. 정적 모델의 확장에서 자기 진화 에이전트 개발로의 이러한 패러다임 전환은 데이터, 상호작용, 경험으로부터 지속적인 학습과 적응을 가능하게 하는 아키텍처와 방법에 대한 관심을 불러일으켰습니다. 본 논문은 자기 진화 에이전트에 대한 첫 번째 체계적이고 포괄적인 리뷰를 제공하며, 무엇을 진화시킬 것인지, 언제 진화시킬 것인지, 어떻게 진화시킬 것인지라는 세 가지 기본 차원을 중심으로 구성됩니다. 우리는 에이전트 구성 요소(예: 모델, 메모리, 도구, 아키텍처) 간의 진화 메커니즘을 검토하고, 적응 방법을 단계별(예: 테스트 시간 내, 테스트 시간 간)로 분류하며, 진화적 적응을 이끄는 알고리즘 및 아키텍처 설계(예: 스칼라 보상, 텍스트 피드백, 단일 에이전트 및 다중 에이전트 시스템)를 분석합니다. 또한, 자기 진화 에이전트를 위해 맞춤화된 평가 지표와 벤치마크를 분석하고, 코딩, 교육, 헬스케어와 같은 분야에서의 응용 사례를 강조하며, 안전성, 확장성, 공진화 역학에서의 중요한 도전 과제와 연구 방향을 식별합니다. 자기 진화 에이전트를 이해하고 설계하기 위한 구조화된 프레임워크를 제공함으로써, 본 논문은 연구 및 실제 배포에서 적응형 에이전트 시스템을 발전시키기 위한 로드맵을 제시하고, 궁극적으로 다양한 작업에서 인간 수준 이상의 지능을 발휘하며 자율적으로 진화하는 인공 초지능(ASI)의 실현을 위한 길을 밝힙니다.
실제 사용자 생성 짧은 동영상, 특히 WeChat 채널과 TikTok과 같은 플랫폼에서 배포되는 동영상들은 모바일 인터넷을 지배하고 있습니다. 그러나 현재의 대규모 멀티모달 모델들은 효과적인 동영상 검색 및 추천, 그리고 신흥 동영상 애플리케이션의 기반이 되는 필수적인 시간 구조화된 상세하고 심층적인 동영상 이해 능력이 부족합니다. 실제 짧은 동영상을 이해하는 것은 복잡한 시각 요소, 시각 및 오디오 모두에서 높은 정보 밀도, 그리고 감정 표현과 관점 전달에 초점을 맞춘 빠른 속도로 인해 사실상 어려운 과제입니다. 이는 시각, 오디오, 텍스트를 포함한 멀티모달 정보를 효과적으로 통합하기 위한 고급 추론을 요구합니다. 본 연구에서는 원시 동영상 입력으로부터 시각, 오디오, 텍스트 신호를 종단 간 처리하여 구조화된 이해를 수행하는 멀티모달 모델인 ARC-Hunyuan-Video를 소개합니다. 이 모델은 다중 세분화 타임스탬프 동영상 캡셔닝 및 요약, 개방형 동영상 질의응답, 시간적 동영상 그라운딩, 동영상 추론이 가능합니다. 자동화된 주석 파이프라인에서 얻은 고품질 데이터를 활용하여, 우리의 컴팩트한 7B 파라미터 모델은 사전 학습, 지시 미세 조정, 콜드 스타트, 강화 학습(RL) 사후 학습, 그리고 최종 지시 미세 조정을 포함한 포괄적인 학습 과정을 통해 훈련되었습니다. 우리가 도입한 벤치마크 ShortVid-Bench에 대한 정량적 평가와 질적 비교는 이 모델이 실제 동영상 이해에서 강력한 성능을 보여주며, 다양한 다운스트림 애플리케이션을 위해 제로샷 또는 소량의 샘플로 미세 조정을 지원함을 입증합니다. 우리 모델의 실제 생산 배포는 사용자 참여와 만족도에서 실질적이고 측정 가능한 개선을 가져왔으며, H20 GPU에서 1분 길이의 동영상에 대해 단 10초의 추론 시간을 보여주는 스트레스 테스트를 통해 그 놀라운 효율성을 입증받았습니다.
최첨단 대형 언어 모델(LLM)이 능력의 한계를 계속해서 넓혀가고 있지만, 이들의 배포는 여전히 GPU 기반 클라우드 인프라에 국한되어 있습니다. 우리는 이러한 패러다임에 도전하는 SmallThinker를 제안합니다. 이는 로컬 디바이스의 고유한 제약 조건인 약한 계산 능력, 제한된 메모리, 느린 저장 장치를 위해 처음부터 설계된 LLM 패밀리입니다. 클라우드를 위해 구축된 기존 모델을 주로 압축하는 전통적인 접근 방식과 달리, 우리는 이러한 한계 내에서도 뛰어난 성능을 발휘할 수 있도록 SmallThinker를 처음부터 설계했습니다. 우리의 혁신은 제약 조건을 설계 원칙으로 전환하는 배포 인식 아키텍처에 있습니다. 첫째, 세분화된 Mixture-of-Experts(MoE)와 희소 피드포워드 네트워크를 결합한 2단계 희소 구조를 도입하여 모델 용량을 희생하지 않으면서도 계산 요구량을 크게 줄였습니다. 둘째, 느린 저장 장치의 I/O 병목 현상을 극복하기 위해, 우리는 사전 주의 라우터를 설계하여 공동 설계된 추론 엔진이 주의 계산을 수행하는 동안 저장 장치에서 전문가 파라미터를 미리 가져올 수 있도록 하여, 그렇지 않으면 온디바이스 추론을 마비시킬 저장 장치 지연 시간을 효과적으로 숨겼습니다. 셋째, 메모리 효율성을 위해 NoPE-RoPE 하이브리드 희소 주의 메커니즘을 활용하여 KV 캐시 요구량을 크게 줄였습니다. 우리는 SmallThinker-4B-A0.6B와 SmallThinker-21B-A3B를 공개하며, 이들은 최첨단 성능 점수를 달성하고 더 큰 LLM을 능가하기까지 합니다. 특히, 우리의 공동 설계 시스템은 비싼 GPU 하드웨어의 필요성을 대부분 제거합니다: Q4_0 양자화를 통해 두 모델 모두 일반 소비자용 CPU에서 20 토큰/초를 초과하며, 각각 1GB와 8GB의 메모리만 소비합니다. SmallThinker는 hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct와 hf.co/PowerInfer/SmallThinker-21BA3B-Instruct에서 공개적으로 이용 가능합니다.
다중 작업 학습(Multi-Task Learning, MTL)이 여러 작업 간 상호 보완적인 지식을 활용할 수 있다는 잠재력에도 불구하고, 기존의 다중 작업 최적화(Multi-Task Optimization, MTO) 기술들은 주로 최적화 도구 중심의 손실 스케일링 및 그래디언트 조작 전략을 통해 갈등을 해결하는 데 집중하고 있으며, 일관된 성능 향상을 제공하지 못하고 있다. 본 논문에서는 작업 간 상호작용이 자연스럽게 발생하는 공유 표현 공간이 기존 최적화 도구와 상호 보완적인 작업을 수행할 수 있는 풍부한 정보와 잠재력을 제공하며, 특히 MTO에서 거의 탐구되지 않은 작업 간 상호 보완성을 촉진할 수 있다고 주장한다. 이러한 직관은 Rep-MTL로 이어지며, Rep-MTL은 표현 수준의 작업 중요도를 활용하여 작업별 최적화와 공유 표현 학습 간의 상호작용을 정량화한다. 엔트로피 기반의 패널티와 샘플별 작업 간 정렬을 통해 이러한 중요도를 조정함으로써, Rep-MTL은 순수한 갈등 해결보다는 개별 작업의 효과적인 학습을 유지하며 부정적 전이(negative transfer)를 완화하고, 명시적으로 상호 보완적인 정보 공유를 촉진한다. 작업 변화(task-shift)와 도메인 변화(domain-shift) 시나리오를 모두 포함하는 네 가지 도전적인 MTL 벤치마크에서 실험을 수행하였다. 결과는 Rep-MTL이 기본적인 동일 가중치 정책과 함께 사용될 때도 경쟁력 있는 성능 향상과 유리한 효율성을 달성함을 보여준다. 표준 성능 지표를 넘어, 멱법칙(Power Law) 지수 분석은 Rep-MTL이 작업별 학습과 작업 간 공유를 균형 있게 조절하는 데 효과적임을 입증한다. 프로젝트 페이지는 HERE에서 확인할 수 있다.
시각적 관찰로부터 4차원 공간 지능을 재구성하는 것은 컴퓨터 비전 분야에서 오랫동안 핵심적이면서도 도전적인 과제로 자리 잡아 왔으며, 다양한 실제 응용 분야에서 널리 활용되고 있습니다. 이러한 응용 분야는 기본적인 시각적 요소의 재구성에 초점을 맞춘 영화와 같은 엔터테인먼트 영역부터, 상호작용 모델링과 물리적 현실감을 강조하는 구체화된 AI에 이르기까지 다양합니다. 3D 표현과 딥러닝 아키텍처의 급속한 발전에 힘입어 이 분야는 빠르게 진화하며 기존의 조사 범위를 뛰어넘었습니다. 또한, 기존의 조사들은 4D 장면 재구성의 계층적 구조에 대한 포괄적인 분석을 거의 제공하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 기존 방법들을 4차원 공간 지능의 다섯 가지 점진적 수준으로 조직화한 새로운 관점을 제시합니다: (1) 수준 1 -- 저수준 3D 속성(예: 깊이, 포즈, 포인트 맵)의 재구성; (2) 수준 2 -- 3D 장면 구성 요소(예: 객체, 인간, 구조물)의 재구성; (3) 수준 3 -- 4D 동적 장면의 재구성; (4) 수준 4 -- 장면 구성 요소 간의 상호작용 모델링; (5) 수준 5 -- 물리적 법칙과 제약 조건의 통합. 우리는 각 수준에서의 주요 도전 과제를 논의하고, 더 풍부한 4차원 공간 지능 수준으로 나아가기 위한 유망한 방향을 강조하며 이 조사를 마무리합니다. 지속적인 발전을 추적하기 위해, 우리는 최신 프로젝트 페이지를 유지 관리합니다: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
최근 Group Relative Policy Optimization(GRPO)와 같은 발전은 토큰 수준 보상의 산술 평균을 최적화함으로써 대규모 언어 모델의 추론 능력을 향상시켰습니다. 그러나 GRPO는 이상치 중요도 가중치 보상을 가진 토큰을 처리할 때 불안정한 정책 업데이트 문제를 겪는데, 이는 훈련 중 극단적인 중요도 샘플링 비율(현재 정책과 이전 정책이 토큰에 할당한 샘플링 확률 간의 비율)로 나타납니다. 본 연구에서는 GRPO의 안정화된 변형인 Geometric-Mean Policy Optimization(GMPO)을 제안합니다. GMPO는 산술 평균 대신 토큰 수준 보상의 기하 평균을 최대화함으로써, 이상치에 덜 민감하고 더 안정적인 중요도 샘플링 비율 범위를 유지합니다. 또한, GMPO의 설계와 안정성 이점을 입증하기 위한 포괄적인 이론적 및 실험적 분석을 제공합니다. 안정성 개선 외에도, GMPO-7B는 AIME24, AMC, MATH500, OlympiadBench, Minerva, Geometry3K 등 여러 수학 벤치마크에서 GRPO 대비 평균 4.1%, 다중모달 추론 벤치마크에서 1.4% 더 우수한 성능을 보였습니다. 코드는 https://github.com/callsys/GMPO에서 확인할 수 있습니다.
긴 사고 연쇄(Chain-of-Thought, CoT) 능력을 갖춘 대규모 추론 모델(Large Reasoning Models, LRM)은 수학적 추론 및 코딩과 같은 객관적 작업에서 강력한 성능을 보여왔습니다. 그러나 다양한 관점에서 다른 답변이 나올 수 있는 주관적 질문에 대한 효과성은 여전히 지도 학습에서의 단일 정답과 강화 학습에서의 검증 가능한 보상에 의존함으로써 발생하는 동질적 추론 경향에 의해 제한되고 있습니다. 다양한 역할 관점을 증가시키는 것이 일관적으로 성능을 향상시킨다는 발견에 동기를 받아, 우리는 주관적 추론 작업에서 정확성과 다양성을 개선하기 위해 다중 역할 관점을 갖춘 다양성 강화 프레임워크인 MultiRole-R1을 제안합니다. MultiRole-R1은 다양한 역할 관점을 통합한 추론 연쇄를 생성하는 비지도 데이터 구성 파이프라인을 특징으로 합니다. 또한, 우리는 검증 가능한 보상 외에 다양성을 보상 신호로 사용하여 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)와 보상 형성을 통해 강화 학습을 추가로 적용합니다. 특별히 설계된 보상 함수를 통해, 우리는 관점 다양성과 어휘 다양성을 성공적으로 촉진하며, 추론 다양성과 정확성 간의 긍정적인 관계를 발견했습니다. 6개의 벤치마크에서의 실험은 MultiRole-R1이 주관적 및 객관적 추론 모두를 향상시키는 데 있어 효과적이고 일반화 가능함을 입증하며, LRM에서 다양성 강화 훈련의 잠재력을 보여줍니다.
최근 GPT-4o와 같은 대규모 멀티모달 모델의 발전은 고품질의 지시 기반 이미지 편집에 새로운 기준을 제시했습니다. 그러나 이러한 모델과 그 학습 데이터의 독점적 성격은 오픈소스 연구에 상당한 장벽으로 작용합니다. 이러한 격차를 해소하기 위해, 우리는 150만 개 이상의 고품질 트리플렛(지시, 원본 이미지, 편집된 이미지)을 포함한 공개적으로 이용 가능한 대규모 이미지 편집 코퍼스인 GPT-IMAGE-EDIT-1.5M을 소개합니다. 우리는 GPT-4o의 다재다능한 능력을 활용하여 OmniEdit, HQ-Edit, UltraEdit라는 세 가지 인기 있는 이미지 편집 데이터셋을 통합하고 개선함으로써 이 데이터셋을 체계적으로 구축했습니다. 구체적으로, 우리의 방법론은 1) 시각적 품질과 지시 정렬을 강화하기 위해 출력 이미지를 재생성하고, 2) 의미론적 명확성을 개선하기 위해 프롬프트를 선택적으로 재작성하는 것을 포함합니다. 우리 데이터셋의 효능을 검증하기 위해, GPT-IMAGE-EDIT-1.5M에서 고급 오픈소스 모델을 미세 조정했습니다. 실험 결과는 매우 고무적입니다. 예를 들어, 미세 조정된 FluxKontext는 GEdit-EN에서 7.24, ImgEdit-Full에서 3.80, Complex-Edit에서 8.78 등 포괄적인 벤치마크에서 매우 경쟁력 있는 성능을 달성하며, 더 강력한 지시 수행과 더 높은 지각 품질을 유지하면서도 정체성을 유지했습니다. 이러한 점수는 이전에 발표된 모든 오픈소스 방법을 크게 능가하며, 선도적인 독점 모델과의 격차를 상당히 좁혔습니다. 우리는 GPT-IMAGE-EDIT-1.5M의 완전한 공개가 지시 기반 이미지 편영 분야에서 더 많은 오픈 연구를 촉진하는 데 도움이 되기를 바랍니다.
시각적 표현 학습은 다양한 다운스트림 작업의 기초가 됩니다. 최근 CLIP과 SigLIP과 같은 시각-언어 대조 모델들이 대규모 시각-언어 정렬을 통해 인상적인 제로샷 성능을 달성했지만, 이들의 전역적 표현에 대한 의존성은 grounding, OCR, 세분화와 같은 밀집 예측 작업에서의 효과를 제한합니다. 이러한 격차를 해결하기 위해, 우리는 지역 수준의 시각적 및 OCR 능력을 향상시키는 새로운 방법인 Region-Aware Cluster Discrimination (RICE)을 소개합니다. 먼저, 우리는 10억 규모의 후보 지역 데이터셋을 구축하고, 풍부한 지역 의미를 추출하기 위한 Region Transformer 레이어를 제안합니다. 더 나아가, 우리는 단일 분류 프레임워크 내에서 객체와 OCR 학습을 동시에 지원하는 통합 지역 클러스터 판별 손실을 설계하여, 대규모 데이터에 대한 효율적이고 확장 가능한 분산 학습을 가능하게 합니다. 광범위한 실험 결과, RICE는 세분화, 밀집 탐지, 그리고 Multimodal Large Language Models (MLLMs)을 위한 시각적 인지 작업에서 이전 방법들을 꾸준히 능가하는 것으로 나타났습니다. 사전 학습된 모델은 https://github.com/deepglint/MVT에서 공개되었습니다.
문서 이미지 보정은 촬영된 문서의 기하학적 변형을 제거하여 텍스트 인식을 용이하게 하는 것을 목표로 합니다. 그러나 기존 방법들은 종종 전경 요소의 중요성을 간과하는데, 이 요소들은 문서 이미지 보정을 위한 필수적인 기하학적 참조 및 레이아웃 정보를 제공합니다. 본 논문에서는 문서 이미지의 기하학적 왜곡을 제거하기 위해 전경 중심 네트워크(ForCenNet)를 소개합니다. 구체적으로, 우리는 먼저 왜곡되지 않은 이미지에서 상세한 전경 요소를 추출하는 전경 중심 레이블 생성 방법을 제안합니다. 그런 다음 읽을 수 있는 영역과 배경 영역을 더 잘 구분하기 위해 전경 중심 마스크 메커니즘을 도입합니다. 더 나아가, 모델이 왜곡된 기하학적 분포를 이해하는 데 도움을 주기 위해 상세한 전경 레이블을 활용하는 곡률 일관성 손실을 설계합니다. 광범위한 실험을 통해 ForCenNet이 DocUNet, DIR300, WarpDoc, DocReal과 같은 네 가지 실제 벤치마크에서 새로운 최첨단 성능을 달성함을 입증했습니다. 정량적 분석은 제안된 방법이 텍스트 라인 및 테이블 경계와 같은 레이아웃 요소를 효과적으로 왜곡 제거함을 보여줍니다. 추가 비교를 위한 리소스는 https://github.com/caipeng328/ForCenNet에서 제공됩니다.
영구적 3D 장면 생성은 장거리 및 일관된 3D 뷰 시퀀스를 생성하는 것을 목표로 하며, 이는 장기 비디오 합성 및 3D 장면 재구성에 적용 가능합니다. 기존 방법들은 "탐색-상상" 방식에 따라 연속적인 뷰 확장을 위해 아웃페인팅에 의존합니다. 그러나 생성된 뷰 시퀀스는 아웃페인팅 모듈의 누적된 편차로 인해 발생하는 의미적 드리프트 문제를 겪습니다. 이 문제를 해결하기 위해, 우리는 의미적으로 일관된 3D 장면 생성을 위한 새로운 프레임워크인 ScenePainter를 제안합니다. 이 프레임워크는 아웃페인터의 장면 특정 사전 지식을 현재 장면의 이해와 정렬합니다. 구체적으로, 우리는 다중 수준 장면 개념 간의 관계를 구성하기 위해 SceneConceptGraph라는 계층적 그래프 구조를 도입하여, 일관된 새로운 뷰를 위한 아웃페인터를 지시하고 다양성을 향상시키기 위해 동적으로 개선될 수 있습니다. 광범위한 실험을 통해 우리의 프레임워크가 의미적 드리프트 문제를 극복하고 더 일관적이고 몰입감 있는 3D 뷰 시퀀스를 생성함을 입증했습니다. 프로젝트 페이지: https://xiac20.github.io/ScenePainter/.
전 지구적인 기후 변화로 인한 극단적인 기상 현상의 빈도 증가는 정확한 기상 예측의 필요성을 더욱 절실하게 만들고 있습니다. 최근 딥러닝 기술 덕분에 엔드투엔드(end-to-end) 방법론이 큰 발전을 이루었지만, 이러한 방법들은 다변수 통합에서의 표현 불일치 문제에 직면해 있으며, 복잡한 기상 시스템에서 요구되는 변수 간의 의존성을 효과적으로 포착하는 데 어려움을 겪고 있습니다. 서로 다른 변수들을 별개의 모달리티로 취급하고 다중 모달리티 모델에서의 두 단계 학습 접근법을 적용함으로써 이 문제를 부분적으로 완화할 수 있지만, 두 단계 간의 학습 과제 불일치로 인해 결과가 종종 최적에 미치지 못합니다. 이러한 문제를 해결하기 위해, 우리는 각 변수에 대해 별도의 인코더와 디코더를 구성하는 암묵적 두 단계 학습 방법을 제안합니다. 구체적으로, 첫 번째 단계에서는 Translator를 고정한 상태에서 Encoder와 Decoder가 공유 잠재 공간을 학습하고, 두 번째 단계에서는 Encoder와 Decoder를 고정한 상태에서 Translator가 변수 간 상호작용을 포착하여 예측을 수행합니다. 또한, 잠재 공간 내에서 다변수 융합을 위한 자기 주의 메커니즘(self-attention mechanism)을 도입함으로써 성능을 더욱 향상시켰습니다. 실험 결과, 우리의 방법이 최첨단 성능을 달성함을 보여주었습니다. 특히, 지표면 근처 기온과 상대 습도 예측에서 평균 제곱 오차(MSE)를 각각 28.82%와 23.39% 감소시켰습니다. 소스 코드는 https://github.com/ShremG/Met2Net에서 확인할 수 있습니다.
최근 대규모 언어 모델(LLM)의 발전은 검증 가능한 보상을 통한 강화 학습(RLVR)이 확장된 출력 시퀀스를 통해 추론 능력을 향상시킬 수 있는 잠재력을 강조해 왔습니다. 그러나 기존의 RL 프레임워크는 초장기 출력을 처리할 때 긴 꼬리 시퀀스 분포와 훈련 중 엔트로피 붕괴로 인해 비효율성을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델의 추론 능력을 발전시키기 위한 초장기 출력 강화 학습(UloRL) 접근법을 제안합니다. 구체적으로, 우리는 초장기 출력 디코딩을 짧은 세그먼트로 나누어 긴 꼬리 샘플로 인한 지연을 완화함으로써 효율적인 훈련을 가능하게 합니다. 또한, 엔트로피 붕괴를 방지하기 위해 잘 마스터된 긍정적 토큰(MPT)의 동적 마스킹을 도입했습니다. 실험 결과는 우리의 접근법의 효과를 입증합니다. Qwen3-30B-A3B 모델에서 세그먼트 롤아웃을 통한 RL은 훈련 속도를 2.06배 증가시켰으며, 128k 토큰 출력을 사용한 RL 훈련은 AIME2025에서 70.9%에서 85.1%로, BeyondAIME에서 50.7%에서 61.9%로 모델의 성능을 향상시켰고, Qwen3-235B-A22B를 능가하는 놀라운 성과를 보였습니다. 이러한 결과는 초장기 시퀀스 생성을 통해 LLM의 추론 능력을 발전시킬 수 있는 우리의 방법의 잠재력을 강조합니다. 우리는 커뮤니티의 추가 사용을 위해 코드와 모델을 공개할 예정입니다.
확산 및 플로우 매칭 모델은 최근 자동 텍스트-오디오 생성 분야에 혁신을 가져왔습니다. 이러한 모델은 음성 및 음향 이벤트를 충실히 포착한 고품질 오디오 출력을 점점 더 잘 생성할 수 있게 되었습니다. 그러나 주로 음악과 노래를 포함하는 창의적인 오디오 생성 분야에서는 여전히 개선의 여지가 많습니다. 최근 DiffRhythm, ACE-Step, LeVo와 같은 오픈 가사-노래 모델들은 레크리에이션용 자동 노래 생성에서 수용 가능한 수준을 설정했습니다. 그러나 이러한 모델들은 음악가들이 작업 과정에서 흔히 원하는 세밀한 단어 수준의 제어 가능성을 제공하지 못합니다. 우리가 아는 한, 플로우 매칭 기반의 JAM은 노래 생성에서 단어 수준의 타이밍과 지속 시간 제어를 가능하게 하여 세밀한 보컬 제어를 제공하는 첫 번째 시도입니다. 생성된 노래의 품질을 향상시켜 인간의 선호도와 더 잘 맞추기 위해, 우리는 합성 데이터셋을 사용하여 모델을 반복적으로 개선하는 직접 선호 최적화(Direct Preference Optimization)를 통해 미적 정렬을 구현함으로써 수동 데이터 주석의 필요성을 없앴습니다. 또한, 우리는 공개 평가 데이터셋 JAME을 통해 이러한 가사-노래 모델의 평가를 표준화하고자 합니다. 우리는 JAM이 음악 특성 측면에서 기존 모델들을 능가함을 보여줍니다.
우리는 텍스트-투-뮤직(TTM) 모델의 확장 가능한 인간 선호도 평가를 위한 오픈 플랫폼인 Music Arena를 소개합니다. 청취 연구를 통해 인간의 선호도를 조사하는 것은 TTM 평가에서의 표준 방법이지만, 이러한 연구는 실행 비용이 높고, 시스템 간 연구 프로토콜이 다를 수 있어 비교가 어렵습니다. 또한, 인간의 선호도는 연구자들이 TTM 시스템을 조정하거나 자동 평가 지표를 개선하는 데 도움을 줄 수 있지만, 현재까지 오픈되고 지속 가능한 선호도 데이터 소스는 존재하지 않습니다. 우리는 이러한 격차를 메우기 위해 TTM을 위한 *실시간* 평가를 제공하고자 합니다. Music Arena에서는 실제 사용자가 선택한 텍스트 프롬프트를 입력하고 두 TTM 시스템의 출력을 비교하며, 그들의 선호도를 기반으로 리더보드를 작성합니다. Music Arena는 다른 AI 도메인의 최근 평가 트렌드를 따르는 동시에, 음악에 특화된 주요 기능을 설계했습니다: TTM 시스템의 다양한 유형 시그니처를 탐색하기 위한 LLM 기반 라우팅 시스템, 그리고 청취 데이터와 자연어 피드백을 포함한 *상세한* 선호도 수집 기능이 그것입니다. 또한, 사용자 개인정보 보호를 보장하는 롤링 데이터 공개 정책을 제안하여, 지속 가능한 선호도 데이터 소스를 제공하고 플랫폼의 투명성을 높였습니다. 표준화된 평가 프로토콜, 투명한 데이터 접근 정책, 그리고 음악 특화 기능을 통해 Music Arena는 TTM 생태계의 주요 문제를 해결할 뿐만 아니라, 특정 AI 도메인의 고유한 특성에 맞춰 실시간 평가를 신중하게 적용할 수 있는 방법을 보여줍니다. Music Arena는 https://music-arena.org에서 이용 가능합니다.
대규모 언어 모델(LLM)은 강화 학습을 통해 단계별 추론 능력을 크게 향상시켰습니다. 그러나 희소 보상 규칙에 의존하는 그룹 상대 정책 최적화(GRPO) 알고리즘은 그룹 내 동일한 보상 문제로 인해 이점 붕괴 문제를 자주 겪습니다. 기존 연구는 주로 두 가지 관점에서 이 문제를 해결합니다: 모델 반영을 강제하여 응답 다양성을 높이는 방법과 내부 피드백을 도입하여 훈련 신호(이점)를 보강하는 방법입니다. 본 연구에서는 먼저 모델 반영의 한계를 분석하고 세부 샘플 수준에서 응답의 정책 엔트로피를 조사합니다. 실험 결과를 바탕으로, 엔트로피 주도 이점과 가이드 오류 수정을 채택한 EDGE-GRPO 알고리즘을 제안하여 이점 붕괴 문제를 효과적으로 완화합니다. 여러 주요 추론 벤치마크에서의 광범위한 실험을 통해 우리 접근법의 효과성과 우수성을 입증합니다. 이 연구는 https://github.com/ZhangXJ199/EDGE-GRPO에서 확인할 수 있습니다.
언어 모델(LM)이 강화 학습(RL)을 통해 자연어 "추론 체인"을 생성하도록 훈련될 때, 다양한 어려운 질문 응답 작업에서 성능이 향상됩니다. 오늘날, 추론을 위한 RL의 거의 모든 성공적인 응용은 LM 출력의 정확성을 평가하는 이진 보상 함수를 사용합니다. 이러한 보상 함수는 추측이나 낮은 신뢰도의 출력을 처벌하지 않기 때문에, 종종 교정을 저하시키고 LM이 다른 문제 영역에서 잘못된 응답(또는 "환각")을 생성하는 비율을 증가시키는 의도하지 않은 부작용을 일으킵니다. 본 논문은 정확성과 교정된 신뢰도 추정을 동시에 개선하는 추론 모델 훈련 접근법인 RLCR(Reinforcement Learning with Calibration Rewards)을 설명합니다. RLCR 동안, LM은 추론 후 예측과 수치적 신뢰도 추정치를 생성합니다. 이들은 이진 정확성 점수에 Brier 점수(교정된 예측을 유도하는 신뢰도 추정을 위한 점수 규칙)를 추가한 보상 함수를 최적화하도록 훈련됩니다. 우리는 먼저 이 보상 함수(또는 유사한 유계 적절 점수 규칙을 사용하는 모든 보상 함수)가 정확하고 잘 교정된 예측을 생성하는 모델을 산출함을 증명합니다. 다음으로, 다양한 데이터셋에서 RLCR이 도메인 내 및 도메인 외 평가 모두에서 정확성 손실 없이 교정을 크게 개선하며, 일반적인 RL 훈련과 사후 신뢰도 점수를 할당하도록 훈련된 분류기를 능가함을 보여줍니다. 일반적인 RL은 교정을 해치지만, RLCR은 이를 개선합니다. 마지막으로, 테스트 시 언어화된 신뢰도가 신뢰도 가중치 조정 방법을 통해 정확성과 교정을 개선하는 데 활용될 수 있음을 입증합니다. 우리의 결과는 교정을 명시적으로 최적화함으로써 더 일반적으로 신뢰할 수 있는 추론 모델을 생성할 수 있음을 보여줍니다.
정교한 수학적 추론이 가능한 대형 언어 모델(LLMs)에 대한 산업 전반의 수요가 증가하고 있다. 그러나 성능이 우수한 수학적 LLMs의 개발은 어렵고 새로운 훈련 데이터의 부족으로 인해 심각한 병목 현상을 겪고 있다. 본 연구에서는 이러한 문제를 해결하기 위해 SAND-Math(Synthetic Augmented Novel and Difficult Mathematics problems and solutions) 파이프라인을 소개한다. 이 파이프라인은 먼저 고품질의 문제를 처음부터 생성한 후, 새로운 Difficulty Hiking 단계를 통해 문제의 복잡성을 체계적으로 높이는 방식으로 구성된다. 우리는 이 접근법의 효과를 두 가지 주요 결과를 통해 입증한다. 첫째, 강력한 베이스라인에 SAND-Math 데이터를 추가하면 성능이 크게 향상되어, AIME25 벤치마크에서 차기 최고의 합성 데이터셋보다 최대 17.85 포인트의 절대적 성능 향상을 달성한다. 둘째, 전용 절제 연구에서 우리의 Difficulty Hiking 과정이 매우 효과적임을 보여준다: 평균 문제 난이도를 5.02에서 5.98로 증가시킴으로써, 이 단계는 AIME25 성능을 46.38%에서 49.23%로 끌어올린다. 전체 생성 파이프라인, 최종 데이터셋, 그리고 미세 조정된 모델은 더 능력 있고 효율적인 수학적 추론 LLMs를 구축하기 위한 실용적이고 확장 가능한 툴킷을 형성한다. SAND-Math 데이터셋은 다음 링크에서 공개된다: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
사용자 시뮬레이터는 대화형 AI에서 필수적인 요소로, 시뮬레이션된 상호작용을 통해 확장 가능한 에이전트 개발 및 평가를 가능하게 합니다. 현재의 대형 언어 모델(LLMs)은 사용자 시뮬레이션 능력을 크게 발전시켰지만, 우리는 이러한 모델들이 다중 턴 대화에서 목표 지향적 행동을 일관되게 보여주는 데 어려움을 겪는다는 점을 밝혀냈습니다. 이는 하위 애플리케이션에서의 신뢰성을 저해하는 중요한 한계입니다. 본 연구에서는 사용자 목표 상태 추적(User Goal State Tracking, UGST)이라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 대화 전반에 걸쳐 사용자 목표 진행 상황을 추적합니다. UGST를 활용하여, 우리는 목표 진행 상황을 자율적으로 추적하고 목표에 부합하는 응답을 생성하기 위해 추론할 수 있는 사용자 시뮬레이터 개발을 위한 3단계 방법론을 제시합니다. 또한, 사용자 시뮬레이터의 목표 정렬도를 측정하기 위한 포괄적인 평가 지표를 수립하고, 우리의 접근 방식이 두 벤치마크(MultiWOZ 2.4 및 {\tau}-Bench)에서 상당한 개선을 가져온다는 것을 입증합니다. 본 연구의 기여는 대화형 AI의 중요한 격차를 해소하고, 목표 정렬된 사용자 시뮬레이터 개발을 위한 필수 프레임워크로서 UGST를 확립합니다.
유전자 발현 분석은 많은 생물의학적 발견의 열쇠를 쥐고 있지만, 원시 전사체 데이터에서 통찰을 추출하는 것은 여러 개의 크고 반구조화된 파일의 복잡성과 광범위한 도메인 전문 지식의 필요성으로 인해 여전히 어려운 과제로 남아 있습니다. 현재의 자동화 접근 방식은 엣지 케이스에서 무너지는 경직된 워크플로우나 엄격한 과학적 탐구에 필요한 정밀도가 부족한 완전 자율 에이전트로 인해 제한되는 경우가 많습니다. GenoMAS는 구조화된 워크플로우의 신뢰성과 자율 에이전트의 적응성을 통합한 LLM 기반 과학자 팀을 제시함으로써 다른 길을 제시합니다. GenoMAS는 타입 메시지 전달 프로토콜을 통해 여섯 명의 전문 LLM 에이전트를 조율하며, 각각은 공유 분석 캔버스에 상호 보완적인 강점을 제공합니다. GenoMAS의 핵심에는 가이드된 계획 프레임워크가 있습니다: 프로그래밍 에이전트는 상위 수준 작업 지침을 액션 유닛으로 펼치고, 각 분기점에서 진행, 수정, 우회 또는 되돌아가기를 선택함으로써 논리적 일관성을 유지하면서도 유전체 데이터의 특이성에 유연하게 대응합니다. GenoTEX 벤치마크에서 GenoMAS는 데이터 전처리에서 89.13%의 복합 유사성 상관관계를, 유전자 식별에서 60.48%의 F_1 점수를 달성하여 기존 최고 기술을 각각 10.61%와 16.85% 앞질렀습니다. 지표를 넘어, GenoMAS는 잠재적인 교란 요인을 조정하면서도 문헌으로 입증된 생물학적으로 타당한 유전자-표현형 연관성을 도출합니다. 코드는 https://github.com/Liu-Hy/GenoMAS에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)이 네이티브 코드 인터프리터를 점점 더 통합함에 따라, 이들은 강력한 실시간 실행 기능을 가능하게 하여 그 유용성을 크게 확장하고 있습니다. 그러나 이러한 통합은 프롬프트 기반 취약점과는 근본적으로 다른 시스템 수준의 사이버 보안 위협을 초래할 수 있습니다. 이러한 인터프리터 특정 위험을 체계적으로 평가하기 위해, 우리는 CPU, 메모리, 디스크 자원 고갈을 목표로 하는 1,260개의 프롬프트로 구성된 간단한 벤치마크인 CIRCLE(Code-Interpreter Resilience Check for LLM Exploits)를 제안합니다. 각 위험 범주에는 명백히 악의적인("직접적") 및 그럴듯하게 무해한("간접적") 프롬프트 변형이 포함됩니다. 우리의 자동화된 평가 프레임워크는 LLMs가 위험한 코드를 거부하거나 생성하는지 여부뿐만 아니라, 생성된 코드를 인터프리터 환경 내에서 실행하여 코드의 정확성, LLM이 코드를 안전하게 만들기 위해 수행한 단순화, 또는 실행 시간 초과를 평가합니다. OpenAI와 Google의 상용 모델 7개를 평가한 결과, 상당하고 일관되지 않은 취약점이 발견되었습니다. 예를 들어, 평가 결과는 공급자 내에서도 상당한 차이를 보였습니다. OpenAI의 o4-mini는 위험한 요청을 7.1%로 올바르게 거부했는데, 이는 GPT-4.1의 0.5%에 비해 현저히 높은 비율입니다. 결과는 특히 간접적이고 사회공학적인 프롬프트가 모델 방어를 상당히 약화시킨다는 점을 강조합니다. 이는 인터프리터 특정 사이버 보안 벤치마크, 전용 완화 도구(예: 가드레일), 그리고 LLM 인터프리터 통합의 안전하고 책임 있는 배포를 위한 명확한 산업 표준의 긴급한 필요성을 강조합니다. 벤치마크 데이터셋과 평가 코드는 추가 연구를 촉진하기 위해 공개되었습니다.