번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 대규모 언어 모델(LLM)의 추론 능력을 강화하기 위한 강화학습(RL)의 최근 발전을 조사한다. RL은 특히 수학 및 코딩과 같은 복잡한 논리적 과제를 해결하는 데 있어 LLM의 능력 한계를 확장하는 데 있어 주목할 만한 성과를 거두었다. 그 결과, RL은 LLM을 LRM으로 변환하는 데 있어 핵심적인 방법론으로 자리 잡았다. 해당 분야의 급속한 발전과 함께, LRM을 위한 RL의 확장은 이제 계산 자원뿐만 아니라 알고리즘 설계, 학습 데이터, 인프라 측면에서도 근본적인 도전에 직면해 있다. 이에 따라, 이 분야의 발전을 재검토하고, 그 궤적을 재평가하며, 인공 초지능(ASI)을 향한 RL의 확장성을 강화하기 위한 전략을 탐구하는 것이 시의적절하다. 특히, DeepSeek-R1 출시 이후 LLM 및 LRM의 추론 능력에 RL을 적용한 연구를 검토하며, 핵심 구성 요소, 주요 문제, 학습 자원, 하위 응용 프로그램 등을 포함하여 이 빠르게 진화하는 분야의 미래 기회와 방향을 식별한다. 본 리뷰가 보다 광범위한 추론 모델을 위한 RL 연구를 촉진할 수 있기를 바란다. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
보상 모델(Reward Models, RMs)은 강화 학습(Reinforcement Learning, RL)을 통해 생성 모델을 개선하는 데 중요한 역할을 하지만, 시각적 생성 분야에서의 RM 확장 패러다임은 여전히 크게 탐구되지 않고 있습니다. 이는 기존 접근법의 근본적인 한계 때문입니다: CLIP 기반 RMs는 아키텍처 및 입력 모달리티 제약을 겪고 있으며, 널리 사용되는 Bradley-Terry 손실 함수는 비전-언어 모델(Vision-Language Models, VLMs)의 다음 토큰 예측 메커니즘과 근본적으로 불일치하여 효과적인 확장을 방해합니다. 더욱 중요한 것은, RLHF 최적화 과정은 보상 신호의 결함을 악용하면서도 실제 품질을 개선하지 않는 "보상 해킹(Reward Hacking)" 문제에 시달린다는 점입니다. 이러한 문제를 해결하기 위해, 우리는 새로운 생성적 보상 패러다임을 통해 이러한 장벽을 극복하는 확장 가능한 보상 모델링 프레임워크인 RewardDance를 소개합니다. RewardDance는 보상 점수를 특정 기준에 따라 생성된 이미지가 참조 이미지를 능가한다는 "예" 토큰을 예측할 모델의 확률로 재구성함으로써, 보상 목표를 VLM 아키텍처와 본질적으로 일치시킵니다. 이러한 일치는 두 가지 차원에서의 확장을 가능하게 합니다: (1) 모델 확장: RMs를 최대 260억 파라미터까지 체계적으로 확장; (2) 컨텍스트 확장: 작업별 지침, 참조 예시, 그리고 사고의 연쇄(Chain-of-Thought, CoT) 추론의 통합. 광범위한 실험을 통해 RewardDance는 텍스트-이미지, 텍스트-비디오, 이미지-비디오 생성에서 최첨단 방법을 크게 능가함을 입증했습니다. 특히, 우리는 "보상 해킹"이라는 지속적인 문제를 해결했습니다: 우리의 대규모 RMs는 RL 미세 조정 과정에서 높은 보상 분산을 유지하며, 해킹에 대한 저항력과 다양한 고품질 출력을 생성할 수 있음을 입증했습니다. 이는 더 작은 모델을 괴롭히는 모드 붕괴 문제를 크게 완화합니다.
세계 모델링(world modeling)은 AI 연구의 초석으로 자리 잡으며, 에이전트가 자신이 처한 동적 환경을 이해하고 표현하며 예측할 수 있게 해주는 중요한 기술로 부상했습니다. 기존 연구는 주로 2D 이미지 및 비디오 데이터를 위한 생성적 방법에 초점을 맞추었으나, RGB-D 이미지, 점유 그리드(occupancy grid), LiDAR 포인트 클라우드와 같은 네이티브 3D 및 4D 표현을 활용한 대규모 장면 모델링 연구의 급속한 성장을 간과했습니다. 동시에, '세계 모델(world model)'에 대한 표준화된 정의와 분류 체계의 부재는 문헌에서 파편적이고 때로는 일관성 없는 주장을 초래했습니다. 본 설문 조사는 이러한 격차를 해소하기 위해 3D 및 4D 세계 모델링과 생성을 명시적으로 다루는 첫 번째 포괄적인 리뷰를 제시합니다. 우리는 정확한 정의를 확립하고, 비디오 기반(VideoGen), 점유 기반(OccGen), LiDAR 기반(LiDARGen) 접근법을 아우르는 구조화된 분류 체계를 소개하며, 3D/4D 설정에 맞춰진 데이터셋과 평가 지표를 체계적으로 정리합니다. 또한 실용적인 응용 사례를 논의하고, 해결되지 않은 과제를 식별하며, 유망한 연구 방향을 강조함으로써 이 분야의 발전을 위한 일관적이고 기초적인 참고 자료를 제공하고자 합니다. 기존 문헌에 대한 체계적인 요약은 https://github.com/worldbench/survey에서 확인할 수 있습니다.
복잡한 현실 세계의 문제를 해결하기 위해 일련의 지능적인 결정을 내릴 수 있는 자율적인 LLM 에이전트를 개발하는 것은 빠르게 진화하는 최전선 분야입니다. 인간의 인지 발달과 마찬가지로, 에이전트는 환경과의 탐색 및 상호작용을 통해 지식과 기술을 습득할 것으로 기대됩니다. 그럼에도 불구하고, 커뮤니티는 여전히 다양한 현실적인 환경에서 감독된 미세 조정(SFT)에 의존하지 않고 이러한 에이전트를 처음부터 효과적으로 훈련할 수 있는 통합된 상호작용형 강화 학습(RL) 프레임워크가 부족합니다. 이러한 격차를 해소하기 위해, 우리는 RL을 통해 다중 턴 상호작용 의사결정을 위한 LLM 에이전트를 훈련시키는 새로운 프레임워크인 AgentGym-RL을 소개합니다. 이 프레임워크는 모듈화되고 분리된 아키텍처를 특징으로 하여 높은 유연성과 확장성을 보장합니다. 또한 다양한 현실 세계 시나리오를 포괄하며, 주류 RL 알고리즘을 지원합니다. 더 나아가, 우리는 탐색-탐사 균형과 안정적인 RL 최적화를 위해 설계된 훈련 접근법인 ScalingInter-RL을 제안합니다. 초기 단계에서는 상호작용 횟수를 제한하여 탐사를 강조하고, 점차 더 큰 범위로 탐색을 강조하여 다양한 문제 해결 전략을 장려합니다. 이를 통해 에이전트는 더 다양한 행동을 개발하고, 장기적인 범위에서 붕괴될 가능성이 적어집니다. 우리는 AgentGym-RL 프레임워크와 ScalingInter-RL 접근법의 안정성과 효과성을 검증하기 위해 광범위한 실험을 수행했습니다. 우리의 에이전트는 다양한 환경에서 27개의 작업에서 상용 모델을 능가하거나 동등한 성능을 보였습니다. 우리는 주요 통찰을 제공하고, 연구 커뮤니티가 차세대 지능형 에이전트를 개발할 수 있도록 코드와 데이터셋을 포함한 완전한 AgentGym-RL 프레임워크를 오픈소스로 공개할 예정입니다.
3D 자산을 구성 요소로 분할하는 것은 3D 이해를 향상시키고, 모델 재사용을 용이하게 하며, 부품 생성과 같은 다양한 애플리케이션을 지원하는 데 중요합니다. 그러나 현재의 방법들은 복잡한 객체를 다룰 때 낮은 견고성을 보이는 한편, 프로세스를 완전히 자동화하지 못하는 한계가 있습니다. 본 논문에서는 모든 3D 객체를 구성 요소로 완전히 자동 분할할 수 있도록 설계된 P3-SAM이라는 네이티브 3D 포인트 프롬프트 가능 부품 분할 모델을 제안합니다. SAM에서 영감을 받은 P3-SAM은 특징 추출기, 다중 분할 헤드 및 IoU 예측기로 구성되어 사용자에게 인터랙티브한 분할을 가능하게 합니다. 또한, 우리는 모델이 예측한 마스크를 자동으로 선택하고 병합하여 부품 인스턴스 분할을 수행하는 알고리즘을 제안합니다. 우리의 모델은 합리적인 분할 레이블이 포함된 약 370만 개의 모델로 구성된 새로운 데이터셋에서 학습되었습니다. 비교 결과, 우리의 방법은 복잡한 객체에서도 정밀한 분할 결과와 강력한 견고성을 달성하며 최첨단 성능을 보여줍니다. 우리의 코드는 곧 공개될 예정입니다.
본 보고서에서는 33개 주요 언어 간의 양방향 번역을 지원하며, 특히 중국어와 여러 소수 민족 언어 및 방언 간의 번역에 중점을 둔 첫 오픈소스 다국어 번역 모델인 Hunyuan-MT-7B를 소개합니다. 더 나아가 다양한 번역 시나리오를 지원하고 테스트 시 모델 성능을 향상시키기 위해, 느린 사고 모드에서 영감을 받은 번역 모델인 Hunyuan-MT-Chimera-7B를 소개합니다. 이 모델은 다양한 매개변수 설정 하에서 Hunyuan-MT-7B 모델이 생성한 다중 출력을 통합함으로써, Chain-of-Thought(CoT) 기반의 기존 느린 사고 모델보다 우수한 성능을 달성합니다. 우리 모델의 개발은 다국어 번역을 위해 특별히 설계된 종합적인 학습 프로세스를 따릅니다. 이 프로세스는 기본 능력을 구축하기 위한 일반적이고 MT 지향적인 사전 학습으로 시작하여, 특정 작업에 적응하기 위한 지도 미세 조정(SFT)을 거치고, 강화 학습(RL) 및 약한-강한 RL을 통한 고급 정렬로 마무리됩니다. 포괄적인 실험을 통해 Hunyuan-MT-7B와 Hunyuan-MT-Chimera-7B가 모두 동일한 매개변수 크기의 번역 전용 모델과 대부분의 SOTA 대형 모델을 크게 능가하며, 특히 중국어와 소수 민족 언어 및 방언 간 번역 작업에서 우수한 성능을 보임을 입증했습니다. WMT2025 공유 작업(일반 기계 번역)에서 우리 모델은 31개 언어 쌍 중 30개에서 1위를 차지하며 최첨단 성능을 보여주었습니다. 이 결과는 중국어, 영어, 일본어와 같은 고자원 언어뿐만 아니라 체코어, 마라티어, 에스토니아어, 아이슬란드어와 같은 저자원 언어를 포함한 다양한 언어 스펙트럼에서 우리 모델의 견고성을 강조합니다.
현대의 대형 언어 모델(LLM)은 합성 데이터 생성에 뛰어난 성능을 보입니다. 그러나 텍스트 비독성화와 같은 민감한 분야에서의 성능은 과학계로부터 충분한 주목을 받지 못했습니다. 본 논문은 비독성화 모델 훈련을 위해 인간이 생성한 데이터 대신 LLM이 생성한 합성 유해 데이터를 사용할 가능성을 탐구합니다. Llama 3와 Qwen 활성화 패치 모델을 사용하여 ParaDetox와 SST-2 데이터셋의 중립 텍스트에 대한 합성 유해 데이터를 생성했습니다. 실험 결과, 합성 데이터로 미세 조정된 모델은 인간 데이터로 훈련된 모델에 비해 지속적으로 낮은 성능을 보였으며, 공통 지표에서 최대 30%의 성능 하락이 관찰되었습니다. 근본 원인은 중요한 어휘 다양성 격차로 확인되었습니다: LLM은 모욕적인 단어의 작고 반복적인 어휘를 사용하여 유해 콘텐츠를 생성함으로써 인간의 유해성의 미묘함과 다양성을 포착하지 못합니다. 이러한 발견은 이 분야에서 현재 LLM의 한계를 강조하며, 견고한 비독성화 시스템 구축을 위해 다양하고 인간이 주석을 단 데이터의 지속적인 중요성을 강조합니다.
생성형 인공지능은 중요한 기술로 부상하며 다양한 분야에서 혁신적인 변화를 약속하고 있습니다. 동시에, 생성형 AI 기술은 확률 모델에서 샘플링을 기반으로 하며, 기본적으로 정확성, 안전성, 공정성 또는 기타 속성에 대한 보장이 없습니다. 통계적 방법은 생성형 AI 기술의 신뢰성을 향상시키기 위한 유망한 접근 방식을 제공합니다. 또한, 통계적 방법은 AI 평가의 품질과 효율성을 개선하고, AI에서의 개입 및 실험 설계를 위한 유망한 방법이기도 합니다. 이 논문에서는 이러한 주제들에 대한 기존 연구를 검토하며, 사용된 일반적인 통계적 기법과 생성형 AI에의 응용을 설명합니다. 또한, 한계점과 잠재적인 미래 방향에 대해서도 논의합니다.
테스트 시점의 계산량을 확장하여 여러 독립적인 해결책을 생성하고 이를 선택하거나 통합하는 방식은 도전적인 추론 과제에서 대규모 언어 모델(LLMs)의 성능을 향상시키는 핵심 패러다임으로 자리 잡았습니다. 기존 연구 대부분은 단순 다수결 투표나 보상 모델 순위를 통해 해결책을 통합하는 데 의존했지만, 이러한 접근 방식은 제한된 이점만을 제공할 가능성이 있습니다. 본 연구에서는 통합을 명시적인 추론 기술로 학습하는 방식을 제안합니다: 후보 해결책 집합이 주어졌을 때, 검증 가능한 보상을 통해 강화 학습을 사용하여 최종 정답을 검토, 조정 및 종합하는 통합 모델을 훈련시킵니다. 여기서 핵심 요소는 쉬운 예제와 어려운 예제를 신중하게 균형 있게 조정하여, 모델이 소수지만 정답인 답변과 쉬운 다수 정답 모두를 복원할 수 있도록 하는 것입니다. 실험적으로, 우리의 방법인 AggLM은 여러 벤치마크에서 강력한 규칙 기반 및 보상 모델 기준선을 능가하는 성능을 보였습니다. 더 나아가, 이 방법은 훈련 데이터에 포함된 것보다 더 강력한 모델을 포함한 다양한 모델의 해결책에도 효과적으로 일반화되며, 더 많은 해결책을 사용한 다수결 투표보다 훨씬 적은 토큰 수를 요구합니다.
오픈소스 저장소의 광범위한 보급으로 인해 재사용 가능한 소프트웨어 컴포넌트의 방대한 컬렉션이 형성되었지만, 이들의 활용은 여전히 수동적이고 오류가 발생하기 쉬우며 단절된 상태입니다. 개발자들은 문서를 탐색하고 API를 이해하며 통합 코드를 작성해야 하므로, 효율적인 소프트웨어 재사용에 상당한 장벽이 존재합니다. 이를 해결하기 위해, 우리는 에이전트형 AI를 활용하여 GitHub 저장소를 에이전트화하는 EnvX 프레임워크를 제안합니다. 이 프레임워크는 저장소를 자연어 상호작용 및 에이전트 간 협업이 가능한 지능형 자율 에이전트로 변환합니다. 기존의 접근 방식이 저장소를 정적 코드 자원으로 취급하는 것과 달리, EnvX는 저장소를 활성 에이전트로 재구상하는 세 단계 프로세스를 통해 이를 실현합니다: (1) TODO 가이드 환경 초기화, 이는 필요한 종속성, 데이터 및 검증 데이터셋을 설정합니다; (2) 인간과 조율된 에이전트형 자동화, 이는 저장소 특화 에이전트가 실제 작업을 자율적으로 수행할 수 있게 합니다; 그리고 (3) 에이전트 간(A2A) 프로토콜, 이는 여러 에이전트가 협업할 수 있도록 합니다. 대규모 언어 모델의 능력과 구조화된 도구 통합을 결합함으로써, EnvX는 코드 생성뿐만 아니라 저장소 기능을 이해하고 초기화하며 운영화하는 전체 프로세스를 자동화합니다. 우리는 이미지 처리, 음성 인식, 문서 분석 및 비디오 조작과 같은 다양한 도메인에 걸친 18개의 저장소를 사용하여 GitTaskBench 벤치마크에서 EnvX를 평가했습니다. 그 결과, EnvX는 74.07%의 실행 완료율과 51.85%의 작업 통과율을 달성하여 기존 프레임워크를 능가하는 성능을 보였습니다. 사례 연구는 A2A 프로토콜을 통한 다중 저장소 협업을 가능하게 하는 EnvX의 능력을 추가로 입증합니다. 이 작업은 저장소를 수동적 코드 자원에서 지능적이고 상호작용 가능한 에이전트로 전환함으로써, 오픈소스 생태계 내에서 더 큰 접근성과 협업을 촉진하는 전환점을 마련합니다.
인간이 더 많은 작업과 결정을 인공지능(AI)에 위임함에 따라, 우리는 개인적 및 집단적 미래에 대한 통제력을 잃을 위험에 처해 있습니다. 비교적 단순한 알고리즘 시스템은 이미 인간의 의사결정을 주도하고 있으며, 예를 들어 소셜 미디어 피드 알고리즘은 사람들이 무의식적이고 무심코 참여 최적화된 콘텐츠를 스크롤하도록 유도합니다. 본 논문에서는 철학적 및 과학적 행위 이론과 AI 지원 평가 방법을 통합하여 인간 행위 개념을 발전시킵니다: 대규모 언어 모델(LLM)을 사용하여 사용자 질의를 시뮬레이션하고 검증하며, AI 응답을 평가합니다. 우리는 전형적인 AI 사용 사례를 기반으로 인간 행위의 여섯 가지 차원을 포함한 확장 가능하고 적응형 벤치마크인 HumanAgencyBench(HAB)를 개발했습니다. HAB는 AI 어시스턴트 또는 에이전트가 명확한 질문을 요청하고, 가치 조작을 피하며, 잘못된 정보를 수정하고, 중요한 결정을 미루고, 학습을 장려하며, 사회적 경계를 유지하는 경향을 측정합니다. 우리는 현대의 LLM 기반 어시스턴트에서 낮음에서 중간 수준의 행위 지원을 발견했으며, 시스템 개발자와 차원 간에 상당한 차이가 있음을 확인했습니다. 예를 들어, Anthropic의 LLM은 전반적으로 인간 행위를 가장 잘 지원하지만, 가치 조작을 피하는 측면에서는 가장 낮은 지원 수준을 보였습니다. 행위 지원은 LLM 능력이나 지시 따르기 행동(예: RLHF)의 증가와 일관되게 연관되지 않는 것으로 보이며, 우리는 더 강력한 안전성 및 정렬 목표로의 전환을 권장합니다.