번역이 포함된 일일 선별된 AI 연구 논문
우리는 모든 이미지를 4K 해상도(반복적으로 적용할 경우 더 높은 해상도까지)로 보편적으로 업스케일할 수 있는 통합 에이전트 기반 초해상도 일반화 시스템인 4KAgent를 소개합니다. 우리의 시스템은 예를 들어 256x256 크기의 심각하게 왜곡된 입력과 같이 극도로 낮은 해상도와 심각한 열화를 겪은 이미지도 선명하고 사실적인 4K 출력으로 변환할 수 있습니다. 4KAgent는 세 가지 핵심 구성 요소로 이루어져 있습니다: (1) 특정 사용 사례에 맞춰 4KAgent 파이프라인을 커스터마이징하는 모듈인 프로파일링(Profiling), (2) 시각-언어 모델과 이미지 품질 평가 전문가를 활용하여 입력 이미지를 분석하고 맞춤형 복원 계획을 수립하는 인지 에이전트(Perception Agent), 그리고 (3) 품질 중심의 전문가 혼합 정책(Mixture-of-Expert Policy)을 통해 각 단계에서 최적의 출력을 선택하며, 재귀적 실행-반성 패러다임을 따르는 복원 에이전트(Restoration Agent). 또한, 4KAgent는 초상화 및 셀카 사진에서 얼굴 세부 사항을 크게 향상시키는 전용 얼굴 복원 파이프라인을 내장하고 있습니다. 우리는 4KAgent를 11개의 서로 다른 작업 범주와 총 26개의 다양한 벤치마크에 걸쳐 엄격히 평가하며, 광범위한 이미징 도메인에서 새로운 최첨단 기술을 수립했습니다. 우리의 평가는 자연 이미지, 초상화 사진, AI 생성 콘텐츠, 위성 이미지, 형광 현미경, 그리고 안저촬영, 초음파, X-선과 같은 의료 이미징을 포함하며, 지각적(예: NIQE, MUSIQ) 및 충실도(예: PSNR) 지표 모두에서 우수한 성능을 입증했습니다. 저수준 비전 작업을 위한 새로운 에이전트 패러다임을 수립함으로써, 우리는 다양한 연구 커뮤니티에서 비전 중심의 자율 에이전트에 대한 더 넓은 관심과 혁신을 촉진하고자 합니다. 모든 코드, 모델 및 결과는 https://4kagent.github.io에서 공개될 예정입니다.
우리는 시각적 추론에 대한 새로운 접근 방식을 개척하는 고급 오픈소스 시각-언어 모델(VLM)인 Skywork-R1V3를 소개한다. 이 모델의 주요 혁신은 텍스트 전용 대형 언어 모델(LLM)의 추론 능력을 시각적 작업으로 효과적으로 전이하는 데 있다. Skywork-R1V3의 강력한 성능은 주로 추가적인 사전 학습 없이도 모델의 추론 능력을 효과적으로 활성화하고 강화하는 우리의 정교한 사후 학습 RL 프레임워크에서 비롯된다. 이 프레임워크를 통해, 우리는 다중 모달 추론 모델에서 강력한 교차 모달 정렬을 달성하기 위한 커넥터 모듈의 근본적인 역할을 추가로 발견한다. 또한, 우리는 RL 훈련 중 체크포인트 선택에 매우 효과적인 것으로 입증된 추론 능력의 독특한 지표인 핵심 추론 토큰의 엔트로피를 소개한다. Skywork-R1V3는 MMMU에서 최첨단 결과를 달성하며, 64.3%에서 76.0%로 크게 향상되었다. 이 성능은 초급 인간의 능력과 맞먹는다. 특히, 우리의 RL 기반 사후 학습 접근 방식은 38B 파라미터 모델조차도 최고의 클로즈드소스 VLM과 경쟁할 수 있게 한다. 이 구현은 수학적 추론을 다른 주제 관련 추론 작업으로 성공적으로 전이한다. 우리는 또한 커리큘럼 학습과 강화 미세 조정 전략에 대한 분석과 더불어 다중 모달 추론에 대한 광범위한 논의를 포함한다. Skywork-R1V3는 다중 모달 추론에서의 중요한 도약을 나타내며, RL이 오픈소스 VLM 능력을 발전시키는 강력한 엔진임을 보여준다.
AI 에이전트의 메모리 능력이 점점 더 주목받고 있지만, 기존 솔루션은 근본적으로 한계를 지니고 있다. 대부분의 솔루션은 단순하고 좁은 범위의 메모리 구성 요소에 의존하여, 시간이 지남에 따라 사용자별 정보를 개인화하고 추상화하며 신뢰할 수 있게 회상하는 능력이 제한된다. 이를 해결하기 위해, 우리는 MIRIX를 소개한다. MIRIX는 모듈식 다중 에이전트 메모리 시스템으로, 언어 모델이 진정으로 기억할 수 있도록 하는 이 분야의 가장 중요한 과제를 해결함으로써 AI 메모리의 미래를 재정의한다. 기존 접근 방식과 달리, MIRIX는 텍스트를 넘어 풍부한 시각적 및 다중 모달 경험을 포용하여, 메모리가 실제 시나리오에서 진정으로 유용하게 만든다. MIRIX는 Core, Episodic, Semantic, Procedural, Resource Memory, Knowledge Vault라는 여섯 가지의 구별되고 신중하게 구조화된 메모리 유형으로 구성되며, 업데이트와 검색을 동적으로 제어하고 조정하는 다중 에이전트 프레임워크와 결합된다. 이 설계는 에이전트가 다양한 장기 사용자 데이터를 대규모로 지속하고, 추론하며, 정확하게 검색할 수 있게 한다. 우리는 MIRIX를 두 가지 까다로운 환경에서 검증했다. 첫째, ScreenshotVQA에서 MIRIX는 깊은 맥락적 이해를 요구하고 기존 메모리 시스템을 적용할 수 없는, 시퀀스당 거의 20,000개의 고해상도 컴퓨터 스크린샷으로 구성된 도전적인 다중 모달 벤치마크에서 RAG 기준선보다 35% 더 높은 정확도를 달성하면서 저장 요구량을 99.9% 줄였다. 둘째, LOCOMO에서 MIRIX는 단일 모달 텍스트 입력을 사용한 장문 대화 벤치마크에서 85.4%의 최첨단 성능을 달성하여 기존 기준선을 훨씬 능가했다. 이러한 결과는 MIRIX가 메모리 강화 LLM 에이전트에 대한 새로운 성능 기준을 설정함을 보여준다. 사용자가 우리의 메모리 시스템을 경험할 수 있도록, 우리는 MIRIX로 구동되는 패키지 애플리케이션을 제공한다. 이 애플리케이션은 실시간으로 화면을 모니터링하고, 개인화된 메모리 베이스를 구축하며, 직관적인 시각화와 안전한 로컬 저장소를 제공하여 프라이버시를 보장한다.
텍스트 설명을 기반으로 다양하고 자연스러운 인간 동작 시퀀스를 생성하는 것은 컴퓨터 비전, 그래픽스, 로보틱스 분야에서 근본적이면서도 도전적인 연구 주제입니다. 이 분야에서 상당한 진전이 있었음에도 불구하고, 현재의 방법론들은 훈련 데이터셋의 제한된 크기로 인해 제로샷 일반화 능력과 관련된 문제에 직면하는 경우가 많습니다. 더욱이, 포괄적인 평가 프레임워크의 부재는 개선 방향을 식별하지 못함으로써 이 작업의 발전을 저해하고 있습니다. 본 연구에서는 텍스트-투-모션을 새로운 시대로 나아가게 하려는 목표를 가지고 있습니다. 즉, 제로샷 일반화 능력을 달성하는 것입니다. 이를 위해, 첫째로 효율적인 주석 파이프라인을 개발하고, 2,000시간 이상의 200만 개의 고품질 동작 시퀀스를 포함한 최대 규모의 인간 동작 데이터셋인 MotionMillion을 소개합니다. 또한, 제로샷 동작 생성을 평가하기 위한 가장 포괄적인 벤치마크인 MotionMillion-Eval을 제안합니다. 확장 가능한 아키텍처를 활용하여 모델을 70억 개의 파라미터로 확장하고 MotionMillion-Eval에서 그 성능을 검증합니다. 우리의 결과는 도메인 외부 및 복잡한 조합 동작에 대한 강력한 일반화를 보여주며, 제로샷 인간 동작 생성으로의 중요한 진전을 이룹니다. 코드는 https://github.com/VankouF/MotionMillion-Codes에서 확인할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(Large Language Models, LLMs)에 견고한 다단계 추론 능력을 부여하는 데 매우 효과적인 전략으로 입증되었습니다. 그러나 그 설계와 최적화는 순수 텍스트 영역에 맞춰져 있어, 다중 모달리티(multimodal) 추론 작업에 적용할 때 최적의 성능을 발휘하지 못합니다. 특히, 현재 다중 모달리티 추론에서 주요 오류 원인은 시각적 입력에 대한 인식(perception) 문제임을 관찰했습니다. 이러한 병목 현상을 해결하기 위해, 우리는 GRPO(Generalized Reinforcement Policy Optimization)의 간단하지만 효과적인 확장인 Perception-Aware Policy Optimization(PAPO)을 제안합니다. PAPO는 모델이 내부 감독 신호만을 통해 추론을 학습하는 동시에 인식 능력을 학습하도록 유도하며, 추가 데이터 큐레이션, 외부 보상 모델 또는 독점 모델에 의존하지 않습니다. 구체적으로, 우리는 GRPO 목적 함수에 KL 발산(KL divergence) 항으로 구성된 암묵적 인식 손실(Implicit Perception Loss)을 도입했습니다. 이는 단순함에도 불구하고 다양한 다중 모달리티 벤치마크에서 4.4%의 전반적인 성능 향상을 가져왔습니다. 특히 시각 의존도가 높은 작업에서는 8.0%에 가까운 더 큰 개선을 보였습니다. 또한, PAPO를 통해 인식 오류가 30.5% 크게 감소했으며, 이는 향상된 인식 능력을 나타냅니다. 우리는 PAPO에 대한 포괄적인 분석을 수행하고, 고유한 손실 해킹(loss hacking) 문제를 식별하여 이를 Double Entropy Loss를 통해 엄격히 분석하고 완화했습니다. 전반적으로, 우리의 연구는 RLVR 학습 목표에 인식 감독을 더 깊이 통합하고, 시각적으로 근거 있는 추론을 촉진하는 새로운 RL 프레임워크의 기반을 마련했습니다. 프로젝트 페이지: https://mikewangwzhl.github.io/PAPO.
대규모 언어 모델(LLM)은 최근 HumanEval 및 LiveCodeBench와 같은 코드 생성 벤치마크에서 주목할 만한 성과를 거두었습니다. 그러나 자세히 살펴보면 이러한 평가 스위트는 종종 제한된 수의 동질적인 테스트 케이스로 구성되어 있어 미묘한 결함이 탐지되지 않는 경우가 많습니다. 이는 측정된 성능을 인위적으로 부풀릴 뿐만 아니라 검증 가능한 보상을 활용하는 강화 학습 프레임워크(RLVR)에서 정확한 보상 추정을 저해합니다. 이러한 중요한 단점을 해결하기 위해, 우리는 테스트 스위트의 철저성을 엄격하게 정량화하기 위해 다차원 메트릭을 제안하여 테스트 케이스 생성(TCG) 작업을 체계적으로 조사합니다. 더 나아가, 인간의 프로그래밍 전문 지식과 LLM의 추론 능력을 결합한 인간-LLM 협업 방법(SAGA)을 도입하여 생성된 테스트 케이스의 커버리지와 품질을 크게 향상시키고자 합니다. 또한, TCG 작업 연구를 용이하게 하기 위해 TCGBench를 개발했습니다. 실험 결과, SAGA는 TCGBench에서 90.62%의 탐지율과 32.58%의 검증기 정확도를 달성했습니다. SAGA가 합성한 코드 생성 평가 벤치마크의 검증기 정확도(Verifier Acc)는 LiveCodeBench-v6보다 10.78% 더 높았습니다. 이러한 결과는 우리가 제안한 방법의 효과를 입증합니다. 우리는 이 작업이 신뢰할 수 있는 LLM 코드 평가를 위한 확장 가능한 기반을 구축하고, 코드 생성에서 RLVR을 더욱 발전시키며, 자동화된 적대적 테스트 합성과 적응형 벤치마크 통합의 길을 열어가는 데 기여하기를 바랍니다.
검증 가능한 보상으로부터의 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키지만, 불안정한 탐색 문제에 직면해 있습니다. 우리는 FR3E(First Return, Entropy-Eliciting Explore)를 제안합니다. 이는 구조화된 탐색 프레임워크로, 추론 경로에서 높은 불확실성을 가진 결정 지점을 식별하고, 의미론적으로 근거 있는 중간 피드백을 구성하기 위해 타겟팅된 롤아웃을 수행합니다. 우리의 방법은 밀집된 감독에 의존하지 않고도 타겟팅된 지침을 제공합니다. 수학적 추론 벤치마크(AIME24)에서의 실험 결과는 FR3E가 더 안정적인 학습을 촉진하고, 더 길고 일관성 있는 응답을 생성하며, 완전히 정확한 경로의 비율을 증가시킨다는 것을 보여줍니다. 이러한 결과는 더 강력하고 구조화된 탐색을 통해 LLM의 추론 능력을 개선하는 이 프레임워크의 효과를 강조합니다.
Transformer는 긴 시퀀스에서 2차 복잡도와 메모리 문제에 직면하며, 이로 인해 고정 크기 은닉 상태를 사용하는 선형 어텐션 메커니즘의 도입이 촉진되었습니다. 그러나 선형 모델은 종종 제한된 리콜 성능으로 인해 어려움을 겪으며, 이는 선형 및 전체 어텐션 레이어를 결합한 하이브리드 아키텍처로 이어집니다. 광범위한 하이브리드 아키텍처 연구에도 불구하고, 선형 어텐션 구성 요소의 선택은 깊이 탐구되지 않았습니다. 우리는 벡터 재귀에서 고급 게이팅 메커니즘에 이르는 다양한 세대의 선형 어텐션 모델을 독립적으로 그리고 하이브리드화하여 체계적으로 평가합니다. 이러한 포괄적인 분석을 가능하게 하기 위해, 우리는 340M 파라미터(20B 토큰)와 1.3B 파라미터(100B 토큰)의 72개 모델을 학습하고 오픈소스로 공개했습니다. 이는 5가지 하이브리드화 비율에 걸쳐 6가지 선형 어텐션 변형을 포함합니다. 표준 언어 모델링 및 리콜 작업에 대한 벤치마킹 결과, 우수한 독립형 선형 모델이 하이브리드에서 반드시 뛰어나지는 않음을 보여줍니다. 언어 모델링은 선형 대 전체 어텐션 비율에 걸쳐 안정적으로 유지되는 반면, 리콜은 전체 어텐션 레이어가 증가함에 따라 특히 3:1 비율 미만에서 크게 개선됩니다. 우리의 연구는 선택적 게이팅, 계층적 재귀, 그리고 제어된 망각이 효과적인 하이브리드 모델에 있어 중요함을 강조합니다. 우리는 HGRN-2 또는 GatedDeltaNet과 같은 아키텍처를 3:1에서 6:1 사이의 선형 대 전체 비율로 사용하여 Transformer 수준의 리콜을 효율적으로 달성할 것을 권장합니다. 우리의 모델은 https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e에서 오픈소스로 제공됩니다.
딥러닝에서 커널 개발은 메모리 관리, 병렬 처리, 하드웨어별 최적화를 균형 있게 조율하면서 하드웨어 전반에 걸쳐 계산 유닛을 최적화하는 것을 요구합니다. Triton과 같은 도메인 특화 언어는 저수준 세부 사항을 추상화하여 GPU 프로그래밍을 단순화하지만, 개발자는 여전히 타일 크기와 메모리 접근 패턴과 같은 핵심 매개변수를 반복적인 실험을 통해 수동으로 조정해야 하며, 이는 최적의 성능과 광범위한 채택에 상당한 장벽으로 작용합니다. 본 연구에서는 강화 학습(RL) 기반의 Triton 프로그래밍 전용 모델인 AutoTriton을 소개합니다. AutoTriton은 고품질 데이터 수집 파이프라인을 통해 필수적인 Triton 프로그래밍 전문성을 습득하기 위해 지도 미세 조정(SFT)을 수행하고, 규칙 기반 보상과 실행 기반 보상을 결합한 Group Relative Policy Optimization(GRPO) 알고리즘을 사용하여 RL을 진행함으로써 Triton 프로그래밍 능력을 순차적으로 향상시킵니다. TritonBench와 KernelBench의 다섯 가지 평가 채널에서의 실험은 8B 모델인 AutoTriton이 Claude-4-Sonnet 및 DeepSeek-R1-0528을 포함한 주류 대형 모델과 비슷한 성능을 달성함을 보여줍니다. 추가 실험 분석은 SFT 단계, RL 단계, 보상 설계 전략을 포함한 AutoTriton 내 각 모듈의 중요한 역할을 입증합니다. 이러한 결과는 고성능 커널을 자동으로 생성하기 위한 RL의 잠재력을 강조하며, 고성능 커널은 AI 시스템의 핵심 구성 요소이기 때문에 이번 돌파구는 더 효율적인 AI 시스템 구축을 위한 중요한 기반을 마련합니다. 모델과 코드는 https://github.com/AI9Stars/AutoTriton에서 제공될 예정입니다.
형식 언어에서의 자동 정리 증명(Automated Theorem Proving, ATP)은 AI의 근본적인 과제입니다. 대규모 언어 모델(Large Language Models, LLMs)이 놀라운 발전을 이끌었지만, 이들의 강력한 비형식적 추론 능력과 약한 형식적 증명 성능 사이에는 상당한 격차가 존재합니다. 최근 연구에 따르면, PutnamBench와 같은 벤치마크에서 비형식적 정확도는 80%를 초과하는 반면, 형식적 성공률은 8% 미만으로 나타났습니다. 우리는 이 격차가 현재 최첨단 증명기들이 추론과 증명을 긴밀하게 결합함으로써 깊은 추론을 억누르고 피상적이고 전략 기반의 접근 방식을 선호하는 훈련 패러다임을 사용하기 때문에 지속된다고 주장합니다. 이 근본적인 격차를 해소하기 위해, 우리는 고수준 추론과 저수준 증명 생성을 분리하는 새로운 프레임워크를 제안합니다. 우리의 접근 방식은 두 가지 별개의 특화된 모델을 활용합니다: 강력한 범용 추론기(Reasoner)가 다양한 전략적 보조 정리(lemma)를 생성하고, 효율적인 증명기(Prover)가 이를 엄격히 검증합니다. 이 모듈식 설계는 모델의 전체 추론 잠재력을 해방시키고 종단간(end-to-end) 훈련의 함정을 피할 수 있게 합니다. 우리는 이 방법을 2000년 이후의 국제 수학 올림피아드(IMO) 문제 세트에서 평가했으며, 이 문제 세트에서는 이전의 어떤 오픈소스 증명기도 성공을 보고한 바 없습니다. 우리의 분리된 프레임워크는 이 중 5개의 문제를 성공적으로 해결하며, 특히 어려운 수학적 도전 과제에 대한 자동화된 추론에 있어 중요한 진전을 보여줍니다. 향후 연구를 촉진하기 위해, 우리는 다양한 IMO 문제에 대해 생성되고 검증된 보조 정리의 전체 데이터셋을 공개하며, 이는 https://tencent-imo.github.io/에서 확인할 수 있습니다.
다중모드 대형 언어 모델(MLLM)의 급속한 발전은 시각 인지, 자연어 이해, 제어를 단일 정책 내에 통합하는 Vision-Language-Action(VLA) 패러다임의 길을 열었습니다. 자율주행 분야의 연구자들은 이러한 방법들을 차량 도메인에 적극적으로 적용하고 있습니다. 이러한 모델들은 고차원의 명령을 해석하고, 복잡한 교통 상황에 대해 추론하며, 스스로 결정을 내릴 수 있는 자율주행 차량을 가능하게 할 것으로 기대됩니다. 그러나 관련 문헌은 여전히 단편적이며 빠르게 확장되고 있습니다. 본 조사 논문은 자율주행을 위한 VLA(VLA4AD)에 대한 첫 번째 포괄적인 개요를 제공합니다. 우리는 (i) 최근 연구에서 공유되는 아키텍처 구성 요소를 공식화하고, (ii) 초기 설명자 모델에서 추론 중심 VLA 모델로의 진화를 추적하며, (iii) 자율주행 도메인에서 VLA의 진전에 따라 20개 이상의 대표적인 모델을 비교합니다. 또한 기존 데이터셋과 벤치마크를 통합하여 운전 안전성, 정확성, 설명 품질을 동시에 측정하는 프로토콜을 강조합니다. 마지막으로, VLA4AD의 개방형 과제인 견고성, 실시간 효율성, 형식적 검증을 상세히 설명하고 미래 방향을 제시합니다. 본 조사 논문은 해석 가능하고 사회적으로 조화된 자율주행 차량을 발전시키기 위한 간결하면서도 완전한 참고 자료를 제공합니다. Github 저장소는 https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}에서 확인할 수 있습니다.
스펙트럼으로부터 분자 구조를 규명하는 것은 화학에서 기초적인 문제로, 화합물 식별, 합성 및 약물 개발에 깊은 영향을 미칩니다. 전통적인 방법은 전문가의 해석에 크게 의존하며 확장성이 부족합니다. 선구적인 기계 학습 방법은 검색 기반 전략을 도입했지만, 유한한 라이브러리에 의존하기 때문에 새로운 분자에 대한 일반화가 제한됩니다. 생성 모델은 유망한 대안을 제공하지만, 대부분이 3D 기하학을 간과하고 다양한 스펙트럼 양식을 통합하는 데 어려움을 겪는 자기회귀적 SMILES 기반 아키텍처를 채택합니다. 본 연구에서는 확산 모델을 사용하여 다중 모달 스펙트럼 데이터로부터 2D 및 3D 분자 구조를 직접 추론하는 생성 프레임워크인 DiffSpectra를 제시합니다. DiffSpectra는 구조 규명을 조건부 생성 과정으로 공식화합니다. 이 프레임워크의 노이즈 제거 네트워크는 위상 및 기하학적 정보를 통합하는 SE(3)-등변 아키텍처인 Diffusion Molecule Transformer로 매개변수화됩니다. 조건화는 다중 모달 스펙트럼으로부터 스펙트럼 내 및 스펙트럼 간 의존성을 포착하는 트랜스포머 기반 스펙트럼 인코더인 SpecFormer에 의해 제공됩니다. 광범위한 실험을 통해 DiffSpectra가 구조 규명에서 높은 정확도를 달성하며, 샘플링을 통해 정확한 구조를 16.01%의 top-1 정확도와 96.86%의 top-20 정확도로 복구함을 입증했습니다. 이 모델은 3D 기하학적 모델링, SpecFormer 사전 학습 및 다중 모달 조건화로부터 상당한 이점을 얻습니다. 이러한 결과는 스펙트럼 조건화 확산 모델링이 분자 구조 규명의 도전을 해결하는 데 효과적임을 강조합니다. 우리가 아는 한, DiffSpectra는 다중 모달 스펙트럼 추론과 2D/3D 생성 모델링을 통합하여 새로운 분자 구조를 규명하는 최초의 프레임워크입니다.
최근 언어 모델링 분야의 발전은 효율적인 시퀀스 모델링을 위해 상태 공간 모델(State Space Models, SSMs)의 효과성을 입증해 왔다. Samba와 디코더-디코더 아키텍처인 YOCO와 같은 하이브리드 아키텍처가 트랜스포머 대비 유망한 성능 향상을 보여주었지만, 기존 연구들은 SSM 레이어 간의 표현 공유의 효율성 잠재력을 탐구하지 않았다. 본 논문에서는 레이어 간 효율적인 메모리 공유를 위한 간단하면서도 효과적인 메커니즘인 게이트 메모리 유닛(Gated Memory Unit, GMU)을 소개한다. 이를 적용하여 Samba 기반의 자기 디코더에서 메모리 읽기 상태를 공유하는 크로스 디코더에 GMU를 통합한 디코더-하이브리드-디코더 아키텍처인 SambaY를 개발하였다. SambaY는 디코딩 효율성을 크게 향상시키고, 선형적인 사전 채우기 시간 복잡도를 유지하며, 긴 문맥 성능을 강화하는 동시에 명시적인 위치 인코딩의 필요성을 제거한다. 광범위한 스케일링 실험을 통해, 우리의 모델이 강력한 YOCO 기준선 대비 상당히 낮은 불가역적 손실을 보이며, 대규모 컴퓨팅 환경에서 우수한 성능 확장성을 나타냄을 입증한다. Differential Attention으로 강화된 우리의 가장 큰 모델인 Phi4-mini-Flash-Reasoning은 강화 학습 없이도 Math500, AIME24/25, GPQA Diamond와 같은 추론 작업에서 Phi4-mini-Reasoning보다 상당히 우수한 성능을 달성하며, vLLM 추론 프레임워크 하에서 2K 길이의 프롬프트와 32K 생성 길이에서 최대 10배 높은 디코딩 처리량을 제공한다. 우리는 오픈소스 데이터에 대한 학습 코드베이스를 https://github.com/microsoft/ArchScale에서 공개한다.
우리는 FlexOlmo라는 새로운 클래스의 언어 모델(LM)을 소개한다. 이 모델은 (1) 데이터 공유 없이 분산 학습을 지원하며, 서로 다른 모델 파라미터들이 독립적으로 폐쇄된 데이터셋에서 학습되고, (2) 데이터 유연성 추론을 지원하여, 이러한 파라미터들과 관련 데이터를 추가 학습 없이도 유연하게 모델 추론에 포함하거나 제외할 수 있다. FlexOlmo는 혼합 전문가(MoE) 아키텍처를 채택하며, 각 전문가는 폐쇄된 데이터셋에서 독립적으로 학습된 후 새로운 도메인 기반 라우팅을 통해 통합된다. FlexOlmo는 FlexMix라는 우리가 구축한 코퍼스에서 학습되며, 이 코퍼스는 공개적으로 이용 가능한 데이터셋과 7개의 도메인 특화 데이터셋으로 구성되어 폐쇄된 데이터셋의 현실적 근사치를 나타낸다. 우리는 최대 370억 개의 파라미터(활성 파라미터 200억 개)를 가진 모델을 31개의 다양한 다운스트림 작업에서 평가한다. 공개 데이터에서 학습된 일반 전문가가 다른 데이터 소유자의 독립적으로 학습된 전문가들과 효과적으로 결합될 수 있음을 보여주며, 이는 평균 41%의 상대적 성능 향상을 이끌어내면서도 사용자가 데이터 라이선스 또는 허가 요구사항에 따라 특정 데이터를 선택적으로 제외할 수 있도록 한다. 또한 우리의 접근 방식은 기존 모델 병합 방법을 평균 10.1% 앞서며, 동일한 학습 FLOPs를 사용하여 데이터 제한 없이 학습된 표준 MoE를 능가한다. 전반적으로, 이 연구는 민감하거나 보호된 데이터를 다루는 규제 산업의 데이터 소유자와 연구자들을 위한 솔루션을 제시한다. FlexOlmo는 폐쇄된 데이터로부터 이점을 얻으면서도 데이터 소유자의 선호를 존중하며, 데이터를 로컬에 유지하고 추론 중 데이터 접근에 대한 세밀한 제어를 지원한다.
대규모 언어 모델(LLM)을 활용한 강화 학습(RL) 기반 비디오 추론 기술이 발전했음에도 불구하고, 데이터 수집과 미세 조정은 여전히 큰 과제로 남아 있습니다. 이러한 방법들은 대규모의 비디오 데이터와 긴 사고의 연쇄(CoT) 주석을 포함한 대규모 지도 미세 조정(SFT)에 의존하는 경우가 많아, 비용이 많이 들고 확장하기 어렵습니다. 이를 해결하기 위해, 우리는 데이터 효율적인 RL과 비디오 적응형 테스트 시간 스케일링(TTS) 전략을 결합하여 데이터 효율성을 극적으로 개선한 새로운 접근 방식인 Video-RTS를 제안합니다. RL 샘플의 데이터 스케일링에 대한 관찰을 바탕으로, 우리는 자원 집약적인 SFT 단계를 건너뛰고 추가 주석이나 광범위한 미세 조정 없이도 출력 기반 보상을 사용한 효율적인 순수 RL 훈련을 적용합니다. 더 나아가, 계산 자원을 더 효율적으로 활용하기 위해, 출력 일관성을 기반으로 프레임을 반복적으로 추가하여 추론을 개선하는 희소에서 밀도로의 비디오 TTS 전략을 도입합니다. 우리는 여러 비디오 추론 벤치마크에서 이 접근 방식을 검증하여, Video-RTS가 기존 비디오 추론 모델을 평균 2.4% 정확도로 능가하며 단 3.6%의 훈련 샘플만 사용함을 보여줍니다. 예를 들어, Video-RTS는 최근에 도전적인 비디오 추론 벤치마크인 Video-Holmes에서 4.2%의 개선을, MMVU에서 2.6%의 개선을 달성했습니다. 특히, 우리의 순수 RL 훈련과 적응형 비디오 TTS는 상호 보완적인 강점을 제공하여 Video-RTS의 강력한 추론 성능을 가능하게 합니다.
장문맥 추론은 방대하고 잡음이 많은 입력 맥락에서 관련 정보를 정확하게 식별하는 것을 요구한다. 선행 연구에 따르면, 테스트 시간 학습을 통해 맥락을 모델 파라미터에 직접 인코딩하는 것이 잡음이 많은 정보에 대한 추론을 효과적으로 가능하게 할 수 있다. 그러나 테스트 시간 학습을 가능하게 하는 메타 학습 방법은 메모리 사용량이 과도하게 많아 장문맥 설정에 적용하기 어렵다. 본 연구에서는 테스트 시간에 경량 모델 어댑터에 대한 그래디언트 업데이트를 사용하여 장문 입력 맥락을 인코딩하는 확장 가능한 접근법인 PERK(Parameter Efficient Reasoning over Knowledge)를 제안한다. 구체적으로, PERK는 메타 학습 단계에서 두 개의 중첩된 최적화 루프를 사용한다. 내부 루프는 맥락을 저랭크 어댑터(LoRA)로 신속하게 인코딩하며, 이는 기본 모델을 위한 파라미터 효율적인 메모리 모듈로 기능한다. 동시에, 외부 루프는 업데이트된 어댑터를 사용하여 인코딩된 장문 맥락에서 관련 정보를 정확하게 회상하고 추론하는 방법을 학습한다. 여러 장문맥 추론 작업에 대한 평가 결과, PERK는 표준 프롬프트 기반 장문맥 베이스라인을 크게 능가하며, 작은 모델(GPT-2)의 경우 최대 90%, 평가된 가장 큰 모델인 Qwen-2.5-0.5B의 경우 최대 27%의 평균 절대 성능 향상을 달성했다. 일반적으로 PERK는 추론 복잡성, 길이 외삽, 그리고 맥락 내 관련 정보의 위치에 대해 더 강건하다. 마지막으로, PERK는 학습 중에는 메모리 사용량이 많지만, 추론 시간에는 프롬프트 기반 장문맥 추론보다 더 효율적으로 확장됨을 보여준다.
자동 유해 언어 탐지는 안전하고 포용적인 온라인 공간을 조성하는 데 있어 매우 중요합니다. 그러나 이는 매우 주관적인 작업으로, 유해 언어에 대한 인식은 커뮤니티 규범과 개인 경험에 따라 달라집니다. 기존의 유해성 탐지 모델은 일반적으로 다양한 주석자의 관점을 단일한 기준으로 축소한 주석 데이터로 학습되어, 재활용된 언어와 같은 중요한 맥락적 유해성 개념을 무시하는 경향이 있습니다. 이를 해결하기 위해, 우리는 다양한 정체성 그룹에 걸친 6.8K개의 소셜 미디어 게시물과 40K개의 유해성 주석으로 구성된 MODELCITIZENS 데이터셋을 소개합니다. 소셜 미디어 게시물에서 흔히 나타나는 대화적 맥락의 역할을 포착하기 위해, 우리는 MODELCITIZENS 게시물에 LLM(대형 언어 모델)이 생성한 대화 시나리오를 추가했습니다. 최첨단 유해성 탐지 도구(예: OpenAI Moderation API, GPT-o4-mini)는 MODELCITIZENS에서 성능이 저조하며, 맥락이 추가된 게시물에서는 더욱 성능이 저하됩니다. 마지막으로, 우리는 MODELCITIZENS로 미세 조정된 LLaMA 기반의 LLAMACITIZEN-8B와 Gemma 기반의 GEMMACITIZEN-12B 모델을 공개합니다. 이 모델들은 GPT-o4-mini보다 인-분포 평가에서 5.5% 더 우수한 성능을 보입니다. 우리의 연구 결과는 포용적인 콘텐츠 조정을 위해 커뮤니티 기반 주석 및 모델링의 중요성을 강조합니다. 데이터, 모델 및 코드는 https://github.com/asuvarna31/modelcitizens에서 확인할 수 있습니다.
Nova Premier는 Amazon의 가장 강력한 멀티모달 기초 모델이자 모델 증류를 위한 교사 모델입니다. 이 모델은 100만 토큰의 컨텍스트 윈도우를 통해 텍스트, 이미지, 비디오를 처리하며, 단일 프롬프트로 대규모 코드베이스, 400페이지 분량의 문서, 90분 길이의 비디오를 분석할 수 있습니다. 본 논문에서는 Frontier Model Safety Framework 하에서 Nova Premier의 주요 위험 프로필에 대한 첫 번째 포괄적 평가를 제시합니다. 평가는 세 가지 고위험 영역——화학, 생물학, 방사능 및 핵(CBRN), 공격적 사이버 작전, 자동화된 AI 연구 개발——을 대상으로 하며, 자동화된 벤치마크, 전문가 레드 팀 활동, 그리고 업리프트 연구를 결합하여 모델이 출시 기준을 초과하는지 여부를 판단합니다. 우리는 방법론을 요약하고 핵심 결과를 보고합니다. 이 평가를 바탕으로, Nova Premier는 2025년 파리 AI 안전 정상회의에서 한 약속에 따라 공개 출시에 안전한 것으로 판단됩니다. 우리는 프론티어 모델과 관련된 새로운 위험과 역량이 식별됨에 따라 안전 평가 및 완화 파이프라인을 지속적으로 강화할 것입니다.
자율 수술에 대한 연구는 주로 통제된 환경에서의 단순 작업 자동화에 초점을 맞추어 왔다. 그러나 실제 수술 응용에서는 장시간에 걸친 정교한 조작과 인간 조직의 고유한 변이성에 대한 일반화가 요구된다. 이러한 도전 과제들은 기존의 논리 기반 또는 전통적인 종단간 학습 접근법으로는 해결하기 어려운 문제로 남아 있다. 이러한 격차를 해결하기 위해, 우리는 정교하고 장기적인 수술 단계를 수행하기 위한 계층적 프레임워크를 제안한다. 우리의 접근법은 작업 계획을 위한 상위 수준 정책과 로봇 궤적 생성을 위한 하위 수준 정책을 활용한다. 상위 수준 계획자는 언어 공간에서 계획을 수립하며, 장기적인 단계를 안내하고 하위 수준 정책의 오류를 수정하기 위한 작업 수준 또는 수정 지시를 생성한다. 우리는 일반적으로 시행되는 최소 침습 수술인 담낭 절제술에 대한 생체 외 실험을 통해 이 프레임워크를 검증하고, 시스템의 주요 구성 요소를 평가하기 위해 절제 연구를 수행하였다. 우리의 방법은 인간의 개입 없이 완전히 자율적으로 작동하며, 보지 않은 8개의 생체 외 담낭에서 100%의 성공률을 달성하였다. 이 연구는 수술 절차에서 단계 수준의 자율성을 입증함으로써, 자율 수술 시스템의 임상 적용을 위한 이정표를 세웠다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전으로 이미지 기반 질의응답 기능이 가능해졌다. 그러나 주요 한계점은 시각적 인코더로 CLIP을 사용하는 것인데, 이는 전체적인 정보를 포착할 수는 있지만 입력 질의와 관련된 세부적인 정보를 놓치는 경우가 많다. 이러한 단점을 해결하기 위해, 본 연구에서는 사전 학습된 텍스트-이미지 확산 모델이 명령어 인식 시각적 인코더로 사용될 수 있는지 여부를 탐구한다. 내부 표현 분석을 통해 확산 모델의 특징이 의미론적으로 풍부하며 강력한 이미지-텍스트 정렬을 인코딩할 수 있음을 발견했다. 또한, 텍스트 조건화를 통해 모델이 입력 질문과 관련된 영역에 집중하도록 할 수 있음을 확인했다. 이후 이러한 특징을 대형 언어 모델과 정렬하는 방법을 연구하며, LLM이 원래의 확산 프롬프트에서 의도치 않게 정보를 복구할 수 있는 누출 현상을 발견했다. 이 누출의 원인을 분석하고 이를 완화하기 위한 전략을 제안한다. 이러한 통찰을 바탕으로, CLIP과 조건부 확산 특징을 모두 활용하는 간단한 융합 전략을 탐구한다. 일반적인 VQA와 특화된 MLLM 벤치마크에서 우리의 접근 방식을 평가하며, 특히 공간적 및 구성적 추론이 필요한 시각 중심 작업에서 확산 모델의 시각적 이해에 대한 잠재력을 입증한다. 우리의 프로젝트 페이지는 https://vatsalag99.github.io/mustafar/에서 확인할 수 있다.
대규모 언어 모델(LLMs)과 그 안전성 분류기는 훈련 데이터와 평가 벤치마크가 제한적이기 때문에 저자원 언어에서 종종 낮은 성능을 보인다. 본 논문은 싱가포르의 독특한 언어적 맥락에 맞춰 현지화된 새로운 다국어 안전성 벤치마크인 RabakBench를 소개한다. 이 벤치마크는 싱글리시(Singlish), 중국어, 말레이어, 타밀어를 포함한다. RabakBench는 확장 가능한 3단계 파이프라인을 통해 구축되었다: (i) 생성 - 실제 싱글리시 웹 콘텐츠를 LLM 기반 레드 팀 기법으로 증강하여 적대적 예제를 생성; (ii) 라벨링 - 인간 판단과 일치하는 다수결 투표 방식의 LLM 라벨러를 사용한 반자동 다중 라벨 안전성 주석; (iii) 번역 - 언어 간 언어적 뉘앙스와 유해성을 보존하는 고품질 번역. 최종 데이터셋은 4개 언어와 6개의 세분화된 안전성 범주에 걸쳐 심각도 수준을 포함한 5,000개 이상의 안전성 라벨이 지정된 예제로 구성된다. 11개의 인기 있는 오픈소스 및 클로즈드소스 가드레일 분류기에 대한 평가 결과, 성능이 크게 저하되는 것으로 나타났다. RabakBench는 동남아시아 다국어 환경에서 견고한 안전성 평가를 가능하게 할 뿐만 아니라, 저자원 환경에서 현지화된 안전성 데이터셋을 구축하기 위한 재현 가능한 프레임워크를 제공한다. 벤치마크 데이터셋, 인간 검증 번역, 평가 코드는 공개적으로 이용 가능하다.
소셜 미디어 시대에 다중 양식 밈(multimodal memes)의 확산은 다중 양식 대형 언어 모델(multimodal Large Language Models, mLLMs)이 밈의 유해성을 효과적으로 이해할 것을 요구하고 있다. 기존의 유해 밈 이해 평가를 위한 벤치마크는 정적 데이터셋을 사용한 정확도 기반, 모델-불특정 평가에 의존하고 있다. 이러한 벤치마크는 온라인 밈이 동적으로 진화함에 따라 최신적이고 철저한 평가를 제공하는 데 한계가 있다. 이를 해결하기 위해, 우리는 AdamMeme라는 유연한 에이전트 기반 평가 프레임워크를 제안한다. 이 프레임워크는 다중 에이전트 협업을 통해 mLLMs의 밈 유해성 해독 능력을 적응적으로 탐구하며, 도전적인 샘플로 밈 데이터를 반복적으로 업데이트함으로써 mLLMs가 유해성을 해석하는 방식의 특정 한계를 드러낸다. 광범위한 실험을 통해 우리의 프레임워크가 다양한 대상 mLLMs의 성능 차이를 체계적으로 밝히고, 모델별 약점에 대한 심층적이고 세밀한 분석을 제공함을 보여준다. 우리의 코드는 https://github.com/Lbotirx/AdamMeme에서 확인할 수 있다.