번역이 포함된 일일 선별된 AI 연구 논문
에이전트 강화 학습(Agentic RL)의 등장은 대형 언어 모델(LLM)에 적용된 기존의 강화 학습(LLM RL)과는 패러다임 전환을 의미하며, LLM을 단순한 수동적 시퀀스 생성기에서 복잡하고 동적인 세계에 내재된 자율적 의사결정 에이전트로 재구성합니다. 본 조사는 LLM-RL의 퇴화된 단일 단계 마르코프 결정 과정(MDP)과 Agentic RL을 정의하는 시간적으로 확장된 부분 관측 가능 마르코프 결정 과정(POMDP)을 대조함으로써 이러한 개념적 전환을 공식화합니다. 이를 기반으로, 우리는 두 가지 포괄적인 분류 체계를 제안합니다: 하나는 계획, 도구 사용, 기억, 추론, 자기 개선, 지각 등 핵심 에이전트 능력을 중심으로 구성되고, 다른 하나는 다양한 작업 영역에서의 응용을 중심으로 구성됩니다. 우리의 논문의 핵심은 강화 학습이 이러한 능력을 정적이고 휴리스틱한 모듈에서 적응적이고 견고한 에이전트 행동으로 변환하는 중요한 메커니즘으로 작용한다는 것입니다. 향후 연구를 지원하고 가속화하기 위해, 우리는 오픈소스 환경, 벤치마크, 프레임워크의 풍경을 실용적인 요약집으로 통합합니다. 500편 이상의 최근 연구를 종합함으로써, 본 조사는 이 빠르게 진화하는 분야의 윤곽을 그리며, 확장 가능하고 범용적인 AI 에이전트 개발을 형성할 기회와 도전 과제를 강조합니다.
그래픽 사용자 인터페이스(GUI)를 위한 자율 에이전트 개발은 인공지능 분야에서 주요한 과제를 제시합니다. 최근 네이티브 에이전트 모델의 발전은 인지, 추론, 행동, 그리고 메모리를 종단 간 학습을 통해 통합함으로써 유망한 결과를 보여주었지만, 데이터 확장성, 다중 턴 강화 학습(RL), GUI 전용 운영의 한계, 그리고 환경 안정성 등에서 여전히 해결해야 할 문제들이 남아 있습니다. 본 기술 보고서에서는 이러한 과제들을 체계적인 훈련 방법론을 통해 해결한 GUI 중심의 네이티브 에이전트 모델인 UI-TARS-2를 소개합니다. 이 방법론에는 확장 가능한 데이터 생성을 위한 데이터 플라이휠, 안정화된 다중 턴 RL 프레임워크, 파일 시스템과 터미널을 통합한 하이브리드 GUI 환경, 그리고 대규모 롤아웃을 위한 통합 샌드박스 플랫폼이 포함됩니다. 실험적 평가 결과, UI-TARS-2는 이전 버전인 UI-TARS-1.5에 비해 상당한 개선을 달성했습니다. GUI 벤치마크에서 UI-TARS-2는 Online-Mind2Web에서 88.2, OSWorld에서 47.5, WindowsAgentArena에서 50.6, 그리고 AndroidWorld에서 73.3의 점수를 기록하며 Claude 및 OpenAI 에이전트와 같은 강력한 베이스라인을 능가했습니다. 게임 환경에서는 15개 게임 스위트에서 평균 정규화 점수 59.8을 달성하여 인간 수준의 약 60%에 해당하는 성능을 보였으며, LMGame-Bench에서도 OpenAI o3와 같은 최첨단 독점 모델과 경쟁력을 유지했습니다. 또한, 이 모델은 장기간 정보 탐색 작업과 소프트웨어 엔지니어링 벤치마크로 일반화할 수 있어 다양한 에이전트 작업에서의 견고성을 입증했습니다. 훈련 역학에 대한 상세한 분석은 대규모 에이전트 RL에서 안정성과 효율성을 달성하는 데 대한 통찰을 제공합니다. 이러한 결과들은 UI-TARS-2가 GUI 에이전트의 현황을 발전시키고 실제 상호작용 시나리오로의 강력한 일반화 능력을 보여줄 잠재력을 강조합니다.
대형 언어 모델(LLMs)은 외부 도구와 상호작용함으로써 추론 능력을 크게 향상시킬 수 있으며, 이를 도구 통합 추론(Tool-Integrated Reasoning, TIR)이라고 합니다. 그러나 강화 학습(Reinforcement Learning, RL)을 사용하여 TIR을 다중 턴 시나리오로 확장하는 것은 종종 훈련 불안정성과 성능 저하를 초래합니다. 우리는 이러한 불안정성이 주로 외부 도구 피드백으로 인한 분포 변화(distributional drift)에 기인하며, 이로 인해 낮은 확률의 토큰이 생성된다는 것을 확인했습니다. 이 문제는 연속적인 턴에 걸쳐 누적되며, 치명적인 그래디언트 노름 폭발(gradient norm explosion)을 일으켜 훈련 과정을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 다중 턴 TIR 훈련을 안정화시키는 플러그 앤 플레이 알고리즘인 SimpleTIR을 소개합니다. SimpleTIR의 핵심 전략은 코드 블록이나 최종 답변을 생성하지 못하는 무효 턴(void turns)을 포함한 궤적(trajectories)을 식별하고 필터링하는 것입니다. 이러한 문제가 있는 궤적을 정책 업데이트에서 제거함으로써, SimpleTIR은 유해한 고강도 그래디언트를 차단하여 학습 역학을 안정화시킵니다. 광범위한 실험을 통해 SimpleTIR이 어려운 수학 추론 벤치마크에서 최첨단 성능을 달성하며, 특히 Qwen2.5-7B 기본 모델에서 시작할 때 텍스트 전용 기준선인 22.1에서 AIME24 점수를 50.5로 크게 향상시킨다는 것을 보여줍니다. 더 나아가, SimpleTIR은 지도 미세 조정(supervised fine-tuning)의 제약을 피함으로써 모델이 자기 수정(self-correction) 및 교차 검증(cross-validation)과 같은 다양하고 정교한 추론 패턴을 발견하도록 장려합니다.
비전-언어 모델링에서 비평 모델(critic model)은 일반적으로 응답을 생성하기보다는 출력을 평가하기 위해 훈련됩니다. 이때 스칼라 점수를 부여하거나 쌍별 선호도를 평가하는 방식이 주로 사용됩니다. 이러한 비평 모델은 응답을 생성하는 정책 모델(policy model)과 분리되어 있어, 비평 모델이 직접 정책으로 사용되는 경우는 거의 없습니다. 본 연구에서는 이러한 관례에 도전합니다. 우리는 선호도 레이블이 지정된 비평 데이터셋을 검증 가능한 훈련 신호로 재구성하고, 기본 생성 모델에 직접 강화 학습을 수행하여 LLaVA-Critic-R1을 제안합니다. 이는 선호도 판단을 최적화하면서도 완전한 생성 능력을 유지하는 다중모달 비평 모델입니다. 놀랍게도, LLaVA-Critic-R1은 최고 수준의 비평 모델로 등장할 뿐만 아니라, 26개의 시각적 추론 및 이해 벤치마크에서 도메인 내 데이터로 훈련된 전문화된 추론 VLM(비전-언어 모델)을 능가하거나 동등한 성능을 보이는 경쟁력 있는 정책 모델로도 나타났습니다. 이는 기본 모델(Qwen-2.5-VL-7B) 대비 평균 +5.7%의 성능 향상을 보였습니다. 이 접근법을 기존의 강력한 추론 VLM에 확장하여 LLaVA-Critic-R1+를 개발했으며, 이는 비평 품질을 희생하지 않으면서 정책 성능을 더욱 향상시켜 7B 규모에서 MMMU 벤치마크에서 71.9의 SoTA(State-of-the-Art) 성능을 달성했습니다. 마지막으로, 향상된 비평 능력이 추론에 도움이 됨을 보였습니다: 테스트 시점에 자기 비평(self-critique)을 적용하면 추가 훈련 없이도 5개의 대표적인 추론 작업에서 평균 +13.8%의 성능 향상을 얻을 수 있었습니다. 우리의 결과는 비평 데이터에 대한 강화 학습 훈련이 평가와 생성 모두에서 뛰어난 통합 모델을 생성할 수 있음을 보여주며, 확장 가능하고 자기 개선이 가능한 다중모달 시스템을 위한 간단한 경로를 제시합니다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 성공을 거두었지만, 도구 통합 없이 단일 턴 상호작용에 국한되어 있습니다. 최근 다중 턴 도구 상호작용을 해결하기 위해 도구 사용을 통한 에이전트 강화 학습(ARLT) 접근법이 등장했지만, 기존 연구들은 과제별 코드베이스를 개발함으로써 분산화, 동기식 실행 병목 현상, 그리고 도메인 간 확장성 부족 등의 문제를 겪고 있습니다. 이러한 비효율성은 더 넓은 커뮤니티의 채택과 알고리즘 혁신을 방해합니다. 우리는 이러한 한계를 체계적인 설계 원칙을 통해 해결하는 통합적이고 모듈식 프레임워크인 VerlTool을 소개합니다. VerlTool은 네 가지 주요 기여를 제공합니다: (1) VeRL과의 상위 호환성을 보장하고 유지 관리를 단순화하는 상위 정렬, (2) 코드 실행, 검색, SQL 데이터베이스, 비전 처리 등 다양한 모달리티를 지원하는 표준화된 API를 통한 통합 도구 관리, (3) 동기화 병목 현상을 제거하여 거의 2배의 속도 향상을 달성하는 비동기식 롤아웃 실행, 그리고 (4) 6개의 ARLT 도메인에서 경쟁력 있는 성능을 입증하는 포괄적인 평가. 우리의 프레임워크는 ARLT를 다중 턴 궤적과 다중 모달 관찰 토큰(텍스트/이미지/비디오)로 공식화하여 단일 턴 RLVR 패러다임을 확장합니다. 우리는 수학적 추론, 지식 QA, SQL 생성, 시각적 추론, 웹 검색, 소프트웨어 엔지니어링 과제에서 모델을 훈련하고 평가하며, 통합된 훈련 인프라를 제공하면서도 특화된 시스템과 비슷한 결과를 달성합니다. 모듈식 플러그인 아키텍처는 경량의 Python 정의만으로도 빠른 도구 통합을 가능하게 하여 개발 오버헤드를 크게 줄이고, 도구 강화 RL 연구를 위한 확장 가능한 기반을 제공합니다. 우리의 코드는 https://github.com/TIGER-AI-Lab/verl-tool에서 오픈소스로 제공됩니다.
비디오 멀티모달 대형 언어 모델(Video-MLLMs)은 비디오 이해 분야에서 놀라운 진전을 이루어냈습니다. 그러나 이러한 모델들은 여전히 비디오 입력과 일치하지 않거나 관련 없는 내용을 생성하는 환각(hallucination)에 취약합니다. 기존의 비디오 환각 벤치마크는 주로 짧은 비디오에 초점을 맞추고 있으며, 환각의 원인을 강력한 언어 사전 지식, 누락된 프레임, 또는 시각 인코더에 의해 도입된 시각-언어 편향과 같은 요인들로 귀결짓습니다. 이러한 원인들이 짧은 비디오에서 발생하는 대부분의 환각을 설명하긴 하지만, 여전히 환각의 원인을 지나치게 단순화하고 있습니다. 때로는 모델이 잘못된 출력을 생성하지만 프레임 수준의 의미는 정확한 경우가 있습니다. 우리는 이러한 유형의 환각을 의미 집계 환각(Semantic Aggregation Hallucination, SAH)이라고 부르며, 이는 프레임 수준의 의미를 이벤트 수준의 의미 그룹으로 집계하는 과정에서 발생합니다. SAH는 긴 비디오에서 여러 이벤트에 걸친 의미적 복잡성이 증가함에 따라 특히 중요해지므로, 이러한 유형의 환각의 원인을 분리하고 철저히 조사하는 것이 필수적입니다. 이러한 문제를 해결하기 위해, 우리는 긴 비디오 환각에 전념한 첫 번째 벤치마크인 ELV-Halluc를 소개하여 SAH에 대한 체계적인 연구를 가능하게 합니다. 우리의 실험은 SAH의 존재를 확인하고, 이가 의미적 복잡성과 함께 증가함을 보여줍니다. 또한, 모델이 빠르게 변화하는 의미에 대해 SAH에 더 취약하다는 것을 발견했습니다. 더 나아가, SAH를 완화하기 위한 잠재적인 접근 방식을 논의합니다. 우리는 위치 인코딩 전략이 SAH 완화에 기여함을 입증하고, DPO 전략을 추가적으로 도입하여 모델이 이벤트 내 및 이벤트 간 의미를 구분하는 능력을 향상시킵니다. 이를 지원하기 위해, 우리는 8K개의 적대적 데이터 쌍으로 구성된 데이터셋을 구축하고, ELV-Halluc와 Video-MME 모두에서 개선을 달성했으며, SAH 비율을 27.7% 크게 감소시켰습니다.
고품질의 레이블 데이터는 테이블, 수식, 다단 텍스트 등 복잡한 형식을 가진 도메인에서 정확한 문서 변환 모델을 학습시키는 데 필수적입니다. 그러나 수동 주석 작업은 비용과 시간이 많이 소요되며, 기존 모델을 사용한 자동 레이블링은 이러한 까다로운 시나리오를 처리하는 데 정확도가 부족한 경우가 많습니다. 결과적으로, 교사 모델의 출력을 증류하여 학생 모델을 학습시키는 방식은 실제 응용 프로그램에서의 성능을 크게 제한할 수 있습니다. 본 논문에서는 다양한 문서 형식과 레이아웃을 처리할 수 있는 고품질 문서 추출 데이터셋과 모델을 구축하기 위한 두 단계로 구성된 완전 자동화된 증류 없는 프레임워크를 제안합니다. 첫 번째 단계에서는 대규모의 다양한 합성 데이터를 생성하는 방법을 소개하여, 모델이 통일된 형식으로 주요 요소를 추출할 수 있도록 하여 강력한 초기 성능을 달성합니다. 두 번째 단계에서는 합성 데이터로 초기 학습된 모델을 실제 문서에 적응시키는 자기 개선 접근 방식을 제시합니다. 구체적으로, 미세 조정된 모델을 사용하여 실제 문서에 주석을 달고, 주석 품질을 검증하기 위한 일련의 필터링 전략을 적용한 후, 검증된 데이터셋으로 모델을 재학습합니다. 이 과정을 반복적으로 수행함으로써 모델의 변환 능력과 생성된 데이터의 품질을 점진적으로 향상시킵니다. 우리는 공개된 POINTS-1.5 모델을 학습시켜 POINTS-Reader를 얻었으며, 이는 유사하거나 더 큰 규모의 기존 공개 및 사유 모델들을 능가합니다. 우리의 모델은 https://github.com/Tencent/POINTS-Reader에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)이 대화 및 추론 능력에서 발전함에 따라, 의료 분야에서의 실질적인 적용은 중요한 연구 주제로 부상하고 있다. 그러나 USMLE와 같은 정적 벤치마크에서의 의료 LLMs 성능과 실제 임상 의사결정에서의 유용성 사이에는 상당한 격차가 존재한다. 이러한 불일치는 전통적인 시험이 의료 상담의 동적이고 상호작용적인 특성을 포착하지 못하기 때문에 발생한다. 이 문제를 해결하기 위해, 우리는 정적 답변 검증기를 넘어선 새로운 동적 검증 프레임워크를 제안한다. 이 프레임워크는 대규모 고충실도 상호작용 강화 학습 시스템을 구축하며, 두 가지 핵심 구성 요소로 이루어져 있다: 첫째, 비식별화된 의료 기록을 사용하여 현실적인 임상 환경을 생성하는 환자 시뮬레이터(Patient Simulator)와, 둘째, 다차원 평가 지표를 동적으로 생성하는 임상 루브릭 생성기(Clinical Rubrics Generator)이다. 이를 기반으로, 우리는 개선된 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 알고리즘을 통해 다단계 강화 학습 전략으로 훈련된 320억 파라미터 규모의 의료 증강 추론 모델인 Baichuan-M2를 개발하였다. HealthBench에서 평가된 Baichuan-M2는 모든 오픈소스 모델과 대부분의 고급 폐쇄형 모델을 능가하며, 이전에 GPT-5만이 달성했던 도전적인 HealthBench Hard 벤치마크에서 32점 이상의 점수를 기록했다. 우리의 연구는 강력한 동적 검증 시스템이 LLMs의 능력을 실질적인 임상 응용과 일치시키는 데 필수적임을 보여주며, 의료 AI 배포에서 성능-파라미터 트레이드오프의 새로운 파레토 최적선을 확립한다.
자기 주의 메커니즘(self-attention mechanism)을 기반으로 하는 트랜스포머(Transformer) 아키텍처는 시퀀스 모델링 작업에서 사실상의 표준이 되었습니다. 그러나 이 아키텍처의 핵심 계산 원리는 시퀀스 길이에 대해 제곱적으로 증가하는(O(N^2)) 복잡도를 가지며, 이는 긴 문맥을 처리하는 데 있어 상당한 병목 현상을 일으킵니다. 본 논문에서는 시퀀스 모델링을 위한 완전히 병렬적인 새로운 아키텍처인 Gated Associative Memory(GAM) 네트워크를 제안합니다. 이 아키텍처는 시퀀스 길이에 대해 선형적인 복잡도(O(N))를 보입니다. GAM 블록은 자기 주의 레이어를 두 개의 병렬 경로로 대체합니다: 하나는 지역적이고 위치에 의존적인 문맥을 효율적으로 포착하기 위한 인과적 컨볼루션(causal convolution)이며, 다른 하나는 전역적이고 내용 기반 패턴을 모델링하기 위한 병렬 연관 메모리 검색 메커니즘입니다. 이 두 경로는 게이팅 메커니즘을 통해 동적으로 융합되어, 모델이 각 토큰에 대해 지역적 및 전역적 정보를 유연하게 결합할 수 있도록 합니다. 우리는 GAM을 처음부터 구현하고, WikiText-2 벤치마크에서 표준 트랜스포머 모델과 현대적인 선형 시간 기반선(Mamba)에 대해 엄격한 비교 분석을 수행하였으며, TinyStories 데이터셋에서도 트랜스포머와 비교 실험을 진행했습니다. 실험 결과, GAM은 일관적으로 더 빠른 속도를 보이며, 훈련 속도에서 두 기반선을 모두 능가했고, 모든 데이터셋에서 우수하거나 경쟁력 있는 최종 검증 혼란도(perplexity)를 달성하여 시퀀스 모델링을 위한 유망하고 효율적인 대안으로 자리매김했습니다.
최근 대규모 언어 모델(Large Language Models, LLMs)의 발전이 크게 진전되면서, 멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)을 통해 다양한 모달리티 작업으로 그 능력을 확장하고 있습니다. 그러나 동적이고 정보가 밀집된 비디오의 특성으로 인해 비디오 이해는 여전히 어려운 분야로 남아 있습니다. 기존 모델들은 비디오 콘텐츠를 처리할 때 공간 해상도와 시간적 커버리지 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 본 논문에서는 이러한 비디오 이해의 근본적인 문제를 해결하기 위해 세 가지 주요 혁신을 도입한 Keye-VL-1.5를 제안합니다. 첫째, 프레임 간 유사성에 따라 계산 자원을 동적으로 할당하는 Slow-Fast 비디오 인코딩 전략을 도입하여, 시각적 변화가 큰 키 프레임은 높은 해상도로 처리(Slow pathway)하고 상대적으로 정적인 프레임은 낮은 해상도로 더 넓은 시간적 커버리지를 갖춰 처리(Fast pathway)합니다. 둘째, 모델의 컨텍스트 길이를 8K 토큰에서 128K 토큰까지 체계적으로 확장하는 4단계 점진적 사전 학습 방법론을 구현하여 더 긴 비디오와 복잡한 시각적 콘텐츠를 처리할 수 있도록 합니다. 셋째, 추론 강화와 인간 선호도 정렬에 초점을 맞춘 포괄적인 사후 학습 파이프라인을 개발하며, 이를 위해 5단계 사고 연쇄(chain-of-thought) 데이터 구축 프로세스, 어려운 사례에 대한 점진적 프롬프트 힌팅을 포함한 GSPO 기반 반복적 강화 학습, 그리고 정렬 학습을 통합합니다. 공개 벤치마크와 엄격한 내부 인간 평가를 통해 Keye-VL-1.5는 기존 모델 대비 비디오 이해 작업에서 특히 뛰어난 성능을 보이며, 일반 멀티모달 벤치마크에서도 경쟁력 있는 성능을 유지함을 입증했습니다.
대규모 언어 모델은 복잡한 추론 작업을 숙달하기 위해 강화 학습과 같은 비용이 많이 드는 최적화가 종종 필요합니다. 본 연구에서는 추론 능력이 한 번 학습되면 이를 컴팩트한 작업 벡터로 추출하여 모델 간에 전달할 수 있음을 보여줍니다. 우리는 동일하게 초기화된 두 개의 공개적으로 이용 가능한 Qwen2.5 모델을 사용하였는데, 하나는 지도 미세 조정(SFT)으로, 다른 하나는 동일한 데이터셋에 대해 그룹 상대 정책 최적화(GRPO)로 미세 조정되었습니다. 이를 통해 추론 벡터 \(v_{reason} = \theta_{GRPO} - \theta_{SFT}\)를 추출하였습니다. 우리는 이 벡터가 강화 학습을 통해 주입된 추론 능력을 포착하면서 SFT 과정에서 공유된 지식을 제거한다고 가정합니다. 이 벡터를 호환 가능한 지시 미세 조정 모델에 간단한 산술 연산을 통해 추가하면 다양한 추론 벤치마크에서 일관된 성능 향상을 보입니다: GSM8K(+4.9%), HumanEval(+4.3%), SciQ(+1.7%), BigBenchHard(1.5B 모델 기준 +12.3%). 이러한 성능 향상은 적대적 조건에서도 지속됩니다. 반대로, 이 벡터를 제거하면 성능이 크게 저하됩니다(GSM8K에서 -11.8%), 이는 벡터가 모델의 추론 능력에 크게 기여함을 보여줍니다. 본 연구는 일반적으로 비용이 많이 드는 훈련을 통해 개발되는 추론 능력을 기존 오픈소스 모델에서 추출하고 간단한 텐서 연산을 통해 재사용할 수 있음을 보여줌으로써, 이전의 계산적 투자를 재활용하여 모델을 강화하는 실용적인 방법을 제시합니다.
대규모 언어 모델(LMs)의 사후 훈련은 종종 정확성과 도움성을 우선시함으로써 다양성을 희생시킨다. 이는 다음과 같은 긴장을 초래한다: 사후 훈련이 응답 품질을 개선하는 동시에 출력 분포를 더욱 예리하게 만들고 아이디어의 범위를 줄여, 브레인스토밍, 스토리텔링 또는 문제 해결과 같은 창의적이고 탐구적인 작업에서 LMs의 유용성을 제한한다. 우리는 이러한 문제를 해결하기 위해 응답 품질과 의미적 다양성을 동시에 최적화하는 Diversity-Aware Reinforcement Learning (DARLING) 프레임워크를 제안한다. DARLING의 핵심은 표면적인 어휘적 변이를 넘어 다양성을 측정하기 위해 학습된 분할 함수를 도입한다. 이 다양성 신호는 온라인 강화 학습 동안 품질 보상과 결합되어, 모델이 고품질이면서도 독창적인 출력을 생성하도록 유도한다. 다양한 모델 패밀리와 크기에 걸친 실험에서 DARLING은 검증 불가능한 작업(명령어 수행 및 창의적 글쓰기)과 검증 가능한 작업(경쟁 수학) 두 가지 영역에서 일반화됨을 보여준다. 첫 번째 설정의 다섯 가지 벤치마크에서 DARLING은 품질만을 고려한 RL 기준선을 지속적으로 능가하며, 더 높은 품질과 참신성을 동시에 갖춘 출력을 생성한다. 두 번째 설정에서 DARLING은 더 높은 pass@1(해결 품질)과 pass@k(해결 다양성)를 달성한다. 가장 주목할 만한 점은, 다양성을 명시적으로 최적화함으로써 온라인 RL에서 탐구가 촉진되어 더 높은 품질의 응답으로 나타난다는 것이다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)의 최근 발전은 대규모 언어 모델(LLMs)이 수학 및 프로그래밍과 같은 복잡한 추론 과제를 해결할 수 있도록 지원하고 있다. RLVR은 검증 가능한 결과 보상을 활용하여 정책 최적화를 안내함으로써, LLMs가 근거 있고 신뢰할 수 있는 방식으로 출력 품질을 점진적으로 개선할 수 있도록 한다. 그러나 RLVR 패러다임은 유망함에도 불구하고, 특히 RL 기반 접근법에서 희소한 보상 신호와 불안정한 정책 그래디언트 업데이트로 인해 상당한 어려움을 겪고 있다. 이러한 문제를 해결하기 위해, 우리는 PACS라는 새로운 RLVR 프레임워크를 제안한다. PACS는 감독 학습 프레임워크를 통해 암묵적 액터-크리틱 결합(Implicit Actor-Critic Coupling)을 달성한다. 결과 보상을 예측 가능한 레이블로 간주함으로써, RLVR 문제를 정책 모델에 의해 매개변수화되고 교차 엔트로피 손실을 사용하여 최적화되는 점수 함수에 대한 감독 학습 작업으로 재구성한다. 상세한 그래디어트 분석은 이 감독 학습 방식이 고전적인 정책 그래디언트 업데이트를 본질적으로 복구하면서도 액터와 크리틱 역할을 암묵적으로 결합하여 더 안정적이고 효율적인 학습을 가능하게 함을 보여준다. 복잡한 수학적 추론 과제에 대한 벤치마킹에서 PACS는 PPO 및 GRPO와 같은 강력한 RLVR 베이스라인을 능가하며 우수한 추론 성능을 달성한다. 예를 들어, PACS는 AIME 2025에서 pass@256 기준으로 59.78%를 달성하며, 이는 PPO 및 GRPO 대비 각각 13.32점 및 14.36점의 향상을 나타낸다. 이 간단하지만 강력한 프레임워크는 검증 가능한 보상을 활용한 LLMs의 사후 학습을 위한 유망한 방향을 제시한다. 우리의 코드와 데이터는 https://github.com/ritzz-ai/PACS에서 오픈 소스로 제공된다.
본 논문은 OpenVision의 아키텍처와 손실 함수 설계를 단순화하여 훈련 효율성을 향상시키는 방법을 제시합니다. CapPa와 AIMv2와 같은 기존의 시각-언어 사전 훈련 연구 및 LLaVA와 같은 현대적 다중모달 설계를 따르며, 우리의 변경 사항은 직관적입니다: 텍스트 인코더(따라서 대조 손실)를 제거하고 순수 생성적 훈련 신호로서 캡셔닝 손실만을 유지합니다. 이 새로운 버전을 OpenVision 2로 명명했습니다. 초기 결과는 고무적입니다: 이러한 단순화에도 불구하고, OpenVision 2는 광범위한 다중모달 벤치마크에서 원본 모델의 성능을 경쟁적으로 따라가면서 훈련 시간과 메모리 소비를 상당히 절감합니다. 예를 들어, ViT-L/14를 사용할 때 훈련 시간을 약 1.5배(83시간에서 57시간으로) 단축하고, 메모리 사용량을 약 1.8배(24.5GB에서 13.8GB로, 이는 최대 배치 크기를 2k에서 8k로 증가시킬 수 있음을 의미합니다) 줄였습니다. 이 우수한 훈련 효율성은 OpenVision에서 사용된 가장 큰 시각 인코더를 훨씬 넘어서 10억 개 이상의 파라미터에 도달할 수 있게 합니다. 우리는 이 경량화된, 순수 생성적 패러다임이 다중모달 기반 모델에서의 미래 시각 인코더 개발에 있어 매우 매력적이라고 강하게 믿습니다.
비디오 합성은 실사 영상을 결합하여 비디오 제작을 완성하는 기술로, 비디오 창작 및 영화 제작에서 핵심적인 기법으로 자리 잡고 있습니다. 기존의 작업 파이프라인은 많은 노동력과 전문가 간의 협업을 요구하며, 이로 인해 제작 주기가 길고 인력 비용이 높은 문제가 있었습니다. 이러한 문제를 해결하기 위해, 우리는 생성 모델을 활용하여 이 과정을 자동화한 생성적 비디오 합성(generative video compositing)이라는 새로운 작업을 제안합니다. 이 새로운 작업은 전경 비디오의 정체성과 움직임 정보를 대상 비디오에 적응적으로 주입하여 사용자가 최종 비디오에 추가된 동적 요소의 크기, 움직임 궤적 및 기타 속성을 사용자 정의할 수 있도록 하는 것을 목표로 합니다. 구체적으로, 우리는 Diffusion Transformer(DiT)의 고유한 특성을 기반으로 새로운 파이프라인을 설계했습니다. 편집 전후의 대상 비디오 일관성을 유지하기 위해, 마스크된 토큰 주입을 활용한 경량 DiT 기반 배경 보존 분기를 개선했습니다. 다른 소스에서 동적 요소를 상속하기 위해, 전체 자기 주의력(full self-attention)을 사용한 DiT 융합 블록을 제안하고, 간단하면서도 효과적인 전경 증강 기법을 학습에 적용했습니다. 또한, 사용자 제어에 따라 서로 다른 레이아웃을 가진 배경과 전경 비디오를 융합하기 위해, 확장 회전 위치 임베딩(Extended Rotary Position Embedding, ERoPE)이라는 새로운 위치 임베딩을 개발했습니다. 마지막으로, 우리는 VideoComp라는 새로운 작업을 위해 61K 세트의 비디오로 구성된 데이터셋을 구축했습니다. 이 데이터셋은 완전한 동적 요소와 고품질의 대상 비디오를 포함하고 있습니다. 실험 결과, 우리의 방법은 생성적 비디오 합성을 효과적으로 구현하며, 기존의 가능한 솔루션들보다 높은 충실도와 일관성을 보여주었습니다.
대규모 언어 모델(LLMs)의 최근 발전은 딥러닝 모델의 손실을 더욱 효과적으로 최적화하기 위한 다양한 새로운 아이디어와 방법론의 활발한 등장과 함께 이루어졌다. 이러한 방법론들이 주장하는 바는 다양하며, 더 빠른 수렴 속도부터 특정 하이퍼파라미터에 대한 의존성 제거까지 포함된다. 그러나 이러한 주장을 검증하기 위해 사용된 다양한 실험 프로토콜로 인해 방법론 간의 직접적인 비교는 어려운 상황이다. 본 연구는 표준화된 LLM 사전 학습 시나리오에서 최근의 최적화 기법들을 종합적으로 평가하며, 모델 크기, 배치 크기, 학습 기간을 체계적으로 변화시켜 실험을 진행한다. 각 방법론을 신중하게 튜닝함으로써, 우리는 실무자들에게 각 시나리오에 가장 적합한 옵티마이저를 제안한다. 연구자들에게는 향후 최적화 연구를 위한 유망한 방향성을 제시한다. 마지막으로, 우리는 코드를 공개하고 모든 실험을 완전히 재현 가능하도록 함으로써, 향후 방법론의 개발과 엄격한 벤치마킹에 기여하고자 한다.
검증 가능한 보상 기반 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 유망한 프레임워크로 부상하고 있습니다. 그러나 GRPO와 같은 기존 접근 방식은 종종 제로 그래디언트 문제를 겪습니다. 이 문제는 주로 토큰 수준 확률 비율에 대한 고정된 클리핑 경계와 동일한 보상의 표준화로 인해 발생하며, 이는 비효율적인 그래디언트 업데이트와 생성된 응답의 미흡한 활용으로 이어질 수 있습니다. 본 연구에서는 동적 클리핑 정책 최적화(DCPO)를 제안합니다. DCPO는 토큰별 사전 확률을 기반으로 클리핑 경계를 적응적으로 조정하여 토큰 수준 탐색을 강화하는 동적 클리핑 전략과, 누적 학습 단계에 걸쳐 보상을 표준화하여 응답 수준에서 생성된 응답의 효과적인 활용을 개선하는 부드러운 이점 표준화 기법을 도입합니다. DCPO는 네 가지 모델을 기반으로 한 네 가지 벤치마크에서 최첨단 성능을 달성했습니다. 특히, Qwen2.5-Math-7B 모델에서 AIME24 벤치마크에서 탐욕적 디코딩 하에 46.7의 Avg@1과 32번 샘플링 하에 38.8의 Avg@32를 달성하여 DAPO(36.7/31.6)와 GRPO(36.7/32.1)를 모두 능가했습니다. Qwen2.5-14B 기반 AIME25 벤치마크에서 DCPO는 (23.3/19.0)의 성능을 달성하여 GRPO(13.3/10.5)와 DAPO(20.0/15.3)를 능가했습니다. 또한, DCPO는 네 가지 모델에서 GRPO 대비 평균 28%의 비제로 이점 개선을 달성했으며, DAPO 대비 학습 효율성을 두 배로 높였고, GRPO와 DAPO 대비 토큰 클리핑 비율을 크게 줄이면서도 우수한 성능을 달성했습니다. 이러한 결과는 DCPO가 대규모 언어 모델의 강화 학습을 위해 생성된 데이터를 더 효율적으로 활용하는 데 효과적임을 보여줍니다.
LLM 기반 GUI 에이전트는 다양한 디지털 환경과 상호작용할 수 있는 잠재력을 보여준다. 이 중에서도 비디오 게임은 다양한 인터페이스를 제공하며, 특히 어드벤처 게임은 복잡하고 서사 중심의 상호작용을 통해 추가적인 도전 과제를 제시한다는 점에서 가치 있는 테스트베드 역할을 한다. 그러나 기존의 게임 벤치마크는 다양성이 부족하며, 에이전트가 전체 스토리라인을 완료하는 능력을 평가하는 경우는 드물다. 이를 해결하기 위해 우리는 34개의 플래시 기반 어드벤처 게임으로 구성된 FlashAdventure 벤치마크를 소개한다. 이 벤치마크는 전체 스토리 아크 완료를 테스트하고, 이전 게임플레이 정보를 기억하고 이를 바탕으로 행동하는 데 어려움을 겪는 관찰-행동 간극 문제를 해결하기 위해 설계되었다. 또한, 자동화된 게임플레이 평가 도구인 CUA-as-a-Judge와 장기적인 단서 기억을 활용하여 순차적 과제를 더 잘 계획하고 해결하기 위한 에이전트 프레임워크인 COAST를 제안한다. 실험 결과, 현재의 GUI 에이전트는 전체 스토리 아크를 완료하는 데 어려움을 겪는 반면, COAST는 관찰-행동 간극을 해소함으로써 주요 단계 완료율을 향상시켰다. 그러나 인간과 최고 성능의 에이전트 간에 뚜렷한 격차가 존재하므로, 이 격차를 좁히기 위한 지속적인 연구가 필요하다.
가디언 모델은 사용자 대면 챗봇의 출력을 감독하고 조정하여 가드레일을 강제하고 부적절한 행동을 탐지하는 데 사용됩니다. LlamaGuard와 같은 표준 가디언 모델은 미리 정의된 정적 유해 범주를 탐지합니다. 우리는 사용자 정의 정책에 따라 텍스트를 평가하는 동적 가디언 모델을 제안하며, 이를 통해 표준 가디언 모델로는 다루지 못하는 다양한 응용 분야에서 유용하게 활용할 수 있습니다. 우리의 동적 가디언 모델은 정책 위반을 빠르게 탐지하거나, 모델 출력을 명확히 설명하고 정당화하는 사고의 연쇄(chain-of-thought) 추론과 함께 사용될 수 있습니다. 우리의 동적 가디언 모델은 정적 유해 범주에 대한 탐지 정확도에서 정적 모델과 동등한 성능을 보이면서도, 자유 형식 정책 위반을 탐지하는 데 있어서 최신 추론 모델과 비슷한 정확도를 훨씬 짧은 시간 내에 달성합니다.
벡터 임베딩은 지난 몇 년 동안 점점 더 많은 검색 작업을 수행해 왔으며, 최근에는 추론, 명령 수행, 코딩 등에 사용되기 시작했습니다. 이러한 새로운 벤치마크는 임베딩이 어떤 쿼리와 어떤 관련성 개념에 대해서도 작동하도록 요구합니다. 기존 연구들은 벡터 임베딩의 이론적 한계를 지적해 왔지만, 이러한 어려움은 비현실적인 쿼리 때문이며, 그렇지 않은 경우는 더 나은 훈련 데이터와 더 큰 모델로 극복할 수 있다는 일반적인 가정이 있습니다. 본 연구에서는 이러한 이론적 한계가 매우 간단한 쿼리를 사용한 현실적인 설정에서도 발생할 수 있음을 보여줍니다. 우리는 학습 이론의 알려진 결과를 연결하여, 특정 쿼리의 결과로 반환될 수 있는 상위 k개 문서 하위 집합의 수가 임베딩의 차원에 의해 제한된다는 것을 보여줍니다. 우리는 이를 k=2로 제한하고, 테스트 세트에서 자유 매개변수화된 임베딩을 직접 최적화해도 이 결과가 유지됨을 실증적으로 보여줍니다. 그런 다음, 이러한 이론적 결과를 기반으로 모델을 스트레스 테스트하는 LIMIT라는 현실적인 데이터셋을 생성하고, 작업이 단순함에도 불구하고 최첨단 모델들이 이 데이터셋에서 실패하는 것을 관찰합니다. 우리의 연구는 기존의 단일 벡터 패러다임 하에서 임베딩 모델의 한계를 보여주며, 이러한 근본적인 한계를 해결할 수 있는 방법을 개발하기 위한 향후 연구를 촉구합니다.
대형 언어 모델(LLM)은 합성 데이터 생성에 뛰어나지만, 그 품질과 다양성을 보장하는 것은 여전히 어려운 과제입니다. 우리는 유전 알고리즘과 LLM을 결합한 새로운 프레임워크인 Genetic Prompt를 제안합니다. 이 접근법은 의미적 텍스트 속성을 유전자 서열로 간주하고, LLM을 활용해 교차 및 변이 연산을 시뮬레이션합니다. 이러한 유전적 과정은 새로운 속성 조합을 생성함으로써 데이터 품질과 다양성을 향상시키며, 실제 데이터에 더 가까운 합성 분포를 만들어냅니다. 또한, 부모 선택을 최적화하기 위해 자손 탐색 공간을 확장하는 능동 학습 기법을 통합했습니다. 여러 NLP 작업에 대한 실험 결과, Genetic Prompt는 최신 베이스라인을 크게 능가할 뿐만 아니라 다양한 생성 모델 크기와 규모에서도 견고한 성능을 보였습니다. 더불어, 우리의 합성 데이터를 원본 훈련 세트와 융합하면 특히 클래스 불균형 시나리오에서 하위 모델 성능이 크게 향상됨을 입증했습니다. 이러한 결과는 Genetic Prompt가 다양한 NLP 애플리케이션을 위한 고품질 합성 데이터를 생성하는 효과적인 방법임을 검증합니다.
의료 영상 검색은 임상 의사결정과 전환 연구에 필수적이며, 이를 위해 구별력 있는 시각적 표현에 의존합니다. 그러나 현재의 방법들은 2D, 3D, 그리고 비디오 기반 의료 데이터에 대해 별도의 아키텍처와 학습 전략을 사용함으로써 분열된 상태를 유지하고 있습니다. 이러한 모달리티 특화 설계는 확장성을 저해하고 통합된 표현의 개발을 방해합니다. 통합 학습을 가능하게 하기 위해, 우리는 2D X-레이와 초음파, RGB 내시경 비디오, 그리고 3D CT 스캔을 포함한 867,653개의 의료 영상 샘플로 구성된 대규모 하이브리드 모달리티 데이터셋을 구축했습니다. 이 데이터셋을 활용하여, 우리는 모달리티 특화 커스터마이제이션 없이 통합된 시각적 인코더인 M3Ret을 학습시켰습니다. M3Ret은 생성적(MAE)과 대조적(SimDINO) 자기 지도 학습(SSL) 패러다임을 모두 사용하여 전이 가능한 표현을 성공적으로 학습합니다. 우리의 접근 방식은 모든 개별 모달리티에서 제로샷 이미지-이미지 검색에서 새로운 최첨단 성능을 달성하며, DINOv3와 텍스트 지도 BMC-CLIP과 같은 강력한 베이스라인을 능가합니다. 더욱 주목할 만한 점은, 짝지어진 데이터 없이도 강력한 교차 모달리티 정렬이 나타나며, 모델이 사전 학습 중에 MRI를 전혀 관찰하지 않았음에도 불구하고 보이지 않는 MRI 작업에 일반화된다는 것입니다. 이는 순수 시각적 자기 지도 학습이 보이지 않는 모달리티에 대한 일반화 가능성을 입증합니다. 포괄적인 분석은 우리의 프레임워크가 모델 및 데이터 크기에 걸쳐 확장 가능함을 추가로 검증합니다. 이러한 발견들은 의료 영상 커뮤니티에 유망한 신호를 전달하며, M3Ret을 다중 모달리티 의료 영상 이해를 위한 시각적 SSL 기반 모델로 나아가는 한 걸음으로 위치시킵니다.
AdamW는 오랫동안 언어 모델 사전 학습에서 지배적인 최적화 도구로 자리 잡아왔으며, 다른 최적화 도구들이 1.4배에서 2배의 속도 향상을 제공한다는 수많은 주장에도 불구하고 그 자리를 유지해왔다. 우리는 두 가지 방법론적 결함이 공정한 비교를 가리고 실제 적용을 방해했다고 주장한다: (i) 불균등한 하이퍼파라미터 조정과 (ii) 제한적이거나 오해의 소지가 있는 평가 설정. 이 두 가지 문제를 해결하기 위해, 우리는 네 가지 모델 규모(0.1B-1.2B 매개변수)와 데이터 대 모델 비율(Chinchilla 최적치의 1-8배)에 걸쳐 10개의 딥러닝 최적화 도구를 체계적으로 연구했다. 우리는 공정하고 유익한 비교를 위해서는 엄격한 하이퍼파라미터 조정과 다양한 모델 규모 및 데이터 대 모델 비율에 걸친 평가가 필요하며, 이는 훈련 종료 시점에 수행되어야 한다는 것을 발견했다. 첫째, 한 최적화 도구에 대한 최적의 하이퍼파라미터가 다른 최적화 도구에서는 최적이 아닐 수 있어, 무분별한 하이퍼파라미터 이전은 공정하지 않다. 둘째, 잘 조정된 기준선에 비해 많은 제안된 최적화 도구의 실제 속도 향상은 주장된 것보다 낮으며, 모델 크기가 커질수록 1.2B 매개변수 모델에서는 단 1.1배로 감소한다. 셋째, 목표 훈련 예산에 도달하기 전의 중간 체크포인트를 비교하는 것은 오해의 소지가 있을 수 있으며, 두 최적화 도구 간의 순위는 학습률 감소로 인해 훈련 중에 뒤집힐 수 있다. 우리의 철저한 조사를 통해, Muon과 Soap와 같은 가장 빠른 최적화 도구들은 모두 행렬을 사전 조건자로 사용한다는 것을 발견했다. 즉, 기울기에 스칼라가 아닌 행렬을 곱하는 방식이다. 그러나 행렬 기반 최적화 도구의 속도 향상은 모델 규모에 반비례하여, 0.1B 매개변수 모델에서는 AdamW 대비 1.4배에서 1.2B 매개변수 모델에서는 단 1.1배로 감소한다.
대형 언어 모델(LLMs)은 다양한 벤치마크에서 최고 수준의 성능을 달성하지만, 이러한 성공이 진정한 추론 능력을 반영하는지 아니면 단순한 패턴 매칭에 불과한지는 여전히 불분명합니다. 인지과학적 관점에서, 모델이 명시적인 메타언어적 연역 학습을 통해 익숙하지 않은 언어를 숙달할 수 있는지 여부는 유익한 테스트입니다. 이는 인간 학습자가 메타언어적 추론을 통해 문법 체계를 안정적으로 내면화할 수 있는 패러다임입니다. 우리는 이 질문에 답하기 위해 자연스러우면서도 기존에 확인되지 않은 특징 조합을 보여주는 새로운 구성 언어인 Camlang을 개발했습니다. Camlang은 문법서와 이중언어 사전이라는 두 가지 명시적 자원으로 구성되어 있으며, 이는 명시적인 문법 규칙과 어휘 조회를 통해 성인의 제2언어 학습을 반영하고, 형태-통사론, 어휘 의미론, 문장 수준의 추론에서 발생하는 오류를 분리할 수 있게 합니다. 인간 실험 결과, 이러한 자원은 참가자들이 Camlang을 습득하고 Camlang 과제를 성공적으로 해결하기에 충분한 것으로 나타났습니다. 평가를 구체화하기 위해, 우리는 CommonsenseQA를 Camlang으로 적응시켜 Camlang-CSQA-v0를 만들었습니다. 이는 문법 규칙과 어휘 매핑을 적용하여 질문을 해결해야 하는 더 넓은 과제군 중 첫 번째 과제입니다. 실험 결과, GPT-5는 영어에서 98%의 EM 정확도를 달성했지만 Camlang에서는 47%에 그쳤으며, 이는 인간의 87% 성능에 훨씬 못 미치는 수준입니다. 다른 최첨단 추론 LLM들은 더 나쁜 성적을 보였습니다. 인간 검증 결과, 대부분의 모델 성공은 피상적인 어휘 정렬에서 비롯된 반면, GPT-5는 제한된 범위에서 메타언어적 인식의 징후를 보였지만 인간과 같은 체계적인 문법 숙달은 보이지 않았습니다. Camlang은 현재의 모델과 인간의 메타언어적 능력 사이의 근본적인 격차를 드러내는 인지과학적으로 근거 있는 평가 패러다임을 확립합니다.
심층 연구 도구는 오늘날 가장 영향력이 크고 가장 흔히 접할 수 있는 에이전트 시스템 중 하나입니다. 그러나 우리는 지금까지 소개된 모든 심층 연구 에이전트가 특정 연구 전략을 고정된 도구 선택을 통해 수행하도록 하드코딩되어 있음을 관찰했습니다. 우리는 범용 심층 연구(Universal Deep Research, UDR)를 소개합니다. 이는 모든 언어 모델을 감싸는 일반주의적 에이전트 시스템으로, 사용자가 추가적인 학습이나 미세 조정 없이도 자신만의 완전히 맞춤형 심층 연구 전략을 생성, 편집 및 개선할 수 있도록 합니다. 우리 시스템의 일반성을 입증하기 위해, UDR에 최소, 확장 및 집중적 연구 전략의 예시를 장착하고, 시스템 실험을 용이하게 하는 사용자 인터페이스를 제공합니다.
카메라 내부 파라미터가 필요 없는 실시간 단안 시각 SLAM 시스템인 ViSTA-SLAM을 소개한다. 이 시스템은 다양한 카메라 설정에 폭넓게 적용 가능하다. 핵심적으로, 시스템은 경량화된 대칭적 이중 뷰 연관성(STA) 모델을 프론트엔드로 사용하며, 이 모델은 두 개의 RGB 이미지로부터 상대적인 카메라 포즈를 추정하고 로컬 포인트맵을 회귀한다. 이러한 설계는 모델 복잡도를 크게 줄여, 프론트엔드의 크기가 최신 기술 대비 35%에 불과하면서도 파이프라인에서 사용되는 이중 뷰 제약 조건의 품질을 향상시킨다. 백엔드에서는 누적된 드리프트를 해결하기 위해 루프 클로저를 통합한 특수 설계된 Sim(3) 포즈 그래프를 구성한다. 광범위한 실험을 통해, 본 접근법이 카메라 추적 및 고밀도 3D 재구성 품질 모두에서 현재의 방법들보다 우수한 성능을 달성함을 입증한다. Github 저장소: https://github.com/zhangganlin/vista-slam
비전-언어 모델(Vision-Language Models, VLMs)의 급속한 발전과 함께, GUI 기반 모바일 에이전트는 지능형 모바일 시스템의 주요 개발 방향으로 부상하고 있다. 그러나 기존의 에이전트 모델들은 실제 작업 실행에서 정확성과 효율성 측면에서 여전히 상당한 어려움에 직면해 있다. 이러한 한계를 극복하기 위해, 우리는 MobiMind 시리즈 에이전트 모델, AgentRR 가속화 프레임워크, MobiFlow 벤치마킹 스위트로 구성된 포괄적인 모바일 에이전트 시스템인 MobiAgent를 제안한다. 또한, 현재 모바일 에이전트의 능력이 고품질 데이터의 가용성에 의해 제한된다는 점을 인식하여, 수동 주석 비용을 크게 줄이는 AI 지원의 민첩한 데이터 수집 파이프라인을 개발하였다. 범용 LLM 및 특화된 GUI 에이전트 모델과 비교했을 때, MobiAgent는 실제 모바일 시나리오에서 최첨단 성능을 달성한다.
시각적 자기회귀 모델(VAR)은 최근 텍스트-이미지 생성 작업에서 확산 모델과 비슷한 성능을 달성하며 유망한 생성 모델 클래스로 부상했습니다. 조건부 생성은 널리 연구되었지만, 추가 학습 없이 프롬프트 기반 이미지 편집을 수행할 수 있는 능력 역시 수많은 실용적인 응용 분야를 지원하기 때문에 동등하게 중요합니다. 본 논문은 VAR 모델을 위해 특별히 설계된 첫 번째 노이즈 역변환 기반 편집 기술인 Visual AutoRegressive Inverse Noise(VARIN)를 소개함으로써 VAR의 텍스트-이미지 편집 능력을 탐구합니다. VARIN은 Location-aware Argmax Inversion(LAI)이라는 새로운 의사 역함수를 활용하여 역 Gumbel 노이즈를 생성합니다. 이러한 역 노이즈는 원본 이미지를 정확하게 재구성하고 텍스트 프롬프트와 일치하는 목표 지향적이고 제어 가능한 편집을 가능하게 합니다. 광범위한 실험을 통해 VARIN이 지정된 프롬프트에 따라 원본 이미지를 효과적으로 수정하면서도 원본 배경과 구조적 세부 사항을 크게 보존함을 입증함으로써 실용적인 편집 접근법으로서의 효용성을 검증했습니다.
자연어 질의를 SQL 질의로 변환하는 것은 데이터베이스 및 대규모 애플리케이션에 대한 접근성을 높이기 위해 산업계와 학계 모두에서 중요한 과제로 여겨진다. 본 연구는 텍스트-투-SQL 시스템을 위한 강력한 솔루션을 개발하기 위해 인컨텍스트 학습과 사고의 연쇄를 활용하는 방법을 탐구한다. 우리는 SQL-of-Thought를 제안한다: 이는 Text2SQL 작업을 스키마 연결, 하위 문제 식별, 질의 계획 생성, SQL 생성, 그리고 가이드된 수정 루프로 분해하는 다중 에이전트 프레임워크이다. 실행 기반 정적 수정에만 의존하는 기존 시스템과 달리, 우리는 인컨텍스트 학습을 통해 정보를 얻은 분류 체계 기반 동적 오류 수정을 도입한다. SQL-of-Thought는 가이드된 오류 분류 체계와 추론 기반 질의 계획을 결합하여 Spider 데이터셋과 그 변형에서 최첨단 결과를 달성한다.
본 연구는 저비트 양자화를 통해 대규모 언어 모델(LLM)을 학습시키는 데 있어서 기본적인 장벽으로서의 이방성 매개변수 분포를 규명한다: 소수의 지배적인 특이값이 넓은 수치 범위를 생성하며, 이는 블록 단위 양자화의 고유한 편향과 상충된다. 이러한 편향은 높은 크기의 값을 불균형적으로 보존하는 반면 작은 값들은 버리게 되어 학습 불안정성과 낮은 모델 성능을 초래한다. 본 연구는 Metis라는 학습 프레임워크를 제안하며, 이는 (i) 스펙트럼 분해와 랜덤 임베딩을 결합하여 지배적인 구성 요소와 긴 꼬리 구성 요소를 효율적으로 분리하고, 넓은 분포를 양자화에 적합한 좁은 범위로 압축하며; (ii) 스펙트럼 영역에서의 적응형 학습률을 통해 저표현 방향을 증폭하고 성능에 중요한 다양한 특징을 더 잘 포착하며; (iii) 수치 정밀도와 매개변수 범위 분포를 동시에 제약하는 이중 범위 정규화기를 도입하여 안정적이고 편향 없는 저비트 학습을 보장한다. Metis를 통해 FP8 학습은 FP32 기준을 능가하며, FP4 학습은 FP32와 비슷한 정확도를 달성함으로써 고급 저비트 양자화 하에서 견고하고 확장 가능한 LLM 학습의 길을 열었다. Metis의 코드 구현은 https://github.com/typename-yyf/Metis-quantization에서 확인할 수 있다.
우리는 다양한 저자원 언어를 위해 특화된 초소형 자동 음성 인식(ASR) 모델군인 'Flavors of Moonshine'을 소개한다. 일반적으로 다국어 ASR 모델이 언어 간 음성적 유사성을 활용하여 단일 언어 모델보다 더 나은 성능을 보인다고 알려져 있다. 그러나 우리는 이 가정에 도전하여, 충분히 작은 모델(2,700만 파라미터)의 경우, 고품질의 인간이 레이블링한 데이터, 의사 레이블링 데이터, 합성 데이터를 신중하게 균형 있게 혼합하여 단일 언어 시스템을 학습시키면 훨씬 우수한 성능을 얻을 수 있음을 보여준다. 평균적으로, 우리의 모델은 비슷한 크기의 Whisper Tiny 모델보다 48% 낮은 오류율을 달성하며, 9배 더 큰 Whisper Small 모델을 능가하고, 대부분의 경우 28배 더 큰 Whisper Medium 모델과 동등하거나 더 나은 성능을 보인다. 이러한 결과는 이 크기의 모델에서 최신 기술 수준을 발전시켜, 이전에 지원이 제한적이었던 언어들에 대해 정확한 온디바이스 ASR을 가능하게 한다. 우리는 아랍어, 중국어, 일본어, 한국어, 우크라이나어, 베트남어 Moonshine 모델을 허용적 오픈소스 라이선스 하에 공개한다.
CT 및 MRI 스캔에서 장기와 종양의 정확한 분할은 진단, 치료 계획 수립, 질병 모니터링에 필수적입니다. 딥러닝이 자동 분할 기술을 발전시켰지만, 대부분의 모델은 특정 작업에 한정되어 있어 다양한 모달리티와 기관 간 일반화 능력이 부족합니다. 자연 이미지 수십억 장으로 사전 학습된 비전 파운데이션 모델(FMs)은 강력하고 전이 가능한 표현을 제공합니다. 그러나 이를 의료 영상에 적용하는 데는 두 가지 주요 과제가 있습니다: (1) 대부분의 파운데이션 모델의 ViT 백본은 여전히 의료 영상 분할에서 특화된 CNN보다 성능이 떨어지며, (2) 자연 이미지와 의료 영상 간의 큰 도메인 차이가 전이 가능성을 제한합니다. 우리는 DINOv3를 의료 분할에 적용하기 위한 간단하면서도 효과적인 프레임워크인 MedDINOv3를 소개합니다. 먼저 일반적인 ViT를 재검토하고, 다중 스케일 토큰 집계를 포함한 간단하지만 효과적인 아키텍처를 설계합니다. 그런 다음, 387만 개의 축상 CT 슬라이스로 구성된 CT-3M 데이터셋에서 도메인 적응형 사전 학습을 수행하여, 다단계 DINOv3 레시피를 사용해 강력한 밀집 특징을 학습합니다. MedDINOv3는 네 가지 분할 벤치마크에서 최첨단 성능을 달성하거나 이를 능가하며, 비전 파운데이션 모델이 의료 영상 분할을 위한 통합 백본으로서의 잠재력을 입증합니다. 코드는 https://github.com/ricklisz/MedDINOv3에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 학습 데이터에 내재된 사회적 편향을 의도치 않게 반영할 수 있으며, 이로 인해 유해하거나 편견에 찬 출력을 생성할 수 있다. 인도 맥락에서, 우리는 다양한 모델에 걸친 실증적 평가를 통해 카스트와 종교와 관련된 편향이 특히 두드러짐을 확인했다. 그러나 대부분의 기존 완화 전략은 서구 중심적이며 이러한 지역적 뉘앙스를 다루지 못한다. 우리는 인도 헌법의 설계자인 B. R. 암베드카르 박사의 평등주의적 비전에서 영감을 받은 AMBEDKAR 프레임워크를 제안하여, LLM 출력이 헌법 제14조부터 제17조에 부합하는 공정성, 중립성, 포용성을 지향하도록 유도한다. 우리의 접근 방식은 인도 AI 헌법에 의해 안내되는 헌법 인식 디코딩 레이어를 도입하며, 이는 추론 시에만 적용되어 기본 모델의 매개변수 업데이트 없이 작동한다. 우리는 카스트 및 공동체적 편향을 생성 과정에서 사전에 줄이는 스펙티브 디코딩 알고리즘을 통합한다. 이 완화 레이어는 디코딩 프로세스 내에서 직접 작동하여 모델 내부 변경을 피하고 재훈련과 관련된 계산 및 인프라 비용을 절감한다. 우리는 스펙티브 디코딩을 단순히 효율성 도구가 아닌 공정성을 위한 메커니즘으로 재해석한다. 이 프레임워크에서 소형 언어 모델(SLM)은 잠재적으로 편향된 생성기로 작동하며, 헌법적으로 안내된 대형 언어 모델(LLM)은 검증자 역할을 한다. LLM은 생성 속도를 높이는 대신 SLM 출력에서 편향에 강건한 궤적을 강제한다. 이러한 역할의 역전은 공정성-추측 패러다임을 탄생시킨다. 우리의 접근 방식은 기준선 대비 최대 26.41%의 편향 절대적 감소를 달성한다. 우리의 소스 코드, 데이터셋 및 결과는 https://anonymous.4open.science/r/AMBEDKAR-983B/에서 확인할 수 있다.
프롬프트 민감도는 동일한 내용을 다른 단어로 표현(즉, 패러프레이징)했을 때 대형 언어 모델(LLM)의 성능에 상당한 변화가 발생하는 현상을 의미하며, 이는 LLM의 핵심적인 한계로 널리 받아들여져 왔습니다. 본 연구에서는 이 문제를 재검토하며 다음과 같은 질문을 던집니다: 널리 보고된 높은 프롬프트 민감도는 정말로 LLM의 고유한 약점인가, 아니면 평가 과정에서 비롯된 부산물인가? 이 질문에 답하기 위해 우리는 GPT 및 Gemini 계열을 포함한 7개의 LLM을 12가지 다양한 프롬프트 템플릿에 대해 객관식 및 자유형 과제를 포함한 6개의 벤치마크에서 체계적으로 평가했습니다. 그 결과, 프롬프트 민감도의 상당 부분이 로그-우도 점수화 및 엄격한 답변 매칭과 같은 휴리스틱 평가 방법에서 비롯되었음을 발견했습니다. 이러한 방법들은 동의어나 패러프레이징과 같은 대체 표현을 통해 제시된 의미적으로 정확한 응답을 종종 간과합니다. 반면, LLM-as-a-Judge 평가 방식을 채택했을 때는 성능 변동이 크게 감소하고 프롬프트 간 모델 순위의 일관성이 높아지는 것을 관찰했습니다. 우리의 연구 결과는 현대 LLM이 이전에 생각했던 것보다 프롬프트 템플릿에 대해 더 강건하며, 프롬프트 민감도는 모델의 결함이라기보다는 평가 과정의 부산물일 가능성이 높다는 것을 시사합니다.
대형 시각 및 언어 모델(LVLMs)을 위한 전통적인 정렬 방법은 주로 인간이 선별한 선호도 데이터에 의존합니다. 인간이 생성한 선호도 데이터는 비용이 많이 들고, 기계가 생성한 선호도 데이터는 품질이 제한적이며, 자기 지도 방식의 선호도 데이터는 종종 환각 현상을 유발합니다. 이러한 한계를 극복하기 위해, 우리는 인간 간의 협력 학습에서 영감을 받은 새로운 '패널-오브-피어스(Panel-of-Peers)' 학습 프레임워크를 제안합니다. 이 접근 방식은 LVLMs 패널을 활용하여, 각 모델이 반복적인 자기 개선 과정을 통해 집단적 출력을 평가하고 학습합니다. 동료 검토 시스템을 시뮬레이션함으로써, 우리의 모델은 선별된 프롬프트 세트에 대해 출력을 생성, 평가, 개선하며, 교실 학습 환경을 모방합니다. 우리는 이 방법론이 광범위한 인간 레이블 데이터셋을 요구하지 않으면서도 모델 성능을 향상시킨다는 것을 입증합니다. 실험 결과, 여러 벤치마크에서 상당한 개선이 나타났으며, 이는 자기 지도 정렬에 대한 확장 가능한 대안으로서 동료 평가의 잠재력을 보여줍니다. 특히, '패널-오브-피어스'는 15개 벤치마크에서 평균 점수를 48%에서 57%로 증가시켰습니다.
추천 시스템(RS)에서의 공정성은 일반적으로 그룹 공정성과 개인 공정성으로 분류됩니다. 그러나 두 공정성 유형 간의 관계에 대한 과학적 이해는 아직 확립되지 않았는데, 이는 기존 연구에서 각 공정성 유형에 대해 서로 다른 평가 지표나 평가 목표를 사용함으로써 두 유형을 적절히 비교할 수 없었기 때문입니다. 결과적으로, 한 유형의 공정성을 높이는 것이 다른 유형에 어떤 영향을 미칠지 현재로서는 알려져 있지 않습니다. 이러한 공백을 메우기 위해, 우리는 두 공정성 유형 모두에 사용할 수 있는 평가 지표들을 포괄적으로 비교함으로써 그룹 공정성과 개인 공정성의 관계를 연구합니다. 3개의 데이터셋에 걸쳐 8번의 실험을 통해, 우리는 그룹에 대해 매우 공정한 추천이 개인에게는 매우 불공정할 수 있음을 보여줍니다. 이 발견은 추천 시스템의 공정성을 개선하려는 실무자들에게 새롭고 유용한 통찰을 제공합니다. 우리의 코드는 https://github.com/theresiavr/stairway-to-fairness에서 확인할 수 있습니다.
가상 피팅 기술은 큰 잠재력을 지니고 있지만, 두 가지 주요 과제로 인해 실제 적용에 어려움을 겪고 있습니다. 첫째, 현재의 방법들은 의류와 액세서리를 포함한 다중 참조 의상 구성을 지원하지 못하며, 둘째, 각 디노이징 단계에서 참조 특징을 불필요하게 재계산함으로써 발생하는 심각한 비효율성입니다. 이러한 과제를 해결하기 위해, 우리는 새로운 캐시 가능한 디퓨전 아키텍처를 기반으로 한 고속 다중 참조 가상 피팅 프레임워크인 FastFit을 제안합니다. Semi-Attention 메커니즘을 도입하고 기존의 타임스텝 임베딩을 참조 항목에 대한 클래스 임베딩으로 대체함으로써, 우리의 모델은 디노이징 프로세스에서 참조 특징 인코딩을 완전히 분리하며, 이는 미미한 파라미터 오버헤드로 가능합니다. 이를 통해 참조 특징은 한 번만 계산되고 모든 단계에서 무손실로 재사용될 수 있어, 효율성 병목 현상을 근본적으로 해결하고 비교 가능한 방법들 대비 평균 3.5배의 속도 향상을 달성했습니다. 또한, 복잡한 다중 참조 가상 피팅 연구를 촉진하기 위해, 우리는 새로운 대규모 데이터셋인 DressCode-MR을 소개합니다. 이 데이터셋은 상의, 하의, 드레스, 신발, 가방 등 다섯 가지 주요 카테고리를 아우르는 28,179세트의 고품질 짝 이미지로 구성되어 있으며, 전문가 모델과 인간 피드백을 통한 정제 파이프라인을 통해 구축되었습니다. VITON-HD, DressCode, 그리고 우리의 DressCode-MR 데이터셋에 대한 광범위한 실험을 통해, FastFit이 주요 충실도 지표에서 최신 방법들을 능가하면서도 추론 효율성에서 상당한 이점을 제공함을 확인했습니다.
점군 학습(point cloud learning), 특히 수동 레이블 없이 자기 지도 방식으로 수행되는 학습은 다양한 응용 분야에서의 잠재적 유용성으로 인해 컴퓨터 비전 및 학습 커뮤니티에서 점점 더 많은 관심을 받고 있습니다. 기존의 점군 자기 지도 학습을 위한 생성적 접근법 대부분은 단일 뷰 내에서 가려진 점들을 복원하는 데 초점을 맞추고 있습니다. 두 개의 뷰를 사용한 사전 학습 패러다임이 본질적으로 더 큰 다양성과 변동성을 도입할 수 있다는 점을 인식함으로써, 이는 더 도전적이고 유익한 사전 학습을 가능하게 할 수 있습니다. 이에 영감을 받아, 우리는 이 분야에서 두 개의 뷰를 사용한 학습의 잠재력을 탐구합니다. 본 논문에서는 두 개의 분리된 점군/뷰를 먼저 생성한 다음, 하나를 다른 하나로부터 재구성하는 교차 재구성(cross-reconstruction) 생성 패러다임인 Point-PQAE를 제안합니다. 이를 위해, 우리는 점군 뷰 생성을 위한 크롭(crop) 메커니즘을 처음으로 개발하고, 두 분리된 뷰 간의 3D 상대 위치를 나타내기 위한 새로운 위치 인코딩을 제안합니다. 교차 재구성은 자기 재구성(self-reconstruction)에 비해 사전 학습의 난이도를 크게 증가시켜, 우리의 방법이 3D 자기 지도 학습에서 기존의 단일 모달 자기 재구성 방법들을 능가할 수 있게 합니다. 구체적으로, Mlp-Linear 평가 프로토콜을 사용한 ScanObjectNN의 세 가지 변형에서 자기 재구성 베이스라인(Point-MAE)보다 각각 6.5%, 7.0%, 6.7% 더 우수한 성능을 보입니다. 코드는 https://github.com/aHapBean/Point-PQAE에서 확인할 수 있습니다.
차량 손상 평가와 같은 도전적인 시각적 영역에서의 세밀한 객체 탐지는 인간 전문가에게도 신뢰성 있게 해결하기 어려운 과제입니다. DiffusionDet가 조건부 노이즈 제거 확산을 통해 최첨단 기술을 발전시켰음에도 불구하고, 문맥 의존적 시나리오에서의 성능은 지역적 특징 조건화에 의해 제한되고 있습니다. 우리는 이러한 근본적인 한계를 해결하기 위해 교차 주의 메커니즘을 활용하여 전역적 장면 문맥과 지역적 제안 특징을 직접 통합하는 Context-Aware Fusion(CAF)을 제안합니다. 전역적 문맥은 포괄적인 환경 정보를 캡처하는 별도의 전용 인코더를 사용하여 생성되며, 이를 통해 각 객체 제안이 장면 수준의 이해에 주의를 기울일 수 있게 합니다. 우리의 프레임워크는 각 객체 제안이 포괄적인 환경 정보에 주의를 기울일 수 있게 함으로써 생성적 탐지 패러다임을 크게 향상시킵니다. 실험 결과는 CarDD 벤치마크에서 최첨단 모델을 능가하는 성능 향상을 보여주며, 세밀한 영역에서의 문맥 인식 객체 탐지를 위한 새로운 성능 벤치마크를 확립합니다.