번역이 포함된 일일 선별된 AI 연구 논문
Green-VLA는 다양한 구현체 간 일반화 성능을 유지하면서 Green 휴머노이드 로봇의 실제 현장 적용을 위한 단계적 Vision-Language-Action(VLA) 프레임워크를 소개한다. Green-VLA는 5단계 커리큘럼(L0) 기초 VLM, (L1) 멀티모달 접지, (R0) 다중 구현체 사전 학습, (R1) 구현체 특화 적응, (R2) 강화학습 정책 정렬을 따른다. 우리는 시간적 정렬과 품질 필터링을 통한 확장 가능한 데이터 처리 파이프라인(3,000시간 데모)을 구축하고, 단일 정책이 휴머노이드, 이동형 매니퓰레이터, 고정형 암을 제어할 수 있는 통합된 구현체 인식 액션 인터페이스를 사용한다. 추론 시 VLA 제어기는 에피소드 진행 예측, 분포 외 탐지, 관절 예측 기반 안내를 통해 향상되어 안전성과 정확한 목표 선택을 개선한다. Simpler BRIDGE WidowX 및 CALVIN ABC-D 실험과 실제 로봇 평가를 통해 성공률, 견고성, 장기계획 효율성에서 강화학습 정렬의 강력한 일반화 및 성능 향상을 확인했다.
우리는 일반적인 에이전트 지능의 발전을 목표로 하는 오픈소스 멀티모달 에이전트 모델인 Kimi K2.5를 소개합니다. K2.5는 텍스트와 비전(시각) 모달리티가 서로를 강화하도록 공동 최적화를 중점적으로 수행합니다. 여기에는 공동 텍스트-비전 사전 학습, 제로-비전 SFT(지도 미세 조정), 공동 텍스트-비전 강화 학습 등 일련의 기술이 포함됩니다. 이러한 멀티모달 기반 위에, K2.5는 복잡한 작업을 이질적인 하위 문제들로 동적으로 분해하고 이를 동시에 실행하는 자기 주도적 병렬 에이전트 오케스트레이션 프레임워크인 Agent Swarm을 도입합니다. 광범위한 평가 결과, Kimi K2.5는 코딩, 비전, 추론, 에이전트 작업 등 다양한 영역에서 최첨단 성능을 달성한 것으로 나타났습니다. 또한 Agent Swarm은 단일 에이전트 기준선 대비 최대 4.5배까지 지연 시간을 단축합니다. 우리는 에이전트 지능의 향후 연구와 실제 적용을 촉진하기 위해 사후 학습된(post-trained) Kimi K2.5 모델 체크포인트를 공개합니다.
다중모달 대규모 언어 모델(MLLMs)은 다양한 비전 과제에서 놀라운 성공을 거두었습니다. 그러나 모델 내부의 세계 지식 용량에 한계가 있기 때문에, 기존 연구에서는 방대한 사실 정보가 필요한 과제에서 성능을 크게 향상시키기 위해 '추론-후-도구-호출' 방식을 통해 시각 및 텍스트 검색 엔진을 활용하는 MLLMs 증강 방식을 제안했습니다. 그러나 이러한 접근법들은 일반적으로 단일한 전체 수준 또는 개체 수준의 이미지 쿼리와 소량의 텍스트 쿼리만으로 질문에 답하는 데 필요한 핵심 증거를 검색하는 데 충분하다는 비현실적인 가정 하에 다중모달 검색을 단순한 설정으로 정의합니다. 이는 시각적 노이즈가 많은 실제 시나리오에서는 비현실적입니다. 더욱이 기존 접근법들은 추론 깊이와 검색 범위에 제한이 있어 다양한 시각 및 텍스트 소스로부터 증거를 종합해야 하는 복잡한 질문을 해결하기 어렵습니다. 이를 바탕으로 우리는 Vision-DeepResearch를 제안합니다. 본 연구는 새로운 다중모달 딥리서치 패러다임, 즉 다중 턴, 다중 개체, 다중 규모의 시각 및 텍스트 검색을 수행하여 심한 노이즈 하에서도 실제 검색 엔진을 강건하게 활용하는 방식을 제시합니다. 우리의 Vision-DeepResearch는 수십 단계의 추론과 수백 번의 엔진 상호작용을 지원하면서, 콜드 스타트 지도 학습과 강화 학습을 통해 딥리서치 능력을 MLLM 내부에 내재화하여 강력한 종단형 다중모달 딥리서치 MLLM을 구현합니다. 이는 기존의 다중모달 딥리서치 MLLMs와 GPT-5, Gemini-2.5-pro, Claude-4-Sonnet과 같은 강력한 클로즈드 소스 기반 모델을 기반으로 구축된 워크플로우를 크게 능가합니다. 코드는 https://github.com/Osilly/Vision-DeepResearch 에 공개될 예정입니다.
멀티모달 대규모 언어 모델(MLLM)의 발전으로 VQA(Visual Question Answering) 성능이 향상되었으며, 복잡한 시각-텍스트적 사실 탐색을 위해 검색 엔진을 활용하는 Vision-DeepResearch 시스템이 등장했습니다. 그러나 이러한 시각 및 텍스트 검색 능력을 평가하는 것은 여전히 어렵고, 기존 벤치마크에는 두 가지 주요 한계가 있습니다. 첫째, 기존 벤치마크는 시각 검색 중심이 아닙니다: 시각 검색이 필요한 답변이 텍스트 질문의 교차-텍스트 단서를 통해 누출되거나 현재 MLLM의 사전 세계 지식으로 추론될 수 있습니다. 둘째, 지나치게 이상화된 평가 시나리오: 이미지 검색 측면에서는 필요한 정보가 전체 이미지에 대한 거의 정확한 매칭을 통해 획득될 수 있는 반면, 텍스트 검색 측면은 지나치게 직접적이고 도전적이지 않습니다. 이러한 문제를 해결하기 위해 우리는 2,000개의 VQA 인스턴스로 구성된 Vision-DeepResearch 벤치마크(VDR-Bench)를 구축했습니다. 모든 질문은 신중하게 구성된 다단계 선별 과정과 엄격한 전문가 검토를 통해 생성되었으며, 실제 현실 세계 조건에서 Vision-DeepResearch 시스템의 동작을 평가하도록 설계되었습니다. 더 나아가, 현재 MLLM의 불충분한 시각 검색 능력을 해결하기 위해 간단한 다중 라운드 크롭-검색(cropped-search) 워크플로를 제안합니다. 이 전략은 실제 시각 검색 시나리오에서 모델 성능을 효과적으로 향상시키는 것으로 나타났습니다. 전반적으로, 우리의 결과는 향후 멀티모딥 딥리서치 시스템 설계를 위한 실용적인 지침을 제공합니다. 코드는 https://github.com/Osilly/Vision-DeepResearch 에 공개될 예정입니다.
현재의 리포지토리 에이전트는 의미론적 깊이가 부족한 분리된 API 문서나 의존성 그래프에 의존하는 기존 방법으로 인해 파편화된 표현으로 인해 추론 단절을 겪고 있습니다. 우리는 리포지토리 이해와 생성을 통합된 순환 과정 내의 역과정으로 간주합니다: 생성은 의도를 구현으로 확장하는 반면, 이해는 구현을 의도로 다시 압축합니다. 이를 해결하기 위해 우리는 정적인 생성 청사진인 Repository Planning Graph(RPG)를 통합된 고충실도 표현으로 일반화하는 RPG-Encoder 프레임워크를 제안합니다. RPG-Encoder는 세 가지 메커니즘을 통해 추론 순환을 닫습니다: (1) 코드 의존성과 추출된 의미론적 특징을 결합한 RPG로 원시 코드를 인코딩; (2) 토폴로지를 점진적으로 진화시켜 유지보수 비용을 리포지토리 규모에서 분리하여 오버헤드를 95.7% 감소; (3) 구조 인식 탐색을 위한 통합 인터페이스로 운영. 평가에서 RPG-Encoder는 SWE-bench Verified에서 93.7% Acc@5로 최첨단 리포지토리 이해 성능을 확립했으며, SWE-bench Live Lite에서는 최고 기준선을 10% 이상 초과했습니다. 이러한 결과는 복잡한 코드베이스에서 우리의 우수한 세분화된 위치 정확도를 강조합니다. 또한 RepoCraft에서 98.5%의 재구성 커버리지를 달성하여 RPG가 원본 코드베이스를 반영하는 높은 충실도 능력과 의도와 구현 간의 순환을 닫는 능력을 확인했습니다.
통합 멀티모달 모델은 깊은 추론을 요구하는 복잡한 합성 작업에서 어려움을 겪으며, 일반적으로 텍스트-이미지 생성과 이미지 편집을 상호 연결된 추론 단계가 아닌 독립된 능력으로 취급합니다. 이를 해결하기 위해 우리는 이중 추론 패러다임을 통해 두 작업을 조화시키는 통합 프레임워크인 UniReason을 제안합니다. 우리는 생성을 암묵적 제약을 주입하기 위한 세계 지식 강화 계획으로 공식화하고, 시각적 오류를 자기 반성을 통해 추가로 수정하기 위한 세분화된 시각 정제를 위해 편집 능력을 활용합니다. 이 접근 방식은 계획 후 정제라는 인간의 인지 과정을 반영하여 생성과 편집을 공유 표현 내에서 통합합니다. 우리는 계획을 위한 5가지 주요 지식 영역(예: 문화적 상식, 물리학 등)을 포괄하는 대규모 추론 중심 데이터셋(약 30만 개 샘플)과 시각적 자기 수정을 위한 에이전트 생성 코퍼스를 체계적으로 구축하여 이 프레임워크를 지원합니다. 폭넓은 실험을 통해 UniReason이 WISE, KrisBench, UniREditBench과 같은 추론 집약적 벤치마크에서 선진적인 성능을 달성하면서도 우수한 일반 합성 능력을 유지함을 입증했습니다.
우리는 GitHub 풀 리퀘스트(PR)로부터 실제 소프트웨어 엔지니어링(SWE) 검증 환경을 자동으로 구축하기 위한 확장성 있고 효율적인 프레임워크인 SWE-Universe를 제안합니다. 낮은 생산성, 약한 검증기, 과도한 비용 등 자동 구축의 일반적인 과제를 극복하기 위해, 우리 프레임워크는 효율적으로 맞춤 학습된 모델로 구동되는 구축 에이전트를 활용합니다. 이 에이전트는 반복적 자체 검증 및 루프 내 해킹 탐지를 통해 높은 정확도를 가진 검증 가능한 작업의 신뢰할 수 있는 생성을 보장합니다. 이 방법을 사용하여 우리는 실제 다국어 SWE 환경의 수를 백만 규모(807,693개)로 확장했습니다. 대규모 에이전트 중간 학습 및 강화 학습을 통해 우리 환경의 심오한 가치를 입증합니다. 마지막으로, 이 기술을 Qwen3-Max-Thinking에 적용하여 SWE-Bench Verified에서 75.3%의 점수를 달성했습니다. 우리의 작업은 차세대 코딩 에이전트 발전을 위한 중요한 자원과 강력한 방법론을 모두 제공합니다.
딥 리서치는 대규모 언어 모델(LLM) 에이전트의 대표적인 장기 과제로 부상하고 있습니다. 그러나 딥 리서치의 긴 작업 궤적은 종종 모델 컨텍스트 한계를 초과하여, 증거 수집과 보고서 작성 모두에 사용 가능한 토큰 예산을 압축하고 효과적인 테스트 타임 스케일링을 방해합니다. 본 연구에서는 파일 시스템 기반의 이중 에이전트 프레임워크인 FS-Researcher를 소개합니다. 이 프레임워크는 지속적 작업 공간을 통해 컨텍스트 윈도우를 넘어 딥 리서치를 확장합니다. 구체적으로, Context Builder 에이전트는 사서 역할을 하며 인터넷을 탐색하고 구조화된 노트를 작성하며, 원본 출처를 컨텍스트 길이를 훨씬 초과하여 성장할 수 있는 계층적 지식 베이스에 저장합니다.隨後, Report Writer 에이전트는 이 지식 베이스를 사실의 원천으로 삼아 섹션별로 최종 보고서를 작성합니다. 이 프레임워크에서 파일 시스템은 내구성 있는 외부 메모리이자 에이전트와 세션을 아우르는 공유 조정 매체로 기능하여, 컨텍스트 윈도우를 넘어 반복적 정교화를 가능하게 합니다. 두 가지 개방형 벤치마크(DeepResearch Bench 및 DeepConsult)에서의 실험 결과, FS-Researcher가 서로 다른 백본 모델에서 모두 최첨단 수준의 보고서 품질을 달성함을 보여줍니다. 추가 분석은 최종 보고서 품질과 Context Builder에 할당된 계산량 사이의 정적 상관관계를 입증하여, 파일 시스템 패러다임 하에서 효과적인 테스트 타임 스케일링을 검증합니다. 코드와 데이터는 https://github.com/Ignoramus0817/FS-Researcher에서 익명으로 공개되어 있습니다.
픽셀 확산은 2단계 잠재 확산에서 VAE가 도입하는 인공적 결함과 병목 현상을 회피하며 픽셀 공간에서 직접 이미지를 종단 간 방식으로 생성합니다. 그러나 인식적으로 무관한 신호가 많은 고차원 픽셀 다양체를 최적화하는 것은 어려워, 기존 픽셀 확산 방법은 잠재 확산 모델에 뒤처져 왔습니다. 우리는 인식적 지도를 통한 간단한 픽셀 확산 프레임워크인 PixelGen을 제안합니다. PixelGen은 전체 이미지 다양체를 모델링하는 대신, 확산 모델이 더 의미 있는 인식적 다양체를 학습하도록 유도하는 두 가지 상호 보완적인 인식 손실을 도입합니다. LPIPS 손실은 더 나은 지역 패턴 학습을 용이하게 하고, DINO 기반 인식 손실은 전역 의미론을 강화합니다. 인식적 지도를 통해 PixelGen은 강력한 잠재 확산 기준선을 능가합니다. 분류자 없는 지도 없이 80 training epochs만으로 ImageNet-256에서 FID 5.11을 달성하며, GenEval 점수 0.79로 대규모 텍스트-이미지 생성에서 유리한 확장 성능을 보여줍니다. PixelGen은 VAE, 잠재 표현, 보조 단계가 필요 없어 더 간단하면서도 강력한 생성 패러다임을 제공합니다. 코드는 https://github.com/Zehong-Ma/PixelGen에서 공개되어 있습니다.
점진적 학습(PL)은 모델 규모를 점차적으로 증가시킴으로써 사전 학습의 계산 부담을 줄입니다. 기존 연구에서는 주로 깊이 확장에 초점을 맞춘 반면, 너비 확장은 상대적으로 덜 연구되었으며 기존 소수 방법도 훈련 초기 단계로 제한됩니다. 그러나 훈련 중간 단계에서의 너비 확장은 계산 효율을 극대화하는 데 필수적이지만, 심각한 훈련 불안정성으로 인해 여전히 큰 도전 과제로 남아 있습니다. 실험적으로 볼 때, 이 단계에서의 단순한 초기화는 활성화 통계를 교란시켜 손실 급증을 유발하는 반면, 복사 기반 초기화는 기울기 대칭성을 도입하여 특징 다양성 향상을 저해합니다. 이러한 문제를 해결하기 위해 우리는 중간 단계 너비 확장을 위한 새로운 프레임워크인 SPARKLING(너비 점진적 학습을 위한 신호 보존과 대칭 깨짐의 균형)을 제안합니다. 우리의 방법은 RMS 스케일 일관성을 통해 신호 보존을 달성하여 확장 과정 중 활성화 통계를 안정화합니다. 비대칭적 옵티마이저 상태 재설정과 학습률 재준비를 통해 대칭 깨짐을 보장합니다. MoE(Mixture-of-Experts) 모델에 대한 폭넓은 실험을 통해 다양한 너비 축과 옵티마이저 패밀리에서 SPARKLING이 처음부터 훈련하는 방법보다 consistently 우수한 성능을 보이며, 너비를 2배 확장할 때 훈련 비용을 최대 35%까지 절감함을 입증했습니다.
시맨틱 ID(SID) 기반 추천은 순차 추천 시스템의 확장을 위한 유망한 패러다임이지만, 기존 방법은 대부분 시맨틱 중심 파이프라인을 따릅니다. 즉, 파운데이션 모델에서 학습된 아이템 임베딩을 일반적인 양자화 기법을 사용하여 이산화합니다. 이러한 설계는 생성적 추천 목표와 부조화됩니다. 시맨틱 임베딩은 협업 예측과 약하게 결합되어 있고, 일반적인 양자화는 자기회귀 모델링을 위한 순차적 불확실성 감소에 비효율적입니다. 이러한 문제를 해결하기 위해 우리는 LLM에 의존하지 않고 정보 보존과 순차적 예측 가능성 관점에서 표현 학습과 양자화를 재고하는 추천 네이티브(Recommendation-Native)이며 원칙적인 SID 프레임워크인 ReSID를 제안합니다. ReSID는 두 가지 구성 요소로 이루어집니다: (i) 구조화된 특징으로부터 예측에 충분한( Predictive-Sufficient) 아이템 표현을 학습하는 필드 인식 마스크 자동 인코딩(FAMAE)과 (ii) 시맨틱 모호성과 접두사-조건부 불확실성을 공동으로 감소시켜 컴팩트하고 예측 가능한 SID 시퀀스를 생성하는 전역 정렬 직교 양자화(GAOQ). 이론적 분석과 10개 데이터셋에 걸친 광범위한 실험을 통해 ReSID의 효과성을 입증했습니다. ReSID는 강력한 순차 및 SID 기반 생성 베이스라인을 평균 10% 이상 꾸준히 능가하면서도 토큰화 비용을 최대 122배까지 절감했습니다. 코드는 https://github.com/FuCongResearchSquad/ReSID에서 확인할 수 있습니다.
추론 LLM의 사후 훈련은 일반적으로 오프라인 SFT 단계와 온라인 강화 학습(RL) 단계로 구성된 종합적인 과정입니다. 그러나 SFT는 종종 SFT 성능만을 극대화하기 위해 분리되어 최적화됩니다. 우리는 동일한 RL 훈련 후에 더 강력한 SFT 체크포인트로 초기화된 모델이 더 약한 체크포인트로 초기화된 모델보다 성능이 현저히 떨어질 수 있음을 보여줍니다. 우리는 이를 현재 SFT-RL 파이프라인에서 일반적으로 나타나는 불일치, 즉 오프라인 SFT 데이터를 생성하는 분포가 자체 롤아웃으로부터 학습하는 온라인 RL 동안 최적화되는 정책과 크게 다를 수 있기 때문으로 분석합니다. 우리는 이러한 불일치를 수정하고 RL을 위해 모델을 더 잘 준비시키는 SFT 단계 방법인 PEAR(정책 평가 기반 오프라인 학습 손실 재가중 알고리즘)를 제안합니다. PEAR는 중요도 샘플링을 사용하여 SFT 손실을 재가중하며, 토큰, 블록, 시퀀스 수준에서 동작하는 세 가지 변형이 있습니다. 이는 표준 SFT 목적함수를 보완하는 데 사용될 수 있으며, 오프라인 데이터에 대한 확률이 수집되면 추가적인 훈련 오버헤드가 거의 발생하지 않습니다. 우리는 Qwen 2.5/3 및 DeepSeek-distilled 모델을 대상으로 검증 가능한 추론 게임과 수학적 추론 과제에 대한 통제 실험을 수행했습니다. PEAR는 표준 SFT 대비 RL 이후 성능을 지속적으로 향상시켰으며, AIME2025에서 8개 통과 기준 최대 14.6%의 성능 향상을 달성했습니다. 우리의 결과는 PEAR가 SFT를 분리된 것이 아닌 하위 단계 RL을 염두에 두고 설계 및 평가함으로써 더 종합적인 LLM 사후 훈련으로 나아가는 효과적인 단계임을 시사합니다.
모바일 그래픽 사용자 인터페이스(GUI) 세계 모델(WM)은 학습 및 추론 시점에서 모바일 GUI 에이전트 성능 향상을 위한 유망한 방안을 제시합니다. 그러나 현재 접근법은 중요한 절충에 직면해 있습니다: 텍스트 기반 WM은 시각적 충실도를 희생하는 반면, 시각적 WM의 정확한 텍스트 렌더링 부재는 수많은 외부 모델에 의존하는 느리고 복잡한 파이프라인에 의존하게 만듭니다. 우리는 픽셀을 직접 생성하는 대신 실행 가능한 웹 코드로 다음 GUI 상태를 예측하는 단일 시각-언어 모델(VLM)을 통한 시각적 세계 모델링, 즉 렌더링 가능한 코드 생성을 통한 새로운 패러다임을 제안합니다. 이는 두 접근법의 장점을 결합합니다: VLM은 정확한 텍스트 렌더링을 위한 언어적 사전 지식을 유지하면서 구조화된 웹 코드에 대한 사전 학습을 통해 높은 충실도의 시각적 생성을 가능하게 합니다. 우리는 이 패러다임을 기반으로 구축된 최초의 오픈 웨이트 시각적 모바일 GUI WM인 gWorld(8B, 32B)와 코드 기반 학습 데이터를 자동으로 합성하는 데이터 생성 프레임워크(gWorldGen)를 소개합니다. 4개의 내부 분포 및 2개의 외부 분포 벤치마크에 대한 광범위한 평가에서 gWorld는 정확도 대 모델 크기 측면에서 새로운 파레토 프론티어를 설정하며, 최대 50.25배 큰 8개의 최첨단 오픈 웨이트 모델들을 능가했습니다. 추가 분석은 (1) gWorldGen을 통한 학습 데이터 확장이 의미 있는 성능 향상을 가져오며, (2) 우리 파이프라인의 각 구성 요소가 데이터 품질을 향상시키고, (3) 더 강력한 세계 모델링이 다운스트림 모바일 GUI 정책 성능을 향상시킨다는 것을 보여줍니다.
그래프 기반 검색 증강 생성(GraphRAG)은 외부 지식을 계층적 그래프로 구성하여 여러 문서에 흩어져 있는 증거의 효율적인 검색 및 집계를 가능하게 합니다. 그러나 기존 GraphRAG 벤치마크의 많은 부분이 짧고 선별된 문단을 외부 지식으로 사용함으로써, 긴 컨텍스트와 대규모 이질적 문서를 포함하는 현실적인 환경에서 시스템을 충분히 평가하지 못하는 한계가 있습니다. 이러한 격차를 해소하기 위해 우리는 실제 환경에서의 GraphRAG 성능을 평가하도록 설계된 벤치마크인 WildGraphBench를 소개합니다. 우리는 응집력 있는 서술이 길고 이질적인 외부 참조 문서에 기반을 두는 위키피디아의 독특한 구조를 활용하여 실제 시나리오를 반영하는 벤치마크를 구축합니다. 구체적으로, 12개의 최상위 주제 분야에 걸쳐 문서를 샘플링하고, 그 외부 참조문을 검색 코퍼스로, 인용 링크가 연결된 진술을 정답으로 사용하여 단일 사실 질의응답, 다중 사실 질의응답, 섹션 수준 요약이라는 세 가지 복잡도 수준에 걸친 1,100개의 질문을 생성합니다. 여러 베이스라인에 대한 실험 결과, 현재 GraphRAG 파이프라인은 증거가 적절한 수의 출처에서 나올 때 다중 사실 집계에는 도움이 되지만, 이러한 집계 패러다임이 세부 사항을 희생시키면서 상위 수준 진술을 과도하게 강조하여 요약 작업에서 더 낮은 성능을 초래할 수 있음이 나타났습니다. 프로젝트 페이지: https://github.com/BstWPY/WildGraphBench.
체인 오브 씽킹(Chain-of-Thought) 추론 방식의 발전으로 대규모 언어 모델은 텍스트를 통한 사고에서 이미지와 비디오를 활용한 사고로 영역을 확장해 왔습니다. 그러나 각 양식마다 뚜렷한 한계가 존재합니다: 정적 이미지는 시간적 구조를 표현하는 데 어려움이 있고, 비디오는 상당한 중복성과 계산 비용을 수반합니다. 본 연구에서는 이미지와 비디오의 중간 지점에 위치한 높은 정보 밀도를 가진 매체인 만화를 활용한 시각적 추론 패러다임인 'Thinking with Comics'를 제안합니다. 만화는 시간적 구조, 삽입된 텍스트, 이야기의 일관성을 유지하면서도 상당히 낮은 추론 비용만을 요구합니다. 우리는 만화 기반의 두 가지 추론 경로를 체계적으로 연구하고 다양한 추론 과제 및 장문맥 이해 과제에서 이를 평가합니다. 실험 결과, 'Thinking with Comics'는 다단계 시간적 및 인과적 추론 과제에서 'Thinking with Images'보다 우수한 성능을 보였으며, 'Thinking with Video'보다 훨씬 더 효율적인 것으로 나타났습니다. 추가 분석에 따르면, 서로 다른 만화 서사 구조와 스타일이 다양한 과제에서 일관되게 성능에 영향을 미치는 것으로 나타나, 만화가 다중모달 추론 성능 향상을 위한 효과적인 중간 시각적 표현으로 기능함을 시사합니다.
우리는 RLAnything를 제안한다. 이는 폐루프 최적화를 통해 환경, 정책, 보상 모델을 동적으로 구축하여 학습 신호를 증폭하고, 모든 LLM 또는 에이전트 시나리오에 대해 전반적인 강화학습 시스템을 강화하는 프레임워크이다. 구체적으로, 정책은 단계별 신호와 결과 신호로부터 통합된 피드백으로 학습되는 반면, 보상 모델은 일관성 피드백을 통해 공동 최적화되어 정책 학습을 더욱 개선한다. 또한, 이론에 기반한 자동 환경 적응은 정책 모델과 보상 모델 각각의 비평가 피드백을 활용하여 둘 모두의 학습을 개선하고 경험으로부터의 학습을 가능하게 한다. 실험적으로, 각각 추가된 구성 요소는 일관되게 전체 시스템을 개선했으며, RLAnything는 다양한 대표적인 LLM 및 에이전트 과제에서 상당한 성능 향상을 보였다. 구체적으로 Qwen3-VL-8B-Thinking 모델은 OSWorld에서 9.1%, Qwen2.5-7B-Instruct 모델은 AlfWorld와 LiveBench에서 각각 18.7%와 11.9%의 성능 향상을 달성했다. 또한 최적화된 보상 모델 신호는 인간 레이블에 의존하는 결과보다 우수함을 확인했다. 코드: https://github.com/Gen-Verse/Open-AgentRL
딥 리서치 에이전트(DRA)는 자율적인 정보 검색 및 보고서 생성에서 뛰어난 능력을 보여주며, 복잡한 연구 작업에서 인간을 지원할 수 있는 큰 잠재력을 나타내고 있습니다. 현재의 평가 체계는 주로 LLM이 생성한 참조 자료나 LLM에서 도출된 평가 차원에 의존하고 있습니다. 이러한 접근 방식은 확장성을 제공하지만, 전문가 검증 콘텐츠의 신뢰도가 부족한 경우가 많으며 중요한 차원에 대한 객관적이고 세분화된 평가를 제공하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해 우리는 최신 위키백과 양호 문서(GA)를 전문가 수준의 참조 자료로 활용하는 라이브 벤치마크인 Wiki Live Challenge(WLC)를 소개합니다. 위키백과의 중립성, 포괄성, 검증 가능성에 대한 엄격한 기준은 DRA에게 큰 도전 과제가 되며, GA는 그 정점을 나타냅니다. 우리는 최근의 양호 문서 100개로 구성된 데이터셋을 구축하고, 글쓰기 품질에 대한 39개 기준의 세분화된 평가 방법과 사실적 검증 가능성에 대한 엄격한 지표를 포함한 포괄적인 평가 프레임워크인 Wiki Eval을 제안합니다. 다양한 DRA 시스템에 대한 광범위한 실험을 통해 현재 DRA와 인간 전문가 수준의 위키백과 문서 사이에 상당한 격차가 있음을 입증하며, WLC가 에이전트 연구 발전에 효과적임을 검증합니다. 우리는 벤치마크를 https://github.com/WangShao2000/Wiki_Live_Challenge 에 공개합니다.
대규모 언어 모델(LLM)을 정렬하기 위한 인간 피드백 강화 학습(RLHF)의 계산 효율적인 대안으로 직접 선호도 최적화 방법이 등장했습니다. 최신 접근법은 암묵적 보상 함수를 도출하여 정렬 과정을 간소화했지만, 선택된 응답과 거부된 응답 간의 상대적 차이를 최적화하는 것이 선택된 응답의 절대적 가능성 보존을 보장하지 못한다는 중요한 목표 불일치 문제를 자주 겪습니다. 이로 인해 높은 품질의 출력 확률이 차이 제약을 충족시키기 위해 저하되는 '역학습' 현상과 거부된 시퀀스의 과도한 페널티로 인한 '형식 붕괴'가 발생할 수 있습니다. 본 연구에서는 선호도 학습과 생성 품질을 분리하도록 설계된 참조 모델 없는 정렬 목표인 SLIME(Stabilized Likelihood Implicit Margin Enforcement)을 소개합니다. SLIME은 세 가지 목표를 통합합니다: (1) 선호하는 응답의 가능성을 최대화하는 고정 항, (2) 거부된 토큰의 확률이 0으로 붕괴되는 것을 방지하는 안정화 패널티, (3) 정확한 경계 형성을 위한 경계와 유연한 제약을 결합한 이중 차이 메커니즘. 실험 결과, SLIME이 최신 기준 모델 대비 우수한 성능을 달성하면서도 더 높은 생성 안정성을 유지함을 입증합니다.
자기회귀 비디오 확산 모델은 스트리밍 생성이 가능하여 장편 비디오 합성, 비디오 월드 모델, 상호작용형 신경망 게임 엔진 구현의 길을 열었습니다. 그러나 이러한 모델의 핵심 구성 요소인 어텐션 레이어는 추론 시점에 주요 병목 현상으로 작용합니다: 생성이 진행됨에 따라 KV 캐시가 증가하여 지연 시간이 점차 길어지고 GPU 메모리 사용량이 급증하며, 이는 사용 가능한 시간적 컨텍스트를 제한하고 장기간 일관성을 해치는 결과를 초래합니다. 본 연구에서는 자기회귀 비디오 확산 모델에서 나타나는 중복성을 분석하고 세 가지 지속적인 원인을 규명했습니다: 프레임 간에 거의 중복되는 캐시된 키, 많은 어텐션 계산을 중복시키는 느리게 변화하는(주로 의미론적인) 쿼리/키, 그리고 프레임마다 극히 일부 토큰만이 중요한 긴 프롬프트에 대한 교차 어텐션입니다. 이러한 관찰을 바탕으로, 우리는 자기회귀 확산 모델을 위한 통합적이며 훈련이 필요 없는 어텐션 프레임워크를 제안합니다: TempCache는 시간적 대응 관계를 통해 KV 캐시를 압축하여 캐시 증가를 제한하고, AnnCA는 빠른 근사 최근접 이웃(ANN) 매칭을 사용하여 프레임과 관련된 프롬프트 토큰을 선택하여 교차 어텐션을 가속화하며, AnnSA는 가벼운 ANN을 사용하여 각 쿼리를 의미론적으로 일치하는 키로 제한하여 자기 어텐션을 희소화합니다. 이러한 모듈들은 함께 어텐션, 계산량, 메모리 사용량을 줄이며, 기존의 자기회귀 확산 백본 및 월드 모델과 호환됩니다. 실험 결과, 기존 방법들이 점차 느려지고 메모리 사용량이 증가하는 장기 롤아웃 상황에서도 시각적 품질을 거의 동일하게 유지하면서 최대 5~10배의 종단 간 속도 향상을 달성했으며, 무엇보다도 안정적인 처리량과 거의 일정한 최대 GPU 메모리 사용량을 유지하는 것으로 나타났습니다.
실시간 상호작용 비디오 생성을 달성하기 위해 현재 방법들은 사전 학습된 양방향 비디오 확산 모델을 소수 단계의 자기회귀(AR) 모델로 증류하는데, 이때 전체 어텐션이 인과적 어텐션으로 대체되며 구조적 차이가 발생합니다. 그러나 기존 접근법들은 이 차이를 이론적으로 해결하지 못합니다. 기존 방법은 ODE 증류를 통해 AR 학생 모델을 초기화하는데, 이는 프레임 수준의 단사 조건을 요구합니다. 즉, 각 노이즈 프레임이 AR 교사 모델의 PF-ODE 하에서 고유한 클린 프레임에 매핑되어야 합니다. 양방향 교사 모델에서 AR 학생 모델을 증류하는 것은 이 조건을 위반하여 교사 모델의 흐름 맵 복구를 방해하고 대신 조건부 기대 해를 유도하여 성능 저하를 초래합니다. 이 문제를 해결하기 위해 우리는 ODE 초기화에 AR 교사 모델을 사용하는 Causal Forcing을 제안하여 구조적 차이를 해소합니다. 실험 결과는 우리 방법이 모든 평가 지표에서 기준선을 능가하며, SOTA인 Self Forcing 대비 Dynamic Degree에서 19.3%, VisionReward에서 8.7%, Instruction Following에서 16.7% 향상되었음을 보여줍니다. 프로젝트 페이지 및 코드: https://thu-ml.github.io/CausalForcing.github.io/
텍스트-비디오(T2V) 생성은 입력 텍스트와 의미적으로 일관되면서 높은 시각적 품질과 시간적 일관성을 가진 비디오를 합성하는 것을 목표로 합니다. 보상 기반 사후 훈련은 생성된 비디오의 품질과 의미적 일관성을 향상시키는 유망한 방향으로 부상했습니다. 그러나 최근 방법들은 대규모 인간 선호도 주석에 의존하거나 사전 훈련된 비전-언어 모델의 정렬되지 않은 임베딩을 기반으로 작동하여 확장성이 제한되거나 최적이 아닌 지도 학습을 초래합니다. 본 논문에서는 이러한 한계를 해결하기 위한 새로운 Dual 최적 수송(OT) 기반 보상 모듈을 통해 주석이 필요 없는 사후 훈련 알고리즘인 PISCES를 제시합니다. PISCES는 보상 신호를 인간의 판단과 일치시키기 위해 OT를 사용하여 분포 수준과 개별 토큰 수준에서 텍스트와 비디오 임베딩을 연결하며, 이를 통해 보상 지도 학습이 두 가지 목표를 달성하도록 합니다: (i) 전반적인 시각적 품질과 시간적 일관성을 포착하는 분포 수준 OT 기반 품질 보상, (ii) 텍스트와 비디오 토큰 간의 의미적, 시공간적 일관성을 강화하는 개별 토큰 수준 OT 기반 의미 보상. 우리가 알기로 PISCES는 OT 관점에서 생성적 사후 훈련의 주석 없는 보상 지도 학습을 개선한 최초의 방법입니다. 단편 및 장편 비디오 생성에 대한 실험 결과, PISCES는 VBench의 품질 및 의미 점수에서 주석 기반 및 주석 없는 방법들을 모두 능가하며, 인간 선호도 연구를 통해 그 효과가 추가로 입증되었습니다. 또한 Dual OT 기반 보상 모듈이 직접 역전파와 강화 학습 미세 조정을 포함한 다양한 최적화 패러다임과 호환됨을 보여줍니다.
텍스트-이미지 생성 기술이 전례 없는 사실성을 달성했지만, 기존 모델의 대부분은 근본적으로 정적 텍스트-픽셀 디코더로 기능합니다. 이로 인해 사용자의 암묵적 의도를 파악하지 못하는 경우가 빈번합니다. 최근 등장한 통합 이해-생성 모델들이 의도 이해 능력을 개선했지만, 여전히 복잡한 지식 추론을 수반하는 작업을 단일 모델 내에서 수행하는 데 어려움을 겪고 있습니다. 더욱이 정적인 내부 사전 지식에 제한되어 이러한 모델들은 진화하는 현실 세계의 역동성에 적응하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 생성 과정을 역동적이고 지식 주도적인 워크플로로 전환하는 통합 에이전트 프레임워크인 Mind-Brush를 소개합니다. Mind-Brush는 인간과 유사한 '사고-탐구-창조' 패러다임을 모방하여 분포 외 개념을 기반으로 삼기 위해 능동적으로 다중 모드 증거를 검색하고, 암묵적인 시각적 제약 조건을 해결하기 위해 추론 도구를 활용합니다. 이러한 능력을 엄격하게 평가하기 위해 실시간 뉴스, 신흥 개념, 수학 및 지리 추론과 같은 영역을 아우르는 500개의 다양한 샘플로 구성된 포괄적인 벤치마크인 Mind-Bench를 제안합니다. 폭넓은 실험을 통해 Mind-Brush가 통합 모델의 능력을 크게 향상시키며, Mind-Bench에서 Qwen-Image 기준 모델의 제로-투-원(0-to-1) 능력 도약을 실현하는 동시에 WISE 및 RISE와 같은 기존 벤치마크에서도 우수한 결과를 달성함을 입증합니다.
대규모 언어 모델(LLM)의 지식 증류(KD)를 개선하기 위한 노력이 늘어나면서, 조밀한 교사 감독을 토큰 위치, 어휘 클래스 또는 훈련 샘플의 부분집합을 사용하는 선택적 증류로 대체하고 있습니다. 그러나 어떤 중요도 신호와 선택 정책, 그리고 이들의 상호작용이 가장 효과적인지는 여전히 명확하지 않습니다. 본 연구에서는 자기회귀적 LLM에서 어디서, 어떻게 증류할 것인지 재검토합니다. 우리는 위치, 클래스, 샘플 축을 따라 선택적 KD를 분리하고 중요도 신호와 선택 정책을 체계적으로 비교합니다. 이후 이 분석을 바탕으로 미개척된 기회를 식별하고 학생 엔트로피 기반 위치 선택(SE-KD)을 소개합니다. 일련의 벤치마크에서 SE-KD는 조밀 증류 대비 정확도, 하위 작업 준수도 및 메모리 효율성을 종종 향상시켰습니다. 이 접근법을 클래스 및 샘플 축으로 확장한(SE-KD 3X) 결과 성능 저하 없이 상호 보완적인 효율성 향상을 얻어 오프라인 교사 캐싱을 실현 가능하게 했습니다. 실제로 이는 기존 방법 대비 벽시 시간을 70% 단축하고 최대 메모리 사용량을 18% 줄이며 저장 공간 사용량을 80% 절감합니다.
LLM 기반 심층 연구 에이전트는 대부분 ReAct 프레임워크에 기반을 두고 있습니다. 이러한 선형 설계는 이전 상태를 재검토하거나 대체 탐색 방향으로 분기하거나 긴 맥락 하에서 전역 인식을 유지하는 것을 어렵게 만들어, 종종 지역 최적점, 중복 탐색 및 비효율적인 탐색으로 이어집니다. 우리는 각 궤적 이후 증거, 불확실성, 실패 및 향후 계획을 요약하기 위해 구조화된 상태 표현을 생성하고, 이후 궤적을 이 상태 표현에 조건화함으로써 교차 궤적 탐색을 수행하는 에이전트 프레임워크인 Re-TRAC을 제안합니다. 이를 통해 반복적 성찰과 전역적으로 정보화된 계획 수립이 가능해지며, 연구를 점진적인 과정으로 재구성합니다. 실험 결과에 따르면 Re-TRAC은 최신 LLM을 사용한 BrowseComp에서 ReAct보다 15-20% 일관적으로 우수한 성능을 보입니다. 더 작은 모델의 경우 Re-TRAC 인지 지도 미세 조정을 도입하여 유사한 규모에서 최첨단 성능을 달성했습니다. 특히 Re-TRAC은 라운드별 도구 호출 및 토큰 사용량이 단조롭게 감소하는 것을 보여주며, 이는 중복 탐색이 아닌 교차 궤적 성찰에 의해 주도되는 점진적으로 표적화된 탐색을 나타냅니다.
본 논문에서는 고속 동작 변환기(transformer) 기반 이미지-비디오(I2V) 확산 프레임워크인 FSVideo를 소개한다. 우리는 다음 세 가지 핵심 구성 요소를 기반으로 프레임워크를 구축하였다: 1) 높은 압축률의 잠재 공간(공간-시간 하향 샘플링 비율 64배×64배×4)을 가지며 경쟁력 있는 복원 품질을 달성한 새로운 비디오 오토인코더, 2) 계층 간 정보 흐름과 DIT 내 컨텍스트 재사용을 향상시키는 새로운 계층 메모리 설계를 갖춘 확산 변환기(DIT) 아키텍처, 3) 소수 단계의 DIT 업샘플러를 통한 다중 해상도 생성 전략으로 비디오 충실도를 높인다. 140억 파라미터 DIT 기본 모델과 140억 파라미터 DIT 업샘플러로 구성된 최종 모델은 다른 인기 오픈소스 모델 대비 경쟁력 있는 성능을 달성하면서도 생성 속도가 수십 배 빠르다. 본 보고서에서는 모델 설계와 훈련 전략에 대해 논의한다.
일본 금융 언어는 교착어적 특성과 주요어 후치 구조, 혼합 표기 체계, 간접적 표현과 암묵적 약속에 의존하는 고맥락 의사소통 규범을 결합하고 있어 LLM에게 상당한 도전 과제로 작용합니다. 본 연구에서는 일본 현지 금융 언어 이해를 위한 벤치마크인 Ebisu를 소개합니다. 이는 언어적·문화적 기반을 갖춘 전문가 주해 작업 두 가지로 구성됩니다: 투자자 대상 Q&A에서 암묵적 약속과 거부 인식을 평가하는 JF-ICR, 전문 공시 자료에서 중첩된 금융 용어의 계층적 추출 및 순위 평가를 수행하는 JF-TE입니다. 우리는 일반용, 일본어 적응형, 금융 특화 모델을 아우르는 다양한 오픈소스 및 상용 LLM을 평가했습니다. 결과에 따르면 최첨단 시스템조차 두 작업 모두에서 어려움을 겪는 것으로 나타났습니다. 모델 규모 확대는 제한된 개선만을 가져왔으며, 언어 및 도메인 특화 적응도 성능 향상을 안정적으로 보장하지 못해 상당한 격차가 해결되지 않은 채 남아 있습니다. Ebisu는 언어적·문화적 기반을 둔 금융 NLP 발전을 위한 집중적 벤치마크를 제공합니다. 모든 데이터세트와 평가 스크립트는 공개되었습니다.
시각적 메타포는 추상적 개념을 효과적인 시각적 수사로 전환하기 위해 도메인 간 의미 융합을 활용하는 고차원적 인간 창의성의 한 형태입니다. 생성형 AI의 눈부신 발전에도 불구하고, 기존 모델들은 여전히 픽셀 수준의 지시어 정합과 표면적 외관 보존에 국한되어 있으며, 진정한 메타포 생성에 필요한 내재적 추상 논리를 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 시각적 메타포 전이(VMT) 과제를 제안합니다. 이는 모델이 참조 이미지로부터 "창의적 본질"을 자율적으로 분리하고 해당 추상 논리를 사용자가 지정한 대상 주제에 재구현하도록 요구합니다. 우리는 개념 혼성 이론(CBT)을 새로운 스키마 문법("G")을 통해 운영화하는 인지 과학 기반 다중 에이전트 프레임워크를 제안합니다. 이 구조화된 표현은 관계적 불변량을 구체적 시각 개체로부터 분리하여 도메인 간 논리 재구현을 위한 엄밀한 기반을 제공합니다. 우리의 파이프라인은 전문 에이전트들의 협력 시스템을 통해 VMT를 실행합니다: 참조를 스키마로 정제하는 인지 에이전트, 일반 공간 불변성을 유지하며 적절한 전달체를 발견하는 전이 에이전트, 고품질 합성을 위한 생성 에이전트, 그리고 전문 비평가를 모방하여 추상 논리, 구성 요소 선택, 프롬프트 인코딩 전반의 오류를 식별 및 수정하기 위한 계층적 진단 및 폐쇄형 역추적을 수행하는 진단 에이전트로 구성됩니다. 폭넓은 실험과 인간 평가를 통해 우리의 방법이 메타포 일관성, 유사성 적절성, 시각적 창의성 측면에서 SOTA 기준선을 크게 능가함을 입증하여, 광고 및 미디어 분야에서 고부가가치 창의적 응용 자동화의 길을 열었습니다. 소스 코드는 공개될 예정입니다.
멀티모달 대규모 언어 모델(MLLM)은 개방형 어휘 인식 과제에서 놀라운 성과를 거두었지만, 시각적 세부 정보가 추상적이고 시각 기억을 필요로 하는 복잡한 인지 문제 해결 능력은 여전히 제한적입니다. 현재의 접근법은 언어만으로는 명확하고 구조화된 추론이 불충분한 경우에도 주로 텍스트 공간에서의 사고 연쇄(CoT) 추론을 확장하는 데 중점을 두며, 인간의 시공간 스케치패드 및 시각 심상과 유사한 시각 추론 메커니즘을 크게 간과하고 있습니다. 이러한 결함을 해결하기 위해 우리는 인지 초감각(Cognitive Supersensing)이라는 새로운 훈련 패러다임을 제안합니다. 이는 시각 인지 잠재 임베딩의 시퀀스를 공동으로 학습하고 답변과 정렬하는 잠재 시각 심상 예측(LVIP) 헤드를 통합하여 MLLM에 인간과 유사한 시각 심상 능력을 부여함으로써 시각 기반 내부 추론 사슬을 형성합니다. 또한 우리는 이 기반이 되는 시각 잠재 공간을 바탕으로 텍스트 추론 경로를 최적화하는 강화 학습 단계를 도입합니다. MLLM의 인지 능력을 평가하기 위해 우리는 5가지 인지 차원을 평가하는 포괄적인 시각 질의응답(VQA) 벤치마크인 CogSense-Bench를 제시합니다. 광범위한 실험을 통해 인지 초감각으로 훈련된 MLLM이 CogSense-Bench에서 최첨단 기준 모델을 크게 능가하며, 도메인 외 수학 및 과학 VQA 벤치마크에서도 우수한 일반화 성능을 보여줌으로써 내부 시각 심상이 인식과 인지 이해 사이의 격차를 해소하는 핵심 요소일 수 있음을 시사합니다. 우리는 CogSense-Bench와 모델 가중치를 오픈소스로 공개할 예정입니다.
최근 생성 모델은 이미지 편집 분야에서 놀라운 발전을 이루었습니다. 그러나 기존 시스템과 벤치마크는 대부분 텍스트 기반으로 남아 있습니다. 이와 대조적으로 인간의 의사소통은 본질적으로 다중 모달적이며, 스케치와 같은 시각적 지시는 공간적 및 구조적 의도를 효율적으로 전달합니다. 이러한 격차를 해결하기 위해 우리는 지시적 기반, 형태론적 조작, 인과적 추론을 포착하는 3단계 상호작용 계층 구조를 가진 시각적 지시 이미지 편집 벤치마크인 VIBE를 소개합니다. 이러한 단계 전반에 걸쳐 우리는 시각적 지시 수행의 점진적으로 증가하는 복잡성을 반영하는 고품질 및 다양한 테스트 케이스를 선별했습니다. 더 나아가 확장 가능하고 세분화된 평가를 가능하게 하는 과제 특화 지표를 갖춘 강력한 LMM-as-a-judge 평가 프레임워크를 제안합니다. 17개의 대표적인 오픈소스 및 상용 이미지 편집 모델에 대한 포괄적 평가를 통해, 우리는 상용 모델이 초기 단계의 시각적 지시 수행 능력을 보여주며 오픈소스 모델을 지속적으로 능가한다는 사실을 발견했습니다. 그러나 가장 강력한 시스템에서도 작업 난이도가 증가함에 따라 성능이 현저히 저하되어, 향후 연구를 위한 유망한 방향성을 부각시킵니다.
대화형 아바타 생성은 비디오 생성의 핵심 과제입니다. 기존 방법들은 단순한 인간 동작을 가진 전신 대화형 아바타를 생성할 수 있지만, 이를 접지된 인간-객체 상호작용(GHOI)으로 확장하는 것은 열려 있는 과제로 남아있습니다. 이는 아바타가 주변 객체와 텍스트에 부합하는 상호작용을 수행해야 하기 때문입니다. 이러한 도전 과제는 환경 인식의 필요성과 GHOI 생성에서의 제어-품질 딜레마에서 비롯됩니다. 이를 해결하기 위해 우리는 접지된 인간-객체 상호작용을 위해 인식 및 계획을 비디오 합성에서 분리하는 새로운 이중 스트림 프레임워크인 InteractAvatar를 제안합니다. 탐지를 활용하여 환경 인식을 향상시키기 위해, 우리는 텍스트에 부합하는 상호작용 동작을 생성하는 인식 및 상호작용 모듈(PIM)을 도입합니다. 추가적으로 객체 상호작용을 수행하는 생생한 대화형 아바타를 합성하기 위한 오디오-상호작용 인식 생성 모듈(AIM)을 제안합니다. 특별히 설계된 동작-비디오 정렬기를 통해 PIM과 AIM은 유사한 네트워크 구조를 공유하며 동작과 그럴듯한 비디오의 병렬 공동 생성을 가능하게 하여 제어-품질 딜레마를 효과적으로 완화합니다. 마지막으로, 우리는 GHOI 비디오 생성을 평가하기 위한 벤치마크인 GroundedInter를 구축했습니다. 광범위한 실험과 비교를 통해 우리 방법이 대화형 아바타를 위한 접지된 인간-객체 상호작용 생성에 효과적임을 입증합니다. 프로젝트 페이지: https://interactavatar.github.io
기존의 보상 모델은 일반적으로 창의적 글쓰기나 개방형 지시 수행과 같이 검증이 어려운 영역에서 응답 품질의 다면적 특성을 포착하지 못하는 스칼라 점수를 예측합니다. 이러한 한계를 해결하기 위해 본 연구에서는 선호도 피드백을 통한 강화 학습을 사용하여 루브릭 생성기와 평가자를 공동으로 최적화하는 프레임워크인 Rubric-ARM을 제안합니다. 정적 루브릭이나 분리된 학습 파이프라인에 의존하는 기존 방법과 달리, 우리의 접근 방식은 판단 정확도를 극대화하기 위해 학습된 잠재 행동으로 루브릭 생성을 취급합니다. 우리는 동시 업데이트의 비정상성 문제를 완화하기 위해 교번 최적화 전략을 도입하며, 이 학습 일정이 훈련 중 그래디언트 분산을 어떻게 감소시키는지 이론적으로 분석합니다. 광범위한 실험을 통해 Rubric-ARM이 여러 벤치마크에서 기준 모델 대비 최첨단 성능을 달성하고, 오프라인 및 온라인 강화 학습 설정 모두에서 하류 정책 정렬을 크게 개선함을 입증합니다.
컴퓨터 사용 에이전트(CUA)는 실제 업무를 완수하기 위해 컴퓨터 시스템을 자율적으로 운영하는 것을 목표로 합니다. 그러나 기존 에이전트 시스템은 확장이 어렵고 인간의 성과에 미치지 못하는 실정입니다. 핵심적인 한계는 인간이 그래픽 사용자 인터페이스와 상호 작용하는 방식과 이러한 기술을 활용하는 방법을 포착하는 재사용 가능하고 구조화된 기술 추상화가 부족하다는 점입니다. 우리는 인간의 컴퓨터 사용 지식을 매개변수화된 실행 및 구성 그래프와 결합된 기술로 인코딩하는 컴퓨터 사용 에이전트 기술 베이스인 CUA-Skill을 소개합니다. CUA-Skill은 일반적인 Windows 애플리케이션을 아우르는 정교하게 설계된 대규모 기술 라이브러리로, 확장 가능하고 신뢰할 수 있는 에이전트 개발을 위한 실용적인 인프라 및 도구 기반을 제공합니다. 이 기술 베이스를 기반으로 우리는 동적 기술 검색, 인수 인스턴스화, 메모리 인식 오류 복구를 지원하는 종단간 컴퓨터 사용 에이전트인 CUA-Skill Agent를 구축합니다. 우리의 결과는 CUA-Skill이 까다로운 종단간 에이전트 벤치마크에서 실행 성공률과 견고성을 크게 향상시켜 향후 컴퓨터 사용 에이전트 개발을 위한 견고한 기반을 마련함을 보여줍니다. WindowsAgentArena에서 CUA-Skill Agent는 57.5%(3회 중 최고치)의 최첨단 성공률을 달성하면서 기존 및 동시대 접근법보다 훨씬 더 효율적입니다. 프로젝트 페이지는 https://microsoft.github.io/cua_skill/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)을 제어하는 방법(로컬 가중치 미세 조정, LoRA 기반 적응, 활성화 기반 개입 등)은 종종 개별적으로 연구되어 이들 간의 연결성이 불분명하고 비교가 어려운 상황입니다. 본 연구에서는 이러한 개입 방법들을 제어 신호에 의해 유도된 동적 가중치 업데이트로 규정하는 통합된 관점을 제시하며, 이를 단일 개념 체계 내에 위치시킵니다. 이러한 관점을 바탕으로, 우리는 제어 효과를 '특정 대상 개념을 향한 경향성'으로 정의된 선호도와 '일관적이고 작업에 유효한 생성'으로 정의된 유용성으로 분리하고, 극성 대조 예제를 사용하여 공통 로그 오즈 척도로 두 가지를 모두 측정하는 통합 선호도-유용성 분석법을 제안합니다. 다양한 방법론에 걸쳐 우리는 선호도와 유용성 사이에 일관된 트레이드오프가 존재함을 관찰합니다. 즉, 제어 강도가 강해질수록 선호도는 증가하지만 예측 가능하게 유용성은 감소합니다. 우리는 이러한 현상을 활성화 매니폴드 관점을 통해 추가적으로 설명하는데, 여기서 제어는 대상 개념 방향으로 표현을 이동시켜 선호도를 향상시키는 반면, 개입이 표현을 모델의 유효 생성 매니폴드에서 벗어나게 밀어낼 때 주로 유용성이 저하됩니다. 마지막으로, 우리는 이 분석을 바탕으로 선호도를 개선하면서 유용성을 더 잘 보존하는 새로운 조정 기법인 SPLIT을 소개합니다. 코드는 https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md에서 확인할 수 있습니다.
본 논문에서는 대규모 언어 모델(LLM)의 은닉 상태 내에 희소 보상 하위 시스템이 존재함을 규명하고, 이를 인간 뇌의 생물학적 보상 하위 시스템에 비유합니다. 우리는 이 하위 시스템이 모델의 내부적 상태 가치 기대치를 나타내는 가치 뉴런을 포함하고 있음을 입증하며, 인터벤션 실험을 통해 이러한 뉴런이 추론 과정에 중요함을 확인합니다. 실험 결과, 이러한 가치 뉴런은 다양한 데이터셋, 모델 규모, 아키텍처에 걸쳐 견고하게 존재하며, 동일한 기반 모델에서 미세 조정된 서로 다른 모델과 데이터셋 간에도 높은 전이 가능성을 보입니다. 또한 가치 예측과 실제 보상이 불일치하는 사례를 분석함으로써, 보상 예측 오차(RPE)를 인코딩하는 도파민 뉴런을 보상 하위 시스템 내에서 확인합니다. 이러한 뉴런은 예상보다 보상이 높을 때 높은 활성화를, 낮을 때는 낮은 활성화를 나타냅니다.
시각적 추론 분야의 최근 발전은 ARC-AGI 벤치마크 해결을 위해 비전 트랜스포머를 활용해 왔습니다. 그러나 계산 깊이가 매개변수 크기에 엄격하게 종속되는 순전향(Feed-Forward) 아키텍처는 인간의 귀납적 사고가 지닌 반복적이고 알고리즘적인 특성을 제대로 포착하지 못한다고 우리는 주장합니다. 본 연구에서는 가중치 공유(Weight-Tied) 재귀를 통해 추론 깊이와 모델 용량을 분리하는 Loop-ViT라는 재귀적 아키텍처를 제안합니다. Loop-ViT는 지역적 합성곱(Convolution)과 전역적 어텐션(Attention)을 결합한 가중치 공유 Hybrid Block을 반복하여 잠재적 사고 사슬(Chain of Thought)을 형성합니다. 중요한 것은 예측 엔트로피(Predictive Entropy)에 기반한 매개변수 없는 동적 종료(Dynamic Exit) 메커니즘을 도입했다는 점입니다. 이 메커니즘은 모델의 내부 상태가 낮은 불확실성의 끌개(Attractor) 상태로 "결정화"될 때 추론을 중단합니다. ARC-AGI-1 벤치마크에 대한 실험 결과는 이러한 관점을 입증합니다: 18M 규모의 우리 모델은 65.8%의 정확도를 달성하여 73M 매개변수 규모의 대규모 앙상블 모델들을 능가했습니다. 이러한 결과는 적응형 반복 계산이 네트워크 폭을 단순히 증가시키는 것보다 시각적 추론을 위한 훨씬 더 효율적인 확장 축을 제공함을 보여줍니다. 코드는 https://github.com/WenjieShu/LoopViT 에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 단계별 사고 연쇄(CoT) 추론을 통해 강력한 추론 능력을 입증해왔습니다. 그러나 모델 능력의 한계에서는 CoT가 종종 불충분하며, 엄격하게 순차적인 특성으로 인해 테스트 시 확장성이 제한됩니다. 잠재적인 대안은 분할 정복(DAC) 추론으로, 복잡한 문제를 하위 문제로 분해하여 보다 효과적인 솔루션 탐색을 용이하게 합니다. 유망함에도 불구하고, 우리의 분석은 일반적인 사후 훈련과 DAC 스타일 추론 간의 근본적인 불일치를 드러내며, 이는 모델이 이러한 잠재력을 완전히 활용하는 능력을 제한합니다. 이러한 격차를 해소하고 가장 어려운 과제에서 LLM의 추론 능력을 완전히 개방하기 위해, 우리는 DAC 스타일 추론 능력을 향상시키기 위한 종단간 강화 학습(RL) 프레임워크를 제안합니다. 각 단계에서 정책은 문제를 일련의 하위 문제로 분해하고, 이를 순차적으로 해결하며, 하위 문제 솔루션을 조건으로 원래 문제를 해결하는데, 분해와 솔루션 모두 RL 훈련에 통합됩니다. 유사한 훈련 조건에서 우리의 DAC 스타일 프레임워크는 모델에 더 높은 성능 한계와 더 강력한 테스트 시 확장성을 부여하며, 경쟁 수준 벤치마크에서 Pass@1 기준 8.6%, Pass@32 기준 6.3%로 CoT를 능가했습니다.
텍스트-이미지(T2I) 생성 기술은 놀라운 발전을 이루었으나, 기존 방법들은 인간 창의성의 특징인 생성 과정에서의 동적 추론 및 정제 능력이 부족한 경우가 많습니다. 현재의 추론 강화 패러다임은 대부분 명시적 사고 과정에 의존하는데, 이는 중간 추론 결과를 고정된 단계에서 이산적 텍스트로 디코딩하고 빈번한 이미지 디코딩 및 재인코딩을 수행함으로써 비효율성, 정보 손실 및 인지적 불일치를 초래합니다. 이러한 격차를 해소하기 위해 우리는 암묵적 잠재 추론을 T2I 생성 과정에 원활하게 통합하는 새로운 프레임워크인 LatentMorph를 제안합니다. LatentMorph의 핵심에는 네 가지 경량 구성 요소가 있습니다: (i) 중간 생성 상태를 압축된 시각적 메모리로 요약하는 condenser, (ii) 잠재적 사고를 실행 가능한 지침으로 변환하는 translator, (iii) 다음 이미지 토큰 예측을 동적으로 조종하는 shaper, (iv) 추론 실행 시점을 적응적으로 결정하기 위해 강화학습으로 훈련된 invoker. LatentMorph는 추론을 연속적인 잠재 공간에서 완전히 수행함으로써 명시적 추론의 병목 현상을 피하고 더욱 적응적인 자기 정제를 가능하게 합니다. 광범위한 실험을 통해 LatentMorph가 (I) 기본 모델 Janus-Pro 대비 GenEval에서 16%, T2I-CompBench에서 25% 성능을 향상시키고, (II) WISE 및 IPV-Txt와 같은 추상적 추론 작업에서 명시적 패러다임(예: TwiG)을 각각 15%, 11% 능가하며, (III) 추론 시간을 44%, 토큰 소비량을 51% 절감하는 동시에, (IV) 추론 실행에 있어 인간의 직관과 71%의 인지적 일치도를 보여줌을 입증했습니다.
AI 에이전트의 장기적이고 복잡한 작업 처리 능력은 코딩, 심층 연구, 복잡한 문제 해결 평가에서 우수한 성능을 보이며 지속적으로 성장하고 있습니다. 그러나 일상적인 시나리오에서 일반 사용자들의 이러한 고급 AI 능력에 대한 인식은 여전히 제한적입니다. 본 논문은 현재의 평가가 과제 난이도 증가에 중점을 두는 반면, 다양한 인구통계의 일상적인 업무, 생활, 학습 활동을 포괄하는 데 필요한 에이전트 과제의 다양성을 충분히 다루지 못한다고 주장합니다. 이를 해결하기 위해 우리는 AgentIF-OneDay를 제안하며, 일반 사용자가 자연어 지시와 AI 에이전트를 활용하여 다양한 일상 과제를 완수할 수 있는지 확인하는 것을 목표로 합니다. 이러한 과제는 대화를 통한 문제 해결뿐만 아니라 다양한 첨부 파일 유형을 이해하고 구체적인 파일 기반 결과물을 제공하는 것을 요구합니다. 벤치마크는 사용자 중심의 세 가지 범주로 구성됩니다: 명시적이고 복잡한 워크플로우 준수를 평가하는 '개방형 워크플로우 실행', 첨부 파일에서 암묵적 지시사항을 추론해야 하는 '잠재적 지시', 그리고 진행 중인 작업을 수정하거나 확장하는 '반복적 정교화'입니다. 우리는 인스턴스 수준의 평가 기준과 LLM 기반 검증을 인간의 판단과 조정하는 정교한 평가 파이프라인을 활용하여 Gemini-3-Pro를 사용했을 때 80.1%의 일치율을 달성했습니다. AgentIF-OneDay는 767개의 채점 포인트를涵盖하는 104개의 과제로 구성됩니다. 우리는 4개의 주요 일반 AI 에이전트를 벤치마킹한 결과, API 기반으로 구축된 에이전트 제품과 에이전트 RL 기반의 ChatGPT 에이전트가 동시에 1티어를 유지하는 것을 확인했습니다. 선도적인 LLM API와 오픈소스 모델은 에이전트 능력을 내재화하여 AI 애플리케이션 팀이 최첨단 에이전트 제품을 개발할 수 있도록 합니다.
LLM 기반 에이전트가 점점 더 복잡한 현실 세계 환경에 배포됨에 따라, 기존 벤치마크는 전역 제약 조건 적용, 다중 도구 추론 조정, 장기적 다중 턴 상호작용에서 진화하는 사용자 행동에 적응하기와 같은 핵심 과제를 충분히 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 현실적인 여행 계획 시나리오를 기반으로 한 장기 종단 벤치마크인 TRIP-Bench를 소개합니다. TRIP-Bench는 실제 데이터를 활용하며, 18개의 정제된 도구와 40개 이상의 여행 요구 사항을 제공하고, 자동화된 평가를 지원합니다. 이 벤치마크는 다양한 난이도의 분할을 포함하는데, 특히 어려운 분할은 길고 모호한 상호작용, 스타일 변화, 실행 가능성 변경, 반복적인 버전 수정을 강조합니다. 대화는 최대 15개의 사용자 턴에 걸치며, 150회 이상의 도구 호출을 수반하고, 20만 토큰이 넘는 컨텍스트를 가질 수 있습니다. 실험 결과, 심지어 고도화된 모델들도 쉬운 분할에서 최대 50%의 성공률을 보였으며, 어려운 하위 집합에서는 성능이 10% 미만으로 떨어졌습니다. 우리는 더 나아가 특화된 보상 정규화 및 보상 차분을 통한 온라인 다중 턴 강화 학습 방법인 GTPO를 제안합니다. Qwen2.5-32B-Instruct에 적용된 GTPO는 제약 조건 충족률과 상호작용 견고성을 향상시켜, 우리의 평가에서 Gemini-3-Pro를 능가하는 성능을 보였습니다. 우리는 TRIP-Bench가 실용적인 장기 종단 상호작용 에이전트의 발전을 촉진하고, GTPO가 견고한 장기 종단 학습을 위한 효과적인 온라인 RL 방법론을 제공할 것으로 기대합니다.
플로우 매칭 모델(FMs)은 텍스트-이미지(T2I) 생성 분야에 혁명을 가져왔으며, 강화 학습(RL)은 보상 목표와의 정렬을 위한 핵심 사후 학습 전략으로 자리 잡았습니다. 본 연구에서는 FM용 기존 RL 파이프라인이 충분히 주목받지 못한 두 가지 중요한 한계, 즉 생성 다양성 부족으로 인한 샘플 비효율성과 모델이 특정 훈련용 프롬프트 형식을 암기하여 의미적으로 동등하지만 스타일리시하게 변형된 프롬프트에서 평가 시 극심한 성능 저하를 보이는 현저한 프롬프트 과적합을 겪고 있음을 보여줍니다. 우리는 플로우 기반 RL 최적화 루프 내에서 언어 모델(LMs)을 훈련 가능한 프롬프트 정제 에이전트로 직접 통합하는 프레임워크인 PromptRL(플로우 기반 이미지 생성을 위한 RL에서 중요한 프롬프트)을 제시합니다. 이 설계는 정교한 프롬프트 재작성 능력의 빠른 발전과, 무엇보다도 최적화 역학을 재구성하는 시너지 효과적인 훈련 체계라는 두 가지 상호 보완적인 이점을 제공합니다. PromptRL은 여러 벤치마크에서 최첨단 성능을 달성하여 GenEval에서 0.97, OCR 정확도에서 0.98, PickScore에서 24.05점을 획득했습니다. 또한, 우리는 대규모 이미지 편집 모델에 대한 우리의 RL 접근법의 효과성을 검증하여 FLUX.1-Kontext의 EditReward를 단 0.06백만 번의 롤아웃으로 1.19에서 1.43으로 향상시켰습니다. 이는 1.37점을 기록한 Gemini 2.5 Flash Image(일명 Nano Banana)를 능가하고, 세분화된 데이터 주석과 복잡한 다단계 훈련에 의존하는 ReasonNet(1.44)과 비슷한 성능을 달성했습니다. 우리의 광범위한 실험은 PromptRL이 순수 플로우만 사용한 RL 대비 2배 이상 적은 롤아웃을 요구하면서도 일관되게 더 높은 성능 한계에 도달함을 경험적으로 입증합니다. 우리의 코드는 https://github.com/G-U-N/UniRL에서 확인할 수 있습니다.
희소 오토인코더(SAE)는 신경망 표현을 해석하는 유망한 방법으로 부각되어 왔으며, 활성화를 사전 원자들의 희소 조합으로 분해합니다. 그러나 SAE는 특징들이 선형 재구성을 통해 가법적으로 결합된다는 가정을 하는데, 이는 구성적 구조를 포착할 수 없는 한계가 있습니다. 선형 모델은 '스타벅스'가 '별'과 '커피' 특징의 구성에서 비롯된 것인지, 아니면 단순히 그들의 동시 발생에서 비롯된 것인지 구분할 수 없습니다. 이로 인해 SAE는 복합 개념에 대해 단일적인 특징을 할당하게 되며, 이를 해석 가능한 구성 요소로 분해하지 못합니다. 본 연구에서는 PolySAE를 소개합니다. PolySAE는 해석 가능성에 필수적인 선형 인코더를 유지하면서 특징 상호작용을 모델링하기 위해 고차 항을 통해 SAE 디코더를 확장합니다. 공유 투영 부분 공간에 대한 낮은 계수 텐서 분해를 통해, PolySAE는 적은 매개변수 오버헤드(GPT2 기준 3%)로 쌍별 및 삼중 특징 상호작용을 포착합니다. 4개의 언어 모델과 3가지 SAE 변형에 걸친 실험에서 PolySAE는 비교 가능한 재구성 오차를 유지하면서 프로빙 F1 점수에서 평균 약 8%의 향상을 달성했으며, 클래스 조건부 특징 분포 간 2~10배 더 큰 바슈타인 거리를 생성했습니다. 중요한 것은, 학습된 상호작용 가중치가 동시 발생 빈도와 무시할 수 있는 상관관계(r = 0.06)를 보인 반면, SAE 특징 공분산은 높은 상관관계(r = 0.82)를 보여, 다항식 항이 형태소 결합 및 구문 구성과 같은 구성적 구조를 표면 통계와는 거의 독립적으로 포착함을 시사합니다.
대규모 추론 모델(LRM)은 도전적인 경쟁 수준 문제에 대한 훈련을 통해 상당한 이점을 얻습니다. 그러나 기존의 자동화된 문제 생성 방법은 정밀한 난이도 제어가 부족하고, 높은 계산 비용이 발생하며, 대규모로 경쟁 수준 문제를 생성하는 데 어려움을 겪습니다. 본 논문에서는 테스트 타임 스케일링을 통한 세분화된 난이도 제어와 문제 해결 가능성 보장을 가능하게 하는 새로운 프레임워크인 CoDiQ(Controllable Difficult Question Generation)를 제안합니다. 구체적으로, 먼저 테스트 타임 스케일링 경향(추론 토큰 예산 확장은 난이도를 높이지만 해결 가능성을 낮춤)과 모델이 유효한 고난이도 문제를 생성할 수 있는 능력의 상한을 정의하는 내재적 속성을 식별합니다. 그런 다음 Qwen3-8B로부터 CoDiQ-Generator를 개발하여, 어려운 문제 생성의 상한을 향상시키고 특히 도전적인 문제 구성에 적합하도록 만듭니다. CoDiQ 프레임워크를 기반으로 CoDiQ-Corpus(44K 규모의 경쟁 수준 문제 시퀀스)를 구축합니다. 인간 평가 결과, 이 문제들이 LiveCodeBench/AIME보다 훨씬 더 도전적이면서 82% 이상의 해결 가능성을 보여줍니다. CoDiQ-Corpus로 LRM을 훈련하면 추론 성능이 크게 향상되어, 난이도가 제어된 훈련 문제를 확장하는 것이 추론 능력을 강화함을 검증합니다. 관련 연구를 지원하기 위해 CoDiQ-Corpus, CoDiQ-Generator 및 구현 코드를 오픈소스로 공개합니다.
현대 음성 언어 모델(SpeechLM)을 스트리밍 환경에 배포하려면 낮은 지연 시간, 높은 처리량, 강력한 스트리밍 가능성 보장을 제공하는 시스템이 필요하다. 기존 시스템은 다양한 모델을 유연하고 효율적으로 지원하는 데 한계가 있다. 본 논문에서는 SpeechLM의 스트리밍 성능을 최적화하는 통합 서빙 시스템인 VoxServe를 제안한다. VoxServe는 모델 아키텍처와 시스템 수준 최적화를 분리하는 모델 실행 추상화를 도입하여 단일 프레임워크 내에서 다양한 SpeechLM 아키텍처를 지원할 수 있도록 한다. 이 추상화를 기반으로 VoxServe는 스트리밍 인식 스케줄링과 비동기 추론 파이프라인을 구현하여 엔드투엔드 효율성을 향상시킨다. 다양한 현대 SpeechLM에 대한 평가 결과, VoxServe는 유사한 지연 시간 대비 기존 구현 대비 10-20배 높은 처리량을 달성하면서도 높은 스트리밍 가능성을 유지하는 것으로 나타났다. VoxServe의 코드는 https://github.com/vox-serve/vox-serve에서 확인할 수 있다.
질의 기반 범용 음원 분리는 혼합 음원에서 특정 소리를 분리하는 것을 목표로 하는 지능형 청각 시스템의 핵심 기술입니다. 최근 발전에도 불구하고, 기존 방법들은 복잡한 음향 환경에서 잔여 간섭 문제를 지속적으로 겪고 있습니다. 이러한 성능 한계는 주로 데이터 병목 현상에서 비롯됩니다. 실제 환경 데이터셋은 약한 레이블과 심각한 사건 동시 발생 문제를 포함하고 있어, 모델이 강건한 음향 특징 대신 배경 잡음과 대상 범주 간의 허위 상관관계를 학습하게 만듭니다. 이를 해결하기 위해 우리는 의미론적으로 일관된 합성 프로토콜을 통해 실제 환경 데이터셋에서 고순도 단일 사건 세그먼트를 추출하여 사건 동시 발생을 제거하는 자동화 파이프라인을 제안합니다. 이 파이프라인을 활용하여 2,400시간의 원시 오디오로 구성된 고품질 합성 데이터셋인 Hive를 구축했습니다. 실험 결과, Hive보다 500배 큰 데이터셋으로 훈련된 최첨단 모델인 SAM-Audio와 비교했을 때, Hive로 훈련된 특정 오픈소스 모델들이 경쟁력 있는 분리 정확도와 지각적 품질을 달성함을 확인했습니다. 더 나아가 이러한 모델들은 분포 외 평가 벤치마크에서 뛰어난 제로샷 일반화 성능을 보였습니다. 이러한 결과는 지도 신호의 순도에 주목함으로써 데이터 효율성을 크게 높일 수 있음을 시사하며, 계산 비용을 절감하면서 강건한 청각 기초 모델을 훈련하는 새로운 패러다임을 제시합니다. 코드와 데이터셋은 https://shandaai.github.io/Hive에서 이용할 수 있습니다.
멀티모달 대규모 언어 모델(MLLM)은 특히 고해상도 및 비디오 기반 시나리오에서 과도한 시각 토큰으로 인해 높은 계산 비용 문제를 겪고 있습니다. 기존 토큰 감소 방법은 일반적으로 개별 파이프라인 구성 요소에 집중하고 텍스트 정합성을 간과하는 경우가 많아 성능 저하를 초래합니다. 본 논문에서는 훈련 없이 적용 가능한 MLLM 가속화를 위한 통합 프레임워크인 VisionTrim을 제안합니다. 이 프레임워크는 두 가지 효과적인 플러그인 플레이 모듈을 통합합니다: 1) 글로벌-로컬 뷰를 통해 핵심 시각 토큰을 보존하는 Dominant Vision Token Selection(DVTS) 모듈과 2) 텍스트 단서에 기반한 컨텍스트 인식 토큰 병합을 용이하게 하는 Text-Guided Vision Complement(TGVC) 모듈입니다. 다양한 이미지 및 비디오 멀티모달 벤치마크에서 수행한 폭넓은 실험을 통해 우리의 VisionTrim이 성능 우수성을 입증하며, 실제 응용 프로그램에서의 실용적인 MLLM 배치를 앞당기고 있음을 보여줍니다. 코드는 https://github.com/hanxunyu/VisionTrim에서 확인할 수 있습니다.
월드 모델은 환경 역학의 내부 표현을 학습하여 에이전트가 계획, 예측, 추론과 같은 작업을 위해 컴팩트한 잠재 공간 내에서 미래 상태를 시뮬레이션하고 추론할 수 있도록 합니다. 그러나 월드 모델의 운영에는 높은 계산 비용과 메모리 사용량이 필요하여 효율적인 배포를 위한 모델 양자화가 필수적입니다. 현재까지 훈련 후 양자화(PTQ)가 월드 모델에 미치는 영향은 거의 연구되지 않았습니다. 본 연구에서는 대표적인 사례인 DINO-WM을 사용하여 월드 모델 양자화에 대한 체계적인 실증 연구를 제시하며, 가중치 전용 및 가중치-활성화 결합 설정에서 다양한 PTQ 방법을 평가합니다. 다양한 비트 폭, 양자화 세분성, 최대 50회 반복에 이르는 계획 범위를 아우르는 다양한 시각적 계획 작업에 대해 광범위한 실험을 수행합니다. 결과에 따르면 월드 모델의 양자화 효과는 정확도와 비트 폭 간의 표준 절충점을 넘어선다: 그룹 단위 가중치 양자화는 저비트 롤아웃을 안정화할 수 있으며, 활성화 양자화 세분성은 일관되지 않은 이점을 제공하고, 양자화 민감도는 인코더와 예측 모듈 간에 높은 비대칭성을 보인다. 또한 공격적인 저비트 양자화는 계획 목표와 작업 성공 간의 정렬을 크게 저하시켜 추가 최적화로 해결할 수 없는 실패를 초래합니다. 이러한 발견들은 월드 모델 기반 계획에서 발생하는 독특한 양자화 유발 실패 모드를 밝히며, 엄격한 계산 제약 조건에서 양자화된 월드 모델을 배포하기 위한 실용적인 지침을 제공합니다. 코드는 https://github.com/huawei-noah/noah-research/tree/master/QuantWM에서 공개될 예정입니다.
대규모 언어 모델(LLM)은 프롬프팅을 통해 레퍼런스 없이 평가를 수행하는 평가자로 널리 사용되지만, 이러한 "LLM-as-a-Judge" 패러다임은 비용이 높고 불투명하며 프롬프트 설계에 민감한 한계가 있다. 본 연구에서는 더 작은 모델이 표면적 생성이 아닌 내부 표현을 활용하여 효율적인 평가자 역할을 할 수 있는지 조사한다. 우리는 일관된 실증적 패턴을 발견했다: 생성 능력이 약한 소형 언어 모델도 은닉 상태에 풍부한 평가 신호를 인코딩한다는 것이다. 이는 우리가 '의미적 능력 비대칭 가설(Semantic Capacity Asymmetry Hypothesis)'을 제안하는 동기가 되었는데, 즉 평가는 생성에 비해 상당히 적은 의미적 능력을 요구하며 중간 표현에 기반할 수 있다는 것이다. 이는 평가가 반드시 대규모 생성 모델에 의존할 필요 없이, 더 작은 모델의 잠재적 특징을 활용할 수 있음을 시사한다. 우리의 발견은 LLM-as-a-Judge 패러다임에서 'Representation-as-a-Judge' 패러다임으로의 전환을 촉진한다. 이는 디코딩이 필요 없는 평가 전략으로, 프롬프트 기반 출력에 의존하기보다 모델의 내부 구조를 탐색한다. 우리는 INSPECTOR라는 프로빙 기반 프레임워크를 통해 이 패러다임을 구체화했으며, 소형 모델의 표현으로부터 세부 항목별 평가 점수를 예측한다. 추론 벤치마크(GSM8K, MATH, GPQA)에서의 실험 결과, INSPECTOR는 프롬프팅 기반 소형 언어 모델을 크게 능가하고 완전한 LLM 평가자에 근접한 성능을 보였으며, 확장 가능한 평가를 위한 더 효율적이고 신뢰할 수 있으며 해석 가능한 대안을 제공한다.
에이전트적 대규모 언어 모델에게 기대되는 자율성은 정답을 제공하는 것을 넘어 목표를 스스로 설정하고 탐구할 내용을 결정하는 독립성을 요구합니다. 우리는 이를 '탐구적 지능'으로 명명하며, 단순히 주어진 과제를 수행하는 '실행적 지능'과 구별합니다. 데이터 과학은 실제 분석이 명시적 질의가 아닌 원시 데이터에서 시작된다는 점에서 자연스러운 실험장을 제공하지만, 이를 중점으로 한 벤치마크는 많지 않습니다. 이 문제를 해결하기 위해 우리는 LLM이 데이터베이스에서 핵심 인사이트를 자율적으로 추출하는 개방형 과제인 DDR(Deep Data Research)과 검증 가능한 평가가 가능한 대규모 체크리스트 기반 벤치마크인 DDR-Bench을 소개합니다. 결과에 따르면 최첨단 모델들이 초기 단계의 자율성을 보여주지만, 장기적인 탐구는 여전히 어려운 과제로 남아 있습니다. 우리의 분석은 효과적인 탐구적 지능이 에이전트 구조나 단순한 규모 확장뿐만 아니라 에이전트 모델의 내재적 전략에 달려 있음을 강조합니다.
대규모 시각-언어 모델(LVLM)은 단일 이미지 작업에서 강력한 성능을 보이지만, 다중 이미지가 입력으로 제공될 경우 성능이 저하됩니다. 주요 원인 중 하나는 교차 이미지 정보 누출로, 모델이 서로 다른 이미지 간 정보를 구분하는 데 어려움을 겪기 때문입니다. 기존 LVLM은 이미 각 이미지의 시작과 끝을 표시하는 구분자 토큰을 사용하고 있으나, 우리의 분석 결과 이러한 토큰들이 교차 이미지 정보 누출을 효과적으로 차단하지 못하는 것으로 나타났습니다. 이들의 효과를 향상시키기 위해 우리는 구분자 토큰의 은닉 상태를 스케일링하는 방법을 제안합니다. 이는 이미지 내 상호작용을 강화하고 원치 않는 이미지 간 상호작용을 제한함으로써 모델의 이미지별 정보 보존 능력을 증대시킵니다. 그 결과 모델은 이미지 간 구별을 더 잘 수행하고 더 정확하게 추론할 수 있게 됩니다. 실험 결과 Mantis, MuirBench, MIRB, QBench2와 같은 다중 이미지 벤치마크에서 성능 향상을 확인했습니다. 또한 우리는 명확한 구분이 필요한 텍스트 전용 작업에 대해서도 본 방법을 평가했습니다. 이 방법은 TQABench, MultiNews, WCEP-10을 포함한 다중 문서 및 다중 테이블 이해 벤치마크에서 성능을 개선했습니다. 특히 우리의 방법은 추가적인 학습 또는 추론 비용이 필요하지 않습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 큰 잠재력을 보여주고 있습니다. 그러나 RLVR 과정에서 제공되는 정보량이 제한적이기 때문에 모델은 대체로 무계획적인 탐색만 수행할 수 있으며, 이는 종종 난해한 문제에서 실패로 이어집니다. 교사 모델에 의존하지 않고 RLVR 과정에 추가 정보를 제공하기 위해, 우리는 RLVR의 효과를 높이는 적응형 능력 분해 방법인 A^2D를 제안합니다. 구체적으로, 우리는 먼저 지식 증류 없이 RLVR을 통해 분해기를 학습시켜 복잡한 질문을 더 단순한 하위 질문 집합으로 분해할 수 있도록 합니다. 다음으로, 이 분해기를 사용하여 훈련 데이터셋의 각 질문에 대한 하위 질문을 주석 처리하고, 하위 질문의 지도를 받는 RLVR 하에서 추론기를 학습시킵니다. A^2D를 더 잘 이해하기 위해, 먼저 그 성능을 경쟁력 있는 베이스라인과 비교하여 효과성을 입증합니다. 다음으로, 우리의 방법이 다양한 RLVR 알고리즘에 적용 가능한 플러그 앤 플레이 모듈로 기능함을 확인합니다. 더 나아가 분해기에 대한 분석을 수행하여 RLVR 과정이 그 성능과 행동에 어떤 영향을 미치는지, 그리고 어떤 유형의 지도가 추론기의 탐색 및 활용 능력 향상에 더 적합한지 밝혀냅니다.
다중 뷰 RGB 이미지로부터의 3D 라인 매핑은 장면을 압축적이고 구조화된 시각적 표현으로 제공합니다. 우리는 이 문제를 물리적 및 위상적 관점에서 접근합니다: 3D 라인은 가장 자연스럽게 유한한 3D 평면 패치의 경계로 나타납니다. 우리는 학습 가능한 라인 및 평면 기본 요소를 명시적으로 모델링하는 라인-평면 공동 최적화 프레임워크인 LiP-Map을 제시합니다. 이러한 결합은 강력한 효율성(일반적으로 장면당 3~5분 내 재구성 완료)을 유지하면서 정확하고 세부적인 3D 라인 매핑을 가능하게 합니다. LiP-Map은 평면 위상을 3D 라인 매핑에 통합한 선도적인 방법으로, 쌍별 공평면성 제약을 부과하는 대신 평면과 라인 기본 요소 간의 상호작용을 명시적으로 구축함으로써 인공 환경에서의 구조화된 재구성을 위한 원칙적인 경로를 제공합니다. ScanNetV2, ScanNet++, Hypersim, 7Scenes 및 Tanks&Temple의 100개 이상의 장면에서 LiP-Map은 최첨단 방법들 대비 정확도와 완성도 모두에서 향상된 성능을 보입니다. 라인 매핑 품질을 넘어, LiP-Map은 라인 지원 시각적 위치 추정을 크게 발전시켜 7Scenes에서 강력한 성능을 입증합니다. 재현 가능한 연구를 위해 우리의 코드는 https://github.com/calmke/LiPMAP 에 공개되었습니다.
최근 연구에 따르면 레이어 프루닝(layer pruning)을 통해 대규모 언어 모델(LLM)을 압축하면서도 미세 조정을 거의 또는 전혀 수행하지 않고도 분류 벤치마크에서 강력한 성능을 유지할 수 있음이 입증되었습니다. 그러나 기존 프루닝 기술은 생성형 추론 작업에서 심각한 성능 저하를 겪는 경우가 많습니다. 여러 모델 패밀리를 대상으로 한 체계적인 연구를 통해, 다단계 추론이 필요한 작업이 특히 깊이 감소에 민감함을 발견했습니다. 표면적인 텍스트 변질을 넘어서, 수학적 추론을 위한 산술 연산 및 코드 합성을 위한 균형 잡힌 괄호 생성과 같은 중요한 알고리즘 능력의 저하가 관찰됩니다. 사전 학습 규모의 데이터나 컴퓨팅 자원에 접근할 수 없는 현실적인 사후 학습 제약 조건 하에서, 우리는 자기 생성 응답을 활용한 지도 미세 조정 기반의 단순한 완화 전략을 평가합니다. 이 접근법은 분류 작업에서 기준 성능의 최대 90%를 유지하며 강력한 회복력을 달성하고, 기존 사후 프루닝 기술 대비 생성 벤치마크에서 최대 20-30% 포인트의 상당한 성능 향상을 가져옵니다. 결정적으로, 이러한 향상에도 불구하고 생성형 추론의 회복은 분류 작업에 비해 근본적으로 제한적이며 주로 낮은 프루닝 비율에서만 실현 가능합니다. 전반적으로, 우리는 생성형 추론을 위한 레이어 프루닝의 실용적 한계를 규명하고, 제한된 사후 학습 환경에서 깊이 감소를 효과적으로 적용할 수 있는 조건에 대한 지침을 제시합니다.
지식 증류는 대규모 교사 모델의 추론 능력을 효율적인 학생 모델로 전이시키는 유망한 방법이지만, 기존의 토큰 수준 온-폴리시 증류 방법은 학생 모델과 교사 모델 간의 토큰 수준 정렬을 요구합니다. 이는 학생 모델의 탐색 능력을 제한하고, 상호작용 환경 피드백의 효과적 활용을 방해하며, 강화 학습에서 심각한 메모리 병목 현상을 초래합니다. 본 연구에서는 온-폴리시 언어적 증류(On-policy Verbal Distillation, OVD)를 소개합니다. 이는 토큰 수준 확률 매칭을 교사 모델의 이산적 언어 점수(0-9)를 활용한 경로 매칭으로 대체하는 메모리 효율적인 프레임워크입니다. OVD는 메모리 소비를 극적으로 줄이면서 언어적 피드백을 통한 교사 모델의 온-폴리시 증류를 가능하게 하며, 토큰 수준 정렬을 회피하여 학생 모델이 출력 공간을 자유롭게 탐색할 수 있도록 합니다. 웹 질의응답 및 수학적 추론 과제에 대한 폭넓은 실험 결과, OVD는 기존 방법들을 크게 능가하여 웹 Q&A 과제에서 평균 EM 기준 최대 12.9% 절대적 향상, 수학 벤치마크에서 최대 25.7% 향상(무작위 샘플 1개만으로 학습 시)을 보였으며, 동시에 뛰어난 학습 효율성을 나타냈습니다. 프로젝트 페이지는 https://OVD.github.io에서 확인할 수 있습니다.
추론 시 계산(compute)은 LLM 추론 성능을 향상시키는 실용적인 방법으로 다시 부각되고 있습니다. 대부분의 테스트 타임 스케일링(TTS) 알고리즘은 자기회귀 디코딩에 의존하는데, 이는 전체 시퀀스에 대해 병렬 디코딩을 수행하는 이산 확산 언어 모델(dLLM)에는 적합하지 않습니다. 그 결과 dLLM의 전체 생성 잠재력을 끌어내기 위한 효과적이고 효율적인 TTS 방법 개발은 아직 충분히 탐구되지 않은 과제로 남아 있습니다. 이를 해결하기 위해 우리는 dLLM을 위한 효율적인 TTS 프레임워크인 Prism(Pruning, Remasking, and Integrated Self-verification Method)을 제안합니다. Prism은 (i) 초기부터 중간 디노이징 창에서 계산을 동적으로 가지치기하고 재배치하는 계층적 궤적 탐색(HTS)을 수행하며, (ii) 높은 신뢰도를 가진 토큰을 보존하면서 다양한 구현을 탐색하기 위해 부분 재마스킹과 함께 지역 분기(Local branching)를 도입하고, (iii) 외부 검증기를 중간 완성본에 대한 자기 평가 프롬프트를 통해 얻은 자체 검증 피드백(SVF)으로 대체합니다. LLaDA 8B Instruct, Dream 7B Instruct, LLaDA 2.0-mini를 포함한 세 가지 dLLM에 대한 네 가지 수학적 추론 및 코드 생성 벤치마크에서 우리의 Prism은 유리한 성능-효율성 트레이드오프를 달성하며, 최고의 N-샘플링(Best-of-N) 성능을 훨씬 더 적은 함수 평가 횟수(NFE)로 일치시켰습니다. 코드는 https://github.com/viiika/Prism에서 공개되었습니다.
대규모 언어 모델(LLM)이 인공 지능 분야의 주요 발전으로 부상했지만, LLM 훈련에 필요한 하드웨어 및 계산 비용 역시 상당히 부담스럽다. 최신 최적화 도구(optimizer) 중 AdamW는 대각선 곡률 추정에 의존하여 구조적 특성을 무시하는 한편, Muon은 곡률 정보 손실을 대가로 전역 스펙트럼 정규화를 적용한다. 본 연구에서는 기존 매니폴드 최적화 방법이 대규모 모델 최적화에서 낮은 성능으로 인해 크게 간과되어 왔음에도 불구하고, 양 최적화 도구의 한계를 동시에 해결할 수 있는 매니폴드 최적화 방법을 LLM 훈련에 재조명하였다. 모델 매개변수의 접공간(tangent space)으로 모멘텀을 혁신적으로 투영하고 이를 회전 Oblique 매니폴드 위에 구속함으로써, 우리는 매니폴드 최적화와 현대적 최적화 도구 간의 성능 격차를 최초로 해소한 강력하고 효율적인 새로운 최적화 도구 **Mano**를 제안한다. LLaMA 및 Qwen3 모델에 대한 광범위한 실험 결과, Mano는 각각 더 적은 메모리 소비와 계산 복잡도로도 AdamW 및 Muon을 지속적이고 현저히 능가하는 것으로 나타나, 공간 및 시간 효율성 측면에서 확장된 파레토 프론티어(Pareto frontier)를 제시한다.
확산 트랜스포머는 비디오 및 이미지 생성의 핵심 기술이지만, 어텐션의 이차 복잡도로 인해 효율성에 병목 현상이 발생합니다. 블록 희소 어텐션은 중요한 키-값 블록만 참조하여 계산 속도를 높이지만, 높은 희소도에서 컨텍스트를 제거함으로써 성능 저하가 발생합니다. 본 연구에서는 비중요 블록의 어텐션 점수가 분포적 안정성을 보여, 제거되지 않고 정확하고 효율적으로 근사될 수 있음을 발견했습니다. 이는 희소 어텐션 설계에 매우 중요한 통찰입니다. 이러한 핵심 통찰을 바탕으로, 우리는 부분 이차 복잡도로 전체 어텐션 범위를 커버하는 학습 불필요 방식인 PISA(Piecewise Sparse Attention)를 제안합니다. 비중요 블록 정보를 직접 제거하는 기존의 유지-또는-삭제 패러다임과 달리, PISA는 정확-또는-근사라는 새로운 전략을 도입합니다: 중요한 블록은 정확하게 계산하되, 나머지 블록은 블록 단위 테일러 확장을 통해 효율적으로 근사합니다. 이 설계는 PISA가 전체 어텐션의 충실한 대리자 역할을 하여 속도와 품질 간의 격차를 효과적으로 해결합니다. 실험 결과, PISA는 Wan2.1-14B와 Hunyuan-Video에서 각각 1.91배, 2.57배의 속도 향상을 달성하면서도 희소 어텐션 방법 중 가장 높은 품질을 일관되게 유지했습니다. 특히 FLUX의 이미지 생성에서도 PISA는 시각적 품질을 저하시키지 않고 1.2배의 가속을 달성했습니다. 코드는 https://github.com/xie-lab-ml/piecewise-sparse-attention에서 확인할 수 있습니다.
우리는 표현 기하학과 신경망 성능 간의 관계를 조사한다. 13개 아키텍처 패밀리에서 사전 학습된 52개의 ImageNet 모델을 분석하여, 비지도 기하학적 메트릭인 유효 차원이 정확도를 강력하게 예측함을 보여준다. 모델 용량을 통제한 후 출력 유효 차원은 부분 상관 r=0.75 (p < 10^(-10))를 달성하는 반면, 전체 압축률은 부분 상관 r=-0.72를 달성한다. 이러한 결과는 ImageNet과 CIFAR-10에서 재현되며 NLP로 일반화된다: 유효 차원은 SST-2/MNLI의 8개 인코더 모델과 AG News의 15개 디코더 전용 LLM에 대한 성능을 예측하지만(r=0.69, p=0.004), 모델 크기는 그렇지 않다(r=0.07). 우리는 양방향 인과 관계를 입증한다: 노이즈를 통한 기하학 저하는 정확도 손실을 초래하며(r=-0.94, p < 10^(-9)), PCA를 통한 기하학 개선은 아키텍처 전반에 걸쳐 정확도를 유지한다(분산 95%에서 -0.03pp). 이 관계는 노이즈 유형에 무관하다 — 가우시안, 균일, 드롭아웃, 솔트 앤 페퍼 노이즈 모두 |r| > 0.90을 보인다. 이러한 결과는 유효 차원이 레이블 없이 완전히 계산되면서 신경망 성능에 대한 도메인 무관 예측 및 인과 정보를 제공함을 입증한다.
강화 학습은 대규모 언어 모델의 사후 학습에 핵심적인 역할을 담당하게 되었으나, 주류 알고리즘들은 규모 확장 시 최적화 문제(기울기 소실 영역, 보상 해킹, 학습 불안정성 등)를 유발하는 클리핑 기법에 의존해왔습니다. 본 연구에서는 휴리스틱 클리핑을 총변이 거리 제약에서 유도된 볼록 이차 패널티로 대체하는 클리핑 프리 정책 최적화를 제안합니다. 이를 통해 하드 경계 없이도 안정적인 정책 업데이트를 보장하며 모든 구간에서 미분 가능한 목적 함수를 얻었습니다. 우리는 CFPO를 추론 및 정렬 설정 전반에 걸쳐 평가했습니다. 추론 과제에서는 하류 벤치마크에서 클리핑 기반 방법과 성능을 맞추면서도 안정적인 학습 영역을 확장했습니다. 정렬 과제에서는 지시 따르기 성능에서 경쟁력 있는 결과를 유지하면서도 장황성 악용을 완화하고 능력 저하를 줄였습니다. CFPO는 단 한 줄의 코드 변경만으로 추가 하이퍼파라미터 없이 적용 가능합니다. 우리의 결과는 CFPO가 LLM 사후 학습을 위한 클리핑 기반 방법의 유력한 대체제가 될 수 있음을 시사합니다.
기존 도구 통합 추론(TIR) 모델은 외부 도구를 활용하여 LLM의 질의응답 능력을 효과적으로 확장해왔습니다. 그러나 현실 세계의 다양한 개방형 문제 상황에서는 고정된 도구로는 작업 요구사항을 충족하기 어려운 경우가 빈번합니다. 더욱이 자기 최적화 메커니즘이 부재하여 도구의 오류 출력이 LLM의 응답을 왜곡할 수 있습니다. 또한 기존 도구 구축에는 상당한 수작업이 필요하므로 적용 범위가 제한됩니다. 본 연구는 LLM의 추론 흔적이 내재된 문제 해결 능력을 함축하고 있다는 점에 주목하여, 에이전트를 단순 도구 사용자에서 도구 창조자로 전환하는 새로운 학습 없는 프레임워크인 UCT를 제안합니다. 이 접근법은 추론 경험을 수집하여 재사용 가능한 자산으로 정제합니다. 이를 통해 에이전트는 추론 과정에서 적응형 도구 생성과 자기 업데이트가 가능해집니다. 또한 도구 라이브러리 관리를 위한 메모리 통합 메커니즘을 도입하여 후속 추론 작업에 대한 경험적 메모리의 높은 재사용성을 보장합니다. 이러한 새로운 자동화 도구 구축 패러다임은 추론 과정에서 도구 품질을 지속적으로 개선함으로써 추가 학습 없이 전체 에이전트 시스템의 진화를 가능하게 합니다. 다양한 실험을 통해 본 방법이 TIR 모델의 능력 향상을 위한 새로운 패러다임으로 기능함을 입증했습니다. 특히 다중 도메인 수학 및 과학 추론 벤치마크에서 각각 +20.86%↑, +23.04%↑의显著한 성능 향상을 달성하여 에이전트의 자기 진화 능력을 검증했습니다.
문화적 인식을 갖춘 안전장치는 현실 세계에서의 AI 정렬에 핵심적이며, 여기서 안전은 상식의 범위를 넘어 다양한 지역적 가치, 규범, 그리고 특정 지역의 규정을 포괄합니다. 그러나 대규모의 문화적 토대를 갖춘 데이터셋을 구축하는 것은 제한된 자원과 원어민 주해자의 부족으로 인해 어려운 과제입니다. 그 결과 많은 안전장치 모델이 영어 데이터셋의 기계 번역에 의존하며, 이는 종종 지역적이고 문화적 세부 뉘앙스를 놓치게 됩니다. 본 연구는 동남아시아(SEA)를 위한 진정성 있고 지역 특화된 안전 데이터셋을 확장 가능하게 생성하기 위한 새로운 에이전트 기반 데이터 생성 프레임워크를 제시합니다. 이를 기반으로 우리는 SEA 문화적 맥락에 기반한 최초의 다국어 안전장치 모델 패밀리인 SEA-Guard를 소개합니다. 다중 벤치마크와 문화적 변형 평가에서 SEA-Guard는 강력한 일반 안전 성능을 유지하면서 지역적으로 민감하거나 유해한 콘텐츠를 탐지하는 데 기존 안전장치들을 지속적으로 능가하는 성과를 보였습니다.
강화 학습은 대규모 언어 모델의 추론 능력을 향상시키지만, 롤아웃 집약적 최적화로 인해 높은 계산 비용이 수반되는 경우가 많습니다. 온라인 프롬프트 선택은 정보성이 높은 프롬프트에 우선순위를 부여하여 훈련 효율성을 개선하는 타당한 해결책을 제시합니다. 그러나 기존 방법들은 비용이 많이 드는 정확한 평가에 의존하거나, 프롬프트 간 일반화가 부족한 프롬프트 특정 예측 모델을 구축하는 한계가 있습니다. 본 연구는 공유된 최적화 이력으로 훈련된 경량 생성 모델을 사용하여 프롬프트 난이도에 대한 베이즈 추론을 수행하는 일반화 가능 예측 프롬프트 선택(GPS)을 소개합니다. 중간 난이도 우선순위 지정과 이력 기반 다양성 배치 획득 원칙에 통합되어 정보성이 높은 프롬프트 배치를 선택합니다. 소형 예측 모델은 효율적인 계산 자원 할당을 위한 테스트 시점 일반화 기능도 제공합니다. 다양한 추론 벤치마크에서의 실험 결과, GPS가 우수한 기준 방법 대비 훈련 효율성, 최종 성능, 테스트 시점 효율성에서 상당한 향상을 보여줍니다.
서론. AI 윤리는 행위자와 이해관계자 집단에 따라 뚜렷이 다르게 구성된다. 본 연구는 OpenAI의 윤리적 AI 담론 사례 분석 결과를 보고한다. 방법론. 연구는 다음과 같은 문제를 다루었다: 시간에 따라 OpenAI의 공개 담론이 '윤리', '안전', '정렬' 및 이와 유사한 관련 개념을 어떻게 활용해 왔으며, 이러한 담론이 실무상의 구성 방식을 무엇으로 신호하는가? 일반 대중을 위한 커뮤니케이션과 학계 대상 커뮤니케이션을 구분한 구조화된 코퍼스를 공개 문서에서 조립하였다. 분석. 윤리적 주제에 대한 질적 내용 분석은 귀납적으로 도출된 코드와 연역적으로 적용된 코드를 결합하였다. 양적 분석은 NLP를 통한 계산적 내용 분석 방법을 활용하여 주제를 모델링하고 시간에 따른 수사적 변화를 정량화하였다. 집계 결과는 시각화하여 보고된다. 재현 가능한 결과를 위해 코드를 https://github.com/famous-blue-raincoat/AI_Ethics_Discourse 에 공개하였다. 결과. 결과에 따르면 안전과 위험 담론이 OpenAI의 공개 커뮤니케이션과 문서화를 지배하고 있으며, 학계 및 옹호 단체의 윤리 프레임워크나 어휘는 적용되지 않고 있다. 결론. 거버넌스에 대한 함의와 함께 산업계의 윤리 회피 관행에 대한 논의를 제시한다.
대규모 언어 모델(LLM)은 에이전트 성능을 평가하는 판단자로 점차 더 많이 활용되고 있으며, 특히 사고 연쇄(CoT) 추론을 포함한 에이전트 궤적에 의존해야 하는 검증 불가능한 환경에서 두드러집니다. 이러한 패러다임은 에이전트의 CoT가 그 내부 추론과 기저 환경 상태를 충실히 반영한다는 가정에 암묵적으로 의존합니다. 본 연구는 이러한 가정이 취약함을 보여줍니다: LLM 판단자는 에이전트 추론 흔적의 조작에 극도로 취약합니다. 에이전트의 행동과 관측치는 고정한 채 CoT를 체계적으로 재작성함으로써, 조작된 추론만으로도 다양한 웹 작업을 아우르는 800개 궤적에 걸쳐 최신 VLM 판단자의 위양성률을 최대 90%까지 부풀림 수 있음을 입증합니다. 우리는 추론의 표현만을 변경하는 스타일 기반 접근법과 작업 진행의 신호를 조작하는 내용 기반 접근법에 걸친 조작 전략을 연구했으며, 내용 기반 조작이 일관되게 더 효과적임을 발견했습니다. 프롬프팅 기반 기법과 판단 시점 연산 자원 확대를 평가한 결과, 이들은 조작에 대한 취약성을 완화시키지만 완전히 제거하지는 못했습니다. 우리의 연구 결과는 LLM 기반 평가의 근본적인 취약점을 드러내고, 관찰 가능한 증거에 대해 추론 주장을 검증하는 판단 메커니즘이 필요함을 강조합니다.
최신 딥러닝 기반 이미지 인페인팅은 사실적인 지역적 이미지 조작을 가능하게 하여 신뢰할 수 있는 탐지에 중요한 과제를 제기합니다. 그러나 우리는 현재 탐지기들이 주로 지역적으로 합성된 콘텐츠보다는 인페인팅의 부작용으로 나타나는 전역적 아티팩트에 의존한다는 점을 관찰했습니다. 우리는 VAE 기반 복원이 비편집 영역을 포함한 이미지 전체에 걸쳐 미세하지만 광범위한 스펙트럼 이동을 유발하기 때문에 이러한 현상이 발생함을 보여줍니다. 이 효과를 분리하기 위해 우리는 편집 영역 밖의 원본 픽셀을 복원하면서 모든 합성된 콘텐츠는 보존하는 Inpainting Exchange(INP-X) 연산을 소개합니다. 우리는 이 현상을 평가하기 위해 실제, 인페인팅된, 교환된 이미지를 포함하는 90K 규모의 테스트 데이터셋을 구축했습니다. 이러한 개입 하에서 상용 탐지기를 포함한 사전 훈련된 최첨단 탐지기들의 정확도는 극적으로 하락하며(예: 91%에서 55%로), 종종 우수준에 근접하는 모습을 보입니다. 우리는 VAE 정보 병목 현상으로 인한 고주파수 감쇠와 이 행동을 연결하는 이론적 분석을 제공합니다. 우리의 연구 결과는 콘텐츠 인식 탐지의 필요성을 강조합니다. 실제로, 우리의 데이터셋으로 훈련하면 표준 인페인팅 데이터보다 더 나은 일반화 성능과 지역화 정확도를 얻을 수 있습니다. 우리의 데이터셋과 코드는 https://github.com/emirhanbilgic/INP-X 에서 공개되어 있습니다.
다중 에이전트 시스템은 과학적 발견을 자동화하는 강력한 패러다임으로 부상했습니다. 현재의 다중 에이전트 시스템 프레임워크는 에이전트 행동을 차별화하기 위해 일반적으로 '검토자'나 '작성자'와 같은 일반적인 역할 기반 페르소나를 할당하거나, 거시적인 키워드 기반 페르소나에 의존합니다. 이러한 접근 방식은 기능적이지만, 각자의 고유한 연구 궤적으로 기여도가 결정되는 인간 과학자의 운영 방식을 지나치게 단순화합니다. 이에 대응하여 우리는 INDIBATOR를 제안합니다. 이는 분자 발견을 위한 프레임워크로, 두 가지 양식(문헌 기반 지식을 위한 출판 이력, 구조적 사전 정보를 위한 분자 이력)으로 구성된 개별화된 과학자 프로필에 에이전트를 기반하게 합니다. 이러한 에이전트는 제안, 비판, 투표 단계를 거쳐 다중 턴 토론에 참여합니다. 우리의 평가 결과, 이러한 세분화된 개별성에 기반한 에이전트는 거시적 페르소나에 의존하는 시스템보다 consistently 우수한 성능을 보이며 경쟁력 있거나 최첨단 성능을 달성함을 입증했습니다. 이러한 결과는 개별 에이전트의 '과학적 DNA'를 포착하는 것이 고품질 발견에 필수적임을 검증합니다.
범용 오픈도메인 고밀도 검색 시스템은 일반적으로 방대하고 다양한 코퍼스와 검색 작업을 혼합하여 학습됩니다. 이러한 다양한 코퍼스와 작업을 학습에 사용하기 위해 어떻게 샘플링해야 할까요? 기존 접근법은 인스턴스 규모에 비례하여 균일하게 샘플링하거나 인간 수준의 전문가 감독에 의존해왔습니다. 학습 데이터 샘플링 전략이 모델 성능에 큰 영향을 미친다는 것은 잘 알려져 있습니다. 그러나 임베딩 모델 맥락에서 최적의 전략을 찾는 방법은 충분히 연구되지 않았습니다. 본 연구에서는 영향도 기반 보상 신호에 따라 학습 데이터셋의 가중치를 적응적으로 재조정하며 GPU 소비 측면에서 훨씬 더 가벼운 새로운 강화 학습 기반 샘플링 프레임워크인 Inf-DDS를 제안합니다. 우리의 기법은 샘플링 정책을 반복적으로 개선하여 타겟 개발 세트에서 모델 성능을 극대화하는 데이터셋을 우선적으로 선택합니다. 다양한 텍스트 검색 작업에 대한 우리의 샘플링 전략 효율성을 평가한 결과, 기존 그래디언트 기반 샘플링 방법 대비 검색 성능이 크게 향상되고 적응력이 더 우수하며 GPU 연산 비용이 1.5배에서 4배까지 저렴함을 입증했습니다. 우리의 샘플링 전략은 다국어 bge-m3 모델 학습 시 NDCG@10에서 5.03의 절대적 향상을, all-MiniLM-L6-v2 모델 학습 시 NDCG@10에서 0.94의 절대적 향상을 달성했으며, 이는 대규모 학습 데이터셋 풀에 전문가가 할당한 가중치에서 시작한 경우에도 마찬가지였습니다.
대규모 언어 모델(LLM)의 교차 언어 평가는 일반적으로 두 가지 변동 요인, 즉 진정한 모델 성능 차이와 측정 불안정성을 혼동합니다. 본 연구는 생성 조건을 일정하게 유지하면서 목표 언어를 변화시킴으로써 평가 신뢰성을 조사합니다. 에스토니아어, 핀란드어, 헝가리어에 걸쳐 동일한 매개변수로 생성된 합성 고객 지원 대화를 사용하여, 형태론적으로 풍부하고 서로 관련된 핀우그리아어군 언어들 간에 자동 평가 지표와 LLM-as-a-judge 채점이 안정적인 모델 순위를 생성하는지 테스트합니다. 소규모 에스토니아어 원어민 주석 데이터를 기준점으로 삼아 분석한 결과, 체계적인 순위 불안정성이 발견되었습니다. 표층적 지표(어휘 다양성, 표층 및 의미적 유사성)는 교차 언어적 안정성을 유지하지만, 화용론적 판단(일관성, 지시 따르기)에서는 순위 역전 및 거의 0에 가까운 상관관계가 나타났습니다. 생성 조건이 통제되었기 때문에 이러한 불일치는 실제 모델 차이가 아닌, 평가자 채점이 언어마다 다르게 작동하는 방식을 반영합니다. 이 통제된 설계는 진단 프로브 역할을 합니다. 동일한 생성 조건에서 안정성을 유지하지 못하는 평가 방법은 실제 배포 전에 전달 실패를 나타내는 신호입니다. 우리의 연구 결과는 형태론적으로 풍부한 언어에서 담화 수준 평가를 위한 제로샷 평가자 전달이 신뢰할 수 없음을 시사하며, 특정 언어에 맞춘 인간 기준점을 통한 언어별 보정의 필요성을 제기합니다. 우리는 통제된 생성 프로토콜, 합성 데이터, 평가 프레임워크를 https://github.com/isaac-chung/cross-lingual-stability-judges 에 공개하여 다양한 어족에 걸친 재현을 가능하게 합니다.
본 논문은 실시간 오픈 보컬러리 인스턴스 분할을 위해 배포 최적화된 YOLO26(또는 YOLOv26) 아키텍처와 YOLOE의 오픈 보컬러리 학습 패러다임을 통합한 통합 프레임워크인 YOLOE-26을 제안한다. NMS-free 및 end-to-end 방식으로 설계된 YOLOv26을 기반으로, 제안된 방법은 YOLO 계열의 특징적인 효율성과 결정론을 유지하면서 폐쇄형 인식(closed-set recognition)을 넘어선 기능을 확장한다. YOLOE-26은 컨볼루션 백본과 PAN/FPN 스타일의 다중 스케일 특징 추출 후 end-to-end 회귀 및 인스턴스 분할 헤드를 사용한다. 핵심 아키텍처 기여는 고정된 클래스 로짓(logits)을 객체 임베딩 헤드로 대체하여, 분류 작업을 텍스트 설명, 시각적 예시 또는 내장 어휘로부터 유도된 프롬프트 임베딩과의 유사도 매칭 문제로 재정의한 것이다. 효율적인 오픈 보컬러리 추론을 위해 본 프레임워크는 오버헤드 없이 텍스트 프롬프팅을 가능하게 하는 재매개변수화 가능 지역-텍스트 정렬(RepRTA), 예시 기반 분할을 위한 의미론적 활성화 시각 프롬프트 인코더(SAVPE), 그리고 프롬프트 없는 추론을 위한 Lazy Region Prompt Contrast를 통합하였다. 모든 프롬프팅 방식은 통합된 객체 임베딩 공간 내에서 작동하여 텍스트 프롬프트, 시각 프롬프트 및 완전 자율 분할 간 원활한 전환이 가능하다. 다양한 실험을 통해 프롬프트 사용 및 미사용 설정 모두에서 모델 크기별로 일관된 확장성과 유리한 정확도-효율성 트레이드오프를 입증하였다. 학습 전략은 대규모 감지 및 그라운딩 데이터셋과 다중 작업 최적화를 활용하며, Ultralytics 생태계의 학습, 검증 및 배포와 완전히 호환된다. 전반적으로 YOLOE-26은 동적 실제 환경에서 실시간 오픈 보컬러리 인스턴스 분할을 위한 실용적이고 확장 가능한 솔루션을 제공한다.
저장 컴퓨팅(Reservoir Computing, RC)은 시계열 처리에 효율적인 패러다임으로 자리 잡았습니다. 그러나 확장성은 (i) 시계열 데이터의 순차 처리 필요성과 (ii) 고차원 저장소의 과도한 메모리 사용량으로 인해 심각하게 제한됩니다. 본 연구에서는 이러한 한계를 해결하기 위해 구조화된 연산자와 상태 공간 모델링 관점에서 RC를 재조명하여 병렬 에코 상태 네트워크(Parallel Echo State Network, ParalESN)를 제안합니다. ParalESN은 복소수 공간에서의 대각 선형 순환을 기반으로 고차원적이며 효율적인 저장소 구축을 가능하게 하여 시계열 데이터의 병렬 처리를 실현합니다. 우리는 ParalESN이 기존 에코 상태 네트워크의 에코 상태 특성(Echo State Property)과 보편성(universality)을 보존하면서도 임의의 선형 저장소를 복소수 대각 형태로 등가 표현할 수 있음을 이론적으로 분석합니다. 실험적으로 ParalESN은 시계열 벤치마크에서 기존 RC의 예측 정확도를 유지하면서 상당한 계산 효율 향상을 제공합니다. 1차원 픽셀 수준 분류 작업에서 ParalESN은 완전히 학습 가능한 신경망과 견줄 만한 정확도를 달성하면서 계산 비용과 에너지 소비를 크게 절감합니다. 전반적으로 ParalESN은 딥러닝 생태계 내에 RC를 통합하기 위한 유망하고 확장 가능하며 이론적으로 타당한 경로를 제시합니다.
암시적 신경망 표현(INR)은 다양한 영역에서 정확하고 효율적인 것으로 입증되었습니다. 본 연구에서는 다양한 신경망이 입력 UV 좌표 공간에서 이산적 방식이 아닌 연속적 방식으로 작동하는 새로운 텍스처 INR로 어떻게 설계될 수 있는지 탐구합니다. 철저한 실험을 통해 이러한 INR이 상당한 메모리 사용량과 렌더링 추론 시간을 가지면서도 이미지 품질 측면에서 우수한 성능을 보임을 입증합니다. 우리는 이러한 목표들 간의 균형을 분석합니다. 또한 실시간 렌더링 및 하위 작업(예: 밉맵 fitting 및 INR-공간 생성)에서의 다양한 관련 응용 분야를 조사합니다.
대규모 언어 모델은 제공된 맥락에 충실하지 않으면서도 유창한 답변을 생성할 수 있으며, 많은 안전장치들은 생성 후 외부 검증이나 별도의 판단 모듈에 의존합니다. 본 연구에서는 고정된 블록 간 모니터링 경계에서 깊이별 동역학을 통해 의사 결정 형성을 감사하는 내부 흐름 서명을 제안합니다. 이 방법은 편향 중심 모니터링을 통해 토큰 단위 운동을 안정화한 후, 각 깊이 창 내에서 상위 토큰과 그 경쟁 토큰들로 구성된 간결한 이동 판독 정렬 부분 공간에서 궤적을 요약합니다. 인접한 창 프레임은 직교 수송에 의해 정렬되어 깊이 비교가 가능한 수송된 단계 길이, 회전 각도, 그리고 창 내 기저 선택에 불변인 부분 공간 표류 요약치를 생성합니다. 이러한 서명을 기반으로 훈련된 경량 GRU 검증기는 기본 모델을 수정하지 않고 자체 점검을 수행합니다. 탐지뿐만 아니라, 검증기는 문제의 깊이 이벤트를 특정하고 표적 정제를 가능하게 합니다: 모델은 문제의 토큰으로 롤백하고 식별된 블록에서 비정상적인 수송 단계를 억제하면서 직교 잔차는 보존합니다. 결과적인 파이프라인은 내부 의사 결정 동역학으로부터 실행 가능한 문제 지역화와 낮은 오버헤드의 자체 점검을 제공합니다. 코드는 github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs에서 확인할 수 있습니다.
우리는 어텐션 기반 아키텍처에서 비전 모달리티를 위한 포물선 기반 위치 인코딩인 Parabolic Position Encoding(PaPE)을 제안한다. 이미지, 포인트 클라우드, 비디오, 이벤트 카메라 스트림과 같은 일련의 비전 토큰이 주어졌을 때, 우리의 목표는 비전 모달리티의 특성을 고려하여 이들의 위치를 인코딩하는 것이다. 기존 연구들은 주로 언어 모델의 1D 시퀀스용 위치 인코딩을 비전의 nD 구조로 확장해왔지만, 비전의 특성을 부분적으로만 반영해왔다. 우리는 선행 연구에서 도출된 원리—병진 불변성, 회전 불변성(PaPE-RI), 거리 감쇠, 방향성, 맥락 인식—를 바탕으로 PaPE를 설계하여 이 격차를 해소한다. 우리는 4가지 모달리티에 걸친 8개의 데이터셋에서 PaPE를 평가했다. 그 결과, 8개 데이터셋 중 7개에서 PaPE 또는 PaPE-RI가 최고 성능을 달성했다. ImageNet-1K에 대한 외삽 실험에서 PaPE는 매우 우수한 외삽 성능을 보였으며, 차선책 위치 인코딩 대비 최대 10.5%의 절대적 성능 향상을 기록했다. 코드는 https://github.com/DTU-PAS/parabolic-position-encoding에서 확인할 수 있다.
LLM-as-a-Judge(대규모 언어 모델 평가 주체 활용)는 자동화 평가에 널리 사용되고 있지만, 기존 검증 관행은 주로 관측된 출력 수준에서 운영되어 LLM 평가 주체 자체가 안정적이고 신뢰할 수 있는 측정 도구로 기능하는지에 대한 통찰력이 제한적입니다. 이러한 한계를 해결하기 위해 우리는 문항 반응 이론(IRT)에 기반하여 LLM-as-a-Judge의 신뢰도를 평가하는 2단계 진단 프레임워크를 제안합니다. 본 프레임워크는 IRT의 등급 반응 모델(GRM)을 채택하고 신뢰도를 두 가지 상호 보완적인 차원으로 정형화합니다: (1) 프롬프트 변동 하에서 측정 행동의 안정성으로 정의되는 내적 일관성, (2) 인간의 품질 평가와의 일치도를 포착하는 인간 정합성. 우리는 이 프레임워크로 다양한 LLM 평가 주체를 실증적으로 분석하고, IRT-GRM을 활용하면 판단을 체계적으로 진단하는 해석 가능한 신호를 얻을 수 있음을 보여줍니다. 이러한 신호는 LLM-as-a-Judge의 신뢰도 검증 및 신뢰도 결핍의 잠재적 원인 식별에 실용적인 지침을 제공합니다.