번역이 포함된 일일 선별된 AI 연구 논문
과학적 AI의 발전에도 불구하고, 다양한 과학 분야를 자율적으로 구상·탐구·추론하는 능력인 과학적 일반 지능(SGI)에 대한 일관된 프레임워크는 여전히 부족한 상태입니다. 본 연구는 실질적 탐구 모델(PIM: 숙고, 구상, 실행, 지각)에 기반한 운영적 SGI 정의를 제시하고, 이를 심층 연구, 아이디어 생성, 건식/습식 실험, 실험 추론이라는 네 가지 과학자 수준 과제를 통해 구체화합니다. Science지의 125개 대질문에서 영감을 받아 전문가가 선별한 1,000개 이상의 융합 학문 샘플로 구성된 SGB-Bench는 최첨단 대규모 언어 모델(LLM)의 체계적 평가를 가능하게 합니다. 결과는 다음과 같은 한계를 드러냈습니다: 단계적 정렬에도 심층 연구 정확도(10-20%)가 낮음, 실현 가능성과 세부성이 부족한 아이디어, 건식 실험에서 코드 실행 가능성은 높으나 실행 결과 정확도는 낮음, 습식 실험 프로토콜의 순서 정확도 저조, 그리고 지속적인 다중 모드 비교 추론 과제의 어려움 등입니다. 더 나아가 추론 시 참조 답안 없이 검색 강화 신규성 보상을 최적화하여 가설 신규성을 향상시키는 추론 시 강화 학습(TTRL)을 소개합니다. 궁극적으로, PIM 기반 정의, 워크플로우 중심 벤치마크, 실증적 통찰력을 통해 진정한 과학적 발견에 기여하는 AI 시스템의 기반을 마련합니다.
로봇의 일반화 능력은 물리적 지능에 기반합니다. 이는 자기 중심적 인지와 행동 하에서 상태 변화, 접촉이 풍부한 상호작용, 그리고 장기 계획에 대해 추론하는 능력을 의미합니다. 그러나 대부분의 시각 언어 모델(VLM)은 주로 3인칭 시점 데이터로 훈련되어 휴머노이드 로봇에 있어 근본적인 시점 불일치 문제를 야기합니다. 높은 비용과 제한된 다양성으로 인해 로봇의 자기 중심적 데이터 수집을 대규모로 확장하는 것은 여전히 실용적이지 않은 반면, 대규모 인간 자기 중심 비디오는 풍부한 상호작용 맥락과 인과 구조를 자연스럽게 포착하는 확장 가능한 대안을 제공합니다. 핵심 과제는 원시 자기 중심 비디오를 구조화되고 신뢰할 수 있는 구현체(embodiment) 훈련 지도 정보로 변환하는 것입니다. 이에 따라 우리는 1인칭 비디오를 증거 기반 및 시간적 일관성이 강화된 다중 수준의 스키마 기반 VQA 지도 정보로 변환하는 Egocentric2Embodiment 변환 파이프라인을 제안하며, 이를 통해 대규모 Egocentric2Embodiment 데이터셋(E2E-3M) 구축을 가능하게 합니다. E2E-3M 데이터셋으로 훈련하여 얻은 자기 중심 인지 구현체 두뇌, 즉 PhysBrain은 EgoThink에서의 계획 수립을 비롯해 자기 중심적 이해 능력이 크게 향상되었습니다. PhysBrain은 더 높은 샘플 효율성을 갖는 VLA 미세 조정과 더 높은 SimplerEnv 성공률(53.9%)을 가능하게 하는 자기 중심 인지 기반 초기화를 제공하며, 인간의 자기 중심 지도 정보로부터 하류 로봇 제어로의 효과적인 전이를 입증합니다.
대규모 추론 모델(LRMs)의 우수한 성능에도 불구하고, 그들의 추론 행동은 종종 직관에 반하여 최적의 추론 능력을 발휘하지 못하는 경우가 많습니다. 이러한 바람직한 추론 행동을 이론적으로 정형화하기 위해, 본 논문은 LRMs의 내재적 추론 패턴을 규정하는 통합 프레임워크인 '추론의 법칙(LoRe)'을 제시합니다. 먼저 추론 계산량이 문제 복잡도에 선형적으로 비례해야 한다는 가설과 함께 계산 법칙을 제안합니다. 계산량을 넘어서, 보완적 정확도 법칙으로 LoRe를 확장합니다. 문제 복잡도를 실제로 정량화하기 어렵기 때문에, 우리는 이러한 가설을 법칙의 두 가지 속성인 단조성과 구성성으로 검증합니다. 이에 따라 대규모 추론 모델의 이러한 두 가지 다루기 쉬운 속성을 체계적으로 측정하는 벤치마크인 LoRe-Bench를 소개합니다. 평가 결과, 대부분의 추론 모델은 합리적인 단조성을 보이지만 구성성이 부족한 것으로 나타났습니다. 이에 대응하여 계산 법칙 구성성을 강화하는 효과적인 파인튜닝 접근법을 개발합니다. 광범위한 실증 연구를 통해 계산 법칙을 더 잘 준수할수록 여러 벤치마크에서 추론 성능이 지속적으로 향상되며, 속성과 법칙 간의 시너지 효과가 발견됨을 입증합니다. 프로젝트 페이지: https://lore-project.github.io/
최근 대규모 언어 모델이 엄밀한 수학적 증명을 생성하는 데 상당한 진전을 보였습니다. 이와 대조적으로, LLM을 형식 언어(예: Lean)에서의 정리 증명에 활용하는 것은 학부 수준 이상의 문제를 다룰 때 여전히 어렵고 계산 비용이 많이 듭니다. 본 연구에서는 대규모 에이전트 강화 학습을 통해 훈련된 형식 정리 증명 모델인 Seed-Prover 1.5와 효율적인 테스트 타임 스케일링(TTS) 워크플로를 제시합니다. Lean 및 기타 도구와의 광범위한 상호작용을 통해 모델은 RL 과정 동안 지속적으로 경험을 축적하여 형식 정리 증명의 능력과 효율성을 크게 향상시킵니다. 더 나아가, 자연어 증명 분야의 최근 발전을 활용한 우리의 TTS 워크플로는 자연어와 형식 언어 간의 격차를 효율적으로 연결합니다. 최첨단 방법론과 비교했을 때, Seed-Prover 1.5는 더 적은 계산 예산으로도 우수한 성능을 달성합니다. 이 모델은 PutnamBench(학부 수준) 문제의 88%, Fate-H(대학원 수준) 문제의 80%, Fate-X(박사 수준) 문제의 33%를 해결했습니다. 특히, 우리 시스템을 사용하여 2025년 Putnam 문제 12개 중 11개를 9시간 이내에 해결했습니다. 우리의 연구 결과는 고품질의 형식적 피드백에 의해 주도되는 경험 기반 학습의 확장이 형식적 수학적 추론의 미래에 막대한 잠재력을 지니고 있음을 시사합니다.
현대 잠재 디퓨전 모델(LDM)은 일반적으로 픽셀 수준 재구성에 최적화된 저수준 변분 오토인코더(VAE) 잠재 공간에서 동작합니다. 시각 생성과 이해를 통합하기 위한 새로운 트렌드로, 표현 인코더의 고차원 특징을 생성 잠재 변수로 채택하는 방법이 부상하고 있습니다. 그러나 본 연구에서는 이러한 패러다임에서 두 가지 근본적인 장애요인을 실증적으로 확인했습니다: (1) 판별적 특징 공간은 컴팩트한 정규화가 부족하여 디퓨전 모델이 부정확한 객체 구조를 초래하는 매니폴드 이탈 잠재 변수를 생성하기 쉽고; (2) 인코더의 본질적으로 취약한 픽셀 수준 재구성 능력은 생성기가 정확한 세부 기하학 및 질감 학습을 방해합니다. 본 논문에서는 생성 작업에 적합하도록 이해 지향적 인코더 특징을 체계적으로 적용하는 프레임워크를 제안합니다. 우리는 의미론적-픽셀 재구성 목표를 도입하여 잠재 공간을 정규화함으로써 의미 정보와 세부 사항을 모두 고도로 컴팩트한 표현(16x16 공간 다운샘플링, 96채널)으로 압축할 수 있도록 합니다. 이 설계는 잠재 공간이 의미론적으로 풍부함을 유지하면서 최첨단 이미지 재구성을 달성하고, 정확한 생성에 충분히 컴팩트하게 만듭니다. 이 표현을 활용하여 텍스트-이미지(T2I) 생성 및 이미지 편집을 통합한 모델을 설계합니다. 다양한 특징 공간과의 벤치마킹을 통해 우리의 접근 방식이 최첨단 재구성 성능, 더 빠른 수렴 속도, T2I 및 편집 작업 모두에서 상당한 성능 향상을 달성함을 입증하며, 표현 인코더가 강력한 생성 구성 요소로 효과적으로 적용될 수 있음을 검증합니다.
멀티모달 대규모 언어 모델(MLLM)의 발전에도 불구하고, 3D 구조와 시간적 역학에 대한 추론 능력은 약한 4D 인식 및 시간적 이해로 인해 제한됩니다. 기존 3D 및 4D 비디오 질의응답(VQA) 벤치마크 또한 정적 장면에 중점을 두고 지역 수준 프롬프팅이 부족합니다. 우리는 이러한 문제를 해결하기 위해 다음을 소개합니다: (a) 향상된 시간적 인식으로 비디오 입력에서 4D 표현을 포착하도록 설계된 전용 MLLM인 4D-RGPT; (b) 고정된 전문가 모델의 4D 표현을 4D-RGPT로 전이하여 포괄적인 4D 인식을 달성하는 훈련 프레임워크인 P4D(Perceptual 4D Distillation); (c) 하이브리드 자동화 및 인간 검증 파이프라인을 통해 구축된, 지역 수준 프롬프팅이 포함된 깊이 인식 동적 장면용 벤치마크인 R4D-Bench. 우리의 4D-RGPT는 기존 4D VQA 벤치마크와 제안된 R4D-Bench 벤치마크 모두에서 뚜렷한 성능 향상을 달성했습니다.
LLM-as-a-Judge는 평가 방법으로 널리 채택되었으며 모델 학습에서 감독 보상 역할을 해왔습니다. 그러나 LLM-as-a-Judge를 위한 기존 벤치마크는 주로 인간이 주석을 단 기준 진실에 의존하여, 신뢰성 평가를 훼손하는 인간 편향을 도입하고 확장성에 제약을 가합니다. 이러한 한계를 극복하기 위해 우리는 인간 주석 없이도 LLM 평가자의 질을 평가하는 새로운 평가 도구인 Sage를 소개합니다. 합리적 선택 이론의 공리에 영감을 받아 Sage는 LLM-as-a-Judge를 측정하는 두 가지 새로운 관점, 즉 지역적 자기 일관성(쌍별 선호도 안정성)과 전역적 논리적 일관성(전체 선호도 집합 간의 이행성)을 도입합니다. 우리는 구조화된 벤치마크 문제와 실제 사용자 질의를 결합하여 650개의 질문으로 구성된 데이터셋을 구축했습니다. 우리의 실험은 우리 메트릭의 안정성과 LLMBar, RewardBench2와 같은 감독형 벤치마크와의 높은 상관관계를 입증하여, Sage가 LLM-as-a-Judge의 강건성과 정확성을 평가하는 도구로서의 신뢰성을 확인해줍니다. Sage를 기반으로 우리는 현재 최첨단 LLM들이 점수 매기기와 쌍별 비교 설정 모두에서 평가자 역할을 할 때 상당한 신뢰성 문제를 보인다는 사실을 밝혔습니다. 최고 성능 모델인 Gemini-2.5-Pro와 GPT-5조차도 어려운 사례의 약 4분의 1에서 일관된 선호도를 유지하지 못했습니다. 우리는 이를 상황적 선호라는 새로운 현상으로 귀결짓는데, 이는 명시적인 채점 기준이나 평가 기준이 모델이 답변 쌍에 걸쳐 일관되게 판단하도록 돕는 이유를 설명합니다. 우리의 추가 분석은 미세 조정된 LLM-as-a-Judge가 성능 향상에 실현 가능한 방법이며, 패널 기반 평가자와 심층 추론이 판단 일관성을 향상시킬 수 있음을 보여줍니다. 우리는 또한 인간 판단에서 상당한 불일치를 발견하여, 인간 주석이 신뢰할 수 있는 황금 표준이 아닐 수 있음을 시사합니다.
우리는 다중 뷰 카메라 영상으로부터 사실적인 자율주행 레이더 포인트 클라우드를 합성하기 위한 확산 모델인 RadarGen을 제안합니다. RadarGen은 공간 구조와 레이더 단면적(RCS), 도플러 속성을 함께 인코딩하는 조감도(BEV) 형태로 레이더 측정값을 표현함으로써 효율적인 이미지-잠재 확산 모델을 레이더 영역에 적용합니다. 경량화된 복원 단계를 통해 생성된 맵에서 포인트 클라우드를 재구성합니다. 생성 과정을 시각적 장면과 더 잘 정렬하기 위해 RadarGen은 사전 학습된 파운데이션 모델에서 추출한 BEV 정렬 깊이, 의미론적, 운동 정보를 통합하여 확률적 생성 과정이 물리적으로 타당한 레이더 패턴을 생성하도록 유도합니다. 이미지 조건 설정을 통해 이 접근법은 원칙적으로 기존 시각 데이터셋 및 시뮬레이션 프레임워크와 광범위하게 호환되며, 다중 모달 생성 시뮬레이션을 위한 확장 가능한 방향을 제시합니다. 대규모 주행 데이터에 대한 평가 결과, RadarGen은 특징적인 레이더 측정 분포를 포착하고 실제 데이터로 학습된 인식 모델과의 격차를 줄여, 다양한 센싱 모달리티를 아우르는 통합 생성 시뮬레이션으로 나아가는 한 걸음을 표시합니다.
시각적 기반화(visual grounding)는 자연어 설명으로부터 객체를 위치시키는 작업으로, 언어와 시각 이해 사이의 중요한 연결고리를 나타냅니다. 멀티모달 대규모 언어 모델(MLLM)이 기존 벤치마크에서 인상적인 점수를 달성하고 있지만, 근본적인 질문은 남아 있습니다: MLLM이 정말로 인간과 같은 수준으로 언어를 시각에 기반시킬 수 있을까, 아니면 단순히 단순화된 데이터셋에서 패턴 매칭을 하고 있는 걸까요? 현재의 벤치마크는 인간이 모호한 참조를 쉽게 해석하고 기반화가 불가능한 상황을 인식하는 실제 세계의 복잡성을 제대로 반영하지 못합니다. MLLM의 진정한 능력을 엄격하게 평가하기 위해 우리는 GroundingME 벤치마크를 소개합니다. 이 벤치마크는 네 가지 중요한 차원에서 모델에 체계적으로 도전합니다: (1) **식별력**: 매우 유사한 객체를 구분하기, (2) **공간적 이해**: 복잡한 관계적 설명 이해하기, (3) **제한적 조건**: 가려짐이나 매우 작은 객체 처리하기, (4) **거부 능력**: 기반화 불가능한 질의 인식하기. 자동 생성과 인간 검증을 결합한 신중한 과정을 통해 우리는 실제 세계의 복잡성을 반영하는 1,005개의 도전적인 예시를 생성했습니다. 25개의 최첨단 MLLM을 평가한 결과 심각한 능력 차이가 드러났습니다: 가장 성능이 좋은 모델도 정확도가 45.1%에 그쳤으며, 대부분의 모델은 거부 작업에서 0%의 점수를 기록했고, 객체가 없음을 인정하기보다 반사적으로 객체를 환각(hallucinate)하여 실제 배포 시 중요한 안전 우려를 제기했습니다. 우리는 개선을 위한 두 가지 전략을 탐구했습니다: (1) **테스트 시 스케일링(thinking trajectory)** 은 사고 궤적을 통해 최적의 응답을 선택하여 복잡한 기반화 성능을 최대 2.9% 향상시켰으며, (2) **데이터 혼합 학습**은 모델이 기반화 불가능한 질의를 인식하도록 가르쳐 거부 정확도를 0%에서 27.9%로 끌어올렸습니다. 따라서 GroundingME는 MLLM의 현재 한계를 드러내는 진단 도구이자 인간 수준의 시각적 기반화를 향한 로드맵 역할을 합니다.
언어 모델의 아키텍처적 차이를 이해하는 것은 특히 학술 규모의 사전 학습(예: 13억 개의 매개변수, 1000억 개의 토큰)에서 결과가 종종 노이즈와 무작위성에 의해 좌우되기 때문에 어려운 과제입니다. 이를 극복하기 위해, 우리는 핵심 모델 능력을 분리하고 평가하는 통제된 합성 사전 학습 작업을 도입합니다. 이 프레임워크 안에서 우리는 CANON LAYERS를 발견했습니다. 이는 음악 용어인 "카논(canon)"에서 이름을 딴, 인접한 토큰들 간의 수평적 정보 흐름을 촉진하는 경량 아키텍처 구성 요소입니다. 캐논 레이어는 인근 토큰 표현들의 가중 합을 계산하며 Transformer, 선형 어텐션, 상태-공간 모델 또는 어떤 시퀀스 아키텍처에도 원활하게 통합됩니다. 우리는 12가지 핵심 결과를 제시합니다. 여기에는 캐논 레이어가 추론 깊이(예: 2배 향상), 추론 폭, 지식 조작 등을 어떻게 향상시키는지가 포함됩니다. 이 레이어는 NoPE와 같은 약한 아키텍처를 RoPE 수준으로 끌어올리고, 선형 어텐션을 Mamba2/GDN과 같은 SOTA 선형 모델에 필적하는 수준으로 끌어올립니다. 이는 합성 작업과 실제 학술 규모 사전 학습을 통해 모두 검증되었습니다. 이 합성 실험 환경은 학술 규모에서는 종종 가려지는 핵심 모델 능력을 분리하는 경제적이고 원칙적인 경로를 제공합니다. 무한한 고품질 데이터를 바탕으로 한다면, 이 환경은 향후 아키텍처가 더 나은 데이터 큐레이션이나 RL 기반 사후 학습과 같이 학습 파이프라인이 개선됨에 따라 어떻게 행동할지 예측(PREDICT)할 수도 있습니다. 이를 통해 더 깊은 추론과 계층적 추론이 가능해질 수 있습니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 기계가 지시를 이해하고 물리적 세계와 상호작용할 수 있도록 하여 로봇공학 분야에 혁명을 일으키고 있습니다. 이 분야는 새로운 모델과 데이터셋이 폭발적으로 증가하며 빠르게 발전하고 있어, 최신 동향을 따라가기는 매우 흥미롭지만 동시에 어려운 과제가 되었습니다. 본 서베이는 VLA 현황을 명확하고 체계적으로 안내하는 것을 목표로 합니다. 저자들은 연구자의 자연스러운 학습 경로를 따라갈 수 있도록 설계하였습니다: 먼저 모든 VLA 모델의 기본 구성 요소인 모듈(Modules)을 소개하고, 주요 역사적 이정표(Milestones)를 추적한 후, 최근 연구 최전선을 정의하는 핵심 과제(Challenges)에 대해 깊이 있게 다룹니다. 본 논문의 주요 기여는 (1) 표현(Representation), (2) 실행(Execution), (3) 일반화(Generalization), (4) 안전성(Safety), (5) 데이터셋 및 평가(Dataset and Evaluation)라는 다섯 가지 핵심 과제에 대한 상세한 분석입니다. 이 구조는 범용 에이전트의 발전 로드맵을 반영합니다: 기본적인 인지-행동 순환을 확립하고, 다양한 구현체와 환경에서 능력을 확장하며, 궁극적으로 신뢰할 수 있는 배치를 보장하는 것—이 모든 과정은 필수적인 데이터 인프라에 의해 지원됩니다. 각 과제에 대해 저자들은 기존 접근법을 검토하고 미래 기회를 강조합니다. 이 논문은 초심자에게는 기초 가이드로, 경험 많은 연구자에게는 전략적 로드맵으로서의 역할을 동시에 수행하여, 구현된 지능(embodied intelligence) 분야의 학습 속도를 높이고 새로운 아이디어를 고취시키는 이중적인 목표를 가지고 있습니다. 본 서베이의 지속적으로 업데이트되는 라이브 버전은 https://suyuz1.github.io/Survery/{project_page}에서 확인할 수 있습니다.
강화학습(RL)은 현실 환경에서 상호작용하는 LLM 에이전트를 훈련시키는 자연스러운 접근법으로 다시 주목받고 있습니다. 그러나 널리 사용되는 GRPO(Group Relative Policy Optimization) 알고리즘을 다중 턴 작업에 직접 적용하면 장기 추론이 필요한 시나리오에서 특히 두드러진 한계가 나타납니다. 이러한 문제를 해결하기 위해 우리는 다중 턴 설정에 더욱 안정적이고 효과적인 어드밴티지 추정 전략을 연구합니다. 먼저 PPO(Proximal Policy Optimization)를 대안으로 탐색한 결과, GRPO보다 더 강력한 성능을 보임을 확인했습니다. 다중 턴 시나리오에서 PPO를 더욱 향상시키기 위해, 우리는 일반적인 토큰 수준 MDP와 대조적으로 턴 수준 MDP 형식을 기반으로 작동하는 변형 알고리즘인 turn-PPO를 제안합니다. WebShop 및 Sokoban 데이터셋에서의 실험 결과는 장기 추론 구성 요소 유무에 관계없이 turn-PPO의 효과성을 입증합니다.
비디오 대규모 언어 모델(Video-LLM)의 성능이 빠르게 향상되고 있지만, 현재의 비디오 질의응답(VideoQA) 벤치마크는 단일한 두드러진 단서만으로 질문에 답할 수 있게 하여 시간적으로 분리된 여러 시각적 증거를 종합해야 하는 추론 능력을 충분히 평가하지 못하는 경우가 많습니다. 본 논문은 시간에 걸친 다중 증거 통합 능력을 평가하기 위해 특별히 제작된 VideoQA 벤치마크인 HERBench를 소개합니다. 각 질문은 서로 다른 비디오 세그먼트에 걸쳐 최소 세 개의 중복되지 않는 증거적 단서를 종합해야 하므로, 언어 사전 지식이나 단일 스냅샷만으로는 답변이 불가능합니다. HERBench는 정체성 결합, 개체 간 관계, 시간적 순서, 동시 발생 검증, 계수 등 12가지 구성적 작업으로 구성된 26,000개의 5지 선다형 질문으로 이루어져 있습니다. 증거 요구량을 측정 가능하게 하기 위해, 모델이 정답을 도출하기 위해 반드시 융합해야 하는 최소 프레임 집합(MRFS) 개념을 도입하였으며, HERBench가 기존 데이터셋(평균 MRFS 2.6-4.2)보다 훨씬 높은 요구량(평균 MRFS 5.5)을 부과함을 보여줍니다. HERBench를 통해 13개의 최첨단 Video-LLM을 평가한 결과, 보편적인 실패가 드러났습니다: 31-42%의 정확도는 20%의 무작위 추측 기준선을 약간 상회하는 수준에 불과했습니다. 이러한 실패 원인을 두 가지 중요한 병목 현상으로 구분하였습니다: (1) 프레임 선택기가 핵심 증거를 간과하는 검색 결핍과 (2) 필요한 모든 증거가 제공되더라도 정보를 통합하지 못하는 융합 결핍입니다. 시간을 가로지르는 증거 활용을 불가피하고 정량화 가능하게 만듦으로써, HERBench는 강건하고 구성적인 비디오 이해 능력을 발전시키기 위한 원칙적인 목표를 설정합니다.
최근 세계 모델(world model)의 발전은 상호작용형 환경 시뮬레이션의 성능을 크게 향상시켰다. 기존 방법은 주로 두 가지 범주로 나뉜다: (1) 능동적 에이전트 없이 3D 환경을 구축하는 정적 세계 생성 모델과, (2) 통제 불가능한 환경 내에서 단일 개체가 제한된 행동을 수행할 수 있도록 하는 제어 가능 개체 모델이다. 본 연구에서는 AniX를 소개하며, 이는 정적 세계 생성의 사실성과 구조적 토대를 활용하는 동시에 제어 가능 개체 모델을 확장하여 사용자가 지정한 캐릭터가 개방형 행동을 수행할 수 있도록 지원한다. 사용자는 3DGS 장면과 캐릭터를 제공한 후 자연어를 통해 캐릭터를 지시하여 환경을 자유롭게 탐색하며 기본 이동부터 객체 중심 상호작용에 이르기까지 다양한 행동을 수행하도록 할 수 있다. AniX는 제공된 장면과 캐릭터의 시각적 충실도를 유지하는 시간적 일관성을 가진 비디오 클립을 합성하며, 이는 조건부 자기회귀 비디오 생성 문제로 공식화된다. 사전 학습된 비디오 생성기를 기반으로 구축된 우리의 학습 전략은 행동과 캐릭터 전반에 대한 일반화 성능을 유지하면서 모션 역동성을 크게 향상시킨다. 평가는 시각적 품질, 캐릭터 일관성, 행동 제어 가능성, 장기간 일관성 등 다양한 측면을 포괄적으로 다룬다.
우리는 10억 및 70억 매개변수 규모에서 경쟁력 있는 최초의 완전 오픈 바이트 수준 언어 모델(LM) 패밀리인 Bolmo를 소개합니다. 주로 처음부터 학습에 초점을 맞춘 기존 바이트 수준 LM 연구와 달리, Bolmo는 기존 서브워드 수준 LM을 바이트화하여 학습합니다. 바이트화는 선도적인 서브워드 수준 LM의 성능 수준을 유지하면서, 고정된 서브워드 어휘로 인한 문자 이해 부족 및 효율성 제약과 같은 서브워드 토큰화의 한계를 극복할 수 있게 합니다. Bolmo는 특히 바이트화를 위해 설계되었습니다: 우리의 아키텍처는 기존 바이트 수준 아키텍처와 서브워드 수준 LM 간의 표현력 불일치를 해결하여 Bolmo와 원본 서브워드 모델 간에 효과적인 정확 지식 증류 목적 함수를 활용할 수 있도록 합니다. 이를 통해 일반적인 사전 학습 토큰 예산의 1% 미만을 투입하여 서브워드 수준 LM을 바이트 수준 LM으로 변환할 수 있습니다. Bolmo는 유사한 규모의 모든 기존 바이트 수준 LM을 크게 능가하며, 문자 이해 및 경우에 따라 코딩 작업에서 원본 서브워드 수준 LM을 능가하는 동시에 다른 작업에서는 원본 LM의 성능에 근접합니다. 더 나아가, 더 높은 토큰 압축률로 학습함으로써 Bolmo가 서브워드 수준 LM과 경쟁 가능한 추론 속도를 달성할 수 있음을 보여주며, 원본 서브워드 수준 LM을 중심으로 구축된 기존 생태계를 활용하여 저렴하고 효과적으로 사후 학습될 수 있음을 입증합니다. 우리의 결과는 마침내 바이트 수준 LM이 다양한 사용 사례에서 서브워드 수준 LM과 경쟁할 수 있는 실용적인 선택이 되게 합니다.
SWE-bench와 같은 벤치마크는 저장소 수준의 소프트웨어 엔지니어링 작업에 대한 대규모 언어 모델(LLM) 평가를 표준화했습니다. 그러나 이러한 노력은 수동 큐레이션, 정적 데이터셋, 그리고 Python 기반 버그 수정에 집중한다는 한계를 지닙니다. 우리는 오픈소스 GitHub 프로젝트에서 저장소 수준의 코딩 작업을 생성하는 자동화 프레임워크인 SWE-Bench++를 소개합니다. 합성적 접근법과 달리, 우리의 파이프라인은 라이브 풀 리퀘스트를 수집하여 11개 언어에 걸친 버그 수정과 기능 요구사항을 모두 다룹니다. SWE-Bench++는 프로그램 방식의 소싱, 환경 합성, 테스트 오라클 추출, 품질 보증이라는 네 단계를 통해 GitHub 풀 리퀘스트(PR)를 재현 가능하고 실행 기반의 작업으로 전환합니다. 최종 힌트 기반 궤적 합성 단계는 강력한 모델들이 실패한 인스턴스를 훈련 궤적으로 변환합니다. 우리의 초기 벤치마크는 11개 언어, 3,971개 저장소의 11,133개 인스턴스로 구성됩니다. 이 벤치마크의 1,782개 인스턴스 하위 집합에서 현재 가장 강력한 모델들의 성능은 다음과 같습니다: claude-sonnet-4.5는 36.20% pass@10, gpt-5-2025-08-07은 34.57%, gemini/gemini-2.5-pro는 24.92%, gpt-4o는 16.89%를 달성했습니다. 우리는 SWE-Bench++ 인스턴스에 대한 미세 조정이 SWE-bench Multilingual 벤치마크에서 측정 가능한 성능 향상을 가져온다는 점을 보여줌으로써 데이터셋의 유용성을 추가로 입증합니다. SWE-Bench++는 저장소 수준 코드 생성의 평가와 개선을 위한 확장 가능하고 다국어적인 벤치마크를 제공합니다.
강화학습(RL)은 대규모 언어 모델(LLM) 에이전트를 환경과 상호작용하며 다중 단계 장기간 작업을 해결하도록 훈련시키는 것을 가능하게 했습니다. 그러나 RL로 훈련된 에이전트는 능동적 탐색이 필요한 작업에서 어려움을 겪으며, 시행착오 경험으로부터 효율적으로 적응하지 못하는 경우가 많습니다. 본 논문에서는 LLM 에이전트가 테스트 시점에 환경 피드백을 통해 능동적으로 탐색하고 학습할 수 있도록 하는 일반적인 메타-RL 프레임워크인 LaMer를 제시합니다. LaMer는 두 가지 핵심 구성 요소로 이루어집니다: (i) 탐색을 장려하고 장기적 보상을 최적화하기 위한 에피소드 간 훈련 프레임워크, (ii) 성찰을 통한 콘텍스트 내 정책 적응으로, 에이전트가 그래디언트 업데이트 없이 작업 피드백 신호로부터 자신의 정책을 적응시킬 수 있게 합니다. 다양한 환경에서의 실험 결과, LaMer는 RL 기준선 대비 성능이 크게 향상되었으며, 소코반, 지뢰 찾기, 웹쇼핑에서 각각 11%, 14%, 19%의 성능 향상을 보였습니다. 또한 LaMer는 RL로 훈련된 에이전트에 비해 더 어렵거나 이전에 접하지 못한 작업으로의 일반화 능력도 우수한 것으로 나타났습니다. 전반적으로, 우리의 결과는 메타-RL이 언어 에이전트에게 탐색을 유도하는 원칙적인 접근법을 제공함으로써, 학습된 탐색 전략을 통해 새로운 환경에 더 강력하게 적응할 수 있게 한다는 것을 입증합니다.
시각적 자기회귀(VAR) 모델링은 다음 스케일 예측을 통해 기존 자기회귀(AR) 모델의 다음 토큰 예측 패러다임에서 벗어나 고품질 이미지 생성을 가능하게 합니다. 그러나 VAR 패러다임은 대규모 스텝에서 계산 복잡성과 실행 시간이 급격히 증가하는 문제점을 안고 있습니다. 기존 가속화 방법들은 대규모 스텝에 대한 실행 시간을 줄이지만, 수동 스텝 선택에 의존하며 생성 과정 내 다양한 단계의 중요도 차이를 간과합니다. 이러한 문제를 해결하기 위해 본 연구는 VAR 모델을 위한 체계적 연구 및 단계 인식 가속화 프레임워크인 StageVAR를 제안합니다. 우리의 분석에 따르면 초기 스텝은 의미론적 및 구조적 일관성 유지에 중요하므로 그대로 유지해야 하는 반면, 후기 스텝은 주로 세부 사항을 개선하므로 가속화를 위해 생략 또는 근사화될 수 있음이 나타났습니다. 이러한 통찰을 바탕으로 StageVAR는 추가 학습 없이 후기 단계 계산에서의 의미적 무관성 및 저랭크 특성을 활용하는 플러그 앤 플레이 가속화 전략을 도입합니다. 제안된 StageVAR는 GenEval에서 0.01, DPG에서 0.26의 미미한 성능 하락만으로 최대 3.4배의 가속화를 달성하며, 기존 가속화 베이스라인을 지속적으로 능가합니다. 이러한 결과는 단계 인식 설계가 효율적인 시각적 자기회귀 이미지 생성의 강력한 원칙임을 입증합니다.
다중모드 대규모 언어 모델은 실제 환경의 극단적인 시각적 열화 조건에서 안정적인 성능을 유지하는 데 어려움을 겪어 실용적 견고성이 제한됩니다. 기존의 견고한 MLLM들은 주로 시각 인코더 일반화에만 초점을 맞춘 암묵적 학습/적응 방식에 의존하여 해석 가능성이 제한되고 고립된 최적화 문제를 안고 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 구조화된 추론 체인을 통해 시각적 열화를 명시적으로 모델링하는 새로운 프레임워크인 Robust-R1을 제안합니다. 우리의 접근법은 (i) 열화 인식 추론 기반을 위한 지도 미세 조정, (ii) 열화 매개변수를 정확하게 인지하기 위한 보상 기반 정렬, (iii) 열화 강도에 적응하는 동적 추론 깊이 스케일링을 통합합니다. 이 접근법을 지원하기 위해 실제 환경의 네 가지 주요 시각 처리 단계에서 합성된 현실적인 열화를 포함하고, 열화 매개변수, 지각적 영향, 원본 의미론적 추론 체인, 결론을 연결하는 구조화된 체인으로 주석이 달린 전문화된 11K 데이터셋을 구축했습니다. 포괄적 평가 결과 최첨단 견고성을 입증했습니다: Robust-R1은 실제 열화 벤치마크 R-Bench에서 일반 및 견고한 모든 기준 모델을 능가하며, MMMB, MMStar, RealWorldQA에서 다중 강도 적대적 열화 조건 하에서도 우수한 열화 방어 성능을 유지합니다.
최근 3D 장면 생성 기술의 발전은 시각적으로 매력적인 결과물을 생산하지만, 현재의 표현 방식은 시각 효과 및 게임 개발에 필요한 수정 가능한 3D 텍스처 메쉬 장면을 요구하는 아티스트 워크플로우를 저해하고 있습니다. 상당한 발전에도 불구하고, 현재의 텍스처 메쉬 장면 재구성 방법은 부정확한 객체 분해, 불완전한 공간 관계, 배경 누락 등의 문제로 아티스트가 바로 사용하기에는 아직 거리가 있습니다. 본 논문에서는 단일 이미지를 텍스처가 입혀진 3D 객체와 배경으로 재구성하는 구성적 프레임워크인 3D-RE-GEN을 제시합니다. 특정 도메인의 최첨단 모델들을 결합하면 최첨단 장면 재구성 성능을 달성하며 아티스트의 요구사항을 해결할 수 있음을 보여줍니다. 본 재구성 파이프라인은 에셋 감지, 재구성, 배치를 위한 모델들을 통합하며, 특정 모델들을 원래 의도된 도메인을 넘어서도록 확장 적용합니다. 가려진 객체 획득은 생성 모델을 이용한 이미지 편집 작업으로 처리되어, 일관된 조명과 기하학 하에서 장면 수준의 추론을 통해 추정 및 재구성됩니다. 현재 방법론들과 달리, 3D-RE-GEN은 최적화 과정에서 객체를 공간적으로 제약하고 시각 효과 및 게임에서의 사실적인 조명 및 시뮬레이션 작업을 위한 기반을 제공하는 포괄적인 배경을 생성합니다. 물리적으로 현실적인 레이아웃을 얻기 위해, 우리는 재구성된 객체들을 추정된 지평면과 정렬하는 새로운 4-DoF 미분 가능 최적화를 활용합니다. 3D-RE-GEN은 정확한 카메라 복원 및 공간 최적화에 의해 guided되는 구성적 생성을 통해 일관성 있고 수정 가능한 장면을 생산하며, 단일 이미지 3D 장면 재구성 분야에서 최첨단 성능을 달성합니다.
장기형 멀티모달 비디오 이해는 시각, 음성, 환경 오디오 정보를 통합하고 장기간에 걸친 일관된 추론을 수행해야 합니다. 기존 벤치마크는 시간적 길이 또는 멀티모달 풍부함 중 한쪽을 강조하지만, 둘 모두를 동시에 다루는 경우는 드뭅니다. 일부는 개방형 질문과 고급 지표를 포함하지만, 대부분 단일 정확도 점수에 의존하여 실패 모드를 명확히 파악하기 어렵습니다. 본 연구에서는 개방형 및 의도 기반 질문, 단일 및 다중 턴 대화, 비디오/오디오/음성 간 멀티모달 추론과 에이전트 도구 활용이 필요한 과제로 구성된 진단 벤치마크인 LongShOTBench를 소개합니다. 각 항목에는 해석 가능하고 추적 가능한 평가를 위한 참조 답변과 등급별 채점 기준이 포함됩니다. LongShOTBench는 포괄성과 재현성을 보장하기 위해 확장 가능하고 인간 검증된 파이프라인을 통해 제작되었으며, 모든 샘플은 인간 검수 및 수정을 거쳤습니다. 또한 전처리, 검색, 반복적 정밀 분석을 통해 장기 비디오를 분석하는 에이전트 시스템인 LongShOTAgent를 제시합니다. LongShOTBench에서 최첨단 MLLM들은 큰 성능 격차를 보였습니다: Gemini-2.5-Flash는 52.95%, 오픈소스 모델들은 30% 미만, LongShOTAgent는 44.66%를 달성했습니다. 이러한 결과는 실제 장기형 비디오 이해의 어려움을 강조합니다. LongShOTBench는 MLLM 평가 및 개선을 위한 실용적이고 재현 가능한 기반을 제공합니다. 모든 자료는 GitHub(https://github.com/mbzuai-oryx/longshot)에서 이용 가능합니다.
텍스트-이미지(TTI) 모델은 텍스트 프롬프트를 기반으로 이미지를 생성하는데, 이때 프롬프트가 원하는 이미지의 특정 측면을 애매하게 남기는 경우가 많습니다. 이러한 애매모호함에 직면했을 때 TTI 모델은 해석 과정에서 편향을 보이는 것으로 나타났습니다. 이러한 편향은 특정 직업을 언급했을 때 한 인종만을 보여주는 경우와 같이 사회적 영향을 미칠 수 있습니다. 또한 다양한 가능성을 포괄하기보다 생성된 이미지 집합 내에서 중복성을 만들어내어 사용자 경험에도 영향을 미칠 수 있습니다. 본 논문에서는 TTI 모델이 편향된 출력을 생성하도록 하는 프롬프트를 자동으로 발굴하는 방법인 MineTheGap을 소개합니다. 우리의 방법은 주어진 프롬프트에 대한 편향 감지에 그치지 않습니다. 오히려 유전 알고리즘을 활용하여 프롬프트 풀을 반복적으로 정제하며 편향을 드러내는 프롬프트를 탐색합니다. 이 최적화 과정은 알려진 편향이 존재하는 데이터셋에서 검증한 바와 같이, 편향의 심각도에 따라 순위를 매기는 새로운 편향 점수에 의해 주도됩니다. 주어진 프롬프트에 대해 이 점수는 생성된 이미지의 분포를 해당 프롬프트의 변형을 구성하는 LLM 생성 텍스트의 분포와 비교하여 얻습니다. 코드와 예시는 프로젝트 웹페이지에서 확인할 수 있습니다.