번역이 포함된 일일 선별된 AI 연구 논문
최근 비디오 생성 분야의 발전에서 주목할 만한 현상이 관찰되었는데, 확산 기반 비디오 모델이 비단순적인 추론 능력을 보인다는 점입니다. 기존 연구는 이를 프레임 간 순차적으로 추론이 전개된다고 가정하는 프레임 체인(Chain-of-Frames, CoF) 메커니즘으로 설명해왔습니다. 본 연구에서는 이 가정에 의문을 제기하고 근본적으로 다른 메커니즘을 규명합니다. 우리는 비디오 모델의 추론이 실제로는 확산 노이즈 제거 단계를 따라 주로 발생함을 보여줍니다. 정성적 분석과 표적 탐색 실험을 통해, 모델이 초기 노이즈 제거 단계에서 여러 후보 해결책을 탐색하고 점진적으로 최종 답안으로 수렴하는 과정, 즉 '단계 체인(Chain-of-Steps, CoS)'이라고 명명한 현상을 발견했습니다. 이 핵심 메커니즘 외에도 모델 성능에 중요한 여러 자발적 추론 행동을 확인했습니다: (1) 지속적 참조를 가능하게 하는 작업 기억, (2) 잘못된 중간 해결책으로부터 회복을 허용하는 자기 수정 및 향상, (3) 초기 단계에서 의미론적 기반을 확립하고 후기 단계에서 구조화된 조작을 수행하는 '행동 전 인지'입니다. 또한 개별 확산 단계 내에서 Diffusion Transformer의 자기 진화적 기능 특화를 추가로 규명했는데, 초기 계층은 밀집된 지각 구조를 인코딩하고, 중간 계층은 추론을 실행하며, 후기 계층은 잠재 표현을 통합합니다. 이러한 통찰에 기반하여, 우리는 개념 증명으로 간단한 학습 불필요 전략을 제시합니다. 서로 다른 무작위 시드를 가진 동일 모델들의 잠재 궤적을 앙상블함으로써 추론 능력을 어떻게 향상시킬 수 있는지를 보여줍니다. 전반적으로, 본 연구는 비디오 생성 모델에서 추론이 어떻게 발현되는지에 대한 체계적인 이해를 제공하며, 비디오 모델의 내재적 추론 역학을 지능의 새로운 기반으로 더 잘 활용하는 미래 연구를 안내하는 토대를 마련합니다.
최근 대규모 코드 언어 모델은 일반 프로그래밍 작업에서 놀라운 진전을 이루었습니다. 그러나 하드웨어 의미론, 특화된 언어 구조, 엄격한 자원 제약에 대한 추론이 필요한 산업 현장 시나리오에서는 그 성능이 현저히 저하됩니다. 이러한 문제를 해결하기 위해 우리는 칩 설계, GPU 커널 최적화, 임베디드 시스템, 컴파일러 최적화, 3D 모델링에 이르는 코드 인텔리전스를 통합한 최초의 320억 파라미터 코드 기반 모델인 InCoder-32B(Industrial-Coder-32B)를 소개합니다. 효율적인 아키텍처를 채택하여 InCoder-32B를 일반 코드 사전 학습, 정제된 산업 코드 어닐링, 합성 산업 추론 데이터로 컨텍스트를 8K에서 128K 토큰까지 점진적으로 확장하는 중간 학습, 실행 기반 검증을 통한 사후 학습으로 처음부터 학습시켰습니다. 14개의 주류 일반 코드 벤치마크와 4개의 특화된 도메인을 아우르는 9개의 산업 벤치마크에 대해 광범위한 평가를 수행했습니다. 결과에 따르면 InCoder-32B는 일반 작업에서 매우 경쟁력 있는 성능을 달성하는 동시에 산업 도메인 전반에 걸쳐 강력한 오픈소스 기준을 수립했습니다.
옴니모달 대규모 언어 모델(OLM)은 오디오, 비전, 텍스트를 기본적으로 통합함으로써 인간-기계 상호작용을 재정의합니다. 그러나 기존 OLM 벤치마크는 정적이고 정확도 중심의 과제에 머물러 있어, 자연스러운 대화에서 역동적인 신호를 해석하는 근본적인 능력인 사회적 상호작용성 평가에 중요한 공백이 존재합니다. 이에 우리는 대화적 상호작용성 평가를 다음 세 가지 핵심 차원에서 운영화하는 포괄적 벤치마크인 SocialOmni를 제안합니다: (i) 화자 분리 및 식별(누가 말하는가), (ii) 방해 타이밍 제어(언제 끼어들 것인가), (iii) 자연스러운 방해 발화 생성(어떻게 표현할 것인가). SocialOmni는 2,000개의 인지 샘플과 엄격한 시간적·맥락적 제약이 있는 209개의 품질 관리된 상호작용 생성 진단 세트를 특징으로 하며, 모델 강건성을 테스트하기 위한 통제된 시청각 불일치 시나리오로 보완됩니다. 우리는 12개의 주요 OLM을 벤치마킹한 결과, 모델 간 사회적 상호작용 능력에서 상당한 편차를 확인했습니다. 더 나아가, 우리의 분석은 모델의 인지 정확도와 맥락적으로 적절한 방어 발화 생성 능력 사이에 현저한 분리가 있음을 보여주며, 이는 이해 중심 지표만으로는 대화적 사회적 능력을 규명하기에 부족함을 시사합니다. 더 고무적인 점은 SocialOmni의 이러한 진단이 향후 OLM의 인지-상호작용 간극을 해결하기 위한 실행 가능한 신호를 제공한다는 것입니다.
저희는 복잡한 장기 추론 과제를 위해 설계된 새로운 연구 에이전트인 MiroThinker-1.7을 소개합니다. 이를 기반으로, 더욱 신뢰할 수 있는 다단계 문제 해결을 위한 고성능 추론 능력을 갖춘 MiroThinker-H1을 추가로 선보입니다. 특히 MiroThinker-1.7은 구조화된 계획 수립, 맥락적 추론, 도구 상호작용을 강조하는 에이전트 중간 훈련 단계를 통해 각 상호작용 단계의 신뢰도를 향상시킵니다. 이를 통해 복잡한 작업에 걸쳐 더 효과적인 다단계 상호작용과 지속적 추론이 가능해집니다. MiroThinker-H1은 추론 과정에 지역적 및 전역적 수준에서 검증 기능을 직접 통합합니다. 추론 과정에서 중간 추론 결정을 평가하고 개선할 수 있으며, 전반적인 추론 궤적을 검토하여 최종 답변이 일관된 증거 사슬에 의해 뒷받침되도록 합니다. 오픈 웹 연구, 과학적 추론, 금융 분석을 아우르는 벤치마크에서 MiroThinker-H1은 특화된 영역에서도 강력한 성능을 유지하면서 심층 연구 과제에서 최첨단 성능을 달성했습니다. 또한 MiroThinker-1.7과 MiroThinker-1.7-mini를 오픈소스 모델로 공개하여 경쟁력 있는 연구 에이전트 능력과 크게 향상된 효율성을 제공합니다.
우리는 단일 아키텍처 내에서 문서 파싱, 레이아웃 분석, 문서 이해를 통합한 40억 파라미터 규모의 종단간(end-to-end) 비전-언어 모델인 Qianfan-OCR을 제안한다. 본 모델은 이미지-마크다운 직접 변환을 수행하며, 표 추출, 차트 이해, 문서 질의응답, 핵심 정보 추출 등 다양한 프롬프트 기반 작업을 지원한다. 종단간 OCR에서 명시적인 레이아웃 분석 기능이 상실되는 문제를 해결하기 위해, 특수 사고(think) 토큰에 의해 트리거되는 선택적 사고 단계인 Layout-as-Thought를 제안한다. 이는 최종 출력을 생성하기 전에 구조화된 레이아웃 표현(바운딩 박스, 요소 유형, 읽기 순서)을 생성하여 레이아웃 기반 추론 능력을 회복시키고 복잡한 레이아웃에서의 정확도를 향상시킨다. Qianfan-OCR은 OmniDocBench v1.5(93.12점)와 OlmOCR Bench(79.8점)에서 종단간 모델 중 1위를 차지했으며, OCRBench, CCOCR, DocVQA, ChartQA에서 유사 규모의 범용 비전-언어 모델 대비 경쟁력 있는 결과를 달성했다. 또한 공개 핵심 정보 추출 벤치마크에서 Gemini-3.1-Pro, Seed-2.0, Qwen3-VL-235B를 능가하는 최고 평균 점수를 기록했다. 본 모델은 바이두 AI 클라우드 Qianfan 플랫폼을 통해 공개되어 있다.
최근 멀티모달 대규모 추론 모델(MLRM)의 발전으로 시각 질의응답 성능이 크게 향상되었습니다. 그러나 전환어(예: because, however, wait)는 허구적 응답과 밀접하게 연관되어 있으며 높은 엔트로피 상태를 보이는 경향이 있음을 관찰했습니다. 본 연구에서는 토큰 확률 분포에서 적절한 맥락적 추론 정보를 직접 추출할 수 있다고 주장합니다. 중첩 표현 이론에 착안하여, 잠재적 중첩 추론을 활용해 다중 후보 의미를 통합하고 잠재적 추론 궤적을 유지하는 방법을 제안합니다. 이에 따른 가설은 이산적 텍스트 입력에 대한 의존성이 모델을 순차적 명시적 추론으로 유도하여, 높은 엔트로피 추론 단계에서 밀집된 맥락적 단서를 충분히 활용하지 못하게 할 수 있다는 것입니다. 따라서 토큰 확률 분포에서 풍부한 의미 표현을 구축하여 맥락 내 추론을 강화하고자 합니다. 이를 위해 본 논문에서는 의미적 맥락을 활용해 신뢰할 수 있는 추론을 달성하는 효율적인 플러그앤플레이 디코딩 전략인 잠재 엔트로피 인식 디코딩(LEAD)을 제안합니다. 본 방법론의 핵심은 엔트로피 인식 추론 모드 전환에 있습니다. 모델은 높은 엔트로피 상태에서 확률 가중 연속 임베딩을 사용하며, 엔트로피가 감소함에 따라 이산 토큰 임베딩으로 전환됩니다. 더불어 모델이 시각 정보에 집중하도록 유도하는 사전 지도 시각 앵커 주입 전략을 제안합니다. 다양한 벤치마크에서 여러 MLRM에 걸친 폭넓은 실험을 통해 LEAD가 허구적 응답을 효과적으로 완화함을 입증했습니다.
로봇-환경 상호작용 시뮬레이션은 구현형 AI의 초석입니다. 최근 몇몇 연구에서는 비디오 생성 기술을 활용하여 기존 시뮬레이터의 경직된 시각적/물리적 제약을 넘어서려는 가능성을 보여주었습니다. 그러나 이러한 방법들은 주로 2D 공간에서 작동하거나 정적인 환경 단서에 의존하며, 로봇-환경 상호작용이 정밀한 상호작용 모델링을 필요로 하는 본질적으로 4D 시공간적 사건이라는 근본적인 현실을 간과하고 있습니다. 이러한 4D 본질을 복원하면서도 정확한 로봇 제어를 보장하기 위해, 우리는 Kinema4D라는 새로운 동작 조건부 4D 생성형 로봇 시뮬레이터를 소개합니다. 이 시뮬레이터는 로봇-환경 상호작용을 다음 두 가지로 분리합니다: i) 로봇 제어의 정밀한 4D 표현: 운동학을 통해 URDF 기반 3D 로봇을 구동하여 정밀한 4D 로봇 제어 궤적을 생성합니다. ii) 환경 반응의 생성형 4D 모델링: 4D 로봇 궤적을 포인트맵으로 투영하여 시공간적 시각 신호로 사용하며, 생성 모델을 제어하여 복잡한 환경의 반응적 역학을 동기화된 RGB/포인트맵 시퀀스로 합성합니다. 학습을 용이하게 하기 위해, 우리는 201,426개의 로봇 상호작용 에피소드와 고품질 4D 주석을 포함하는 대규모 데이터셋인 Robo4D-200k를 구축했습니다. 광범위한 실험을 통해 우리의 방법이 물리적으로 타당하고 기하학적으로 일관되며 구현체에 독립적인 상호작용을 효과적으로 시뮬레이션하여 다양한 실제 세계 역학을 충실히 반영함을 입증했습니다. 이는 최초로 제로샷 전이 가능성을 보여주며, 차세대 구현형 시뮬레이션 발전을 위한 고충실도 기반을 제공합니다.
비디오 확산 트랜스포머의 최근 발전으로 사용자가 생성된 환경을 장기간에 걸쳐 탐색할 수 있는 인터랙티브 게임 월드 모델이 가능해졌습니다. 그러나 기존 접근법은 정확한 행동 제어와 장기적 3D 일관성 유지에 어려움을 겪고 있습니다. 대부분의 기존 연구는 사용자 행동을 추상적인 조건화 신호로 취급하여, 행동이 상대적인 카메라 운동을 유발하고 이 운동이 3D 세계 내에서 글로벌 카메라 포즈로 누적되는 행동과 3D 세계 간의 근본적인 기하학적 결합 관계를 간과해 왔습니다. 본 논문에서는 즉각적인 행동 제어와 장기적 3D 일관성을 공동으로 구현하기 위한 통합 기하학적 표현으로 카메라 포즈를 정립합니다. 첫째, 물리 기반의 연속 행동 공간을 정의하고 리 대수에서 사용자 입력을 표현하여 정밀한 6자유도 카메라 포즈를 도출하며, 이를 카메라 임베더를 통해 생성 모델에 주입하여 정확한 행동 정렬을 보장합니다. 둘째, 글로벌 카메라 포즈를 공간 인덱스로 활용하여 관련 과거 관측치를 검색함으로써 장기적 탐색 중 위치의 기하학적 일관성을 유지하며 재방문이 가능하도록 합니다. 본 연구를 지원하기 위해 카메라 궤적과 텍스트 설명이 주석 처리된 3,000분 분량의 실제 인간 게임 플레이로 구성된 대규모 데이터셋을 도입했습니다. 광범위한 실험을 통해 우리의 접근 방식이 행동 제어성, 장기적 시각적 품질, 3D 공간 일관성에서 최첨단 인터랙티브 게임 월드 모델을 크게 능가함을 보여줍니다.
대규모 언어 모델을 개선하기 위한 기존 패러다임은 인간의 주석이나 시뮬레이션 환경을 활용한 오프라인 학습에 의존하여, 실제 배포 과정에서 누적된 풍부한 경험을 전혀 활용하지 못하고 있습니다. 본 연구에서는 언어 모델이 자체 배포 경험으로부터 지속적으로 개선될 수 있도록 하는 온라인 체험 학습(OEL) 프레임워크를 제안합니다. OEL은 두 단계로 운영됩니다. 첫째, 사용자 측에서 수집된 상호작용 트레이젝토리로부터 전이 가능한 체험적 지식을 추출 및 축적합니다. 둘째, 온-정책 컨텍스트 증류를 통해 이 지식을 모델 파라미터에 통합하며, 이 과정에서 사용자 측 환경에 대한 접근이 필요하지 않습니다. 이 두 단계는 반복되어 온라인 학습 루프를 형성하며, 개선된 모델은 더 높은 품질의 트레이젝토리를 수집하여 후속 라운드에 더 풍부한 체험적 지식을 제공합니다. 우리는 다양한 모델 규모와 사고/비사고 변형 모델에 걸쳐 텍스트 기반 게임 환경에서 OEL을 평가했습니다. OEL은 연속적인 반복을 통해 일관된 성능 향상을 달성하며, 작업 정확도와 토큰 효율성을 동시에 높이고 분포 외 성능을 보존했습니다. 우리의 분석은 추가적으로 추출된 체험적 지인이 원본 트레이젝토리보다 훨씬 더 효과적이며, 지식 원천과 정책 모델 간의 온-정책 일관성이 효과적인 학습에 중요함을 보여줍니다.
Text-to-SQL 파싱은 전체 스키마 가정 하에 놀라운 발전을 이루었습니다. 그러나 실제 기업 환경에서는 데이터베이스에 방대한 노이즈 메타데이터를 포함한 수백 개의 테이블이 존재하여 이러한 전제가 성립되지 않습니다. 전체 스키마를 사전에 주입하는 대신, 에이전트는 관련된 부분집합만을 능동적으로 식별하고 검증해야 하며, 이는 본 연구에서 다루는 알려지지 않은 스키마 시나리오를 야기합니다. 이를 해결하기 위해 우리는 TRUST-SQL(Truthful Reasoning with Unknown Schema via Tools)을 제안합니다. 우리는 이 작업을 부분 관측 마르코프 결정 과정으로 공식화하며, 우리의 자율 에이전트는 검증된 메타데이터에 기반한 추론을 위해 구조화된 4단계 프로토콜을 사용합니다. 중요한 것은, 이 프로토콜이 우리의 새로운 이중 트랙 GRPO 전략을 위한 구조적 경계를 제공한다는 점입니다. 토큰 수준 마스크 장점을 적용함으로써 이 전략은 신용 할당 문제를 해결하기 위해 탐사 보상을 실행 결과로부터 분리하며, 표준 GRPO 대비 9.9%의 상대적 성능 향상을 달성했습니다. 5개 벤치마크에 대한 폭넓은 실험을 통해 TRUST-SQL이 4B 및 8B 변형 각각에 대해 기본 모델 대비 평균 30.6%, 16.6%의 절대적 성능 향상을 달성함을 입증했습니다. 주목할 점은, 사전 로드된 메타데이터 없이 전적으로 운영됨에도 불구하고, 우리의 프레임워크가 스키마 사전 채우기에 의존하는 강력한 베이스라인을 지속적으로 따라잡거나 능가한다는 것입니다.
대규모 언어 모델(LLM)의 금융 영역 통합은 수동적 정보 검색에서 능동적 상호작용으로의 패러다임 전환을 주도하고 있습니다. 범용 도구 학습 분야에서는 벤치마크가 급증했으나, 높은 위험, 엄격한 규정 준수, 빠른 데이터 변동성을 특징으로 하는 금융 부문은 여전히 심각한 평가 도구 부족 상태에 있습니다. 기존 금융 평가는 주로 정적 텍스트 분석이나 문서 기반 질의응답에 초점을 맞추어, 도구 실행의 복잡한 현실을 간과하고 있습니다. 반면, 일반 도구 벤치마크는 금융에 필요한 영역 특화적 엄격성이 부족한 경우가 많으며, 단순한 실험 환경이나 극소수의 금융 API에 의존합니다. 이러한 격차를 해소하기 위해 우리는 금융 도구 학습 에이전트 평가를 위한 최초의 실제 실행 가능한 벤치마크인 FinToolBench를 소개합니다. 소수의 모의 도구에 국한된 기존 연구와 달리, FinToolBench는 760개의 실행 가능한 금융 도구와 275개의 엄격한 도구 필수 쿼리를 결합한 현실적인 생태계를 구축합니다. 우리는 단순한 실행 성공 여부를 넘어 금융 핵심 차원(시의성, 의도 유형, 규제 영역 정합성)에서 에이전트를 평가하는 새로운 평가 프레임워크를 제안합니다. 더 나아가 안정성과 규정 준수를 강화하는 금융 인식 도구 검색 및 추론 기법인 FATR을 제시합니다. 검증 가능한 능동적 금융 실행을 위한 최초의 테스트베드를 제공함으로써, FinToolBench는 금융 분야 신뢰할 수 있는 AI의 새로운 기준을 제시합니다. 도구 매니페스트, 실행 환경 및 평가 코드는 향후 연구를 촉진하기 위해 오픈소스로 공개될 예정입니다.
많은 대규모 언어 모델 애플리케이션은 긴 문맥을 조건으로 사용해야 합니다. 트랜스포머는 일반적으로 과거 활성화 값을 각 계층별로 대규모 KV 캐시에 저장하여 이를 지원하지만, 이는 상당한 메모리 오버헤드를 초래합니다. 바람직한 대안은 압축 메모리입니다. 즉, 문맥을 한 번 읽고 간결한 상태로 저장한 후, 그 상태에서 여러 쿼리에 답하는 방식입니다. 우리는 추론 시점에 원본 문맥에 접근하지 않고 답을 생성해야 하는 문맥 제거 설정에서 이를 연구합니다. 우리는 샘플별 추론 시 최적화를 통해 문맥을 메모리에 기록하는 GradMem을 소개합니다. GradMem은 주어진 문맥에 대해 모델 가중치는 고정한 채 소규모 접두사 메모리 토큰 집합에 대해 몇 단계의 경사 하강법을 수행합니다. GradMem은 모델 수준의 자기 지도 문맥 재구성 손실을 명시적으로 최적화하여, 순전파 전용 방법과 달리 반복적 오류 수정이 가능한 손실 기반 기록 연산을 구현합니다. 연관 키-값 검색 과제에서 GradMem은 동일한 메모리 크기를 가진 순전파 전용 메모리 기록 방법을 능가하며, 추가적인 경사 하강 단계는 반복적인 순전파 기록보다 용량 확장에 훨씬 더 효과적입니다. 우리는 더 나아가 GradMem이 합성 벤치마크를 넘어서서 전이됨을 보여줍니다: 사전 학습된 언어 모델을 사용하여 bAbI 및 SQuAD 변형을 포함한 자연어 처리 과제에서 메모리에 인코딩된 정보만을 의존하여 경쟁력 있는 결과를 달성합니다.
최근 플로우 매칭 모델들은 픽셀 공간에서 직접 연산함으로써 잠재 오토인코더의 재구성 병목 현상을 회피하지만, 픽셀 다양체 내 의미론적 연속성의 부재는 최적 전송 경로를 심각하게 뒤얽히게 합니다. 이로 인해 교차점 근처에서 심각한 궤적 충돌이 발생하여 차선책 해결책을 야기합니다. 정보 손실이 수반되는 잠재 표현을 통해 이 문제를 우회하기보다, 우리는 Waypoint Diffusion Transformers(WiT)를 제안하여 픽셀 공간 궤적을 직접적으로 풀어냅니다. WiT는 사전 학습된 비전 모델에서 투영된 중간 의미론적 웨이포인트를 통해 연속 벡터장을 인수분해합니다. 이는 최적 전송을 사전 분포-웨이포인트와 웨이포인트-픽셀 구간으로 분해함으로써 생성 궤적을 효과적으로 분리합니다. 구체적으로, 반복적 노이즈 제거 과정에서 경량 생성기가 현재 노이즈 상태로부터 이러한 중간 웨이포인트를 동적으로 추론합니다. 이후 이들은 Just-Pixel AdaLN 메커니즘을 통해 주 확산 트랜스포머를 지속적으로 조건화하여, 다음 상태를 향한 진화를 주도하고 최종적으로 최종 RGB 픽셀을 생성합니다. ImageNet 256x256에서 평가한 결과, WiT는 강력한 픽셀 공간 기준 모델들을 능가하며 JiT 학습 수렴 속도를 2.2배 가속시켰습니다. 코드는 https://github.com/hainuo-wang/WiT.git에서 공개될 예정입니다.
통합 멀티모달 모델(UMM)은 시각 생성 구성 요소의 사전 학습에 의해 종종 제약을 받으며, 이는 일반적으로 비효율적인 패러다임과 부족한 고품질 텍스트-이미지 쌍 데이터에 의존합니다. 본 논문에서는 UMM 시각 생성을 위한 사전 학습 방법을 체계적으로 분석하고 이 두 가지 문제가 주요 병목 현상임을 확인합니다. 이를 해결하기 위해 우리는 데이터 효율적인 2단계 학습 프레임워크인 **IOMM(Image-Only Training for UMMs)**을 제안합니다. 첫 번째 단계에서는 풍부한 레이블 없는 이미지 전용 데이터만을 사용하여 시각 생성 구성 요소를 사전 학습함으로써, 이 고비용 단계에서 쌍 데이터에 대한 의존성을 제거합니다. 두 번째 단계에서는 레이블 없는 이미지와 소량의 정제된 텍스트-이미지 쌍 데이터 세트를 혼합하여 모델을 미세 조정함으로써, 향상된 지시어 준수도와 생성 품질을 달성합니다. 광범위한 실험을 통해 IOMM이 학습 효율성을 향상시킬 뿐만 아니라 최첨단(SOTA) 성능을 달성함을 보여줍니다. 예를 들어, 우리의 IOMM-B (3.6B) 모델은 약 1050 H800 GPU 시간(그중 대부분인 1000시간은 효율적인 이미지 전용 사전 학습 단계에 사용됨)만으로 처음부터 학습되었습니다. 이 모델은 GenEval에서 0.89, WISE에서 0.55를 달성하여 BAGEL-7B (0.82 & 0.55) 및 BLIP3-o-4B (0.84 & 0.50)와 같은 강력한 기준 모델을 능가합니다. 코드는 https://github.com/LINs-lab/IOMM에서 확인할 수 있습니다.
다중 턴, 다중 에이전트 LLM 게임 평가는 종종 실행 간 변동성이 크게 나타납니다. 장기 상호작용에서 초기의 작은 편차가 턴을 거듭하며 누적되고 다중 에이전트 결합에 의해 증폭됩니다. 이는 승률 추정치를 편향시키고 반복 토너먼트 간 순위를 신뢰할 수 없게 만듭니다. 프롬프트 선택은 서로 다른 효과적 정책을 생성함으로써 이 문제를 더욱 악화시킵니다. 우리는 MEMO(Memory-augmented MOdel context optimization)를 통해 이러한 불안정성과 낮은 성능을 동시에 해결합니다. MEMO는 보존과 탐색을 결합하여 추론 시점 컨텍스트를 최적화하는 자기 대결(self-play) 프레임워크입니다. 보존(retention)은 자기 대결 경로에서 얻은 구조화된 통찰력을 저장하는 지속적 메모리 뱅크를 유지하고, 이후 게임에서 이를 사전 정보로 주입합니다. 탐색(exploration)은 TrueSkill을 통한 불확실성 인식 선택으로 토너먼트 형식의 프롬프트 진화를 실행하며, 우선순위 재생(prioritized replay)을 사용해 희귀하고 결정적인 상태를 재방문합니다. 5가지 텍스트 기반 게임에서 MEMO는 태스크당 2,000회의 자기 대결 게임을 통해 GPT-4o-mini의 평균 승률을 25.1%에서 49.5%로, Qwen-2.5-7B-Instruct의 평균 승률을 20.9%에서 44.3%로 향상시켰습니다. 실행 간 변동성도 감소하여 프롬프트 변형에 걸쳐 더 안정적인 순위를 제공합니다. 이러한 결과는 다중 에이전트 LLM 게임의 성능과 강건성이 컨텍스트 최적화를 통해 개선될 여지가 크다는 것을 시사합니다. MEMO는 협상 및 불완전 정보 게임에서 가장 큰 성능 향상을 달성한 반면, 완전 정보 환경에서는 여전히 강화 학습이 더 효과적입니다.
대규모 언어 모델(LLM)이 도구 활용 에이전트로 진화했음에도 불구하고, 장기적인 상호작용에서는 여전히 취약한 모습을 보입니다. 수학적 추론에서 오류는 역추적을 통해 수정 가능한 경우가 많은 반면, 도구 사용 실패는 종종 되돌릴 수 없는 부작용을 초래하므로 정확한 단계별 검증이 매우 중요합니다. 그러나 기존의 프로세스 수준 벤치마크는 주로 폐쇄적인 수학 영역에 한정되어 있어 도구 실행의 동적이고 개방적인 특성을 제대로 반영하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 현실적인 도구 보강 궤적에서 단계별 효과성을 평가하는 최초의 벤치마크인 AgentProcessBench를 소개합니다. 이 벤치마크는 1,000개의 다양한 궤적과 8,509개의 인간 주석가가 단계별로 라벨링한 데이터(주석가 간 일치도 89.1%)로 구성됩니다. 탐색 과정을 포착하기 위한 3분법 라벨링 체계와 라벨링 모호성을 줄이기 위한 오류 전파 규칙을 특징으로 합니다. 광범위한 실험을 통해 다음과 같은 핵심 통찰을 얻었습니다: (1) 약한 정책 모델은 조기 종료로 인해 정확한 단계의 비율이 과대평가된다, (2) 중립적 행동과 오류 행동을 구분하는 것은 현재 모델들에게 여전히 큰 과제이다, (3) 프로세스에서 도출된 신호는 결과 기반 감독에 보완적 가치를 제공하여 테스트 시 스케일링을 크게 향상시킨다. AgentProcessBench가 향후 보상 모델 연구를 촉진하고 범용 에이전트로 가는 길을 열어가기를 기대합니다. 코드와 데이터는 https://github.com/RUCBM/AgentProcessBench에서 확인할 수 있습니다.
고품질 기계 번역(MT)은 수백 개의 언어로 확장 가능하여 다국어 시스템에 높은 기준을 제시합니다. 그러나 전 세계 7,000개 언어와 비교할 때 현재 시스템의 지원 범위는 여전히 제한적입니다: 목표 언어 약 200개, 그리고 교차 언어 전이 덕분에 지원되는 소스 언어는 수백 개 더 될 뿐입니다. 이러한 숫자조차도 신뢰할 수 있는 벤치마크와 측정 기준의 부재로 평가하기 어려웠습니다. 본 논문은 1,600개 이상의 언어를 지원하는 최초의 MT 시스템인 Omnilingual Machine Translation(OMT)을 소개합니다. 이러한 규모는 대규모 공공 다국어 코퍼스와 수동으로 정제된 MeDLEY 병렬 텍스트를 포함한 새로 생성된 데이터셋을 통합한 포괄적인 데이터 전략을 통해 가능해졌습니다. 우리는 대형 언어 모델(LLM)을 기계 번역에 특화시키는 두 가지 방식을 탐구합니다: 디코더 전용 모델(OMT-LLaMA)로 활용하거나 인코더-디코더 아키텍처의 모듈(OMT-NLLB)로 활용하는 방식입니다. 특히, 1B부터 8B 파라미터 규모의 모든 모델이 70B LLM 기준 모델의 MT 성능을 따라잡거나 능가하여, 명확한 특화 이점과 저사양 환경에서도 강력한 번역 품질을 가능하게 함을 보여줍니다. 더 나아가, 영어에서 1,600개 언어로의 번역 평가 결과는 기준 모델이 지원이 미흡한 언어를 해석할 수는 있지만 의미 있는 정확도로 생성하는 데는 자주 실패하는 반면, OMT-LLaMA 모델은 응집성 있는 생성이 가능한 언어 집합을 크게 확장합니다. 또한 OMT 모델은 교차 언어 전이 성능이 향상되어 평가 대상 1,600개 언어에 대한 MT의 '이해' 부분의 해결에 가까워졌습니다. 우리의 리더보드와 주요 인간 평가 데이터셋(BOUQuET 및 Met-BOUQuET)은 범세계적 언어 지원을 지향하며 동적으로 발전 중이며 자유롭게 이용 가능합니다.
체인 오브 사고 추론 능력을 갖춘 대규모 언어 모델(LLM)은 복잡한 문제 해결 과제에서 최첨단 성능을 달성하지만, 장황한 추론 흔적과 큰 맥락 요구 사항으로 인해 에지 환경 배포에는 비실용적입니다. 이러한 과제에는 높은 토큰 생성 비용, 큰 KV 캐시 공간 점유, 모바일 기기를 위한 소형 모델로 추론 능력을 추출할 때의 비효율성이 포함됩니다. 기존 접근법은 대형 모델에서 소형 모델로 장황하고 스타일적으로 중복된 추론 흔적을 추출하는 데 의존하는 경우가 많으며, 이는 온디바이스 추론에는 바람직하지 않습니다. 본 연구에서는 LoRA 어댑터와 지도 미세 조정을 결합하여 소형 LLM의 추론 능력을 활성화하는 경량 접근법을 제안합니다. 또한 이러한 어댑터에 강화 학습을 통한 예산 강제를 도입하여 정확도 손실을 최소화하면서 응답 길이를 크게 줄입니다. 메모리 한계 디코딩 문제를 해결하기 위해 병렬 테스트 타임 스케일링을 활용하여 약간의 지연 시간 증가만으로 정확도를 향상시킵니다. 마지막으로 필요할 때만 추론을 활성화하는 동적 어댑터 전환 메커니즘과 프롬프트 인코딩 시 KV 캐시 공유 전략을 제시하여 온디바이스 추론의 첫 토큰까지의 시간을 단축합니다. Qwen2.5-7B에 대한 실험 결과, 우리의 방법이 엄격한 자원 제약 조건 하에서도 효율적이고 정확한 추론을 달성하여 모바일 시나리오에 LLM 추론을 실용적으로 만드는 것을 확인했습니다. 모바일 기기에서 구동되는 우리 솔루션의 데모 영상은 프로젝트 페이지에서 확인할 수 있습니다.
에이전트 스킬은 추론 시점에 주입되는 구조화된 절차적 지식 패키지로, 소프트웨어 엔지니어링 작업에서 LLM 에이전트의 성능을 강화하기 위해 점점 더 많이 사용되고 있습니다. 그러나 종단간 개발 환경에서의 실제 유용성은 여전히 불분명합니다. 본 연구에서는 실제 소프트웨어 엔지니어링(SWE)에서 에이전트 스킬의 한계 효용을 분리하여 평가하는 최초의 요구사항 기반 벤치마크인 SWE-Skills-Bench를 소개합니다. 이 벤치마크는 49개의 공개 SWE 스킬을 특정 커밋으로 고정된 실제 GitHub 저장소 및 명시적인 수용 기준이 포함된 요구사항 문서와配对하여, 6개의 SWE 하위 도메인에 걸쳐 약 565개의 작업 인스턴스를 생성합니다. 또한 각 작업의 수용 기준을 실행 기반 테스트에 매핑하는 결정론적 검증 프레임워크를 도입하여, 스킬 사용 여부에 따른 통제된 쌍별 평가를 가능하게 합니다. 우리의 결과는 스킬 주입의 이점이 빠른 도입 속도가 시사하는 것보다 훨씬 제한적임을 보여줍니다: 49개 스킬 중 39개는 합격률 개선 효과가 전혀 없었으며, 평균 개선률은 단 +1.2%에 불과했습니다. 토큰 오버헤드는 적절한 절감에서 451% 증가에 이르렀지만 합격률은 변하지 않았습니다. 오직 7개의 특화된 스킬만이 의미 있는 개선(최대 +30%)을 가져온 반면, 3개의 스킬은 버전 불일치로 인한 지침이 프로젝트 컨텍스트와 충돌하여 성능을 저하시켰습니다(최대 -10%). 이러한 결과는 에이전트 스킬이 도메인 적합성, 추상화 수준, 컨텍스트 호환성에 크게 의존하는 제한된 개입 수단임을 시사합니다. SWE-Skills-Bench는 소프트웨어 엔지니어링 에이전트의 스킬 설계, 선택, 배포를 평가하기 위한 테스트베드를 제공합니다. SWE-Skills-Bench는 https://github.com/GeniusHTX/SWE-Skills-Bench에서 이용 가능합니다.
우리는 기존의 3D 생성 모델을 3D 부품 분할(part segmentation) 목적으로 재활용하는 SegviGen 프레임워크를 소개한다. 기존 파이프라인은 강력한 2D 사전 지식(prior)을 증류(distillation) 또는 다중 뷰 마스크 집계를 통해 3D로 전환하는 방식(시각 간 불일치와 흐린 경계 문제가 흔함)이나, 본질적인 3D 판별 분할 방식(대규모 주석 처리된 3D 데이터와 상당한 학습 자원 필요)을 탐구해왔다. 이와 대조적으로 SegviGen은 사전 학습된 3D 생성 모델에 인코딩된 구조화된 사전 지식을 활용하여 독특한 부품 채색(colorization)을 통해 분할을 유도함으로써, 새롭고 효율적인 부품 분할 프레임워크를 구축한다. 구체적으로 SegviGen은 3D 자산을 인코딩하고 기하학적으로 정렬된 재구성의 활성 복셀에 부품 지시 색상을 예측한다. 이는 통합 프레임워크 내에서 인터랙티브 부품 분할, 전체 분할, 그리고 2D guidance를 활용한 전체 분할을 지원한다. 폭넓은 실험 결과, SegviGen은 레이블된 학습 데이터의 0.32%만을 사용하면서 기존 최고 기술 대비 인터랙티브 부품 분할에서 40%, 전체 분할에서 15% 향상된 성능을 보여준다. 이는 사전 학습된 3D 생성 사전 지식이 3D 부품 분할 작업에 효과적으로 전이되어 제한된 감독 하에서도 강력한 성능을 가능하게 함을 입증한다. 자세한 내용은 프로젝트 페이지(https://fenghora.github.io/SegviGen-Page/)를 참조한다.
Video Super-Resolution(VSR)은 저해상도(LR) 입력으로부터 고품질 비디오 프레임을 복원하는 것을 목표로 하지만, 기존 대부분의 VSR 방법은 추론 시 블랙박스처럼 동작합니다. 즉, 사용자는 예상치 못한 아티팩트를 안정적으로 수정할 수 없고 모델이 생성하는 결과를 수용할 수밖에 없습니다. 본 논문에서는 희소 키프레임을 간단하면서도 표현력 있는 제어 신호로 활용하는 새로운 상호작용형 VSR 프레임워크인 SparkVSR을 제안합니다. 구체적으로, 사용자는 먼저 기존의 어떤 이미지 초해상도(ISR) 모델을 사용해 소량의 키프레임 집합을 초해상도로 변환한 후(선택적), SparkVSR이 키프레임 사전 정보를 전체 비디오 시퀀스로 전파하되 원본 LR 비디오의 모션에 기반을 둡니다. 이를 위해 우리는 키프레임 조건부 잠재-픽셀 2단계 학습 파이프라인을 도입하여 LR 비디오 잠재 표현과 희소하게 인코딩된 고해상도(HR) 키프레임 잠재 표현을 융합하여 강건한 교차 공간 전파를 학습하고 지각적 디테일을 정제합니다. 추론 시에는 SparkVSR이 유연한 키프레임 선택(수동 지정, 코덱 I-프레임 추출, 무작위 샘플링)과 참조 없는 guidance 메커니즘을 지원하여 키프레임 준수와 블라인드 복원 사이의 지속적인 균형을 유지합니다. 이는 참조 키프레임이 없거나 불완전한 경우에도 강건한 성능을 보장합니다. 여러 VSR 벤치마크에서의 실험은 향상된 시간적 일관성과 우수한 복원 품질을 입증하며, 기준 방법 대비 CLIP-IQA, DOVER, MUSIQ에서 각각 최대 24.6%, 21.8%, 5.6% 향상된 결과를 보여 제어 가능한 키프레임 주도 비디오 초해상도를 가능하게 합니다. 더 나아가 SparkVSR이 구형 필름 복원 및 비디오 스타일 변환과 같은 본 적 없는 작업에도 바로 적용될 수 있는 일반적인 상호작용형 키프레임 조건부 비디오 처리 프레임워크임을 입증합니다. 우리의 프로젝트 페이지는 https://sparkvsr.github.io/에서 확인할 수 있습니다.
우리는 하전 플라즈마의 운동을 설명하는 Vlasov-Maxwell-Landau(VML) 시스템의 평형 상태 특성화에 대한 완전한 Lean 4 형식화를 제시한다. 이 프로젝트는 AI 기반 수학 연구의 전체 순환 과정을 보여준다: AI 추론 모델(Gemini DeepThink)이 추측에서 증명을 생성하고, 에이전트 코딩 도구(Claude Code)가 자연어 프롬프트에서 Lean 코드로 변환하였으며, 특화된 증명기(Aristotle)가 111개의 보조정리를 해결하고, Lean 커널이 결과를 검증하였다. 단 한 명의 수학자가 10일 동안 과정을 감독했으며 비용은 200달러였고 코드는 한 줄도 작성하지 않았다. 전체 개발 과정은 공개되어 있다: 모든 229개의 인간 프롬프트와 213개의 git 커밋이 저장소에 보관된다. 우리는 AI 실패 모드(가설 범람, 정의 정렬 버그, 에이전트 회피 행동)와 효과적인 방법(추상/구체적 증명 분할, 적대적 자가 검토, 핵심 정의 및 정리 문장에 대한 인간 검토의 중요성)에 대한 상세한 교훈을 보고한다. 특히, 해당 수학 논문의 최종 초안이 완성되기 전에 형식화가 완료되었다는 점이 주목할 만하다.
장거리 컨텍스트 처리 능력은 언어 모델의 핵심 과제로 남아 있습니다: 확장된 컨텍스트 창이 제공되더라도 모델은 장거리 컨텍스트에 걸친 정보를 안정적으로 추출하고, 추론하며, 활용하는 데 종종 실패합니다. Recursive Language Models(RLM)와 같은 최근 연구들은 추론 시 프로그램적 상호작용을 통해 장거리 컨텍스트를 재귀적 하위 호출로 분해하는 에이전시 방식으로 이 문제에 접근했습니다. 유망하지만 RLM의 성공은 이러한 컨텍스트-상호작용 프로그램이 어떻게 선택되느냐에 크게 좌우되며, 이는 여전히 크게 탐구되지 않은 영역입니다. 본 논문에서는 이 문제를 연구하고, 불확실성 인식 자기 반성(Self-Reflection)을 통해 프로그램적 컨텍스트 상호작용을 강화하는 프레임워크인 SRLM을 소개합니다. SRLM은 자기 일관성(self consistency), 추론 길이(reasoning length), 언어화된 확신(verbalized confidence)이라는 세 가지 내재적 신호를 활용합니다. 이들은 모델의 내부 불확실성에 대한 보완적 지표로 작용하며, 모델은 이를 사용하여 후보 컨텍스트-상호작용 프로그램을 평가하고 비교합니다. 다양한 벤치마크 데이터셋, 컨텍스트 길이, 백본 모델을 통한 광범위한 실험 결과, SRLM이 최신 기준선을 꾸준히 능가하며, 동일한 시간 예산 하에서 RLM 대비 최대 22%의 성능 향상을 보여주었습니다. 우리의 연구 결과는 RLM에서 성능의 주요 동인이 재귀 자체가 아니며, 단순한 자기 반성적 프로그램 탐색으로도 자체 질의나 명시적 재귀 메커니즘 없이 RLM을 따라잡거나 능가할 수 있음을 보여줍니다. 모델의 컨텍스트 창 범위 내 길이에서는 재귀를 사용하는 RLM이 기본 모델 대비 성능을 저하시키는 경우가 많은 반면, SRLM은 짧은 컨텍스트와 긴 컨텍스트 모두에서 일관된 성능 향상을 가져옵니다. 또한 RLM은 휴리스틱 프로그램 탐색으로는 부족하고 더 넓은 컨텍스트 이해가 필요한 의미론적으로 집약적인 작업에서는 덜 효과적인 반면, SRLM의 자기 반성은 이러한 시나리오에서 추론을 더 잘 안내하는 의미론적 신호를 제공함을 발견했습니다.
보정되지 않은 단안 비디오로부터의 실시간 재구성은 동적 환경에서 높은 정밀도의 포즈 추정과 계산적으로 효율적인 온라인 정교화를 모두 요구하기 때문에 여전히 어려운 과제로 남아 있습니다. 3D 파운데이션 모델을 SLAM 프레임워크와 결합하는 것은 유망한 패러다임이지만, 중요한 병목 현상이 지속됩니다: 대부분의 다중 뷰 파운데이션 모델은 피드포워드 방식으로 포즈를 추정하여 엄격한 기하학적 최적화에 필요한 정밀도를 갖추지 못한 픽셀 수준의 대응점을 생성합니다. 이를 해결하기 위해, 우리는 다중 뷰 파운데이션 모델에 정교한 조밀한 대응점 생성을 위한 전용 매칭 헤드를 추가하고 이를 강력한 단안 가우시안 스플래팅 SLAM에 통합한 M^3을 제안합니다. M^3은 동적 영역 억제 및 교차 추론 내부 파라미터 정렬을 통합하여 추적 안정성을 더욱 향상시킵니다. 다양한 실내 및 실외 벤치마크에서 진행한 광범위한 실험을 통해 포즈 추정과 장면 재구성 모두에서 최첨단 정확도를 입증했습니다. 특히 M^3은 ScanNet++ 데이터셋에서 VGGT-SLAM 2.0 대비 ATE RMSE를 64.3% 감소시키고, ARTDECO보다 PSNR에서 2.11 dB 더 우수한 성능을 보였습니다.
신뢰할 수 있는 평가는 대규모 언어 모델을 개발하고 배포하는 데 필수적이지만, 실제로는 상당한 수동 작업이 필요한 경우가 많습니다. 실무자는 적절한 벤치마크를 식별하고, 이질적인 평가 코드베이스를 재현하며, 데이터셋 스키마 매핑을 구성하고, 집계된 메트릭을 해석해야 합니다. 이러한 문제를 해결하기 위해 우리는 자연어 평가 요청을 실행 가능하고 추적 가능하며 사용자 정의가 가능한 평가 워크플로로 변환하는 에이전트 기반 평가 시스템인 One-Eval을 제안합니다. One-Eval은 (i) 의도 구조화 및 개인화된 벤치마크 계획을 위한 NL2Bench, (ii) 실행 가능성을 보장하기 위한 벤치마크 해결, 자동 데이터셋 획득 및 스키마 정규화를 담당하는 BenchResolve, (iii) 작업 인식 메트릭 선택 및 스칼라 점수 이상의 의사 결정 지향 보고를 위한 Metrics & Reporting을 통합합니다. 본 시스템은 또한 검토, 편집 및 롤백을 위한 인간 참여형 검증 지점을 포함하며, 디버깅과 감사 가능성을 위한 샘플 증적 트레일을 보존합니다. 실험 결과, One-Eval은 최소한의 사용자 노력으로 다양한 자연어 요청에서 종단 간 평가를 실행할 수 있어 산업 현장에서 더 효율적이고 재현 가능한 평가를 지원함을 확인했습니다. 우리의 프레임워크는 https://github.com/OpenDCAI/One-Eval에서 공개되어 있습니다.
비전-언어 모델의 급속한 발전에 따라 SVG 생성 작업에 대한 잠재력을 탐구하는 연구가 점차 증가하고 있습니다. 기존 접근법들은 대규모 SVG 데이터셋을 구축하고 SVG 전용 토큰을 도입하여 성능을 향상시키지만, 여전히 제한된 일반화 성능, 코드 출력에서의 불필요한 경로 문제, 명시적 추론 부재 등의 한계를 지닙니다. 본 연구에서는 SVG 생성 과정에서 모델의 추론 과정을 명시적으로 드러내는 사고 사슬(chain-of-thought) 메커니즘을 도입한 통합 프레임워크인 CTRL-S(Chain-of-Thought Reinforcement Learning for SVG)를 제안합니다. 이러한 구조화된 추론을 지원하기 위해 SVG 코드 정제, 텍스트-to-SVG, 이미지-to-SVG 작업에 걸쳐 14만 5천 개의 샘플을 포함한 고품질 데이터셋인 SVG-Sophia를 구축했습니다. 그룹 수준의 구조화된 SVG 코드를 생성하도록 모델을 학습시킴으로써 CTRL-S는 구조적 일관성과 시각적 정확도를 크게 향상시킵니다. 더 나아가 GRPO 알고리즘을 채택하고 DINO, 이미지-텍스트 유사도, 형식, 코드 효율성 보상을 포함한 다중 보상 최적화 프레임워크를 설계합니다. 공동 다중 보상 최적화 및 다중 작업 학습을 통해 우리의 접근법은 전체 생성 능력을 체계적으로 향상시킵니다. 광범위한 실험을 통해 CTRL-S가 기존 방법들을 능가하며 더 높은 작업 성공률, 우수한 SVG 코드 품질, 그리고 탁월한 시각적 정확도를 달성함을 입증합니다.
카테고리 분포에서의 샘플링은 수학적으로 간단하지만, 대규모 어휘 집합을 다루는 디코딩 과정에서는 언어 모델 헤드 연산 이후 추가 메모리 트래픽과 추가 커널 실행을 자주 유발합니다. 본 논문에서는 샘플링을 LM 헤드 행렬 곱셈에 융합하고 로짓 텐서를 HBM에 물리적으로 저장하지 않는 정확한 샘플링 기법인 FlashSampling을 제안합니다. 이 방법은 단순합니다: 온칩에서 타일 단위로 로짓을 계산하고, 검블 노이즈를 추가하며, 행과 어휘 타일마다 하나의 최대값만 유지한 후 타일 간 소규모 리덕션으로 마무리합니다. 이 융합 타일 커널은 argmax가 분할 영역에서 분해 가능하기 때문에 정확합니다. 온라인 및 텐서 병렬 환경을 위한 그룹화 변형은 카테고리 분포의 계층적 인수분해를 통해 정확성을 보장합니다. H100, H200, B200, B300 GPU에서 FlashSampling은 커널 수준 디코딩 워크로드의 속도를 높이며, 종단 간 vLLM 실험에서 테스트한 모델들의 출력 토큰당 소요 시간을 최대 19%까지 단축했습니다. 이러한 결과는 근사화 없이 정확한 샘플링이 행렬 곱셈 자체에 통합될 수 있음을 보여주며, 대역폭 제한적인 후처리 단계를 가벼운 에필로그로 전환합니다. 프로젝트 페이지: https://github.com/FlashSampling/FlashSampling.
로봇 학습 분야에서 널리 받아들여지는 견해는 시뮬레이션만으로는 부족하며, 시뮬레이션 환경과 실제 물리 환경 간의 차이를 극복하기 위해서는 최소한의 실제 데이터 수집이나 작업별 미세 조정이 필수적이라는 것입니다. 우리는 이러한 가정에 의문을 제기합니다. 충분히 대규모이고 다양한 시뮬레이션 기반 합성 학습 데이터를 통해, 실제 환경으로의 제로샷 전환이 정적 및 이동 조작 모두에 대해 가능할 뿐만 아니라 효과적임을 보여줍니다. 우리는 MolmoSpaces 내에서 로봇, 작업, 다양한 시뮬레이션 환경 전반에 걸친 절차적 데이터 생성을 위한 완전한 오픈소스 파이프라인인 MolmoBot-Engine을 소개합니다. 이를 통해 관절형 객체 조작 및 픽앤플레이스 작업을 위한 180만 개의 전문가 궤적 데이터셋인 MolmoBot-Data를 공개합니다. 우리는 세 가지 정책 클래스를 학습했습니다: 흐름 매칭 액션 헤드를 갖춘 Molmo2 기반 다중 프레임 비전-언어 모델인 MolmoBot; 직접적인 비교가 가능하도록 π_0 아키텍처를 재현한 MolmoBot-Pi0; 엣지 배포에 적합하고 RL 미세 조정이 가능한 경량 정책인 MolmoBot-SPOC입니다. 우리는 두 가지 로봇 플랫폼에서 평가를 진행했습니다: 탑탑 조작 작업용 Franka FR3와 문 열기, 서랍 조작, 캐비닛 상호작용, 이동 픽앤플레이스용 Rainbow Robotics RB-Y1 이동 조작기입니다. 실제 환경 미세 조정 없이도, 우리의 정책들은 보지 않은 객체와 환경에 대해 제로샷 전환을 달성합니다. 탑탑 픽앤플레이스에서 MolmoBot는 4가지 설정에 걸친 실제 평가에서 79.2%의 성공률을 기록하며, 39.2%를 보인 π_{0.5}를 능가했습니다. 우리의 결과는 절차적 환경 생성과 다양한 관절형 애셋의 결합이 실제 세계로 광범위하게 일반화되는 강력한 조작 정책을 생성할 수 있음을 입증합니다. 기술 블로그: https://allenai.org/blog/molmobot-robot-manipulation
정확한 공정 감독은 장기간 로봇 매니퓰레이션의 핵심 과제로 남아 있습니다. 주요 병목 현상은 현재의 비디오 MLLM이 지도 미세 조정(SFT) 패러다임 아래에서 주로 훈련되어 최종 작업 목표에 대한 현재 상태를 평가하기보다는 진행 중인 사건을 인식하는 수동적인 '관찰자' 역할을 한다는 점입니다. 본 논문에서는 비디오 MLLM을 능동적인 '비평가'로 전환하는 7B 규모 프레임워크인 PRIMO R1(Process Reasoning Induced Monitoring)을 소개합니다. 우리는 진행 상황 추정을 위한 명시적인 사고 연쇄 생성을 장려하기 위해 결과 기반 강화 학습을 활용합니다. 더불어 우리의 아키텍처는 초기 상태와 현재 상태 이미지 사이에 비디오 시퀀스를 명시적으로 고정함으로써 구조화된 시간적 입력을 구성합니다. 제안된 PRIMO 데이터셋 및 벤치마크를 바탕으로, 다양한 도메인 내 환경과 도메인 외 실제 휴머노이드 시나리오에서의 광범위한 실험을 통해 PRIMO R1이 최첨단 성능을 달성함을 입증합니다. 정량적으로, 우리의 7B 모델은 전용 추론 베이스라인의 평균 절대 오차를 50% 감소시켜 72B 규모의 일반 MLLM 대비 상대적 정확도에서 상당한 향상을 보여줍니다. 또한 PRIMO R1은 어려운 실패 감지 작업에서 강력한 제로샷 일반화 능력을 나타냅니다. 우리는 RoboFail 벤치마크에서 67.0%의 정확도로 OpenAI o1과 같은 폐쇄형 모델을 6.0% 앞서는 최첨단 성능을 확립했습니다.
네이티브 3D 생성 모델은 놀라운 정확도와 속도를 달성했지만, 중요한 한계점을 지니고 있습니다: 정확한 구조적 관절 구성을 지정할 수 없다는 점으로, 네이티브 3D 공간 내에서의 정밀한 구조 제어는 아직 충분히 연구되지 않았습니다. 본 논문은 네이티브 3D 생성을 위한 정밀한 골격 조작을 가능하게 하는 간단하면서도 매우 효율적이고 효과적인 프레임워크인 SK-Adapter를 제안합니다. 정확한 구조 표현에 있어 모호할 수 있는 텍스트나 이미지 프롬프트를 넘어서, 우리는 3D 골격을 1급 제어 신호로 취급합니다. SK-Adapter는 관절 좌표와 토폴로지를 학습 가능한 토큰으로 인코딩하여 고정된(frozen) 3D 생성 백본에 교차 주의력(cross-attention)을 통해 주입하는 경량 구조적 어댑터 네트워크입니다. 이 영리한 설계는 모델이 특정 3D 구조적 제약에 효과적으로 "주의"를 기울일 수 있을 뿐만 아니라, 원래의 생성 사전 지식(priors)을 보존할 수 있게 합니다. 데이터 격차를 해소하기 위해, 우리는 24k개의 텍스트-메시-골격 쌍으로 구성된 대규모 데이터셋인 Objaverse-TMS 데이터셋을 공개합니다. 광범위한 실험을 통해 우리의 방법이 파운데이션 모델의 기하학적 구조와 텍스처 품질을 보존하면서도 강력한 구조 제어를 달성하며, 기존 베이스라인 방법들을 크게 능가함을 확인했습니다. 더 나아가, 우리는 이 능력을 지역적 3D 편집으로 확장하여 기존 에셋의 특정 영역을 골격 가이드에 따라 편집할 수 있게 하였으며, 이는 기존 방법으로는 달성할 수 없었습니다. 프로젝트 페이지: https://sk-adapter.github.io/
학제간 연구가 더 크고 장기적인 영향력을 창출함에도 불구하고, 대부분의 연구는 단일 학문 영역에 갇힌 채로 남아 있습니다. 과학적 발견을 위한 최근의 인공지능 기반 접근법들은 학제간 연구에 대한 가능성을 보여주지만, 많은 접근법이 창의적인 학제간 돌파구를 이끄는 탐색적이고 협력적인 추론 과정을 생략한 채, 실험과 해결책을 신속하게 설계하는 데 중점을 둡니다. 그 결과, 기존 노력들은 과학적 변혁의 기초가 되는 추론 과정을 증강하기보다 과학적 발견의 자동화를 우선시해 왔습니다. 본 연구에서는 인간과 대규모 언어 모델 모두에게 창의적 추론을 지원하기 위해 학제적 통찰력을 체계적으로 식별하는 새로운 프레임워크인 Idea-Catalyst를 제시합니다. 추상적인 연구 목표에서 출발하여 Idea-Catalyst는 특정 해결책에 대한 조기 정착을 명시적으로 회피하면서 브레인스토밍 단계를 지원하도록 설계되었습니다. 이 프레임워크는 학제간 추론의 주요 메타인지적 특징을 구현합니다: (a) 연구 목표의 정의 및 평가, (b) 특정 영역의 기회와 미해결 과제에 대한 인식, (c) 영향력 잠재력에 기반한 학제적 아이디어의 전략적 탐색. 구체적으로, Idea-Catalyst는 추상적인 목표(예: 인간-AI 협력 개선)를 해당 영역 내 진행 상황 및 미해결 과제 분석을 안내하는 핵심 대상 영역 연구 질문으로 분해합니다. 이러한 과제들은 영역-중립적 개념적 문제로 재구성되어, 유사한 문제를 다루는 외부 학문(예: 심리학, 사회학)으로부터의 정보 검색을 가능하게 합니다. 이러한 영역들에서 얻은 통찰력을 종합하고 대상 영역에 재맥락화함으로써, Idea-Catalyst는 학제적 잠재력에 따라 원천 영역들의 순위를 매깁니다. 실증적으로, 이러한 표적 통합은 평균 신규성을 21%, 통찰력을 16% 향상시키면서도 원래 연구 문제에 기반을 둔 채로 남아 있습니다.
다중모드 대규모 언어 모델(MLLM)이 자동 심전도 판독에서 유망한 성능을 보이지만, 이러한 모델이 실제로 단계별 추론을 수행하는지 아니면 단순히 표면적 시각 단서에 의존하는지 여부는 여전히 불분명합니다. 이를 규명하기 위해 우리는 17가지 핵심 심전도 판별 영역에 걸쳐 단계별 추론 능력을 체계적으로 평가하는 6,400개 이상의 샘플로 구성된 새로운 다중턴 평가 프레임워크인 ECG-Reasoning-Benchmark를 소개합니다. 최첨단 모델에 대한 종합 평가 결과, 모델이 다단계 논리적 추론을 실행하는 데 있어 심각한 결함이 드러났습니다. 모델이 진단에 필요한 임상 기준을 회상하는 의학 지식은 보유하고 있으나, 완전한 추론 사슬을 유지하는 데는 거의 제로에 가까운 성공률(Completion 6%)을 보였으며, 이는 주로 해당 심전도 소견을 실제 심전도 신호의 시각적 증거에 정확히 연결하지 못하기 때문입니다. 이러한 결과는 현재의 MLLM이 실제 시각 해석을 생략하고 있음을 보여주며, 이는 기존 훈련 패러다임의 치명적 결함을 노출함과 동시에 강력한 추론 중심 의료 AI의 필요성을 강조합니다. 코드와 데이터는 https://github.com/Jwoo5/ecg-reasoning-benchmark에서 확인할 수 있습니다.
최근 연구는 잔차 경로가 단순한 최적화 장치가 아니라 모델의 표현 메커니즘의 일부임을 분명히 했습니다. 우리는 이에 동의하지만, 이 설계 공간을 체계화하는 가장 명료한 방법은 트랜스포머를 이중 축 관점에서 보는 것이라고 주장합니다. 디코더는 두 가지 순차적 차원—시퀀스 위치와 계층 깊이—을 따라 정보를 진화시킵니다. 자기 주의는 이미 시퀀스 축을 따른 적응형 혼합을 제공하는 반면, 잔차 스트림은 일반적으로 깊이 축을 따른 고정된 덧셈을 수행합니다. 특정 토큰 위치를 고정하고 계층 인덱스를 순차 변수로 취급하면, 인과적 깊이 방향 잔차 주의 읽기 연산은 시퀀스가 아닌 깊이를 기준으로 작성된다는 점을 제외하면 인과적 단축 슬라이딩 윈도우 주의와 정확히 동일한 지역 연산자입니다. 이것이 바로 Transformer^2의 핵심이 되는 잔차 스트림 이중성입니다. 이 관점은 최근 논문들의 흐름도 명확히 합니다. ELC-BERT와 DenseFormer는 이미 깊이에 대한 학습된 집계가 균일한 잔차 누적을 능가할 수 있음을 보여주었으며, Vertical Attention, DeepCrossAttention(DCA), MUDDFormer 및 Attention Residuals는 더 나아가 이전 계층에 대한 명시적인 주의 기반 라우팅을 지향합니다. 그러나 핵심은 연산자 수준의 이중성이 시스템 수준의 대칭을 의미하지는 않는다는 점입니다. 대규모 자기회귀 모델의 경우, 시퀀스 축 단축 슬라이딩 윈도우 주의는 일반적으로 토큰 측 슬라이딩 윈도우 커널, KV 캐시 레이아웃 및 청크 실행을 재사용하므로 하드웨어 친화적인 배치 방식입니다. 반면 목표가 숏컷 자체를 변경하는 것이라면, 별도의 교차 계층 검색 경로를 추가하는 대신 잔차 연산자를 직접 수정하는 Deep Delta Learning(DDL)이 더 깔끔한 개입 방법입니다. 따라서 우리의 권장사항은 간단합니다: 숏컷 자체가 관심 대상일 때는 DDL을 사용하고, 지역적 적응형 혼합이 목표일 때는 시퀀스 축 단축 슬라이딩 윈도우 주의를 사용하십시오.
픽셀 공간 디퓨전은 사전 훈련된 오토인코더 없이도 고품질 생성을 가능하게 하며, 최근 잠재 디퓨전의 강력한 대안으로 다시 부상하고 있습니다. 그러나 표준 픽셀 공간 디퓨전 모델은 상대적으로 약한 의미론적 지도를 받으며 고수준 시각적 구조를 포착하도록 명시적으로 설계되지 않았습니다. 최근의 표현 정렬 방법(예: REPA)은 사전 훈련된 시각적 특징이 디퓨전 훈련을 크게 개선할 수 있음을 시사하며, 시각적 공동 잡음 제거는 이러한 특징을 생성 과정에 통합하기 위한 유망한 방향으로 등장했습니다. 그러나 기존 공동 잡음 제거 접근법은 여러 설계 선택을 종종 복잡하게 얽히게 만들어 어떤 설계 선택이 진정으로 필수적인지 불분명하게 합니다. 따라서 우리는 통합 Just-in-Time 기반 프레임워크 내에서 시각적 공동 잡음 제거에 대한 체계적인 연구인 V-Co를 제시합니다. 이 통제된 환경을 통해 우리는 시각적 공동 잡음 제거의 효과를 결정하는 핵심 요소를 분리할 수 있습니다. 우리의 연구는 효과적인 시각적 공동 잡음 제거를 위한 네 가지 핵심 요소를 밝혀냈습니다. 첫째, 특징별 계산을 보존하면서 유연한 교차 스트림 상호작용을 가능하게 하는 완전 이중 스트림 아키텍처가 필요합니다. 둘째, 효과적인 분류자 무료 지도는 구조적으로 정의된 무조건 예측을 요구합니다. 셋째, 더 강력한 의미론적 지도는 지각적 드리프트 하이브리드 손실을 통해 최적으로 제공됩니다. 넷째, 안정적인 공동 잡음 제거는 적절한 교차 스트림 보정을 추가로 필요로 하며, 우리는 RMS 기반 특징 재조정을 통해 이를 구현합니다. 이러한 발견들을 종합하면 시각적 공동 잡음 제거를 위한 간단한 방법론을 도출할 수 있습니다. ImageNet-256에 대한 실험 결과, 동일한 모델 크기 기준으로 V-Co는 기반 픽셀 공간 디퓨전 기준 모델 및 강력한 기존 픽셀 디퓨전 방법들을 더 적은 훈련 에포크를 사용하면서도 능가하여, 향후 표현 정렬 생성 모델을 위한 실용적인 지침을 제공합니다.
확산 기반 스타일화 기술은 크게 발전했으나, 기존 방법론들은 색상 기반 변환에 국한되어 복잡한 의미 구조와 재질 세부 사항을 간과해왔습니다. 본 연구에서는 의미 구조를 인지하는 Mixture of Experts(MoE) 기반 프레임워크인 StyleExpert를 소개합니다. 우리의 프레임워크는 대규모 콘텐츠-스타일-스타일화 삼중항 데이터셋으로 학습된 통합 스타일 인코더를 활용하여 다양한 스타일을 일관된 잠재 공간에 임베딩합니다. 이 임베딩은 유사성 인지 게이팅 메커니즘을 조건화하는 데 사용되며, 해당 메커니즘은 MoE 아키텍처 내에서 스타일을 전문가 모듈로 동적으로 라우팅합니다. 이러한 MoE 아키텍처를 통해 우리의 방법은 표면적 텍스처부터 심층 의미 수준에 이르는 다양한 스타일을 능숙하게 처리합니다. 폭넓은 실험을 통해 StyleExpert가 의미 구조와 재질 세부 사항 보존에 있어 기존 접근법을 능가하며, 보지 못한 스타일로의 일반화에도 우수함을 입증했습니다. 코드 및 수집 이미지는 프로젝트 페이지(https://hh-lg.github.io/StyleExpert-Page/)에서 확인할 수 있습니다.
언어 모델의 수학적 추론 능력 향상을 위한 주류 패러다임은 검증 가능한 보상을 활용한 강화 학습에 의존해왔습니다. 그러나 기존 방법들은 훈련 과정에서 나타나고 축적되는 재사용 가능한 전략을 활용하지 않은 채 각 문제 인스턴스를 독립적으로 다룹니다. 이를 위해 본 연구에서는 계층적 강화 학습 프레임워크인 ARISE(Agent Reasoning via Intrinsic Skill Evolution)를 제안합니다. ARISE는 공유 정책이 상위 수준에서 스킬을 관리하고 하위 수준에서 응답을 생성하는 방식으로 작동합니다(각각 스킬 관리자와 작업자로 명명). 관리자는 성공적인 해결 과정을 구조화된 방식으로 요약하는 전용 스킬 생성 롤아웃을 통해 계층적 스킬 라이브러리를 유지하며, 정책 기반 선택 메커니즘을 활용하여 향후 롤아웃에 조건을 부여할 관련 스킬을 검색합니다(실행 전). 계층적 보상 설계는 추론 능력과 라이브러리 품질의 공동 진화를 유도합니다. 두 가지 기본 모델과 경쟁 수학 및 Omni-MATH를 아우르는 7개 벤치마크에서의 실험 결과, ARISE는 GRTO 계열 알고리즘 및 메모리 강화 베이스라인을 꾸준히 능가하며, 특히 분포 외 작업에서 두드러진 성능 향상을 보였습니다. ablation 연구를 통해 각 구성 요소가 관찰된 개선에 기여하며, 라이브러리 품질과 추론 성능이 훈련 전반에 걸쳐 동반 상승함을 확인했습니다. 코드는 https://github.com/Skylanding/ARISE에서 확인할 수 있습니다.
최근 멀티모달 에이전트의 발전으로 컴퓨터 사용 상호작용 및 도구 활용이 개선되었으나, 기존 시스템 대부분은 여전히 반응형에 머물러 단일 행동을 최적화할 뿐 미래 상태나 장기 목표에 대한 추론을 수행하지 않습니다. 이는 계획의 일관성을 제한하고 에이전트가 고수준 다단계 작업을 안정적으로 해결하는 것을 방해합니다. 본 연구에서는 실행 전 단기 궤적 예측을 통해 예측적 추론을 명시적으로 학습하는 2단계 강화학습 프레임워크인 TraceR을 소개합니다. 첫 번째 단계에서는 예측된 행동 시퀀스 전반의 글로벌 일관성을 강화하는 보상으로 궤적 수준 강화학습을 수행합니다. 두 번째 단계에서는 고정된 도구 에이전트의 실행 피드백을 활용하여 단계별 정확도와 실행 가능성을 개선하는 접지된 강화 미세 조정을 적용합니다. TraceR은 온라인 컴퓨터 사용, 오프라인 컴퓨터 사용 벤치마크, 멀티모달 도구 사용 추론 과제를 아우르는 7개 벤치마크에서 평가되었으며, 반응형 및 단일 단계 기준 모델 대비 계획 안정성, 실행 견고성, 일반화 성능에서 상당한 향상을 달성했습니다. 이러한 결과는 예측적 궤적 추론이 복잡한 현실 환경에서 효과적으로 추론, 계획, 행동할 수 있는 멀티모달 에이전트 구축의 핵심 원칙임을 보여줍니다.
지속적 메모리는 AI 에이전트의 핵심 능력이지만, 메모리 검색, 생명주기 관리, 일관성에 대한 수학적 기초는 아직 탐구되지 않았습니다. 현재 시스템은 검색에 코사인 유사도를, 중요도 감소에 경험적 감쇠를 사용하며 형식적인 모순 감지 기능을 제공하지 않습니다. 본 연구는 정보기하학적 기초를 세 가지 기여를 통해 확립합니다. 첫째, 대각 가우시안 패밀리의 피셔 정보 구조에서 유도된 검색 메트릭으로, 리만 메트릭 공리를 충족하며 충분 통계량에 대해 불변이고 O(d) 시간에 계산 가능합니다. 둘째, 포커르-플랑크 방정식을 통해 정상 분포의 존재와 유일성이 증명된 리만 랑주뱅 역학으로 공식화된 메모리 생명주기로, 수동 조정된 감쇠를 원리 기반의 수렴 보장으로 대체합니다. 셋째, 비자명한 1차 코호몰로지 클래스가 메모리 컨텍스트 간 화해 불가능한 모순과 정확히 일치하는 세포 츠 이론 모델입니다. LoCoMo 벤치마크에서 이 수학적 계층들은 6개 대화에 걸쳐 엔지니어링 기준선 대비 +12.7%p의 성능을 보였으며, 가장 어려운 대화에서는 +19.9%p에 도달했습니다. 4채널 검색 아키텍처는 클라우드 의존성 없이 75% 정확도를 달성했습니다. 클라우드 보강 결과는 87.7%에 도달했습니다. 제로-LLM 구성은 아키텍처 설계로 EU AI법 데이터 주권 요구사항을 충족합니다. 우리가 알기로, 이는 AI 에이전트 메모리 시스템을 위한 정보기하학적, 츠 이론적, 확률론적-역학적 기초를 확립한 최초의 연구입니다.
실세계 의사 결정, 즉 세금 신고 적합성 평가부터 의학적 진단에 이르기까지는 여러 개의 잡음이 포함되고 잠재적으로 상충되는 증거 원천들을 종합해야 합니다. 기존 접근법들은 명시적 불확실성 정량화가 부족하거나(신경망 기반 종합 방법) 수동으로 설계된 이산 술어에 의존함으로써(확률론적 논리 프레임워크) 비정형 데이터로의 확장성을 제한합니다. 본 연구에서는 Variational Autoencoder(VAE)의 잠재 사후 분포를 Sum-Product Network(SPN) 추론을 위한 소프트 우도 인자로 변환하는 Latent Posterior Factors(LPF) 프레임워크를 소개합니다. 이를 통해 보정된 불확실성 추정치를 보존하면서 비정형 증거에 대한 다루기 쉬운(tractable) 확률론적 추론을 가능하게 합니다. 우리는 LPF를 LPF-SPN(구조적 인자 기반 추론)과 LPF-Learned(종단간 학습된 종합)로 구체화하여, 공유된 불확실성 표현 하에서 명시적 확률론적 추론과 학습된 종합 방식을 체계적으로 비교할 수 있도록 합니다. 8개 영역(7개 합성 데이터 및 FEVER 벤치마크)에 걸친 실험에서 LPF-SPN은 높은 정확도(최대 97.8%), 낮은 보정 오차(ECE 1.4%), 그리고 강력한 확률론적 적합도를 달성하였으며, 15개의 무작위 시드에 대해 Evidence Deep Learning, 대형 언어 모델 및 그래프 기반 베이스라인을 크게 능가하는 성능을 보였습니다. 주요 기여점: (1) 잠재 불확실성 표현과 구조적 확률론적 추론을 연결하는 프레임워크. (2) 추론 패러다임의 통제된 비교를 가능하게 하는 이중 아키텍처. (3) 시드 선택을 포함한 재현 가능한 학습 방법론. (4) EDL, BERT, R-GCN 및 대형 언어 모델 베이스라인 대비 평가. (5) 교차 영역 검증. (6) 동반 논문의 형식적 보장.
본 논문은 확률적 예측 과업에서 다양한 특성을 지닌 다중 증거 항목들을 통합하기 위한 원리 기반 프레임워크인 잠재 사후 인자(LPF)에 대한 완전한 이론적 특성화를 제시한다. 다중 증거 추론은 의료 진단, 금융 리스크 평가, 법률 사례 분석, 규제 준수 등의 고위험 분야에서 광범위하게 요구되나, 기존 접근법들은 형식적 보장을 결여하거나 구조적으로 다중 증거 시나리오를 처리하지 못한다. LPF는 변분 오토인코더를 통해 각 증거 항목을 가우시안 잠재 사후 분포로 인코딩하고, 몬테카를로 주변화를 통해 사후 분포를 소프트 인자로 변환한 후, 정확한 Sum-Product Network 추론(LPF-SPN) 또는 학습된 신경망 집계기(LPF-Learned)를 통해 인자들을 통합한다. 본 연구는 신뢰할 수 있는 AI의 핵심 요건을 아우르는 일곱 가지 형식적 보장을 증명한다: 보정 보존(ECE <= 엡실론 + C/제곱근(K_eff)); O(1/제곱근(M))으로 감소하는 몬테카를로 오차; N=4200에서 0.0085의 훈련-테스트 격차를 보이는 비공헌 PAC-베이즈 경계; 정보이론적 하한의 1.12배 내 작동; 절반의 증거가 적대적으로 교체된 상황에서 88% 성능을 유지하며 O(엡실론*델타*제곱근(K))의 점진적 성능 저하; R^2=0.849의 O(1/제곱근(K)) 보정 감소; 0.002% 미만 오차를 지닌 정확한 인식적-우연적 불확실성 분해. 모든 정리들은 최대 4,200개의 훈련 예제를 포함하는 통제된 데이터셋에서 실증적으로 검증되었다. 본 이론적 프레임워크는 LPF를 안전 중점 응용 분야에서 신뢰할 수 있는 다중 증거 AI의 기반으로 정립한다.
본 논문에서는 정부 양식에서 구조화된 데이터 추출 과제에 대한 멀티모달 기반 모델 평가를 위한 벤치마크인 VAREX(VARied-schema EXtraction)를 소개한다. VAREX는 합성 값으로 PDF 템플릿을 프로그램 방식으로 채우는 역주석(Reverse Annotation) 파이프라인을 활용하여, 3단계 품질 검증을 거친 결정론적 정답 라벨을 생성한다. 본 벤치마크는 3가지 구조적 범주에 걸쳐 1,771개의 고유 스키마를 가진 1,777개의 문서로 구성되며, 각 문서는 일반 텍스트, 레이아웃 유지 텍스트(열 위치를 근사화하기 위해 공백 정렬), 문서 이미지, 또는 텍스트와 이미지 결합 등 4가지 입력 양식으로 제공된다. 단일 입력 표현만으로 평가하는 기존 벤치마크와 달리, VAREX는 문서당 4가지 통제된 입력 양식을 제공하여 입력 형식이 추출 정확도에 미치는 영향을 체계적으로 분석할 수 있는, 기존 벤치마크에서는 부재했던 기능을 가능하게 한다. 최첨단 독점 모델부터 소규모 오픈 모델에 이르기까지 20개 모델을 평가하였으며, 특히 비용 및 지연 시간에 민감한 환경에 적합한 4B 이하 파라미터 모델에 주목하였다. 결과는 다음과 같다: (1) 4B 파라미터 미만에서는 추출 능력이 아닌 구조화된 출력 준수 능력이 주요 병목 현상이며, 특히 스키마 반향(모델이 추출 값 대신 스키맥 준수 구조를 출력하는 현상)이 영향을 받는 모델들의 점수를 45-65%p(percentage points) 하락시킴; (2) 2B 규모에서 추출 특화 미세 조정은 +81%p의 성능 향상을 보여, 규모 확대 없이도 지시 따르기 능력 결핍 문제가 해결 가능함을 입증함; (3) 레이아웃 유지 텍스트가 픽셀 수준의 시각적 단서를 능가하는 가장 큰 정확도 향상(+3-18%p)을 제공함; (4) 본 벤치마크는 60-95% 정확도 구간에서 모델들을 가장 효과적으로 변별해냄. 데이터셋과 평가 코드는 공개되어 있다.
명시적 제약 조건 하에서 도구 활용을 통한 문제 해결은 대규모 언어 모델(LLM)에게 함수 호출, 지시 따르기, 자기 수정 등의 능력을 요구하는 매우 어렵지만 피할 수 없는 시나리오입니다. 그러나 전용 평가 방법의 부재로 인해 발전이 지체되어 왔습니다. 이를 해결하기 위해 우리는 복잡한 제약 조건 하에서의 LLM 도구 사용 능력을 평가하는 벤치마크인 CCTU를 소개합니다. CCTU는 네 가지 차원(즉, 자원, 행동, 도구 집합, 응답)에 걸친 12가지 제약 범주 분류 체계에 기반을 둡니다. 이 벤치마크는 다양한 도구 사용 시나리오 전반에 걸쳐 신중하게 선별된 200개의 어려운 테스트 케이스로 구성되며, 각 케이스는 평균 7가지 제약 유형과 4,700토큰을 초과하는 평균 프롬프트 길이를 포함합니다. 신뢰할 수 있는 평가를 위해, 우리는 단계별 검증을 수행하고 모델과 환경 간 다중 턴 상호 작용 동안 규정 준수를 강제하는 실행 가능한 제약 검증 모듈을 개발했습니다. 우리는 사고 모드와 비사고 모드에서 9개의 최첨단 LLM을 평가했습니다. 결과에 따르면, 모든 제약 조건을 엄격히 준수해야 할 경우 어떤 모델도 20%를 넘는 작업 완료율을 달성하지 못했습니다. 추가 분석은 모델이 특히 자원 및 응답 차원에서 50% 이상의 경우에 제약 조건을 위반한다는 것을 보여줍니다. 더욱이 LLM은 제약 위반에 대한 상세한 피드백을 받은 후에도 자기 수정 능력이 제한적임을 보여주며, 이는 강력한 도구 사용 에이전트 개발의 중요한 병목 현상을 강조합니다. 향후 연구를 촉진하기 위해 우리는 데이터와 코드를 공개합니다.
비전 기반 모델(VFM)의 핵심인 Vision Transformer(ViT)는 다양한 비전 작업에서 뛰어난 성능을 보여왔지만, 긴 시퀀스로의 확장성을 제한하는 2차 복잡도 문제를 안고 있습니다. ViT를 위한 기존 선형 어텐션 방법론은 일반적으로 처음부터 재학습을 필요로 하여 상당한 계산 자원을 소모하며, 대규모 언어 모델 디코더용으로 개발된 선형화 기법들은 ViT에 효과적으로 적용되지 못했습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 VFM의 사전 지식을 선형 어텐션 ViT에 효과적으로 적응 및 전이하는 새로운 프레임워크인 ViT-AdaLA를 제안합니다. ViT-AdaLA는 어텐션 정렬, 특징 정렬, 지도 미세 조정의 세 단계로 구성됩니다. 어텐션 정렬 단계에서는 각 블록 내의 기본 선형 어텐션을 원본 소프트맥스 기반 어텐션과 정렬하여 그 동작을 근사합니다. 그러나 잔차 근사 오차는 여러 계층에 걸쳐 누적될 수밖에 없습니다. 이를 완화하기 위해 선형화된 ViT를 미세 조정하여 최종 계층 특징이 고정된 소프트맥스 VFM 교사 모델과 정렬되도록 합니다. 마지막으로, 적응된 사전 지식은 지도 미세 조정을 통해 다운스트림 작업으로 전이됩니다. 분류 및 분할 작업에 대한 광범위한 실험을 통해 ViT-AdaLA가 다양한 최첨단 선형 어텐션 대비 방법론보다 효과적이고 일반화 성능이 뛰어남을 입증합니다.
라이더 포인트 클라우드로부터 인간을 이해하는 것은 보행자 안전과 밀접한 관련이 있어 자율 주행에서 가장 중요한 과제 중 하나이지만, 다양한 인간-객체 상호작용과 복잡한 배경으로 인해 여전히 어려운 문제로 남아 있습니다. 그럼에도 불구하고 기존 방법론은 강력한 3D 인간 자세 추정 프레임워크 구축을 위해 인간-객체 상호작용을 활용할 가능성을 크게 간과해 왔습니다. 인간-객체 상호작용을 통합해야 하는 주요 동기에는 두 가지 과제가 있습니다. 첫째, 인간-객체 상호작용은 인간과 객체 포인트 간의 공간적 모호성을 초래하며, 이는 상호작용 영역에서 잘못된 3D 인간 관절점 예측으로 이어지는 경우가 많습니다. 둘째, 상호작용하는 신체 부위와 그렇지 않은 부위 간 포인트 수의 심각한 클래스 불균형이 존재하며, 손과 발 같은 상호작용이 빈번한 영역은 라이더 데이터에서 희소하게 관측됩니다. 이러한 과제를 해결하기 위해 우리는 라이더 포인트 클라우드로부터 강건한 3D 인간 자세 추정을 위한 인간-객체 상호작용 학습(HOIL) 프레임워크를 제안합니다. 공간적 모호성 문제를 완화하기 위해, 특히 상호작용 영역에서 인간과 객체 포인트 간 특징 변별력을 효과적으로 향상시키는 인간-객체 상호작용 인식 대조 학습(HOICL)을 제시합니다. 클래스 불균형 문제를 완화하기 위해, 과다 표현된 포인트를 압축하면서 상호작용 신체 부위의 유익한 포인트는 보존함으로써 표현 능력을 적응적으로 재배분하는 접촉 인식 부위 기반 풀링(CPPool)을 도입합니다. 추가적으로, 시간에 따른 접촉 단서를 사용하여 프레임 단위의 오류가 있는 관절점 추정치를 정제하는 선택적인 접촉 기반 시간적 정제를 제시합니다. 그 결과, 우리의 HOIL은 인간-객체 상호작용을 효과적으로 활용하여 상호작용 영역의 공간적 모호성과 클래스 불균형을 해결합니다. 코드는 공개될 예정입니다.
마스크 확산 모델(MDM)은 부분 마스킹 기법(Prime)을 사용해 학습할 때 우수한 일반화 성능을 보입니다. 이 접근법은 토큰을 서브토큰으로 변환하고 확산 과정을 서브토큰 수준에서 모델링합니다. 본 연구에서는 MDM-Prime 프레임워크의 두 가지 한계를 확인했습니다. 첫째, 서브토크나이저의 토큰 세분화 정도에 대한 하이퍼파라미터 선택을 안내할 도구가 부족합니다. 둘째, 서브토크나이저의 함수 형태가 일반적으로 사용되는 BPE(Byte-Pair-Encoding) 토크나이저와 결합될 경우 우도 추정 성능이 현저히 저하된다는 점을 발견했습니다. 이러한 한계를 해결하기 위해 MDM-Prime의 변분 하한 경계의 조임(tightness)을 분석하고, 이진 인코딩(Binary Encoding)과 인덱스 셔플링(Index Shuffling)을 통합한 마스크 확산 언어 모델인 MDM-Prime-v2를 개발했습니다. 규모 확장성 분석 결과, MDM-Prime-v2는 자기회귀 모델(ARM) 대비 21.8배 높은 계산 효율성을 보였습니다. 계산-최적 비교 평가에서 MDM-Prime-v2는 OpenWebText 데이터셋에서 7.77의 퍼플렉서티를 달성하여 ARM(12.99), MDM(18.94), MDM-Prime(13.41)을 모두 능가했습니다. 모델 크기를 11억 매개변수로 확장했을 때, 우리 모델은 다양한 상식 추론 작업에서 우수한 제로샷 정확도를 추가로 입증했습니다.
기존의 확산 기반 3D 장면 생성 방법은 주로 2D 이미지/비디오 잠재 공간에서 동작하여 시점 간 외관 및 기하학적 일관성을 유지하는 것이 본질적으로 어려웠습니다. 이러한 격차를 해소하기 위해 우리는 일관된 3D 표현 공간 내에서 직접 확산을 수행하는 프레임워크인 OneWorld를 제시합니다. 우리 접근법의 핵심은 3D 통합 표현 오토인코더(3D-URAE)로, 사전 학습된 3D 기초 모델의 기하학 중심 특성을 활용하면서 외관 정보를 주입하고 의미를 추출하여 통합 3D 잠재 공간을 구성합니다. 더 나아가, 토큰 수준의 교차 시점 일관성(CVC) 손실을 도입하여 시점 간 구조적 정렬을 명시적으로 강화하고, Manifold-Drift Forcing(MDF)을 제안하여 훈련-추론 노출 편향을 완화하며 표류된 표현과 원본 표현을 혼합하여 강력한 3D 매니폴드를 형성합니다. 포괄적인 실험을 통해 OneWorld가 최신 2D 기반 방법론 대비 우수한 시점 간 일관성으로 고품질의 3D 장면을 생성함을 입증합니다. 우리의 코드는 https://github.com/SensenGao/OneWorld에서 공개될 예정입니다.
싱가포르의 언어적 환경에 맞춰 영어, 중국어, 타밀어, 말레이어를 지원하는 컴팩트 다국어 자동 음성 인식(ASR) 모델 패밀리인 Polyglot-Lion을 소개합니다. 본 모델은 공개 음성 코퍼스만을 사용하여 Qwen3-ASR-0.6B와 Qwen3-ASR-1.7B를 미세 조정하여 구축되었으며, 언어별 학습 발화 수를 균등하게 하는 균형 샘플링 전략을 적용하고 언어 태그 조건화를 의도적으로 배제하여 모델이 오디오로부터 언어를 암묵적으로 식별하도록 학습했습니다. 4가지 대상 언어를 아우르는 12개 벤치마크에서 Polyglot-Lion-1.7B는 평균 오류율 14.85를 기록하며, 규모가 6배 큰 모델인 MERaLiON-2-10B-ASR(14.32)에 버금가는 성능을 달성했습니다. 동시에 단일 RTX PRO 6000 GPU에서 \81의 학습 비용이 발생하여 128-GPU 기준 시스템의 18,862 대비 극히 낮은 비용을 보였습니다. 추론 처리량은 샘플당 0.10초로 MERaLiON의 샘플당 2.02초보다 약 20배 빠릅니다. 이러한 결과는 중규모 사전 학습 모델에 언어적 균형을 고려한 미세 조정을 적용하면, 대규모 전문 시스템 대비 훨씬 낮은 비용으로 배포 가능한 수준의 다국어 ASR을 구현할 수 있음을 입증합니다.
확산 모델은 고정된 내용 무관 샘플링 스케줄에 의해 제약되는 반사적 System 1 모드로 작동합니다. 이러한 경직성은 상태 차원의 저주에서 비롯되며, 고차원 노이즈 매니폴드에서 가능한 상태들의 조합 폭발로 인해 명시적 궤적 계획이 불가능하고 체계적인 계산 자원 오배분을 초래합니다. 이를 해결하기 위해 우리는 System 2 숙고적 계획을 가능하게 하는 학습 없는 프레임워크인 Chain-of-Trajectories(CoTj)를 제안합니다. CoTj의 핵심은 Diffusion DNA로, 단계별 노이즈 제거 난이도를 정량화하는 저차원 서명이며 고차원 상태 공간의 대리 역할을 하여 방향성 비순환 그래프 상의 그래프 계획으로 샘플링을 재구성할 수 있게 합니다. Predict-Plan-Execute 패러다임을 통해 CoTj는 가장 어려운 생성 단계에 계산 노력을 동적으로 할당합니다. 다양한 생성 모델에 대한 실험 결과, CoTj는 컨텍스트 인식 궤적을 발견하여 출력 품질과 안정성을 향상시키는 동시에 중복 계산을 줄이는 것으로 나타났습니다. 본 연구는 자원 인식 기반 계획형 확산 모델링의 새로운 기초를 마련합니다. 코드는 https://github.com/UnicomAI/CoTj에서 이용 가능합니다.
검색 증강 생성(RAG) 시스템은 복잡한 다중 홉 질문 처리에 어려움을 겪으며, 이러한 복잡성을 해결하기 위해 Search-R1(Jin et al., 2025)과 같은 반복적 작동 방식의 에이전트 기반 프레임워크가 제안되었습니다. 그러나 이러한 접근법은 이전에 처리된 정보의 반복적 검색이나 검색 결과를 현재 생성 프롬프트에 효과적으로 정교화하는 데 따른 어려움과 같은 비효율성을 초래할 수 있습니다. 이러한 문제는 불필요한 검색 단계 증가, 최적이 아닌 추론, 부정확한 답변 생성 및 토큰 소비 증가로 이어질 수 있습니다. 본 논문에서는 검증 단계에서 Search-R1 파이프라인을 수정하여 이러한 단점을 완화하는 방안을 연구합니다. 구체적으로, 두 가지 구성 요소의 통합과 그 조합을 탐구합니다: 검색된 문서의 관련 정보를 추론 과정에 더 효과적으로 통합하기 위한 정교화 모듈과, 이전에 검색된 문서를 다음으로 가장 관련성 높은 문서로 대체하는 중복 제거 모듈입니다. 우리의 접근법을 HotpotQA(Yang et al., 2018) 및 Natural Questions(Kwiatkowski et al., 2019) 데이터셋을 사용하여 평가하며, 정확일치(EM) 점수, 답변 정확도에 대한 LLM-as-a-Judge 평가, 평균 검색 단계 수를 보고합니다. GPT-4.1-mini를 정교화에 활용한 우리의 최고 성능 변형은 Search-R1 기준선 대비 EM 점수 5.6% 향상과 검색 단계 수 10.5% 감소를 달성하여, 답변 정확도와 검색 효율성이 개선되었음을 입증했습니다.
저자들은 21가지 TCGA 암종에 속하는 6,745개의 진단용 H&E 슬라이드에서 38개의 해석 가능한 조직형태학적 특징을 추출하고, 각 특징을 생존율, 유전자 발현, 체세포 돌연변이, 면역 아형과 체계적으로 연결하는 범암종(pancancer) 컴퓨테이셔널 아틀라스인 HistoAtlas를 제안합니다. 모든 연관성은 공변량으로 보정되고 다중 검정 보정이 이루어졌으며, 증거 강도 계층으로 분류됩니다. 이 아틀라스는 면역 침윤과 예후부터 증식 및 키나제 신호전달에 이르기까지 알려진 생물학적 지식을 재확인하는 동시에, 구획 특이적 면역 신호와 서로 다른 예후를 보이는 형태학적 아형을 새롭게 발견합니다. 모든 결과는 조직 구획 및 개별 세포 수준에서 공간적으로 추적 가능하며, 통계적으로 보정되었고 공개적으로 조회할 수 있습니다. HistoAtlas는 특수 염색이나 시퀀싱 없이 일상적인 H&E 검사 표본으로부터 체계적이고 대규모의 바이오마커 발견을 가능하게 합니다. 데이터와 상호작용 가능한 웹 아틀라스는 https://histoatlas.com 에서 무료로 이용할 수 있습니다.
화학 언어 모델(CLM)은 분자 특성 예측(MPP) 과제에서 기존의 전통적인 머신러닝 모델에 대한 유력한 대안으로 부상하고 있다. 그러나 점차 증가하는 연구들에서 다양한 MPP 벤치마크 과제에 대한 CLM의 성능이 일관되지 않고 상충되는 결과를 보고하고 있다. 본 연구에서는 MPP를 위한 CLM의 사전 학습 및 미세 조정 성능에 데이터셋 크기, 모델 크기, 표준화 등 다양한 요인들이 미치는 영향을 체계적으로 조사하기 위해 수백 차례에 걸친 정밀하게 통제된 실험을 수행하고 분석한다. 인코더 전용 마스크 언어 모델에 대한 확립된 스케일링 법칙이 부재한 상황에서, 우리의 목표는 MPP 과제에서 CLM의 성능에 영향을 미치는 근본적인 메커니즘에 대한 포괄적인 수치적 증거와 더 깊은 이해를 제공하는 것이며, 이 중 일부 메커니즘은 기존 문헌에서 완전히 간과된 것으로 보인다.
투기적 메가개발을 위한 대규모 토지 포위는 속도, 위상구조, 비가역성에 대한 정량적 분석이 부족한 비평형 공간 과정에 해당한다. 본 연구는 인도네시아 자카르타 북부의 Pantai Indah Kapuk 2 (PIK2) 연안 메가개발 사례를 10미터 해상도의 Sentinel-2 토지이용/토지피복(LULC) 데이터(2017-2024년, 8년간)를 활용하여 분석한다. 해당 경관은 Marxian 확률 단체에 투영되어 육상 픽셀을 공유지(Commons), 농업지(Agrarian), 자본지(Capital) 비율로 구분한다. 이 단체 상의 Fisher-Rao (FR) 측지선 거리 분석을 통해 2019-2020년 동안 주요 건설 활동과 일치하는 0.405 rad/년의 변환 펄스를 확인하였다. 흡수성 마르코프 연쇄 분석 결과, 경작지와 수목 피복지가 건조 환경으로 흡수되는 데 걸리는 예상 시간은 각각 46.0년, 38.1년이며, 풀링된 건조 지역의 자기 유지율은 96.4%로 나타났다. 침투 분석에서는 점유 확률 p가 [0.096, 0.162] 범위일 때 모든 건조 픽셀의 89-95%를 포함하는 거대 연결 요소가 무작위 침투 임계값 p_c ≈ 0.593보다 훨씬 낮은 값에서도 지속되어, 공간 성장이 무작위적이기보다 계획적임을 시사한다. 도시 경계의 박스-카운팅 프랙탈 차원은 d_f = 1.316에서 1.397로 증가하며, 점점 더 불규칙해지는 개척지 확장과 일치한다. 이러한 결과는 정보기하학 및 통계역학적 도구가 자본주의적 공간 축적의 운동학적 및 위상학적 특질을 정량적 정밀도로 규명할 수 있음을 보여준다.