번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)이 과학적 발견에 유망한 가능성을 보여주고 있지만, 기존 연구는 추론이나 피드백 기반 학습에 집중하여, 생성적 추론 과정인 P(가설|배경지식)(P(h|b))의 직접적 모델링은 탐구되지 않은 채 남아있습니다. 우리는 방대한 지식 베이스에서 영감을 검색하고 조합하는 데 내재된 조합적 복잡도(O(N^k))로 인해 P(h|b)를 직접 학습하는 것이 수학적으로 다루기 어렵다는 점을 보여줍니다. 이러한 장벽을 극복하기 위해, 우리는 다루기 쉬운 학습과 확장 가능한 추론을 가능하게 하는 통합 프레임워크인 MOOSE-Star를 소개합니다. 최상의 경우, MOOSE-Star는 (1) 발견의 확률론적 방정식에서 도출된 분해된 하위 작업에 대해 학습하고, (2) 동기 부여 기반 계층적 탐색을 통해 대수적 검색을 가능하게 하고 관련 없는 부분 공간을 제거하며, (3) 검색 노이즈에 대한 견고성을 위해 유계 조합을 활용함으로써 복잡도를 지수적에서 대수적(O(log N))으로 감소시킵니다. 이를 위해 우리는 학습을 위한 108,717편의 분해된 논문(38,400 GPU 시간)으로 구성된 TOMATO-Star 데이터셋을 공개합니다. 더 나아가, 우리는 무차별 대입 샘플링이 '복잡도 벽'에 부딪히는 반면, MOOSE-Star는 테스트 시간 동안 지속적인 확장 성능을 보인다는 점을 입증합니다.
현재 AI 에이전트는 도구를 유연하게 호출하고 복잡한 작업을 실행할 수 있지만, 기술의 체계적인 축적과 전이가 부족하여 장기적인 발전이 저해되고 있습니다. 통합된 기술 통합 메커니즘이 없으면 에이전트는 종종 '뜨거운 물에 손 데기' 식으로 이전 전략을 활용하지 못한 채 고립된 맥락에서 해결책을 재발견합니다. 이러한 한계를 극복하기 위해 우리는 대규모로 AI 기술을 생성, 평가 및 조직화하기 위해 설계된 개방형 인프라인 SkillNet을 소개합니다. SkillNet은 이기종 소스에서 기술을 생성하고, 풍부한 관계적 연결을 설정하며, 안전성, 완전성, 실행 가능성, 유지보수성, 비용 인식 등 다차원적 평가를 수행하는 통합 온톨로지 내에서 기술을 구조화합니다. 우리의 인프라는 20만 개 이상의 기술 저장소, 대화형 플랫폼, 다용도 Python 도구 키트를 통합합니다. ALFWorld, WebShop, ScienceWorld에 대한 실험적 평가에서 SkillNet이 에이전트 성능을 크게 향상시키며, 여러 백본 모델에서 평균 보상을 40% 높이고 실행 단계를 30% 줄이는 것으로 나타났습니다. 기술을 진화하고 구성 가능한 자산으로 공식화함으로써 SkillNet은 에이전트가 일시적인 경험에서 지속적인 숙달로 나아갈 수 있는 견고한 기반을 제공합니다.
대규모 언어 모델(LLM) 에이전트는 데이터 과학 워크플로우를 자동화할 수 있지만, R로 구현된 많은 엄격한 통계 방법론들은 LLM의 통계 지식 및 도구 검색 한계로 인해 활용도가 낮은 실정입니다. 기존 검색 강화 접근법은 함수 수준의 의미론에 집중하고 데이터 분포를 간과하여 최적이 아닌 검색 결과를 생성합니다. 본 연구에서는 R 패키지 검색을 위해 데이터 분포 정보를 함수 표현에 통합한 경량 플러그앤플레이 검색 모델인 DARE(분포 인식 검색 임베딩)를 제안합니다. 주요 기여점은 다음과 같습니다: (i) 8,191개의 고품질 CRAN 패키지에서 도출한 정제된 R 패키지 지식 베이스(RPKB); (ii) 검색 관련성 향상을 위해 분포 특성과 함수 메타데이터를 융합한 임베딩 모델 DARE; (iii) 신뢰할 수 있는 R 코드 생성을 위한 R 지향 LLM 에이전트 RCodingAgent 및 현실적인 분석 시나리오에서 LLM 에이전트를 체계적으로 평가하기 위한 일련의 통계 분석 태스크입니다. 실험적으로 DARE는 93.47%의 NDCG@10를 달성하여 최첨단 오픈소스 임베딩 모델 대비 최대 17% 성능 향상을 보였으며, 매개변수 수는 현저히 적게 사용했습니다. DARE를 RCodingAgent에 통합하면 다운스트림 분석 태스크에서도 상당한 성능 향상을 확인했습니다. 본 연구는 LLM 자동화와 성숙된 R 통계 생태계 간의 격차를 해소하는 데 기여합니다.
실제 세계의 멀티모달 에이전트는 시각적 증거에 기반한 다단계 워크플로우를 해결합니다. 예를 들어, 에이전트는 배선 사진을 회로도와 연결하고 온라인 문서로 수정 사항을 검증하여 장치 문제를 해결하거나, 교통 지도를 해석하고 경로 제약 조건 하에서 시간표를 확인하여 여행을 계획할 수 있습니다. 그러나 기존 멀티모달 벤치마크는 주로 단일 턴 시각 추론이나 특정 도구 기술을 평가하며, 실용적인 에이전트에 필요한 현실성, 시각적 정교성, 장기적 도구 사용을 완전히 포착하지 못합니다. 우리는 현실적이고 디테일이 풍부한 시각적 시나리오와 자연스러운 하이브리드 도구 사용을 결합한, 7개 범주에 걸친 25개 하위 도메인을 아우르는 일반 목적 멀티모달 에이전트 벤치마크인 AgentVista를 소개합니다. 과제들은 웹 검색, 이미지 검색, 페이지 탐색, 그리고 이미지 처리와 일반 프로그래밍을 위한 코드 기반 작업을 포함하여 다양한 모달리티에 걸친 장기적 도구 상호작용을 요구합니다. 최첨단 모델에 대한 포괄적 평가는 그들이 장기적 멀티모달 도구 사용을 수행하는 능력에 상당한 격차가 있음을 드러냅니다. 우리 평가에서 가장 성능이 좋은 모델인 도구 사용 Gemini-3-Pro 조차도 전체 정확도가 27.3%에 불과하며, 어려운 인스턴스들은 25회 이상의 도구 호출 턴을 필요로 할 수 있습니다. 우리는 AgentVista가 현실적이고 매우 도전적인 문제 해결을 위한 더 능력 있고 신뢰할 수 있는 멀티모달 에이전트의 개발을 가속화할 것으로 기대합니다.
모방 학습의 확장은 근본적으로 데이터 수집 효율에 의해 제약을 받습니다. 핸드헬드 인터페이스가 실환경 데이터 획득을 위한 확장 가능한 솔루션으로 부상했지만, 이들은 주로 개방형 방식으로 운영됩니다: 운영자는 기저 정책의 약점을 알지 못한 채 시범 데이터를 수집하여 중요한 상태 분포에 대한 효율적인 커버리지 확보가 어렵습니다. 반면, DAgger와 같은 상호작용 방식은 공변량 변화 문제는 효과적으로 해결하지만 물리적 로봇 실행에 의존하여 비용이 많이 들고 확장하기 어렵습니다. 이러한 상충 관계를 해결하기 위해 우리는 단일 소비자 스마트폰을 사용하여 로봇 없이 즉각적인 정책 반복을 가능하게 하는 휴대형 시스템인 RoboPocket을 소개합니다. 핵심 혁신은 증강 현실(AR) 시각적 예측을 통해 정책의 예측 궤적을 시각화하는 원격 추론 프레임워크입니다. 이러한 몰입형 피드백을 통해 수집자는 물리적 로봇 없이도 잠재적 실패를 사전에 식별하고 정책의 취약 영역에 데이터 수집을 집중할 수 있습니다. 더 나아가, 유입되는 데이터로 정책을 지속적으로 업데이트하는 비동기식 온라인 미세 조정 파이프라인을 구현하여 학습 루프를 수분 내에 효과적으로 폐쇄합니다. 광범위한 실험을 통해 RoboPocket이 데이터 확장 법칙을 준수하며 오프라인 확장 전략 대비 데이터 효율성을 두 배로 높여 오랫동안 지속되어 온 효율성 병목 현상을 극복함을 입증했습니다. 또한, 우리의 즉각적 반복 루프는 분산 환경에서 사람당 소수의 상호작용적 수정만으로도 샘플 효율성을 최대 2배까지 향상시킵니다. 프로젝트 페이지 및 동영상: https://robo-pocket.github.io.
인간과 제품의 통합을 보여주는 인간-제품 이미지는 광고, 전자상거래, 디지털 마케팅에서 핵심적인 역할을 합니다. 이러한 이미지 생성의 핵심 과제는 제품 디테일의 높은 정확도 보존을 보장하는 데 있습니다. 기존 패러다임 중 참조 기반 인페인팅은 제품 참조 이미지를 활용하여 인페인팅 과정을 안내하는 표적 솔루션을 제공합니다. 그러나 세 가지 주요 측면에서 한계가 남아있습니다: 다양한 대규모 훈련 데이터 부족, 기존 모델의 제품 디테일 보존에 집중하는 데 어려움, 정밀한 안내를 달성하기 위한 세밀한 감독의 부재 등입니다. 이러한 문제를 해결하기 위해 우리는 인간-제품 이미지 생성을 위해 특화된 새로운 고정밀 참조 기반 인페인팅 프레임워크인 HiFi-Inpaint를 제안합니다. HiFi-Inpaint는 미세한 수준의 제품 특징을 개선하기 위한 공유 향상 어텐션(SEA)과 고주파수 맵을 사용한 정밀한 픽셀 수준 감독을 강화하기 위한 디테일 인식 손실(DAL)을 도입합니다. 또한 자체 합성 데이터에서 선별하고 자동 필터링으로 처리된 샘플로 구성된 새로운 데이터셋인 HP-Image-40K를 구축했습니다. 실험 결과, HiFi-Inpaint가 최첨단 성능을 달성하며 디테일 보존형 인간-제품 이미지를 제공함을 보여줍니다.
분류 작업에는 어떤 다중모달 모델을 사용해야 할까? 선행 연구들은 제로샷 분류에서 뛰어난 성능을 보이는 CLIP 유사의 대조적 시각-언어 모델(VLM)이 답이라고 제안해 왔습니다. 반면, 대규모 다중모달 모델(LMM)은 복잡한 작업에 더 적합합니다. 본 연구에서는 이러한 답변이 LMM의 중요한 능력인 컨텍스트 내 학습(in-context learning)을 간과하고 있다고 주장합니다. 우리는 폐쇄형 세계 분류를 위해 다양한 데이터셋에서 최첨단 LMM의 성능을 벤치마킹한 결과, 제로샷 성능은 CLIP보다 낮지만, 소수의 컨텍스트 예시를 제공받은 LMM은 캐시 기반 어댑터를 사용하는 대조적 VLM(이는 VLM의 "컨텍스트 내"에 해당하는 방식)의 성능을 따라잡거나 능가할 수 있음을 발견했습니다. 우리는 이 분석을 개방형 세계 설정으로 확장하며, 생성적 특성을 가진 LMM이 이 작업에 더 적합함을 보입니다. 이처럼 어려운 시나리오에서 LMM은 불완전한 컨텍스트 정보가 제공될 때마다 어려움을 겪습니다. 이 문제를 해결하기 위해 우리는 컨텍스트 내 예시에 가짜 레이블을 할당하고 사용 가능한 컨텍스트 자체를 통해 이를 반복적으로 개선하는 간단한 학습 불필요 방법인 CIRCLE를 제안합니다. 광범위한 실험을 통해 CIRCLE가 개방형 세계 분류를 위한 견고한 기준선을确立하며, VLM 대조군을 능가하고 LMM이 통합 분류기로서, 그리고 전문화된 모델에 대한 유연한 대안으로서 잠재력을 가지고 있음을 입증합니다.
표준 벤치마크는 포화 상태, 주관성, 낮은 일반화 성능으로 인해 점점 더 신뢰할 수 없어지고 있습니다. 본 연구에서는 모델의 지능을 평가하기 위해 능동적 정보 습득 능력의 평가가 중요하다고 주장합니다. 예산 제약 하에서 상호작용 과정 속에서 모델의 추론 능력을 평가하는 통합 평가 패러다임인 인터랙티브 벤치마크를 제안합니다. 우리는 이 프레임워크를 두 가지 설정으로 구체화합니다. 첫째, 모델이 판사와 상호작용하여 논리 및 수학에서 객관적 진실이나 답을 추론하는 '인터랙티브 증명'과, 둘째, 모델이 장기적 효용을 극대화하기 위해 전략적으로 추론하는 '인터랙티브 게임'입니다. 우리의 결과는 인터랙티브 벤치마크가 모델 지능에 대한 강건하고 정확한 평가를 제공하며, 인터랙티브 시나리오에서 여전히 개선할 여지가 상당함을 보여줍니다. 프로젝트 페이지: https://github.com/interactivebench/interactivebench
비디오 생성 분야에서 인상적인 진전이 있었음에도 불구하고, 기존 모델들은 표면적인 타당성에 머물러 있으며 세계에 대한 일관되고 통합된 이해가 부족합니다. 기존 접근법들은 일반적으로 세계 관련 지식의 단일 형태만 통합하거나, 추가 지식을 도입하기 위해 경직된 정렬 전략에 의존해왔습니다. 그러나 단일 세계 지식을 정렬하는 것은 여러 이질적 차원(예: 물리적 상식, 3차원 및 시간적 일관성)을 함께 모델링해야 하는 세계 모델을 구성하기에는 불충분합니다. 이러한 한계를 해결하기 위해 우리는 상호 보완적인 세계 지식을 비디오 생성기에 통합하는 통합 프레임워크인 DreamWorld를 소개합니다. 이는 Joint World Modeling Paradigm을 통해 시간적 역학, 공간 기하학 및 의미론적 일관성을 포착하기 위해 비디오 픽셀과 파운데이션 모델의 특징을 함께 예측합니다. 그러나 이러한 이질적 목표들을 단순히 최적화하면 시각적 불안정성과 시간적 깜빡임이 발생할 수 있습니다. 이 문제를 완화하기 위해 우리는 훈련 과정에서 세계 수준의 제약 조건을 점진적으로 규제하는 Consistent Constraint Annealing(CCA)과 추론 시 학습된 세계 사전 지식을 강화하는 Multi-Source Inner-Guidance를 제안합니다. 광범위한 평가 결과, DreamWorld가 세계 일관성을 향상시키며 VBench에서 Wan2.1보다 2.26점 높은 성능을 보이는 것으로 나타났습니다. 코드는 https://github.com/ABU121111/DreamWorld{Github}에서 공개될 예정입니다.
SageAttention과 같은 저비트 어텐션은 모델 추론 가속화를 위한 효과적인 접근법으로 부상했으나, 학습 적용 가능성은 여전히 제대로 이해되지 않고 있습니다. 선행 연구에서 우리는 7개 어텐션 행렬 곱셈 중 6개를 양자화하면서 미세 조정 성능을 유지하는 학습 가능한 INT8 어텐션인 SageBwd를 소개했습니다. 그러나 SageBwd는 사전 학습 과정에서 완전 정밀도 어텐션(FPA) 대비 지속적인 성능 격차를 보였습니다. 본 연구에서는 이러한 격차가 발생하는 원인을 규명하고, SageBwd가 사전 학습 중 FPA 성능에 도달할 수 있음을 입증합니다. 실험과 이론적 분석을 통해 다음과 같은 중요한 통찰과 결론을 도출했습니다: (i) QK 정규화는 단계당 대규모 토큰 처리 시 안정적인 학습에 필요하며, (ii) 양자화 오류는 주로 역전파 점수 기울기 dS에서 발생하고, (iii) 단계당 토큰 수 감소를 통해 SageBwd가 사전 학습에서 FPA 성능을 달성할 수 있으며, (iv) K-스무딩은 학습 안정성에 여전히 필수적인 반면, Q-스무딩은 사전 학습 중 제한된 이점만을 제공합니다.
우리는 총 매개변수 8.3B개, 토큰당 활성화 매개변수 0.75B개, 컨텍스트 길이 11.5K를 갖춘 강력한 Mixture-of-Experts(MoE) 시계열 파운데이션 모델인 Timer-S1을 소개합니다. 기존 사전 훈련된 시계열 파운데이션 모델의 확장성 병목 현상을 극복하기 위해 모델 아키텍처, 데이터셋, 훈련 파이프라인 세 가지 차원에서 Serial Scaling을 수행합니다. Timer-S1은 희소 TimeMoE 블록과 범용 TimeSTP 블록을 통합하여 예측의 직렬적 특성을 따르는 범용 훈련 목표인 Serial-Token Prediction(STP)을 구현합니다. 제안된 패러다임은 직렬 계산을 도입하여 장기 예측 성능을 향상시키는 동시에 표준 next-token 예측에서 발생하는 고비용 rolling-style 추론과 두드러진 오류 누적을 방지합니다. 고품질이고 편향되지 않은 훈련 데이터셋을 구축하기 위해 1조 개의 시점을 포함한 코퍼스인 TimeBench를 정밀하게 구성하고 예측 편향을 완화하기 위해 세심한 데이터 증강을 적용합니다. 또한 단기 및 장문맥 성능을 향상시키기 위해 지속적 사전 훈련과 장문맥 확장을 포함한 사후 훈련 단계를 선도적으로 도입합니다. 대규모 GIFT-Eval 리더보드에서 평가된 Timer-S1은 사전 훈련된 모델로서 최고의 MASE 및 CRPS 점수를 달성하며 최첨단 예측 성능을 보여줍니다. Timer-S1은 향후 연구를 촉진하기 위해 공개될 예정입니다.
현재 비디오 생성 모델은 3D 장면에 대한 동작의 영향을 구조적으로 이해하지 못해 힘이나 로봇 조작과 같은 3D 동작의 물리적 결과를 시뮬레이션할 수 없습니다. 본 논문에서는 단일 이미지로부터 동작 조건 비디오를 생성하는 최초의 실시간 시스템인 RealWonder를 제안합니다. 우리의 핵심 통찰은 물리 시뮬레이션을 중간 다리로 활용하는 것입니다. 즉, 연속적인 동작을 직접 인코딩하는 대신 물리 시뮬레이션을 통해 비디오 모델이 처리할 수 있는 시각적 표현(광학 흐름 및 RGB)으로 변환합니다. RealWonder는 단일 이미지 3D 재구성, 물리 시뮬레이션, 단 4회의 디퓨전 단계만 필요한 경량화 비디오 생성기의 세 가지 구성 요소를 통합합니다. 본 시스템은 480x832 해상도에서 13.2 FPS를 달성하여 강체, 가변체, 유체, 입자 재질에 대한 힘, 로봇 동작, 카메라 제어의 상호작용적 탐색을 가능하게 합니다. 우리는 RealWonder가 몰입형 경험, AR/VR, 로봇 학습 분야에서 비디오 모델 적용의 새로운 기회를 열 것으로 기대합니다. 코드와 모델 가중치는 프로젝트 웹사이트(https://liuwei283.github.io/RealWonder/)에서 공개됩니다.
대규모 언어 모델(LLM)에 대한 계산 불변성 기반 학습 후 양자화(PTQ)는 놀라운 발전을 보여왔으나, 이를 다중 모달 대규모 언어 모델(MLLM)에 적용하는 것은 상당한 과제를 안고 있습니다. 본 논문에서는 사례 연구로 SmoothQuant를 분석하고 두 가지 핵심 문제점, 즉 스무딩 불일치(Smoothing Misalignment)와 교차 모달 계산 불변성(Cross-Modal Computational Invariance)을 규명합니다. 이러한 문제를 해결하기 위해 우리는 새로운 프레임워크인 모달리티 인식 스무딩 양자화(MASQuant)를 제안합니다. MASQuant는 (1) 스무딩 불일치를 방지하기 위해 모달리티별 별도의 스무딩 계수를 학습하는 모달리티 인식 스무딩(MAS)과, (2) SVD 화이트닝을 사용하여 다중 모달 활성화 차이를 저차원 형태로 변환하여 모달리티 간 통합 양자화를 가능하게 함으로써 교차 모달 계산 불변성을 해결하는 교차 모달 보상(CMC)을 도입합니다. MASQuant는 이중 모달 및 삼중 모달 MLLM 모두에서 안정적인 양자화 성능을 입증합니다. 실험 결과는 MASQuant가 최신 PTQ 알고리즘 중 경쟁력이 있음을 보여줍니다. 소스 코드: https://github.com/alibaba/EfficientAI.
로봇이 물리적 세계와 상호작용하기 위한 기본적인 능력은 파지( grasping)입니다. 인간은 두 개의 손을 갖추고 있으며, 물체의 형태, 크기, 무게에 따라 적절한 파지 전략을 자율적으로 선택하여 강력한 파지와 후속 조작을 가능하게 합니다. 이와 대조적으로, 현재의 로봇 파지 기술은 특히 다중 전략 환경에서 여전히 제한적입니다. 평행 그리퍼 및 단일 손 파지를 대상으로 한 상당한 노력이 있었지만, 양손 로봇을 위한 정교한 파지(dexterous grasping) 기술은 데이터가 주요 병목 현상으로 작용하며 여전히 충분히 연구되지 않았습니다. 외부 렌치(wrench)를 견딜 수 있는 물리적으로 타당하고 기하학적으로 부합하는 파지를 달성하는 것은 상당한 과제입니다. 이러한 문제를 해결하기 위해 우리는 양손 로봇을 위한 범용 정교 파지 프레임워크인 UltraDexGrasp를 소개합니다. 제안된 데이터 생성 파이프라인은 최적화 기반 파지 합성과 계획 기반 데모 생성을 통합하여 여러 파지 전략에 걸쳐 고품질이고 다양한 궤적을 생성합니다. 이 프레임워크를 통해 우리는 1,000개 객체에 걸쳐 2천만 프레임으로 구성된 대규모 다중 전략 파지 데이터셋인 UltraDexGrasp-20M을 구축했습니다. UltraDexGrasp-20M을 기반으로 우리는 포인트 클라우드를 입력으로 받고, 단방향 주의(unidirectional attention)를 통해 장면 특징을 집계하며, 제어 명령을 예측하는 간단하면서도 효과적인 파지 정책을 추가로 개발했습니다. 합성 데이터만으로 훈련된 이 정책은 강력한 제로샷( zero-shot) 시뮬레이션-투-리얼(sim-to-real) 전이를 달성하고 다양한 형태, 크기, 무게를 가진 새로운 객체에서도 일관되게 성공하여 실제 세계의 범용 정교 파지에서 평균 81.2%의 성공률을 기록했습니다. 양손 로봇 파지에 대한 향후 연구를 촉진하기 위해 우리는 데이터 생성 파이프라인을 https://github.com/InternRobotics/UltraDexGrasp 에서 오픈소스로 공개합니다.
비전 트랜스포머는 장거리 종속성을 포착하기 위한 전역 자기 주의 메커니즘을 활용하여 분류 작업에서 놀라운 성공을 입증해왔습니다. 그러나 이러한 동일한 메커니즘은 분할과 같은 작업에 중요한 세밀한 공간적 세부 정보를 흐릴 수 있습니다. 본 연구에서는 표준 이미지 수준 분류 학습 이후 비전 트랜스포머의 분할 성능을 향상시키고자 합니다. 보다 구체적으로, 비전 트랜스포머의 이미지 수준 인식 능력을 유지하면서 분할 작업 성능을 향상시키는 간단하면서도 효과적인 추가 모듈을 제안합니다. 우리의 접근법에서는 인접한 패치에 주의를 편향시키는 학습 가능한 가우시안 커널로 자기 주의를 조절합니다. 또한 패치 표현을 정제하여 패치 위치에서 더 나은 임베딩을 학습하도록 합니다. 이러한 수정은 토큰이 주변 지역에 집중하도록 유도하고 공간 위치에서 의미 있는 표현을 보장하는 동시에 모델이 전역 정보를 통합하는 능력을 여전히 보존합니다. 실험 결과, 학습 방식을 변경하거나 분류 성능을 저하시키지 않으면서 세 가지 벤치마크(예: ViT Tiny 및 Base 기준 ADE20K에서 각각 6%, 4% 이상)에서 상당한 분할 성능 향상을 통해 우리 수정의 효과성을 입증했습니다. 코드는 https://github.com/sinahmr/LocAtViT/에서 확인할 수 있습니다.
사고 모델은 생각을 소리 내어 표현하지만, 그 내용의 상당 부분은 노이즈에 불과합니다. 우리는 OPSDC(추론 압축을 위한 온-폴리시 자기 지식 증류)를 소개합니다. 이는 모델이 자신의 간결한 사고 행동을 스스로에게 다시 증류함으로써 더 간결하게 사고하도록 가르치는 방법론입니다. 전체 접근법은 한 가지 아이디어로 요약됩니다: 동일한 모델에 "간결하게 사고하라"는 지시를 제공하여 교사 로짓을 얻고, 학생 모델의 자체 롤아웃에서 토큰별 역 KL 발산을 최소화하는 것입니다. 정답 데이터도, 토큰 예산도, 난이도 추정기도 필요하지 않습니다. 오직 자기 지식 증류뿐입니다. 그러나 이러한 단순함 속에 놀라운 정교함이 숨어 있습니다: OPSDC는 어려운 문제에 필요한 숙고는 보존하면서 쉬운 문제는 적극적으로 자동으로 압축합니다. Qwen3-8B와 Qwen3-14B에서 MATH-500 평가 시 정확도를 9-16%p 절대적으로 향상시키면서 57-59%의 토큰 감소를 달성했습니다. AIME 2024에서는 14B 모델이 41% 압축률로 10점의 성능 향상을 보였습니다. 비결은 무엇일까요? 사고 모델이 생성하는 내용의 상당 부분은 단순히 중복되는 것을 넘어, 적극적으로 해롭습니다. 불필요한 모든 토큰이 오류를 증폭시키기 때문입니다.
우리는 강화 학습을 통해 기업 검색 에이전트를 훈련하는 시스템을 제시하며, 이는 검증이 어려운 다양한 에이전트 검색 과제들에서 최첨단 성능을 달성합니다. 본 연구는 네 가지 핵심 기여점을 갖습니다. 첫째, 제약 조건 기반 개체 검색, 문서 간 보고서 통합, 표 형식 수치 추론, 포괄적 개체 검색, 기술 문서에 대한 절차적 추론, 내부 기업 노트에 대한 사실 통합 등 여섯 가지 상이한 검색 영역을 아우르는 다중 역량 평가 제품군인 KARLBench를 소개합니다. 둘째, 이질적인 검색 행동에 걸쳐 훈련된 모델이 단일 벤치마크에 최적화된 모델보다 훨씬 더 우수한 일반화 성능을 보인다는 점을 입증합니다. 셋째, 장기 추론과 도구 사용을 통해 다양하고 근거 있으며 고품질의 훈련 데이터를 생성하는 에이전트 통합 파이프라인을 개발하며, 점점 더 능력 있는 모델로부터의 반복적 부트스트래핑을 적용합니다. 넷째, 샘플 효율이 높고 훈련-추론 엔진 간 차이에 강건하며, 분포 외 일반화를 통한 다중 작업 훈련으로 자연스럽게 확장되는 반복적 대규모 배치 오프-폴리시 RL 기반의 새로운 사후 훈련 패러다임을 제안합니다. Claude 4.6 및 GPT 5.2와 비교했을 때, KARL은 비용-품질 및 지연 시간-품질 절충 관계에서 KARLBench 전체에 걸쳐 파레토 최적이며, 여기에는 훈련 중 분포 외였던 작업들도 포함됩니다. 충분한 테스트 시간 연산 자원이 주어지면, 가장 강력한 폐쇄형 모델들을 능가합니다. 이러한 결과는 다중 작업 강화 학습과 결합된 맞춤형 합성 데이터가 근거 기반 추론을 위한 비용 효율적이고 고성능의 지식 에이전트를 가능하게 함을 보여줍니다.
비디오 이해를 위한 데이터셋이 시간 단위 규모로 확장되고 있지만, 이들은 일반적으로 자연스럽고 각본 없는 일상 생활과는 다른 형태로 밀집 연결된 클립으로 구성됩니다. 이러한 격차를 해소하기 위해 우리는 다중모달 평생 이해(Multimodal Lifelong Understanding)를 위해 설계된 데이터셋인 MM-Lifelong을 소개합니다. 총 181.1시간 분량의 영상으로 구성된 이 데이터셋은 다양한 시간적 밀도를 포착하기 위해 일(Day), 주(Week), 월(Month) 단위로 구조화되었습니다. 광범위한 평가를 통해 현재 패러다임의 두 가지 중요한 실패 모드를 확인했습니다: 종단형 다중모달 대형 언어 모델(MLLM)은 문맥 포화로 인한 작업 기억 병목(Working Memory Bottleneck)을 겪는 반면, 대표적인 에이전트 기반 베이스라인은 희소하고 한 달에 달하는 타임라인을 탐색할 때 전역 위치 파악 실패(Global Localization Collapse)를 경험합니다. 이를 해결하기 위해 우리는 동적 메모리 관리 방식을 통해 재귀적 신념 상태(recursive belief state)를 반복적으로 업데이트하는 재귀적 다중모달 에이전트(Recursive Multimodal Agent, ReMA)를 제안하며, 이는 기존 방법들을 크게 능가하는 성능을 보입니다. 마지막으로, 시간적 및 도메인 편향을 분리하기 위해 설계된 데이터셋 분할을 확립하여 지도 학습 및 분포 외 일반화에 대한 향후 연구를 위한 엄격한 기초를 마련합니다.
다중 모달 객체 재식별(ReID)은 서로 다른 모달리티 간의 상호 보완적 정보를 활용하여 특정 객체를 검색하는 것을 목표로 합니다. 그러나 기존 방법들은 하드 토큰 필터링이나 단순한 융합 전략에 의존하는 경우가 많아, 판별력 있는 단서의 손실과 배경 간섭 증가를 초래할 수 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 세 가지 핵심 구성 요소로 이루어진 새로운 다중 모달 학습 프레임워크인 STMI를 제안합니다: (1) 분할 기반 특징 변조(SFM) 모듈은 SAM으로 생성된 마스크를 활용하여 학습 가능한 어텐션 변조를 통해 전경 표현을 강화하고 배경 잡음을 억제합니다; (2) 의미론적 토큰 재배치(STR) 모듈은 학습 가능한 쿼리 토큰과 적응형 재배치 메커니즘을 사용하여 어떤 토큰도 버리지 않으면서 압축적이고 정보량이 풍부한 표현을 추출합니다; (3) 교차 모달 하이퍼그래프 상호작용(CHI) 모듈은 모달리티를 아우르는 통합 하이퍼그래프를 구성하여 고차원 의미론적 관계를 포착합니다. 공개 벤치마크(RGBNT201, RGBNT100, MSVR310)에서 수행한 폭넓은 실험을 통해, 제안된 STMI 프레임워크의 다중 모달 ReID 시나리오에서의 효과성과 강건성이 입증되었습니다.
우리는 실제 세계의 다중 객체 데이터셋에 확장 가능하고 의사 결정에 적용할 수 있는 자기 지도 객체 중심 월드 모델인 잠재 입자 월드 모델(LPWM)을 소개합니다. LPWM은 비디오 데이터로부터 직접 키포인트, 바운딩 박스, 객체 마스크를 자율적으로 발견하여 지도 없이도 풍부한 장면 분해를 학습할 수 있습니다. 우리의 아키텍처는 순수하게 비디오만으로 end-to-end 훈련되며, 행동, 언어, 이미지 목표에 대한 유연한 조건 설정을 지원합니다. LPWM은 새로운 잠재 행동 모듈을 통해 확률적 입자 역학을 모델링하며, 다양한 실제 세계 및 합성 데이터셋에서 최첨단 성능을 달성합니다. 확률적 비디오 모델링을 넘어, LPWM은 본 논문에서 입증하는 바와 같이 목표 조건 설정 모방 학습을 포함한 의사 결정에 바로 적용 가능합니다. 코드, 데이터, 사전 훈련된 모델 및 비디오 롤아웃은 다음에서 확인할 수 있습니다: https://taldatech.github.io/lpwm-web
대규모 언어 모델이 검색 엔진을 활용하여 추론하도록 강화 학습으로 훈련시키는 것은 근본적인 크레딧 할당 문제로 인해 어려움을 겪고 있습니다. Search-R1과 같은 기존 방법은 다단계 트레이젝토리 전체가 끝난 후 희소한 결과 보상만을 제공하여, 성공 또는 실패를 개별 추론 및 검색 결정에 귀속시키는 것을 불가능하게 만듭니다. StepSearch와 같은 과정 보상 방법은 단계별 감독을 도입하여 이 문제를 완화하지만, 정답 문서와의 TF-IDF 중첩과 같은 휴리스틱 보상에 의존하며, 여전히 예제당 k개의 완전한 트레이젝토리를 샘플링하여 높은 그래디언트 분산을 유지합니다. 우리는 두 가지 상호 보완적인 아이디어에 기반한 SLATE 프레임워크를 제안합니다: (1) 공통 접두사를 공유하고 다음 단계에서만 차이가 나는 k개의 트레이젝토리를 생성하는 절단 단계별 샘플링과 (2) 휴리스틱 점수화를 대체하여 각 추론 단계, 검색 쿼리, 답변의 질을 평가하는 능력 있는 LLM 평가자로 구성된 조밀한 LLM-as-judge 보상입니다. 이는 더 풍부하고 신뢰할 수 있는 감독을 제공합니다. 우리는 동일한 조밀 보상 구조 하에서 절단 샘플링이 T단계 트레이젝토리에 대해 전체 트레이젝토리 샘플링 대비 이점 추정치의 분산을 최대 T배까지 감소시켜 더 낮은 분산과 더 잘 표적화된 정책 그래디언트를 생성함을 이론적으로 증명합니다. 7개의 QA 벤치마크에 대한 실험은 SLATE가 희소 보상 및 과정 보상 기준선을 모두 꾸준히 능가하며, 특히 더 어려운 다중 홉 작업과 더 작은 모델에서 가장 큰 성능 향상을 보임을 확인합니다.
도구 강화 대규모 언어 모델(LLM) 에이전트는 과학적 추론과 계산을 통합할 것을 약속하지만, 약물 발견과 같은 고위험 영역에서의 배치는 두 가지 중요한 장벽에 의해 제한되고 있습니다: 제약되지 않은 도구 사용 통제와 낮은 장기적 신뢰성입니다. 의존성이 높은 제약 파이프라인에서 자율 에이전트는 종종 재현 불가능한 궤적으로 이탈하며, 초기 단계의 환상(잘못된 정보)이 누적되어 하류 단계의 실패로 증폭됩니다. 이를 극복하기 위해 생성형 AI의 유연성과 계산 생물학의 결정론적 엄격함을 연결하는 이중 계층 아키텍처인 Mozi를 제시합니다. A 계층(제어 평면)은 역할 기반 도구 격리를 강제하고, 제한된 행동 공간으로 실행을 제한하며, 성찰 기반 재계획을 주도하는 통제된 관리자-작업자 계층 구조를 구축합니다. B 계층(워크플로우 평면)은 표적 확인부터 선도물질 최적화까지의 표준적인 약물 발견 단계를 상태를 가진 구성 가능한 스킬 그래프로 운영합니다. 이 계층은 엄격한 데이터 계약과 전략적 인간 참여(HITL) 검증점을 통합하여 높은 불확실성 의사 결정 경계에서 과학적 타당성을 보호합니다. "안전한 작업에는 자유 형식 추론, 장기적 파이프라인에는 구조화된 실행"이라는 설계 원칙에 따라 작동하는 Mozi는 내장된 견고성 메커니즘과 추적 수준의 감사 기능을 제공하여 오류 누적을 완전히 방지합니다. 우리는 Mozi를 생의학 에이전트용으로 구성된 벤치마크인 PharmaBench에서 평가하여 기존 기준선보다 우수한 오케스트레이션 정확도를 입증했습니다. 나아가 엔드투엔드 치료제 사례 연구를 통해 Mozi가 방대한 화학 공간을 탐색하고, 엄격한 독성 필터를 적용하며, 매우 경쟁력 있는 실리코 후보 물질을 생성하는 능력을 입증하여 LLM을 취약한 대화 상대에서 신뢰할 수 있고 통제된 공동 과학자로 효과적으로 변모시킵니다.
특정 원천 분포에서 대상 분포로의 변환을 학습하는 전달 모델 구축은 기계 학습의 대표적인 문제이나, 최근 과학적 응용에서는 학습 과정에서 접하지 않은 새로운 원천 및 대상 분포로의 일반화가 가능한 모델에 대한 요구가 증가하고 있다. 본 연구에서는 원천 및 대상 분포의 학습된 임베딩을 전달 맵에 조건화하는 분포 조건화 전달(DCT) 프레임워크를 제안하며, 이를 통해 학습되지 않은 분포 쌍에 대한 일반화를 가능하게 한다. DCT는 또한 분포 예측 문제에 대한 준지도 학습을 지원한다: 임의의 분포 쌍으로부터 학습하므로, 단일 조건에서만 관측된 분포를 활용하여 전달 예측 성능을 향상시킬 수 있다. DCT는 기본 전달 메커니즘에 독립적으로, 흐름 정합(flow matching)부터 분포 발산 기반 모델(예: 바셰스테인, MMD)에 이르기까지 다양한 모델을 지원한다. 우리는 DCT의 실용적 성능 이점을 합성 벤치마크와 생물학 네 가지 응용 분야(단일세포 유전체학에서의 배치 효과 전달, 질량 세포분석 데이터를 이용한 교란 예측, 조혈 과정에서의 클론별 전사 동역학 학습, T 세포 수용체 서열 진화 모델링)에서 입증한다.
사람과 공유되는 환경에서 작동하는 로봇은 주변 환경을 탐색, 상호작용, 감지할 뿐만 아니라 역동적이고 종종 예측 불가능한 인간의 행동을 해석하고 반응해야 합니다. 비전-언어 모델(VLM)을 이용한 로봇 인식 및 지시 따르기 능력 향상에 있어 최근 발전이 두드러지고 있으나, 다중 모드 인간-로봇 상호작용(HRI)의 복잡성을 해결하는 데는 여전히 한계가 있습니다. 이러한 과제에 동기를 부여받아, 우리는 VLM 내 LLM과 비전 인코더 간의 순환을 닫는 경량 언어-투-비전 피드백 모듈을 제안합니다. 이 모듈은 이미지 토큰 은닉 상태를 게이트 다층 퍼셉트론(MLP)을 통해 인코더 입력으로 다시 투영하여, 텍스트 문맥 하에서 장면을 재해석하는 두 번째 패스를 유도합니다. 우리는 이 접근법을 시뮬레이션 환경 내 탐색(Habitat), 순차적 장면 설명(Mementos-Robotics), 인간 의도 인식(우리의 HRI 데이터셋)이라는 세 가지 로봇공학 중심 과제에서 평가합니다. 결과는 우리의 방법이 Qwen 2.5 (7B)의 성능을 3.3%(거리 단축), +0.057(설명 점수), +2.93%(정확도) 향상시키며, 이는 3% 미만의 추가 매개변수만으로 달성됨을 보여줍니다. Gemma 3 (4B)과 LLaVA OV 1.5 (4B)는 탐색 결과가 혼재되었으나, 후두 과제에서 각각 +0.111, +0.055 및 +10.81%, +4.79%의 성능 향상을 보였습니다. 코드는 https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics에서 이용 가능합니다.