번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)으로 구축된 다중 에이전트 시스템의 등장은 확장 가능한 집단 지능과 자기 진화를 위한 유망한 패러다임을 제시합니다. 이상적으로는 이러한 시스템이 강력한 안전성 정렬을 유지하면서 완전히 폐쇄된 루프 내에서 지속적인 자기 개선을 달성해야 하는데, 우리는 이 조합을 자기 진화 삼중 딜레마라고 명명합니다. 그러나 우리는 이론적 및 실증적으로 지속적인 자기 진화, 완전한 격리, 안전성 불변성을 모두 충족하는 에이전트 사회는 불가능함을 입증합니다. 정보 이론적 프레임워크를 통해 안전성을 인간 가치 분포로부터의 발산 정도로 형식화합니다. 우리는 이론적으로 격리된 자기 진화가 통계적 사각지대를 유발하여 시스템의 안전성 정렬이 비가역적으로 악화됨을 증명합니다. 개방형 에이전트 커뮤니티(Moltbook)와 두 개의 폐쇄형 자기 진화 시스템에서 얻은 실증 및 정성적 결과는 불가피한 안전성 침식에 대한 우리의 이론적 예측과 부합하는 현상을 보여줍니다. 우리는 더 나아가 확인된 안전성 문제를 완화하기 위한 몇 가지 해결 방향을 제안합니다. 우리 연구는 자기 진화 인공지능 사회에 대한 근본적 한계를 규명하고, 증상 중심의 안전성 패치 논의에서 내재적 역학적 위험에 대한 원칙적 이해로 담론을 전환하며, 외부 감독이나 새로운 안전성 보존 메커니즘의 필요성을 강조합니다.
대규모 검증 가능 프롬프트는 검증 가능 보상 강화학습(RLVR)의 성공을 뒷받침하지만, 많은 정보성이 낮은 예시를 포함하고 추가 확장 비용이 높습니다. 최근 연구들은 롤아웃 통과율이 0인 어려운 프롬프트에 우선순위를 두어 제한된 훈련 데이터를 더 효과적으로 활용하는 데 집중하고 있습니다. 그러나 훈련이 진행됨에 따라 통과율이 1인 쉬운 프롬프트도 점점 더 흔해지면서 효과적인 데이터 크기가 줄어듭니다. 이를 완화하기 위해 본 연구에서는 통과율-1 프롬프트를 대상으로 제한된 검증 가능 프롬프트를 더 잘 활용하기 위한 간단하면서도 유용한 접근법인 Composition-RL을 제안합니다. 구체적으로, Composition-RL은 여러 문제를 자동으로 조합하여 새로운 검증 가능 질문을 생성하고, 이러한 조합형 프롬프트를 강화학습 훈련에 사용합니다. 4B부터 30B까지 다양한 모델 크기에서 진행한 폭넓은 실험을 통해 Composition-RL이 기존 데이터셋으로 훈련된 강화학습 대비 일관적으로 추론 능력을 향상시킴을 확인했습니다. 또한 조합 깊이를 점진적으로 증가시키는 커리큘럼 변형 Composition-RL을 통해 성능을 더욱 향상시킬 수 있었습니다. 더 나아가 Composition-RL은 서로 다른 도메인에서 추출한 프롬프트를 조합하여 더 효과적인 교차 도메인 강화학습을 가능하게 합니다. 코드, 데이터셋 및 모델은 https://github.com/XinXU-USTC/Composition-RL에서 이용 가능합니다.
현재 이미지 생성 및 편집을 위한 통합 멀티모달 모델들은 일반적으로 대규모 매개변수 규모(예: >100억)에 의존하며, 이는 과도한 학습 비용과 배포 부담을 수반합니다. 본 연구에서는 경량 5B 규모의 통합 모델인 DeepGen 1.0을 제시하며, 이 모델은 훨씬 더 큰 규모의 모델들과 견줄 만하거나 이를 능가하는 포괄적인 성능을 달성합니다. 컴팩트 모델의 의미론적 이해와 세밀한 제어 한계를 극복하기 위해, 우리는 Stacked Channel Bridging(SCB)을 도입했습니다. 이는 심층 정렬 프레임워크로, 다중 VLM 계층에서 계층적 특징을 추출하고 학습 가능한 '생각 토큰'과 융합하여 생성 백본에 구조화되고 추론이 풍부한 지침을 제공합니다. 또한 데이터 중심의 학습 전략을 3단계에 걸쳐 설계했습니다: (1) 대규모 이미지-텍스트 쌍과 편집 삼중항에 대한 정렬 사전 학습을 통해 VLM과 DiT 표현을 동기화하고, (2) 생성, 편집, 추론 작업이 혼합된 고품질 데이터로 공동 지도 미세 조정을 수행하여 전반적 역량을 배양하며, (3) 혼합 보상 함수와 감독 신호를 활용하는 MR-GRPO 강화 학습을 적용하여 시각적 결함 없이 안정적인 학습 진행을 유지하면서 생성 품질과 인간 선호도 정렬에서 상당한 향상을 달성했습니다. 약 5천만 개의 샘플만으로 학습했음에도 불구하고, DeepGen 1.0은 다양한 벤치마크에서 선도적인 성능을 보여, WISE에서 80B HunyuanImage를 28% 앞섰으며 UniREditBench에서 27B Qwen-Image-Edit를 37% 능가했습니다. 학습 코드, 가중치, 데이터셋을 공개함으로써 효율적이고 고성능인 대안을 제공하여 통합 멀티모달 연구의 민주화를 도모합니다.
현재 관측으로부터 다단계 행동 청크를 직접 예측하는 비전-언어-행동(VLA) 모델은 제한된 장면 이해와 약한 미래 예측 능력으로 인해 본질적인 한계에 직면해 있습니다. 이와 대조적으로, 웹 규모의 비디오 코퍼스로 사전 학습된 비디오 월드 모델은 강력한 시공간 추론과 정확한 미래 예측 능력을 보여주어 VLA 학습 향상을 위한 자연스러운 기반이 됩니다. 따라서 우리는 월드 모델 기반 강화 학습을 통해 훈련된 VLA 모델인 GigaBrain-0.5M*를 제안합니다. 10,000시간 이상의 로봇 매니퓰레이션 데이터로 사전 학습되어 중간 버전이 현재 국제 RoboChallenge 벤치마크에서 1위를 차지하고 있는 GigaBrain-0.5를 기반으로, GigaBrain-0.5M*는 RAMP(Reinforcement leArning via world Model-conditioned Policy)를 통한 월드 모델 기반 강화 학습을 추가로 통합하여 강력한 교차 작업 적응을 가능하게 합니다. 실험 결과는 RAMP가 RECAP 기준선을 상회하는 상당한 성능 향상을 달성하며, Laundry Folding, Box Packing, Espresso Preparation을 포함한 난이도 높은 작업에서 약 30%의 개선을 보여줍니다. 중요한 것은 GigaBrain-0.5M*가 신뢰할 수 있는 장기간 실행 능력을 보여주며, 우리의 https://gigabrain05m.github.io{프로젝트 페이지}에 게시된 실제 배포 영상으로 검증된 바와 같이 복잡한 매니퓰레이션 작업을 실패 없이 일관되게 성공한다는 점입니다.
온-정책 증류(OPD)는 학생 모델이 생성한 궤적에서 교사 모델의 로짓 분포와 학생 모델을 정렬하는 방식으로, 학생 모델 성능 향상에 있어 강력한 실증적 효과를 보였으며 오프-정책 증류나 강화학습(RL) 패러다임을 종종 능가합니다. 본 연구에서는 먼저 OPD가 밀집 KL 제약 강화학습의 특수한 경우임을 이론적으로 보입니다. 여기서 보상 함수와 KL 정규화는 항상 동일한 가중치를 가지며, 참조 모델은 어떤 모델이든 될 수 있습니다. 이후 우리는 표준 OPD 목적 함수를 유연한 참조 모델과 KL 정규화 대비 보상 항의 상대적 가중치를 조절하는 보상 스케일링 인자를 도입하여 확장하는 일반화 온-정책 증류(G-OPD) 프레임워크를 제안합니다. 수학적 추론 및 코드 생성 과제에 대한 포괄적 실험을 통해 두 가지 새로운 통찰을 도출했습니다: (1) 보상 스케일링 인자를 1보다 크게 설정하는 것(즉, 보상 외삽)은 ExOPD라고 명명하며, 다양한 교사-학생 모델 크기 조합에서 표준 OPD보다 consistently 향상된 성능을 보입니다. 특히, 동일한 학생 모델에 도메인 특화 RL을 적용하여 얻은 서로 다른 분야 전문가들의 지식을 원래 학생 모델로 다시 융합하는 설정에서 ExOPD는 학생 모델이 교사 모델의 성능 한계를 넘어서고 도메인 교사들을 능가하는 성과를 가능하게 합니다. (2) ExOPD를 기반으로, 강한 모델에서 약한 모델로의 증류 설정(즉, 더 큰 교사 모델로부터 더 작은 학생 모델을 증류)에서 참조 모델을 RL 적용 전 교사 모델의 기본 모델로 선택하여 보상 보정을 수행하면 더 정확한 보상 신호를 얻어 증류 성능을 추가로 향상시킴을 발견했습니다. 그러나 이 선택은 교사 모델의 RL 적용 전 변형에 대한 접근을 전제로 하며 더 많은 계산 오버헤드를 수반합니다. 우리의 연구가 OPD에 대한 향후 연구에 새로운 통찰을 제공하기를 바랍니다.
이산 오디오 토크나이저는 대규모 언어 모델에 오디오 처리 및 생성 능력을 부여하는 데 핵심적인 역할을 합니다. 최근 발전에도 불구하고, 기존 접근법은 사전 학습된 인코더, 의미론적 추출 또는 이질적인 CNN 기반 아키텍처에 의존하는 경우가 많습니다. 이러한 설계는 고정된 귀납적 편향을 도입하여 재현 충실도를 제한하고 효과적인 확장을 방해합니다. 본 논문에서는 이산 오디오 토큰화가 동질적이고 확장 가능한 아키텍처를 사용하여 완전한 종단 간 방식으로 학습되어야 함을 주장합니다. 이를 위해 우리는 먼저 CAT(Causal Audio Tokenizer with Transformer)를 제안합니다. 이는 순수 Transformer 기반 아키텍처로, 고충실도 재현을 위해 인코더, 양자화기, 디코더를 처음부터 공동 최적화합니다. CAT 아키텍처를 기반으로 우리는 16억 개의 매개변수를 갖추고 300만 시간의 다양한 일반 오디오 데이터로 사전 학습된 대규모 오디오 토크나이저인 MOSS-Audio-Tokenizer를 개발했습니다. 우리는 이 단순하고 완전한 종단 간 접근법이 동질적인 인과적 Transformer 블록으로 구성되어 우아하게 확장되며 다양한 오디오 영역에 걸쳐 높은 충실도의 재현을 지원함을 보여줍니다. 음성, 사운드, 음악에 걸쳐 MOSS-Audio-Tokenizer는 광범위한 비트레이트에서 기존 코덱을 꾸준히 능가하며, 규모 증가에 따른 예측 가능한 성능 향상을 보입니다. 특히, 우리 모델의 이산 토큰을 활용하여 기존 비자기회귀 및 캐스케이드 시스템을 능가하는 최초의 순수 자기회귀 TTS 모델을 개발했습니다. 더 나아가, MOSS-Audio-Tokenizer는 보조 인코더 없이도 경쟁력 있는 ASR 성능을 가능하게 합니다. 우리의 연구 결과는 CAT 아키텍처를 다음 세대 네이티브 오디오 파운데이션 모델을 위한 통합되고 확장 가능한 인터페이스로 위치시킵니다.
장편 비디오에 대한 일관된 사운드트랙 합성은 여전히 난제로 남아 있으며, 현재 계산적 확장성, 시간적 일관성, 그리고 가장 중요한 것으로 진화하는 서사적 논리에 대한 포괄적인 의미론적 인식 부재라는 세 가지 중요한 장애물에 의해 주춤되고 있습니다. 이러한 격차를 해소하기 위해, 우리는 감정이 서사적 논리의 고밀도 압축 역할을 한다는 핵심 통찰에 기반한 계층적 프레임워크인 NarraScore를 제안합니다. 독특하게도, 우리는 고정된 Vision-Language Model(VLM)을 지속적인 정감 인지 센서로 재활용하여 고차원의 비주얼 스트림을 밀도 높고 서사를 인지하는 Valence-Arousal 궤적으로 정제합니다. 기제적으로, NarraScore는 전역 구조와 지역적 역동성을 조화시키기 위한 Dual-Branch Injection 전략을 사용합니다: Global Semantic Anchor는 스타일적 안정성을 보장하는 반면, 정밀한 Token-Level Affective Adapter는 직접적인 요소별 잔차 주입을 통해 지역적 긴장도를 조절합니다. 이러한 미니멀리스트 디자인은 집중 어텐션과 구조적 복제의 병목 현상을 우회하여 데이터 부족과 관련된 과적합 위험을 효과적으로 완화합니다. 실험을 통해 NarraScore가 무시할 수 있는 계산 오버헤드로 최첨단 일관성과 서사 정렬을 달성하며, 장편 비디오 사운드트랙 생성을 위한 완전 자율 패러다임을 정립함을 입증합니다.
법률 추론은 올바른 결과뿐만 아니라 절차적으로 준수된 추론 과정을 요구합니다. 그러나 기존 방법론은 중간 추론 단계를 검증하는 메커니즘을 갖추지 못해 부적절한 법률 인용과 같은 오류가 추론 체인을 통해 탐지되지 않고 전파되는 것을 허용합니다. 이를 해결하기 위해 우리는 동적 법률 환경을 위한 탐색-검증-기억 전략을 채택한 자율 법률 연구 에이전트인 LawThinker를 제안합니다. 핵심 아이디어는 모든 지식 탐색 단계 이후 검증을 원자적 연산으로 강제하는 것입니다. DeepVerifier 모듈은 지식 정확성, 사실-법률 관련성, 절차 준수성이라는 세 차원에서 각 검색 결과를 검사하며, 장기적 과제에서 교차 라운드 지식 재사용을 위한 메모리 모듈을 갖춥니다. 동적 벤치마크 J1-EVAL에서의 실험 결과, LawThinker는 직접 추론 대비 24%, 워크플로우 기반 방법 대비 11%의 성능 향상을 달성했으며, 특히 과정 지향 측정 항목에서 강력한 개선을 보였습니다. 세 가지 정적 벤치마크에 대한 평가는 또한 모델의 일반화 능력을 추가로 입증합니다. 코드는 https://github.com/yxy-919/LawThinker-agent 에서 확인할 수 있습니다.
기존 다중모달 대규모 언어 모델은 높은 정확도의 시각 인식과 탐색적 시각 생성을 달성했습니다. 그러나 복잡한 추론 과제에서는 정밀성 패러독스가 지속되고 있습니다: 광학 인식 시스템은 논리적 토폴로지를 포착하지 못한 채 기호를 전사하는 반면, 픽셀 기반 생성 모델은 수학적 정확성이 부족한 시각적 아티팩트를 생성합니다. 이러한 격차를 해소하기 위해 우리는 시각 입력에 대한 추론을 광학적 압축 해제—압축된 시각 토큰으로부터 잠재적 논리 구조를 재구성하는 과정—로 재개념화할 것을 제안합니다. '파싱이 곧 추론이다'라는 공리에 기반하여, 우리는 최소주의 도메인 특화 언어(DSL)를 기반 중간 표현으로 활용하는 Thinking with Drafting(TwD)을 소개합니다. 답변을 직접 생성하는 표준 접근법과 달리, TwD는 모델이 자신의 멘탈 모델을 실행 가능한 코드로 기초 설계하게 하여 결정론적 시각적 증명을 생성함으로써 자기 검증을 가능하게 합니다. 이를 검증하기 위해 우리는 시각 대수 벤치마크인 VisAlg를 제시합니다. 실험 결과, TwD가 우수한 인지 비계 역할을 함을 입증했습니다. 우리의 연구는 시각 생성을 창의적 출력이 아닌 논리적 검증기로 작동하는 폐쇄 루프 시스템을 구축하여 시각 추론을 위한 일반화 가능한 경로를 제시합니다.
효과적인 테스트 타임 스케일링을 달성하려면 모델이 단일 연속 컨텍스트 내에서 여러 추론 가설을 생성, 검증 및 정제하는 내재적 능력인 In-Context Exploration(문맥 내 탐색)을 수행해야 합니다. State Coverage(상태 커버리지) 이론에 기반한 우리의 분석은 이러한 능력 활성화의 핵심 병목현상을 규명합니다. 즉, 더 넓은 상태 커버리지는 더 긴 추론 경로를 필요로 하지만, 이러한 시퀀스를 샘플링할 확률은 자기회귀 생성 과정에서 기하급수적으로 감소하는데, 우리는 이 현상을 'Shallow Exploration Trap(피상적 탐색 함정)'이라 명명합니다. 이 격차를 해소하기 위해 우리는 Length-Incentivized Exploration(\method)을 제안합니다. 이 간단하면서도 효과적인 기법은 길이 기반 보상과 중복 패널티를 결합해 모델이 더 많이 탐색하도록 명시적으로 장려함으로써, 2단계 방식으로 상태 커버리지를 극대화합니다. 다양한 모델(Qwen3, Llama)을 대상으로 한 포괄적인 실험을 통해 \method가 문맥 내 탐색을 효과적으로 촉진함을 입증했습니다. 그 결과, 우리 방법은 도메인 내 작업에서 평균 4.4%, 도메인 외 벤치마크에서 2.7%의 성능 향상을 달성했습니다.
모델 용량과 데이터 수집의 지속적인 확장에도 불구하고, 비전-언어-행동(Vision-Language-Action, VLA) 모델들은 접촉이 빈번하고 동적인 조작 작업에서 취약성을 보입니다. 미세한 실행 오차가 누적되어 실패로 이어질 수 있는 환경에서 말이죠. 강화 학습(Reinforcement Learning, RL)은 견고성 향상의 원칙적 방안을 제공하지만, 물리적 현실에서의 온-정책(On-Policy) RL은 안전 위험, 하드웨어 비용, 환경 재설정의 제약을 받습니다. 이러한 격차를 해소하기 위해 우리는 상상(Imagination)을 통한 확장 가능한 로봇 강화 학습 프레임워크인 RISE를 제안합니다. 그 핵심은 (i) 제어 가능한 역학 모델을 통해 다중 뷰(Multi-View) 미래를 예측하고, (ii) 상상된 결과를 진행 가치 모델(Progress Value Model)로 평가하여 정책 향상에 유익한 어드밴티지(Advantage)를 생성하는 구성적 세계 모델(Compositional World Model)입니다. 이러한 구성적 설계는 상태(State)와 가치(Value)가 각각 가장 적합한 서로 다른 아키텍처와 목적 함수를 통해 최적화될 수 있게 합니다. 이러한 구성 요소들은 고비용의 물리적 상호작용 없이 상상 공간에서 가상 롤아웃(Rollout)을 지속적으로 생성하고, 어드밴티지를 추정하며, 정책을 업데이트하는 폐쇄형 자기 향상(Self-Improving) 파이프라인에 통합됩니다. 세 가지 까다로운 실제 작업에서 RISE는 기존 최고 기술 대비 뚜렷한 성능 향상을 보였는데, 각각 동적 벽돌 분류에서 +35% 이상, 배낭 챙기기에서 +45%, 상자 닫기에서 +35%의 절대적 성능 증가를 기록했습니다.
시각적 환상은 전통적으로 다중 시점 일관성과 같은 공간적 조작에 의존해왔습니다. 본 연구에서는 단일 스케치에 스트로크를 순차적으로 추가함으로써 극적인 의미론적 변환이 일어나는 새로운 벡터 스케칭 작업인 점진적 의미론적 환상(Progressive Semantic Illusions)을 소개합니다. 우리는 다양한 드로잉 단계에서 별개의 의미론적 해석을 충족하도록 벡터 스트로크를 최적화하는 생성 프레임워크인 Stroke of Surprise를 제시합니다. 핵심 과제는 "이중 제약"에 있습니다: 초기 접두사 스트로크는 일관된 객체(예: 오리)를 형성해야 하는 동시에 델타 스트로크를 추가할 때 두 번째 개념(예: 양)의 구조적 기반으로 동시에 기능해야 합니다. 이를 해결하기 위해 이중 분기 점수 증류 샘플링(Score Distillation Sampling, SDS) 메커니즘으로 구동되는 시퀀스 인식 공동 최적화 프레임워크를 제안합니다. 초기 상태를 고정하는 순차적 접근법과 달리, 우리의 방법은 두 대상 모두에 유효한 "공통 구조적 부분 공간"을 발견하기 위해 접두사 스트로크를 동적으로 조정합니다. 더 나아가, 단순한 폐색이 아닌 구조적 통합을 보장하는 공간적 상보성을 강제하는 새로운 오버레이 손실(Overlay Loss)을 도입합니다. 광범위한 실험을 통해 우리의 방법이 인식 가능성과 환상 강도 측면에서 최첨단 기준선을 크게 능가하며, 시각적 애너그램을 공간 차원에서 시간 차원으로 성공적으로 확장함을 입증합니다. 프로젝트 페이지: https://stroke-of-surprise.github.io/
고신뢰성 장기계획 로봇 매니퓰레이션은 전통적으로 복잡한 실제 세계 역학을 이해하기 위해 대규모 데이터와 컴퓨팅 자원에 의존해왔습니다. 그러나 우리는 실제 세계 강건성의 주요 병목 현상이 자원 규모만이 아니라 인간 시연 데이터 분포, 정책이 학습한 귀납적 편향, 실행 시험 분포 간의 분포 변화—다단계 작업에서 누적 오류를 유발하는 체계적 불일치—에 있음을 규명했습니다. 이러한 불일치를 완화하기 위해 우리는 로봇 매니퓰레이션에서 생산 수준의 강건성을 달성하기 위해 설계된 효율적인 모듈을 갖춘 자원 효율적 프레임워크 χ₀를 제안합니다. 우리의 접근법은 세 가지 기술적 기둥에 기반합니다: (i) 객체 외관부터 상태 변이까지 다양한 시연 데이터 분포를 효율적으로 흡수하는 가중치 공간 통합 전략인 Model Arithmetic; (ii) 기존 비단계적 접근법의 수치적 불안정성을 극복하고 안정적이며 밀집된 진행 신호를 제공하는 단계 인식 Advantage 추정기인 Stage Advantage; (iii) 시공간 증강, 휴리스틱 DAgger 수정 및 시간적 청크 단위 평활화를 통해 분포 차이를 해소하는 Train-Deploy Alignment. χ₀는 두 세트의 듀얼암 로봇이 다양한 의류의 평탄화, 접기, 걸기까지 이르는 장기계획 의류 조작 작업을 협력적으로 수행할 수 있게 합니다. 우리 방법은 높은 신뢰성의 자율성을 보여주며, 임의의 초기 상태에서 시스템을 24시간 연속 비정지 운영할 수 있습니다. 실험 결과 χ₀는 최신 기술인 π_{0.5} 대비 성공률을 약 250% 향상시키며, 단 20시간 데이터와 8개의 A100 GPU만으로 이를 달성함을 검증했습니다. 코드, 데이터 및 모델은 커뮤니티 활성화를 위해 공개될 예정입니다.
사람의 데모는 풍부한 환경 다양성을 제공하고 자연스럽게 규모를 확장할 수 있어 로봇 원격 조작에 대한 매력적인 대안이 됩니다. 이러한 패러다임은 로봇 암 매니퓰레이션을 발전시켰으나, 더 어렵고 데이터가 많이 필요한 휴머노이드 이동-매니퓰레이션 문제에 대한 잠재력은 대부분 탐구되지 않았습니다. 우리는 풍부한 에고센트릭 인간 데모와 제한된 양의 로봇 데이터를 함께 사용하여 비전-언어-행동 정책을 공동 학습하는 최초의 프레임워크인 EgoHumanoid를 소개합니다. 이를 통해 휴머노이드가 다양한 실제 환경에서 이동-매니퓰레이션을 수행할 수 있게 됩니다. 물리적 형태와 시점의 차이를 포함한 인간과 로봇 간의 구현 차이를 해결하기 위해, 우리는 하드웨어 설계부터 데이터 처리에 이르는 체계적인 정렬 파이프라인을 도입합니다. 확장 가능한 인간 데이터 수집을 위한 휴대용 시스템을 개발하고, 전이 가능성을 향상시키기 위한 실용적인 수집 프로토콜을 확립합니다. 우리의 인간-휴머노이드 정렬 파이프라인의 핵심에는 두 가지 주요 구성 요소가 있습니다. 시점 정렬은 카메라 높이와 시각 변화로 인한 시각 영역 차이를 줄입니다. 행동 정렬은 인간의 동작을 휴머노이드 제어를 위해 운동학적으로 실현 가능한 통합 행동 공간으로 매핑합니다. 광범위한 실제 환경 실험을 통해 로봇 데이터가 없는 에고센트릭 데이터를 통합하면 로봇 데이터만 사용한 기준선보다 특히 보지 않은 환경에서 51% 우수한 성능을 보임을 입증합니다. 우리의 분석은 어떤 행동이 효과적으로 전이되는지와 인간 데이터 확장의 잠재력을 추가로 보여줍니다.
확산 대형 언어 모델(dLLMs)은 자기회귀 모델링을 넘어선 새로운 패러다임으로, 경쟁력 있는 성능을 제공하면서도 유연한 디코딩 과정을 자연스럽게 가능하게 합니다. 구체적으로, dLLMs는 임의의 위치에서 토큰을 병렬로 생성할 수 있어, 기존 자기회귀 모델링의 심각한 비효율성으로 제약받았던 병렬 테스트 타임 스케일링에 상당한 잠재력을 부여합니다. 본 연구에서는 추론 능력을 훈련 없이 향상시키며, 허용 가능한 수준의 추가 계산 오버헤드만 발생하는 빠른 투표 기법인 dVoting을 소개합니다. dVoting은 동일한 프롬프트에 대한 여러 샘플에서 토큰 예측은 대체로 일관되게 유지되는 반면, 성능은 샘플 간 변동성을 보이는 소수의 토큰에 의해 결정된다는 관찰에서 착안했습니다. dVoting은 dLLMs의 임의 위치 생성 능력을 활용하여 샘플링, 일관성 분석을 통한 불확실 토큰 식별, 투표를 통한 재생성 과정을 반복하며 반복적 정제를 수행하고, 이 과정을 수렴할 때까지 반복합니다. 광범위한 평가 결과, dVoting이 다양한 벤치마크에서 지속적으로 성능을 향상시키는 것으로 나타났습니다. GSM8K에서 6.22%-7.66%, MATH500에서 4.40%-7.20%, ARC-C에서 3.16%-14.84%, MMLU에서 4.83%-5.74%의 성능 향상을 달성했습니다. 우리의 코드는 https://github.com/fscdc/dVoting 에서 확인할 수 있습니다.
본 논문에서는 초저지연 실시간 음성 인식 모델인 Voxtral Realtime을 소개한다. 이 모델은 오프라인 음성 인식 수준의 정확도를 유지하면서도 1초 미만의 지연 시간으로 동작한다. 기존의 오프라인 모델을 청킹이나 슬라이딩 윈도우 방식으로 개조한 접근법과 달리, Voxtral Realtime은 오디오와 텍스트 스트림 간의 명시적 정렬을 통해 엔드투엔드 방식으로 실시간 처리를 위해 훈련되었다. 본 연구의 아키텍처는 Delayed Streams Modeling 프레임워크를 기반으로, 개선된 지연 조건화를 위한 새로운 인과적 오디오 인코더와 Ada RMS-Norm을 도입했다. 또한 13개 언어로 구성된 대규모 데이터셋을 활용해 사전 훈련을 확장하였다. 480ms의 지연 시간 조건에서 Voxtral Realtime은 가장 널리 사용되는 오프라인 전사 시스템인 Whisper와 동등한 성능을 달성했다. 본 모델의 가중치는 Apache 2.0 라이선스 하에 공개한다.
시각-언어 내비게이션은 왜 세부적이고 장황한 언어 지시에 얽매여야 할까? 이러한 세부 사항은 의사 결정을 용이하게 하지만, 실세계 내비게이션의 근본적인 목표와 상충합니다. 이상적으로는 에이전트가 단순하고 고수준의 의도만을 지시받아 미지의 환경을 자율적으로 탐색할 수 있어야 합니다. 이러한 비전을 실현하기 위해서는 '시야 밖 내비게이션(BVN)'이라는 난제가 도입됩니다. BVN에서는 에자전트가 빽빽하고 단계적인 지도 없이 먼 거리에 있으며 보이지 않는 목표물을 찾아야 합니다. 기존의 대규모 언어 모델(LLM) 기반 방법론은 세부 지시를 잘 따르는 데 능숙하지만, 단기적인 감독에 의존하기 때문에 근시안적인 행동을 보이는 경우가 많습니다. 그러나 단순히 감독 범위를 확장하면 LLM 학습이 불안정해집니다. 본 연구에서는 비디오 생성 모델이 언어 지시와의 정렬을 위해 본질적으로 장기적인 감독의 이점을 얻어 BVN 작업에 특히 적합함을 규명합니다. 이러한 통찰을 바탕으로, 우리는 이 분야에 최초로 비디오 생성 모델을 도입합니다. 그러나 수십 초에 달하는 비디오를 생성하는 데 따른 과도한 지연 시간으로 인해 실세계 적용은 불가능에 가깝습니다. 이러한 격차를 해결하기 위해 우리는 SparseVideoNav를 제안합니다. 이는 20초 수준의 생성된 희소 미래 예측을 안내로 삼아 초 단위 궤적 추론을 달성합니다. 이는 최적화되지 않은 대비책에 비해 무려 27배의 속도 향상을 가져옵니다. 폭넓은 실세계 제로샷 실험을 통해 SparseVideoNav가 BVN 작업에서 최첨단 LLM 기준선 대비 2.5배의 성공률을 달성하며, 특히 어려운 야간 환경에서 이러한 능력이 최초로 실현됨을 입증합니다.
대규모 모델(LM)의 발전이 빠르게 진행됨에 따라 그 안전성 또한 우선순위로 대두되고 있습니다. 현재의 대규모 언어 모델(LLM) 및 다중모달 대규모 언어 모델(MLLM) 안전성 워크플로우에서는 평가, 진단, 정렬이 종종 별도의 도구로 처리됩니다. 구체적으로, 안전성 평가는 외부적 행위 위험만을 파악할 수 있을 뿐 내부적 근본 원인을 규명하지는 못합니다. 한편, 안전성 진단은 구체적인 위험 시나리오와 동떨어져 설명 가능한 수준에 머무는 경우가 많습니다. 이러한 방식으로는 안전성 정렬이 내부 메커니즘 변화에 대한 전용 설명을 결여하여 일반 능력을 저하시킬 가능성이 있습니다. 이러한 문제들을 체계적으로 해결하기 위해, 우리는 새로운 안전성 평가-진단 통합 패러다임을 실천하는 오픈소스 프로젝트인 DeepSight를 제안합니다. DeepSight는 평가 도구 키트인 DeepSafe와 진단 도구 키트인 DeepScan으로 구성된 저비용, 재현 가능, 효율적이며 확장성이 매우 높은 대규모 모델 안전성 평가 프로젝트입니다. 과업 및 데이터 프로토콜을 통일함으로써 두 단계 간의 연결을 구축하고 안전성 평가를 블랙박스 수준에서 화이트박스 통찰로 전환합니다. 또한 DeepSight는 최첨단 AI 위험 평가와 연합 안전성 평가 및 진단을 지원하는 최초의 오픈소스 도구 키트입니다.
전자상거래 상품 이해는 본질적으로 텍스트, 이미지, 구조화된 속성으로부터 강력한 다중모달 이해 능력을 요구합니다. 범용 비전-언어 모델(VLM)은 일반화 가능한 다중모달 잠재 표현 모델링을 가능하게 하지만, 일반적인 성능을 저하시키지 않으면서 전자상거래 데이터의 속성 중심적, 다중 이미지, 노이즈 특성에 이를 적용하기 위한 문서화되고 잘 알려진 전략은 부재합니다. 본 연구에서는 대규모 실험 연구를 통해 범용 VLM의 표적 적응(Targeted Adaptation)이 전자상거래 성능을 크게 향상시키면서도 광범위한 다중모달 능력을 보존할 수 있음을 보여줍니다. 나아가, 심층 상품 이해, 엄격한 지시 따르기, 동적 속성 추출을 포괄하는 새로운 종합 평가 체계를 제안합니다.
우리는 현실적이고 비동기적인 환경에서 대규모 언어 모델 에이전트를 평가하기 위한 벤치마크인 Gaia2를 소개한다. 기존의 정적이거나 동기식 평가와 달리, Gaia2는 환경이 에이전트의 행동과 독립적으로 변화하는 시나리오를 도입하여, 에이전트가 시간적 제약 하에 작동하고, 노이즈가 많고 동적인 이벤트에 적응하며, 모호성을 해결하고, 다른 에이전트와 협업하도록 요구한다. 각 시나리오는 기록-행동 검증기와 결합되어 세분화된 행동 수준의 평가를 가능하게 하며, 검증 가능한 보상으로부터의 강화 학습에 Gaia2를 직접 사용할 수 있게 한다. 최첨단 독점 및 오픈소스 모델에 대한 우리의 평가 결과, 단일 모델이 모든 능력에서 우월하지는 않음을 보여준다: GPT-5(high)는 42% pass@1로 가장 강력한 종합 점수에 도달했지만 시간 민감성 작업에서는 실패했고, Claude-4 Sonnet은 정확도와 속도를 비용과 절충했으며, Kimi-K2는 21% pass@1로 오픈소스 모델 중 선두를 달렸다. 이러한 결과는 추론, 효율성, 견고성 사이의 근본적인 절충을 부각시키고 'sim2real' 격차를 해소하는 데 있는 도전 과제를 드러낸다. Gaia2는 오픈소스 Agents Research Environments 플랫폼 기반의 소비자 환경 위에 구축되었으며 확장이 용이하도록 설계되었다. 기반 ARE 프레임워크와 함께 Gaia2를 공개함으로써, 우리는 실용적인 차세대 에이전트 시스템을 개발, 벤치마킹, 훈련시키기 위한 유연한 인프라를 커뮤니티에 제공하고자 한다.
AI 비디오 생성의 지형은 중대한 전환점을 맞고 있습니다: 과도한 프롬프트 엔지니어링과 '체리 피킹(선별)'에 의존하는 일반적인 생성(general generation)을 넘어, 세밀하게 제어 가능한 생성과 높은 정밀도의 후처리(post-processing)로 이동하고 있습니다. 전문 AI 지원 영화 제작에서는 정확하고 표적화된 수정을 수행하는 것이 중요합니다. 이러한 전환의 핵심은 비디오 인스턴스 삽입(video instance insertion)으로, 기존 영상에 특정 인스턴스를 삽입하면서 장면의 무결성을 유지해야 합니다. 기존의 비디오 편집과 달리, 이 작업은 정확한 시공간적 배치, 물리적으로 일관된 장면 상호작용, 원본 동역학의 충실한 보존이라는 여러 요구사항을 최소한의 사용자 노력으로 달성해야 합니다. 본 논문에서는 임의의 희소 키프레임 제어를 통한 정밀한 비디오 인스턴스 삽입을 위한 비디오 확산 모델 PISCO를 제안합니다. PISCO는 사용자가 단일 키프레임, 시작 및 종료 키프레임, 또는 임의의 타임스탬프에 희소 키프레임을 지정하면 객체의 외관, 모션, 상호작용을 자동으로 전파합니다. 사전 학습된 비디오 확산 모델에서 희소 조건화로 인한 심각한 분포 변화를 해결하기 위해, 우리는 강력한 조건화를 위한 가변 정보 가이던스(Variable-Information Guidance)와 시간적 생성 안정화를 위한 분포 보존 시간 마스킹(Distribution-Preserving Temporal Masking)을 도입하고, 현실적인 장면 적응을 위한 기하학 인식 조건화(geometry-aware conditioning)를 함께 사용합니다. 우리는 더 나아가 검증된 인스턴스 어노테이션과 쌍을 이루는 깨끗한 배경 비디오로 구성된 벤치마크 PISCO-Bench를 구축하고, 참조 기반 및 참조 없는 지각 메트릭을 사용하여 성능을 평가합니다. 실험 결과, PISCO는 희소 제어 조건에서 강력한 인페인팅 및 비디오 편집 베이스라인을 지속적으로 능가하며, 추가 제어 신호가 제공됨에 따라 명확하고 단조로운 성능 향상을 보여줍니다. 프로젝트 페이지: xiangbogaobarry.github.io/PISCO.
검증 가능한 보상을 활용한 강화 학습(RLVR), 특히 GRPO는 LLM 추론 능력을 이끌어내는 표준 방법론으로 자리 잡았습니다. 그러나 탐색 효율성과 난이도 적응 측면에서의 성능은 여전히 해결 과제로 남아 있습니다. 본 연구에서는 이러한 병목 현상이 그룹 상대적 이점 추정(GRAE)에 내재된 암묵적 이점 대칭성에서 비롯된다고 주장합니다. 이러한 대칭성은 두 가지 중요한 한계를 야기합니다: (i) 그룹 수준에서 정답과 오답 궤적 간의 엄격한 가중치 대칭성은 미추출된 행동 로짓을 변경하지 않아 새로운 정답 탐색을 저해합니다. (ii) 표본 수준에서 알고리즘은 중간 난이도 표본을 암묵적으로 우선시하여 난이도 집중의 비정상적(non-stationary) 요구를 인지하지 못합니다. 통제 실험을 통해 이 대칭적 특성이 최적이 아님을 규명하고 두 가지 핵심 통찰을 제시합니다: (i) 정답 궤적의 이점을 비대칭적으로 억제하면 필수적인 탐색이 촉진됩니다. (ii) 학습 효율은 단순한 표본을 우선 학습한 후 점차 복잡한 표본으로 전환하는 교과과정식(curriculum-like) 접근에서 극대화됩니다. 이러한 발견을 바탕으로 우리는 탐색 유인과 표본 난이도 집중을 동적으로 조절하는 비대칭 GRAE(A-GRAE)를 제안합니다. 7개 벤치마크에서의 실험 결과, A-GRAE가 LLM과 MLLM 모두에서 GRPO 및 그 변형 모델들의 성능을 지속적으로 향상시킴을 입증했습니다.
최근 연구에서는 명시적 추론 궤적을 잠재 공간의 연속적 표현으로 대체하여 추론 효율성을 향상시키는 잠재 추론을 탐구하고 있으나, 그 효과는 설정에 따라 다양하게 나타난다. 잠재 추론 하에서 모델 신뢰도 동역학을 분석한 결과, 잘못된 답으로 끝나는 사고 궤적이 정답으로 끝나는 궤적보다 낮은 신뢰도 단계가 더 적게 포함되는 것으로 나타났다. 한편, 여러 낮은 신뢰도 사고 대안들이 집계된 소프트 임베딩은 노이즈를 유발하고 전파하여 신뢰할 수 없는 추론 궤적에 대한 높은 신뢰도를 초래할 수 있음을 제안한다. 이러한 관찰 결과에 기반하여, 효율적 추론을 위해 높은 신뢰도와 노이즈를 피하는 추론 시점 신뢰도 인지 라우팅 메커니즘인 ThinkRouter를 제안한다. ThinkRouter는 모델 신뢰도가 낮을 때는 사고를 이산 토큰 공간으로 라우팅하고, 그렇지 않을 때는 잠재 공간으로 라우팅한다. 다양한 대규모 추론 모델을 대상으로 한 STEM 추론 및 코딩 벤치마크에서의 폭넓은 실험 결과, ThinkRouter는 명시적 CoT, 무작위 라우팅 및 잠재 추론 기준선을 정확도 측면에서 능가하며 Pass@1에서 평균 19.70점의 향상을 달성하는 동시에 생성 길이를 최대 15.55%까지 줄이는 것으로 나타났다. 추가적인 종합 분석을 통해 ThinkRouter는 명시적 CoT와 잠재 추론에서 발생하는 오류를 보정하고, 전역적으로 모델 신뢰도를 낮춤으로써 사고 종료 토큰 생성을 가속화할 수 있음을 확인하였다.
확산 대형 언어 모델(DLLM)은 여러 토큰을 병렬로 디코딩하여 빠른 텍스트 생성을 가능하게 할 잠재력을 지닙니다. 그러나 실제로는 많은 개선 단계가 필요하기 때문에 추론 효율이 제한되며, 단계 수를 과감하게 줄이면 생성 품질이 현저히 저하됩니다. 이를 완화하기 위해 우리는 모델 자체의 생성 궤적을 증류하여 적은 단계의 디코딩 성능을 향상시키는 궤적 자기 증류 프레임워크를 제안합니다. 모드 추적형 증류를 촉진하고 학생 모델이 높은 확률의 교사 모드에 집중하도록 유도하는 역-KL 목적 함수인 직접 판별 최적화(DDO)를 통합하였습니다. 벤치마크에서 우리의 접근법은 제한된 단계 예산 하에서 강력한 적은 단계 베이스라인과 표준 학습을 지속적으로 능가했습니다. 전체 단계 디코딩이 여전히 우수하지만, 우리는 그 격차를 상당히 좁혀 실용적인 적은 단계 DLLM을 위한 견고한 기반을 마련했습니다. 소스 코드는 https://github.com/Tyrion58/T3D에서 확인할 수 있습니다.
단일 음헬리시티 트리 수준 n-글루온 산란 진폭을 재검토한다. 일반적으로 소멸하는 것으로 추정되지만, 여기서는 클라인 공간이나 복소화된 운동량에 존재하는 특정 "반-공선" 구성에서 비소멸함을 보인다. 단일 음헬리시티 글루온이 n-1개의 양헬리시티 글루온으로 붕괴하는 과정을 운동량 함수로 표현한 구간적 상수 폐형 표현식을 유도한다. 이 공식은 Weinberg의 연질 정리를 포함한 여러 일관성 조건을 비자명하게 충족시킨다.
장기 기억은 대규모 언어 모델 에이전트가 과거 상호작용을 통해 복잡한 작업을 처리할 수 있게 합니다. 그러나 기존 프레임워크는 중복 정보를 효율적으로 압축하는 것과 하위 작업을 위한 정확한 검색을 유지하는 것 사이의 근본적인 딜레마에 직면해 있습니다. 이러한 격차를 해소하기 위해 우리는 정보 병목 현상 원리에 기반하여 LLM의 실시간 메모리 진화를 용이하게 하는 MemFly 프레임워크를 제안합니다. 우리의 접근 방식은 경사하강법 없는 최적화기를 통해 관련성 엔트로피를 최대화하면서 압축 엔트로피를 최소화하여 효율적인 저장을 위한 계층화된 메모리 구조를 구축합니다. MemFly의 잠재력을 최대한 활용하기 위해 의미론적, 상징적, 위상적 경로를 원활하게 통합하고 복잡한 다중 홉 쿼리를 처리하기 위한 반복적 정제를 포함하는 하이브리드 검색 메커니즘을 개발했습니다. 포괄적인 실험을 통해 MemFly가 메모리 일관성, 응답 정확도 및 정밀도 측면에서 최첨단 베이스라인을 크게 능가함을 입증했습니다.
초장기 콘텍스트를 활용하는 애플리케이션으로의 대규모 언어 모델(LLM) 발전은 Transformer 아키텍처의 높은 계산 및 메모리 비용으로 인한 과제에 직면해 있습니다. 기존의 희소 주의력 및 선형 주의력 메커니즘이 이러한 문제를 완화하려 시도하지만, 일반적으로 메모리 효율성과 모델 성능 간의 트레이드오프를 수반합니다. 본 논문은 90억 개의 파라미터를 가진 하이브리드 아키텍처인 MiniCPM-SALA를 소개합니다. 이는 희소 주의력(InfLLM-V2)의 높은 정밀도의 장기 콘텍스트 모델링과 선형 주의력(Lightning Attention)의 전역 효율성을 통합합니다. 레이어 선택 알고리즘을 사용하여 이러한 메커니즘을 1:3 비율로 통합하고 하이브리드 위치 인코딩(HyPE)을 활용함으로써, 이 모델은 장기 콘텍스트 작업에 대해 효율성과 성능을 유지합니다. 더 나아가, 우리는 사전 훈련된 Transformer 기반 모델을 하이브리드 모델로 변환하는 비용 효율적인 지속 훈련 프레임워크를 도입하며, 이는 처음부터 훈련하는 것에 비해 훈련 비용을 약 75% 절감합니다. 광범위한 실험 결과, MiniCPM-SALA는 향상된 효율성을 제공하면서도 전체 주의력 모델에 버금가는 일반적인 능력을 유지하는 것으로 나타났습니다. 단일 NVIDIA A6000D GPU에서 이 모델은 256K 토큰 시퀀스 길이에서 전체 주의력 모델 대비 최대 3.5배의 추론 속도를 달성하며, 최대 1M 토큰의 콘텍스트 길이를 지원합니다. 이는 메모리 제약으로 인해 기존의 전체 주의력을 사용하는 80억 파라미터 모델들이 실패하는 규모입니다.
개방형 학습은 지능이 끊임없이 확장되는 환경 공간과의 지속적 상호작용에서 출현하는 것으로 정의합니다. 최근 발전된 방법들은 파운데이션 모델을 활용해 프로그램 방식으로 다양한 환경을 생성하지만, 이러한 접근법들은 지속적인 진화를 구성하기보다는 고립된 행동들을 발견하는 데 주로 초점을 맞춥니다. 복잡한 개방형 세계에서는 가능한 도전과제들의 조합 공간이 방대하여 에이전트가 지속적으로 학습 가능한 경험의 연속성을 발견하기 어렵습니다. 이를 해결하기 위해 우리는 파운데이션 모델이 실행 가능한 환경 코드를 합성하여 점진적 역량 강화를 위한 학습을 지원하는 프레임워크인 Dreaming in Code(DiCode)를 제안합니다. DiCode에서 "꿈꾸기"는 세계의 코드 수준 변이를 구체화하는 형태를 취합니다. 우리는 풍부한 메커니즘과 장기적 진전을 특징으로 하는 도전적인 개방형 벤치마크인 Craftax에 DiCode를 구현했습니다. 실험 결과 DiCode는 에이전트가 장기적 기술을 습득할 수 있도록 하여 가장 강력한 기준선 대비 평균 수익에서 16% 향상을 달성했으며, 기존 방법이 실패한 후반부 전투 과제에서도 비영점 성공률을 보였습니다. 우리의 결과는 코드 수준 환경 설계가 커리큘럼 제어를 위한 실용적 메커니즘을 제공함으로써 개방형 세계에서의 역량 격차를 연결하는 중간 환경 구축을 가능하게 함을 시사합니다. 프로젝트 페이지와 소스 코드는 https://konstantinosmitsides.github.io/dreaming-in-code 및 https://github.com/konstantinosmitsides/dreaming-in-code에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 사전 학습은 일반적으로 수천 개의 고용량 GPU(예: H100/A100)로 구성된 중앙 집중식 클러스터가 필요합니다. 최근의 분산 학습 방법은 연합 최적화를 통해 통신 오버헤드를 줄이지만, 각 노드에서 전체 모델을 학습해야 하므로 GPU 메모리 한계에 여전히 제약을 받습니다. 본 연구에서는 MoE(Mixture-of-Experts) LLM의 메모리 효율적인 분산 사전 학습 프레임워크인 SPES(SParse Expert Synchronization)를 제안합니다. SPES는 노드당 전문가 일부만을 학습하여 메모리 사용량을 크게 줄입니다. 각 노드는 로컬 전문가를 업데이트하고 주기적으로 다른 노드와 동기화하며, 전체 매개변수 전송을 제거하면서도 효율적인 지식 공유를 보장합니다. 수렴 속도를 높이기 위해, 학습 초기 단계에 전문가들이 지식을 교환하여 기초 능력을 빠르게 확립하는 전문가 병합 워밍업 전략을 도입했습니다. SPES를 통해 16개의 독립형 48GB GPU와 인터넷 연결만으로 20억 매개변수 MoE LLM을 학습했으며, 이는 유사한 계산 예산으로 중앙 집중식으로 학습된 LLM과 경쟁력 있는 성능을 달성했습니다. 더 나아가, 처음부터 학습한 70억 매개변수 모델과 밀집 체크포인트에서 업사이클링한 90억 매개변수 모델 학습을 통해 확장성을 입증했으며, 두 모델 모두 기존 중앙 집중식 기준선과 일치하는 성능을 보였습니다. 코드는 https://github.com/zjr2000/SPES에서 확인할 수 있습니다.
로봇의 대규모 배포는 일상적인 상황의 긴 꼬리(long tail)에 대한 강건성을 요구합니다. 실제 환경을 특징짓는 장면 배치, 객체 기하학, 작업 명세의 무수한 변형은 기존 로봇 벤치마크에서 충분히 다루어지지 않는 방대한 영역입니다. 이러한 수준의 일반화 성능을 측정하기 위해서는 물리적 평가만으로는 제공할 수 없는 규모와 다양성을 갖춘 인프라가 필요합니다. 본 논문은 로봇 정책의 대규모 벤치마킹을 지원하는 완전 오픈 생태계인 MolmoSpaces를 소개합니다. MolmoSpaces는 정성적으로 제작된 가정 내 장면부터 절차적 생성(procedurally generated) 다중 공간 주택에 이르기까지 23만 개 이상의 다양한 실내 환경으로 구성되며, 13만 개의 풍부한 주석이 달린 객체 자산(48,000개의 조작 가능 객체와 4,200만 개의 안정적 그랩(grasp) 포함)으로 채워져 있습니다. 중요한 것은 이러한 환경이 시뮬레이터에 독립적(simulator-agnostic)이어서 MuJoCo, Isaac, ManiSkill과 같은 널리 사용되는 옵션들을 지원한다는 점입니다. 본 생태계는 정적 및 이동 조작, 탐색, 그리고 전체 실내 환경에 걸친 조율된 인식, 계획, 상호작용을 요구하는 다중 공간 장기 과제(long-horizon tasks)에 이르는 전체 구현형 임무(embodied tasks) 스펙트럼을 지원합니다. 또한 로봇이 우리의 다양한 장면과 풍부한 주석 객체와 상호작용하는 8가지 과제로 구성된 벤치마크 제품군인 MolmoSpaces-Bench를 설계했습니다. 우리의 실험 결과, MolmoSpaces-Bench는 강력한 시뮬레이션-현실 간 상관관계(R = 0.96, ρ = 0.98)를 보여주며, 우리의 벤치마크에서 더 새롭고 강력한 제로샷(zero-shot) 정책들이 이전 버전들을 능가함을 확인하고, 프롬프트 구문, 초기 관절 위치, 카메라 폐색(occlusion)에 대한 주요 민감도를 규명합니다. MolmoSpaces와 그 오픈소스 자산 및 도구를 통해 우리는 로봇 학습 연구를 위한 확장 가능한 데이터 생성, 정책 훈련 및 벤치마크 생성의 기반을 마련합니다.
양식 및 보고서와 같은 기업 문서는 데이터 아카이빙, 자동화된 워크플로우, 분석과 같은 다운스트림 애플리케이션에 중요한 정보를 내포하고 있습니다. 일반적인 비전 언어 모델(VLM)이 기존 문서 이해 벤치마크에서는 우수한 성능을 보이지만, 다양한 문서 유형과 유연한 스키마에 걸쳐 세밀하고 포괄적인 구조화된 정보 추출을 수행하는 능력은 충분히 연구되지 않았습니다. 기존의 핵심 개체 추출(KEE), 관계 추출(RE), 시각 질의응답(VQA) 데이터셋은 제한된 개체 온톨로지, 단순한 질의, 또는 동질적인 문서 유형으로 인해 적응적이고 구조화된 추출 필요성을 종종 간과하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 문서 이미지로부터의 구조화된 정보 추출(IE)을 위한 새로운 벤치마크 데이터셋인 ExStrucTiny를 소개합니다. 이 데이터셋은 KEE, RE, VQA의 측면을 통합합니다. 수동 및 합성된 인간 검증 샘플을 결합한 새로운 파이프라인을 통해 구축된 ExStrucTiny는 더 다양하고 포괄적인 문서 유형과 추출 시나리오를 다룹니다. 우리는 이 벤치마크를 통해 오픈 및 클로즈드 VLM을 분석하며, 스키마 적응, 질의 명세 부족, 답변 지역화와 같은 과제를 부각합니다. 우리의 작업이 문서의 구조화된 IE를 위한 일반 모델 개선의 초석이 되기를 바랍니다.
멀티모달 대규모 언어 모델(MLLM)은 다단계 추론과 장문 생성을 수반하는 실세계 과제에 점점 더 많이 활용되며, 이때 신뢰성은 이질적 입력 소스에 기반한 모델 출력의 근거 확보와 개별 사실 주장의 검증을 요구합니다. 그러나 기존의 멀티모달 근거 평가 기준과 평가 방법은 단순화된 관찰 기반 시나리오나 제한된 양식에 집중하여 복잡한 멀티모달 추론에서의 귀속 평가를 제대로 수행하지 못합니다. 본 연구에서는 직접 관찰을 넘어선 추론이 필요한 환경에서 사실 수준의 멀티모달 귀속을 평가하기 위한 벤치마크인 MuRGAt(근거 기반 귀속을 통한 멀티모달 추론)를 소개합니다. 비디오, 오디오 등 다양한 양식의 입력이 주어졌을 때, MuRGAt는 모델이 명시적 추론과 정확한 인용을 포함한 답변을 생성하도록 요구하며, 각 인용은 양식과 시간적 세그먼트를 모두 명시해야 합니다. 신뢰할 수 있는 평가를 위해 인간의 판단과 강한 상관관계를 보이는 자동 평가 프레임워크를 도입했습니다. 인간 및 자동화 점수를 통한 벤치마킹 결과, 강력한 MLLM조차도 정확한 추론에도 불구하고 빈번히 허구적 인용을 생성하는 것으로 나타났습니다. 더 나아가 중요한 절충점을 관찰했는데, 추론 깊이를 증가시키거나 구조화된 근거 확보를 강제할 경우 정확도가 종종 저하되어 내부 추론과 검증 가능한 귀속 간에 상당한 격차가 있음을 시사합니다.
대규모 언어 모델(LLM)은 탁월한 추론 능력을 보여주었으며, 공동 진화 패러다임은 코드 및 수학과 같은 영역에서 유망한 결과를 나타냈습니다. 그러나 과학적 추론 과제에서는 신뢰할 수 없는 해결책 평가와 검증 전략의 제한된 다양성으로 인해 이러한 모델들은 여전히 취약한 상태로 남아 있습니다. 본 연구에서는 희소 감독에서 비지도 학습으로의 전환을 통해 모델이 해결사와 검증자로서 스스로 진화할 수 있는 2단계 과학적 공동 진화 프레임워크인 Sci-CoE를 제안합니다. 첫 번째 단계에서 모델은 주석이 달린 소규모 데이터 세트를 사용하여 검증자를 위한 기본적인 정확성 판단 기준점을 설정합니다. 두 번째 단계에서는 합의, 신뢰도 및 다양성을 함께 고려하는 기하학적 보상 메커니즘을 도입하여 레이블이 없는 데이터에 대한 대규모 자기 반복을 주도합니다. 여러 일반 과학 벤치마크에서의 실험을 통해 Sci-CoE가 복잡한 추론 능력을 향상시키고 강력한 확장성을 나타내며, 더욱 견고하고 다양한 평가 시스템 구축을 용이하게 함을 입증했습니다. 코드는 https://github.com/InternScience/Sci-CoE에서 이용 가능합니다.
대규모 언어 모델의 개인화 정렬은 일반적으로 강화 학습을 통해 사용자 개별 선호도에 맞춰 응답을 조정하는 것을 목표로 합니다. 핵심 과제는 개방형 시나리오에서 정확한 사용자별 보상 신호를 획득하는 것입니다. 기존 개인화 보상 모델은 두 가지 지속적인 한계에 직면해 있습니다: (1) 다양하고 시나리오별 선호도를 소수의 고정된 평가 원칙 집합으로 지나치게 단순화하며, (2) 제한된 피드백을 가진 새로운 사용자에게의 일반화에 어려움을 겪습니다. 이를 위해 우리는 테스트 시 사용자 기반 스케일링을 적용한 최초의 개인화 생성 보상 모델인 P-GenRM을 제안합니다. P-GenRM은 선호도 신호를 다양한 시나리오에 걸쳐 적응형 페르소나와 채점 기준을 도출하는 구조화된 평가 체인으로 변환합니다. 또한 사용자를 사용자 프로토타입으로 군집화하고 이중 세분화 스케일링 메커니즘을 도입합니다: 개인 수준에서는 각 사용자의 채점 체계를 적응적으로 스케일링 및 집계하고, 프로토타입 수준에서는 유사 사용자들의 선호도를 통합합니다. 이 설계는 추론된 선호도의 노이즈를 완화하고 프로토타입 기반 전이를 통해 보이지 않는 사용자에 대한 일반화를 향상시킵니다. 실험 결과, P-GenRM은 널리 사용되는 개인화 보상 모델 벤치마크에서 평균 2.31% 향상된 최첨단 성능을 달성했으며, 분포 외 데이터셋에서도 강력한 일반화 성능을 보였습니다. 특히 테스트 시 사용자 기반 스케일링은 추가로 3%의 성능 향상을 제공하여 테스트 시 확장성과 더욱 강력한 개인화 정렬을 입증했습니다.
이미지의 은유적 이해는 현대 AI 시스템이 여전히 직면한 중요한 과제입니다. 멀티모달 대규모 언어 모델(MLLM)은 기본적인 시각 질의응답(VQA)에서는 뛰어난 성능을 보이지만, 시각적 콘텐츠에 내재된 미묘한 문화적, 정서적, 맥락적 함의를 파악하는 데는 지속적으로 어려움을 겪습니다. 이러한 어려움은 해당 작업이 요구하는 정교한 다중 추론, 문화적 맥락, 마음이론(ToM) 능력이 현재 모델에 부족하기 때문입니다. 이 격차를 해소하기 위해 우리는 이미지 함의 작업을 위한 최초의 종단간 시각 강화 학습(RL) 프레임워크인 MetaphorStar를 제안합니다. 우리의 프레임워크는 세 가지 핵심 구성 요소인 세분화된 데이터셋 TFQ-Data, 시각 RL 방법론 TFQ-GRPO, 그리고 체계적으로 구성된 벤치마크 TFQ-Bench를 포함합니다. TFQ-Data에 TFQ-GRPO를 적용하여 학습된 우리의 완전 오픈소스 MetaphorStar 패밀리는 이미지 함의 벤치마크에서 평균 82.6%의 성능 향상을 달성했습니다. 20개 이상의 주류 MLLM과 비교했을 때, MetaphorStar-32B는 객관식 질문과 자유형 질문에서 최첨단(SOTA) 성능을 달성했으며, 참/거짓 질문에서는 최고의 클로즈드소스 모델인 Gemini-3.0-pro를 크게 앞섰습니다. 무엇보다 중요한 것은, 우리의 실험을 통해 이미지 함의 작업을 학습함으로써 모델의 일반적인 이해 능력, 특히 복잡한 시각 추론 능력이 향상된다는 사실을 확인했습니다. 우리는 또한 모델 파라미터 규모 확장, 학습 데이터 규모 확장, 그리고 다양한 모델 아키텍처와 학습 전략의 영향을 체계적으로 분석하여 우리 방법론의 광범위한 적용 가능성을 입증했습니다. 우리는 모든 모델 가중치, 데이터셋, 방법론 코드를 https://metaphorstar.github.io에서 오픈소스로 공개했습니다.
우리는 예산이 제한된 도구 활용 에이전트를 연구하며, 여기서 대규모 언어 모델은 엄격한 금전적 예산 하에서 외부 도구를 호출하여 다단계 작업을 해결해야 합니다. 우리는 이러한 설정을 가격이 부여되고 확률적인 도구 실행이 있는 컨텍스트 공간에서의 순차적 의사 결정으로 공식화합니다. 이는 방대한 상태-행동 공간, 결과의 높은 분산, 그리고 감당하기 어려운 탐색 비용으로 인해 직접적인 계획 수립을 난해하게 만듭니다. 이러한 과제를 해결하기 위해 우리는 향후 도구 사용, 위험 조정 비용을 예측하고 온라인 의사 결정을 안내하는 의도 인지 계층적 세계 모델을 활용하는 추론 시점 계획 프레임워크인 INTENT를 제안합니다. 비용이 증강된 StableToolBench에서 INTENT는 강력한 예산 제약 조건을 엄격히 준수하면서 기준 방법 대비 작업 성공률을 크게 향상시키며, 도구 가격 변동 및 다양한 예산과 같은 동적 시장 변화 하에서도 견고하게 성능을 유지합니다.
대규모 시각적 명령어 튜닝(VIT)은 다양한 다중모달 작업에서 시각-언어 모델(VLM)의 성능을 향상시키기 위한 핵심 패러다임으로 자리 잡았습니다. 그러나 대규모 데이터셋에 대한 학습은 데이터의 중복성으로 인해 계산 비용이 많이 들고 비효율적이어서, 학습 효율성을 높이기 위한 다중모달 데이터 선택의 필요성이 대두되고 있습니다. VIT를 위한 기존 데이터 선택 방법은 비용이 많이 드는 학습이나 그래디언트 계산을 필요로 합니다. 학습이 필요 없는 대안들은 주로 프록시 모델이나 데이터셋, 명령어-무관 표현, 그리고 2차 복잡도를 가지는 쌍별 유사도에 의존하여 확장성과 표현 충실도에 한계가 있습니다. 본 연구에서는 샘플 수에 대해 선형 시간 복잡도를 가지며 외부 모델이나 보조 데이터셋이 필요 없는 확장 가능한 학습 무료 다중모달 데이터 선택 방법인 ScalSelect를 제안합니다. ScalSelect는 먼저 대상 VLM에서 명령어 토큰에 가장 많이 주의를 기울이는 시각적 특징을 추출하여 샘플 표현을 구성함으로써 명령어 관련 정보를 포착합니다. 그런 다음, 전체 데이터셋 표현의 주된 부분공간을 가장 잘 근사하는 표현을 가진 샘플을 식별하여 쌍별 비교 없이도 확장 가능한 중요도 점수 매기기를 가능하게 합니다. 여러 VLM, 데이터셋 및 선택 예산에 걸친 폭넓은 실험을 통해 ScalSelect가 전체 데이터의 16%만 사용하여 전체 데이터셋 학습 성능의 97.5% 이상을 달성하며, 일부 설정에서는 전체 데이터 학습을 능가하기도 함을 입증했습니다. 코드는 https://github.com/ChangtiWu/ScalSelect에서 확인할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 현대 추론 모델 훈련의 핵심이지만, 공개되지 않은 훈련 데이터는 벤치마크 오염에 대한 우려를 제기합니다. 토큰 수준 확률을 사용해 모델을 최적화하는 사전 학습 방법과 달리, RLVR은 모델이 자체 생성한 추론 경로에 대한 보상 피드백을 기반으로 미세 조정을 수행하므로 기존의 가능도 기반 탐지 방법의 효과가 떨어집니다. 우리는 RLVR이 특이한 행동 신호를 유발함을 보입니다: RLVR 훈련 중 접한 프롬프트는 더 경직되고 유사한 생성을 초래하는 반면, 접하지 않은 프롬프트는 더 큰 다양성을 유지합니다. 우리는 Min-kNN 거리라는 간단한 블랙박스 탐지기를 제안합니다. 이 방법은 주어진 프롬프트에 대해 여러 개의 완성 텍스트를 샘플링하고, k-최소 근접 이웃 편집 거리의 평균을 계산하여 이러한 붕괴 현상을 정량화합니다. Min-kNN 거리는 참조 모델이나 토큰 확률에 대한 접근이 필요하지 않습니다. 여러 RLVR로 훈련된 추론 모델에 대한 실험 결과, Min-kNN 거리는 RL로 접한 예시와 접하지 않은 예시를 안정적으로 구분하며, 기존의 멤버십 추론 및 RL 오염 탐지 기준선을 능가하는 성능을 보여줍니다.
구현체 내비게이션은 오랫동안 작업별 특화 아키텍처로 분절되어 왔습니다. 우리는 Point-Goal, Object-Goal, Instruction-Following, POI-Goal, Person-Following 등 5가지 핵심 작업 전반에 걸쳐 '대통합(Grand Unification)'을 달성하는 통합 Vision-Language-Action(VLA) 파운데이션 모델 ABot-N0를 소개합니다. ABot-N0는 계층적 'Brain-Action' 아키텍처를 활용하여, 의미론적 추론을 위한 LLM 기반 인지 뇌(Cognitive Brain)와 정밀하고 연속적인 궤적 생성을 위한 Flow Matching 기반 행동 전문가(Action Expert)를 결합합니다. 대규모 학습을 지원하기 위해 우리는 7,802개의 고품질 3D 장면(10.7 km²)에 걸쳐 1,690만 개의 전문가 궤적과 500만 개의 추론 샘플을 정제한 ABot-N0 데이터 엔진을 개발했습니다. ABot-N0는 7개 벤치마크에서 새로운 SOTA 성능을 달성하여 특화 모델들을 크게 능가합니다. 나아가, 우리의 에이전트 내비게이션 시스템은 플래너와 계층적 위상 기억(Topological Memory)을 통합하여 동적인 실제 환경에서 강건한 장기 임무 수행을 가능하게 합니다.
음악 스템 생성은 음악적으로 동기화되고 분리된 악기 오디오 클립을 생성하는 작업으로, 기존의 텍스트-음악 변환 모델에 비해 더 나은 사용자 제어와 음악가 워크플로우와의 향상된 연계성을 제공합니다. 그러나 기존 스템 생성 방식은 미리 정의된 스템 집합을 병렬로 출력하는 고정 아키텍처에 의존하거나, 한 번에 하나의 스템만 생성하여 스템 조합 유연성은 있지만 추론 속도가 느린 한계가 있습니다. 본 논문에서는 이러한 절충점을 극복하고 단일 추론 과정에서 가변적인 동기화된 스템 집합을 생성하는 확산/플로우 기반 프레임워크인 Stemphonic를 제안합니다. 학습 과정에서는 각 스템을 배치 요소로 취급하고, 동기화된 스템들을 배치 내에서 그룹화하며, 각 그룹에 공통 노이즈 잠재 변수를 적용합니다. 추론 시에는 공통 초기 노이즈 잠재 변수와 스템별 텍스트 입력을 사용하여 단일 패스로 동기화된 다중 스템 출력을 생성합니다. 또한 본 접근법을 확장하여 단일 패스 조건부 다중 스템 생성과 스템별 활동 제어를 가능하게 하여 사용자가 반복적으로 믹스의 시간적 레이어링을 생성하고 오케스트레이션할 수 있도록 합니다. 다양한 오픈소스 스템 평가 데이터셋에서 실험한 결과, Stemphonic는 전체 믹스 생성 과정을 25~50% 가속화하면서도 더 높은 품질의 출력을 생성하는 것으로 나타났습니다. 데모: https://stemphonic-demo.vercel.app.
해석 가능성과 정확성 간의 트레이드오프는 머신러닝의 핵심 과제로 남아있다. 표준 일반화 가법 모델(GAM)은 명확한 특징 기여도를 제공하지만, 엄격한 가법적 특성으로 인해 예측 성능이 제한되는 경우가 많다. 특징 상호작용을 도입하면 정확성을 높일 수 있지만, 개별 특징의 기여도를 불명확하게 만들 수 있다. 이러한 문제를 해결하기 위해 우리는 해석 가능성과 정확성을 원활하게 균형 잡는 새로운 프레임워크인 신경 가법 전문가(NAE) 모델을 제안한다. NAE는 전문가 혼합 프레임워크를 채택하여 특징별로 여러 전문 네트워크를 학습하는 동시에, 동적 게이팅 메커니즘을 통해 특징 간 정보를 통합함으로써 경직된 가법 제약을 완화한다. 더 나아가, 우리는 전문가 예측 간 분산을 완화하기 위한 표적 정규화 기법을 제안하여 순수 가법 모델에서 정교한 특징 상호작용을 포착하는 모델로의 부드러운 전환을 가능하게 하면서도 특징 기여도의 명확성을 유지한다. 합성 데이터에 대한 이론적 분석과 실험을 통해 모델의 유연성을 입증하였으며, 실제 데이터셋에 대한 포괄적 평가를 통해 NAE가 예측 정확성과 투명한 특징 수준 설명 간 최적의 균형을 달성함을 확인했다. 코드는 https://github.com/Teddy-XiongGZ/NAE에서 확인할 수 있다.