번역이 포함된 일일 선별된 AI 연구 논문
대규모 추론 모델(LRMs)은 놀라운 추론 능력을 보여주지만, 단순한 문제에 대해 불필요한 계산 단계를 소모하는 과잉 사고(overthinking) 또는 내재된 능력에도 불구하고 충분한 추론 경로를 탐색하지 못하는 과소 사고(underthinking) 문제를 자주 겪습니다. 이러한 문제는 비효율성과 잠재적 부정확성을 초래하여 자원이 제한된 환경에서의 실질적인 적용을 제한합니다. 반성적 키워드 억제나 추론 길이 조정 등 기존의 과잉 사고 완화 방법들은 의도치 않게 과소 사고를 유발하여 정확도를 훼손할 수 있습니다. 따라서 본 연구에서는 균형 잡힌 사고를 통한 효율적인 추론을 달성하는 학습 불필요( training-free) 프레임워크인 ReBalance를 제안합니다. ReBalance는 신뢰도를 추론 동역학의 연속적 지표로 활용하여, 높은 신뢰도 분산을 통해 과잉 사고를, 일관된 과잉 신뢰를 통해 과소 사고를 식별합니다. 소규모 데이터셋의 은닉 상태(hidden states)를 추론 모드 프로토타입으로 집계함으로써, LRM의 추론 궤적을 안내하는 조정 벡터(steering vector)를 계산합니다. 동적 제어 함수는 실시간 신뢰도를 기반으로 이 벡터의 강도와 방향을 조절하여, 과잉 사고 시 중복성을 제거하고 과소 사고 시 탐색을 촉진합니다. 0.5B부터 32B에 이르는 4가지 모델과 수학 추론, 일반 질의응답, 코딩 작업의 9가지 벤치마크에서 수행한 광범위한 실험 결과, ReBalance가 정확도를 향상시키면서 출력 중복성을 효과적으로 감소시켜 효율적이고 견고한 LRM 배치를 위한 일반적이며 학습이 필요 없고 플러그 앤 플레이 방식의 전략을 제공함을 입증했습니다. 코드는 https://github.com/yu-lin-li/ReBalance 에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 에이전트는 복잡한 작업에 점점 더 많이 활용되고 있으나, 배포된 에이전트는 종종 정적 상태로 남아 사용자 요구의 변화에 적응하지 못합니다. 이는 지속적인 서비스 제공 필요성과 변화하는 작업 분포에 맞춰 능력을 업데이트해야 하는 필요성 사이에 긴장을 초래합니다. 20개 이상의 채널에서 다양한 워크로드를 처리하는 OpenClaw와 같은 플랫폼에서 기존 방법은 지식을 정제하지 않고 원본 트레이젝토리를 저장하거나, 정적 스킬 라이브러리를 유지하거나, 재교육을 위해 서비스 중단을 필요로 합니다. 본 논문에서는 기본 LLM 정책과 재사용 가능한 행동 스킬 라이브러리를 공동으로 진화시키는 지속 메타학습 프레임워크인 MetaClaw를 제시합니다. MetaClaw는 두 가지 상호 보완적 메커니즘을 사용합니다. 스킬 주도 빠른 적응은 LLM 진화기를 통해 실패 트레이젝토리를 분석하여 새로운 스킬을 합성하며, 가동 중단 시간 없이 즉각적인 개선을 가능하게 합니다. 기회주의적 정책 최적화는 클라우드 LoRA 미세 조정 및 프로세스 보상 모델 강화 학습(RL-PRM)을 통해 그래디언트 기반 업데이트를 수행합니다. 이는 시스템 비활성 상태와 캘린더 데이터를 모니터링하는 기회주의적 메타학습 스케줄러(OMLS)에 의해 사용자 비활성 시간대에 트리거됩니다. 이러한 메커니즘은 상호 강화됩니다. 정제된 정책은 스킬 합성을 위한 더 나은 트레이젝토리를 생성하고, 더 풍부한 스킬은 정책 최적화를 위한更高品質의 데이터를 제공합니다. 데이터 오염을 방지하기 위해 버전 관리 메커니즘이 지원 데이터와 쿼리 데이터를 분리합니다. 프록시 기반 아키텍처 위에 구축된 MetaClaw는 로컬 GPU 없이 프로덕션 규모 LLM으로 확장됩니다. MetaClaw-Bench 및 AutoResearchClaw에 대한 실험에서 스킬 주도 적응이 상대적으로 정확도를 최대 32%까지 향상시키는 것으로 나타났습니다. 전체 파이프라인은 Kimi-K2.5의 정확도를 21.4%에서 40.6%로 높이고 복합 견고성을 18.3% 증가시켰습니다. 코드는 https://github.com/aiming-lab/MetaClaw에서 확인할 수 있습니다.
MLLM의 다양한 비디오 작업 적용에 있어 진전이 있었음에도 불구하고, 비디오 사건 예측(VEP)은 상대적으로 덜 탐구된 영역으로 남아 있습니다. VEP는 모델이 비디오에 대한 세밀한 시간적 모델링을 수행하고 비디오와 미래 사건 간의 논리적 관계를 설정해야 하는데, 현재의 MLLM들은 여전히 이에 어려움을 겪고 있습니다. 본 연구에서는 먼저 VEP 과제에 대한 현재 주류 MLLM들의 포괄적인 평가를 제시하며, 미래 사건 예측을 위한 논리적 추론 능력 부족 및 시각 정보 활용도 부족 등을 포함한 부정확한 예측의 원인을 밝힙니다. 이러한 과제를 해결하기 위해 우리는 시간적 사건 사슬을 구성하여 MLLM이 시각적 내용과 비디오-미래 사건 간 논리적 연결에 집중하도록 암묵적으로 유도하고, 다양한 훈련 프로토콜을 통해 모델의 추론 능력을 강화하는 CoE 패러다임을 제안합니다. 공개 벤치마크에 대한 실험 결과는 우리 방법이 주요 오픈소스 및 상용 MLLM들을 모두 능가하며 VEP 과제에서 새로운 최첨단 성능을确立함을 입증합니다. 코드와 모델은 곧 공개될 예정입니다.
비디오 확산 모델은 짧고 그럴듯한 클립을 넘어 카메라 모션, 재방문, 개입 하에서도 일관성을 유지해야 하는 세계 시뮬레이터로 발전하고 있습니다. 그러나 공간 메모리는 여전히 주요 병목 현안으로 남아 있습니다: 명시적 3D 구조는 재투영 기반 일관성 향상에 도움이 되지만 움직이는 객체 표현에는 한계가 있으며, 암묵적 메모리는 정확한 포즈 입력 시에도 부정확한 카메라 모션을 생성하는 경우가 많습니다. 우리는 Mosaic Memory(MosaicMem)를 제안합니다. 이는 패치를 3D로 리프팅하여 신뢰할 수 있는 위치 추정 및 대상 검색을 수행하면서, 모델의 고유 조건화를 활용하여 프롬프트 추종 생성을 유지하는 하이브리드 공간 메모리입니다. MosaicMem은 패치-앤-컴포즈 인터페이스를 통해 쿼리 뷰에서 공간적으로 정렬된 패치를 구성하여 유지되어야 할 요소는 보존하고, 변화해야 할 요소는 모델이 인페인팅하도록 합니다. PRoPE 카메라 조건화와 두 가지 새로운 메모리 정렬 방법을 통해 실험 결과, 암묵적 메모리 대비 향상된 포즈 준수도와 명시적 베이스라인 대비 강력한 동적 모델링 성능을 확인했습니다. MosaicMem은 더 나아가 분 단위 네비게이션, 메모리 기반 장면 편집, 자기회귀 롤아웃을 가능하게 합니다.
사후 훈련 정렬은 언어 모델을 인간 선호 신호에 맞게 최적화하지만, 이 목표는 관찰된 인간 행동을 모델링하는 것과 동일하지 않습니다. 우리는 120개의 기본-정렬 모델 쌍을 협상, 설득, 협상, 반복 행렬 게임 등 다중 라운드 전략 게임에서 10,000건 이상의 실제 인간 결정과 비교했습니다. 이러한 환경에서 기본 모델은 모델 계열, 프롬프트 구성, 게임 설정에 걸쳐 견고하게 인간 선택 예측에서 정렬된 대조군을 약 10:1 차이로 능가했습니다. 그러나 인간 행동이 규범적 예측을 따를 가능성이 높은 환경에서는 이 패턴이 역전됩니다. 정렬된 모델은 테스트된 12가지 유형의 일회성 교과서 게임과 비전략적 복권 선택 전반에서 우세했으며, 심지어 다중 라운드 게임 내부에서도 상호작용 기록이 축적되기 전인 1라운드에서도 그러했습니다. 이러한 경계 조건 패턴은 정렬이 규범적 편향을 유발함을 시사합니다. 즉, 인간 행동이 규범적 해법에 의해 상대적으로 잘 포착될 때는 예측력을 향상시키지만, 상호성, 보복, 역사 의존적 적응과 같은 서술적 역학에 의해 행동이 형성되는 다중 라운드 전략 환경에서는 예측력을 저해합니다. 이러한 결과는 인간 사용을 위해 모델을 최적화하는 것과 인간 행동의 대리 지표로 사용하는 것 사이의 근본적인 상충 관계를 드러냅니다.
강화학습(RL)은 LLM 기반 에이전트 훈련을 위한 강력한 패러다임으로 부상했지만, 희소한 결과 피드백뿐만 아니라 에피소드 간 선행 경험을 활용하지 못하는 에이전트의 한계로 인해 샘플 효율성이 낮다는 제약을 지닙니다. 역사적 경험으로 에이전트를 보강하는 것은 유망한 해결책이나, 기존 접근법은 결정적 약점을 가지고 있습니다: 역사에서 추출된 경험은 정적으로 저장되거나 개선되는 행위자와 함께 공진화하지 못하여, 훈련 과정에서 경험과 행위자의 진화하는 능력 간 점진적 불일치가 발생하며 그 유용성이 감소합니다. 신경과학의 상보적 학습 시스템에서 영감을 받아, 우리는 RL 최적화 루프 내에서 경험 추출기와 정책 행위자의 원활한 공진화를 달성하는 상보적 RL(Complementary RL)을 제시합니다. 구체적으로, 행위자는 희소한 결과 기반 보상을 통해 최적화되는 반면, 경험 추출기는 추출된 경험이 행위자의 성공에 실질적으로 기여하는지 여부에 따라 최적화되어, 행위자의 성장하는 능력과 보조를 맞추며 경험 관리 전략을 진화시킵니다. 실험적으로, 상보적 RL은 경험 학습을 하지 않는 결과 기반 에이전트 RL 기준선을 능가하며, 단일 작업 시나리오에서 10%의 성능 향상을 달성하고 다중 작업 설정에서 강력한 확장성을 보입니다. 이러한 결과는 상보적 RL을 효율적인 경험 주도 에이전트 학습의 패러다임으로 정립합니다.
AI는 전쟁의 추이가 역사적으로 명확해지기 전에 그에 대해 추론할 수 있을까? 이러한 능력을 분석하는 것은 사후적 지형 정치적 예측이 훈련 데이터 누출에 크게 영향을 받기 때문에 어렵다. 우리는 현재 최첨단 모델들의 훈련 데이터 절단 시점 이후에 전개된 2026년 중동 분쟁 초기 단계에 대한 시간적 근거 사례 연구를 통해 이 문제에 접근한다. 우리는 11개의 중요한 시간적 노드, 42개의 노드별 검증 가능한 질문, 그리고 5개의 일반 탐색적 질문을 구성하여, 모델이 각 시점에 공개되었을 정보만을 바탕으로 추론하도록 요구한다. 이러한 설계는 훈련 데이터 누출 문제를 상당히 완화하며, '전쟁의 안개' 속에서 모델이 전개되는 위기를 어떻게 분석하는지 연구하기에 적합한 환경을 조성하고, 우리가 아는 한 진행 중인 지형 정치적 갈등에 대한 최초의 시간적 근거를 둔 LLM 추론 분석을 제공한다. 우리의 분석은 세 가지 주요 결과를 보여준다. 첫째, 현재 최첨단 대규모 언어 모델은 종종 놀라운 수준의 전략적 현실주의를 보여주며, 표면적 수사론을 넘어 더 깊은 구조적 인센티브를 향해 추론한다. 둘째, 이러한 능력은 영역에 따라 고르지 않다. 모델은 정치적으로 모호한 다자 환경보다 경제적 및 물류적으로 구조화된 환경에서 더 신뢰할 만하다. 마지막으로, 모델의 서사는 시간에 따라 진화하며, 초기의 신속한 봉쇄 예상에서 지역적 고착과 소모적 긴장 완화에 대한 보다 체계적인 설명으로 전환된다. 본문 작성 시점에도 갈등이 진행 중이므로, 이 작업은 전개 중인 지형 정치적 위기 동안의 모델 추론에 대한 기록적 스냅샷으로 기능하여, 사후 분석의 후견적 편향 없이 향후 연구를 가능하게 할 수 있다.
사전 훈련된 비디오 생성 백본으로 초기화된 World-Action Models(WAM)은 로봇 정책 학습에 놀라운 잠재력을 보여주고 있습니다. 그러나 기존 접근법은 성능과 배포를 저해하는 두 가지 중요한 병목 현상에 직면해 있습니다. 첫째, 미래의 시각 역학과 이에 상응하는 행동에 대한 공동 추론은 상당한 추론 오버헤드를 초래합니다. 둘째, 공동 모델링은 종종 시각 및 운동 표현을 얽히게 하여 운동 예측 정확도가 미래 비디오 예측의 질에 크게 의존하게 만듭니다. 이러한 문제를 해결하기 위해 우리는 2D 픽셀-행동 역학을 학습하면서 선택적 비디오 생성과 함께 효율적인 행동 디코딩을 가능하게 하는 행동 중심 WAM인 GigaWorld-Policy를 소개합니다. 구체적으로, 우리는 정책 훈련을 두 개의 결합된 구성 요소로 공식화합니다. 모델은 현재 관측을 조건으로 미래 행동 순서를 예측하고, 동시에 예측된 행동과 동일한 관측을 조건으로 미래 비디오를 생성합니다. 정책은 행동 예측과 비디오 생성 모두에 의해 지도 학습되어 더 풍부한 학습 신호를 제공하고 시각 역학 제약을 통해 물리적으로 타당한 행동을 장려합니다. 미래 비디오 토큰이 행동 토큰에 영향을 미치는 것을 방지하는 인과적 설계로 인해, 명시적 미래 비디오 생성은 추론 시 선택 사항이 되어 배포 시 더 빠른 행동 예측을 가능하게 합니다. 이러한 패러다임을 지원하기 위해, 우리는 행동 중심 비디오 생성 모델을 사전 훈련하기 위해 다양하고 대규모의 로봇 데이터셋을 구축하였으며, 이는 이후 로봇 정책 학습을 위한 백본으로 적용됩니다. 실제 로봇 플랫폼에서의 실험 결과는 GigaWorld-Policy가 선도적인 WAM 기준인 Motus보다 9배 빠르게 실행되면서 작업 성공률을 7% 향상시킴을 보여줍니다. 더 나아가, pi-0.5와 비교했을 때 GigaWorld-Policy는 RoboTwin 2.0에서 성능을 95% 향상시켰습니다.
토큰화는 다양한 모달리티의 생성 모델링에서 핵심적인 기법입니다. 특히 최근 3D 생성 분야에서 주목받는 자기회귀(AR) 모델에서 이 기술은 결정적인 역할을 수행합니다. 그러나 3D 형태에 대한 최적의 토큰화 방법은 여전히 해결과제로 남아있습니다. 최첨단(SOTA) 방법론들은 주로 렌더링 및 압축을 위해 설계된 기하학적 LOD 계층 구조에 의존하고 있습니다. 이러한 공간 계층 구조는 종종 토큰 효율성이 낮으며 AR 모델링에 필요한 의미론적 일관성을 결여하고 있습니다. 본 연구에서는 의미론적 중요도에 따라 토큰을 배열하는 Level-of-Semantics Tokenization (LoST)을 제안합니다. 이를 통해 초기 접두사 토큰만으로도 주요 의미를 지닌 완전하고 그럴듯한 형태가 복원되며, 후속 토큰들은 인스턴스별 기하학적·의미론적 세부 사항을 정교하게 보완합니다. LoST 학습을 위해 3D 형태 잠재 공간의 관계적 구조와 의미론적 DINO 특징 공간의 구조를 정렬하는 새로운 3D 의미 정렬 손실 함수인 Relational Inter-Distance Alignment (RIDA)를 도입했습니다. 실험 결과 LoST는 기하학적 및 의미론적 복원 지표 모두에서 기존 LOD 기반 3D 형태 토크나이저를 큰 차이로 능가하는 SOTA 복원 성능을 달성했습니다. 더 나아가 LoST는 기존 AR 모델 대비 0.1%~10%에 불과한 토큰만 사용하면서도 효율적이고 고품질의 AR 3D 생성을 실현하고 의미론적 검색과 같은 다운스트림 작업을 가능하게 합니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 최근 로봇 매니퓰레이션을 위한 유망한 패러다임으로 부상하고 있으며, 여기서 신뢰할 수 있는 행동 예측은 언어 지시에 조건부된 시각 관측을 정확하게 해석하고 통합하는 데 크게 의존합니다. 최근 연구들이 VLA 모델의 시각 능력을 향상시키려는 시도를 하고 있지만, 대부분의 접근법은 LLM 백본을 블랙박스로 취급하여 시각 정보가 행동 생성에 어떻게 기반이 되는지에 대한 통찰을 제한적으로 제공합니다. 이에 우리는 다양한 행동 생성 패러다임에 걸쳐 여러 VLA 모델을 체계적으로 분석하고, 행동 생성 과정에서 더 깊은 층으로 갈수록 시각 토큰에 대한 민감도가 점진적으로 감소한다는 것을 관찰했습니다. 이 관찰에 동기를 부여받아, 우리는 Vision-Language Mixture-of-Transformers(VL-MoT) 프레임워크를 기반으로 한 DeepVision-VLA를 제안합니다. 이 프레임워크는 비전 파운데이션 모델과 VLA 백본 간의 공유 어텐션을 가능하게 하여, 비전 전문가로부터 다중 수준의 시각 특징을 VLA 백본의 더 깊은 층에 주입하여 정밀하고 복잡한 매니퓰레이션을 위한 시각 표현을 강화합니다. 또한, 우리는 Action-Guided Visual Pruning(AGVP)을 도입했습니다. 이는 얕은 층의 어텐션을 활용하여 관련 없는 시각 토큰을 제거하는 동시에 작업 관련 토큰을 보존하여, 최소한의 계산 오버헤드로 매니퓰레이션에 중요한 시각 단서를 강화합니다. DeepVision-VLA는 시뮬레이션 및 실제 작업에서 기존 최첨단 방법을 각각 9.0% 및 7.5% 능가하며, 시각적으로 강화된 VLA 모델 설계를 위한 새로운 통찰을 제공합니다.
대규모 언어 모델(LLM)은 상호작용 전반에 걸친 개인화를 지원하기 위해 사용자 선호도를 지속적 메모리에 저장하는 경우가 늘고 있습니다. 그러나 사회적 및 제도적 규범이 적용되는 타자 간 의사소통 환경에서는 일부 사용자 선호도를 적용하는 것이 부적절할 수 있습니다. 본 연구는 BenchPreS를 소개하며, 이는 의사소통 맥락에 따라 메모리 기반 사용자 선호도가 적절하게 적용되거나 억제되는지를 평가합니다. 상호 보완적인 두 가지 지표인 오적용률(MR)과 적절적용률(AAR)을 사용한 결과, 최첨단 LLM조차 맥락에 민감하게 선호도를 적용하는 데 어려움을 겪는 것으로 나타났습니다. 선호도 준수 정도가 높은 모델일수록 과도적용 비율이 높았으며, 추론 능력이나 프롬프트 기반 방어 기법도 이 문제를 완전히 해결하지 못했습니다. 이러한 결과는 현재의 LLM이 개인화된 선호도를 맥락 의존적 규범 신호가 아닌 전역적으로 강제 가능한 규칙으로 취급하고 있음을 시사합니다.
멀티모달 대규모 언어 모델(MLLM)은 일반적으로 여러 단계에 걸쳐 훈련되며, 비디오 기반 지도 미세 조정(Video-SFT)이 시각적 이해 능력 향상을 위한 핵심 단계로 작용합니다. 그러나 이 과정이 시각 능력의 세분화된 진화, 특히 공간적 이해와 시간적 이해 사이의 균형에 미치는 영향은 아직 명확히 규명되지 않았습니다. 본 논문에서는 Video-SFT가 MLLM의 시각 능력을 어떻게 재구성하는지 체계적으로 연구합니다. 다양한 아키텍처, 매개변수 규모, 프레임 샘플링 설정에 걸쳐 일관된 패턴을 관찰했습니다. Video-SFT는 비디오 성능을 안정적으로 향상시키지만, 정적 이미지 벤치마크에서는 제한된 개선만 이루어지거나 오히려 성능 저하가 발생하는 경우가 많습니다. 우리는 이러한 트레이드오프가 시간적 예산(temporal budget)과 밀접하게 연관되어 있음을 추가로 보여줍니다. 샘플링 프레임 수를 증가시키면 일반적으로 비디오 성능은 개선되지만, 정적 이미지 성능은 안정적으로 개선되지 않습니다. 이러한 발견에 기반하여, 우리는 프레임 수를 적응적으로 할당하고 이미지-비디오 트레이드오프를 부분적으로 완화하는 지시 인식 하이브리드 프레임 전략을 연구합니다. 우리의 결과는 Video-SFT가 MLLM에 무조건적인 이점을 제공하는 것이 아니며, 이미지-비디오 통합 훈련에서 공간적 이해 능력을 보존하는 것이 여전히 핵심 과제임을 시사합니다.
비전-언어 모델(VLM)의 최근 동향은 구현된 도메인에서 공간 인지 능력을 향상시키는 방향으로 나아가고 있습니다. 그러나 진전이 있었음에도 기존 평가는 패러다임과 범위 모두에서 제한적이어서 신속하고 반복적인 모델 개발을 저해해 왔습니다. 이러한 한계를 해결하기 위해 우리는 구현된 공간 추론을 위한 진단 벤치마크인 ESPIRE를 제안합니다. ESPIRE는 VLM을 물리적으로 기반하게 하는 시뮬레이션 세계를 제공하고 공간 추론 중심의 로봇 작업에 대해 이를 평가하여 평가와 실제 배치 간의 격차를 좁힙니다. VLM을 로봇 작업에 적응시키기 위해 각 작업을 위치 추정과 실행으로 분해하고, 둘 모두를 생성적 문제로 재구성합니다. 이는 주류를 이루는 판별식 평가(예: 시각 질의응답을 통한)가 주로 산만 요소에 의존하고 실행을 배제하는 것과는 대조적입니다. 이러한 분해는 더 나아가 수동적 공간 추론을 넘어 행동을 위한 추론으로 세분화된 분석을 가능하게 합니다. 우리는 지시 수준과 환경 수준 모두에서 ESPIRE를 체계적으로 설계하여 공간 추론 시나리오의 광범위한 커버리지를 보장합니다. ESPIRE를 사용하여 최첨단 VLM들을 진단하고 그들의 공간 추론 행동에 대한 심층 분석을 제공합니다.
V-JEPA 2.1은 이미지와 비디오 모두에 대해 강력한 전역 장면 이해력을 유지하면서도 고밀도 및 고품질 시각 표현을 학습하는 자기 지도 모델 패밀리를 제안합니다. 본 접근법은 네 가지 핵심 구성 요소를 결합합니다. 첫째, 밀집 예측 손실은 가시 토큰과 마스킹된 토큰 모두가 훈련 신호에 기여하는 마스킹 기반 목표를 사용하여 명시적인 공간 및 시간적 기반을 강화합니다. 둘째, 심층 자기 지도는 표현 품질을 향상시키기 위해 여러 중간 인코더 계층에 걸쳐 계층적으로 자기 지도 목표를 적용합니다. 셋째, 다중 모달 토크나이저는 이미지와 비디오 간 통합 훈련을 가능하게 합니다. 마지막으로, 모델은 모델 용량과 훈련 데이터 양 측면에서 효과적인 확장의 이점을 얻습니다. 이러한 설계 선택을 통해 공간적으로 구조화되고 의미적으로 일관성 있으며 시간적으로 일관된 표현을 생성합니다. 실험적으로 V-JEPA 2.1은 여러 도전적인 벤치마크에서 최첨단 성능을 달성했습니다. 단기 객체 상호작용 예측을 위한 Ego4D에서 7.71 mAP, 고수준 행동 예측을 위한 EPIC-KITCHENS에서 40.8 Recall@5를 기록했으며, V-JEPA-2 AC 대비 실제 로봇 파지 성공률에서 20포인트 향상을 보였습니다. 또한 로봇 항법(TartanDrive에서 5.687 ATE), 깊이 추정(NYUv2에서 선형 탐색기를 사용한 0.307 RMSE), 전역 인식(Something-Something-V2에서 77.7)에서도 강력한 성능을 입증했습니다. 이러한 결과는 V-JEPA 2.1이 밀집 시각 이해 및 세계 모델링 분야의 최첨단 기술을 크게 발전시켰음을 보여줍니다.
저희는 스테레오 비디오 생성을 위한 종단간(end-to-end) 방식으로 외관(appearance)과 양안 기하구조(binocular geometry)를 함께 학습하는 카메라 조건부 스테레오 월드 모델인 StereoWorld를 제안합니다. 단안 RGB 또는 RGBD 접근법과 달리, StereoWorld는 RGB 양상(modality)만을 사용하면서도 기하구조를 직접 disparity(시차)로부터 정착(grounding)합니다. 일관된 스테레오 생성을 효율적으로 달성하기 위해 우리의 접근법은 두 가지 핵심 설계를 도입합니다: (1) 잠재 토큰(latent tokens)에 카메라 인식 회전 위치 인코딩(camera-aware rotary positional encoding)을 강화하여 상대적, 뷰 및 시간 일관성 조건화(view- and time-consistent conditioning)를 가능하게 하면서도 안정적인 어텐션 초기화를 통해 사전 학습된 비디오 사전 지식(pretrained video priors)을 보존하는 통합 카메라 프레임 RoPE(unified camera-frame RoPE); (2) 완전 4D 어텐션(full 4D attention)을 3D 뷰 내 어텐션(3D intra-view attention)과 수평 행 어텐션(horizontal row attention)으로 분해하는 스테레오 인식 어텐션 분해(stereo-aware attention decomposition)로, 에피폴라 사전 지식(epipolar prior)을 활용하여 상당히 낮은 계산량으로 disparity에 정렬된 대응 관계(disparity-aligned correspondences)를 포착합니다. 다양한 벤치마크에서 StereoWorld는 강력한 단안-생성-후-변환(monocular-then-convert) 파이프라인 대비 스테레오 일관성, disparity 정확도 및 카메라 운동 정밀도(camera-motion fidelity)를 향상시켜, 시점 일관성(viewpoint consistency)에서 추가 5% 향상과 함께 3배 이상 빠른 생성을 달성합니다. 벤치마크를 넘어, StereoWorld는 깊이 추정이나 인페인팅(inpainting) 없이도 종단간 양안 VR 렌더링을 가능하게 하며, 미터 단위 깊이 정착(metric-scale depth grounding)을 통해 구현된 정책 학습(embodied policy learning)을 강화하고, 확장된 상호작용형 스테레오 합성을 위한 장시간 비디오 증류(long-video distillation)와 호환됩니다.
대규모 언어 모델(LLM) 에이전트는 장기적 상호작용, 맞춤형 지원, 다단계 추론을 지원하기 위해 외부 메모리에 점점 더 의존하고 있습니다. 그러나 기존 메모리 시스템은 여전히 세 가지 핵심 과제에 직면해 있습니다: 의미적 유사성에 지나치게 의존하여 사용자 중심 이해에 중요한 증거를 놓치는 경우가 많고, 관련 경험을 고립된 단편으로 저장하여 시간적 및 인과적 일관성을 약화시키며, 일반적으로 다양한 질문의 요구 사항에 잘 적응하지 못하는 정적 메모리 세분화를 사용합니다. 우리는 장기 대화 에이전트를 위한 적응형 사용자 중심 메모리 프레임워크인 AdaMem을 제안합니다. AdaMem은 대화 기록을 작업 메모리, 에피소드 메모리, 페르소나 메모리, 그래프 메모리로 구성하여 최근 맥락, 구조화된 장기 경험, 안정적인 사용자 특성, 관계 인식 연결을 통합 프레임워크 내에서 보존할 수 있도록 합니다. 추론 시 AdaMem은 먼저 대상 참여자를 확인한 후, 필요할 때만 의미 검색과 관계 인식 그래프 확장을 결합한 질문 조건 기반 검색 경로를 구축하고, 증거 종합 및 응답 생성을 위한 역할 특화 파이프라인을 통해 최종 답변을 생성합니다. 우리는 장기적 추론 및 사용자 모델링을 위한 LoCoMo 및 PERSONAMEM 벤치마크에서 AdaMem을 평가했습니다. 실험 결과 AdaMem은 두 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 코드는 게재 승인 시 공개될 예정입니다.
오프라인 사후 훈련은 기록된 동작에 대한 지도 회귀를 통해 사전 훈련된 로봇 정책을 대상 데이터셋에 적응시킵니다. 실제로 로봇 데이터셋은 이질적입니다. 다양한 구현체, 카메라 설정, 품질이 다른 데모가 혼합되어 있어 많은 궤적이 복구 행동, 일관성 없는 조작자 숙련도 또는 약한 정보성을 지닌 지도를 반영합니다. 균일한 사후 훈련은 모든 샘플에 동일한 가중치를 부여하므로 상충되거나 낮은 귀속도의 데이터를 평균화할 수 있습니다. 본 논문에서는 각 훈련 샘플이 지도 업데이트에 얼마나 영향을 미칠지 결정하는 보상 무관 및 보수적 사후 훈련 방법인 Posterior-Transition Reweighting (PTR)을 제안합니다. PTR은 각 샘플에 대해 관찰된 행동 후 결과를 잠재 목표로 인코딩하고, 이를 불일치 목표 후보 풀에 삽입한 후, 별도의 전환 점수기를 사용하여 목표 인덱스에 대한 소프트맥스 식별 사후 확률을 추정합니다. 사후 확률과 균일 분포의 비율은 PTR 점수를 정의하며, 이는 클리핑 및 혼합 가중치로 변환되어 자기 정규화 가중 회귀를 통해 원래 동작 목적 함수에 적용됩니다. 이 구조는 다루기 쉬운 정책 가능도 함수를 요구하지 않으며 확산 및 흐름 정합 동작 헤드와 모두 호환됩니다. PTR은 기록된 모든 지도를 균일하게 신뢰하기보다, 현재 표현 하에서 각 샘플의 행동 후 결과가 얼마나 귀속 가능한지에 따라 가중치를 재분배하여 이질적 로봇 데이터에 대한 보수적인 오프라인 적응을 개선합니다.
우리는 인간 피드백 강화학습(RLHF)의 데이터 효율성을 획기적으로 향상시키는 온라인 학습 알고리즘을 개발했다. 우리의 알고리즘은 선택 데이터가 수신됨에 따라 보상 모델과 언어 모델을 점진적으로 업데이트한다. 보상 모델은 선택 데이터에 맞춰 적합화되는 반면, 언어 모델은 보상 모델이 제공하는 강화 신호를 활용한 reinforce 변형 알고리즘으로 업데이트된다. 이러한 효율성 향상은 몇 가지 핵심 기능에 기인한다: 각 강화 신호에 추가된 소규모의 적극적 개입, 보상 불확실성을 모델링하는 인식론적 신경망, 그리고 정보 주도 탐색이 그것이다. Gemma 대규모 언어 모델(LLM)을 사용했을 때, 우리의 알고리즘은 20,000개 미만의 레이블로 학습하여 20만 개의 레이블로 학습된 오프라인 RLHF의 성능을 달성했으며, 이는 10배 이상의 데이터 효율성 향상을 의미한다. 우리의 결과를 외삽해 보면, 100만 개의 레이블로 학습된 우리의 알고리즘이 10억 개의 레이블로 학습된 오프라인 RLHF의 성능에 도달할 것으로 예상된다. 이는 1,000배의 효율성 향상을 의미한다. 우리가 아는 한, 이러한 대규모 향상이 가능함을 입증한 최초의 결과이다.
토큰 프루닝은 시각-언어 모델(VLM)의 계산 효율성을 향상시키는 데 필수적이며, 특히 시간적 중복성이 높은 비디오 기반 작업에서 중요합니다. 기존 접근법들은 일반적으로 (1) 행동 인식 및 객체 분할과 같은 단일 모달 인식 작업만을 위해 비전 트랜스포머(ViT) 내에서만 토큰을 제거하거나 다운스트림 시각-언어 작업에 적응하지 않거나, (2) ViT 출력은 그대로 둔 채 LLM 내에서만 토큰을 제거하는데, 이는 종종 복잡한 텍스트 조건 기반 토큰 선택 메커니즘을 필요로 했습니다. 본 논문에서는 텍스트 조건이나 토큰 병합 없이 ViT와 LLM 양측에 걸쳐 시각 토큰을 제거하며, 엔드투엔드 학습과 완전히 호환되는 간단하고 경량화된 모듈인 Spatio-Temporal Token Scoring(STTS)을 소개합니다. 보조 손실을 통한 시간적 스코어링과 LLM 다운스트림 그래디언트를 통한 공간적 스코어링 방법을 학습하고, 효율적인 패킹 알고리즘의 도움으로 STTS는 전체 아키텍처에서 시각 토큰의 50%를 제거하여 학습 및 추론 시 효율을 62% 향상시키면서도 13개의 장단기 비디오 질의응답 작업에서 평균 성능 하락을 0.7%에 불과하게 유지합니다. 비디오당 더 많은 프레임을 샘플링할수록 효율 향상 폭은 증가합니다. 장기 비디오 질의응답에 테스트 시간 스케일링을 적용하면 기준 모델 대비 0.5-1%의 추가 성능 향상을 얻을 수 있습니다. 전반적으로 STTS는 아키텍처 전반에 걸친 통합된 시각 토큰 프루닝을 위한 새롭고 간단하지만 효과적인 기술을 제시합니다.
토큰 선택 전문가 혼합(TC-MoE)은 각 토큰을 고정된 수의 전문가로 라우팅하여 동적 계산 할당을 제한하고 부하 균형을 유지하기 위해 보조 손실이 필요합니다. 우리는 전문가 임계값(ET) 라우팅을 제안합니다. 여기서 각 전문가는 글로벌 토큰 분포에서 추정된 지수 이동 평균(EMA) 임계값을 유지합니다. 학습 및 추론 시 각 토큰은 점수가 전문가의 임계값을 초과하면 독립적으로 전문가로 라우팅되어, 보조 손실 없이 부하 균형을 달성하면서 동적 계산 할당이 가능합니다. 이 완전 인과적 메커니즘은 배치 내 다른 토큰에 대한 의존성을 제거하여 자기 회귀 언어 모델링에 매우 적합합니다. FineWeb-Edu에서 2.4B 매개변수 규모의 사전 학습 실험에서 ET는 TC-MoE보다 0.067 낮은 교차 엔트로피 손실을 달성했으며, 이는 1.6배 적은 토큰으로 동일한 성능에 도달하는 것과 같습니다.
훈련 후 양자화는 리소스가 제한된 하드웨어에 대규모 언어 모델(LLM)을 배포하는 데 필수적이지만, 최신 방법들은 계층 전체에 균일한 비트 폭을 적용하여 정확도와 효율성 간의 최적이 아닌 트레이드오프를 초래합니다. 본 논문에서는 전역 비트 예산 하에서 퍼플렉서티를 최소화하기 위해 계층별 비트 폭 할당을 학습하는 오프-정책 Soft Actor-Critic 프레임워크인 RAMP(Reinforcement Adaptive Mixed Precision)를 제안합니다. 이 정책은 활성화 통계, 가중치 특성 및 구조적 설명자를 11차원으로 임베딩한 정보를 조건으로 하여, 모델 패밀리와 규모에 관계없이 제로샷 전이가 가능합니다. 안정적인 4비트 미만 양자화를 가능하게 하기 위해, 채널별 스케일링과 정규화 계층 보상을 통해 활성화 이상치를 가중치로 이전하는 전처리 기법인 Scale Folding을 도입합니다. 비대칭 패널티와 예산 한계를 포함한 품질 우선 보상 함수는 빠른 수렴을 유도합니다. Llama 2 7B 모델에서 RAMP는 3.68GB(유효 비트 3.65비트)에서 5.54의 퍼플렉서티를 달성하여, 균일 4비트 AWQ(3.90GB에서 5.60)보다 크기는 6% 더 작으면서 품질은 1%~3% 우수하며 GPTQ도 능가합니다. 중요한 것은, Llama 2 7B만으로 훈련된 정책이 Llama 2 13B와 Mistral 7B로 제로샷 일반화되며 종종 특정 대상 훈련을 능가하는데, 이는 양자화 민감도가 주로 아키텍처에 기인한다는 가설을 지지합니다. HALO 파이프라인은 할당 결과를 GGUF 형식으로 내보내 CPU, GPU 및 에지 디바이스에서 커널 없이 추론이 가능하게 하며, FP16 기준 상식 추론 성능의 99.5%를 유지합니다.
미디어 디자인 레이어 생성 기술은 자연어 프롬프트만으로 포스터, 전단지, 로고 등 완전히 편집 가능한 레이어형 디자인 문서를 생성할 수 있게 합니다. 기존 방법들은 출력을 고정된 수의 레이어로 제한하거나 각 레이어가 공간적으로 연속된 영역만 포함하도록 요구하여, 디자인 복잡도에 따라 레이어 수가 선형적으로 증가하는 문제가 있었습니다. 우리는 의미론적으로 의미 있는 유연한 수의 레이어를 생성하는 잠재 확산 프레임워크인 LaDe(Layered Media Design)를 제안합니다. LaDe는 세 가지 구성 요소를 결합합니다: 간단한 사용자 의도를 생성 과정을 안내하는 구조화된 레이어별 설명으로 변환하는 LLM 기반 프롬프트 확장기, 전체 미디어 디자인과 그 구성 요소인 RGBA 레이어를 공동으로 생성하는 4D RoPE 위치 인코딩 메커니즘이 적용된 Latent Diffusion Transformer, 그리고 완전한 알파 채널 지원으로 각 레이어를 디코딩하는 RGBA VAE입니다. 학습 중 레이어 샘플을 조건으로 사용함으로써, 우리의 통합 프레임워크는 텍스트-이미지 생성, 텍스트-레이어 미디어 디자인 생성, 미디어 디자인 분해의 세 가지 작업을 지원합니다. 우리는 Crello 테스트 세트에서 텍스트-레이어 및 이미지-레이어 작업에 대해 LaDe를 Qwen-Image-Layered와 비교합니다. 두 개의 VLM-as-a-judge 평가자(GPT-4o mini와 Qwen3-VL)를 통해 검증된 바와 같이, LaDe는 텍스트-레이어 정렬을 개선하여 텍스트-레이어 생성에서 Qwen-Image-Layered를 능가합니다.
대규모 언어 모델(LLM)은 다음 토큰 생성만을 위해 훈련되었음에도 잠재적인 다중 토큰 예측(MTP) 능력을 보여준다. 우리는 모델 가중치 수정이나 보조 드래프트 모델에 의존하지 않고 미래 토큰을 병렬 예측할 수 있도록, 임베딩 공간에서 추출한 마스크 토큰을 활용하여 LLM을 탐색하는 간단한 훈련 불필요(training-free) MTP 접근법을 제안한다. 우리의 방법은 마스크 토큰 로짓(logits)에서 상위 K개 후보를 샘플링하여 추론적 토큰 트리(speculative token tree)를 구성하고, 가벼운 가지치기 전략을 적용하여 높은 확률의 후속 토큰을 보존한다. 디코딩 과정에서 후보 예측들은 병렬로 검증되어, 모델 호출 횟수를 상당히 줄이고 토큰 처리량을 향상시키면서 무손실(lossless) 생성을 달성한다. 다양한 벤치마크에서 우리의 탐색(probing) 기반 MTP는 기존의 훈련 불필요 베이스라인을 지속적으로 능가하며, LLaMA3에서 약 12%, Qwen3에서 8-12%의 수용 길이(acceptance length) 증가와 최대 15-19%의 처리량 향상을 보였다. 마지막으로, 디코더 레이어가 마스크 토큰 표현을 다음 토큰 상태와 자연스럽게 정렬시켜 재훈련이나 보조 모델 없이도 정확한 다단계 예측을 가능하게 한다는 이론적 통찰과 실증적 증거를 제시한다.
CLIP과 유사한 시각-언어 모델(VLM)의 자연 이미지에서의 성공은 의료 분야 대응 모델 개발에 영감을 주었으나, 기존 접근법은 크게 두 가지 극단으로 나뉩니다: 단일 도메인 데이터로 학습된 전문가 모델은 도메인 특화 세부 사항을 잘 포착하지만 일반화 성능이 낮고, 다중 도메인 데이터로 학습된 일반주의 의료 VLM은 광의적 의미를 유지하지만 정밀한 진단 단서가 희석됩니다. 이러한 전문화와 일반화 간의 트레이드오프를 해소하는 것은 여전히 과제로 남아 있습니다. 이 문제를 해결하기 위해 우리는 강력한 제로샷 일반화 성능을 유지하는 일반주의 의료 VLM을 위한 매개변수 효율적 적응 프레임워크인 ACE-LoRA를 제안합니다. ACE-LoRA는 고정된 이미지-텍스트 인코더에 LoRA(Low-Rank Adaptation) 모듈을 통합하고, 쌍별 유사성(pairwise similarity)을 넘어 고차원적인 문맥적 상호작용을 포착하여 지역화된 진단 단서로 전역 표현을 풍부하게 하는 ACE-HGNN(Attention-based Context Enhancement Hypergraph Neural Network) 모듈을 도입합니다. 이는 정밀한 세부 사항을 간과하는 기존 PEFT(Parameter-Efficient Fine-Tuning) 방법의 주요 한계를 해결합니다. 크로스 모달 정렬을 더욱 향상시키기 위해 의미론적으로 관련된 이미지-텍스트 쌍 간의 False Negative를 효과적으로 억제하는 레이블 기반 InfoNCE 손실 함수를 구성합니다. 단 0.95M개의 학습 가능 매개변수만 추가함에도 불구하고, ACE-LoRA는 다중 도메인에 걸친 제로샷 분류, 세분화, 감지 벤치마크에서 최신 의료 VLM 및 PEFT 기준선을 지속적으로 능가합니다. 우리의 코드는 https://github.com/icon-lab/ACE-LoRA에서 확인할 수 있습니다.
우리는 사전 학습된 생성 로봇 정책을 정제하기 위해 강화 학습(RL)을 "분포 수축" 연산자로 활용하는 Distribution Contractive Reinforcement Learning (DICE-RL) 프레임워크를 소개한다. DICE-RL은 온라인 피드백을 통해 높은 성공률을 보이는 행동을 증폭시켜 사전 학습된 행동 사전 분포를 고성능 "프로" 정책으로 전환한다. 우리는 광범위한 행동 범위를 확보하기 위해 확산 또는 흐름 기반 정책을 사전 학습한 후, 선택적 행동 정규화와 가치 기반 행동 선택을 결합한 안정적이고 샘플 효율적인 잔차 오프-폴리시 RL 프레임워크로 미세 조정한다. 광범위한 실험과 분석을 통해 DICE-RL이 강력한 안정성과 샘플 효율성을 바탕으로 성능을 안정적으로 향상시킴을 확인했다. 이 방법은 시뮬레이션과 실제 로봇에서 모두 고차원 픽셀 입력으로부터 복잡한 장기간 조작 기술의 숙달을 가능하게 한다. 프로젝트 웹사이트: https://zhanyisun.github.io/dice.rl.2026/.
언어 모델을 비디오로 확장하는 데는 두 가지 과제가 있습니다: 첫째, 기존 방법이 손실이 있는 근사화에 의존하는 표현(representation) 문제, 둘째, 캡션 또는 에이전트 기반 파이프라인이 비디오를 텍스트로 축소하며 시각적 충실도를 잃는 장문 컨텍스트(long-context) 문제입니다. 이를 해결하기 위해 우리는 비디오를 계층적 그리드(hierarchical grid)로 표현하는 작업 독립적(task-agnostic) 환경인 VideoAtlas를 소개합니다. 이는 동시에 무손실(lossless), 탐색 가능(navigable), 확장 가능(scalable)하며 캡션 및 전처리 과정이 필요 없습니다(caption- and preprocessing-free). 비디오 개요를 한눈에 확인할 수 있으며, 모든 영역을 재귀적으로 확대할 수 있고, 동일한 시각적 표현이 비디오 전체, 중간 탐색 과정, 에이전트의 메모리에 일관되게 사용되어 종단간(end-to-end) 손실이 있는 텍스트 변환을 제거합니다. 이 계층적 구조는 접근 깊이가 비디오 길이에 대해 로그 함수적으로만 증가하도록 보장합니다. 장문 컨텍스트 문제에 대해, 재귀 언어 모델(Recursive Language Models, RLMs)은 최근 장문 텍스트를 위한 강력한 해법을 제시했지만, 이를 시각 영역으로 확장하려면 재귀적으로 탐색할 수 있는 구조화된 환경이 필요하며, VideoAtlas가 이를 제공합니다. VideoAtlas를 마르코프 결정 과정(Markov Decision Process)으로 구성하면 Video-RLM을 구현할 수 있습니다. 이는 Master가 전역 탐색을 조정하는 동시에 Worker들이 할당된 영역을 병렬적으로 심층 탐색하여 무손실 시각 증거를 축적하는 병렬 Master-Worker 아키텍처입니다. 우리는 세 가지 핵심 결과를 입증합니다: (1) 그리드 구조의 재사용으로 발생하는 30-60%의 다중모달 캐시 적중률(multimodal cache hit rate)로 인해 더욱 강화되는, 비디오 지속 시간에 대한 로그 함수적 계산 복잡도 증가. (2) 최대 탐색 깊이를 제한하여 계산 정확도 하이퍼파라미터를 체계적으로 조절할 수 있는 환경 예산 설정(environment budgeting). (3) 질문의 세부성에 따라 확장되는 자발적 적응형 계산 할당(emergent adaptive compute allocation). 1시간에서 10시간 벤치마크로 확장할 때, Video-RLM은 정확도 저하가 최소화된 가장 지속 시간에 강건한(duration-robust) 방법으로 남아 있으며, 이는 구조화된 환경 탐색이 비디오 이해를 위한 실현 가능하고 확장 가능한 패러다임임을 입증합니다.
멀티모달 대규모 언어 모델(MLLM)은 환각 현상, 특히 세부적인 질의에서 어려움을 겪는데, 이는 기존 벤치마크가 대략적인 이미지 관련 질문에 초점을 맞춤으로써 제대로 평가되지 않는 과제입니다. 우리는 FIne-grained NEgative queRies(FINER)와 두 가지 벤치마크인 FINER-CompreCap 및 FINER-DOCCI를 소개합니다. FINER를 사용하여 다중 객체, 다중 속성, 다중 관계, 그리고 "무엇" 질문이라는 네 가지 설정에서 환각 현상을 분석합니다. 우리의 벤치마크는 MLLM이 이미지 내에 실제로 존재하는 요소들과 세부적인 불일치가 동시에 발생할 때 환각 현상을 보인다는 것을 밝혀냅니다. 이를 해결하기 위해 FINER에서 영감을 받은 데이터에 직접 선호도 최적화(DPO)를 활용한 FINER-Tuning을 제안합니다. 4개의 최첨단 MLLM을 FINER-Tuning으로 미세 조정한 결과, 우리 벤치마크의 환각 현상에서 최대 24.2%(InternVL3.5-14B)의 성능 향상을 보였으며, 동시에 기존 8개 환각 평가 스위트에서의 성능도 개선되고 6개 벤치마크에 걸친 일반 멀티모달 능력도 향상되었습니다. 코드, 벤치마크 및 모델은 https://explainableml.github.io/finer-project/에서 이용할 수 있습니다.
CLIP과 같은 대규모 시각-언어 모델(VLM)을 다운스트림 작업에 적용할 때는 시각 및 텍스트 토큰이 넓고 일반적인 어댑터에 의해 균일하게 처리되는 "일관성 있는(one-size-fits-all)" 아키텍처 접근 방식의 한계를 겪는 경우가 많습니다. 본 연구에서는 이러한 동질성(homogeneity)이 양식(modality) 간의 고유한 구조적 특성, 즉 이미지의 공간적 지역성(spatial locality)과 텍스트의 의미론적 밀도(semantic density)를 무시한다고 주장합니다. 이를 해결하기 위해 우리는 양식별 구조적 귀납 편향(modality-specific structural inductive biases)을 도입하는 통합 아키텍처 프레임워크인 HeBA(Heterogeneous Bottleneck Adapter)를 제안합니다. HeBA는 세 가지 핵심 아키텍처 혁신을 통해 기존 설계와 차별화됩니다: (1) 이질성(Heterogeneity): 공간 상관 관계를 보존하기 위해 2D 깊이별 분리 가능 합성곱(2D depthwise-separable convolutions)을 통해 시각 토큰을 처리하는 반면, 의미론적 관계를 포착하기 위해 밀집 선형 투영(dense linear projections)을 통해 텍스트 토큰을 구별적으로 처리합니다; (2) 병목 규제(Bottleneck Regularization): 표준 확장형 어댑터와 달리, HeBA는 압축 병목 현상(D -> D/4)을 활용하여 모델이 컴팩트하고 강력한 특징을 명시적으로 학습하도록 강제하며 구조적 규제자(structural regularizer) 역할을 합니다; (3) 능동적 기울기 초기화(Active Gradient Initialization): 우리는 제한적인 영점 초기화(zero-initialization) 패러다임에 도전하여, 고정된 백본 네트워크(frozen backbone)의 사전 학습된 지식을 훼손하지 않으면서 수렴 속도를 가속화하기 위해 충분한 초기 기울기 흐름을 보장하는 Kaiming 초기화 전략을 활용합니다. 폭넓은 실험을 통해 HeBA의 아키텍처적으로 특화된 설계가 우수한 안정성과 정확도를 달성하며, 11개의 few-shot 벤치마크에서 새로운 최첨단(state-of-the-art) 성능을确立함을 입증합니다. 코드는 https://github.com/Jahid12012021/VLM-HeBA에서 확인할 수 있습니다.
AI 에이전트의 등장으로 자동화된 과학적 발견이 실현 가능한 목표가 되었습니다. 최근 많은 연구에서 머신러닝 연구를 수행할 수 있는 에이전트 시스템을 구축하고 있으나, 이러한 에이전트를 훈련시키는 원칙적인 방법을 제시하지는 않습니다. 또한 현재의 대규모 언어 모델(LLM)은 그럴듯해 보이지만 실제로는 비효율적인 아이디어를 생성하는 경우가 많습니다. 실천을 통해 학습할 수 있는 에이전트 훈련 방법론을 발전시키기 위해, 우리는 머신러닝 에이전트를 대상으로 한 새로운 종합 환경 생성 파이프라인을 제안합니다. 우리의 파이프라인은 주제 샘플링, 데이터셋 제안, 코드 생성 과정을 포함하여 SWE-agent 프레임워크와 호환되는 머신러닝 과제를 자동으로 생성합니다. 이렇게 생성된 종합 과제는 1) 제안된 데이터셋이 Huggingface API를 통해 검증되므로 실제 머신러닝 데이터셋에 기반하며, 2) 자체 디버깅 루프를 통해 더 높은 품질이 검증됩니다. 우리의 종합 과제 효과를 검증하기 위해 머신러닝 과제 벤치마크인 MLGym에 대해 실험을 수행했습니다. 종합 과제에서 교사 모델(GPT-5)의 트랙젝토리를 샘플링한 후, 이를 이용하여 학생 모델(Qwen3-4B 및 Qwen3-8B)을 훈련시켰습니다. 우리의 종합 과제로 훈련된 학생 모델은 MLGym에서 성능이 향상되었으며, Qwen3-4B는 AUP 메트릭이 9%, Qwen3-8B는 12% 각각 상승했습니다.
Vision Transformer를 활용한 고정 백본 전이 학습에서는 두 가지 제대로 다루어지지 않은 문제가 있습니다: 어댑터를 단순히 고정된 특징 추출기에 삽입할 때 발생하는 최적화 불안정성, 그리고 어댑터 용량 설정을 위한 원칙적인 지침의 부재입니다. 우리는 각 트랜스포머 블록에 상위 투영(up-projection) 가중치를 영점 초기화하여 잔차 저차원 병목 계층을 추가하는 AdapterTune을 제안합니다. 이는 조정된 네트워크가 사전 학습된 함수에서 정확히 시작하도록 보장하고 초기 에포크의 특징 표현 변동을 제거합니다. 분석적 측면에서는, 어댑터의 계수(rank)를 특징 공간에서의 다운스트림 작업 변화를 근사화하기 위한 용량 예산으로 공식화합니다. 이를 통해 도출된 초과 위험(excess-risk) 분해는 계수가 증가함에 따라 정확도 향상이 단조롭지만 체감하는, 즉 "엘보(elbow)" 현상을 예측하며, 우리는 이를 통제된 실험을 통해 확인했습니다. 우리는 9개의 데이터셋과 3가지 규모의 백본에 대해 다중 시드 결과를 포함하여 평가를 수행했습니다. 핵심이 되는 5개 데이터셋 전이 학습 모음에서 AdapterTune은 헤드만 조정하는 방식보다 평균 Top-1 정확도를 +14.9%p 향상시켰으며, 이는 전체 미세 조정 대비 매개변수의 0.92%만을 학습하여 달성했습니다. 또한 15개 데이터셋-백본 조합 중 10개에서 전체 미세 조정을 능가하는 성능을 보였습니다. 전체 벤치마크에서 AdapterTune은 테스트된 모든 데이터셋-백본 조합에서 헤드만 조정하는 방식보다 우수한 성능을 보였습니다. 계수, 배치 위치, 초기화 방법에 대한 제거 실험을 통해 각 설계 선택의 효과를 분리하여 확인했습니다. 코드는 https://github.com/salimkhazem/adaptertune 에서 확인할 수 있습니다.
최근 3D 파운데이션 모델의 발전으로 인간과 주변 환경의 재구성에 대한 관심이 높아지고 있습니다. 그러나 기존 대부분의 접근법은 단안 입력에 집중되어 있으며, 이를 다중 뷰 설정으로 확장하려면 추가적인 오버헤드 모듈이나 전처리 데이터가 필요합니다. 이를 위해 우리는 외부 모듈이나 전처리에 의존하지 않고 다중 인물 다중 뷰 비디오로부터 카메라, 장면 포인트 클라우드 및 인간 메쉬를 공동으로 추정하는 통합 프레임워크인 CHROMM을 제안합니다. 우리는 Pi3X와 Multi-HMR의 강력한 기하학적 및 인간 사전 지식을 단일 학습 가능한 신경망 구조로 통합하고, 인간과 장면 간의 스케일 불일치를 해결하기 위한 스케일 조정 모듈을 도입했습니다. 또한 테스트 시점에 뷰별 추정값을 단일 표현으로 집계하기 위한 다중 뷰 융합 전략을 소개합니다. 마지막으로 외관 기반 접근법보다 더 강건한 기하학 기반 다중 인물 연관 방법을 제안합니다. EMDB, RICH, EgoHumans 및 EgoExo4D에 대한 실험 결과, CHROMM은 기존 최적화 기반 다중 뷰 접근법보다 8배 이상 빠른 속도로 동작하면서 전역 인간 모션 및 다중 뷰 포즈 추정에서 경쟁력 있는 성능을 달성함을 보여줍니다. 프로젝트 페이지: https://nstar1125.github.io/chromm.
우리는 대규모 언어 모델의 중간 훈련(mid-training) 설계 선택에 대한 포괄적인 실증 연구인 PRISM을 제시한다. 4개 모델 패밀리(Granite, LLaMA, Mistral, Nemotron-H), 2가지 아키텍처 유형(밀집 트랜스포머와 어텐션-맘바 하이브리드), 3B에서 24B 매개변수 규모에 이르는 7개의 기본 모델을 대상으로 한 통제 실험을 통해, 약 270억 개의 고품질 토큰을 활용한 중간 훈련이 일반 성능을 유지하면서 수학 벤치마크에서 +15~+40점, 코드에서 +5~+12점, 과학 벤치마크에서 +6~+13점의 일관된 성능 향상을 가져온다는 것을 보여준다. 완전한 PRISM to RL 파이프라인은 6가지 추론 벤치마크의 매크로 평균을 12점 미만에서 29-42점(3-4배 향상)으로 개선한 반면, 대부분의 기본 모델에 RL을 직접 적용하는 것은 여전히 상당히 효과가 낮았으며 AIME 점수가 0점에 가까웠다. 데이터 구성은 RL 단계가 아닌 중간 훈련 단계에서 가장 중요하다: 중간 훈련 시 과학 데이터를 포함하면 RL 단계에서 GPQA-Diamond 점수가 +17~+28점 향상되는 반면, RL 혼합 비율을 변경해도 2점 미만의 차이만 발생한다. 메커니즘적으로 중간 훈련은 모델 가중치의 90% 이상을 밀집 재구성하는 반면, RL은 약 5%의 매개변수에 대해 희소하고 전위 중심의 미세 조정을 수행한다. 표현 분석(CKA)은 RL이 아키텍처에 관계없이 중간 훈련의 표현 기하학을 일관되게 보존함(0.998 이상 CKA)을 확인한다. 중요한 것은 RL은 시작점에 관계없이 동일한 가중치 변화를 적용하지만, 중간 훈련을 거친 모델에서만 성공하는데, 이는 중간 훈련이 RL이 효과적으로 성능을 개선할 수 있는 구성으로 모델을 배치하기 때문이다. 우리의 결과는 보존 인식 중간 훈련(retention-aware mid-training)이 신뢰할 수 있는 추론 능력 향상에 매우 효과적이며, 견고한 중간 훈련 파이프라인 설계를 위한 실용적인 지침을 제공함을 입증한다.
대규모 언어 모델(LLM)은 종교 지식 질의에 유창하게 답변할 수 있지만, 종종 허구적인 정보를 생성하거나 출처를 잘못 귀속시키는 경우가 많습니다. 이는 사용자들이 권위 있는 경전(꾸란과 하디스) 및 법학적(fiqh) 미묘함에 기반한 답변을 기대하는 이슬람 맥락에서 특히 중요한 문제입니다. 검증 증거에 기반한 생성(RAG)은 외부 증거에 답변을 근거시킴으로써 이러한 한계를 일부 완화합니다. 그러나 단일한 "검색 후 생성" 파이프라인은 다양한 이슬람 관련 질의를 처리하는 데 한계가 있습니다. 사용자는 문자 그대로의 경전 인용, 인용문이 포함된 파트와(fatwa) 스타일의 지침, 또는 엄격한 산술 및 법적 불변량이 요구되는 자카트(zakat) 및 상속 계산과 같은 규칙 기반 연산을 요청할 수 있습니다. 본 연구에서는 파나르(Fanar) AI 플랫폼의 핵심 구성 요소인 이중 언어(아랍어/영어) 다중 에이전트 이슬람 어시스턴트인 파나르-사디크(Fanar-Sadiq)를 소개합니다. 파나르-사디크는 에이전트 기반 도구 활용 아키텍처 내에서 이슬람 관련 질의를 특화된 모듈로 라우팅합니다. 본 시스템은 의도 인식 라우팅, 결정적 인용 정규화 및 검증 추적이 가능한 검증 기반 피크(fiqh) 답변, 인용 검증이 포함된 정확한 경절(verse) 조회, 그리고 마드하브(madhhab) 민감 분기를 지원하는 수니파 자카트 및 상속을 위한 결정적 계산기를 지원합니다. 우리는 공개된 이슬람 질의응답 벤치마크를 통해 종단간(end-to-end) 시스템 전체를 평가하고 효과성과 효율성을 입증합니다. 우리 시스템은 현재 API 및 웹 애플리케이션을 통해 공개적으로 무료로 접근 가능하며, 출시 후 1년도 채 되지 않아 약 190만 회 접속되었습니다.