번역이 포함된 일일 선별된 AI 연구 논문
Vision-Language-Action (VLA) 모델은 일반적으로 대규모 Vision-Language Model (VLM)을 로봇 데이터에 대해 사전 학습함으로써 지각 공간과 행동 공간 간의 격차를 해소합니다. 이 접근 방식은 성능을 크게 향상시키지만, 동시에 상당한 학습 비용을 초래합니다. 본 논문에서는 시각-언어(VL) 표현을 행동(A)에 효과적으로 연결하는 방법을 탐구합니다. 우리는 VLA 모델이 대규모 VLM과 광범위한 사전 학습에 대한 의존도를 줄이기 위해 설계된 새로운 패러다임인 VLA-Adapter를 소개합니다. 이를 위해, 먼저 다양한 VL 조건의 효과를 체계적으로 분석하고, 지각과 행동 공간을 연결하는 데 필수적인 조건에 대한 주요 발견을 제시합니다. 이러한 통찰을 바탕으로, 우리는 Bridge Attention을 갖춘 경량 Policy 모듈을 제안하며, 이 모듈은 행동 공간에 최적의 조건을 자율적으로 주입합니다. 이 방식으로, 우리의 방법은 로봇 데이터 사전 학습 없이도 0.5B 파라미터 백본만으로 높은 성능을 달성합니다. 시뮬레이션 및 실제 로봇 벤치마크에서의 광범위한 실험을 통해 VLA-Adapter가 최신 수준의 성능을 달성할 뿐만 아니라, 현재까지 보고된 가장 빠른 추론 속도를 제공함을 입증합니다. 또한, 제안된 고급 연결 패러다임 덕분에 VLA-Adapter는 단일 소비자용 GPU에서 단 8시간 만에 강력한 VLA 모델을 학습할 수 있어, VLA 모델 배포의 진입 장벽을 크게 낮춥니다. 프로젝트 페이지: https://vla-adapter.github.io/.
인간 중심 비디오 생성(Human-Centric Video Generation, HCVG) 방법은 텍스트, 이미지, 오디오를 포함한 다중 모달 입력으로부터 인간 비디오를 합성하려는 접근법이다. 기존 방법들은 두 가지 주요 문제로 인해 이러한 이질적인 모달리티를 효과적으로 조율하는 데 어려움을 겪는다: 첫째, 삼중 조건(paired triplet conditions)을 갖춘 훈련 데이터의 부족, 둘째, 주체 보존(subject preservation)과 오디오-비지각 동기화(audio-visual sync)라는 하위 작업을 다중 모달 입력과 협력적으로 수행하는 어려움이다. 본 연구에서는 협력적 다중 모달 제어를 위한 통합 HCVG 프레임워크인 HuMo를 제안한다. 첫 번째 문제를 해결하기 위해, 다양한 텍스트, 참조 이미지, 오디오를 포함한 고품질 데이터셋을 구축하였다. 두 번째 문제를 해결하기 위해, 작업별 전략을 포함한 두 단계의 점진적 다중 모달 훈련 패러다임을 제안한다. 주체 보존 작업에서는 기초 모델의 프롬프트 추종 및 시각적 생성 능력을 유지하기 위해 최소 침습적 이미지 주입 전략을 채택하였다. 오디오-비지각 동기화 작업에서는 일반적으로 사용되는 오디오 교차 주의층(audio cross-attention layer) 외에도, 모델이 오디오를 얼굴 영역과 암묵적으로 연결하도록 유도하는 예측 기반 초점 전략(focus-by-predicting strategy)을 제안한다. 다중 모달 입력 간 제어 가능성을 공동으로 학습하기 위해, 이전에 획득한 능력을 기반으로 오디오-비지각 동기화 작업을 점진적으로 통합한다. 추론 과정에서 유연하고 세밀한 다중 모달 제어를 위해, 노이즈 제거 단계별로 가이던스 가중치를 동적으로 조정하는 시간 적응형 Classifier-Free Guidance 전략을 설계하였다. 광범위한 실험 결과를 통해 HuMo는 하위 작업에서 최신의 전문화된 방법들을 능가하며, 협력적 다중 모달 조건 HCVG를 위한 통합 프레임워크를 확립함을 입증하였다. 프로젝트 페이지: https://phantom-video.github.io/HuMo.
Vision-Language-Action (VLA) 모델은 최근 로봇 매니퓰레이션을 위한 강력한 패러다임으로 부상하고 있습니다. 대규모 사전 학습과 지도 미세 조정(SFT)을 통해 상당한 진전이 이루어졌음에도 불구하고, 이러한 모델은 두 가지 근본적인 문제에 직면해 있습니다: (i) SFT 확장을 위해 필요한 대규모 인간 운영 로봇 궤적 데이터의 부족과 높은 비용, 그리고 (ii) 분포 변화를 포함하는 작업에 대한 제한된 일반화 능력입니다. 최근 Large Reasoning Models (LRMs)의 혁신적인 발전은 강화 학습(RL)이 단계별 추론 능력을 극적으로 향상시킬 수 있음을 보여주며, 자연스럽게 다음과 같은 질문을 제기합니다: RL이 VLA의 장기적인 단계별 행동 계획도 마찬가지로 개선할 수 있을까요? 본 연구에서는 VLA 모델에 맞춤화된 효율적인 RL 프레임워크인 SimpleVLA-RL을 소개합니다. veRL을 기반으로, VLA 특화 궤적 샘플링, 확장 가능한 병렬화, 다중 환경 렌더링, 그리고 최적화된 손실 계산을 도입했습니다. OpenVLA-OFT에 적용했을 때, SimpleVLA-RL은 LIBERO에서 SoTA 성능을 달성했으며, 우리가 제안한 탐색 강화 전략을 통해 RoboTwin 1.0\&2.0에서도 pi_0을 능가했습니다. SimpleVLA-RL은 대규모 데이터에 대한 의존도를 줄이고 견고한 일반화를 가능하게 할 뿐만 아니라, 실제 작업에서 SFT를 뛰어넘는 성과를 보여줍니다. 또한, RL 훈련 중에 "pushcut"이라는 새로운 현상을 발견했는데, 이는 정책이 이전 훈련 과정에서 보지 못한 패턴을 발견하는 현상입니다. Github: https://github.com/PRIME-RL/SimpleVLA-RL
음성-음성 대형 언어 모델(SLLMs)이 점점 더 많은 관심을 받고 있습니다. 텍스트 기반 대형 언어 모델(LLMs)에서 파생된 SLLMs는 종종 지식과 추론 능력의 저하를 보입니다. 우리는 이러한 한계가 현재 SLLMs의 훈련 패러다임이 특징 표현 공간에서의 음향-의미 간극을 해결하지 못하기 때문에 발생한다고 가정합니다. 이 문제를 해결하기 위해, 우리는 의미 표현을 활용하고 동적으로 음성 훈련 목표를 생성하는 EchoX를 제안합니다. 이 접근 방식은 음향과 의미 학습을 통합하여 EchoX가 음성 LLM으로서 강력한 추론 능력을 유지할 수 있도록 합니다. 실험 결과는 약 6천 시간의 훈련 데이터를 사용한 EchoX가 여러 지식 기반 질의응답 벤치마크에서 우수한 성능을 달성함을 보여줍니다. 이 프로젝트는 https://github.com/FreedomIntelligence/EchoX에서 확인할 수 있습니다.
오디오 기반 아바타 비디오 생성 분야의 최근 발전은 오디오-비주얼 현실감을 크게 향상시켰습니다. 그러나 기존 방법들은 지시 조건을 단순히 음향 또는 시각적 단서에 의해 추적되는 저수준의 요소로만 다루며, 지시가 전달하는 의사소통 목적을 모델링하지 않습니다. 이러한 한계는 내러티브 일관성과 캐릭터 표현력을 저해합니다. 이러한 격차를 해소하기 위해, 우리는 다중모달 지시 이해와 사실적인 초상화 생성을 통합한 새로운 캐스케이드 프레임워크인 Kling-Avatar를 소개합니다. 우리의 접근 방식은 두 단계의 파이프라인을 채택합니다. 첫 번째 단계에서는 다양한 지시 신호를 기반으로 블루프린트 비디오를 생성하는 다중모달 대형 언어 모델(MLLM) 디렉터를 설계하여 캐릭터 동작과 감정과 같은 고수준의 의미를 제어합니다. 두 번째 단계에서는 블루프린트 키프레임의 지도를 받아, 첫 번째-마지막 프레임 전략을 사용하여 여러 하위 클립을 병렬로 생성합니다. 이 글로벌-로컬 프레임워크는 다중모달 지시 뒤에 숨은 고수준 의도를 충실히 인코딩하면서도 세밀한 디테일을 보존합니다. 우리의 병렬 아키텍처는 또한 장시간 비디오의 빠르고 안정적인 생성을 가능하게 하여 디지털 휴먼 라이브 스트리밍 및 블로깅과 같은 실제 응용에 적합합니다. 우리의 방법을 포괄적으로 평가하기 위해, 다양한 지시와 도전적인 시나리오를 포함한 375개의 선별된 샘플로 구성된 벤치마크를 구축했습니다. 광범위한 실험을 통해 Kling-Avatar가 최대 1080p 및 48 fps로 생생하고 유창한 장시간 비디오를 생성할 수 있으며, 입술 동기화 정확도, 감정 및 동적 표현력, 지시 제어성, 신원 보존, 그리고 크로스 도메인 일반화에서 우수한 성능을 달성함을 입증했습니다. 이러한 결과는 Kling-Avatar를 의미론적으로 근거를 둔 고품질 오디오 기반 아바타 합성의 새로운 벤치마크로 자리매김합니다.
장기적 과제에서 대규모 언어 모델(LLMs) 기반의 최신 에이전트들은 희소하고 결과 기반의 보상이 중간 단계에 대한 책임을 할당하기 어렵게 만드는 중요한 문제에 직면해 있습니다. 기존 방법들은 주로 역강화 학습과 같은 전통적인 강화 학습 기법을 통해 또는 단계별 피드백을 제공하는 프로세스 보상 모델을 사용하여 조밀한 보상 신호를 생성하는 데 초점을 맞추었습니다. 본 논문에서 우리는 LLMs의 학습 역학에 내재된 근본적인 문제를 확인했습니다: 정책 그래디언트의 크기가 엔트로피와 본질적으로 결합되어 있어, 확신에 찬 올바른 행동에 대해서는 비효율적으로 작은 업데이트가 발생하고, 불확실한 행동에 대해서는 잠재적으로 불안정한 큰 업데이트가 발생합니다. 이를 해결하기 위해, 우리는 단계별 불확실성과 최종 과제 결과를 기반으로 학습 신호를 재조정하는 엔트로피 조정 정책 그래디언트(EMPG) 프레임워크를 제안합니다. EMPG는 확신에 찬 올바른 행동에 대한 업데이트를 증폭시키고, 확신에 찬 오류를 벌하며, 불확실한 단계에서의 업데이트를 감쇠시켜 탐색을 안정화합니다. 또한, 우리는 에이전트가 더 예측 가능한 해결 경로를 찾도록 장려하는 미래 명확성에 대한 보너스 항목을 도입했습니다. WebShop, ALFWorld, Deep Search라는 세 가지 도전적인 에이전트 과제에 대한 포괄적인 실험을 통해, EMPG가 상당한 성능 향상을 달성하고 강력한 정책 그래디언트 베이스라인을 크게 능가함을 입증했습니다. 프로젝트 페이지는 https://empgseed-seed.github.io/에서 확인할 수 있습니다.
오픈소스 텍스트-이미지(T2I) 모델의 발전은 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재로 인해 더딘 속도를 보여왔으며, 이는 선도적인 클로즈드소스 시스템과의 성능 격차로 이어졌습니다. 이러한 문제를 해결하기 위해, 우리는 FLUX-Reason-6M과 PRISM-Bench(Precise and Robust Image Synthesis Measurement Benchmark)를 소개합니다. FLUX-Reason-6M은 600만 개의 고품질 FLUX 생성 이미지와 2,000만 개의 이중 언어(영어와 중국어) 설명으로 구성된 대규모 데이터셋으로, 복잡한 추론을 가르치기 위해 특별히 설계되었습니다. 이미지는 상상력(Imagination), 개체(Entity), 텍스트 렌더링(Text Rendering), 스타일(Style), 감정(Affection), 구성(Composition)이라는 여섯 가지 주요 특성에 따라 구성되었으며, 명시적인 생성 사고 연쇄(Generation Chain-of-Thought, GCoT)를 설계하여 이미지 생성 단계를 상세히 설명합니다. 전체 데이터 큐레이션에는 15,000 A100 GPU 일이 소요되었으며, 이는 대규모 산업 연구실 외부에서는 이전에 얻을 수 없었던 자원을 커뮤니티에 제공합니다. PRISM-Bench는 GCoT를 사용한 도전적인 장문(Long Text) 문제를 포함한 7개의 독특한 트랙으로 구성된 새로운 평가 표준을 제공합니다. 신중하게 설계된 프롬프트를 통해, 이는 고급 시각-언어 모델을 활용하여 프롬프트-이미지 정렬과 이미지 미학에 대한 미묘한 인간 중심 평가를 수행합니다. PRISM-Bench에서 19개의 선도적인 모델을 대상으로 한 광범위한 평가는 중요한 성능 격차를 드러내고 개선이 필요한 특정 영역을 강조합니다. 우리의 데이터셋, 벤치마크, 평가 코드는 추론 중심의 T2I 생성의 다음 물결을 촉진하기 위해 공개되었습니다. 프로젝트 페이지: https://flux-reason-6m.github.io/ .
본 논문에서는 오토인코더의 관점에서 통찰력 있는 패러다임을 소개한다. 이미지를 텍스트로 압축하는 인코더(I2T)로서의 이해와, 그 텍스트로부터 이미지를 재구성하는 디코더(T2I)로서의 생성 과정을 제시한다. 재구성 정확도를 통합 학습 목표로 사용함으로써, 이해와 생성 과정 간의 일관된 양방향 정보 흐름을 강화하고 상호 이득을 가져온다. 이를 구현하기 위해, 우리는 통합 멀티모달 학습을 위한 새로운 프레임워크인 UAE를 제안한다. 먼저, 디코더를 대규모 장문 이미지 캡션 데이터로 사전 학습하여 세밀한 의미론적 관계와 복잡한 공간적 관계를 포착한다. 그런 다음 강화 학습(RL)을 통한 Unified-GRPO를 제안하는데, 이는 세 단계로 구성된다: (1) 인코더와 디코더를 의미론적 재구성 손실로 부드럽게 초기화하는 콜드 스타트 단계; (2) 이해를 위한 생성 단계로, 인코더가 디코더의 재구성 품질을 극대화하는 정보성 있는 캡션을 생성하도록 학습하여 시각적 이해 능력을 향상시킴; (3) 생성을 위한 이해 단계로, 디코더가 이러한 캡션으로부터 재구성하도록 개선하여 모든 세부 사항을 활용하고 장문 지시 따르기 및 생성 정확도를 향상시킴. 평가를 위해, 우리는 UMM의 통합 정도를 평가하기 위해 맞춤화된 첫 번째 벤치마크인 Unified-Bench를 도입한다. 멀티모달 학습 영역에서 놀라운 통찰이 발견되었는데, RL이 진행됨에 따라 인코더는 더욱 설명적인 캡션을 자율적으로 생성하고, 동시에 디코더는 이러한 복잡한 설명을 깊이 이해하여 놀라운 정확도의 재구성을 보여준다.
대규모 언어 모델(LLMs)은 광범위한 세계 지식과 강력한 범용 추론 능력을 갖추고 있지만, 표준 기계 학습(ML) 작업에서 많은 문맥 내 예제를 학습하는 데 어려움을 겪습니다. 즉, 그래디언트 디센트 없이 순수하게 문맥 내 학습(ICL)을 통해 다수 샷 데모를 활용하는 데 한계가 있습니다. 우리는 MachineLearningLM을 소개합니다. 이는 범용 LLM에 강력한 문맥 내 ML 능력을 부여하면서도 더 넓은 채팅 워크플로우를 위한 일반 지식과 추론 능력을 보존하는 휴대 가능한 지속 사전 학습 프레임워크입니다. 우리의 사전 학습 절차는 수백만 개의 구조적 인과 모델(SCMs)에서 ML 작업을 합성하며, 샷 수를 최대 1,024까지 확장합니다. 랜덤 포레스트 교사 모델로 시작하여, 트리 기반 의사 결정 전략을 LLM에 증류하여 수치 모델링에서의 견고성을 강화합니다. 모든 작업은 토큰 효율적인 프롬프트로 직렬화되어, 컨텍스트 창당 3배에서 6배 더 많은 예제를 가능하게 하고 배치 추론을 통해 최대 50배의 상각 처리량을 제공합니다. 비록 간단한 설정(Qwen-2.5-7B-Instruct with LoRA rank 8)이지만, MachineLearningLM은 금융, 물리학, 생물학, 헬스케어 도메인에 걸친 분포 외 표 분류에서 강력한 LLM 베이스라인(예: GPT-5-mini)을 평균 약 15% 앞섭니다. 이는 눈에 띄는 다수 샷 스케일링 법칙을 보여줍니다: 문맥 내 데모가 8에서 1,024로 증가함에 따라 정확도가 단조롭게 증가합니다. 작업별 훈련 없이도 수백 샷에 걸쳐 랜덤 포레스트 수준의 정확도를 달성합니다. 일반 채팅 능력, 즉 지식과 추론 능력도 보존됩니다: MMLU에서 75.4%를 달성합니다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 강력한 패러다임입니다. 그러나 현재의 RLVR 방법들은 종종 탐색이 미흡하여 조기 수렴과 엔트로피 붕괴를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 모델 자체의 내재적 호기심을 활용하여 탐색을 유도하는 호기심 주도 탐색(Curiosity-Driven Exploration, CDE) 프레임워크를 제안합니다. 우리는 호기심을 행위자(actor)와 평가자(critic)로부터의 신호로 형식화합니다: 행위자의 경우 생성된 응답에 대한 혼란도(perplexity)를 사용하고, 평가자의 경우 다중 헤드 아키텍처에서의 가치 추정치 분산을 사용합니다. 이 두 신호는 RLVR 프레임워크 내에서 탐색 보너스로 작용하여 모델을 안내합니다. 우리의 이론적 분석은 행위자 측 보너스가 과도한 자신감으로 인한 오류를 자연스럽게 억제하고 올바른 응답 간의 다양성을 촉진함을 보여줍니다. 또한, 평가자 측 보너스는 강화 학습에서 잘 정립된 카운트 기반 탐색 보너스와 연결됩니다. 실험적으로, 우리의 방법은 AIME 벤치마크에서 GRPO/PPO를 사용한 표준 RLVR 대비 약 3점의 성능 향상을 달성했습니다. 추가 분석을 통해 RLVR 내의 보정 붕괴(calibration collapse) 메커니즘을 확인함으로써, LLM의 일반적인 실패 모드에 대한 통찰을 제공합니다.
대규모 오디오 언어 모델(LALMs)은 빠르게 발전하고 있지만, 비효율적인 툴킷으로 인해 공정한 비교와 체계적인 평가가 어려운 상황입니다. 현재의 프레임워크는 세 가지 주요 문제를 안고 있습니다: 대규모 연구를 병목현상으로 만드는 느린 처리 속도, 재현성을 해치는 일관성 없는 프롬프팅, 그리고 중요한 오디오 추론 능력을 놓치는 좁은 작업 범위입니다. 우리는 이러한 문제를 해결하기 위해 AU-Harness라는 효율적이고 포괄적인 LALM 평가 프레임워크를 소개합니다. 우리의 시스템은 최적화된 배치 처리와 병렬 실행을 통해 기존 툴킷 대비 최대 127%의 속도 향상을 달성하여, 이전에는 실현하기 어려웠던 대규모 평가를 가능하게 합니다. 또한, 다양한 시나리오에서 공정한 모델 비교를 위한 표준화된 프롬프팅 프로토콜과 유연한 구성을 제공합니다. 더불어, 시간적 오디오 이해를 위한 LLM-Adaptive Diarization과 복잡한 오디오 기반 인지 작업을 위한 Spoken Language Reasoning이라는 두 가지 새로운 평가 범주를 도입했습니다. 380개 이상의 작업에 걸친 평가를 통해, 현재의 LALMs가 특히 시간적 이해와 복잡한 음성 언어 추론 작업에서 상당한 격차를 보인다는 사실을 밝혀냈습니다. 또한, 우리의 연구 결과는 오디오 벤치마크 전반에 걸쳐 존재하는 명령 방식의 표준화 부재가 도전적인 복잡한 명령어 수행 하위 작업에서 최대 9.5 포인트의 성능 차이를 초래할 수 있음을 강조합니다. AU-Harness는 실용적인 평가 도구와 모델의 한계에 대한 통찰을 제공함으로써 체계적인 LALM 개발을 촉진합니다.
공간 지능 분야에서는 공간 재구성과 세계 탐색 모두에서 상당한 진전이 이루어졌습니다. 그러나 현재 모델의 확장성과 현실 세계에 대한 충실도는 대규모 고품질 학습 데이터의 부족으로 심각하게 제한되고 있습니다. 여러 데이터셋이 카메라 포즈 정보를 제공하지만, 특히 실제 동적 장면과 정확한 카메라 움직임을 포함하는 경우, 규모, 다양성 및 주석 풍부함 측면에서 제한적입니다. 이를 위해 우리는 다양한 장면, 카메라 움직임, 그리고 프레임별 카메라 포즈, 깊이, 동작 지침과 같은 밀집된 3D 주석을 포함한 야외 비디오로 구성된 SpatialVID 데이터셋을 수집했습니다. 구체적으로, 우리는 21,000시간 이상의 원시 비디오를 수집하고, 계층적 필터링 파이프라인을 통해 이를 270만 개의 클립으로 처리하여 총 7,089시간의 동적 콘텐츠를 확보했습니다. 이후의 주석 파이프라인은 이러한 클립에 카메라 포즈, 깊이 맵, 동적 마스크, 구조화된 캡션, 그리고 직렬화된 동작 지침과 같은 상세한 공간 및 의미론적 정보를 추가합니다. SpatialVID의 데이터 통계 분석은 모델의 일반화와 성능 향상을 직접적으로 촉진하는 풍부함과 다양성을 보여주며, 이는 비디오 및 3D 비전 연구 커뮤니티를 위한 핵심 자산으로 자리매김합니다.
차트 이해는 시각-언어 모델(Vision-Language Models, VLMs)의 추론 능력을 평가하는 중요한 과제입니다. 기존 접근 방식은 몇 가지 한계를 가지고 있습니다: 일부는 외부 도구에 의존하여 취약하고 미리 정의된 도구 세트에 제한되며, 다른 일부는 텍스트 기반의 사고의 연쇄(chain-of-thought, CoT)와 같은 단일 추론 전략을 채택한 전문 모델을 미세 조정합니다. 텍스트 기반 추론의 중간 단계는 검증하기 어려워, 사실적 정확성을 보상하는 강화 학습 신호의 사용을 복잡하게 만듭니다. 이를 해결하기 위해, 우리는 차트의 시각적 정보를 검증 가능한 기호 형식으로 표현하는 Code-as-Thought(CaT) 접근 방식을 제안합니다. 우리의 핵심 통찰은 이 전략이 적응적이어야 한다는 것입니다: 고정된 코드 전용 구현은 기호 표현이 적합하지 않은 복잡한 차트에서 지속적으로 실패합니다. 이러한 발견은 우리가 시각적 프로그래밍 가능성(Visual Programmability)이라는 개념을 도입하도록 이끕니다. 이는 차트-질문 쌍이 코드로 해결되는 것이 더 나은지, 아니면 직접적인 시각적 분석으로 해결되는 것이 더 나은지를 결정하는 학습 가능한 속성입니다. 우리는 이 개념을 VLM이 CaT 경로와 직접적인 시각적 추론 경로 중에서 선택하도록 학습하는 적응형 프레임워크로 구현합니다. 모델의 선택 정책은 새로운 이중 보상 시스템을 사용한 강화 학습으로 훈련됩니다. 이 시스템은 모델을 사실에 기반하게 하고 수치적 환각을 방지하기 위한 데이터 정확성 보상과, 각 전략을 언제 사용할지 모델에게 가르치며 단일 추론 모드로 기본 설정되는 것을 방지하기 위한 결정 보상을 결합합니다. 실험 결과, 다양한 차트 이해 벤치마크에서 강력하고 견고한 성능을 보여줍니다. 우리의 연구는 VLMs가 추론하는 방법뿐만 아니라 어떻게 추론할지도 학습할 수 있으며, 각 작업에 대해 최적의 추론 경로를 동적으로 선택할 수 있음을 보여줍니다.
인코더 전용 언어 모델은 분류 및 검색을 포함한 다양한 표준 머신러닝 작업에 자주 사용됩니다. 그러나 최근 들어, 특히 다국어 모델과 관련하여 인코더 모델에 대한 연구가 부족한 상황입니다. 우리는 1800개 이상의 언어로 된 3조 개의 다국어 텍스트로 사전 학습된 인코더 전용 언어 모델인 mmBERT를 소개합니다. mmBERT를 구축하기 위해 역 마스크 비율 스케줄과 역 온도 샘플링 비율을 포함한 여러 새로운 요소를 도입했습니다. 우리는 감쇠 단계에서만 데이터 믹스에 1700개 이상의 저자원 언어를 추가하여, 이들이 성능을 극적으로 향상시키고 상대적으로 적은 양의 학습 데이터에서 얻을 수 있는 이점을 극대화함을 보여줍니다. 이러한 저자원 언어를 짧은 감쇠 단계에만 포함시켰음에도 불구하고, 우리는 OpenAI의 o3와 Google의 Gemini 2.5 Pro와 유사한 분류 성능을 달성했습니다. 전반적으로, mmBERT가 고자원 및 저자원 언어 모두에서 분류 및 검색 작업에서 이전 세대 모델을 크게 능가함을 보여줍니다.
3D 공간 관계 이해는 현재의 시각-언어 모델(VLMs)의 주요 한계로 남아 있다. 기존 연구는 단일 이미지나 실내 비디오를 기반으로 한 공간 질의응답(QA) 데이터셋을 생성하여 이 문제를 해결하려고 시도했다. 그러나 로봇이나 자율주행차와 같은 실제 세계의 구체화된 AI 에이전트는 일반적으로 자기 중심적이고 다중 시점 관측에 의존한다. 이를 위해 우리는 자기 중심적이고 다중 시점의 야외 데이터를 사용하여 VLMs의 공간 추론 능력을 평가하기 위한 새로운 벤치마크인 Ego3D-Bench를 소개한다. Ego3D-Bench는 8,600개 이상의 QA 쌍으로 구성되어 있으며, 질과 다양성을 보장하기 위해 인간 주석자의 상당한 참여를 통해 생성되었다. 우리는 GPT-4o, Gemini1.5-Pro, InternVL3, Qwen2.5-VL을 포함한 16개의 최신 VLMs를 벤치마크했다. 결과는 인간 수준 점수와 VLM 성능 간에 현저한 격차가 있음을 보여주며, 현재의 VLMs가 여전히 인간 수준의 공간 이해에 미치지 못함을 강조한다. 이 격차를 해소하기 위해 우리는 VLMs의 3D 공간 추론을 강화하는 사후 훈련 프레임워크인 Ego3D-VLM을 제안한다. Ego3D-VLM은 추정된 전역 3D 좌표를 기반으로 인지 지도를 생성하며, 이는 다중 선택 QA에서 평균 12%의 개선과 절대 거리 추정에서 평균 56%의 개선을 가져온다. Ego3D-VLM은 모듈식으로 설계되어 기존의 어떤 VLM과도 통합할 수 있다. Ego3D-Bench와 Ego3D-VLM은 함께 실제 세계의 다중 시점 환경에서 인간 수준의 공간 이해를 향해 나아가기 위한 가치 있는 도구를 제공한다.
Contrastive Language-Image Pre-training(CLIP)은 다양한 비전 작업에서 강력한 성능을 보이지만, 이를 사람 표현 학습에 적용할 때 두 가지 중요한 문제에 직면합니다: (i) 사람 중심 이미지에 초점을 맞춘 대규모 주석이 달린 비전-언어 데이터의 부족, 그리고 (ii) 전역 대조 학습(global contrastive learning)의 고유한 한계로, 이는 미세한 매칭에 중요한 지역적 특징을 유지하는 데 어려움을 겪으며 동시에 노이즈가 있는 텍스트 토큰에 취약합니다. 본 연구는 데이터 큐레이션과 모델 아키텍처 측면에서의 시너지 효과를 통해 CLIP을 사람 표현 학습에 더욱 발전시킵니다. 먼저, MLLM(Multimodal Large Language Models)의 문맥 학습 능력을 활용하여 웹에서 수집한 이미지를 자동으로 필터링하고 캡션을 생성하는 노이즈에 강한 데이터 구축 파이프라인을 개발합니다. 이를 통해 500만 개의 고품질 사람 중심 이미지-텍스트 쌍으로 구성된 대규모 데이터셋인 WebPerson을 구축합니다. 두 번째로, GA-DMS(Gradient-Attention Guided Dual-Masking Synergetic) 프레임워크를 도입하여, 그래디언트-어텐션 유사도 점수를 기반으로 노이즈가 있는 텍스트 토큰을 적응적으로 마스킹함으로써 크로스 모달 정렬을 개선합니다. 또한, 마스킹된 토큰 예측 목표를 추가하여 모델이 정보가 풍부한 텍스트 토큰을 예측하도록 강제함으로써 미세한 의미 표현 학습을 강화합니다. 광범위한 실험을 통해 GA-DMS가 여러 벤치마크에서 최첨단 성능을 달성함을 입증합니다.
최근에 등장한 이산 점들을 연속적인 공간 표현으로 변환하는 기법인 가우시안 스플래팅(Gaussian Splatting, GS)은 3D 장면 모델링과 2D 이미지 초해상도 분야에서 유망한 결과를 보여주고 있습니다. 본 논문에서는 GS의 잠재력을 이미지 인페인팅(image inpainting)에 적용해보고자 합니다. 이미지 인페인팅은 지역적으로 일관된 픽셀 합성과 전역적으로 일관된 의미론적 복원을 모두 요구하는 작업입니다. 우리는 2D 가우시안 스플래팅을 기반으로 한 첫 번째 이미지 인페인팅 프레임워크를 제안합니다. 이 프레임워크는 불완전한 이미지를 2D 가우시안 스플래팅 계수의 연속 필드로 인코딩하고, 미분 가능한 래스터화 과정을 통해 최종 이미지를 재구성합니다. GS의 연속 렌더링 패러다임은 인페인팅 결과에서 픽셀 수준의 일관성을 자연스럽게 촉진합니다. 효율성과 확장성을 개선하기 위해, 우리는 메모리 오버헤드를 줄이고 추론 속도를 가속화하는 패치 단위 래스터화 전략을 도입했습니다. 전역적인 의미론적 일관성을 위해, 사전 학습된 DINO 모델의 특징을 통합했습니다. DINO의 전역 특징은 작은 결손 영역에 대해 자연스럽게 강건하며, 대규모 마스크 시나리오에서 의미론적 정렬을 안내하는 데 효과적으로 적용될 수 있어, 인페인팅된 내용이 주변 장면과 문맥적으로 일관되도록 합니다. 표준 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 정량적 지표와 지각적 품질 모두에서 경쟁력 있는 성능을 달성함을 확인했으며, 이는 2D 이미지 처리에 가우시안 스플래팅을 적용하는 새로운 방향을 제시합니다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 다중 양식 이해, 추론 및 상호작용, 그리고 연속적인 공간 의사결정을 가능하게 함으로써 구현된 지능(embodied intelligence)에 새로운 기회를 열었습니다. 그러나 현재 MLLM 기반 구현 시스템은 두 가지 중요한 한계에 직면해 있습니다. 첫째, 기하학적 적응성 격차: 2D 입력만으로 훈련되거나 하드코딩된 3D 기하학 주입을 사용하는 모델은 공간 정보가 부족하거나 2D 일반화가 제한되어 다양한 공간 요구를 가진 작업 간 적응성이 떨어지는 문제가 있습니다. 둘째, 구현 제약 격차: 기존 연구는 실제 로봇의 물리적 제약과 능력을 종종 간과하여 이론적으로는 유효하지만 실제로 실행 불가능한 작업 계획을 생성하는 경우가 많습니다. 이러한 격차를 해결하기 위해 우리는 OmniEVA를 소개합니다. OmniEVA는 두 가지 핵심 혁신을 통해 고급 구현 추론 및 작업 계획을 가능하게 하는 다재다능한 구현 플래너입니다: (1) 작업 적응형 3D 그라운딩 메커니즘: 컨텍스트 요구 사항에 따라 3D 융합을 명시적으로 선택적으로 조절하는 게이트 라우터를 도입하여 다양한 구현 작업에 대한 컨텍스트 인식 3D 그라운딩을 가능하게 합니다. (2) 구현 인식 추론 프레임워크: 작업 목표와 구현 제약을 추론 루프에 함께 통합하여 목표 지향적이면서도 실행 가능한 계획 결정을 생성합니다. 광범위한 실험 결과는 OmniEVA가 최신의 일반 구현 추론 성능을 달성할 뿐만 아니라 다양한 다운스트림 시나리오에서 강력한 능력을 보여준다는 것을 입증합니다. 기본 및 복합 작업을 포함한 제안된 구현 벤치마크에 대한 평가는 OmniEVA의 견고하고 다재다능한 계획 능력을 확인시켜 줍니다. 프로젝트 페이지: https://omnieva.github.io
대규모 시각-언어 모델(LVLMs)의 최근 발전은 일반적인 의료 작업에서 강력한 성능을 보여주고 있습니다. 그러나 치과와 같은 특수 분야에서의 효과는 아직 충분히 탐구되지 않았습니다. 특히, 구강 방사선학에서 널리 사용되는 파노라마 X-선은 밀집된 해부학적 구조와 미묘한 병리학적 단서로 인해 해석상의 어려움을 야기하며, 이는 기존의 의료 벤치마크나 지시 데이터셋에서 포착되지 않습니다. 이를 위해, 우리는 파노라마 X-선 해석을 위해 맞춤화된 최초의 대규모 멀티모달 지시 데이터셋 및 벤치마크인 MMOral을 소개합니다. MMOral은 20,563개의 주석이 달린 이미지와 130만 개의 지시-따르기 인스턴스로 구성되어 있으며, 속성 추출, 보고서 생성, 시각적 질문 응답, 이미지 기반 대화 등 다양한 작업 유형을 포함합니다. 또한, 우리는 치과에서의 다섯 가지 주요 진단 차원을 포괄하는 종합 평가 도구인 MMOral-Bench를 제시합니다. 우리는 MMOral-Bench에서 64개의 LVLM을 평가했으며, 가장 성능이 뛰어난 모델인 GPT-4o조차도 41.45%의 정확도만 달성하여 현재 모델의 이 분야에서의 상당한 한계를 드러냈습니다. 이 특정 분야의 발전을 촉진하기 위해, 우리는 또한 Qwen2.5-VL-7B를 기반으로 우리가 신중하게 선별한 MMOral 지시 데이터셋을 사용하여 지도 미세 조정(SFT)을 수행하는 OralGPT를 제안합니다. 놀랍게도, 단일 에포크의 SFT는 LVLM에 상당한 성능 향상을 가져왔으며, 예를 들어 OralGPT는 24.73%의 개선을 보여주었습니다. MMOral과 OralGPT 모두 지능형 치과를 위한 중요한 기반이 되며, 치과 분야에서 더 임상적으로 영향력 있는 멀티모달 AI 시스템을 가능하게 할 잠재력을 가지고 있습니다. 데이터셋, 모델, 벤치마크 및 평가 도구는 https://github.com/isbrycee/OralGPT에서 이용할 수 있습니다.
수백만 토큰에 이르는 긴 컨텍스트 윈도우를 갖춘 장문 컨텍스트 언어 모델의 등장은 정교한 코드 이해와 소프트웨어 개발 평가를 위한 새로운 기회를 창출했습니다. 우리는 현실적이고 복잡한 소프트웨어 개발 시나리오에서 장문 컨텍스트 LLM(Long-Context Language Models)을 평가하기 위해 특별히 설계된 종합 벤치마크인 LoCoBench을 제안합니다. 단일 함수 완성이나 짧은 컨텍스트 작업에 초점을 맞춘 기존의 코드 평가 벤치마크와 달리, LoCoBench은 전체 코드베이스 이해, 여러 파일 간의 추론, 대규모 소프트웨어 시스템 전반의 아키텍처 일관성 유지 등 장문 컨텍스트 능력에 대한 중요한 평가 격차를 해소합니다. 우리의 벤치마크는 10개 프로그래밍 언어에 걸쳐 체계적으로 생성된 8,000개의 평가 시나리오를 제공하며, 컨텍스트 길이는 10K에서 1M 토큰까지 다양하게 설정되어 현실적인 소프트웨어 개발 환경에서 장문 컨텍스트 성능 저하를 정밀하게 평가할 수 있습니다. LoCoBench은 아키텍처 이해, 파일 간 리팩토링, 다중 세션 개발, 버그 조사, 기능 구현, 코드 이해, 통합 테스트, 보안 분석 등 필수적인 장문 컨텍스트 능력을 포착하는 8가지 작업 카테고리를 도입했습니다. 5단계 파이프라인을 통해 우리는 LLM이 전례 없는 규모의 복잡한 코드베이스에 대해 추론하도록 도전하는 다양하고 고품질의 시나리오를 생성합니다. 우리는 4개 차원에 걸친 17개 메트릭, 그중 8개는 새로운 평가 메트릭을 포함한 종합 평가 프레임워크를 소개하며, 이를 LoCoBench 점수(LCBS)로 통합합니다. 최첨단 장문 컨텍스트 모델에 대한 평가 결과, 복잡한 소프트웨어 개발에서의 장문 컨텍스트 이해는 상당한 성능 격차를 보이며, 이는 해결되지 않은 중요한 과제임을 입증합니다. LoCoBench은 https://github.com/SalesforceAIResearch/LoCoBench에서 공개되었습니다.
단일 카메라와 위상 지도만을 사용한 시각적 탐색은 최근 추가 센서와 3D 지도를 요구하는 방법들에 비해 매력적인 대안으로 부상하고 있습니다. 이는 일반적으로 현재 관측 이미지와 서브골(subgoal) 이미지 쌍을 통해 제어를 추정하는 "이미지 상대적(image-relative)" 접근 방식으로 달성됩니다. 그러나 세계를 이미지 수준으로 표현하는 방식에는 한계가 있는데, 이는 이미지가 에이전트의 자세와 구현 방식에 엄격하게 연결되어 있기 때문입니다. 반면, 객체는 지도의 속성으로서 구현 방식과 궤적에 불변적인 세계 표현을 제공합니다. 본 연구에서는 여러 가지 바람직한 특성을 보이는 "객체 상대적(object-relative)" 제어 학습의 새로운 패러다임을 제시합니다: a) 이전 경험을 엄격하게 모방할 필요 없이 새로운 경로를 탐색할 수 있으며, b) 제어 예측 문제를 이미지 매칭 문제 해결과 분리할 수 있고, c) 훈련-테스트 및 매핑-실행 설정 간의 변동에 대해 높은 불변성을 달성할 수 있습니다. 우리는 "상대적" 3D 장면 그래프 형태의 위상-기하학적(topometric) 지도 표현을 제안하며, 이를 통해 더 많은 정보를 제공하는 객체 수준의 전역 경로 계획 비용을 얻습니다. 우리는 "ObjectReact"라고 명명된 로컬 컨트롤러를 고수준의 "WayObject Costmap" 표현에 직접 조건화하여 명시적인 RGB 입력의 필요성을 제거합니다. 우리는 센서 높이 변동과 공간 이해 능력을 시험하는 다양한 탐색 작업(예: 지도 궤적을 역방향으로 탐색)에서 객체 상대적 제어 학습이 이미지 상대적 제어에 비해 갖는 장점을 입증합니다. 또한, 시뮬레이션 전용 정책이 실제 실내 환경으로 잘 일반화될 수 있음을 보여줍니다. 코드와 보충 자료는 프로젝트 페이지(https://object-react.github.io/)를 통해 확인할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)으로 대규모 언어 모델(LLM)을 미세 조정할 때 발생하는 주요 역설은 단일 시도 정확도(Pass@1)가 개선됨에도 불구하고 다중 시도 성능(Pass@k)이 자주 저하된다는 점입니다. 이는 종종 모델이 이전에 습득한 기술을 잃어버리는 치명적 망각(catastrophic forgetting)과 동반됩니다. 다양한 방법이 제안되었지만, 발산 항(divergence term)의 선택과 기능이 적극적인 해결책으로서 놀랍도록 간과되어 왔습니다. 우리는 표준 RLVR 목표 함수들—모드 탐색 역방향 KL-발산(reverse KL-divergence)을 사용하는 것들과 발산 항을 전혀 사용하지 않는 것들 모두—이 지식 보존을 위한 중요한 메커니즘을 결여하고 있다고 주장합니다. 역방향 KL-발산은 정책을 좁히면서 이러한 쇠퇴를 가속화하고, 발산 항의 부재는 모델이 다양한 지식 기반에서 이탈하는 것을 방지할 수 없습니다. 우리는 관점의 근본적인 전환을 제안합니다: 발산 항 자체를 해결책으로 사용하는 것입니다. 우리의 프레임워크인 다양성 보존 하이브리드 RL(Diversity-Preserving Hybrid RL, DPH-RL)은 순방향 KL-발산(forward-KL)과 JS-발산(JS-divergence)과 같은 질량-포괄적 f-발산(mass-covering f-divergences)을 활용하여 리허설 메커니즘으로 기능합니다. 초기 정책을 지속적으로 참조함으로써, 이 접근 방식은 모델이 광범위한 해결책을 유지하도록 강제합니다. 수학 및 SQL 생성에 대한 광범위한 실험을 통해 DPH-RL이 Pass@k 저하를 해결할 뿐만 아니라 도메인 내외에서 Pass@1과 Pass@k 모두를 개선함을 입증했습니다. 또한, DPH-RL은 생성자 함수(generator functions)를 사용하여 f-발산을 계산하기 때문에 초기 정책에서만 샘플링이 필요하고 온라인 참조 모델이 필요하지 않아 더 효율적으로 학습됩니다. 우리의 연구는 RLVR을 개선하기 위한 중요한 간과된 축을 강조하며, 적절한 발산 측정 선택이 더 일반적이고 다양한 추론 모델을 구축하기 위한 강력한 도구임을 입증합니다.
학계에서 제안된 취약점 탐지를 위한 딥러닝 솔루션은 개발자들이 항상 접근할 수 있는 것은 아니며, 산업 현장에서의 적용 가능성은 거의 다루어지지 않습니다. 이러한 기술을 학계에서 산업계로 이전하는 과정에서는 신뢰성, 레거시 시스템, 제한된 디지털 리터러시, 그리고 학계와 산업계 간의 전문성 차이와 관련된 도전 과제들이 존재합니다. 특히 딥러닝의 경우, 성능과 기존 워크플로우에의 통합이 추가적인 고려 사항입니다. 본 연구에서는 먼저 산업용 및 오픈소스 소프트웨어에서 취약한 함수를 탐지하기 위한 CodeBERT의 성능을 평가합니다. 우리는 오픈소스 데이터로 미세 조정된 모델을 산업용 데이터로 테스트하고, 그 반대의 경우도 분석하며, 클래스 불균형을 처리하기 위한 전략도 탐구합니다. 이러한 결과를 바탕으로, 우리는 AI-DO(Automating vulnerability detection Integration for Developers' Operations)를 개발했습니다. 이는 CI/CD(지속적 통합-지속적 배포)와 통합된 추천 시스템으로, 미세 조정된 CodeBERT를 사용하여 코드 리뷰 중에 워크플로우를 방해하지 않으면서 취약점을 탐지하고 위치를 파악합니다. 마지막으로, 우리는 회사의 IT 전문가들을 대상으로 한 설문을 통해 이 도구의 인지된 유용성을 평가합니다. 우리의 결과는 산업용 데이터로 훈련된 모델이 동일한 도메인 내에서 취약점을 정확하게 탐지하지만, 오픈소스 코드에서는 성능이 저하되는 반면, 적절한 언더샘플링 기법을 사용하여 오픈 데이터로 미세 조정된 딥러닝 모델이 취약점 탐지를 개선함을 보여줍니다.
다중모달 추천 시스템은 전자상거래 및 콘텐츠 플랫폼을 위한 기반 기술로 점차 자리 잡고 있으며, 사용자의 과거 행동과 아이템의 다중모달 특성(예: 시각적 및 텍스트적)을 공동으로 모델링하여 개인화된 서비스를 가능하게 합니다. 그러나 기존의 대부분의 방법은 정적 융합 전략이나 그래프 기반의 지역적 상호작용 모델링에 의존하며, 두 가지 중요한 한계에 직면해 있습니다: (1) 세밀한 교차모달 연관성을 모델링하는 능력이 부족하여 최적의 융합 품질을 달성하지 못함; (2) 전역 분포 수준의 일관성이 부족하여 표현적 편향이 발생함. 이를 해결하기 위해, 우리는 주의 기반 학습을 통해 지역적 특징 정렬과 전역 분포 정규화를 통합한 새로운 프레임워크인 MambaRec을 제안합니다. 핵심적으로, 우리는 다중 스케일 확장 컨볼루션과 채널별 및 공간적 주의를 사용하여 시각적 및 텍스트적 모달리티 간의 세밀한 의미 패턴을 정렬하는 Dilated Refinement Attention Module (DREAM)을 도입했습니다. 이 모듈은 계층적 관계와 문맥 인식 연관성을 포착하여 교차모달 의미 모델링을 개선합니다. 또한, 우리는 전역 모달리티 정렬을 제약하기 위해 Maximum Mean Discrepancy (MMD)와 대조 손실 함수를 적용하여 의미 일관성을 강화합니다. 이 이중 정규화는 모드별 편차를 줄이고 견고성을 높입니다. 확장성을 개선하기 위해, MambaRec은 고차원 다중모달 특징의 계산 비용을 낮추기 위한 차원 축소 전략을 사용합니다. 실제 전자상거래 데이터셋에 대한 광범위한 실험 결과, MambaRec은 융합 품질, 일반화 및 효율성 측면에서 기존 방법을 능가하는 성능을 보여줍니다. 우리의 코드는 https://github.com/rkl71/MambaRec에서 공개되었습니다.
우리 팀 'All You Need Is A Fuzzing Brain'은 DARPA의 인공지능 사이버 챌린지(AIxCC)에서 7개 최종 팀 중 하나로 선정되어 결승전에서 4위를 차지했습니다. 대회 기간 동안 우리는 실제 오픈소스 C 및 Java 프로젝트에서 28개의 보안 취약점(이 중 6개는 이전에 알려지지 않은 제로데이 취약점 포함)을 자동으로 탐지하고, 이 중 14개를 성공적으로 패치한 사이버 추론 시스템(CRS)을 개발했습니다. 전체 CRS는 https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain에서 오픈소스로 공개되어 있습니다. 본 논문은 우리의 CRS에 대한 상세한 기술 설명을 제공하며, 특히 LLM(대형 언어 모델) 기반 구성 요소와 전략에 중점을 둡니다. AIxCC를 기반으로, 우리는 AIxCC 데이터셋에서 도출된 취약점 탐지 및 패치 작업에 대한 최신 LLM 벤치마킹을 위한 공개 리더보드를 추가로 소개합니다. 이 리더보드는 https://o2lab.github.io/FuzzingBrain-Leaderboard/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)을 대상으로 한 데이터 중독 공격에 대한 초기 연구는 백도어를 쉽게 주입할 수 있음을 보여주었다. 최근의 LLM은 단계별 추론 기능을 추가함으로써 공격 표면을 확장시켰는데, 이는 문제를 하위 문제로 분해하는 사고의 연쇄(CoT)와 그 고유 특성을 포함한다. 이러한 벡터를 활용해 더 은밀한 중독 공격을 위해, 우리는 "분해된 추론 중독"을 제안한다. 이 공격에서는 공격자가 프롬프트와 최종 답변은 그대로 두고 추론 경로만 수정하며, 트리거를 여러 개의 개별적으로 무해한 구성 요소로 분할한다. 흥미롭게도, 이러한 분해된 중독을 주입하는 것은 가능하지만, 최종 답변을 변경하기 위해 이를 안정적으로 활성화하는 것은 놀랍도록 어렵다. 이러한 어려움은 모델이 사고 과정 내에서 활성화된 백도어로부터 종종 회복할 수 있기 때문에 발생한다. 궁극적으로, 이러한 고급 LLM의 추론 능력과 추론과 최종 답변 생성 간의 구조적 분리로 인해 백도어 견고성의 새로운 형태가 나타나고 있는 것으로 보인다.