번역이 포함된 일일 선별된 AI 연구 논문
우리는 모든 활성화가 추론 능력을 향상시킨다는 원칙에 기반하여 구축된 시리즈 추론 지향 언어 기반인 Ling 2.0을 소개한다. 통합 MoE(Mixture-of-Experts) 패러다임 아래에서 수백억 개에서 1조 개의 매개변수로 확장되도록 설계된 Ling 2.0은 실증적 확장 법칙에 기반한 높은 희소성, 크로스-스케일 일관성 및 효율성을 강조한다. 이 시리즈는 160억 개에서 1조 개의 총 매개변수를 가지며 조밀한(dense) 대조 모델 대비 최대 7배의 활성 연산 효율성을 달성하는 3개의 논-씽킹(non-thinking) 인스트럭트(instruct) 모델(Ling-mini-2.0, Ling-flash-2.0, Ling-1T)을 포함한다. Ling 2.0은 모델 아키텍처, 사전 학습, 사후 학습 및 인프라 전반에 걸친 협조적인 혁신을 통합한다: 효율적인 추론을 위한 MTP를 적용한 고희소성 MoE, 추론 지향 데이터 및 미드-트레이닝(mid-training) CoT 활성화, 강화 학습 기반 미세 조정(DFT, Evo-CoT), 세분화된 이기종 파이프라인을 통한 전구간 FP8 학습이 그것이다. 1조 규모에서 Ling-1T는 추론 정확도 대 computational 효율성의 새로운 파레토 프론티어를 수립하며, 희소 활성화가 추론 목표와 적절히 결합될 때 확장 가능하고 효율적인 지능을 가능하게 함을 입증한다. 종합적으로, Ling 2.0은 동일한 기반 위에 구축된 Ring 시리즈를 포함한 미래 추론 및 사고 모델 발전을 위한 일관되고 개방적이며 효율적인 기반을 제공한다.
생성 모델(예: Diffusion Policy)로 매개변수화된 암묵적 정책은 로봇공학의 정책 학습 및 시각-언어-행동(VLA) 모델의 표준으로 자리잡았습니다. 그러나 이러한 접근법은 높은 계산 비용, 노출 편향, 불안정한 추론 동역학으로 인해 종종 어려움을 겪으며, 분포 변화에서 발산을 초래합니다. 에너지 기반 모델(EBM)은 종단간 에너지 지형을 학습하고 평형 동역학을 모델링하여 이러한 문제를 해결하며, 향상된 강건성과 감소된 노출 편향을 제공합니다. 하지만 EBM으로 매개변수화된 정책은 역사적으로 효과적으로 확장되는 데 어려움을 겪어왔습니다. 에너지 기반 트랜스포머(EBT)에 대한 최근 연구는 EBM의 고차원 공간으로의 확장성을 입증했지만, 물리적 구현 모델의 핵심 과제 해결을 위한 잠재력은 충분히 탐구되지 않았습니다. 우리는 로봇 및 실제 환경의 핵심 문제를 해결하는 새로운 에너지 기반 아키텍처인 EBT-Policy를 소개합니다. 시뮬레이션 및 실제 작업 전반에 걸쳐 EBT-Policy는 확산 기반 정책을 지속적으로 능가하면서도 더 적은 훈련 및 추론 계산을 필요로 합니다. 특히, 일부 작업에서는 단 두 번의 추론 단계만으로 수렴하며, 이는 Diffusion Policy의 100단계에 비해 50배 감소한 수치입니다. 더 나아가, EBT-Policy는 명시적인 재시도 훈련 없이 순수한 행동 복제만을 사용하여 실패한 동작 시퀀스로부터의 제로샷 복구와 같이 기존 모델에서는 볼 수 없었던 새로운 능력을 나타냅니다. 스칼라 에너지를 활용한 불확실성 인식 추론 및 동적 계산 할당을 통해 EBT-Policy는 분포 변화 하에서 강건하고 일반화 가능한 로봇 행동을 위한 유망한 길을 제시합니다.
테스트 타임 스케일링(TTS)은 추론 과정에서 병렬, 순차 또는 하이브리드 스케일링 방식을 통해 추가적인 계산 자원을 할당함으로써 대규모 언어 모델(LLM)의 성능을 향상시킵니다. 그러나 기존 연구들은 고정된 협업 구조(예: 토폴로지)와 단일 모델 사용을 전제로 하는 경우가 많아, 작업에 따라 최적의 구조와 모델 조합이 달라질 수 있다는 점을 간과했습니다. 이에 본 연구는 고정된 예산 하에서 TTS 환경에서 계산적으로 최적인 모델 조합과 구조를 탐색하는 새로운 문제를 다룹니다. 우리는 이를 노드가 역할과 LLM 모델 할당을 인코딩하고, 에지가 정보 흐름을 포착하는 다중 LLM 협업 그래프로 형식화합니다. 이 문제는 (i) 조합적 탐색 공간이 매우 크고, (ii) 작업별 요구사항에 맞춤형 설계가 필요하기 때문에 해결이 어렵습니다. 이를 해결하기 위해 우리는 이 문제를 확률적 그래프 최적화 문제로 재정의하고, 파일럿 실험을 통해 TTS 협업 그래프에 대한 세 가지 경험적 통찰을 도출합니다. 이러한 통찰을 바탕으로 우리는 Agent-REINFORCE를 제안합니다. 이는 샘플링-기울기-갱신 과정을 샘플링-피드백-갱신 과정으로 매핑하여 REINFORCE 파이프라인을 모방한 LLM 에이전트 기반 프레임워크로, 피드백은 텍스트 기반 기울기 역할을 하여 확률적 그래프를 갱신하고 최적의 다중 LLM 협업 그래프를 효율적으로 탐색합니다. 실험 결과, Agent-REINFORCE는 샘플 효율성과 탐색 성능에서 기존 방식 및 LLM 기반 베이스라인을 능가하며, 정확도와 추론 지연 시간이라는 복합 목표 하에서 최적의 그래프를 효과적으로 찾아냅니다.
물리 AI를 위한 코스모스 월드 파운데이션 모델의 최신 세대인 [Cosmos-Predict2.5]를 소개합니다. 플로우 기반 아키텍처를 기반으로 구축된 [Cosmos-Predict2.5]는 Text2World, Image2World, Video2World 생성 기능을 단일 모델로 통합하고, 물리 AI 비전-언어 모델인 [Cosmos-Reason1]을 활용하여 더 풍부한 텍스트 기반 설명과 더 정교한 세계 시뮬레이션 제어를 제공합니다. 2억 개의 정제된 동영상 클립으로 학습되고 강화 학습 기반 사후 훈련으로 개선된 [Cosmos-Predict2.5]는 동영상 품질과 지시 사항 준수 측면에서 [Cosmos-Predict1] 대비 상당한 향상을 이루었으며, 20억 및 140억 규모의 모델이 공개됩니다. 이러한 능력은 로봇공학 및 자율 시스템을 위한 더 안정적인 합성 데이터 생성, 정책 평가 및 폐루프 시뮬레이션을 가능하게 합니다. 우리는 Sim2Real 및 Real2Real 세계 변환을 위한 컨트롤넷 스타일 프레임워크인 [Cosmos-Transfer2.5]를 추가로 공개하며 패밀리를 확장합니다. [Cosmos-Transfer1]보다 3.5배 작은 규모임에도 불구하고, 더 높은 정확도와 강력한 장기간 동영상 생성을 제공합니다. 이러한 발전을 통해 [Cosmos-Predict2.5]와 [Cosmos-Transfer2.5]는 구현형 지능 확장을 위한 다목적 도구로 자리매김합니다. 물리 AI 분야의 연구 및 배포 가속화를 위해 NVIDIA 오픈 모델 라이선스 하에 소스 코드, 사전 학습된 체크포인트 및 정제된 벤치마크를 https://github.com/nvidia-cosmos/cosmos-predict2.5와 https://github.com/nvidia-cosmos/cosmos-transfer2.5에서 공개합니다. 이러한 오픈 리소스가 차세대 구현형 지능 구축에 대한 접근 장벽을 낮추고 혁신을 촉진하기를 바랍니다.
최근 멀티모달 생성 모델의 발전으로 이미지 편집 기술이 크게 향상되었습니다. 그러나 현재의 생성 모델은 암묵적 추론을 요구하는 다양하고 복잡한 이미지 편집 작업을 다루는 데 여전히 어려움을 겪고 있으며, 이는 다양한 추론 시나리오에서의 성능을 체계적으로 평가하기 위한 포괄적인 벤치마크의 필요성을 강조합니다. 기존 벤치마크는 주로 현실적 시나리오에서의 단일 객체 속성 변환에 초점을 맞추고 있으며, 이는 효과적이지만 두 가지 주요 과제에 직면합니다: (1) 실제 응용에서 흔히 나타나는 다중 객체 상호작용과 인간이 정의한 규칙이 포함된 게임 세계 시나리오를 크게 간과한다는 점; (2) 생성된 이미지를 평가하는 데 텍스트 참조만을 의존하여 특히 복잡한 추론 시나리오에서 체계적인 오판으로 이어질 수 있다는 점. 이를 위해 본 연구에서는 추론 기반 이미지 편집 평가를 위한 통합 벤치마크인 UniREditBench를 제안합니다. 이 벤치마크는 8개 주요 차원과 18개 하위 차원에 걸쳐 현실 세계와 게임 세계 시나리오를 모두 아우르는 2,700개의 정교하게 선별된 샘플로 구성됩니다. 평가 신뢰성을 향상시키기 위해 각 샘플 평가에 텍스트 참조와 실제 이미지 참조를 모두 제공하는 멀티모달 이중 참조 평가 방식을 도입했습니다. 더 나아가 자동화된 다중 시나리오 데이터 합성 파이프라인을 설계하고 고품질 사고 연쇄(CoT) 추론 주석이 포함된 대규모 합성 데이터셋인 UniREdit-Data-100K를 구축했습니다. 이 데이터셋으로 Bagel 모델을 미세 조정하여 UniREdit-Bagel을 개발했으며, 인-도메인 및 분포 외 설정에서 모두 상당한 성능 향상을 입증했습니다. 오픈소스와 클로즈드소스 이미지 편집 모델에 대한 철저한 벤치마킹을 통해 다양한 측면에서 각 모델의 강점과 약점을 규명했습니다.
재조명(Relighting)은 실용적 수요와 예술적 가치를 모두 지닌 중요한 과제이며, 최근 확산 모델은 풍부하고 제어 가능한 조명 효과를 구현하며 강력한 잠재력을 보여주고 있습니다. 그러나 이러한 모델들은 일반적으로 의미론적 잠재 공간에서 최적화되며, 이 공간에서의 근접성이 시각 공간에서의 물리적 정확성을 보장하지 않기 때문에 과다 노출된 하이라이트, 잘못 정렬된 그림자, 부정확한 폐색과 같은 비현실적인 결과를 종종 생성합니다. 우리는 이러한 문제를 UniLumos로 해결합니다. UniLumos는 이미지와 비디오를 위한 통합 재조명 프레임워크로, RGB 공간의 기하학적 피드백을 플로우 매칭 백본에 통합합니다. 모델의 출력에서 추출된 깊이 맵과 법선 맵으로 모델을 지도함으로써, 우리는 조명 효과를 장면 구조와 명시적으로 정렬하여 물리적 타당성을 향상시킵니다. 그러나 이러한 피드백은 시각 공간에서 지도를 위한 고품질 출력을 필요로 하여 표준적인 다단계 노이즈 제거 방식은 계산 비용이 매우 큽니다. 이를 완화하기 위해 우리는 경로 일관성 학습(Path Consistency Learning)을 채택하여 적은 단계의 학습 환경에서도 지도가 효과적으로 유지되도록 합니다. 세밀한 재조명 제어와 지도를 가능하게 하기 위해, 우리는 핵심 조명 속성을 포착하는 구조화된 6차원 주석 프로토콜을 설계했습니다. 이를 기반으로 우리는 LumosBench를 제안합니다. LumosBench는 분리된 속성 수준 벤치마크로, 대규모 시각-언어 모델을 통해 조명 제어 능력을 평가하며 개별 차원에 걸친 재조명 정밀도의 자동적이고 해석 가능한 평가를 가능하게 합니다. 광범위한 실험을 통해 UniLumos가 물리적 일관성을 크게 개선한 최첨단 재조명 품질을 달성하는 동시에 이미지 및 비디오 재조명 속도를 20배 가속화함을 입증했습니다. 코드는 https://github.com/alibaba-damo-academy/Lumos-Custom에서 확인할 수 있습니다.
그래프 신경망은 하향식 메시지 전달 방식으로 작동하며, 직관적으로 전역 구조를 먼저 포착하는 인간의 시각 인식과 근본적으로 다릅니다. 우리는 그래프 이해를 위한 비전 모델의 저평가된 잠재력을 조사했으며, 이들이 기존 벤치마크에서 GNN에 버금가는 성능을 달성하면서도 뚜렷이 다른 학습 패턴을 보인다는 사실을 발견했습니다. 이러한 상이한 행동 양상과, 도메인 특성과 위상적 이해를 혼동하는 기존 벤치마크의 한계를 바탕으로 우리는 GraphAbstract를 도입했습니다. 이 벤치마크는 인간처럼 조직 원형을 인식하고, 대칭성을 탐지하며, 연결성 강도를 감지하고, 핵심 요소를 식별하는 등 전역 그래프 속성을 인지하는 모델의 능력을 평가합니다. 우리의 결과는 비전 모델이 전체론적 구조 이해가 필요한 작업에서 GNN을 크게 능가하며 다양한 그래프 규모에 걸쳐 일반화 능력을 유지하는 반면, GNN은 전역 패턴 추상화에 어려움을 겪고 그래프 크기가 증가함에 따라 성능이 저하됨을 보여줍니다. 본 연구는 비전 모델이 특히 전역 위상 인식과 규모 불변 추론이 필요한 문제에 대해 그래프 구조 이해를 위한 놀랍고도 활용되지 않은 능력을 지니고 있음을 입증합니다. 이러한 발견은 전체론적 패턴 인식이 지배적인 과업을 위한 더 효과적인 그래프 파운데이션 모델 개발에 이 저평가된 잠재력을 활용할 새로운 방향을 제시합니다.
대규모 추론 모델(LRMs)은 복잡한 추론에서 강력한 능력을 보이지만, 증거에 의존하는 사실적 질문에 대한 한계적 성능 향상은 제한적입니다. 우리는 이러한 한계가 부분적으로 '추론-답변 간극'에 기인함을 발견했는데, 이는 모델이 추론 과정 중에는 올바른 사실을 식별하지만 최종 응답에 이를 반영하지 못하여 사실적 정확도를 낮추는 현상입니다. 이러한 문제를 해결하기 위해 우리는 외부 검증 도구에 의존하지 않으면서 사실성을 향상시키는 메타-추론 기반 조정 프레임워크인 MR-ALIGN을 제안합니다. MR-ALIGN은 모델의 사고 과정을 따라 상태 전이 확률을 정량화하고, 원자적 사고 단계에서 유익한 추론 패턴을 강화하면서 결함 있는 패턴을 억제하는 전이 인식 암묵적 보상을 구성합니다. 이러한 재가중은 토큰 수준 신호를 확률 인식 세그먼트 점수로 변형하여 사실적 정확성에 더 부합하는 일관된 추론 궤적을 장려합니다. 4개의 사실적 질의응답 데이터셋과 1개의 장문 사실성 벤치마크에서 진행한 실험 평가 결과, MR-ALIGN이 오류 가능성을 줄이면서 정확도와 진실성을 지속적으로 향상시키는 것으로 나타났습니다. 이러한 결과는 출력 결과뿐만 아니라 추론 과정 자체를 조정하는 것이 LRMs의 사실성 향상에 핵심적임을 보여줍니다.
통합 멀티모달 모델(UMMs)은 텍스트와 이미지 이해 및 생성을 원활하게 통합하는 강력한 패러다임으로 부상했습니다. 그러나 기존 평가 방식은 이러한 능력을 분리하여 접근하는데, 멀티모달 입출력을 수반하는 과제도 단일 모드 추론을 통해 주로 평가됩니다. 즉, 텍스트 기반 벤치마크는 언어적 추론을 강조하는 반면, 시각 벤치마크는 픽셀에 나타난 추론 결과를 중점적으로 평가합니다. 본 연구은 통합 멀티모달 인텔리전스의 핵심 능력인 한 모달리티를 사용해 다른 모달리티의 출력을 안내, 검증 또는 개선하는 상호 교차 모달 추론을 평가할 시급한 필요를 해결하기 위해 ROVER를 소개합니다. ROVER는 상호 교차 모달 추론을 명시적으로 대상으로 하는 인간 주석 벤치마크로, 1876개 이미지에 기반한 1312개 과제를 포함하며 두 가지 상호 보완적 설정을 포괄합니다. 시각 생성을 위한 언어적 증강 추론은 모델이 언어 프롬프트와 추론 체인을 사용하여 정확한 이미지 합성을 안내할 수 있는지 평가합니다. 언어 생성을 위한 시각적 증강 추론은 모델이 질의응답을 위한 자체 추론 과정을 강화하는 중간 시각화를 생성할 수 있는지 평가합니다. 17개 통합 모델에 대한 실험은 두 가지 핵심 결과를 보여줍니다: (i) 교차 모달 추론이 시각 생성 품질을 결정하며, 인터리빙 모델이 비인터리빙 모델을 크게 앞섭니다. 특히 강력한 단일 모달 모델들을 결합해도 비교 가능한 추론 성능을 달성하지 못합니다. (ii) 모델들은 물리적 추론과 상징적 추론 간 분리 현상을 보입니다: 지각적 개념을 문자 그대로 해석하는 데는 성공하지만 상징적 과제를 위한 시각적 추상화를 구성하는 데 실패하며, 이때 결함 있는 추론이 성능을 저해합니다. 이러한 결과는 진정한 범모달 생성을 가능하게 하는 중요한 최전선으로서 상호 교차 모달 추론의 중요성을 부각시킵니다.
모션 모방은 휴머노이드 로코모션에 유망한 접근법으로, 에이전트가 인간과 유사한 행동을 습득할 수 있게 합니다. 기존 방법은 일반적으로 AMASS와 같은 고품질 모션 캡처 데이터셋에 의존하지만, 이는 수가 부족하고 비용이 많이 들어 확장성과 다양성이 제한됩니다. 최근 연구에서는 Humanoid-X와 같이 대규모 인터넷 비디오를 변환하여 데이터 수집 규모를 확대하려는 시도가 이루어지고 있습니다. 그러나 이러한 방법들은 부유(foating), 관통(penetration), 발 미끄러짐(foot skating)과 같은 물리적 아티팩트를 종종 유발하여 안정적인 모방을 방해합니다. 이에 대응하여 우리는 대규모 인간 비디오를 활용하면서도 신중한 데이터 정제와 물리 법칙을 고려한 리타겟팅을 통해 물리적 아티팩트를 해결한 PHUMA(Physically-grounded HUMAnoid locomotion dataset)를 소개합니다. PHUMA는 관절 가동 범위를 준수하고 지면 접촉을 보장하며 발 미끄러짐을 제거하여 대규모이면서 물리적으로 신뢰할 수 있는 동작을 생성합니다. 우리는 PHUMA를 두 가지 조건에서 평가했습니다: (i) 자체 촬영한 테스트 비디오의 보지 못한 동작 모방 및 (ii) 골반만을 이용한 경로 추종. 두 경우 모두 PHUMA로 학습된 정책이 Humanoid-X와 AMASS를 능가하며 다양한 동작 모방에서 상당한 향상을 달성했습니다. 코드는 https://davian-robotics.github.io/PHUMA에서 확인할 수 있습니다.
현재의 동작 조건 기반 비디오 생성 방법은 실시간 상호작용을 방해하는 높은 지연 시간(비디오 당 수 분)과 비인과적 처리 문제를 겪고 있습니다. 우리는 단일 GPU에서 최대 29 FPS의 스트리밍 생성과 함께 1초 미만의 지연 시간을 가능하게 하는 MotionStream을 제시합니다. 우리의 접근 방식은 먼저 동작 제어를 통해 텍스트-비디오 모델을 증강시켜 전역 텍스트 프롬프트와 지역 동작 안내를 따르는 고품질 비디오를 생성하지만, 온더플라이 추론은 수행하지 않는 것으로 시작합니다. 이를 위해 우리는 Self Forcing with Distribution Matching Distillation을 통해 이 양방향 교사 모델을 인과적 학생 모델로 지식 증류하여 실시간 스트리밍 추론을 가능하게 합니다. 길거나 무한한 시간 범위의 비디오를 생성할 때 몇 가지 주요 과제가 발생합니다: (1) 유한 길이 훈련과 무한 범위 외삽 간의 도메인 간극 해결, (2) 오류 누적 방지를 통한 고품질 유지, (3) 증가하는 컨텍스트 윈도우로 인한 계산 비용 증가 없이 빠른 추론 속도 유지. 우리 접근법의 핵심은 신중하게 설계된 슬라이딩-윈도우 인과적 어텐션과 어텐션 싱크를 결합하는 것입니다. 훈련 중 어텐션 싱크와 KV 캐시 롤링을 통한 자가 롤아웃을 도입하여 고정된 컨텍스트 윈도우로 추론 시간 외삽을 적절히 시뮬레이션함으로써 임의의 길이를 가진 비디오의 일정 속도 생성을 가능하게 합니다. 우리 모델은 동작 추종과 비디오 품질에서 최첨단 결과를 달성하면서도 생성 속도는 두 배 수준으로 빠르며, 무한 길이 스트리밍을 유일하게 가능하게 합니다. MotionStream을 통해 사용자는 궤적을 그리거나, 카메라를 제어하거나, 동작을 전송하고 그 결과가 실시간으로 펼쳐지는 것을 볼 수 있어 진정한 상호작용 경험을 제공합니다.
우리는 5,600억 개의 매개변수를 가진 최첨단 오픈소스 올모달 모델인 LongCat-Flash-Omni를 소개하며, 이 모델은 실시간 오디오-비주얼 상호작용에서 탁월한 성능을 발휘합니다. 단순한 작업에서 점차 복잡한 모달리티 시퀀스 모델링 작업으로 전환하는 커리큘럼에서 영감을 받은 점진적 학습 전략을 채택함으로써, LongCat-Flash-Omni는 강력한 단일 모달 능력을 유지하면서 포괄적인 다중모달 능력을 획득했습니다. 계산 비용이 없는 전문가를 활용한 고성능 단축 연결 MoE(전문가 혼합) 아키텍처를 차용한 LongCat-Flash를 기반으로, LongCat-Flash-Omni는 효율적인 다중모달 인식 및 음성 재구성 모듈을 통합했습니다. 5,600억 개라는 거대한 매개변수 규모(활성화 매개변수 270억 개)에도 불구하고, LongCat-Flash-Omni는 낮은 지연 시간의 실시간 오디오-비주얼 상호작용을 달성합니다. 학습 인프라 측면에서는 대규모 다중모달 학습에 내재된 데이터 및 모델 이질성을 관리하기 위해 특별히 설계된 모달리티 분리 병렬화 방식을 개발했습니다. 이 혁신적인 접근법은 텍스트 전용 학습으로 달성한 처리량의 90% 이상을 유지함으로써 탁월한 효율성을 입증합니다. 광범위한 평가를 통해 LongCat-Flash-Omni가 오픈소스 모델 중 올모달 벤치마크에서 최첨단 성능을 달성함을 확인했습니다. 더 나아가 텍스트, 이미지, 비디오 이해는 물론 오디오 이해 및 생성에 이르기까지 다양한 모달리티별 작업에서 매우 경쟁력 있는 결과를 제공합니다. 본 논문에서는 모델 아키텍처 설계, 학습 절차, 데이터 전략에 대한 포괄적인 개요를 제공하며, 커뮤니티의 향후 연구 및 개발을 촉진하기 위해 모델을 오픈소스로 공개합니다.
최근 대규모 언어 모델(LLM)은 외부 도구와의 자율적 통합을 통해 협력적 추론을 수행하며 뛰어난 문제 해결 능력을 입증했습니다. 그러나 다중 양식 정보의 본질적으로 복잡하고 다양한 특성으로 인해, 다중 양식 대규모 언어 모델(MLLM)이 추론 과정에서 외부 도구를 유연하고 효율적으로 활용하도록 만드는 것은 아직 충분히 탐구되지 않은 과제로 남아 있습니다. 본 연구에서는 장기간 시각 질의응답(VQA) 과제에서 시각적 문맥 저하를 완화하기 위해 전용 Perceive 도구를 도입하여 전역 계획과 지역적 다중 양식 인식을 통합하는 에이전트 프레임워크인 ToolScope를 소개합니다. ToolScope는 글로벌 네비게이터, 에이전트 실행기, 응답 통합기의 세 가지 주요 구성 요소로 이루어집니다. 글로벌 네비게이터는 "망원경" 역할을 하여 높은 수준의 전략적 지침을 제공합니다. 에이전트 실행기는 Search, Code, Perceive라는 외부 도구 통합을 통해 지역적 인식으로 MLLM의 능력을 반복적으로 증강합니다. 마지막으로 응답 통합기는 추론 과정을 통합하고 일관성 있으며 사용자 친화적인 출력으로 구성합니다. 우리는 VQA 2.0, ScienceQA, MAT-Search, MathVista를 포함한 다양한 분야의 4개 VQA 벤치마크에서 ToolScope를 평가했습니다. 이를 통해 모든 데이터셋에서 최대 +6.69%의 평균 성능 향상을 달성하며 강력한 일반화 능력을 입증했습니다.
검증 가능한 보상을 위한 주석 처리된 데이터셋에 의존하는 강화 학습 기반 대규모 언어 모델(LLM) 추론의 최근 발전은 인간 수준 성능을 초월하는 모델의 능력을 제한할 수 있습니다. 셀프 플레이는 유망한 대안을 제공하지만, 기존 접근법은 외부 검증자에 의존하거나 개방형 학습이 불가능합니다. 본 연구에서는 LLM이 외부 지도 없이 교사와 학생 역할을 교대로 수행하여 새로운 문제를 생성하고 해결하는 방법을 학습하는 셀프 플레이 프레임워크인 Open-Ended Self-Improving Reasoner(OpenSIR)를 제안합니다. 새로운 문제를 생성하기 위해 OpenSIR는 적절한 수준의 도전을 제공하면서 독립적인 개념을 탐구하는 문제에 보상을 부여하여 난이도와 다양성을 함께 최적화함으로써 개방형 수학적 발견을 가능하게 합니다. 단일의 단순한 시드 문제에서 시작하여 OpenSIR는 지시 모델을 크게 향상시켰습니다: Llama-3.2-3B-Instruct는 GSM8K에서 73.9에서 78.3으로, College Math에서 28.8에서 34.4로 발전했으며, Gemma-2-2B-Instruct는 GSM8K에서 38.5에서 58.7로 상승했습니다. 우리의 분석은 OpenSIR가 난이도를 적응적으로 조정하고 다양한 탐색을 주도하는 공동 진화하는 교사-학생 역할을 통해 개방형 학습을 달성하며, 기초 수학에서 고급 수학으로 자율적으로 진전함을 보여줍니다.
현재의 비디오 검색 패러다임은 구조적으로 정렬이 잘못되었습니다. 제한된 벤치마크가 그에 상응하는 한정된 데이터와 단일 작업 학습을 부추기기 때문입니다. 따라서 다차원적 일반화를 정의하고 요구하는 진단적 평가가 부재하여 보편적 능력이 억제되고 있습니다. 이러한 악순환을 깨기 위해 우리는 평가, 데이터, 모델링의 공동 설계 위에 구축된 프레임워크를 소개합니다. 먼저, 성능 측정뿐만 아니라 작업 및 도메인 간 중요한 능력 격차를 진단하도록 설계된 16개 데이터 세트 모음인 범용 비디오 검색 벤치마크(UVRB)를 확립했습니다. 둘째, UVRB의 진단을 바탕으로 보편성에 필요한 의미 공간을 채우기 위해 155만 개의 고품질 쌍을 생성하는 확장 가능한 합성 워크플로를 도입했습니다. 마지막으로, 다양한 데이터 내의 잠재적 상호 연결을 명시적으로 활용하여 우리의 일반 비디오 임베더(GVE)를 훈련시키는 커리큘럼인 모달리티 피라미드를 고안했습니다. 폭넓은 실험 결과 GVE가 UVRB에서 최첨단 제로샷 일반화 성능을 달성함을 보여줍니다. 특히 우리의 분석은 인기 있는 벤치마크가 일반 능력을 예측하는 데 취약하며, 부분적으로 관련된 검색이 지배적이지만 간과된 시나리오임을 밝혀냅니다. 전반적으로, 우리의 공동 설계 프레임워크는 제한된 범위를 벗어나 진정한 범용 비디오 검색으로 나아가는 실용적인 길을 제시합니다.
시각적 추론의 최전선은 OpenAI o3와 같은 모델로 이동하고 있으며, 이러한 모델은 문제 해결을 위해 이미지를 변환하는 도구를 지능적으로 생성하고 조작할 수 있습니다. 이는 사고 연쇄 과정에서의 '이미지 활용 사고'라고도 알려져 있습니다. 그러나 기존 벤치마크는 이러한 고급 능력을 완전히 포착하지 못하고 있습니다. 현재 이미지 활용 사고 방법론을 평가하는 가장 일반적인 벤치마크인 Visual Search 조차도 위치 특정 및 크롭과 같은 기본적인 연산만 테스트할 뿐, 더 복잡하고 동적이며 도구에 의존적인 추론 능력에 대한 통찰을 거의 제공하지 않습니다. 본 연구에서는 13가지 다양한 작업에 걸쳐 에이전트형 이미지 활용 사고를 평가하는 포괄적인 벤치마크인 TIR-Bench를 소개합니다. 각 작업은 사고 연쇄 과정에서 이미지 처리 및 조작을 위한 새로운 도구 사용을 요구합니다. 우리는 선도적인 오픈소스 및 독점 모델부터 명시적 도구 사용 강화 모델에 이르기까지 22개의 다중模态 대규모 언어 모델(MLLM)을 평가했습니다. 결과에 따르면 TIR-Bench는 보편적으로 어려운 벤치마크이며, 높은 성능을 달성하려면 진정한 이미지 활용 사고 능력이 필요함을 보여줍니다. 마지막으로, 직접 미세 조정과 에이전트형 미세 조정을 비교한 예비 연구를 제시합니다.
비전-언어 모델은 다양한 작업과 시나리오에서 전례 없는 성능과 일반화 능력을 보여줍니다. 이러한 기초 모델을 로봇 항법 시스템에 통합하면 범용 로봇 개발을 위한 길이 열립니다. 그러나 이러한 모델의 항법 능력을 평가하는 것은 비용이 많이 드는 실세계 실험, 지나치게 단순화된 시뮬레이션, 그리고 제한된 벤치마크로 인해 여전히 제약을 받고 있습니다. 우리는 NaviTrace를 소개합니다. 이는 모델이 지시어와 구현체 유형(인간, 다족 보행 로봇, 바퀴형 로봇, 자전거)을 입력받고 이미지 공간에서 2D 항법 경로를 출력해야 하는 고품질 시각 질의응답 벤치마크입니다. 1000개의 시나리오와 3000개 이상의 전문가 추적 경로를 바탕으로, 새로 도입된 의미 인식 경로 점수를 사용하여 8개의 최첨단 VLM을 체계적으로 평가합니다. 이 메트릭은 Dynamic Time Warping 거리, 목표 지점 오차, 그리고 픽셀 단위 의미론에서 도출된 구현체 조건부 패널티를 결합하며 인간의 선호도와 상관관계를 가집니다. 우리의 평가는 부족한 공간 기반화 및 목표 위치 파악으로 인한 인간 수준 성능과의 지속적인 격차를 드러냅니다. NaviTrace는 실세계 로봇 항법을 위한 확장 가능하고 재현 가능한 벤치마크를 정립합니다. 벤치마크와 리더보드는 https://leggedrobotics.github.io/navitrace_webpage/에서 확인할 수 있습니다.
리버스 퍼즐(그림, 기호, 문자를 활용해 단어나 구절을 창의적으로 표현하는 퍼즐)을 이해하기 위해서는 이미지 인식, 인지 능력, 상식 추론, 다단계 추론, 이미지 기반 언어 유희 등 다양한 능력이 필요합니다. 이로 인해 리버스 퍼즐은 최신 시각-언어 모델에게도 어려운 과제입니다. 본 논문에서는 1,333개의 영어 리버스 퍼즐로 구성된 대규모 다양성 벤치마크인 left|,circlearrowright,text{BUS},right|를 소개합니다. 이 벤치마크는 음식, 관용구, 스포츠, 금융, 엔터테인먼트 등 18개 범주에 걸쳐 다양한 예술적 스타일과 난이도로 구성되어 있습니다. 또한 비정형 설명과 코드 기반 구조적 추론을 결합하고, 향상된 추론 기반 in-context 예시 선택을 사용하는 모델 독립적 프레임워크인 RebusDescProgICE를 제안합니다. 이 프레임워크는 Chain-of-Thought 추론 대비 폐쇄형 모델에서는 2.1-4.1%, 오픈소스 모델에서는 20-30% 성능 향상을 left|,circlearrowright,text{BUS},right| 벤치마크에서 달성했습니다.
Trove는 사용하기 쉬운 오픈소스 검색 도구 키트로, 유연성이나 속도를 저하시키지 않으면서 연구 실험을 단순화합니다. 우리는 처음으로 단 몇 줄의 코드만으로 검색 데이터셋을 실시간으로 불러와 처리(필터링, 선택, 변환, 결합)하는 효율적인 데이터 관리 기능을 소개합니다. 이를 통해 사용자는 대용량 데이터셋의 여러 복사본을 계산하고 저장할 필요 없이 다양한 데이터셋 구성을 쉽게 실험할 수 있는 유연성을 얻습니다. Trove는 매우 사용자 정의가 가능합니다: 다양한 내장 옵션 외에도, 사용자가 기존 구성 요소를 자유롭게 수정하거나 사용자 정의 객체로 완전히 대체할 수 있습니다. 또한 평가와 하드 네거티브 마이닝을 위한 로우 코드 및 통합 파이프라인을 제공하며, 코드 변경 없이 다중 노드 실행을 지원합니다. Trove의 데이터 관리 기능은 메모리 사용량을 2.6배 절감합니다. 더 나아가, Trove의 사용하기 쉬운 추론 파이프라인은 오버헤드가 없으며, 추론 시간은 사용 가능한 노드 수에 따라 선형적으로 감소합니다. 가장 중요한 것은 Trove가 검색 실험을 어떻게 단순화하고 임의의 사용자 정의를 가능하게 하여 탐색적 연구를 촉진하는지 보여준다는 점입니다.
측정 기기 읽기는 인간에게는 쉽고 상대적으로 적은 도메인 전문성을 요구하지만, 예비 평가에서 발견한 바와 같이 현재의 시각-언어 모델(VLM)에게는 놀랍도록 어려운 과제로 남아 있습니다. 본 연구에서는 다양한 유형의 측정 장비의 실제 및 합성 이미지를 포함한 시각적 측정 읽기 벤치마크인 MeasureBench와 데이터 합성을 위한 확장 가능한 파이프라인을 소개합니다. 우리의 파이프라인은 조절 가능한 시각적 외관을 가진 지정된 유형의 계측기를 절차적으로 생성하여, 포인터, 눈금, 글꼴, 조명, 잡음 등 핵심 세부 사항들의 확장 가능한 변형을 가능하게 합니다. 인기 있는 독점 및 오픈 웨이트 VLM에 대한 평가 결과, 가장 강력한 최첨단 VLM 조차도 일반적인 측정 읽기에 어려움을 겪는 것으로 나타났습니다. 일관된 실패 모드는 지시기 위치 파악입니다: 모델은 숫자나 라벨을 읽을 수 있지만 포인터나 정렬의 핵심 위치를 잘못 파악하여, 그럴듯한 텍스트 추론에도 불구하고 큰 수치 오류를 초래합니다. 우리는 또한 합성 데이터에 대한 강화 학습을 이용한 예비 실험을 수행했으며, 동일 도메인 합성 서브셋에서는 고무적인 결과를 얻었지만 실제 이미지에 대해서는 덜 유망한 결과를 확인했습니다. 우리의 분석은 현재 VLM의 세밀한 공간 기반 이해 능력에 있는 근본적인 한계를 부각시킵니다. 우리는 이 자원이 시각적 수리 능력과 VLM의 정밀한 공간 인식에 대한 향후 발전을 돕고, 숫자를 인식하는 것과 세계를 측정하는 것 사이의 격차를 해소하는 데 기여하기를 바랍니다.
멀티모달 대규모 언어 모델(MLLM)의 최근 발전은 2차원 시각 이해 능력을 크게 향상시켜 복잡한 3차원 추론 작업에 대한 적용 가능성에 대한 관심을 불러일으켰습니다. 그러나 이러한 모델이 강력한 실세계 성능, 특히 정확한 3차원 추론의 핵심 요구 사항인 교차 뷰 일관성을 위해 필요한 세밀한 공간 정보를 효과적으로 포착할 수 있는지 여부는 여전히 불분명합니다. 이러한 문제를 고려하여, 본 연구에서는 MLLM의 공간 추론 능력을 평가하고 향상시키기 위해 설계된 작업인 시점 학습(Viewpoint Learning)을 소개합니다. 우리는 다양한 시점을 가진 객체 중심 이미지 쌍 10만 개와 이에 상응하는 질문-답변 쌍으로 구성된 Viewpoint-100K 데이터셋을 제시합니다. 우리의 접근 방식은 두 단계의 미세 조정 전략을 사용합니다: 첫째, Viewpoint-100K 데이터셋에 대한 지도 미세 조정(SFT)을 통해 기준 MLLM에 기초 지식을 주입하여 여러 작업에서의 성능을 크게 향상시킵니다. 둘째, 더 광범위한 질문 집단에 대해 그룹 상대 정책 최적화(GRPO) 알고리즘을 활용한 강화 학습을 통해 일반화 능력을 강화합니다. 또한, 시점 표현을 동시에 학습하고 일관된 추론 사고를 유지하도록 설계된 하이브리드 콜드-스타트 초기화 방법을 도입합니다. 실험 결과는 우리의 접근 방식이 MLLM의 공간 추론 능력을 유의미하게 활성화하여 도메인 내 및 도메인 외 추론 작업 모두에서 성능을 향상시킴을 보여줍니다. 우리의 연구 결과는 MLLM의 기초 공간 기술 개발 가치를 부각하며, 로봇공학, 자율 시스템, 3차원 장면 이해 분야의 향후 발전을 뒷받침합니다.
검증 가능한 보상 강화학습(RLVR)에서 데이터 선택은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 핵심 요소입니다. 기존 데이터 선택 방법은 주로 경험적 기반으로, 이론적 보장과 일반화 가능성이 부족합니다. 본 연구는 영향 함수를 활용하여 각 데이터 포인트가 학습 목표에 기여하는 정도를 이론적으로 추정하는 방법을 제안합니다. 온라인 영향 추정에 필요한 정책 롤아웃의 과도한 계산 비용 문제를 해결하기 위해, 사전 수집된 오프라인 궤적을 활용하여 데이터 영향을 효율적으로 근사하는 오프-정책 영향 추정 기법을 도입합니다. 또한 LLM의 고차원 기울기 문제를 관리하기 위해 희소 랜덤 프로젝션을 사용하여 차원을 축소하고 저장 및 계산 효율성을 개선합니다. 이러한 기술을 바탕으로, 현재 정책에 가장 영향력 있는 데이터를 반복적으로 선택하는 다단계 RL 프레임워크인 CROPI(Curriculum RL with Off-Policy Influence guidance)를 개발했습니다. 70억 파라미터 규모의 모델 실험에서 CROPI는 학습 속도를 크게 가속화했으며, 15억 파라미터 모델에서는 전체 데이터셋 학습 대비 단계별 2.66배의 가속화를 달성하면서 각 단계마다 데이터의 10%만 사용했습니다. 본 결과는 효율적인 RLVR을 위한 영향 기반 데이터 선택의 상당한 잠재력을 입증합니다.
기초 모델의 수학적 추론 능력을 향상시키기 위해서는 올바른 지표를 설정하는 것이 매우 중요합니다. 특히 기존 평가 방법이 지나치게 쉬우거나 단순히 정답을 맞히는 데만 초점을 맞추고 있다는 점을 고려할 때 더욱 그렇습니다. 이러한 문제를 해결하기 위해 우리는 젊은 수학자들을 위한 최고의 권위 있는 장인 국제수학올림피아드(IMO) 수준을 목표로, 최고 전문가 패널의 검수를 거친 고급 추론 벤치마크 세트인 IMO-Bench를 소개합니다. IMO-AnswerBench는 검증 가능한 단답형 답변이 필요한 400개의 다양한 올림피아드 문제로 모델을 먼저 평가합니다. IMO-ProofBench는 증명 작성 능력을 위한 다음 단계의 평가로, 기본 및 고급 IMO 수준 문제와 자동 채점을 용이하게 하는 상세한 채점 가이드라인을 포함합니다. 이러한 벤치마크는 Gemini Deep Think(Luong and Lockhart, 2025)로 IMO 2025에서 금메달 수준의 성과를 거둔 우리의 역사적인 성취에 핵심적인 역할을 했습니다. 우리 모델은 IMO-AnswerBench에서 80.0%, 고급 IMO-ProofBench에서 65.7%를 달성하여 최고의 비-Gemini 모델들을 각각 6.9%p, 42.4%p라는 큰 격차로 앞섰습니다. 또한 Gemini 추론 능력으로 구축된 자동 채점기가 인간 평가와 높은 상관관계를 보인다는 것을 입증하고, 장문 답변의 자동 평가 발전을 위해 1,000개의 증명에 대한 인간 채점 데이터로 구성된 IMO-GradingBench를 구축했습니다. 우리는 IMO-Bench가 견고한 수학적 추론 발전을 위한 커뮤니티의 여정에 도움이 되기를 바라며, 이를 https://imobench.github.io/ 에 공개합니다.
비전-언어-행동(VLA) 모델은 자연어 명령과 시각적 관찰을 이해하고 구현 에이전트로서 해당 행동을 실행하는 것을 목표로 합니다. 최근 연구에서는 미래 이미지를 이해-행동 루프에 통합하여 텍스트와 이미지를 읽고 미래 이미지와 행동을 생성하는 통합 VLA를 개발하고 있습니다. 그러나 이러한 모델들은 모달리티 통합을 위해 외부 전문가에 의존하거나 이미지 생성과 행동 예측을 별개의 과정으로 취급하여 이러한 작업들 간의 직접적인 시너지 효과를 제한하고 있습니다. 우리의 핵심 철학은 반복적 정제를 통해 행동이 초기화부터 진화하도록 하면서 지속적이고 충분한 시각적 지도를 통해 생성과 행동을 공동으로 최적화하는 동기화된 디노이징 프로세스입니다. 우리는 이 철학을 제안된 통합 디퓨전 VLA와 결합 이산 디노이징 디퓨전 프로세스(JD3P)에 구현했습니다. JD3P는 여러 모달리티를 단일 디노이징 궤적에 통합하여 이해, 생성, 행동이 본질적으로 시너지를 낼 수 있도록 하는 핵심 메커니즘입니다. 우리의 모델과 이론은 모든 모달리티의 통합 토큰화 공간과 하이브리드 어텐션 메커니즘에 기반을 둡니다. 우리는 더 나아가 성능과 효율성을 최적화하는 2단계 학습 파이프라인과 여러 추론 기법을 제안합니다. 우리의 접근 방식은 CALVIN, LIBERO, SimplerEnv 벤치마크에서 최첨단 성능을 달성하며 자기회귀 방법보다 4배 빠른 추론 속도를 보여주며, 심층 분석과 실제 평가를 통해 그 효과성을 입증합니다. 프로젝트 페이지는 https://irpn-eai.github.io/UD-VLA.github.io/에서 확인할 수 있습니다.
비디오 생성 분야의 파운데이션 모델은 물리 세계를 시뮬레이션하는 잠재적 월드 모델로서 놀라운 능력을 보여주고 있습니다. 그러나 일반적인 물리 법칙이 아닌 깊이 있고 전문적인 인과 관계 지식을 요구하는 수술과 같은 고위험 분야에서의 적용은 여전히 중요한 미개척 영역으로 남아 있습니다. 이러한 과제를 체계적으로 해결하기 위해 우리는 수술 영상 생성 모델 평가를 위한 최초의 전문가 검증 벤치마크인 SurgVeo와 기본적인 외형에서 복잡한 수술 전략에 이르기까지 모델 출력을 평가하도록 맞춤화된 새로운 4단계 프레임워크인 수술 합리성 피라미드(SPP)를 제시합니다. SurgVeo 벤치마크를 기반으로 우리는 최첨단 Veo-3 모델에 복강경 및 신경외과 수술 영상 클립에 대한 제로샷 예측 과제를 부여합니다. 4명의 전문의 자격을 갖춘 외과의사 패널이 SPP에 따라 생성된 영상을 평가했습니다. 우리의 결과는 뚜렷한 "합리성 격차"를 보여줍니다: Veo-3는 시각적 지각 합리성에서는 탁월한 성과를 거두지만, SPP의 상위 단계인 도구 조작 합리성, 환경 피드백 합리성, 수술 의도 합리성에서는 심각하게 부족했습니다. 이 연구는 수술 AI에서 시각적으로 설득력 있는 모방과 인과 관계 이해 사이의 간격에 대한 최초의 정량적 증거를 제공합니다. SurgVeo와 SPP를 통한 우리의 발견은 전문적이고 실제적인 의료 영역의 복잡성을 해낼 수 있는 미래 모델 개발을 위한 중요한 기반과 로드맵을 마련합니다.
멀티모달 대규모 언어 모델(MLLM)의 놀라운 성공은 멀티모달 임베딩 기술의 발전을 주도했으나, 기존 모델들은 본질적으로 판별적 특성을 지녀 추론 기반 생성 패러다임의 이점을 충분히 활용하지 못하고 있습니다. 본 연구에서는 생성적 임베딩을 선도적으로 탐구하며 임베딩 작업을 생성 패러다임 내로 통합합니다. 우리는 2단계 학습 전략으로 구성된 범용 멀티모달 임베딩 프레임워크인 UME-R1을 제안합니다: 1) 콜드스타트 지도 미세조정을 통해 모델에 추론 능력을 부여하고 판별적 및 생성적 임베딩을 모두 생성할 수 있도록 하며, 2) 이후 강화학습을 통해 추론을 강화하고 생성적 임베딩 품질을 추가로 최적화합니다. 이 선구적 연구는 네 가지 핵심 통찰을 제시합니다: 1) 생성적 임베딩은 MLLM의 강력한 생성 추론 능력을 활용하여 기존 판별적 임베딩 대비 상당한 성능 향상을 제공합니다; 2) 판별적 임베딩과 생성적 임베딩은 상호 보완적이며, 둘을 결합한 오라클 성능은 각각 단독 사용 시 성능을 크게 능가합니다; 3) 강화학습은 생성적 임베딩을 효과적으로 향상시키며 확장 가능한 최적화 패러다임을 정립합니다; 4) 추론 시 반복 샘플링은 하류 작업 커버리지(pass@k)를 향상시켜 생성적 임베딩의 추론 시간 확장성 잠재력을 입증합니다. 비디오, 이미지, 시각 문서 분야의 78개 작업을 포함하는 MMEB-V2 벤치마크에서 평가한 결과, UME-R1은 기존 판별적 임베딩 모델을 크게 능가하며 더 해석 가능하고 추론 기반의 생성적 멀티모달 임베딩을 위한 기반을 마련합니다. 우리의 코드, 모델 및 데이터셋은 https://github.com/XMUDeepLIT/UME-R1에서 공개될 예정입니다.
대규모 언어 모델(LLM)은 자연어 추론에서 강력한 능력을 보여왔으나, 사이버 위협 인텔리전스(CTI) 분야로의 적용은 여전히 제한적입니다. CTI 분석은 방대한 양의 비정형 보고서를 실행 가능한 지식으로 정제하는 과정을 수반하는데, 이는 LLM이 분석가의 업무 부담을 상당히 줄일 수 있는 분야입니다. CTIBench는 여러 CTI 작업에 걸쳐 LLM을 평가하기 위한 포괄적인 벤치마크를 도입했습니다. 본 연구에서는 개선된 데이터셋 생성 파이프라인, 중복 제거, 정제된 평가 지표, 위험 완화 전략에 초점을 맞춘 새로운 작업을 포함하는 향상된 벤치마크인 AthenaBench를 개발하여 CTIBench를 확장합니다. 우리는 GPT-5 및 Gemini-2.5 Pro와 같은 최첨단 독점 모델과 LLaMA 및 Qwen 패밀리의 7개 오픈소스 모델을 포함하여 12개의 LLM을 평가합니다. 독점 LLM은 전반적으로 더 강력한 결과를 달성하지만, 위협 행위자 귀속 및 위험 완화와 같은 추론 집약적 작업에서는 성능이 기대에 미치지 못하며, 오픈소스 모델은 더욱 뒤처집니다. 이러한 결과는 현재 LLM의 추론 능력에 근본적인 한계가 있음을 보여주며, CTI 워크플로우와 자동화에 명시적으로 맞춤화된 모델의 필요성을 강조합니다.
그래픽 사용자 인터페이스(GUI) 그라운딩은 자연어 명령어를 실행 가능한 화면 영역으로 매핑하는 컴퓨터 사용 에이전트의 핵심 기능입니다. 멀티모달 대규모 언어 모델(MLLM) 기반 기존 접근법은 일반적으로 이를 텍스트 기반 좌표 생성 작업으로 공식화하지만, 시각적 입력으로부터 직접 정확한 좌표를 생성하는 것은 여전히 어렵고 계산 집약적입니다. GUI 그라운딩을 구현하는 직관적인 방법은 명령어와 관련된 시각적 패치를 먼저 선택한 후 해당 패치 내에서 정확한 클릭 위치를 결정하는 것입니다. 일반적인 MLLM이 자체 어텐션 메커니즘 내에 내재된 일부 그라운딩 능력을 보유한다는 관찰에 기반하여, 우리는 효율적인 GUI 그라운딩을 위한 어텐션 기반 및 좌표 무관(coordinate-free) 지도 미세 조정 프레임워크인 GUI-AIMA를 제안합니다. GUI-AIMA는 MLLM의 본질적인 멀티모달 어텐션을 패치 단위 그라운딩 신호와 정렬합니다. 이러한 신호는 단순화된 쿼리-시각 어텐션 행렬에 대한 다중 헤드 집계를 통해 다양한 사용자 명령어에 대해 적응적으로 계산됩니다. 또한, 좌표 무관 방식은 플러그 앤 플레이 방식의 확대(zoom-in) 단계를 쉽게 통합할 수 있게 합니다. GUI-AIMA-3B는 단 85,000개의 스크린샷으로 훈련되어 탁월한 데이터 효율성을 보여주며, 가벼운 훈련으로도 MLLM의 내재된 그라운딩 능력을 활성화할 수 있음을 입증했습니다. 이 모델은 3B 모델 중에서 최첨단 성능을 달성하여 ScreenSpot-Pro에서 평균 정확도 58.6%, OSWorld-G에서 62.2%를 기록했습니다. 프로젝트 페이지: https://github.com/sjz5202/GUI-AIMA
자연어 설명(NLEs)은 대규모 언어 모델(LLMs)이 외부 맥락 지식(CK)과 모델 가중치에 저장된 매개변수 지식(PK)을 모두 활용하여 의사결정을 내리는 방식을 설명합니다. 이들의 상호작용을 이해하는 것은 NLEs의 근거 평가에 핵심적이지만, 아직 충분히 연구되지 않았습니다. 기존 연구는 주로 단일 단계 생성(일반적으로 최종 답변)만을 검토했으며, PK와 CK의 상호작용을 1순위 부분공간 내에서 이분적 선택으로만 모델링했습니다. 이는 상호 보완적이거나 지원적인 지식과 같은 더 풍부한 형태의 상호작용을 간과합니다. 우리는 PK와 CK의 기여를 더 정확하게 분리하는 새로운 2순위 투영 부분공간을 제안하고, 이를 통해 더 긴 NLE 시퀀스에 걸친 지식 상호작용의 최초 다단계 분석을 수행합니다. 4개의 QA 데이터셋과 3개의 오픈 가중치 명령어 최적화 LLM을 대상으로 한 실험 결과, 다양한 지식 상호작용은 1순위 부분공간에서는 제대로 표현되지 않지만 우리의 2순위 형식에서는 효과적으로 포착됨을 확인했습니다. 우리의 다단계 분석은 환각된 NLEs가 PK 방향과 강하게 일치하고, 맥락에 충실한 NLEs는 PK와 CK를 균형 있게 활용하며, NLEs에 대한 사고 연쇄(Chain-of-Thought) 프롬프트는 PK 의존도를 줄여 생성된 NLEs를 CK 쪽으로 이동시킨다는 것을 보여줍니다. 본 연구는 더 풍부한 2순위 부분공간 분리를 통해 LLM의 다단계 지식 상호작용을 체계적으로 연구할 수 있는 최초의 프레임워크를 제공합니다. 코드 및 데이터: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
검색 분야에서 이질적 검색기로부터 후보를 융합하는 것은 특히 비디오와 같은 복잡한 다중 모달 데이터의 경우 오랜 과제로 남아있습니다. 일반적인 융합 기법은 학습이 필요하지 않지만 순위나 점수 신호에만 의존하여 후보의 표현을 무시합니다. 본 연구에서는 Vote-in-Context(ViC)를 소개합니다. 이는 목록 단계 재순위화 및 융합을 Vision-Language Model(VLM)의 제로샷 추론 과제로 재구성하는 일반화된 학습 불필요 프레임워크입니다. 핵심 통찰은 콘텐츠 증거와 검색기 메타데이터를 VLM의 프롬프트 내에서 직접 직렬화하여 모델이 시각-언어 콘텐츠에 대한 검색기 간 합의를 적응적으로 가중치를 부여할 수 있도록 하는 것입니다. 우리는 이 프레임워크의 일반성을 입증하기 위해 크로스 모달 비디오 검색이라는 도전적인 분야에 적용합니다. 이를 위해 S-Grid를 도입했는데, 이는 각 비디오를 이미지 그리드로 표현하는 컴팩트한 직렬화 맵으로, 선택적으로 자막과 결합되어 비디오 후보에 대한 목록 단계 추론을 가능하게 합니다. ViC는 단일 목록 재순위기로 평가 시 개별 검색기의 정밀도를 극적으로 향상시키며, 앙상블 융합기로 평가 시 CombSUM과 같은 강력한 베이스라인을 꾸준히 능가합니다. ActivityNet 및 VATEX를 포함한 비디오 검색 벤치마크 전반에 걸쳐, 이 프레임워크는 텍스트와 함께 복잡한 시각 및 시간적 신호를 효과적으로 처리하는 능력을 입증하며 새로운 최첨단 제로샷 검색 성능을 확립합니다. 제로샷 설정에서 ViC는 MSR-VTT에서 87.1%(t2v) / 89.0%(v2t), VATEX에서 99.6%(v2t)의 Recall@1 점수를 달성하여 기존 최첨단 베이스라인 대비 최대 +40 Recall@1이라는 엄청난 성능 향상을 보여줍니다. 우리는 ViC를 현대적인 VLM을 강력한 제로샷 재순위기 및 융합기로 전환하는 간단하고 재현 가능하며 매우 효과적인 방법론으로 제시합니다. 코드와 리소스는 다음에서 공개적으로 이용 가능합니다: https://github.com/mohammad2012191/ViC