번역이 포함된 일일 선별된 AI 연구 논문
소규모 모델이 본질적으로 견고한 추론 능력을 결여한다는 기존 합의에 도전하는 본 보고서는 Spectrum-to-Signal Principle(SSP)을 통해 개발된 15억 파라미터 조밀 모델(dense model)인 VibeThinker-1.5B를 소개한다. 이는 DeepSeek R1(6710억) 및 Kimi k2(1조 이상)와 같은 모델에서 볼 수 있듯, 능력 향상을 위해 모델 파라미터를 확장하는 기존 접근법에 대한 반증이다. SSP 프레임워크는 먼저 Two-Stage Diversity-Exploring Distillation(SFT)을 사용하여 다양한 해법 스펙트럼을 생성한 후, MaxEnt-Guided Policy Optimization(RL)을 통해 정답 신호를 증폭시킨다. 총 7,800달러의 훈련 비용으로 VibeThinker-1.5B는 Magistral Medium, Claude Opus 4와 같은 비공개 소스 모델들을 능가하는 우수한 추론 능력을 보여주며, GPT OSS-20B Medium과 같은 공개 소스 모델과도 동등한 성능을 발휘한다. 특히 수학 벤치마크 AIME24(80.3 대 79.8), AIME25(74.4 대 70.0), HMMT25(50.4 대 41.7)에서 파라미터가 400배 큰 DeepSeek R1을 능가했다. 이는 기반 모델의 성능(각각 6.7, 4.3, 0.6)에 비해 상당한 향상이다. LiveCodeBench V6에서는 51.1점을 기록하여 Magistral Medium의 50.3점과 기반 모델의 0.0점을 앞섰다. 이러한 결과는 소규모 모델이 대규모 모델에 버금가는 추론 능력을 달성할 수 있음을 입증하며, 훈련 및 추론 비용을 획기적으로 절감함으로써 고급 AI 연구의 민주화를 촉진한다.
신뢰할 수 있는 컴퓨터 사용 에이전트 구축에는 정확한 접지(Grounding), 즉 자연어 지시를 정확한 화면 요소와 연결하는 작업이 필요합니다. 웹 및 모바일 상호작용을 위한 대규모 데이터셋은 존재하지만, 데스크톱 환경을 위한 고품질 자료는 제한적입니다. 이러한 격차를 해소하기 위해 우리는 전문가의 인간 실증 데이터를 기반으로 구축된 대규모 데스크톱 접지 데이터셋인 GroundCUA를 소개합니다. 이 데이터셋은 12개 범주의 87개 애플리케이션을 포괄하며, 56K개의 스크린샷과 모든 화면 요소에 대해 신중하게 주석이 달린 총 3.56M개 이상의 인간 검증 주석을 포함합니다. 이러한 실증 데이터에서 우리는 다양한 실제 작업을 포착하는 다양한 지시문을 생성하여 모델 학습을 위한 고품질 데이터를 제공합니다. GroundCUA를 활용하여 우리는 지시문을 대상 UI 요소에 매핑하는 GroundNext 모델 패밀리를 개발했습니다. 3B와 7B 규모 모두에서 GroundNext는 지도 미세 조정을 통해 5개 벤치마크에서 최첨단 성능을 달성했으며, 기존 연구 대비 10분의 1 미만의 학습 데이터만을 요구합니다. 강화 학습 사후 훈련은 성능을 더욱 향상시키며, o3를 플래너로 사용하는 OSWorld 벤치마크에서 에이전트 설정으로 평가했을 때, GroundNext는 훨씬 더 많은 데이터로 훈련된 모델들과 비교하여 유사하거나 우수한 결과를 달성했습니다. 이러한 결과는 범용 컴퓨터 사용 에이전트의 발전에 고품질의 전문가 주도 데이터셋이 중요한 역할을 함을 입증합니다.
대규모 언어 모델(LLM)은 인간과 유사한 응답을 생성함으로써 대화 시스템에서 놀라운 성과를 입증해왔습니다. 그러나 특히 개인화나 특정 지식을 반영해야 하는 경우에는 부족함을 보일 수 있습니다. 실제 환경에서는 사용자가 이러한 오류를 직접 발견하고 새 응답을 요청하는 것을 기대하기 어렵습니다. 이 문제를 해결하는 한 가지 방법은 사용자에게 응답을 반환하기 전에 이를 정제하는 것입니다. 기존 접근법이 단일 LLM 내에서 응답을 정제하는 데 집중하는 동안, 이러한 방법은 효과적인 대화에 필요한 다양한 측면을 고려하는 데 어려움을 겪습니다. 본 연구에서는 각 에이전트가 특정 측면에 대한 역할을 부여받는 다중 에이전트 프레임워크를 통한 응답 정제 방식을 제안합니다. 우리는 대화 품질에 중요한 세 가지 핵심 측면, 즉 사실성, 개인화, 일관성에 주목합니다. 각 에이전트는 이 중 하나의 측면을 검토하고 개선하는 역할을 담당하며, 이들의 피드백을 통합하여 전체 응답의 질을 높입니다. 에이전트 간 협력을 강화하기 위해 우리는 동적 커뮤니케이션 전략을 도입했습니다. 고정된 에이전트 순서를 따르는 대신, 우리의 접근 방식은 각 질의의 특정 요구사항에 기반하여 가장 관련성 높은 에이전트를 적응적으로 선택하고 조정합니다. 우리는 이 프레임워크를 도전적인 대화 데이터셋에서 검증하였으며, 특히 지식이나 사용자 개인정보 또는 둘 다를 포함하는 작업에서 관련 기준선들을 크게 능가함을 입증했습니다.
마스크 확산 모델은 언어 생성 등 다양한 과제에서 경쟁력 있는 성능을 입증해왔습니다. 그러나 반복적 정제 과정으로 인해 추론 속도가 느리고 고정적인 샘플링 속도에 병목 현상이 자주 발생합니다. 이러한 문제를 해결하기 위해 본 논문에서는 토큰 수준 KL 발산을 활용해 안정적이고 높은 신뢰도를 가진 예측을 식별하는 빠르면서도 효과적인 샘플링 기법인 `KL-Adaptive Stability Sampling`(KLASS)을 제안합니다. 추가 모델 학습 없이 각 반복 단계에서 여러 토큰의 마스크를 동시에 해제하는 방식을 통해 샘플 품질을 유지하면서 생성 속도를 획기적으로 개선합니다. 추론 벤치마크에서 KLASS는 표준 그리디 디코딩 대비 성능을 향상시키면서 최대 2.78배의 실제 속도 향상을 달성하여 확산 기반 샘플러 중 최첨단 성과를 기록했습니다. 또한 텍스트, 이미지, 분자 생성 등 다양한 영역에서 KLASS의 효용성을 검증하며 해당 기법이 다양한 모델에 폭넓게 적용 가능한 샘플러로서의 효과적 성능을 입증했습니다.
대규모 언어 모델은 다국어 기계 번역(MMT)을 크게 발전시켰으나, 광범위한 언어 커버리지, 일관된 번역 품질, 영어 중심 편향 문제는 여전히 해결해야 할 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 본 연구에서는 중국어와 영어를 모두 중심으로 60개 언어와 234개 번역 방향을 포괄하는 대규모 다국어 번역 모델군 LMT를 소개합니다. 개발 과정에서 우리는 대칭적 다방향 미세 조정 데이터가 역방향(다국어 X → 영어/중국어) 번역을 과도하게 강조하여 지나친 다대일 매핑과 번역 품질 저하를 초래하는 '방향성 퇴화' 현상을 발견했습니다. 이를 완화하기 위해 간단하면서도 효과적인 방법인 전략적 다운샘플링을 제안합니다. 또한 계통 발생적으로 유사한 보조 언어를 활용하여 언어 간 전이를 강화하는 병렬 다국어 프롬프팅(PMP) 기법을 설계했습니다. 엄격한 데이터 정제 및 정교한 적응 전략을 통해 LMT는 유사한 언어 커버리지를 가진 모델 중 최고 수준의 성능을 달성했으며, 40억 파라미터 모델(LMT-60-4B)은 훨씬 큰 규모의 Aya-101-13B 및 NLLB-54B 모델을 상당한 차이로 앞섰습니다. 우리는 향후 연구를 촉진하고 포용적이며 확장 가능한 고품질 MMT를 위한 강력한 기준선을 제공하기 위해 LMT를 4가지 규모(6억/17억/40억/80억 파라미터)로 공개합니다 \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 성능을 안정적으로 향상시키지만, 실제로 수정하는 매개변수는 극히 일부에 불과한 것으로 보입니다. 우리는 이러한 역설을 재검토하고 희소성이 모델 조건화 최적화 편향의 표면적 현상임을 밝혔습니다: 고정된 사전 학습 모델에 대해 업데이트는 일관적으로 선호되는 매개변수 영역에 국한되며, 이는 실행 간 높은 일관성을 보이고 데이터셋 및 RL 방법론에 크게 불변합니다. 우리는 이러한 역학을 '삼중 게이트 이론'으로 기계론적으로 설명합니다: 게이트 I(KL 앵커)은 KL 제약 업데이트를 부과하고, 게이트 II(모델 기하구조)는 업데이트 방향을 주축에서 벗어나 낮은 곡률과 스펙트럼을 보존하는 부분 공간으로 유도하며, 게이트 III(정밀도)는 비선호 영역의 미세 업데이트를 가려 주축 이탈 편향이 희소성으로 나타나게 합니다. 우리는 이 이론을 검증하고 RLVR의 학습 역학에 대한 최초의 매개변수 수준 특성을 제시합니다: RLVR는 가중치 공간에서 주축을 벗어난 방향으로 학습하며, 최소의 스펙트럼 변화, 감소된 주축 부분 공간 회전, 그리고 비주축 업데이트 정렬을 통해 성능 향상을 달성합니다. 이와 대조적으로, SFT(지도 미세 조정)는 주축 가중치를 대상으로 하여 스펙트럼을 왜곡시키며, 심지어 RLVR보다 뒤처지는 경우도 있습니다. 종합적으로, 이러한 결과는 RLVR의 훈련 역학에 대한 최초의 매개변수 공간 기반 설명을 제공하며, 매개변수가 진화하는 방식에 있어 명확한 규칙성을 드러냅니다. 무엇보다 중요한 것은, RL이 SFT와 구별되는 최적화 체제에서 운영된다는 점을 보여줌으로써, SFT 시대의 매개변수 효율적 미세 조정(PEFT) 방법들을 RLVR에 직접 적용하는 것은 결함이 있을 수 있음을 고급 희소 미세 조정 및 LoRA 변형에 대한 우리의 사례 연구를 통해 입증했습니다. 우리는 이 작업이 RLVR에 대한 백박스(white-box) 이해와 재활용된 SFT 시대의 경험적 방법이 아닌, 기하구조를 인지한 RLVR 전용 학습 알고리듬 설계로 나아가는 길을 열어가길 바랍니다.
대규모 언어 모델(LLM)과 대규모 멀티모달 모델(LMM)의 성능은 사전 학습 데이터셋의 품질과 규모에 크게 의존합니다. 최근 연구에 따르면, 이미지와 텍스트가 혼재된 자연스러운 문서로 학습된 대규모 멀티모달 모델이 이미지-텍스트 쌍만으로 학습된 모델보다 다양한 벤치마크에서 더 우수한 성능을 보입니다. 이는 고급 사전 학습 모델을 활용하여 의미론적 정렬, 이미지-시퀀스 일관성, 텍스트적 응집성을 강화하기 때문입니다. 그러나 아랍어의 경우 문서 구조를 보존한 고품질 멀티모달 데이터셋의 부족으로 발전이 제한되어 왔습니다. 본 논문에서는 Common Crawl 데이터셋을 처리하여 마크다운 출력을 독특하게 제공하는 새로운 아랍어 멀티모달 데이터셋을 생성하는 Wasm 파이프라인을 제시합니다. 단순 텍스트 추출에만 집중하는 기존 아랍어 코퍼스와 달리, 우리의 접근 방식은 텍스트 전용 및 멀티모달 사전 학습 시나리오 모두에 대한 유연성을 유지하면서 웹 콘텐츠의 구조적 무결성을 보존합니다. 우리는 기존 주요 데이터셋에 사용된 처리 파이프라인과의 포괄적인 비교 분석을 제공하며, 필터링 전략의 공통점을 부각하고 우리의 특정 설계 선택을 정당화합니다. 향후 연구를 지원하기 위해, 우리는 대표적인 데이터셋 덤프와 아랍어용 멀티모달 처리 파이프라인을 공개합니다.
검증 가능한 보상 강화 학습(RLVR)은 멀티모달 대규모 언어 모델(MLLM)의 비디오 이해 능력을 크게 발전시켰습니다. 그러나 MLLM의 급속한 발전은 기존 비디오 데이터셋의 복잡성을 넘어서고 있으며, 새로운 고품질 데이터의 수동 주석 작업은 여전히 비용이 매우 많이 듭니다. 본 연구는 핵심적인 질문을 탐구합니다: 비디오 내 풍부한 내재 정보를 활용하여 고품질의 검증 가능한 훈련 데이터를 자체 생성할 수 있을까? 이를 확인하기 위해 우리는 세 가지 자기 지도 예비 작업(Anomaly Grounding, Object Counting, Temporal Jigsaw)을 소개합니다. 우리는 이러한 작업들의 난이도를 검증하기 위해 Video Intrinsic Understanding Benchmark(VIUBench)를 구축했으며, 최첨단 MLLM들이 이러한 작업에서 상당히 어려움을 겪는다는 사실을 밝혀냈습니다. 이러한 예비 작업을 바탕으로 우리는 VideoSSR-30K 데이터셋을 구축하고 RLVR을 위한 새로운 비디오 자기 지도 강화 학습 프레임워크인 VideoSSR을 제안합니다. 4대 주요 비디오 영역(일반 비디오 질의응답, 장편 비디오 질의응답, 시간적 근거, 복잡 추론)에 걸친 17개 벤치마크에서의 광범위한 실험을 통해 VideoSSR이 모델 성능을 지속적으로 향상시키며 평균 5% 이상의 개선을 가져옴을 입증했습니다. 이러한 결과는 VideoSSR이 MLLM에서 더 발전된 비디오 이해를 개발하기 위한 강력한 기초 프레임워크임을 입증합니다. 코드는 https://github.com/lcqysl/VideoSSR에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 장문 맥락 추론에서 근본적인 과제에 직면해 있습니다: 많은 문서가 모델의 유한한 컨텍스트 윈도우를 초과하는 반면, 컨텍스트 내에 완전히 포함되는 텍스트에 대한 성능도 시퀀스 길이가 늘어남에 따라 저하됩니다. 이로 인해 외부 메모리 프레임워크를 통한 보강이 필수적입니다. 의미 임베딩을 활용한 검색에서 출발해 향상된 의미 구성과 연관성을 위한 정교한 구조적 지식 그래프 표현으로 진화한 현재의 솔루션들은 사실 기반 검색에 특화되어 있으며, 사건적 에피소드 전반에 걸쳐 개체를 추적하는 데 필요한 시공간에 기반한 서사적 표현을 구축하지 못합니다. 이러한 격차를 해소하기 위해 우리는 생성형 의미 작업 공간(Generative Semantic Workspace, GSW)을 제안합니다. GSW는 진화하는 상황에 대한 구조화되고 해석 가능한 표현을 구축하여 LLM이 변화하는 역할, 행동, 시공간적 맥락에 대해 추론할 수 있도록 하는 신경망 영감을 받은 생성형 메모리 프레임워크입니다. 우리의 프레임워크는 들어오는 관찰 데이터를 중간 의미 구조로 매핑하는 운영자(Operator)와 이를 시간적, 공간적, 논리적 일관성을 유지하는 지속적 작업 공간에 통합하는 조정자(Reconciler)로 구성됩니다. 길이가 10만 토큰에서 100만 토큰에 이르는 코퍼스로 구성된 Episodic Memory Benchmark (EpBench) [huet_episodic_2025]에서 GSW는 기존 RAG 기반 베이스라인을 최대 20%까지 능가하는 성능을 보였습니다. 더 나아가 GSW는 매우 효율적이어서, 다음으로 토큰 효율이 높은 베이스라인 대비 쿼리 시간 컨텍스트 토큰을 51% 줄여 추론 시간 비용을 상당히 절감합니다. 더 광범위하게 보면, GSW는 LLM에 인간과 유사한 에피소드 메모리를 부여하기 위한 구체적인 청사진을 제공하여, 장기적인 관점에서 추론할 수 있는 더 유능한 에이전트 개발의 길을 열어줍니다.
대규모 언어 모델(LLM) 쿼리는 주로 중앙 집중식 클라우드 인프라의 최첨단 모델들에 의해 처리됩니다. 빠르게 증가하는 수요는 이 패러다임에 부담을 주며, 클라우드 제공자들은 인프라를 빠른 속도로 확장하는 데 어려움을 겪고 있습니다. 두 가지 진보가 이 패러다임을 재고할 수 있는 계기를 마련했습니다: 많은 작업에서 소형 LM들(활성 매개변수 <=200억 개)이 이제 최첨단 모델에 필적하는 성능을 달성하고 있으며, 로컬 가속기(예: Apple M4 Max)가 이러한 모델들을 대화형 지연 시간으로 실행합니다. 이는 다음과 같은 의문을 제기합니다: 로컬 추론이 중앙 집중식 인프라의 수요를 실질적으로 재분배할 수 있을까? 이에 답하기 위해서는 로컬 LM이 현실 세계의 쿼리에 정확하게 답변할 수 있는지, 그리고 전력 제약이 있는 장치(예: 노트북)에서 실용적일 수 있을 만큼 효율적으로 수행할 수 있는지를 측정해야 합니다. 우리는 작업 정확도를 전력 단위로 나눈 '와트당 지능(Intelligence Per Watt, IPW)' 지표를 제안하여, 다양한 모델-가속기 조합에 걸친 로컬 추론의 성능과 효율성을 평가하는 척도로 삼습니다. 우리는 20개 이상의 최신 로컬 LM, 8개의 가속기, 그리고 LLM 트래픽의 대표적인 부분 집합인 100만 개의 현실적 단일 턴 채팅 및 추론 쿼리를 대상으로 대규모 실증 연구를 수행했습니다. 각 쿼리에 대해 정확도, 에너지 소비량, 지연 시간, 전력을 측정했습니다. 우리의 분석은 세 가지 결과를 보여줍니다. 첫째, 로컬 LM은 단일 턴 채팅 및 추론 쿼리의 88.7%를 정확하게 답변할 수 있으며, 정확도는 분야에 따라 다릅니다. 둘째, 2023년부터 2025년까지 IPW는 5.3배 향상되었고, 로컬 쿼리 처리 범위는 23.2%에서 71.3%로 증가했습니다. 셋째, 로컬 가속기는 동일한 모델을 실행하는 클라우드 가속기보다 최소 1.4배 낮은 IPW를 달성하여 최적화를 위한 상당한 여지가 있음을 보여줍니다. 이러한 결과들은 로컬 추론이 중앙 집중식 인프라의 수요를 의미 있게 재분배할 수 있으며, IPW가 이 전환을 추적하는 중요한 지표 역할을 할 수 있음을 입증합니다. 우리는 체계적인 와트당 지능 벤치마킹을 위한 IPW 프로파일링 도구를 공개합니다.
현대 순차적 의사결정 시스템에서 최적의 후보 행동 공간 구축은 효율적인 추론에 있어 핵심적입니다. 그러나 기존 접근법은 확장성이 부족한 수동 정의 행동 공간에 의존하거나, 포괄적 탐색을 계산적으로 불가능하게 만드는 비정형 공간을 활용하는 한계가 있습니다. 본 논문에서는 복잡한 문제 해결 시나리오에서 순차적 추론을 향상시키기 위해 간결한 행동 공간을 자동으로 구축하는 DynaAct라는 새로운 프레임워크를 제안합니다. 우리의 방법은 먼저 대규모 언어 모델을 사용하여 다양한 복잡 추론 문제를 아우르는 코퍼스에서 관찰된 일반적인 개요를 추출하여 완전한 행동 공간에 대한 근사치를 추정합니다. 이후 현재 상태에 대한 유용성과 다양성을 함께 고려하여 후보 행동을 평가하는 부분모듈러 함수를 정식화하고, 탐욕 알고리즘을 통해 최적의 후보 집합을 선택합니다. 다양한 6가지 표준 벤치마크에서 진행한 폭넓은 실험 결과, 우리의 접근법이 상당한 지연 시간을 도입하지 않으면서 효율적인 추론을 유지하며 전반적인 성능을 크게 향상시킴을 입증했습니다. 구현 코드는 https://github.com/zhaoxlpku/DynaAct에서 확인할 수 있습니다.
배경: 대규모 언어 모델은 소프트웨어 개발 분야에 혁명을 일으킬 잠재력(예: 프로세스 자동화, 인력 구조 변환)을 가지고 등장했습니다. LLM이 소프트웨어 개발에 미치는 인식된 영향력을 조사하는 연구가 시작되었지만, LLM 사용의 진보적 효과와 퇴행적 효과를 어떻게 균형 있게 조절할지 이해하기 위한 실증 연구가 필요합니다. 목적: 본 연구는 소프트웨어 개발자의 관점에서 LLM이 소프트웨어 개발에 어떤 영향을 미치는지, 그리고 그 영향을 어떻게 관리해야 하는지를 조사했습니다. 방법: 2024년 10월부터 2025년 9월까지 3차례에 걸친 데이터 수집 및 분석 과정에서 소프트웨어 실무자 22명과 인터뷰를 진행했습니다. 인터뷰 참가자들의 응답을 체계적으로 분석하기 위해 데이터 분석 방법으로 사회-기술적 근거이론을 적용했습니다. 결과: LLM 사용의 이점(예: 소프트웨어 개발 흐름 유지, 개발자의 멘탈 모델 향상, 기업가 정신 함양)과 단점(예: 개발자 성격에 대한 부정적 영향, 개발자 평판 훼손)을 개인, 팀, 조직, 사회 수준에서 확인했으며, LLM을 어떻게 도입해야 하는지에 대한 모범 사례도 도출했습니다. 결론: 무엇보다도 본 연구는 소프트웨어 실무자, 팀, 조직이 LLM 활용 시 직면하는 상충 관계를 제시합니다. 본 연구 결과는 소프트웨어 팀 리더와 IT 관리자가 특정 상황 내에서 LLM의 타당성을 평가하는 데 특히 유용할 것입니다.
정렬(Alignment)은 대규모 언어 모델(LLM)의 출력 품질을 크게 향상시켰지만, 다양성 측면에서는 희생을 감수해야 했으며, 여러 생성 과정에서 매우 유사한 출력을 내놓는 결과를 초래했습니다. 본 논문에서는 다양성과 품질을 최적화하기 위해 추론 시점(Inference-time)에서 토큰 수준의 모델 협업 프레임워크인 Base-Aligned Model Collaboration(BACo)을 제안합니다. BACo는 기본(Base) LLM과 정렬된(Aligned) 대응 모델을 동적으로 결합합니다. 선행 연구(Fei et al., 2025)에서 영감을 받은 BACo는 다음 토큰 예측의 불확실성과 예측된 내용의 의미론적 역할을 기반으로 각 토큰을 어느 모델에서 디코딩할지 결정하는 라우팅 전략을 사용합니다. 재학습(Retraining), 프롬프트 엔지니어링, 다중 샘플링(Multi-sampling) 방법과 같은 기존의 다양성 증진 방법들은 다양성을 향상시키지만 품질 저하를 초래하거나 많은 비용이 드는 디코딩 또는 사후 학습(Post-training)을 필요로 하는 경우가 많습니다. 이와 대조적으로, BACo는 단일 패스(Single pass) 내에서 사후(Hoc)적으로 높은 다양성과 품질을 동시에 달성하며, 강력한 제어 가능성(Controllability)을 제공합니다. 우리는 다양한 라우팅 전략군을 탐구했으며, 세 가지 개방형 생성 과제(Open-ended generation tasks)와 다양성 및 품질을 포괄하는 13개의 평가 지표를 통해 BACo가 최신 추론 시점 기준 모델(Inference-time baselines)들을 지속적으로 능가함을 확인했습니다. 최적의 라우터를 사용했을 때, BACo는 다양성과 품질의 종합적 개선치에서 21.3%의 향상을 달성했습니다. 인간 평가 결과 또한 이러한 개선 효과를 뒷받침합니다. 결과는 기본 모델과 정렬 모델 간의 협업이 다양성과 품질을 최적화하고 제어할 수 있음을 시사합니다.
시간적 탐색(temporal search)은 정확한 장편 비디오 이해를 위한 기반으로, 주어진 질의를 바탕으로 수만 개의 프레임 중 최소한의 관련 프레임 집합을 식별하는 것을 목표로 합니다. 기존 연구들은 검색 공간을 점진적으로 좁히려 시도해왔으나, 이러한 접근법들은 일반적으로 수작업으로 설계된 검색 과정에 의존하여 최적의 검색 전략을 학습하기 위한 종단간 최적화가 부족합니다. 본 논문에서는 시간적 탐색을 텍스트-비디오 간 교차 사고(interleaved text-video thinking)로 재정의하고, 강화 학습(RL)을 통해 비디오 클립 검색을 추론 과정에 자연스럽게 통합하는 TimeSearch-R을 제안합니다. 그러나 Group Relative Policy Optimization (GRPO)과 같은 RL 훈련 방법을 비디오 추론에 적용하면 중간 검색 결정에 대한 감독(supervision)이 부족해질 수 있습니다. 이는 비디오 콘텐츠의 충분한 탐색을 방해하고 논리적 추론의 일관성을 해칩니다. 이러한 문제를 해결하기 위해 우리는 GRPO with Completeness Self-Verification (GRPO-CSV)을 도입합니다. 이 방법은 교차 추론 과정에서 검색된 비디오 프레임들을 수집하고 동일한 정책 모델을 사용하여 검색된 프레임의 충분성을 검증함으로써 비디오 추론의 완결성을 향상시킵니다. 또한, GRPO-CSV의 SFT 콜드 스타트 및 RL 훈련을 위해 특화된 데이터셋을 구축하여 시간적 의존성이 약한 샘플들을 걸러내어 과제 난이도를 높이고 시간적 탐색 능력을 개선했습니다. 폭넓은 실험을 통해 TimeSearch-R이 Haystack-LVBench, Haystack-Ego4D와 같은 시간적 탐색 벤치마크와 VideoMME, MLVU와 같은 장편 비디오 이해 벤치마크에서 모두 상당한 성능 향상을 달성함을 입증했습니다. 특히 TimeSearch-R은 LongVideoBench에서 기준 모델 Qwen2.5-VL 대비 4.1%, 고급 비디오 추론 모델 Video-R1 대비 2.0% 향상된 최첨단 성능을 기록했습니다. 우리의 코드는 https://github.com/Time-Search/TimeSearch-R에서 확인할 수 있습니다.
하드 네거티브는 효과적인 검색 모델 훈련에 필수적입니다. 하드 네거티브 마이닝은 일반적으로 코사인 거리와 같은 유사도 메트릭을 기반으로 교차 인코더 또는 정적 임베딩 모델을 사용하여 문서를 순위 매기는 방식에 의존합니다. 생의학 및 과학 도메인에서는 원본 문서와 하드 네거티브 문서를 구분하기 어려워 하드 네거티브 마이닝이 특히 어려운 과제가 됩니다. 그러나 참조 문서는 원본 문서와 자연스럽게 문맥적 관련성을 공유하지만 중복되지 않기 때문에 하드 네거티브로 매우 적합합니다. 본 연구에서는 20,000개의 PubMed 논문에서 인용 링크를 활용하여 도메인 특화 소형 밀집 검색기의 성능을 향상시키는 하드 네거티브 마이닝 접근법인 BiCA(Biomedical Dense Retrieval with Citation-Aware Hard Negatives)를 제안합니다. 우리는 이러한 인용 기반 네거티브를 사용하여 GTE_small 및 GTE_Base 모델을 미세 조정하였으며, BEIR의 도메인 내 및 도메인 외 작업에서 nDCG@10을 사용한 제로샷 밀집 검색 성능이 지속적으로 향상되고, LoTTE의 롱테일 토픽에서 Success@5 기준으로 기준선을 능가함을 관찰했습니다. 우리의 연구 결과는 문서 링크 구조를 활용하여 매우 유익한 네거티브를 생성함으로써 최소한의 미세 조정으로 최첨단 성능을 달성하고, 높은 데이터 효율성을 갖는 도메인 적응을 위한 길을 보여줍니다.