번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 효과적인 다운스트림 성능을 위해서는 사후 학습 데이터의 다양성이 매우 중요하다. 기존의 많은 사후 학습 데이터 구축 접근법은 언어적 변이를 포착하는 텍스트 기반 지표를 사용하여 다양성을 측정하지만, 이러한 지표는 다운스트림 성능을 결정하는 과업 관련 특징에 대해 약한 신호만을 제공한다. 본 연구에서는 해석 가능한 특징 공간에서 데이터 다양성을 측정하는 FAC(Feature Activation Coverage)를 제안한다. 이 지표를 바탕으로, 우리는 시드 데이터셋에서 누락된 특징을 희소 오토인코더로 식별한 후, 이러한 특징을 명시적으로 반영한 합성 샘플을 생성하는 다양성 주도 데이터 합성 프레임워크인 FAC Synthesis를 추가로 제안한다. 실험 결과, 우리의 접근법이 지시 따르기, 유해성 탐지, 보상 모델링, 행동 조종 등 다양한 과업에서 데이터 다양성과 다운스트림 성능을 모두 지속적으로 향상시키는 것으로 나타났다. 흥미롭게도, 우리는 LLaMA, Mistral, Qwen과 같은 다양한 모델 패밀리 간에 공유되는 해석 가능한 특징 공간을 확인하여 교차 모델 지식 전달이 가능함을 보였다. 본 연구는 LLM의 데이터 중심 최적화를 탐구하는 견고하고 실용적인 방법론을 제시한다.
음성 질의 검색은 현대 정보 검색 시스템의 중요한 상호작용 방식입니다. 그러나 기존 평가 데이터셋은 제한된 노이즈 조건에서의 단순한 질의로 한정되는 경우가 많아, 복잡한 음향적 변형 하에서 음성 질의 검색 시스템의 강건성을 평가하기에는 부적합합니다. 이러한 한계를 해결하기 위해 본 논문은 대규모 데이터셋과 통합 평가 프로토콜을 포함하는 음성 질의 검색 강건성 벤치마크인 SQuTR을 제안합니다. SQuTR은 널리 사용되는 6개의 영어 및 중국어 텍스트 검색 데이터셋에서 37,317개의 고유 질의를 통합하여 다양한 도메인과 질의 유형을 포괄합니다. 실제 화자 200명의 음성 프로필을 활용하여 음성을 합성하고, 통제된 SNR 수준에서 17개 범주의 실제 환경 노이즈를 혼합하여 조용한 환경부터 매우 시끄러운 환경까지 재현 가능한 강건성 평가를 가능하게 합니다. 통합 프로토콜을 통해 대표적인 계단식 및 종단간 검색 시스템에 대한 대규모 평가를 수행한 결과, 노이즈가 증가함에 따라 검색 성능이 저하되며 시스템별로 상이한 성능 하락 폭을 확인했습니다. 대규모 검색 모델조차 극한 노이즈 환경에서는 어려움을 겪는 것으로 나타나, 강건성은 여전히 중요한 병목 현상임을 시사합니다. 전반적으로 SQuTR은 벤치마킹 및 진단 분석을 위한 재현 가능한 테스트베드를 제공하며, 음성 질의-텍스트 검색 분야의 강건성 향후 연구를 촉진할 것으로 기대됩니다.
본 논문에서는 현실 세계 임상 적용에서 범용 의료 이해와 추론 능력을 향상시키기 위해 설계된 의료 비전-언어 파운데이션 모델 MedXIAOHE를 제안한다. MedXIAOHE는 다양한 의료 벤치마크에서 최첨단 성능을 달성하며, 여러 핵심 역량에서 기존의 폐쇄형 멀티모달 시스템을 능가한다. 이를 위해 이질적인 의료 코퍼스를 체계적으로 구성하여 지식 범위를 확장하고(예: 희귀 질환 등) 장기 꼬리 현상 간극을 줄이는 개체 인식 연속 사전 학습 프레임워크를 제안한다. 전문 의료 수준의 추론 및 상호작용을 위해 MedXIAOHE는 강화 학습과 도구 기반 에이전트 학습을 통해 다양한 의료 추론 패턴을 통합하여 검증 가능한 결정 경로를 갖춘 다단계 진단 추론이 가능하도록 한다. 현실 세계 사용에서의 신뢰성을 높이기 위해 사용자 선호도 기준, 증거 기반 추론, 낮은 허구화 현상을 보이는 장문 보고서 생성 기능을 통합하여 의료 지시 사항 준수성을 개선하였다. 본 보고서는 실용적 설계 선택, 규모 확장 통찰, 평가 프레임워크를 기록하여 향후 연구에 영감을 주고자 공개한다.
멀티모달 대규모 언어 모델(MLLMs)은 광범위한 시각 이해에 뛰어나지만, 결정적 증거가 작고 전역 맥락에 쉽게 압도되는 세밀한 인식(fine-grained perception)에는 여전히 어려움을 겪습니다. 최근의 "이미지와 함께 사고하기(Thinking-with-Images)" 방법론은 추론 과정에서 관심 영역을 반복적으로 확대 및 축소하여 이를 완화하지만, 반복적인 도구 호출과 시각적 재인코딩으로 인해 높은 지연 시간이 발생합니다. 이를 해결하기 위해 우리는 영역-이미지 지식 증류(Region-to-Image Distillation)를 제안합니다. 이 방법은 확대 기능을 추론 시점의 도구에서 학습 시점의 기본 요소로 변환하여, 에이전트 기반 확대의 이점을 MLLM의 단일 순전파 과정 내부에 내재화합니다. 구체적으로, 우리는 먼저 미세하게 크롭된 영역을 확대하여 강력한 교사 모델이 고품질의 시각 질의응답(VQA) 데이터를 생성하도록 한 다음, 이 영역에 기반한 지도 신호를 다시 원본 전체 이미지로 증류합니다. 이러한 데이터로 학습한 후, 더 작은 학생 모델은 도구 사용 없이도 "단일 응시(single-glance)" 세밀한 인식 능력을 향상시킵니다. 이 능력을 엄격하게 평가하기 위해, 우리는 6개의 세밀한 인식 차원을 아우르는 845개의 VQA 데이터로 구성된 하이브리드 주석 벤치마크인 ZoomBench와 전역-지역 간 "확대 격차(zooming gap)"를 정량화하는 이중 시점 프로토콜(dual-view protocol)을 추가로 제시합니다. 실험 결과, 우리 모델은 여러 세밀한 인식 벤치마크에서 선도적인 성능을 달성했을 뿐만 아니라, 시각적 추론 및 GUI 에이전트와 같은 벤치마크에서 일반적인 멀티모달 인식 능력도 향상시켰습니다. 우리는 또한 "이미지와 함께 사고하기"가 필요한 경우와 그 이득이 단일 순전파 과정으로 증류될 수 있는 경우에 대해 추가로 논의합니다. 우리의 코드는 https://github.com/inclusionAI/Zooming-without-Zooming에서 확인할 수 있습니다.
가설. 범용 인공지능은 그 본질에서 압축 문제이다. 효과적인 압축은 공명을 요구한다. 즉, 딥러닝은 그 구조가 데이터의 근본적 구조와 조화를 이룰 때 가장 효과적으로 확장된다. 이것이 근본 원리다. 그러나 현대 비전 아키텍처는 이러한 진리에서 멀어졌다. 시각 신호는 매우 중복적이며, 판별 정보, 즉 '놀라움'은 희소하다. 현재 모델은 조밀한 픽셀 그리드를 균일하게 처리하여, 움직임과 의미를 정의하는 예측 잔차에 집중하기보다 정적 배경에 막대한 계산 자원을 낭비한다. 우리는 시각 이해를 해결하려면 비디오의 정보 이론적 원리, 즉 코덱에 맞춰 아키텍처를 재정렬해야 한다고 주장한다. 방법. OneVision-Encoder는 예측적 시각 구조를 의미론적 의미로 압축하여 비디오를 인코딩한다. Codec Patchification을 도입함으로써, OV-Encoder는 균일한 계산을 포기하고 신호 엔트로피가 풍부한 영역(3.1%~25%)에만 집중한다. 불규칙한 토큰 레이아웃 아래에서 공간 및 시간 추론을 통합하기 위해 OV-Encoder는 공유 3D RoPE를 사용하며, 100만 개 이상의 의미론적 개념에 대한 대규모 클러스터 판별 목표로 훈련되어 객체 불변성과 운동 역학을 함께 포착한다. 증거. 결과는 우리의 핵심 가설을 입증한다. 효율성과 정확도는 상충 관계가 아니라 양의 상관관계에 있다. LLM에 통합되었을 때, 훨씬 적은 시각 토큰과 사전 훈련 데이터를 사용함에도 불구하고, 이미지, 비디오, 문서 이해 벤치마크 16개 항목에서 Qwen3-ViT 및 SigLIP2와 같은 강력한 비전 백본을 꾸준히 능가한다. 특히 비디오 이해 과제에서 OV-Encoder는 Qwen3-ViT 대비 평균 4.1%의 성능 향상을 달성했다. 코덱에 정렬된 패치 수준 희소성은 근본 원리로서, OV-Encoder를 차세대 범용 시각 엔진으로 확장 가능하게 만드는 기반이 된다.
비디오 언어 모델(VideoLM)은 AI 시스템이 비디오의 시간적 역학을 이해할 수 있도록 지원합니다. 최대 컨텍스트 윈도우 제약에 맞추기 위해 기존 방법은 키프레임 샘플링을 사용하는데, 이는 희소한 시간적 커버리지로 인해 거시 수준의 이벤트와 미시 수준의 세부 사항을 모두 놓칠 수 있습니다. 더욱이 각 프레임마다 전체 이미지와 해당 토큰을 처리하려면 상당한 계산 오버헤드가 발생합니다. 이러한 한계를 해결하기 위해 우리는 대부분의 프레임에 대해 고비용의 전체 이미지 인코딩 없이도 비디오 중복성과 희소성을 기본적으로 인코딩하는 비디오 코덱 기본 요소(구체적으로 모션 벡터와 잔차)를 활용하는 방법을 제안합니다. 이를 위해 우리는 경량 트랜스포머 기반 인코더를 도입하여 코덱 기본 요소를 집계하고, 엔드투엔드 미세 조정期間 수렴을 가속화하는 사전 훈련 전략을 통해 해당 표현을 이미지 인코더 임베딩과 정렬합니다. 우리의 접근 방식은 표준 VideoLM 대비 첫 토큰 출력 시간을 최대 86%까지 단축하고 토큰 사용량을 최대 93%까지 절감합니다. 또한 키프레임 및 코덱 기본 요소 밀도를 조절함으로써 일반 질의응답, 시간적 추론, 장편 비디오 이해, 공간적 장면 이해 등 14가지 다양한 비디오 이해 벤치마크에서 성능을 유지하거나 향상시킬 수 있었습니다.
본 논문은 인간과 유사한 추론을 수행하며 세분화된 주소 결론을 도출할 수 있는 모델인 GeoAgent를 제시한다. 기존 RL 기반 방법들은 성능과 해석 가능성에서 획기적인 발전을 이루었으나, AI 생성 CoT(Chain-of-Thought) 데이터와 훈련 전략에 의존하기 때문에 지리적 특성과 상충되어 한계가 남아있다. 이러한 문제를 해결하기 위해 우리는 먼저 지리 전문가와 전문 플레이어가 주석을 단 CoT 데이터로 구성된 새로운 지리 위치 데이터셋인 GeoSeek을 소개한다. 더 나아가 지리 작업의 본질적 특성을 체계적으로 탐구하고, 지리 유사도 보상과 일관성 에이전트에 의해 평가되는 일관성 보상을 훈련에 활용하는 방안을 제안한다. 이를 통해 모델이 지리적 관점에서 정답으로 수렴하도록 유도함과 동시에 추론 과정의 무결성과 일관성을 보장한다. 실험 결과, GeoAgent는 다양한 세분도 수준에서 기존 방법과 일련의 범용 VLLM을 능가하며 인간과 밀접하게 일치하는 추론을 생성하는 것으로 나타났다.
의미론적 운동 기반 비디오 검색은 근본적이면서도 아직 해결되지 않은 과제입니다. 기존 비디오 표현 방법은 훈련 데이터와 목표에서 비롯된 편향으로 인해 운동 역학보다는 정적 외관과 장면 맥락에 지나치게 의존합니다. 반면 광학 흐름과 같은 전통적인 운동 중심 입력은 고수준 운동을 이해하는 데 필요한 의미론적 토대가 부족합니다. 이러한 본질적 편향을 입증하기 위해 우리는 통제된 합성 데이터와 인간 주석이 달린 새로운 실세계 데이터셋을 결합한 SimMotion 벤치마크를 소개합니다. 기존 모델들이 이 벤치마크에서 성능이 낮으며, 종종 외관과 운동을 분리하는 데 실패함을 보여줍니다. 이러한 격차를 해결하기 위해 우리는 사전 훈련된 의미론적 모델의 특징에 대해 시간적 통계(구체적으로 고차 모멘트)를 계산하는 간단한 비훈련 방법인 SemanticMoments를 제안합니다. 우리 벤치마크 전반에 걸쳐 SemanticMoments는 기존 RGB, 흐름 및 텍스트 지도 방법을 지속적으로 능가합니다. 이는 의미론적 특징 공간에서의 시간적 통계가 운동 중심 비디오 이해를 위한 확장 가능하고 지각적으로 근거 있는 기초를 제공함을 입증합니다.
검증 가능한 보상을 활용한 강화학습(RL)은 시각-언어 모델의 시각적 추론 능력 향상을 위한 표준 사후 훈련 단계로 자리잡았지만, RL이 감독식 미세조정을 통한 콜드 스타트 초기화(IN)와 비교해 실제로 어떤 능력을 향상시키는지는 여전히 불분명합니다. 종합 벤치마크 성능 향상은 여러 요인이 혼재되어 있어 개선된 성능을 특정 능력으로 귀속시키기 어렵습니다. 이러한 격차를 해소하기 위해 우리는 프랑켄슈타인 스타일 분석 프레임워크를 제안합니다: (i) 인과적 프로빙을 통한 기능적 지역화, (ii) 매개변수 비교를 통한 업데이트 특성 분석, (iii) 모델 병합을 통한 전이 가능성 검증. 그 결과, RL은 주로 중간~후반부 레이어에서 추론 시 일관된 변화를 유도하며, 이러한 중후반부 정제된 업데이트는 (병합을 통해) 전이 가능하고 (고정을 통해) RL 성능 향상에 필수적임을 확인했습니다. 전반적으로 우리의 결과는 시각적 추론에서 RL의 신뢰할 수 있는 기여가 시각 인식의 균일한 향상이 아니라, 중후반부 트랜스포머 계산 체계를 정제하여 시각-추론 간 정렬과 추론 성능을 개선하는 데 있음을 시사합니다. 이는 다중모달 추론 개선을 이해하는 데 벤치마크 평가만으로는 한계가 있음을 강조합니다.
AI 에이전트는 점점 더 복잡한 작업을 해결할 수 있게 되었습니다. 더 야심찬 목표를 달성하기 위해서는 AI 에이전트가 문제를 의미 있게 관리 가능한 하위 구성 요소로 분해하고, 그 완수를 다른 AI 에이전트 및 인간에게 안전하게 위임할 수 있어야 합니다. 그러나 기존의 작업 분해 및 위임 방법은 단순한 경험적 규칙에 의존하며, 환경 변화에 동적으로 적응하고 예기치 않은 실패를 견고하게 처리할 수 없습니다. 본 논문에서는 지능형 AI 위임을 위한 적응형 프레임워크를 제안합니다. 이는 작업 할당을 포함하는 일련의 결정 과정으로, 권한, 책임, 의무의 이전과 역할 및 경계에 대한 명확한 규정, 의도 명확성, 그리고 두 당사자(또는 그 이상) 간 신뢰 구축 메커니즘을 통합합니다. 제안된 프레임워크는 복잡한 위임 네트워크 내에서 인간과 AI 위임자 및 수임자 모두에게 적용 가능하며, 부상하는 에이전트 기반 웹(agentic web)에서 프로토콜 개발에 기여하는 것을 목표로 합니다.
다양한 하드웨어에서 범용 구현 에이전트를 구축하는 것은 로봇공학의 핵심 과제로, 흔히 '하나의 두뇌, 다양한 형태' 패러다임으로 설명됩니다. 이 분야의 발전은 단편화된 데이터, 일관성 없는 표현 방식, 불일치하는 훈련 목표에 의해 저해되고 있습니다. 본 논문에서는 체계적인 데이터 큐레이션 파이프라인을 구축하는 동시에 모델 아키텍처와 훈련 전략을 공동 최적화하여 이기종 원시 데이터를 통합적이고 효율적인 표현으로 종단간 변환하는 ABot-M0 프레임워크를 제시합니다. 6개의 공개 데이터셋에서 샘플을 정제, 표준화, 균형 조정하여 다양한 로봇 형태와 작업 시나리오를 아우르는 600만 개 이상의 궤적과 9,500시간 이상의 데이터를 포함하는 대규모 데이터셋인 UniACT-dataset을 구축했습니다. 통합 사전 훈련은 플랫폼과 작업 간 지식 전이 및 일반화 능력을 향상시켜 범용 구현 지능을 지원합니다. 행동 예측의 효율성과 안정성을 높이기 위해 우리는 '행동 다양체 가설'을 제안합니다. 효과적인 로봇 행동은 전체 고차원 공간에 존재하는 것이 아니라 물리 법칙과 작업 제약에 의해 지배되는 저차원의 매끄러운 다양체 위에 존재한다는 것입니다. 이를 바탕으로 DiT 백본을 사용하여 깨끗하고 연속적인 행동 시퀀스를 직접 예측하는 행동 다양체 학습(AML)을 도입했습니다. 이는 학습을 노이즈 제거에서 실행 가능한 다양체로의 투영으로 전환하여 디코딩 속도와 정책 안정성을 향상시킵니다. ABot-M0는 VLM 의미 체계와 기하학적 사전 지식, VGGT 및 Qwen-Image-Edit와 같은 플러그 앤 플레이 3D 모듈의 다중 뷰 입력을 통합하는 이중 스트림 메커니즘을 통해 모듈식 인식을 지원합니다. 이는 백본 수정 없이 공간 이해력을 향상시키고 3D 추론에서 표준 VLM의 한계를 완화합니다. 실험 결과 각 구성 요소가 독립적으로 작동하며 상호 보완적 이점을 제공함을 확인했습니다. 재현성과 향후 연구를 위해 모든 코드와 파이프라인을 공개할 예정입니다.
시뮬레이션은 시각-언어-행동(VLA) 훈련을 풍부하게 하는 확장성 높고 저비용의 방법을 제공하여, 비용이 많이 드는 실제 로봇 데모에 대한 의존도를 줄여줍니다. 그러나 대부분의 시뮬-리얼 공동 훈련 방법은 지도 미세 조정(SFT)에 의존하는데, 이는 시뮬레이션을 정적인 데모 출처로만 간주하고 대규모 폐쇄형 상호작용을 활용하지 못합니다. 결과적으로 실제 세계에서의 성능 향상과 일반화는 종종 제한적입니다. 본 논문에서는 대화형 시뮬레이션의 이점을 활용하면서 실제 세계 능력을 보존하는 \textit{강화학습(RL)} 기반 시뮬-리얼 \textit{공동} 훈련(RL-Co) 프레임워크를 제안합니다. 우리의 방법은 일반적인 2단계 설계를 따릅니다: 먼저 실제 및 시뮬레이션 데모를 혼합한 데이터로 SFT를 통해 정책을 예비 학습한 후, 시뮬레이션 내에서 강화학습을 통해 미세 조정함과 동시에 실제 세계 데이터에 대한 보조 지도 손실을 추가하여 정책을 고정시키고 치명적 망각을 완화합니다. 우리는 대표적인 두 VLA 아키텍처인 OpenVLA와 π_{0.5}를 사용하여 네 가지 실제 월드 테이블탑 조작 작업에 대해 본 프레임워크를 평가하였으며, 실제 데이터만 사용한 미세 조정 및 SFT 기반 공동 훈련 대비 OpenVLA에서 +24%, π_{0.5}에서 +20%의 실제 성공률 향상을 포함한 지속적인 개선을 관찰했습니다. 더 높은 성공률을 넘어서, RL 공동 훈련은 보지 못한 작업 변형에 대한 더 강력한 일반화 능력과 실제 세계 데이터 효율성을 크게 향상시켜, 시뮬레이션을 활용하여 실제 로봇 배포를 강화하는 실용적이고 확장 가능한 경로를 제공합니다.
범용 비디오 이해는 다양한 실제 시나리오에서 시간에 따른 세밀한 시각 및 음향 정보를 모델링하는 것을 필요로 합니다. 그러나 기존 모델의 성능은 복잡한 시청각 콘텐츠를 단일하고 불완전한 설명으로 표현하여 세밀한 구성과 신뢰할 수 있는 주석이 부족한 비디오-지시어 데이터에 의해 주로 제한됩니다. 이를 해결하기 위해 우리는 다음을 소개합니다: (i) 단일 및 다중 속성 감독을 포함한 100만 개의 구조화된 세밀한 시청각 지시어 주석으로 구성된 오픈소스 컬렉션인 ASID-1M; (ii) 설명과 해당 시청각 콘텐츠 간의 의미론적 및 시간적 일관성을 강화하는 자동 검증 및 정제를 통한 확장 가능한 주석 데이터 큐레이션 파이프라인인 ASID-Verify; 그리고 (iii) ASID-1M으로 지도 미세 조정(SFT)을 통해 훈련된 비디오 이해 모델인 ASID-Captioner. 시청각 캡션 생성, 속성별 캡션 생성, 캡션 기반 질의응답 및 캡션 기반 시간적 위치 지정을 아우르는 7개 벤치마크에서의 실험 결과, ASID-Captioner는 환각 현상을 줄이고 지시어 추종 성능을 향상시키면서 세밀한 캡션 품질을 개선하는 것으로 나타났습니다. 이 모델은 오픈소스 모델 중 최첨단 성능을 달성하며 Gemini-3-Pro와 경쟁력 있는 성과를 보여줍니다.
대규모 언어 모델(LLM) 추론은 리소스가 제한된 환경에서 메모리 사용량과 메모리 대역폭에 의해 종종 제한되며, 이는 효율적인 서빙을 위한 기본 기술로 양자화를 부각시킵니다. 사후 학습 양자화(PTQ)는 4비트에서 높은 정확도를 유지하지만, 2-3비트에서는 성능이 저하됩니다. 근본적으로 기존 방법들은 각 그룹에 대해 형태 불변 양자화 격자(예: UINT2의 고정된 균일 간격)를 적용함으로써 오류 최소화를 위한 가능한 해 집합을 심각하게 제한합니다. 이를 해결하기 위해 우리는 비트 평면과 스칼라 계수를 통해 가변 양자화 격자를 구성하고, 근사 2차 정보를 사용하여 이를 반복적으로 개선하면서 양자화 오류를 점진적으로 보상하여 출력 차이를 최소화하는 Bit-Plane Decomposition Quantization(BPDQ)을 제안합니다. 2비트 영역에서 BPDQ는 단일 RTX 3090으로 Qwen2.5-72B를 서빙하며 83.85%의 GSM8K 정확도(16비트 대비 90.83%)를 달성합니다. 더 나아가, 우리는 가변 격자가 가능한 해 집합을 확장하며, 양자화 과정이 헤세 행렬로 유도된 기하 구조 내에서 최적화 목표와 지속적으로 일치함을 보이는 이론적 분석을 제공합니다. 코드: github.com/KingdalfGoodman/BPDQ.
확산 대형 언어 모델(dLLM)은 토큰 병렬 생성 능력으로 인해 자기회귀(AR) LLM의 매력적인 대안으로 부상하고 있습니다. 이러한 패러다임은 전체적인 구조 계획과 비순차적 정교화가 중요한 코드 생성에 특히 적합합니다. 이러한 잠재력에도 불구하고, dLLM을 CUDA 커널 생성에 맞춰 조정하는 것은 높은 전문성과 고품질 학습 데이터의 심각한 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 우리는 고성능 CUDA 커널에 최적화된 증강 지도 미세 조정 데이터 세트인 CuKe를 구축했습니다. 이를 기반으로 CUDA 커널 채우기 단계와 종단간 CUDA 커널 생성 단계로 구성된 2단계 선별 강화 학습(BiC-RL) 프레임워크를 제안합니다. 이 학습 프레임워크를 활용하여 우리는 1.7B, 4B, 8B의 세 가지 매개변수 규모를 아우르는 CUDA 커널 생성을 위해 설계된 확산 대형 언어 모델 시리즈인 DICE를 소개합니다. KernelBench에 대한 광범위한 실험 결과, DICE는 동등 규모의 자기회귀 및 확산 LLM을 모두 크게 능가하며 CUDA 커널 생성 분야의 새로운 최첨단 기술을 확립했습니다.
과학적 추론은 본질적으로 영역 특화 지식을 활용하기 위해 정교한 도구 키트를 통합할 것을 요구합니다. 그러나 현재 벤치마크는 이러한 엄격한 작업 흐름을 위해 에이전트가 도구를 조율하는 능력을 크게 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 4개의 자연과학 분야에 걸쳐 1,780개의 영역 특화 도구를 포함하고 견고한 실행 인프라를 지원하는 확장 가능한 상호작용 환경인 SciAgentGym을 소개합니다. 이를 보완하기 위해 기본 동작부터 장기간 작업 흐름에 이르기까지 에이전트 능력을 집중적으로 평가하기 위해 설계된 단계별 평가 도구인 SciAgentBench을 제시합니다. 우리의 평가는 중요한 병목 현상을 확인했습니다: 최첨단 모델들은 복잡한 과학적 도구 사용에 어려움을 겪습니다. GPT-5와 같은 선도적인 모델의 경우에도 상호작용 범위가 확장됨에 따라 성공률이 60.6%에서 30.9%로 급격히 하락하는데, 이는 주로 다단계 작업 흐름 실행의 실패 때문입니다. 이를 해결하기 위해 우리는 도구 행동 공간을 의존성 그래프로 모델링하여 논리 인식 훈련 궤적을 생성하는 데이터 합성 방법인 SciForge를 제안합니다. 이러한 궤적에 대해 미세 조정을 수행함으로써, 우리의 SciAgent-8B는 훨씬 더 큰 규모의 Qwen3-VL-235B-Instruct를 능가하면서 과학적 도구 사용 능력의 긍정적인 영역 간 전이를 보여줍니다. 이러한 결과는 차세대 자율 과학 에이전트의 유망한 잠재력을 강조합니다.
강화학습(RL) 미세 조정은 추론 집약적 작업에서 대규모 언어 모델(LLM)의 성능을 향상시키는 핵심 기술로 자리 잡았으며, 이는 시각 언어 모델(VLM)로의 확장을 촉진하고 있습니다. RL로 미세 조정된 VLM은 시각적 추론 벤치마크에서 성능이 향상되지만, 약한 시각적 기반, 환각 현상, 그리고 텍스트 단서에 대한 과도한 의존성이라는 취약점을 여전히 보입니다. 본 연구는 단순하고 통제된 텍스트적 교란—오해를 부르는 캡션 또는 잘못된 사고 연쇄(CoT) 흔적—이 강건성과 신뢰도에 상당한 저하를 초래하며, 이러한 영향이 오픈소스 다중모달 추론 모델들 간에 CoT 일관성을 고려할 때 더 두드러진다는 것을 보여줍니다. 엔트로피 기반 지표는 추가로 이러한 교란이 모델의 불확실성과 정답 옵션에 대한 확률 질량을 재구성하여, 모델별 보정 오류 경향을 드러낸다는 것을 보여줍니다. 이러한 취약점을 더 잘 이해하기 위해, 우리는 RL 미세 조정 동역학을 추가로 분석하고 정확도-신뢰성 간의 트레이드오프를 발견했습니다: 미세 조정은 벤치마크 정확도를 높이지만, 동시에 수반되는 CoT의 신뢰성과 맥락 변화에 대한 강건성을 훼손할 수 있습니다. 적대적 증강은 강건성을 향상시키지만, 이것만으로는 신뢰성 표류를 막지 못합니다. 신뢰성 인식 보상을 도입하면 답변과 추론 간의 일치성을 회복할 수 있으나, 증강과 결합될 때 훈련은 단순 전략에 의존하게 될 위험이 있으며 강건성은 여전히 달성하기 어렵습니다. 이러한 결과들은 종합적으로 정확도만을 평가하는 방식의 한계를 부각시키며, 정확성, 강건성 및 시각적 근거 추론의 신뢰성을 함께 강조하는 훈련 및 평가 프로토콜의 필요성을 제기합니다.
확산 모델 및 흐름 매칭과 같은 반복적 생성 정책은 연속 제어에 대해 우수한 표현력을 제공하지만, 행동 로그 밀도에 직접 접근할 수 없어 최대 엔트로피 강화 학습을 복잡하게 만듭니다. 이를 해결하기 위해 우리는 속도장의 운동 에너지를 패널티로 사용하여 정책 확률성을 규제하는 우도-비산업(likelihood-free) 프레임워크인 Field Least-Energy Actor-Critic(FLAC)을 제안합니다. 우리의 핵심 통찰은 정책 최적화를 고엔트로피 참조 과정(예: 균등 분포)에 대한 일반화 슈뢰딩거 브리지 문제로 공식화하는 것입니다. 이 관점 아래에서, 최대 엔트로피 원리는 명시적인 행동 밀도를 요구하지 않으면서 높은 엔트로피 참조에 가까이 머물며 보상을 최적화하는 과정에서 자연스럽게 등장합니다. 이 프레임워크에서 운동 에너지는 참조 분포로부터의 발산을 측정하는 물리적으로 근거된 대리 지표 역할을 합니다: 경로 공간 에너지를 최소화하면 유도된 최종 행동 분포의 편차가 제한됩니다. 이 관점을 바탕으로, 우리는 에너지 정규화된 정책 반복 체계와 라그랑지안 듀얼 메커니즘을 통해 운동 에너지를 자동으로 조정하는 실용적인 오프-폴리시 알고리즘을 유도합니다. 실험적으로 FLAC은 명시적인 밀도 추정을 회피하면서도 고차원 벤치마크에서 강력한 기준선 대비 우수하거나 비슷한 성능을 달성합니다.
본 보고서에서는 고성능과 빠르고 부드러운 실시간 실행에 최적화된 첨단 시각-언어-행동(VLA) 모델인 Xiaomi-Robotics-0를 소개합니다. 우리 방법의 핵심은 신중하게 설계된 훈련 방법론과 배포 전략에 있습니다. Xiaomi-Robotics-0는 먼저 대규모 교차 구현체(cross-embodiment) 로봇 궤적 데이터와 시각-언어 데이터로 사전 훈련되어, 기반이 되는 사전 훈련된 VLM의 시각-의미 지식에 대한 치명적 망각(catastrophic forgetting)을 방지하면서도 폭넓고 일반화 가능한 행동 생성 능력을 갖추게 됩니다. 후속 훈련(post-training) 단계에서는 실제 로봇 실행(rollout) 시 발생하는 추론 지연 시간(latency)을 해결하기 위해 비동기 실행을 위한 VLA 모델 훈련 기법 여러 가지를 제안합니다. 배포 단계에서는 연속적으로 예측된 행동 청크(chunk)의 타임스텝(timestep)을 신중하게 정렬하여 지속적이고 끊김 없는 실시간 실행을 보장합니다. 우리는 Xiaomi-Robotics-0를 시뮬레이션 벤치마크와 정밀하고 민첩한 양손 조작이 필요한 두 가지 까다로운 실제 로봇 과제에서 광범위하게 평가했습니다. 결과에 따르면 우리의 방법은 모든 시뮬레이션 벤치마크에서 최첨단 성능을 달성했습니다. 더 나아가 Xiaomi-Robotics-0는 소비자용 GPU를 사용하여 실제 로봇에서 빠르고 부드럽게 실행될 수 있으며, 두 실제 로봇 과제 모두에서 높은 성공률과 처리량(throughput)을 달성했습니다. 향후 연구를 촉진하기 위해 코드와 모델 체크포인트는 https://xiaomi-robotics-0.github.io에서 공개되었습니다.
공간 지능을 달성하기 위해서는 시각적 타당성을 넘어 물리 법칙에 기반한 세계 시뮬레이터를 구축해야 합니다. 코드 생성 LLM이 정적인 3D 장면 생성에서 진전을 보였지만, 이러한 패러다임을 4D 동역학으로 확장하는 것은 여전히 중요한 과제로 남아 있습니다. 이 과제는 두 가지 근본적인难题를 제기합니다: 단일 생성 방식이 지역적 객체 구조와 전역적 환경 배치의 균형을 맞추지 못하는 '다중 규모 문맥 얽힘' 문제, 그리고 개방형 루프 코드 생성이 동적 정확도를 결여한 물리적 환각을 초래하는 '의미론-물리학 실행 격차' 문제가 그것입니다. 우리는 4D 생성을 언어-대-시뮬레이션 코드 생성으로 공식화하는 Code2Worlds 프레임워크를 소개합니다. 첫째, 검색 증강 객체 생성과 계층적 환경 오케스트레이션을 분리하는 이중 스트림 아키텍처를 제안합니다. 둘째, 동적 정확도를 보장하기 위해 PostProcess Agent가 동역학을 스크립팅하고 VLM-Motion Critic이 자체 반성을 수행하여 시뮬레이션 코드를 반복적으로 개선하는 물리 인식 폐쇄형 루프 메커니즘을 구축합니다. Code4D 벤치마크 평가에서 Code2Worlds는 기준선 대비 41%의 SGS 향상과 49% 높은 풍부함을 보였으며, 기존 정적 방법에서는 볼 수 없었던 물리 인식 동역학을 유일하게 생성했습니다. 코드: https://github.com/AIGeeksGroup/Code2Worlds. 웹사이트: https://aigeeksgroup.github.io/Code2Worlds.
확산 기반 생성 모델의 최근 발전은 이미지 및 비디오 재조명 분야에 새로운 패러다임을 정립했습니다. 그러나 이러한 기능을 4D 재조명으로 확장하는 것은 주로 짝을 이룬 4D 재조명 학습 데이터의 부족과 극단적인 시점 변화에서 시간적 일관성을 유지하는 어려움으로 인해 여전히 과제로 남아 있습니다. 본 연구에서는 극단적인 시점 변화 하에서도 대상 조명 조건에 따라 일관된 4D 비디오를 합성하기 위해 설계된 새로운 학습 불필요 프레임워크인 Light4D를 제안합니다. 첫째, 기하학적 무결성을 보존하면서 잠재 공간에 효과적으로 조명 제어를 주입하는 시간 인식 전략인 분리형 흐름 가이던스를 도입합니다. 둘째, 시간적 일관성을 강화하기 위해 IC-Light 아키텍처 내에서 시간 일관성 어텐션을 개발하고 외관 플리커 현상을 제거하기 위해 결정론적 정규화를 추가로 통합합니다. 광범위한 실험을 통해 본 방법이 시간적 일관성과 조명 정확도 측면에서 경쟁력 있는 성능을 달성하며, -90도에서 90도에 이르는 카메라 회전을 강건하게 처리함을 입증합니다. 코드: https://github.com/AIGeeksGroup/Light4D. 웹사이트: https://aigeeksgroup.github.io/Light4D.
UniDFlow는 다중 모드 이해, 생성 및 편집을 위한 통합 이산형 플로우 매칭 프레임워크입니다. 본 프레임워크는 작업 특화적 로우랭크 어댑터를 통해 이해와 생성을 분리하여 목표 간섭과 표현 얽힘을 방지하며, 새로운 참조 기반 다중 모드 선호도 정렬을 통해 동일 조건에서의 상대적 결과를 최적화하여 대규모 재학습 없이도 정확성과 제어 가능성을 향상시킵니다. UniDFlow는 8개 벤치마크에서 SOTA 성능을 달성했으며, 인페인팅, 문맥 기반 이미지 생성, 참조 기반 편집, 구성적 생성 작업에 대해 명시적인 작업 특화 학습 없이도 강력한 제로샷 일반화 능력을 보여줍니다.
기존 추천 시스템 설계 자동화 방법론인 신경망 구조 탐색(NAS)은 인간의 사전 지식으로 정의된 고정된 탐색 공간에 제한되어, 사전 정의된 연산자 범위 내에서만 혁신이 가능했습니다. 최근 대규모 언어 모델(LLM) 기반 코드 진화 프레임워크는 고정된 탐색 공간에서 개방형 프로그램 공간으로 목표를 전환했으나, NDCG나 히트율 같은 단일 수치 지표에 의존하여 모델 실패의 질적 원인이나 개선 방향에 대한 통찰을 제공하지 못했습니다. 이를 해결하기 위해 본 연구에서는 사용자 시뮬레이터를 통한 질적 평가와 모델 진단 도구를 통한 정량적 내부 검증을 결합한 방향성 피드백 루프를 구축하는 새로운 프레임워크인 Self-EvolveRec을 제안합니다. 더 나아가 추천 아키텍처 진화에 따라 평가 기준이 동적으로 적응하도록 하는 '진단 도구-모델 공동 진화' 전략을 도입했습니다. 대규모 실험을 통해 Self-EvolveRec이 기존 NAS 및 LLM 기반 코드 진화 기준선을 추천 성능과 사용자 만족도 모두에서 크게 능가함을 입증했습니다. 코드는 https://github.com/Sein-Kim/self_evolverec에서 확인할 수 있습니다.
오디오 확산 모델은 텍스트로부터 고품질 음악을 합성할 수 있지만, 고수준 개념을 표현하는 내부 메커니즘은 아직 명확히 이해되지 않고 있습니다. 본 연구에서는 활성화 패칭(activation patching) 기법을 활용하여, 특정 악기나 보컬의 존재, 장르 특성과 같은 개별적인 의미론적 음악 개념들이 최신 오디오 확산 아키텍처 내 소수의 공유된 어텐션 계층들에 의해 제어된다는 것을 입증합니다. 다음으로, 이러한 계층들에 대비 활성화 추가(Contrastive Activation Addition)와 희소 오토인코더(Sparse Autoencoders)를 적용하면 생성된 오디오에 대한 보다 정밀한 제어가 가능해져, 이러한 특화 현상의 직접적인 이점을 확인합니다. 확인된 계층들의 활성화를 조종함으로써 템포를 조절하거나 트랙의 분위기를 변경하는 등 특정 음악 요소를 높은 정밀도로 변형할 수 있습니다.
스티어링 방법은 숨겨진 표현에서 의미론적 방향을 식별함으로써 대규모 언어 모델의 동작에 영향을 미치지만, 일반적으로 추론 시점 활성화 개입을 통해 모델의 내부 상태에 고정적이고 전역적인 수정을 가하는 방식으로 구현됩니다. 이러한 개입은 효과적이지만, 강력한 제어 하에서는 많은 동작이 소수이고 이질적인 모델 구성 요소들의 부분 집합에 의해 지배된다는 사실을 간과하기 때문에 종종 바람직하지 않은 속성-유용성 트레이드오프를 초래합니다. 우리는 이론적으로 근거를 갖춘 훈련 불필요 프레임워크인 Steer2Edit을 제안합니다. 이는 추론 시점 제어 신호로서의 스티어링 벡터를 구성 요소 수준의 랭크-1 가중치 편집을 위한 진단 신호로 변환합니다. Steer2Edit은 생성 과정에서 스티어링 방향을 균일하게 주입하는 대신, 개별 어텐션 헤드와 MLP 뉴런에 걸쳐 행동적 영향을 선택적으로 재분배하여 표준 순전파를 보존하고 최적화된 병렬 추론과 호환되는 해석 가능한 편집을 생성합니다. 안전성 정렬, 환각 완화, 추론 효율성에 걸쳐 Steer2Edit은 일관되게 더 유리한 속성-유용성 트레이드오프를 달성합니다: 동일한 하류 작업 성능 대비 안전성을 최대 17.2% 향상시키고, 진실성을 9.8% 증가시키며, 추론 길이를 평균 12.2% 단축합니다. 전반적으로 Steer2Edit은 스티어링 신호를 해석 가능하고 훈련이 필요 없는 매개변수 업데이트로 변환함으로써 표현 스티어링과 가중치 편집 사이의 원칙적인 연결고리를 제공합니다.
대규모 언어 모델(LLM)은 추천 시스템의 유망한 최전선 기술이지만, 연구 방향 설정과 자원 배분 최적화에 핵심적인 예측 가능한 스케일링 법칙의 부재로 인해 발전이 지연되어 왔습니다. 우리는 이 문제가 기존의 지속적 사전 학습(CPT)에서 사용된 원시 사용자 상호작용 데이터의 내재적 노이즈, 편향, 불완전성에 기인할 수 있다고 가정합니다. 본 논문은 LLM을 위해 체계적으로 구성된 교육 커리큘럼을 생성함으로써 이러한 문제를 회피하는 고품질 합성 데이터 생성의 새로운 계층적 프레임워크를 소개합니다. 우리는 본 합성 데이터로 학습된 표준 순차 모델이 하위 순위 결정 과제에서 실제 데이터로 학습된 모델을 크게 능가한다는 점(SasRec 기준 recall@100 130% 향상)을 보여줌으로써 일반화 가능한 사용자 선호 패턴 학습에 있어 우리 커리큘럼의 우수성과 유용성에 대한 강력한 직접적 증거를 제시합니다. 이를 바탕으로, 우리는 추천 특화 고품질 데이터로 지속적 사전 학습된 LLM에 대해 최초로 강건한 멱법칙 스케일링이 존재함을 실증적으로 입증합니다. 우리의 실험은 다양한 합성 데이터 양식에 걸쳐 일관되고 예측 가능한 퍼플렉시티 감소를 보여줍니다. 이러한 연구 결과는 추천 분야에서 LLM 역량을 안정적으로 확장하기 위한 기초 방법론을 정립함으로써, 데이터 결함 완화에서 고품질의 구조화된 정보 활용으로 연구 초점을 전환시킵니다.
대규모 파운데이션 모델은 비전 및 언어 분야에서 복잡한 문제에 대한 강력한 오픈월드 일반화 능력을 보여왔으나, 로봇공학 분야에서는 유사한 수준의 일반화가 아직 달성되지 못했습니다. 근본적인 과제 중 하나는 이러한 모델이 제로샷 능력이 제한되어 보이지 않은 시나리오에 효과적으로 일반화하는 능력을 저해한다는 점입니다. 본 연구에서는 파운데이션 모델의 일반화를 더 효과적으로 활용하여 제로샷 조작이 가능하고 로봇공학을 위한 데이터를 자동으로 생성할 수 있는 계층적 비전-언어-행동(VLA) 모델인 GeneralVLA(지식 기반 궤적 계획을 통한 일반화 가능 VLA 모델)를 제안합니다. 구체적으로, 우리는 고수준의 어포던스 분할 모듈(ASM)이 장면의 이미지 키포인트 어포던스를 인지하도록 미세 조정되고, 중간 수준의 3D 에이전트가 작업 이해, 기술 지식, 궤적 계획을 수행하여 원하는 로봇 엔드 이펙터 궤적을 나타내는 3D 경로를 생성하는 계층적 VLA 모델 클래스를 연구합니다. 이렇게 예측된 중간 3D 경로는 정밀 조작이 가능한 저수준의 3D 인식 제어 정책에 대한 지침으로 활용됩니다. 대안적 접근법과 비교하여, 우리의 방법은 실제 로봇 데이터 수집이나 인간 데모가 필요하지 않아 다양한 작업과 시점에 훨씬 더 확장 가능합니다. 실험적으로 GeneralVLA는 14개 작업에 대한 궤적 생성을 성공적으로 수행하며, VoxPoser와 같은 최첨단 방법을 크게 능가합니다. 생성된 데모는 인간 데모나 VoxPoser, Scaling-up, Code-As-Policies에 의해 생성된 데이터로 학습하는 것보다 더 강력한 행동 복제 정책을 학습시키는 데 사용될 수 있습니다. 우리는 GeneralVLA가 로봇공학을 위한 데이터 생성과 제로샷 환경에서 새로운 작업 해결을 위한 확장 가능한 방법이 될 수 있다고 믿습니다. 코드: https://github.com/AIGeeksGroup/GeneralVLA. 웹사이트: https://aigeeksgroup.github.io/GeneralVLA.
훈련 후 양자화(PTQ)는 메모리 제약 장치에 대규모 언어 모델(LLM)을 배포하는 데 필수적이지만, 모델을 정적으로 만들어 미세 조정을 어렵게 만듭니다. 강화 학습(RL)을 포함한 표준 미세 조정 패러다임은 기본적으로 역전파와 높은 정밀도의 가중치에 기반하여 기울기를 계산합니다. 따라서 매개변수 공간이 이산적이고 미분 불가능한 양자화된 모델에는 적용할 수 없습니다. 진화 전략(ES)은 역전파가 필요 없는 대안을 제공하지만, 양자화된 매개변수의 최적화는 기울기의 소실 또는 부정확성으로 인해 실패할 수 있습니다. 본 논문은 양자화된 공간에서 직접 전체 매개변수 미세 조정을 수행하는 최적화 패러다임인 양자화 진화 전략(QES)을 소개합니다. QES는 두 가지 혁신에 기반합니다: (1) 높은 정밀도의 기울기 신호를 보존하기 위해 누적 오류 피드백을 통합하고, (2) 낮은 정밀도 추론 수준으로 메모리 사용량을 줄이기 위해 상태 비저장 시드 재생을 활용합니다. QES는 산술 추론 작업에서 최신 영차 미세 조정 방법을 크게 능가하여 양자화된 모델의 직접적인 미세 조정을 가능하게 합니다. 이는 양자화된 공간에서 완전히 LLM을 확장할 가능성을 열어줍니다. 소스 코드는 https://github.com/dibbla/Quantized-Evolution-Strategies 에서 확인할 수 있습니다.
우리는 오믹스-네이티브 추론(omics-native reasoning)을 실천하는 최초의 체계적 프레임워크인 scPilot을 소개한다. 이는 대규모 언어 모델(LLM)이 단일세포 RNA-seq 데이터와 주문형 생물정보학 도구를 직접 검사하면서 자연어로 대화하는 방식이다. scPilot은 핵심 단일세포 분석(세포 유형 주석, 발달 궤적 재구성, 전사 인자 표적 분석)을 단계별 추론 문제로 변환하여 모델이 해결하고, 근거를 제시하며, 필요시 새로운 증거로 수정하도록 요구한다. 진전을 측정하기 위해, 우리는 scBench를 공개한다. 이는 9개의 전문가 검수 데이터셋과 채점자(graders)로 구성된 제품군으로, 다양한 LLM 대비 scPilot의 오믹스-네이티브 추론 능력을 충실히 평가한다. o1을 이용한 실험에서, 반복적 오믹스-네이티브 추론은 세포 유형 주석 평균 정확도를 11% 향상시켰으며, Gemini-2.5-Pro은 원샷 프롬프팅 대비 궤적 그래프 편집 거리를 30% 절감하는 동시에 마커 유전자 모호성과 조절 논리를 설명하는 투명한 추론 흔적을 생성했다. LLM을 원시 오믹스 데이터에 기반하게 함으로써, scPilot은 검증 가능하고 해석 가능하며 진단 정보를 제공하는 단일세포 분석을 가능하게 한다. 코드, 데이터 및 패키지는 https://github.com/maitrix-org/scPilot에서 이용할 수 있다.
개별 수관 매핑은 도시 나무 현황 유지 및 산림 건강 상태 모니터링과 같은 작업에 필수적이며, 이를 통해 환경을 이해하고 관리하는 데 도움이 됩니다. 그러나 항공 영상에서 수관을 자동으로 분리하는 것은 질감 및 부분적인 수관 중첩과 같은 요인으로 인해 어려운 과제입니다. 본 연구에서는 항공 레이저 스캐닝(ALS) 데이터에서 유래된 의사 레이블을 사용하여 RGB 및 다중분광 영상에서 개별 나무를 분할하고 구분하는 딥러닝 모델 훈련 방법을 제시합니다. 우리의 연구는 ALS 기반 의사 레이블이 제로샷 인스턴스 분할 모델인 Segment Anything Model 2(SAM 2)를 사용하여 향상될 수 있음을 보여줍니다. 본 방법은 수동 주석 비용 없이 광학 영상 기반 모델을 위한 도메인 특화 훈련 주석을 획득하는 방식을 제공하며, 동일 작업에 일반 도메인 배포를 목표로 한 기존 모델들을 능가하는 분할 모델로 이어집니다.
공개된 CVE에 대응하는 취약점 수정 커밋을 식별하는 것은 안전한 소프트웨어 유지관리에 필수적이지만, 대규모 저장소에는 수백만 개의 커밋이 포함되어 있고 그중 극히 일부만 보안 문제를 해결하기 때문에 규모에 따른 어려움이 지속되고 있다. 기존의 자동화된 접근법(전통적인 머신러닝 기법과 최근의 대규모 언어 모델 기반 방법 포함)은 종종 정밀도와 재현율 간의 트레이드오프가 좋지 않은 문제를 겪는다. 무작위로 샘플링된 커밋에 대해 빈번히 평가되는 이러한 방법들은 실제 환경에서 후보 커밋이 이미 보안 관련성이 높고 매우 유사한 상황, 즉 실제 어려움을 상당히 과소평가하고 있음을 우리는 발견했다. 우리는 확장 가능한 후보 순위 지정과 심층적이고 반복적인 의미론적 추론을 결합한 취약점 수정 식별을 위한 포렌식 기반 에이전트 프레임워크인 Favia를 제안한다. Favia는 먼저 효율적인 순위 지정 단계를 사용하여 커밋 검색 공간을 좁힌다. 그런 다음 ReAct 기반 LLM 에이전트를 사용하여 각 커밋을 엄격하게 평가한다. 에이전트에 특수화된 도구와 함께 환경으로서의 커밋 전 저장소를 제공함으로써, 에이전트는 취약한 구성요소를 위치 특정하고 코드베이스를 탐색하며 코드 변경 사항과 취약점 근본 원인 간의 인과적 일치를 확립하려고 시도한다. 이러한 증거 기반 프로세스는 단일 패스 또는 유사성 기반 방법으로는 파악하기 어려운 간접적, 다중 파일, 비트리비얼 수정 사항들을 강력하게 식별할 수 있게 한다. 우리는 3,708개의 실제 저장소에서 추출한 800만 개 이상의 커밋으로 구성된 대규모 데이터셋인 CVEVC에서 Favia를 평가하였으며, 현실적인 후보 선택 조건 하에서 이 방법이 최신 전통적 및 LLM 기반 베이스라인을 지속적으로 능가하며 가장 강력한 정밀도-재현율 트레이드오프와 최고의 F1-점수를 달성함을 보여준다.
언어 식별(LID)은 웹 데이터로부터 고품질 다국어 데이터셋을 구축하는 데 필수적인 단계입니다. 기존 LID 도구(OpenLID 또는 GlotLID 등)는 밀접하게 관련된 언어를 식별하고 유효한 자연어와 노이즈를 구분하는 데 종종 어려움을 겪으며, 이는 특히 저자원 언어의 경우 언어별 부분집합을 오염시킵니다. 본 연구에서는 더 많은 훈련 데이터 추가, 문제가 있는 언어 변이 클러스터 통합, 노이즈 표시를 위한 특수 레이블 도입을 통해 OpenLID 분류기를 확장합니다. 이 확장 시스템을 OpenLID-v3라고 명명하고 여러 벤치마크에서 GlotLID와 비교 평가합니다. 개발 과정에서 우리는 밀접하게 관련된 세 가지 언어 그룹(보스니아어, 크로아티아어, 세르비아어; 이탈리아 북부와 프랑스 남부의 로망스어 변이형; 스칸디나비아 언어)에 주목하며, 기존 평가 데이터셋이 부적절한 경우 새로운 평가 데이터셋을 제공합니다. 앙상블 접근법은 정밀도를 향상시키지만 저자원 언어의 경우 커버리지도 상당히 감소시킨다는 사실을 확인했습니다. OpenLID-v3는 https://huggingface.co/HPLT/OpenLID-v3에서 이용할 수 있습니다.