번역이 포함된 일일 선별된 AI 연구 논문
본 기술 보고서에서는 Ring-linear 모델 시리즈, 특히 Ring-mini-linear-2.0과 Ring-flash-linear-2.0을 소개합니다. Ring-mini-linear-2.0은 16B 파라미터와 957M 활성화를 포함하며, Ring-flash-linear-2.0은 104B 파라미터와 6.1B 활성화를 포함합니다. 두 모델 모두 선형 어텐션과 소프트맥스 어텐션을 효과적으로 통합한 하이브리드 아키텍처를 채택하여, 장문맥 추론 시나리오에서 I/O 및 계산 오버헤드를 크게 줄였습니다. 320억 파라미터의 밀집 모델과 비교했을 때, 이 시리즈는 추론 비용을 1/10로 줄였으며, 원래 Ring 시리즈와 비교해도 비용이 50% 이상 감소했습니다. 또한, 하이브리드 아키텍처 내에서 다양한 어텐션 메커니즘 간의 비율을 체계적으로 탐구함으로써 현재 최적의 모델 구조를 확인했습니다. 더불어, 자체 개발한 고성능 FP8 연산자 라이브러리인 linghe를 활용하여 전체 훈련 효율을 50% 향상시켰습니다. 훈련과 추론 엔진 연산자 간의 높은 정렬 덕분에, 모델은 강화 학습 단계에서 장기적이고 안정적이며 고효율적인 최적화를 거칠 수 있으며, 여러 도전적인 복잡 추론 벤치마크에서 지속적으로 SOTA 성능을 유지하고 있습니다.
강화 학습(Reinforcement Learning, RL)은 최근 대규모 언어 모델(Large Language Models, LLMs)을 정렬하고 강화하는 핵심 패러다임으로 자리 잡았습니다. 그러나 오프-폴리시(off-policy) 설정에서 RL을 적용할 때—과거 정책에서 생성된 오래된 데이터를 훈련에 사용하는 경우—샘플 효율성은 개선되지만, 여전히 몇 가지 도전 과제가 남아 있습니다: 정책 엔트로피가 급격히 감소하고, 최적화가 불안정해지며 심지어 붕괴될 위험이 있습니다. 이론적 및 실증적 분석을 통해 우리는 두 가지 핵심 통찰을 도출했습니다: (i) 최적화 과정에서 부정적 이점(negative-advantage) 샘플이 정책 그래디언트를 지배하여 유용한 행동을 억제하고 그래디언트 폭발의 위험을 초래하는 불균형, 그리고 (ii) 엔트로피 클립 규칙(Entropy-Clip Rule)으로, PPO(Proximal Policy Optimization)와 유사한 목적 함수에서 고정된 클리핑 메커니즘이 엔트로피 증가 업데이트를 체계적으로 차단하여 정책이 탐험(exploration)을 희생하면서 과도한 활용(over-exploitation)으로 치우치게 만드는 현상을 밝혀냈습니다. 이러한 통찰을 바탕으로, 우리는 적응형 클리핑을 통한 균형 잡힌 정책 최적화(BAlanced Policy Optimization with Adaptive Clipping, BAPO)를 제안합니다. 이는 클리핑 범위를 동적으로 조정하여 긍정적 및 부정적 기여를 재균형하고, 엔트로피를 보존하며, RL 최적화를 안정화하는 간단하지만 효과적인 방법입니다. 샘플 재생(sample replay) 및 부분 롤아웃(partial rollout)을 포함한 다양한 오프-폴리시 시나리오에서 BAPO는 빠르고 안정적이며 데이터 효율적인 훈련을 달성합니다. AIME 2024 및 AIME 2025 벤치마크에서, 우리의 7B BAPO 모델은 SkyWork-OR1-7B와 같은 오픈소스 대안을 능가하며, 32B BAPO 모델은 동일 규모의 모델 중에서 최신 기술(state-of-the-art) 결과를 달성할 뿐만 아니라 o3-mini 및 Gemini-2.5-Flash-Thinking와 같은 선도적인 독점 시스템도 능가합니다.
긴 문맥에 대한 추론은 대규모 언어 모델에 있어 필수적입니다. 강화 학습(RL)은 사고의 연쇄 속에서 "아하" 순간을 유도함으로써 짧은 문맥 추론을 향상시키지만, 긴 문맥 추론에 필요한 고급 사고 패턴은 여전히 크게 탐구되지 않았으며, 고난이도 RL 데이터는 부족한 실정입니다. 본 논문에서는 고급 긴 문맥 추론을 위한 데이터 기반 RL 방법인 LoongRL을 소개합니다. LoongRL의 핵심은 KeyChain으로, 짧은 다중 홉 질의응답(QA)을 고난이도 긴 문맥 작업으로 변환하는 합성 접근법입니다. 이는 UUID 체인을 삽입하여 방대한 분량의 방해 문서들 속에 실제 질문을 숨기는 방식으로 이루어집니다. 이러한 작업을 해결하기 위해서는 모델이 올바른 체인을 단계별로 추적하고, 실제 질문을 식별하며, 관련 사실을 검색하고 이를 추론하여 정확히 답변해야 합니다. KeyChain 데이터에 대한 RL 훈련은 훈련 길이를 훨씬 넘어서는 일반화된 계획-검색-추론-재확인(plan-retrieve-reason-recheck) 추론 패턴을 유도합니다. 16K 길이로 훈련된 모델은 128K 작업을 효과적으로 해결하며, 전체 길이 RL 롤아웃 비용을 크게 절감합니다. Qwen2.5-7B와 14B에서 LoongRL은 긴 문맥 다중 홉 QA 정확도를 각각 +23.5%와 +21.1%의 절대적 향상을 이끌어냅니다. 결과적으로 LoongRL-14B는 74.2점을 기록하며, o3-mini(74.5) 및 DeepSeek-R1(74.9)과 같은 훨씬 더 큰 프론티어 모델과 경쟁력을 보입니다. 또한 긴 문맥 검색을 개선하고, 모든 128K 바늘 찾기 스트레스 테스트를 통과하며, 짧은 문맥 추론 능력을 유지합니다.
일반적인 로봇을 위한 Vision-Language-Action (VLA) 모델을 훈련시키는 데는 일반적으로 대규모의 실제 로봇 데이터가 필요하며, 이를 수집하는 데는 비용과 시간이 많이 듭니다. 물리적 데이터 수집의 비효율성은 현재 VLA 시스템의 확장성과 일반화 능력을 심각하게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 세계 모델에서 생성된 데이터(예: 비디오 생성, real2real 전이, 인간 전이, 시점 전이, sim2real 전이 데이터)를 활용한 새로운 VLA 기반 모델인 GigaBrain-0를 소개합니다. 세계 모델을 통해 대규모로 다양한 데이터를 생성함으로써, GigaBrain-0는 실제 로봇 데이터에 대한 의존도를 크게 줄이면서도 작업 간 일반화 능력을 향상시킵니다. 우리의 접근 방식은 RGBD 입력 모델링과 체화된 Chain-of-Thought (CoT) 감독을 통해 정책의 견고성을 더욱 개선하여, 모델이 작업 실행 중 공간 기하학, 객체 상태, 장기적 의존성을 추론할 수 있도록 합니다. 이는 민첩한 작업, 장기적 작업, 이동 조작 작업에서 실제 성능의 상당한 향상으로 이어집니다. 광범위한 실험을 통해 GigaBrain-0가 외관(예: 질감, 색상), 객체 배치, 카메라 시점의 변화에 걸쳐 우수한 일반화 능력을 달성함을 입증했습니다. 또한, NVIDIA Jetson AGX Orin과 같은 장치에서 효율적으로 실행되도록 최적화된 경량 버전인 GigaBrain-0-Small을 제시합니다.
비선형 활성화 함수와 정규화와 같은 Transformer 구성 요소는 본질적으로 비단사적(non-injective)이므로, 서로 다른 입력이 동일한 출력으로 매핑될 수 있으며 모델의 표현으로부터 입력을 정확히 복구하는 것을 방해할 수 있습니다. 본 논문에서는 이러한 관점에 도전합니다. 첫째, 이산 입력 시퀀스를 해당하는 연속 표현 시퀀스로 매핑하는 트랜스포머 언어 모델이 초기화 시점에 설정되고 훈련 과정에서 유지되는 단사적(injective)이며 따라서 무손실(lossless)임을 수학적으로 증명합니다. 둘째, 여섯 개의 최신 언어 모델에 대해 수십억 번의 충돌 테스트를 통해 이 결과를 실증적으로 확인하고, 어떠한 충돌도 관찰하지 못했습니다. 셋째, 단사성을 실제로 활용할 수 있도록 합니다: 우리는 SipIt 알고리즘을 소개하는데, 이는 은닉 활성화로부터 정확한 입력 텍스트를 복구할 수 있음을 증명하며 선형 시간 보장을 확립하고 실제로 정확한 역변환 가능성을 입증하는 최초의 알고리즘입니다. 전반적으로, 우리의 연구는 언어 모델의 근본적이고 활용 가능한 속성으로서의 단사성을 확립하며, 이는 투명성, 해석 가능성, 안전한 배포에 직접적인 영향을 미칩니다.
컴퓨터 사용 에이전트를 훈련시키기 위해서는 대규모의 GUI 상호작용 데이터가 필요하지만, 대규모로 동작 궤적을 수동으로 주석 처리하는 것은 비용적으로 매우 부담스럽습니다. 우리는 VideoAgentTrek을 제안합니다. 이는 웹 규모로 공개적으로 이용 가능한 화면 녹화 비디오에서 자동으로 훈련 데이터를 추출하는 확장 가능한 파이프라인으로, 수동 주석의 필요성을 제거합니다. 우리의 접근 방식은 핵심적인 문제를 해결합니다: 원시 비디오는 암묵적인 시연을 포함하지만 명시적인 동작 레이블이 부족합니다. 이를 해결하기 위해, 우리는 Video2Action을 개발했습니다. 이는 두 가지 구성 요소로 이루어진 역동학 모듈(IDM)입니다: (1) 정확한 시간적 경계와 컨텍스트를 통해 GUI 동작을 탐지하고 위치를 파악하는 비디오 그라운딩 모델, 그리고 (2) 클릭 좌표와 입력된 텍스트와 같은 구조화된 매개변수를 높은 정확도로 추출하는 동작-내용 인식기입니다. 39,000개의 YouTube 튜토리얼 비디오에 적용하여, 우리의 파이프라인은 152만 개의 상호작용 단계를 자동으로 생성합니다. 우리는 이 데이터를 지속적인 사전 훈련과 지도 미세 조정을 통해 활용합니다. OSWorld-Verified에서, 우리의 접근 방식은 작업 성공률을 9.3%(SFT-only 기준)에서 15.8%로 향상시켰으며, 이는 70%의 상대적 개선입니다. AgentNetBench에서는 단계 정확도가 64.1%에서 69.3%로 증가했습니다. 우리의 결과는 수동적인 인터넷 비디오가 컴퓨터 사용 에이전트를 위한 고품질의 감독 데이터로 변환될 수 있음을 보여주며, 비용이 많이 드는 수동 주석에 대한 확장 가능한 대안을 제공합니다.
모바일 폰 에이전트(MPAs)는 다양한 시나리오에 걸친 광범위한 적용 가능성으로 인해 유망한 연구 방향으로 부상했습니다. 다중모드 대형 언어 모델(MLLMs)이 MPAs의 기반을 이루고 있지만, 여러 모바일 폰 작업을 동시에 처리하는 데 있어서는 여전히 한계가 있습니다. 다중 작업 학습을 위해 다중 작업 지도 미세 조정(SFT)이 널리 채택되고 있지만, 기존 접근법들은 최적의 성능을 위한 최적의 훈련 데이터 구성을 결정하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 DaMo(Data Mixture Optimizer)를 제안합니다. DaMo는 주어진 데이터셋 비율에 대해 다운스트림 작업 성능을 예측하여 최적의 데이터 혼합을 예측하는 훈련 가능한 네트워크를 사용하는 새로운 솔루션입니다. 포괄적인 평가를 지원하기 위해, 우리는 다중모드 모바일 폰 작업에서 MLLMs를 평가하기 위한 첫 번째 전용 벤치마크인 PhoneAgentBench을 소개합니다. 이 벤치마크는 다양한 실제 산업용 모바일 애플리케이션 시나리오를 아우르는 1235개의 QA 쌍으로 구성되어 있습니다. 소규모 파일럿 실험에서 강력한 예측 능력(R^2=0.81)을 보여준 DaMo는 최적의 데이터 혼합 구성을 효율적으로 추정합니다. 우리의 결과는 DaMo가 PhoneAgentBench에서 대체 방법들에 비해 3.38%의 성능 향상을 달성함을 보여줍니다. 또한, BFCL-v3, MME-Reasoning, MME-Perception, OCRBench을 포함한 기존 벤치마크들에 걸친 광범위한 실험은 DaMo의 우수한 일반화 능력을 보여주며, 평균 점수 기준으로 다른 접근법들보다 2.57% 우수한 성능을 보입니다. BFCL-v3 작업에서 MLLM 최적화만을 위해 사용될 때, DaMo는 다른 방법들에 비해 메트릭을 12.47% 개선합니다. 특히, DaMo는 다른 모델 아키텍처에 적용될 때도 효과를 유지하며 강력한 확장성을 보여줍니다. 코드와 데이터셋은 https://github.com/OPPO-Mente-Lab/DaMo.git에서 확인할 수 있습니다.
비전-언어 모델(VLMs)은 놀라운 발전을 이루었지만, 그 규모가 크기 때문에 자원이 제한된 환경에서는 실용적이지 못한 경우가 많습니다. 본 논문은 강력하면서도 경량화된 VLMs를 생성하기 위해 설계된 새로운 효율적인 학습 알고리즘인 통합 강화 및 모방 학습(RIL)을 소개합니다. RIL은 강화 학습과 적대적 모방 학습의 장점을 독창적으로 결합합니다. 이를 통해 더 작은 학생 VLMs는 대형 교사 모델의 정교한 텍스트 생성을 모방할 뿐만 아니라 강화 신호를 통해 생성 능력을 체계적으로 개선할 수 있습니다. 우리의 모방 프레임워크의 핵심은 학생과 교사의 출력을 능숙하게 구별하는 LLM 기반 판별자와 다양한 학습을 보장하기 위한 여러 대형 교사 VLMs의 지침으로 구성됩니다. 이 통합 학습 전략은 강화와 모방을 모두 활용하여 학생 모델이 주요 클로즈드 소스 VLMs와 경쟁할 수 있는 상당한 성능 향상을 달성할 수 있게 합니다. 다양한 비전-언어 벤치마크에서의 광범위한 실험을 통해 RIL이 최신 오픈 소스 및 클로즈드 소스 VLMs와의 성능 격차를 크게 좁히고, 여러 경우 이를 능가함을 입증했습니다.
최근 멀티모달 모델의 발전은 GPT-4o와 Nano-Banana와 같은 시스템들이 새로운 벤치마크를 설정하며 텍스트 기반 이미지 편집 능력에서 놀라운 성과를 보여주고 있습니다. 그러나 연구 커뮤니티의 진전은 실제 이미지로부터 구축된 대규모, 고품질, 공개적으로 접근 가능한 데이터셋의 부재로 인해 제약을 받고 있습니다. 우리는 Pico-Banana-400K를 소개합니다. 이는 명령 기반 이미지 편집을 위한 400K 이미지로 구성된 포괄적인 데이터셋입니다. 우리의 데이터셋은 OpenImages 컬렉션의 실제 사진들로부터 다양한 편집 쌍을 생성하기 위해 Nano-Banana를 활용하여 구축되었습니다. Pico-Banana-400K가 이전의 합성 데이터셋과 구별되는 점은 품질과 다양성을 위한 체계적인 접근 방식입니다. 우리는 세분화된 이미지 편집 분류 체계를 사용하여 편집 유형의 포괄적인 커버리지를 보장하면서도 MLLM 기반 품질 점수화와 신중한 큐레이션을 통해 정확한 콘텐츠 보존과 명령 충실도를 유지합니다. 단일 단계 편집을 넘어, Pico-Banana-400K는 복잡한 편집 시나리오 연구를 가능하게 합니다. 이 데이터셋은 세 가지 특화된 하위 집합을 포함합니다: (1) 순차적 편집, 추론, 그리고 연속적인 수정에 걸친 계획 연구를 위한 72K 예제의 다중 단계 컬렉션; (2) 정렬 연구와 보상 모델 훈련을 위한 56K 예제의 선호도 하위 집합; (3) 명령 재작성 및 요약 능력 개발을 위한 짧고 긴 편집 명령 쌍. 이 대규모, 고품질, 그리고 다양한 작업을 제공함으로써, Pico-Banana-400K는 차세대 텍스트 기반 이미지 편집 모델의 훈련과 벤치마킹을 위한 견고한 기반을 마련합니다.
전문적인 재무 보고서 작성은 노동 집약적이며 지적 수준이 높은 과정으로, 현재의 AI 시스템이 이를 완전히 자동화하기에는 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 고품질의 다중 모드 재무 보고서 생산을 위한 새로운 다중 에이전트 프레임워크인 FinSight(Financial InSight)를 소개합니다. FinSight의 기반은 Code Agent with Variable Memory(CAVM) 아키텍처로, 외부 데이터, 설계된 도구, 그리고 에이전트를 프로그래밍 가능한 가변 공간으로 통합하여 실행 가능한 코드를 통해 유연한 데이터 수집, 분석 및 보고서 생성을 가능하게 합니다. 전문가 수준의 시각화를 보장하기 위해, 우리는 Iterative Vision-Enhanced Mechanism을 제안하여 원시 시각적 출력을 점진적으로 세련된 재무 차트로 정제합니다. 또한, 두 단계의 Writing Framework는 간결한 Chain-of-Analysis 세그먼트를 일관성 있고 인용을 고려한 다중 모드 보고서로 확장하여 분석적 깊이와 구조적 일관성을 모두 보장합니다. 다양한 회사 및 산업 수준의 작업에 대한 실험 결과, FinSight는 사실적 정확성, 분석적 깊이, 그리고 프레젠테이션 품질 측면에서 모든 기준 시스템을 크게 능가하며, 인간 전문가 수준에 근접한 보고서 생성을 위한 명확한 길을 보여줍니다.
대규모 언어 모델(LLM)이 인간-AI 상호작용에서 점점 더 많이 사용됨에 따라, 대인 관계 맥락에서의 사회적 추론 능력이 중요해지고 있다. 우리는 영화 대본에서 추출한 영어와 한국어로 구성된 1,000개의 대화 데이터셋인 SCRIPTS를 소개한다. 이 작업은 각 대화에서 화자 간의 대인 관계(예: 친구, 자매, 연인)를 추론하는 모델의 사회적 추론 능력을 평가하는 것이다. 각 대화는 한국과 미국의 원어민(또는 이에 상응하는) 화자들에 의해 확률적 관계 레이블(매우 가능성 있음, 덜 가능성 있음, 가능성 없음)로 주석 처리되었다. 우리의 작업에서 9개의 모델을 평가한 결과, 현재의 상용 LLM은 영어 데이터셋에서 약 75-80%의 성능을 보였으나, 한국어 데이터셋에서는 58-69%로 성능이 하락했다. 더욱 놀라운 점은, 모델들이 응답의 10-25%에서 '가능성 없음' 관계를 선택했다는 것이다. 또한, 일반적인 추론에 효과적인 사고 모델과 사고 사슬 프롬프팅이 사회적 추론에는 최소한의 이점만을 제공하며, 때로는 사회적 편향을 증폭시키는 것으로 나타났다. 우리의 연구 결과는 현재 LLM의 사회적 추론 능력에 상당한 한계가 있음을 보여주며, 사회적으로 인식된 언어 모델 개발을 위한 노력이 필요함을 강조한다.
자율주행 세계 모델은 상태, 행동, 보상이라는 세 가지 핵심 차원에서 효과적으로 작동할 것으로 기대됩니다. 그러나 기존 모델들은 일반적으로 제한된 상태 양식, 짧은 비디오 시퀀스, 부정확한 행동 제어, 그리고 보상 인식의 부재에 제약을 받고 있습니다. 본 논문에서는 이 세 가지 차원을 통합된 프레임워크 내에서 해결하는 전지적 파노라마 내비게이션 세계 모델인 OmniNWM을 소개합니다. 상태 측면에서 OmniNWM은 RGB, 의미론, 미터법 깊이, 그리고 3D 점유도를 포함한 파노라마 비디오를 동시에 생성합니다. 유연한 강제 전략을 통해 고품질의 장기간 자동회귀 생성을 가능하게 합니다. 행동 측면에서는 입력 궤적을 픽셀 수준의 신호로 인코딩하는 정규화된 파노라마 Plucker 광선 맵 표현을 도입하여 파노라마 비디오 생성에 대한 매우 정밀하고 일반화 가능한 제어를 가능하게 합니다. 보상 측면에서는 외부 이미지 기반 모델을 사용하여 보상 함수를 학습하는 것을 넘어, 생성된 3D 점유도를 활용하여 운전 준수와 안전을 위한 규칙 기반의 밀집 보상을 직접 정의합니다. 광범위한 실험을 통해 OmniNWM이 비디오 생성, 제어 정확도, 장기간 안정성에서 최첨단 성능을 달성하며, 점유도 기반 보상을 통해 신뢰할 수 있는 폐루프 평가 프레임워크를 제공함을 입증합니다. 프로젝트 페이지는 https://github.com/Arlo0o/OmniNWM에서 확인할 수 있습니다.
마스크된 확산 언어 모델(Diffusion Language Models, DLMs)은 최근 전통적인 자기회귀 모델(Autoregressive Models, ARMs)의 유망한 대안으로 부상하고 있다. DLMs는 양방향 주의 메커니즘을 갖춘 트랜스포머 인코더를 사용하여 병렬 토큰 생성을 가능하게 하면서도 경쟁력 있는 성능을 유지한다. 그 효율성과 효과성은 광범위하게 연구되었지만, DLMs를 지배하는 내부 메커니즘은 여전히 크게 탐구되지 않았다. 본 연구에서는 DLM의 주의 패턴에 대한 실증적 분석을 수행하며, 특히 다양한 트랜스포머 기반 아키텍처에서 이전에 관찰된 '주의 싱크(attention sinking)' 현상에 초점을 맞춘다. 우리의 연구 결과는 DLMs도 주의 싱크를 나타내지만, 독특한 특성을 보인다는 것을 밝혀냈다. 첫째, ARMs와 달리 DLMs의 싱크 위치는 생성 과정 전반에 걸쳐 이동하며 동적인 행동을 보인다. 둘째, ARMs가 주의 싱크 제거에 매우 민감한 반면, DLMs는 강건성을 유지한다: 싱크를 마스킹해도 성능 저하는 미미하다. 이러한 결과는 확산 기반 언어 모델의 내부 작동 방식에 대한 새로운 통찰을 제공하며, 자기회귀 모델과 비교하여 주의를 할당하고 활용하는 방식의 근본적인 차이를 강조한다.
우리는 차트 이해와 코드 생성 능력을 평가하기 위한 새로운 벤치마크인 Chart2Code를 소개합니다. Chart2Code는 사용자 중심의 관점에서 명시적으로 설계되었으며, 다양한 실제 시나리오를 포착하고 점진적으로 과제 난이도를 높입니다. 이 벤치마크는 세 가지 수준으로 구성됩니다: Level 1(차트 재현)은 참조 그림과 사용자 쿼리에서 차트를 재현하고, Level 2(차트 편집)는 차트 유형 변경 또는 요소 추가와 같은 복잡한 수정을 포함하며, Level 3(긴 테이블에서 차트 생성)은 모델이 사용자 지시에 따라 정보가 밀집된 긴 테이블을 충실한 차트로 변환하도록 요구합니다. 우리가 아는 한, 이는 실용적인 chart2code 사용을 반영하면서도 과제 복잡도를 체계적으로 확장하는 첫 번째 계층적 벤치마크입니다. 총 22개의 차트 유형에 걸쳐 2,023개의 과제를 포함하며, 코드 정확성과 렌더링된 차트의 시각적 충실도를 모두 평가하는 다단계 평가 지표와 짝을 이룹니다. 우리는 GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL, Seed-1.6-VL 등 최신 오픈소스 모델을 포함한 25개의 최첨단(SoTA) LMM을 벤치마크했습니다. 실험 결과, SoTA 모델인 GPT-5조차도 편집 과제에서 코드 기반 평가 평균 0.57, 차트 품질 평가 평균 0.22에 그쳐 Chart2Code의 난이도를 보여줍니다. 우리는 이 벤치마크가 다중모달 추론의 발전을 촉진하고 더 강력하고 범용적인 LMM 개발을 촉진할 것으로 기대합니다. 우리의 코드와 데이터는 Chart2Code에서 확인할 수 있습니다.
대규모 멀티모달 모델(Large Multimodal Models, LMM)은 사전 학습된 가중치에 방대한 사실적 지식을 인코딩합니다. 그러나 이러한 지식은 정적이며 제한적이어서 실세계의 변화를 따라가지 못하며, 이는 지속적인 지식 습득을 방해합니다. 따라서 효과적인 지식 주입은 두 가지 목표를 포함하여 매우 중요해졌습니다: 지식 적응(새로운 지식 주입)과 지식 보존(기존 지식 유지). 기존 방법들은 새로운 지식을 학습하는 데 어려움을 겪으며, 치명적인 망각(catastrophic forgetting) 문제를 겪곤 합니다. 이를 해결하기 위해, 우리는 KORE(KnOwledge-oRientEd)라는 방법을 제안합니다. 이는 새로운 지식을 대규모 멀티모달 모델에 주입하면서 기존 지식을 보존하기 위한 구조화된 지식 증강 및 제약 조건의 시너지 방법입니다. 일반적인 텍스트 또는 이미지 데이터 증강과 달리, KORE는 개별 지식 항목을 구조화되고 포괄적인 지식으로 자동 변환하여 모델이 새로운 지식을 정확히 학습하도록 보장함으로써 정확한 적응을 가능하게 합니다. 동시에, KORE는 이전 지식을 LMM의 선형 계층 활성화의 공분산 행렬에 저장하고, 어댑터를 원래 가중치를 행렬의 영공간(null space)에 투영하여 초기화함으로써, 이전 지식과의 간섭을 최소화하는 미세 조정 방향을 정의하여 강력한 보존을 가능하게 합니다. LLaVA-v1.5-7B, LLaVA-v1.5-13B, Qwen2.5-VL-7B 등 다양한 LMM에 대한 광범위한 실험을 통해 KORE가 우수한 새로운 지식 주입 성능을 달성하고 치명적인 망각을 효과적으로 완화함을 보여줍니다.
우리는 PDF와 같은 디지털화된 인쇄 문서를 깔끔하고 자연스럽게 정렬된 일반 텍스트로 변환하기 위한 강력한 OCR 시스템의 최신 버전인 olmOCR 2를 소개합니다. olmOCR 2는 olmOCR-2-7B-1025로 구동되며, 이는 검증 가능한 보상(RLVR)을 사용한 강화 학습으로 훈련된 전문화된 70억 파라미터 시각 언어 모델(VLM)입니다. 여기서 우리의 보상은 다양한 이진 단위 테스트 세트로 구성됩니다. 단위 테스트 생성을 확장하기 위해, 우리는 다양한 도전적인 레이아웃, 알려진 HTML 소스 코드, 그리고 추출된 테스트 케이스를 포함한 합성 문서를 생성하는 파이프라인을 개발했습니다. 이러한 테스트 케이스에 대한 RL 훈련이 olmOCR-Bench(우리의 영어 OCR 벤치마크)에서 최첨단 성능을 달성하며, 특히 수식 변환, 테이블 파싱, 다중 열 레이아웃에서 이전 버전 대비 가장 큰 개선을 보임을 입증합니다. 우리는 이 모델, 데이터 및 코드를 허용적 오픈 라이선스 하에 공개합니다.
모델 컨텍스트 프로토콜(Model Context Protocol, MCP)이 도입된 이후, 대규모 언어 모델(LLMs)을 위한 도구의 수가 크게 증가했습니다. 이러한 작업별 도구 세트는 웹 브라우저와 같은 범용 도구에 대한 대안을 제공하면서도 GUI보다 개발 및 유지 관리가 더 쉽습니다. 그러나 현재의 범용 에이전트는 주로 환경과 상호작용하기 위해 웹 브라우저에 의존하고 있습니다. 여기서 우리는 다양한 실제 서비스와 상호작용하는 작업에서 도구 호출 에이전트를 평가하기 위한 벤치마크인 TheMCPCompany를 소개합니다. 우리는 이러한 서비스의 REST API를 사용하여 18,000개 이상의 도구를 포함하는 MCP 서버를 생성합니다. 또한 각 작업에 대해 수동으로 주석이 달린 정답 도구를 제공합니다. 실험에서 우리는 완벽한 도구 검색을 가정했을 때 도구 호출 에이전트가 성능 향상과 비용 절감에 대한 잠재력을 보여주기 위해 정답 도구를 사용합니다. 다음으로, 도구 기반 에이전트의 실제 적용 가능성을 연구하기 위해 도구 검색을 사용한 에이전트 성능을 탐구합니다. 도구 검색을 사용한 모든 모델은 브라우저 기반 에이전트와 유사하거나 더 나은 성능을 보이지만, 더 작은 모델은 검색을 통해 사용 가능한 도구를 완전히 활용하지 못합니다. 반면, GPT-5의 도구 검색 성능은 정답 도구를 사용한 성능과 매우 근접합니다. 전반적으로, 우리의 작업은 가장 진보된 추론 모델이 단순한 환경에서 도구를 발견하는 데 효과적이지만, 복잡한 기업 환경을 탐색하는 데는 심각한 어려움을 겪는다는 것을 보여줍니다. TheMCPCompany는 수만 개의 도구를 탐색하고 이를 비범한 방식으로 결합하여 복잡한 문제를 해결하는 것이 현재 모델에게 여전히 어려운 과제이며, 더 나은 추론과 검색 모델이 필요함을 드러냅니다.
멀티모달 대형 언어 모델(MLLMs)은 텍스트 쿼리와 관련된 시각적 토큰에 주목함으로써 강력한 비디오 이해 능력을 보여줍니다. 이를 훈련 없이 직접 지역화에 적용하기 위해, 우리는 비디오 추론 세그멘테이션을 비디오 질의응답(QA) 작업으로 간주하고 롤아웃 메커니즘을 통해 주의 맵을 추출합니다. 그러나 원시 주의 맵은 노이즈가 많고 객체 영역과 잘 정렬되지 않습니다. 우리는 이러한 맵을 두 가지 메커니즘을 통해 정제하는 Decomposed Attention Fusion(DecAF)을 제안합니다: (1) 대비 객체-배경 융합 및 (2) 보완적 비디오 프레임 융합. 이 방법은 관련 없는 활성화를 억제하고 객체 중심의 단서를 강화하여 주의 맵을 직접적으로 거친 세그멘테이션 마스크로 변환할 수 있게 합니다. 또한, 세밀한 마스크를 얻기 위해 주의 기반 SAM2 프롬프팅을 도입합니다. 기존의 MLLMs와 SAM을 함께 훈련하는 방법과 달리, 우리의 방법은 재훈련 없이 완전히 작동합니다. DecAF는 훈련이 필요 없는 방법들을 능가하며, 참조 및 추론 VOS 벤치마크에서 훈련 기반 방법과 비슷한 성능을 달성합니다. 코드는 https://github.com/HYUNJS/DecAF에서 확인할 수 있습니다.
하드웨어, 소프트웨어, 그리고 대규모 언어 모델 기술의 발전으로 인해, 인간과 운영체제 간의 상호작용은 명령줄 인터페이스에서 급속히 부상하는 AI 에이전트 상호작용으로 진화해 왔습니다. 사용자 지시를 실행하고 사용자의 의도를 충실히 따르는 운영체제(OS) 에이전트를 구축하는 것이 현실화되고 있습니다. 본 기술 보고서에서는 장기적이고 견고한 환경 상호작용을 가능하게 하면서도 개인화된 적극적인 사용자 상호작용을 지원하는 OS 에이전트인 ColorAgent를 소개합니다. 장기적인 환경 상호작용을 가능하게 하기 위해, 단계별 강화 학습과 자기 진화 훈련을 통해 모델의 능력을 강화하고, 일반성, 일관성, 견고성을 보장하는 맞춤형 다중 에이전트 프레임워크를 개발했습니다. 사용자 상호작용 측면에서는 개인화된 사용자 의도 인식과 적극적인 참여를 탐구하여, OS 에이전트를 단순한 자동화 도구가 아닌 따뜻한 협력 파트너로 위치시켰습니다. ColorAgent를 AndroidWorld와 AndroidLab 벤치마크에서 평가한 결과, 각각 77.2%와 50.7%의 성공률을 달성하여 새로운 최첨단 기술을 확립했습니다. 그러나 현재의 벤치마크는 OS 에이전트의 포괄적인 평가에 충분하지 않으며, 특히 평가 패러다임, 에이전트 협업, 보안 분야에서의 추가 탐구 방향을 제안합니다. 우리의 코드는 https://github.com/MadeAgents/mobile-use에서 확인할 수 있습니다.
대규모 멀티모달 모델(LMMs)은 크로스모달 사전 학습을 통해 풍부한 사실 지식을 인코딩하지만, 정적 표현 방식으로 인해 시간에 민감한 사실 지식에 대한 정확한 이해를 유지하는 데 어려움을 겪습니다. 기존 벤치마크는 정적 설계에 제한되어 있어 LMMs의 시간 민감 지식 이해 능력을 충분히 평가하지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 MINED라는 포괄적인 벤치마크를 제안합니다. MINED는 6가지 주요 차원(인지, 인식, 신뢰성, 이해, 추론, 견고성)과 11개의 도전적인 과제를 통해 시간적 인식을 평가합니다. MINED는 두 명의 전문 주석자가 위키백과에서 수집한 2,104개의 시간 민감 지식 샘플로 구성되며, 여섯 가지 지식 유형을 포괄합니다. MINED를 사용하여 널리 사용되는 15개의 LMMs를 평가한 결과, Gemini-2.5-Pro가 평균 CEM 점수 63.07로 가장 높은 성적을 거두었으며, 대부분의 오픈소스 LMMs는 여전히 시간 이해 능력이 부족한 것으로 나타났습니다. 한편, LMMs는 조직 지식에서 가장 우수한 성능을 보였지만, 스포츠 지식에서는 가장 약한 성능을 보였습니다. 이러한 문제를 해결하기 위해, 우리는 지식 편집 방법을 통해 LMMs의 시간 민감 지식을 업데이트하는 가능성을 조사했으며, 단일 편집 시나리오에서 LMMs가 지식 편집 방법을 통해 효과적으로 지식을 업데이트할 수 있음을 관찰했습니다.
최적화 모델링은 다양한 산업 분야에서 중요한 의사결정을 가능하게 하지만, 이를 자동화하는 것은 여전히 어려운 과제입니다: 비공식적인 언어를 정확한 수학적 공식화와 실행 가능한 솔버 코드로 매핑해야 합니다. 기존의 대형 언어 모델(LLM) 접근법은 취약한 프롬프팅에 의존하거나 제한된 일반화 능력을 가진 비용이 많이 드는 재학습을 필요로 했습니다. 우리는 AlphaOPT를 제안합니다. 이는 LLM이 제한된 데모(심지어 정답만으로도, 골드 스탠다드 프로그램 없이)와 솔버 피드백을 통해 학습할 수 있도록 하는 자기 개선형 경험 라이브러리로, 주석이 달린 추적 기록이나 매개변수 업데이트 없이도 작동합니다. AlphaOPT는 지속적인 두 단계 사이클로 운영됩니다: (i) 실패한 시도를 반영하여 솔버 검증된 구조화된 통찰을 {분류, 조건, 설명, 예시}로 추출하는 라이브러리 학습 단계, 그리고 (ii) 검색 불일치를 진단하고 저장된 통찰의 적용 조건을 개선하여 작업 간 전이를 향상시키는 라이브러리 진화 단계입니다. 이 설계는 (1) 정제된 근거 없이도 제한된 데모로부터 효율적으로 학습하고, (2) 모델 가중치 대신 라이브러리를 업데이트함으로써 비용이 많이 드는 재학습 없이 지속적으로 확장하며, (3) 지식을 명시적이고 해석 가능하게 만들어 인간의 검사와 개입을 가능하게 합니다. 실험 결과, AlphaOPT는 더 많은 데이터로 꾸준히 개선되었으며(100개에서 300개 훈련 항목으로 65%에서 72%로 증가), 정답만으로 훈련했을 때 분포 외 OptiBench 데이터셋에서 가장 강력한 베이스라인을 7.7% 앞섰습니다. 코드와 데이터는 https://github.com/Minw913/AlphaOPT에서 확인할 수 있습니다.
기존의 파라미터 효율적 미세 조정(PEFT) 방법은 주로 두 가지 범주로 나뉩니다: 추가 기반 방식과 선택적 현지 적응 방식입니다. 전자의 경우, LoRA와 같은 방법이 추가 모듈을 도입하여 모델을 다운스트림 작업에 적응시키며, 강력한 메모리 효율성을 제공합니다. 그러나 이러한 방법의 표현 능력은 종종 제한적이어서, 세밀한 적응에는 적합하지 않습니다. 반면, 후자의 방식은 원본 모델 파라미터 중 신중하게 선택된 부분 집합을 직접 미세 조정함으로써 더 정밀하고 효과적인 적응을 가능하게 하지만, 이는 상당히 증가한 메모리 소비를 초래합니다. 이러한 트레이드오프를 조화롭게 해결하기 위해, 우리는 NeuroAda라는 새로운 PEFT 방법을 제안합니다. 이 방법은 높은 메모리 효율성을 유지하면서도 세밀한 모델 미세 조정을 가능하게 합니다. 우리의 접근 방식은 먼저 선택적 적응 방식과 마찬가지로 중요한 파라미터(즉, 네트워크 내의 연결)를 식별한 다음, 이러한 선택된 파라미터에 대해 바이패스 연결을 도입합니다. 미세 조정 과정에서 오직 바이패스 연결만이 업데이트되며, 원본 모델 파라미터는 동결 상태로 유지됩니다. 자연어 생성 및 이해를 포함한 23개 이상의 작업에 대한 실험 결과는 NeuroAda가 0.02% 이하의 학습 가능한 파라미터만으로도 최첨단 성능을 달성하며, CUDA 메모리 사용량을 최대 60%까지 줄일 수 있음을 보여줍니다. 우리는 코드를 여기에서 공개합니다: https://github.com/FightingFighting/NeuroAda.git.
멀티모달 대형 언어 모델(MLLMs)은 빠르게 발전하고 있지만, 그들의 추론 능력은 종종 강력한 텍스트 전용 모델에 비해 뒤처지는 경우가 많습니다. 이러한 격차를 해소하기 위한 기존 방법은 대규모 멀티모달 추론 데이터에 대한 지도 미세 조정이나 강화 학습에 의존하는데, 이 둘 모두 자원 집약적입니다. 이를 해결할 수 있는 유망한 대안은 모델 병합으로, 추론 능력이 강화된 LLM과 멀티모달 변형 모델 간의 매개변수를 보간하는 방식입니다. 그러나 우리의 분석에 따르면, 단순한 병합이 항상 "공짜 점심"은 아닙니다: 그 효과는 모델 계열에 따라 크게 달라지며, 일부(예: LLaVA, Idefics)는 이점을 얻는 반면 다른 모델(예: Qwen)은 성능 저하를 겪습니다. 이를 해결하기 위해, 우리는 경량화된 방법인 DRIFT(Directional Reasoning Injection for Fine-Tuning) MLLMs를 제안합니다. 이 방법은 멀티모달 정렬을 불안정하게 하지 않으면서 그래디언트 공간에서 추론 지식을 전달합니다. DRIFT는 추론 변형과 멀티모달 변형 간의 매개변수 공간 차이를 추론 사전으로 미리 계산한 후, 이를 멀티모달 미세 조정 중 그래디언트를 편향시키는 데 사용합니다. 이 접근법은 표준 지도 미세 조정 파이프라인의 단순성을 유지하면서도 효율적인 추론 전달을 가능하게 합니다. MathVista 및 MathVerse를 포함한 멀티모달 추론 벤치마크에서의 광범위한 실험을 통해 DRIFT가 단순 병합 및 지도 미세 조정보다 일관되게 추론 성능을 향상시키며, 비용의 일부로 훈련 집약적인 방법을 능가하거나 동등한 성능을 보임을 입증했습니다.
고품질의 사전 학습 데이터는 대규모 언어 모델에 있어 핵심적인 요소로, 여기서 품질은 사실적 신뢰도와 의미적 가치를 포괄하며, 다양성은 광범위한 커버리지와 분포적 이질성을 보장합니다. 기존 접근법은 일반적으로 단일 또는 다차원 점수 기반 선택에 의존합니다. 그러나 최고 점수 데이터를 직접 선택하는 경우 성능 저하가 발생할 수 있으며, 결과를 회복하기 위해서는 더 넓은 범위에서 샘플링이 필요합니다. 데이터셋 점수와 다운스트림 벤치마크 결과 간의 이러한 비단조성은 근본적인 편향을 드러냅니다: 점수 기반 방법은 상관된 차원을 축소시켜 최고 점수 데이터가 고품질로 보이게 하지만 다양성을 체계적으로 간과합니다. 우리는 다양성을 보장하기 위해 상관된 지표를 직교하는 특징 차원으로 분해하고, 이를 통해 최고 점수 데이터를 직접 선택할 수 있어야 한다고 주장합니다. 따라서, 우리는 데이터 선택 과정에서 품질과 다양성을 모두 보존하는 직교 다양성 인식 선택(Orthogonal Diversity-Aware Selection, ODiS) 알고리즘을 제안합니다. 먼저, ODiS는 언어 품질, 지식 품질, 이해 난이도 등을 포함한 다차원에서 데이터를 평가합니다. 다차원 점수는 주성분 분석(PCA)을 통해 상관관계가 제거되어 직교 평가 차원을 생성합니다. 각 차원에 대해, PCA 투영 점수에 데이터를 회귀시키기 위해 Roberta 기반 스코어러를 훈련시켜 대규모 코퍼스에 대한 확장 가능한 추론을 가능하게 합니다. 마지막으로, ODiS는 각 직교 차원 내에서 최고 점수 데이터를 선택하여 훈련 데이터셋을 구성함으로써 품질과 다양성을 모두 보장합니다. 실험 결과, ODiS로 선택된 데이터는 차원 간 중복이 2% 미만으로 나타나 차원 간 직교성을 확인했습니다. 더 중요한 것은, ODiS로 선택된 데이터로 훈련된 모델이 다운스트림 벤치마크에서 다른 기준선을 크게 능가하며, 이는 LLM을 위한 직교적이고 다양성 인식 데이터 선택의 필요성을 강조합니다.
룸 임펄스 응답(Room Impulse Response, RIR)은 디리버베레이션(dereverberation), 강건한 음성 인식, 소스 위치 추정, 그리고 실내 음향 추정을 위한 핵심 자원입니다. 우리는 RIR-Mega를 소개합니다. 이는 시뮬레이션된 RIR의 대규모 컬렉션으로, 간결하고 기계 친화적인 메타데이터 스키마로 설명되며, 검증과 재사용을 위한 간단한 도구와 함께 배포됩니다. 이 데이터셋은 Hugging Face Datasets 로더, 메타데이터 검사 및 체크섬을 위한 스크립트, 그리고 파형에서 RT60과 같은 타겟을 예측하는 참조 회귀 베이스라인과 함께 제공됩니다. 36,000개의 훈련 데이터와 4,000개의 검증 데이터로 나뉜 데이터셋에서, 경량의 시간 및 스펙트럼 특징을 사용한 작은 랜덤 포레스트는 평균 절대 오차가 약 0.013초, 평균 제곱근 오차가 약 0.022초에 도달합니다. 우리는 스트리밍과 빠른 테스트를 위해 Hugging Face에 1,000개의 선형 배열 RIR과 3,000개의 원형 배열 RIR로 구성된 부분집합을 호스팅하며, 전체 50,000개의 RIR 아카이브는 Zenodo에 보관합니다. 데이터셋과 코드는 재현 가능한 연구를 지원하기 위해 공개되어 있습니다.
대규모 언어 모델(LLM)의 진전을 평가하는 것은 종종 응답을 검증하는 데 어려움이 있어 수학, 프로그래밍, 짧은 형식의 질문-응답과 같은 작업으로 평가가 제한된다. 그러나 많은 실제 응용 프로그램에서는 전문 문서 처리, 정보 종합, 사용자 질의에 대한 포괄적인 보고서 생성 등에서 LLM을 평가해야 한다. 우리는 ProfBench를 소개한다: 물리학 박사, 화학 박사, 금융 MBA, 컨설팅 MBA 등 전문 지식을 가진 인간 전문가가 평가한 7000개 이상의 응답-기준 쌍으로 구성된 데이터셋이다. 우리는 자가 강화 편향을 완화하고 평가 비용을 2-3배 줄여 더 넓은 커뮤니티가 공정하고 접근 가능하게 사용할 수 있는 강력하고 경제적인 LLM-Judge를 구축했다. 우리의 연구 결과는 ProfBench가 최첨단 LLM에게도 상당한 도전을 제시하며, GPT-5-high와 같은 최고 성능 모델도 전체 성능이 65.9%에 불과하다는 것을 보여준다. 또한, 독점 모델과 오픈 웨이트 모델 간의 성능 차이를 확인하고, 복잡한 전문 도메인 작업을 해결하는 데 확장된 사고가 어떤 역할을 하는지에 대한 통찰을 제공한다. 데이터: https://huggingface.co/datasets/nvidia/ProfBench 및 코드: https://github.com/NVlabs/ProfBench
사람들은 텍스트를 본다. 인간은 단어를 시각적 객체로 인식하여 그 형태, 레이아웃, 패턴을 파악한 후 의미와 연결함으로써 읽기를 수행한다. 이는 오타, 왜곡된 폰트, 다양한 문자 체계를 효과적으로 처리할 수 있게 해준다. 그러나 현대의 대규모 언어 모델(LLMs)은 하위 단어 토큰화(subword tokenization)에 의존하여 텍스트를 고정된 어휘집에서 나온 조각들로 분할한다. 이 방법은 고자원 언어에서는 효과적이지만, 저자원 언어에서는 과도하게 분할되어 길고 언어학적으로 의미 없는 시퀀스를 생성하며 계산 비용을 증가시킨다. 본 연구에서는 이러한 고정된 패러다임에 도전하고 시각 중심의 대안을 제시한다. 우리의 방법인 SeeTok은 텍스트를 이미지(시각적 텍스트)로 렌더링하고, 사전 훈련된 다중 모달 LLMs를 활용하여 이를 해석함으로써 대규모 다중 모달 훈련에서 학습된 강력한 OCR 및 텍스트-시각 정렬 능력을 재사용한다. 세 가지 다른 언어 작업에서 SeeTok은 하위 단어 토큰화 기법과 동등하거나 더 나은 성능을 보이면서도 4.43배 적은 토큰을 사용하고 FLOPs를 70.5% 감소시켰으며, 교차 언어 일반화, 타이포그래피 노이즈에 대한 강건성, 언어적 계층 구조에서 추가적인 이점을 보였다. SeeTok은 상징적 토큰화에서 인간과 유사한 시각적 읽기로의 전환을 시사하며, 더 자연스럽고 인지적으로 영감을 받은 언어 모델로 나아가는 한 걸음을 내딛는다.
텍스트-이미지(T2I) 모델은 빠르게 발전해 왔지만, 여전히 의미론적 누출(semantic leakage), 즉 서로 다른 개체 간에 의미론적으로 관련된 특성이 의도치 않게 전달되는 문제에 취약하다. 기존의 완화 전략은 주로 최적화 기반이거나 외부 입력에 의존하는 방식이었다. 본 연구에서는 경량화되고 최적화가 필요 없는 추론 시점 접근법인 DeLeaker를 소개한다. DeLeaker는 모델의 주의 맵(attention map)에 직접 개입하여 누출을 완화한다. 확산 과정 전반에 걸쳐 DeLeaker는 주의 맵을 동적으로 재가중하여 과도한 개체 간 상호작용을 억제하는 동시에 각 개체의 정체성을 강화한다. 체계적인 평가를 지원하기 위해, 우리는 의미론적 누출에 전념한 최초의 데이터셋인 SLIM(Semantic Leakage in IMages)을 도입했다. 이 데이터셋은 다양한 시나리오를 아우르는 1,130개의 인간 검증 샘플과 함께 새로운 자동 평가 프레임워크로 구성되어 있다. 실험 결과, DeLeaker는 외부 정보가 제공된 경우에도 모든 기준 모델을 일관되게 능가하며, 충실도나 품질을 저하시키지 않고 효과적인 누출 완화를 달성했다. 이러한 결과는 주의 제어의 가치를 강조하며, 더 의미론적으로 정확한 T2I 모델 개발의 길을 열어준다.
멤버십 추론 공격(MIA)과 기계 생성 텍스트 탐지는 각각 훈련 샘플과 합성 텍스트를 식별한다는 서로 다른 목표를 가지고 있지만, 이들의 방법론은 종종 언어 모델의 확률 분포를 기반으로 한 유사한 신호를 활용합니다. 이러한 공통된 방법론적 기반에도 불구하고, 두 과제는 독립적으로 연구되어 왔으며, 이는 다른 과제에서 개발된 더 강력한 방법과 유용한 통찰을 간과하는 결론으로 이어질 수 있습니다. 본 연구에서는 MIA와 기계 텍스트 탐지 간의 전이 가능성, 즉 한 과제를 위해 개발된 방법이 다른 과제에서 얼마나 잘 수행되는지를 이론적 및 실증적으로 조사합니다. 이론적 기여로서, 우리는 두 과제에서 점근적으로 최고 성능을 달성하는 메트릭이 동일함을 증명합니다. 우리는 이 최적 메트릭의 맥락에서 기존 문헌의 상당 부분을 통합하고, 주어진 메트릭이 이 최적 메트릭을 얼마나 정확하게 근사하는지가 그 전이 가능성과 직접적으로 상관관계가 있다는 가설을 세웁니다. 13개 도메인과 10개 생성기를 대상으로 7개의 최신 MIA 방법과 5개의 최신 기계 텍스트 탐지기를 포함한 대규모 실험을 통해, 교차 과제 성능에서 매우 강한 순위 상관관계(rho > 0.6)를 입증합니다. 특히, 기계 텍스트 탐지를 위해 원래 설계된 Binoculars가 MIA 벤치마크에서도 최신 성능을 달성함으로써 전이 가능성의 실질적인 영향을 보여줍니다. 우리의 연구 결과는 두 연구 커뮤니티 간의 더 큰 교차 과제 인식과 협력의 필요성을 강조합니다. 교차 과제 개발과 공정한 평가를 용이하게 하기 위해, 우리는 두 과제에서 최근에 개발된 15개 방법을 구현한 통합 평가 도구인 MINT를 소개합니다.
트랜스포머는 종종 일반화 가능한 알고리즘을 학습하는 데 실패하고, 대신 취약한 휴리스틱에 의존하는 경향이 있다. 그래프 연결성을 테스트베드로 사용하여, 우리는 이 현상을 이론적 및 실증적으로 설명한다. 우리는 단순화된 트랜스포머 아키텍처인 분리된 트랜스포머를 고려하고, L-레이어 모델이 최대 3^L까지의 직경을 가진 그래프를 해결할 수 있는 능력을 가지고 있음을 증명한다. 이는 인접 행렬의 거듭제곱을 계산하는 것과 동등한 알고리즘을 구현한다. 우리는 학습 동역학을 분석하고, 학습된 전략이 대부분의 학습 인스턴스가 이 모델의 능력 범위 내에 있는지 여부에 달려 있음을 보여준다. 능력 범위 내의 그래프(직경 ≤ 3^L)는 올바른 알고리즘적 해결책을 학습하도록 이끌지만, 능력 범위를 벗어난 그래프는 노드 차수에 기반한 단순한 휴리스틱을 학습하도록 이끈다. 마지막으로, 우리는 학습 데이터를 모델의 능력 범위 내로 제한하는 것이 표준 트랜스포머와 분리된 트랜스포머 모두가 차수 기반 휴리스틱이 아닌 정확한 알고리즘을 학습하도록 이끈다는 것을 실증적으로 보여준다.