번역이 포함된 일일 선별된 AI 연구 논문
해석 가능성(interpretability) 방법론은 최근, 특히 대규모 언어 모델의 맥락에서 상당한 주목을 받고 있으며, 언어적 표현에 대한 통찰, 오류 탐지, 그리고 환각(hallucination) 및 반복(repetition)과 같은 모델 행동을 이해하는 데 기여하고 있습니다. 그러나 이러한 기술들은 자동 음성 인식(ASR) 분야에서는 아직 충분히 탐구되지 않고 있는데, 이는 ASR 시스템의 성능과 해석 가능성을 모두 발전시킬 수 있는 잠재력에도 불구하고 그러합니다. 본 연구에서는 로짓 렌즈(logit lens), 선형 탐사(linear probing), 활성화 패칭(activation patching)과 같은 기존의 해석 가능성 방법론을 적용하고 체계적으로 활용하여 ASR 시스템의 계층(layer) 간에 음향적 및 의미적 정보가 어떻게 진화하는지 조사합니다. 우리의 실험은 반복 환각을 유발하는 특정 인코더-디코더 상호작용과 음향 표현 깊이에 내재된 의미적 편향(semantic bias)을 포함하여 이전에는 알려지지 않았던 내부 동역학을 밝혀냈습니다. 이러한 통찰은 음성 인식에 해석 가능성 기술을 확장하고 적용하는 것의 이점을 보여주며, 모델의 투명성과 견고성을 개선하기 위한 미래 연구의 유망한 방향을 제시합니다.
비전-언어 모델(VLMs)은 종종 시각적 환각(visual hallucination) 문제를 겪는데, 이는 이미지에 실제로 존재하지 않는 내용을 말하거나, 시각적 부분을 건너뛰고 텍스트 사전 지식에만 의존하는 언어적 단축(language shortcut) 현상을 보이는 것을 의미합니다. 이러한 문제는 대부분의 VLMs 사후 훈련 방법이 단순히 검증 가능한 답변 매칭에 의존하고 최종 출력만을 지도하기 때문에, 중간 시각적 추론 과정에 명시적인 지침이 부족하기 때문에 발생합니다. 결과적으로, VLMs은 희소한 시각적 신호를 받게 되고 종종 시각적 인식보다 언어 기반 추론을 우선시하도록 학습됩니다. 이를 완화하기 위해, 기존의 일부 방법은 인간의 주석이나 외부 대형 모델에서 추출한 레이블을 사용하여 시각적 지도를 추가합니다. 그러나 인간 주석은 노동 집약적이고 비용이 많이 들며, 외부 신호는 진화하는 정책에 적응할 수 없기 때문에 분포 변화를 일으켜 보상 해킹(reward hacking)으로 이어질 수 있습니다. 본 논문에서는 강화 학습을 통해 외부 시각적 지도 없이 시각적 추론을 개선하는 자기 보상(self-rewarding) 방법인 Vision-SR1을 소개합니다. Vision-SR1은 VLM의 추론을 시각적 인식과 언어 추론 두 단계로 분해합니다. 먼저 모델은 입력 이미지를 다시 참조하지 않고도 질문에 답할 수 있는 자체 포함된 시각적 인식을 생성하도록 유도됩니다. 이 자체 포함성을 검증하기 위해, 동일한 VLM 모델이 생성된 인식만을 입력으로 사용하여 언어 추론을 수행하도록 다시 유도되고, 이를 통해 보상을 계산합니다. 이 자기 보상은 최종 출력에 대한 지도와 결합되어 시각적 인식과 언어 추론 모두를 강화하는 균형 잡힌 훈련 신호를 제공합니다. 우리의 실험 결과, Vision-SR1은 다양한 비전-언어 작업에서 시각적 추론을 개선하고 시각적 환각을 완화하며 언어적 단축에 대한 의존도를 줄이는 것으로 나타났습니다.
그래픽 사용자 인터페이스(GUI)를 위한 자율 에이전트는 과학 컴퓨팅과 같은 전문 분야에서 장기적인 계획과 정밀한 실행이 모두 요구되기 때문에 상당한 도전에 직면해 있습니다. 기존 접근 방식은 일반적인 에이전트가 계획에는 뛰어나지만 실행에서는 성능이 떨어지고, 전문 에이전트는 반대의 약점을 보이는 트레이드오프 문제를 겪고 있습니다. 최근의 구성적 프레임워크는 계획자와 실행자를 결합하여 이러한 격차를 해결하려고 시도하지만, 일반적으로 정적이고 학습이 불가능하여 경험을 통해 적응할 수 없다는 한계가 있습니다. 이는 과학 분야에서 고품질 데이터가 부족하다는 점을 고려할 때 심각한 제약입니다. 이러한 한계를 해결하기 위해, 우리는 일반적인 계획자(Cerebrum)와 전문 실행자(Cerebellum)를 통합한 새로운 학습 가능한 구성적 프레임워크인 CODA를 소개합니다. CODA는 전용의 두 단계 파이프라인을 통해 학습됩니다. 첫 번째 단계인 전문화(Specialization)에서는 소규모 작업 궤적 세트를 기반으로 각 과학 응용 프로그램에 대해 전문 계획자를 훈련하기 위해 분리된 GRPO 접근 방식을 적용합니다. 두 번째 단계인 일반화(Generalization)에서는 전문화된 전문가들의 모든 성공적인 궤적을 집계하여 통합 데이터셋을 구축하고, 이를 최종 계획자의 지도 미세 조정에 사용합니다. 이를 통해 CODA는 견고한 실행과 도메인 간 일반화 능력을 모두 갖추게 됩니다. ScienceBoard 벤치마크의 네 가지 도전적인 응용 프로그램에서 평가한 결과, CODA는 기준 모델들을 크게 능가하며 오픈소스 모델 중 새로운 최첨단 기술을 확립했습니다.
최근, 인터랙티브 디지털 휴먼 비디오 생성이 광범위한 관심을 끌며 눈부신 발전을 이루었습니다. 그러나 다양한 입력 신호와 실시간으로 상호작용할 수 있는 실용적인 시스템을 구축하는 것은 여전히 기존 방법들에 있어 어려운 과제로 남아 있습니다. 이는 높은 지연 시간, 과도한 계산 비용, 그리고 제한된 제어 가능성 등의 문제로 인해 발생합니다. 본 연구에서는 스트리밍 방식으로 인터랙티브 멀티모달 제어와 저지연 외삽을 가능하게 하는 자기회귀적 비디오 생성 프레임워크를 소개합니다. 표준 대형 언어 모델(LLM)에 최소한의 수정을 가해, 오디오, 포즈, 텍스트를 포함한 멀티모달 조건 인코딩을 입력받고, 공간적 및 의미적으로 일관된 표현을 출력하여 확산 모델의 디노이징 프로세스를 안내합니다. 이를 지원하기 위해, 다양한 소스로부터 약 20,000시간 규모의 대규모 대화 데이터셋을 구축하여 풍부한 대화 시나리오를 제공합니다. 또한, 최대 64배의 압축 비율을 가진 심층 압축 오토인코더를 도입하여 자기회귀 모델의 장기간 추론 부담을 효과적으로 완화합니다. 이중 대화, 다국어 휴먼 합성, 인터랙티브 월드 모델에 대한 광범위한 실험을 통해 저지연, 높은 효율성, 세밀한 멀티모달 제어 가능성에서 우리 접근법의 장점을 입증합니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 대규모 비전-언어 백본을 조정하여 이미지와 명령을 로봇 행동으로 매핑합니다. 그러나 현재의 VLA 디코더는 고정된 좌측에서 우측으로의 순서로 자동회귀적으로 행동을 생성하거나, 백본 외부에 연속적인 확산(diffusion) 또는 플로우 매칭(flow matching) 헤드를 부착하여 특수한 훈련과 반복적 샘플링을 요구함으로써 통일적이고 확장 가능한 아키텍처 구축을 방해합니다. 본 논문에서는 이산 확산(Discrete Diffusion) VLA를 제안합니다. 이는 이산 확산을 통해 이산화된 행동 청크를 모델링하고 VLM 백본과 동일한 교차 엔트로피 목적 함수로 훈련되는 단일 트랜스포머 정책입니다. 이 설계는 확산의 점진적 정제 패러다임을 유지하면서도 VLM의 이산 토큰 인터페이스와 자연스럽게 호환됩니다. 우리의 방법은 쉬운 행동 요소를 먼저 해결하고 어려운 요소를 나중에 처리하는 적응형 디코딩 순서를 구현하며, 정제 라운드 동안 불확실한 예측을 재검토하기 위해 보조 리마스킹(remasking)을 사용함으로써 일관성을 향상시키고 강력한 오류 수정을 가능하게 합니다. 이 통합 디코더는 사전 훈련된 비전-언어 사전 지식을 보존하고 병렬 디코딩을 지원하며, 자동회귀적 병목 현상을 해결하고 함수 평가 횟수를 줄입니다. 이산 확산 VLA는 LIBERO에서 96.3%의 평균 성공률(SR), SimplerEnv Fractal에서 71.2%의 시각적 매칭, SimplerEnv Bridge에서 49.3%의 전반적 성능을 달성하여 자동회귀 및 연속 확산 기반 모델을 모두 능가합니다. 이러한 결과는 이산 확산 행동 디코더가 정확한 행동 모델링과 일관된 훈련을 지원하며, VLA를 더 큰 모델과 데이터셋으로 확장하기 위한 기반을 마련함을 시사합니다.
최근 연구에 따르면, 사고의 연쇄(Chain-of-Thought, CoT)는 분석적 추론이나 상식 추론과 같은 소프트 추론 문제에서 종종 제한된 성능 향상만을 보여줍니다. 또한 CoT는 모델의 실제 추론 과정과 불일치할 수 있습니다. 우리는 지시 튜닝된 모델, 추론 모델, 그리고 추론 증류 모델을 대상으로 소프트 추론 과제에서의 CoT 동역학과 신뢰성을 조사했습니다. 연구 결과, 이러한 모델들이 CoT에 의존하는 방식에 차이가 있음을 밝혔으며, CoT의 영향력과 신뢰성이 항상 일치하지는 않음을 보여줍니다.
최근 텍스트-오디오(TTA) 생성 기술은 짧은 오디오 클립 합성에서는 뛰어난 성과를 보이지만, 시간적 일관성과 구성적 추론이 요구되는 장편 내러티브 오디오 생성에는 어려움을 겪고 있다. 이러한 격차를 해결하기 위해, 우리는 대규모 언어 모델(LLM)과 TTA 시스템을 통합하여 구조화된 장편 오디오 내러티브를 생성하는 통합 프레임워크인 AudioStory를 제안한다. AudioStory는 강력한 지시-따르기 추론 생성 능력을 갖추고 있다. 이는 LLM을 활용하여 복잡한 내러티브 질의를 시간 순서대로 정렬된 하위 작업과 문맥적 단서로 분해함으로써, 일관된 장면 전환과 감정적 톤의 일관성을 가능하게 한다. AudioStory는 두 가지 매력적인 특징을 가지고 있다: (1) 분리된 브리징 메커니즘: AudioStory는 LLM과 디퓨저의 협업을 두 가지 전문화된 구성 요소로 분리한다. 즉, 이벤트 내 의미적 정렬을 위한 브리징 질의와 이벤트 간 일관성 유지를 위한 잔여 질의이다. (2) 종단 간 학습: 지시 이해와 오디오 생성을 단일 종단 간 프레임워크 내에서 통합함으로써, AudioStory는 모듈식 학습 파이프라인의 필요성을 없애고 구성 요소 간의 시너지를 강화한다. 또한, 우리는 애니메이션 사운드스케이프와 자연 소리 내러티브 등 다양한 도메인을 포괄하는 벤치마크 AudioStory-10K를 구축했다. 광범위한 실험을 통해 AudioStory가 단일 오디오 생성과 내러티브 오디오 생성 모두에서 우수성을 보이며, 지시-따르기 능력과 오디오 충실도 측면에서 기존 TTA 기준선을 능가함을 입증했다. 우리의 코드는 https://github.com/TencentARC/AudioStory에서 확인할 수 있다.
확산 언어 모델(Diffusion Language Models, DLMs)은 최근 자동회귀(autoregressive) 접근법의 대안으로 등장하며, 병렬 시퀀스 생성과 유연한 토큰 순서를 제공합니다. 그러나 이들의 추론 속도는 여전히 자동회귀 모델보다 느린데, 이는 주로 양방향 어텐션의 비용과 고품질 출력을 위해 필요한 많은 수의 정제 단계 때문입니다. 본 연구에서는 DLMs의 간과된 특성인 초기 답변 수렴(early answer convergence)을 강조하고 이를 활용합니다. 많은 경우, 최종 디코딩 단계 이전의 절반 단계에서도 정답이 내부적으로 식별될 수 있으며, 이는 준-자동회귀(semi-autoregressive) 및 랜덤 리마스킹(random remasking) 스케줄 하에서 모두 관찰됩니다. 예를 들어, GSM8K와 MMLU 데이터셋에서 각각 최대 97%와 99%의 사례들이 절반의 정제 단계만으로도 정확하게 디코딩될 수 있습니다. 이러한 관찰을 바탕으로, 우리는 Prophet이라는 추가 학습이 필요 없는 빠른 디코딩 패러다임을 소개합니다. 이는 초기 커밋 디코딩(early commit decoding)을 가능하게 합니다. 구체적으로, Prophet은 상위 2개 예측 후보 간의 신뢰도 격차를 기준으로 정제를 계속할지 또는 "올인(all-in)"(즉, 남은 토큰을 한 단계에서 모두 디코딩)할지를 동적으로 결정합니다. 이는 기존 DLM 구현에 원활하게 통합되며, 미미한 오버헤드만 발생시키고 추가 학습이 필요하지 않습니다. LLaDA-8B와 Dream-7B 모델을 다양한 작업에서 평가한 결과, Prophet은 높은 생성 품질을 유지하면서 디코딩 단계 수를 최대 3.4배까지 줄였습니다. 이러한 결과는 DLM 디코딩을 샘플링을 언제 멈출지의 문제로 재조명하며, 초기 디코딩 수렴이 기존의 속도 향상 기법을 보완하는 간단하지만 강력한 DLM 추론 가속 메커니즘임을 입증합니다. 우리의 코드는 https://github.com/pixeli99/Prophet에서 공개되어 있습니다.
다중 토큰 예측(Multi-Token Prediction, MTP)은 언어 모델 훈련에서 다음 토큰 예측(Next-Token Prediction, NTP)을 개선하기 위한 보조 목적으로 제안되었으나, 표준 NLP 벤치마크에서 일관되지 않은 성능 향상을 보이며 기대에 미치지 못하는 경우가 많다. 우리는 MTP의 정확한 미래 토큰 예측이 보조 손실 함수로서 너무 어렵다는 점을 지적한다. 대신, 우리는 학습 순위(learning-to-rank) 손실을 사용하여 모델이 다가올 토큰들을 근접성에 따라 순서를 매기도록 훈련하는 토큰 순서 예측(Token Order Prediction, TOP)을 제안한다. TOP는 MTP의 다중 트랜스포머 레이어와 비교하여 단일 추가 언임베딩(unembedding) 레이어만 필요로 한다. 우리는 340M, 1.8B, 7B 파라미터 규모의 모델을 NTP, MTP, TOP 목적으로 사전 훈련하였다. 8개의 표준 NLP 벤치마크에서의 결과는 TOP가 규모에 상관없이 전반적으로 NTP와 MTP를 모두 능가함을 보여준다. 우리의 코드는 https://github.com/zaydzuhri/token-order-prediction에서 확인할 수 있다.
모델이 복잡한 문제를 해결하기 위해 점점 더 다단계 추론 전략을 활용함에 따라, 이러한 중간 단계들의 논리적 타당성을 감독하는 것은 중요한 연구 과제가 되었습니다. 프로세스 보상 모델은 단계별 피드백을 제공함으로써 이를 해결하지만, 현재의 접근 방식에는 두 가지 주요 단점이 있습니다: 일반적으로 설명 없이 분류기로 기능하며, 정적 데이터셋을 사용한 지도 미세 조정에 의존하기 때문에 일반화가 제한됩니다. 최근의 발전에 영감을 받아, 우리는 단계별 보상 모델링을 분류 작업에서 추론 작업 자체로 재구성합니다. 이를 위해, 우리는 정책 모델의 추론 단계(즉, 메타-추론)에 대해 사고하는 생성적 판단자를 제안하며, 최종 판결을 내리기 전에 사고 토큰을 출력합니다. 우리의 모델인 StepWiser는 롤아웃의 상대적 결과를 사용한 강화 학습으로 훈련됩니다. 우리는 이 모델이 (i) 기존 방법보다 중간 단계에서 더 나은 판단 정확도를 제공하고, (ii) 훈련 시 정책 모델을 개선하는 데 사용될 수 있으며, (iii) 추론 시 탐색을 개선한다는 것을 보여줍니다.
원격 광혈류측정법(rPPG)의 발전은 기존 공개 데이터셋의 중요한 문제들로 인해 제한을 받고 있습니다: 데이터셋의 작은 규모, 얼굴 영상에 대한 프라이버시 우려, 그리고 다양한 조건의 부족 등이 그 예입니다. 본 논문은 rPPG 및 건강 바이오마커 추정을 위한 포괄적이고 대규모의 다중 시점 비디오 데이터셋을 소개합니다. 우리의 데이터셋은 600명의 피험자로부터 다양한 조건(휴식 및 운동 후)에서 여러 소비자용 카메라를 통해 다양한 각도로 촬영된 3600개의 동기화된 비디오 기록으로 구성됩니다. 생리적 상태에 대한 다중 모드 분석을 가능하게 하기 위해, 각 기록은 100Hz PPG 신호와 심전도, 동맥혈압, 바이오마커, 체온, 산소 포화도, 호흡률, 스트레스 수준 등과 같은 확장된 건강 지표와 함께 제공됩니다. 이 데이터를 사용하여 효율적인 rPPG 모델을 학습시키고, 크로스 데이터셋 시나리오에서 기존 접근 방식과의 품질을 비교합니다. 우리의 데이터셋과 모델의 공개는 AI 의료 보조 도구 개발의 진전을 크게 가속화할 것으로 기대됩니다.
스마트폰은 사용자에게 상당한 편의를 제공하지만, 동시에 다양한 유형의 개인 정보를 광범위하게 기록할 수 있게 합니다. 멀티모달 대형 언어 모델(MLLMs)로 구동되는 기존의 스마트폰 에이전트는 다양한 작업을 자동화하는 데 있어서 뛰어난 성능을 보여왔습니다. 그러나 이러한 운영 과정에서 이러한 에이전트들은 민감한 사용자 개인 정보에 상당한 접근 권한을 부여받게 됩니다. 이러한 에이전트들의 프라이버시 인식에 대한 철저한 이해를 얻기 위해, 우리는 지금까지 알려진 바에 따르면 7,138개의 시나리오를 포함한 첫 번째 대규모 벤치마크를 제시합니다. 또한, 시나리오 내의 프라이버시 컨텍스트에 대해, 우리는 그 유형(예: 계정 자격 증명), 민감도 수준, 그리고 위치를 주석 처리했습니다. 그런 다음, 우리는 사용 가능한 7개의 주요 스마트폰 에이전트를 신중하게 벤치마크했습니다. 우리의 결과는 거의 모든 벤치마크된 에이전트들이 만족스럽지 못한 프라이버시 인식(RA)을 보여주며, 명시적인 힌트가 주어졌을 때도 성능이 60% 미만으로 유지됨을 보여줍니다. 전반적으로, 오픈소스 에이전트보다는 클로즈드소스 에이전트들이 더 나은 프라이버시 능력을 보여주었으며, Gemini 2.0-flash가 67%의 RA로 최고의 성능을 달성했습니다. 또한, 에이전트들의 프라이버시 탐지 능력은 시나리오의 민감도 수준과 높은 관련이 있음을 발견했는데, 즉 민감도 수준이 높은 시나리오일수록 일반적으로 더 잘 식별되는 경향이 있었습니다. 우리는 이러한 연구 결과가 스마트폰 에이전트에 대한 유틸리티와 프라이버시 간의 불균형적인 트레이드오프를 재고하도록 연구 커뮤니티에 영감을 줄 수 있기를 바랍니다. 우리의 코드와 벤치마크는 https://zhixin-l.github.io/SAPA-Bench에서 확인할 수 있습니다.
시각-언어 모델(VLMs)이 다양한 표현 간에 일관되게 추론하는지 평가하는 것은 모달리티 비교가 일반적으로 작업 차이와 비대칭적 정보에 의해 혼동되기 때문에 어려운 과제입니다. 우리는 SEAM이라는 벤치마크를 소개합니다. SEAM은 기존에 표준화된 텍스트 및 시각적 표기법이 존재하는 네 가지 도메인에서 의미적으로 동등한 입력 쌍을 제공합니다. OCR 기반 이미지-텍스트 쌍과 달리, 다양한 표기 시스템을 모달리티 간에 적용함으로써 SEAM은 VLMs의 텍스트-기호적 및 시각-공간적 추론 능력을 엄격하게 비교 평가할 수 있습니다. 21개의 최신 모델을 대상으로 한 실험에서, 우리는 체계적인 모달리티 불균형을 관찰했습니다: 문제가 의미적으로 동등한 정보를 포함하고 있음에도 불구하고, 시각적 성능이 언어적 성능에 비해 종종 뒤처지며, 교차 모달리티 일치도 상대적으로 낮았습니다. 우리의 오류 분석은 두 가지 주요 원인을 밝혀냈습니다: 도메인 표기법에서 토큰화로 인한 텍스트 인식 실패와 환각을 유발하는 시각적 인식 실패입니다. 또한, 우리의 결과가 시각적 변환에 대해 대체로 강건하다는 것을 보여줍니다. SEAM은 모달리티에 구애받지 않는 추론을 측정하고 개선하기 위한 통제된, 의미적으로 동등한 환경을 마련합니다.
모션 생성은 가상 캐릭터와 구체화된 에이전트를 애니메이션화하는 데 필수적입니다. 최근 텍스트 기반 방법들이 큰 진전을 이루었지만, 언어적 설명과 모션 의미론 간의 정확한 정렬을 달성하는 데 어려움을 겪으며, 느리고 다단계 추론의 비효율성도 문제로 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 TMR++ Aligned Preference Optimization (TAPO)를 소개합니다. 이 혁신적인 프레임워크는 미세한 모션 변형을 텍스트 수식어와 정렬하고, 반복적인 조정을 통해 의미론적 기반을 강화합니다. 더 나아가 실시간 합성을 가능하게 하기 위해, 우리는 결정론적 수정된 흐름 매칭(rectified flow matching)을 기반으로 한 고속 생성 프레임워크인 MotionFLUX를 제안합니다. 기존의 확산 모델(diffusion models)이 수백 번의 노이즈 제거 단계를 필요로 하는 반면, MotionFLUX는 노이즈 분포와 모션 공간 간의 최적 전송 경로를 구성하여 실시간 합성을 용이하게 합니다. 선형화된 확률 경로는 순차적 방법에서 일반적으로 필요한 다단계 샘플링의 필요성을 줄여, 모션 품질을 희생하지 않으면서도 추론 시간을 크게 단축합니다. 실험 결과는 TAPO와 MotionFLUX가 결합된 통합 시스템이 의미론적 일관성과 모션 품질 모두에서 최신 기술을 능가하며, 생성 속도도 가속화한다는 것을 보여줍니다. 코드와 사전 학습된 모델은 공개될 예정입니다.
연구를 수행하고 지식을 종합하는 능력은 인간의 전문성과 진보의 핵심입니다. 최근 등장한 일련의 시스템들은 생성적 연구 종합을 통해 이러한 흥미로운 능력을 제공할 것을 약속하며, 실시간 웹 검색을 수행하고 발견된 자료를 인용된 장문의 요약으로 종합합니다. 그러나 이러한 시스템을 평가하는 것은 여전히 열려 있는 과제입니다: 기존의 질의응답 벤치마크는 단문의 사실적 응답에 초점을 맞추고 있으며, 전문가가 선별한 데이터셋은 신선도를 잃거나 데이터 오염의 위험에 처해 있습니다. 둘 다 실제 연구 종합 작업의 복잡성과 진화하는 특성을 포착하지 못합니다. 본 연구에서는 생성적 연구 종합을 평가하기 위해 설계된 실시간 벤치마크이자 종합적이고 자동화된 평가 프레임워크인 DeepScholar-bench를 소개합니다. DeepScholar-bench는 최근의 고품질 ArXiv 논문에서 질의를 추출하고, 선행 연구를 검색, 종합, 인용하여 논문의 관련 연구 섹션을 생성하는 실제 연구 종합 작업에 초점을 맞춥니다. 우리의 평가 프레임워크는 지식 종합, 검색 품질, 검증 가능성이라는 세 가지 핵심 차원에서 성능을 종합적으로 평가합니다. 또한 LOTUS API를 효율적으로 사용하여 구현된 참조 파이프라인인 DeepScholar-base를 개발했습니다. DeepScholar-bench 프레임워크를 사용하여, 기존의 오픈소스 시스템, Search AI, OpenAI의 DeepResearch, 그리고 DeepScholar-base에 대한 체계적인 평가를 수행했습니다. 그 결과, DeepScholar-base는 강력한 기준선을 확립하며, 각 방법보다 경쟁력 있거나 더 높은 성능을 달성했습니다. 또한 DeepScholar-bench는 아직 포화 상태와는 거리가 멀어, 모든 메트릭에서 19%를 초과하는 시스템이 없었습니다. 이러한 결과는 DeepScholar-bench의 어려움과 생성적 연구 종합이 가능한 AI 시스템을 향한 진전의 중요성을 강조합니다. 우리는 코드를 https://github.com/guestrin-lab/deepscholar-bench에서 공개합니다.
대규모 언어 모델(LLM) 서빙은 GPU 집약적인 작업으로, 특히 현대적인 Prefill-Decode(P/D) 분리 아키텍처에서는 기존의 오토스케일러가 한계를 보입니다. 이 아키텍처 전환은 강력한 성능을 제공하지만, 이질적인 하드웨어의 비효율적 사용, 네트워크 병목 현상, 그리고 prefill과 decode 단계 간의 중요한 불균형과 같은 상당한 운영상의 문제를 야기합니다. 우리는 이러한 P/D 분리 서빙의 핵심 문제를 해결하기 위해 HeteroScale라는 조정된 오토스케일링 프레임워크를 소개합니다. HeteroScale는 이질적인 하드웨어와 네트워크 제약에 적응하는 토폴로지 인식 스케줄러와, 실제 생산 환경에서의 오토스케일링 신호에 대한 첫 번째 대규모 실증 연구에서 도출된 새로운 메트릭 기반 정책을 결합합니다. 단일의 강력한 메트릭을 활용하여 prefill과 decode 풀을 함께 스케일링함으로써, HeteroScale는 아키텍처 균형을 유지하면서도 효율적이고 적응적인 자원 관리를 보장합니다. 수만 개의 GPU로 구성된 대규모 생산 환경에 배포된 HeteroScale은 평균 GPU 활용률을 26.6% 포인트나 크게 증가시키고, 매일 수십만 GPU-시간을 절약하며, 엄격한 서비스 수준 목표를 유지하는 데 효과를 입증했습니다.
재료 모델링을 위한 기초 모델(foundation models)은 빠르게 발전하고 있지만, 그 훈련 비용이 여전히 높아 최신 기술을 많은 연구 그룹이 활용하기 어려운 상황입니다. 우리는 Nequix를 소개합니다. Nequix는 간소화된 NequIP 설계를 현대적인 훈련 기법과 결합한 컴팩트한 E(3)-등변(equivariant) 포텐셜로, 등변 제곱평균제곱근 레이어 정규화(equivariant root-mean-square layer normalization)와 Muon 옵티마이저를 포함하여 정확도를 유지하면서도 계산 요구량을 크게 줄였습니다. JAX로 구축된 Nequix는 70만 개의 매개변수를 가지며 500 A100-GPU 시간 동안 훈련되었습니다. Matbench-Discovery 및 MDR Phonon 벤치마크에서 Nequix는 전체적으로 3위를 차지하면서도 대부분의 다른 방법들보다 4분의 1 이하의 훈련 비용을 요구하며, 현재 최고 순위 모델보다 한 차원 빠른 추론 속도를 제공합니다. 우리는 모델 가중치와 완전히 재현 가능한 코드베이스를 https://github.com/atomicarchitects/nequix에서 공개합니다.
본 논문은 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 기반 에이전트 시스템에서 발견된 새로운 취약점 클래스를 식별하고 분석한다. 이 공격 체인은 개별적으로 승인된 무해한 작업들이 어떻게 조율되어 유해한 창발적 행동을 유발할 수 있는지를 설명하고 입증한다. MITRE ATLAS 프레임워크를 사용한 체계적인 분석을 통해, 브라우저 자동화, 금융 분석, 위치 추적, 코드 배포 등 여러 서비스에 접근 가능한 95개 에이전트가 어떻게 합법적인 작업들을 연결하여 개별 서비스의 보안 경계를 넘어서는 정교한 공격 시퀀스를 생성할 수 있는지를 보여준다. 이러한 레드 팀 연습은 현재 MCP 아키텍처가 다양한 도메인 간 보안 조치를 감지하거나 방지하기에 부족한지를 조사한다. 우리는 데이터 유출, 금융 조작, 인프라 침해 등 서비스 조율을 통해 목표한 피해를 달성하는 구체적인 공격 체인의 실증적 증거를 제시한다. 이러한 발견은 에이전트가 여러 도메인 간에 행동을 조율할 수 있을 때 서비스 격리라는 근본적인 보안 가정이 실패하며, 각 추가 기능마다 기하급수적으로 증가하는 공격 표면이 생성됨을 보여준다. 본 연구는 에이전트가 MCP 벤치마크 작업을 완료할 수 있는지 여부가 아니라, 그들이 작업을 너무 잘 완료하고 인간의 기대와 안전 제약을 위반하는 방식으로 여러 서비스 간에 최적화할 때 발생하는 상황을 평가하는 기본적인 실험 프레임워크를 제공한다. 우리는 기존 MCP 벤치마크 제품군을 사용한 세 가지 구체적인 실험 방향을 제안한다.