번역이 포함된 일일 선별된 AI 연구 논문
희소 오토인코더(SAE)는 신경망의 활성화를 인간이 해석 가능한 희소 특징 집합으로 분해함으로써 신경망을 해석하는 유망한 도구로 부상했습니다. 최근 연구에서는 여러 SAE 변형을 도입하고 이를 최첨단 모델에 확장 적용하는 데 성공했습니다. 많은 기대를 모았지만, 다운스트림 작업에서 부정적인 결과가 늘어나면서 SAE가 의미 있는 특징을 복구하는지에 대한 의문이 제기되고 있습니다. 이를 직접 조사하기 위해 우리는 두 가지 상호 보완적인 평가를 수행합니다. 실제 특징이 알려진 합성 설정에서 SAE는 71%의 설명된 분산을 달성했음에도 불구하고 실제 특징의 9%만 복구하는 것으로 나타나, 재구성이 강력한 경우에도 핵심 작업에 실패함을 보여줍니다. 실제 활성화에 대한 SAE를 평가하기 위해 SAE 특징 방향이나 활성화 패턴을 무작위 값으로 제한하는 세 가지 기준 모델을 도입했습니다. 다양한 SAE 아키텍처에 걸친 광범위한 실험을 통해 우리의 기준 모델이 완전히 훈련된 SAE와 해석 가능성(0.87 대 0.90), 희소 프로빙(0.69 대 0.72), 인과 편집(0.73 대 0.72)에서 동등한 성능을 보임을 확인했습니다. 이러한 결과를 종합하면, 현재 상태의 SAE는 모델의 내부 메커니즘을 신뢰성 있게 분해하지 못한다는 것을 시사합니다.
에이전트 스킬은 추론 시점에 LLM 에이전트의 능력을 향상시키는 절차적 지식의 구조화된 패키지입니다. 급속한 도입에도 불구하고, 이러한 스킬이 실제로 도움이 되는지 측정하는 표준화된 방법은 부재했습니다. 본 연구는 11개 도메인에 걸친 86개 과제로 구성된 벤치마크인 SkillsBench를 제시하며, 각 과제는 선별된 스킬과 결정론적 검증 도구와 함께 제공됩니다. 각 과제는 스킬 미사용, 선별된 스킬 사용, 자체 생성 스킬 사용이라는 세 가지 조건 하에서 평가됩니다. 우리는 7가지 에이전트-모델 구성을 대상으로 총 7,308회의 트랙젝토리를 실험했습니다. 선별된 스킬은 평균 통과율을 16.2%p(p) 향상시켰으나, 효과는 도메인별로 크게 차이났으며(소프트웨어 공학 +4.5%p에서 헬스케어 +51.9%p), 84개 과제 중 16개에서는 오히려 부정적인 효과를 보였습니다. 자체 생성 스킬은 평균적으로 이점을 제공하지 않아, 모델이 소비 시에는 이점을 얻는 절차적 지식을 안정적으로 작성하지 못함을 보여줍니다. 2-3개의 모듈로 구성된 집중형 스킬이 포괄적인 문서화보다 우수한 성능을 보였으며, 스킬을 보유한 소규모 모델이 스킬 없이 동작하는 대규모 모델의 성능에 필적할 수 있었습니다.
GLM-5는 '바이브 코딩(vibe coding)' 패러다임을 '에이전트 공학(agentic engineering)'으로 전환하도록 설계된 차세대 파운데이션 모델을 소개합니다. 선행 모델의 에이전트 능력, 추론 능력, 코딩 능력(ARC)을 기반으로 구축된 GLM-5는 DSA를 채택하여 긴 콘텍스트 정확도를 유지하면서도 학습 및 추론 비용을 크게 절감했습니다. 모델 정렬과 자율성을 향상시키기 위해, 생성 과정과 학습 과정을 분리하여 사후 학습 효율을 극적으로 개선하는 새로운 비동기 강화 학습 인프라를 구현했습니다. 더 나아가 RL 품질을 추가로 향상시키는 새로운 비동기 에이전트 RL 알고리즘을 제안하여, 모델이 복잡하고 장기적인 상호 작용으로부터 더 효과적으로 학습할 수 있도록 했습니다. 이러한 혁신을 통해 GLM-5는 주요 오픈 벤치마크에서 최첨단 성능을 달성했습니다. 가장 중요한 것은, GLM-5가 실제 코딩 작업에서 전례 없는 능력을 보여주며 엔드투엔드 소프트웨어 엔지니어링 과제 처리에서 기존 기준선을 능가한다는 점입니다. 코드, 모델 및 자세한 정보는 https://github.com/zai-org/GLM-5에서 확인할 수 있습니다.
대규모 언어 모델 에이전트가 네트워크 환경에서 점차 확산됨에 따라 근본적인 질문이 대두된다: 인공지능(AI) 에이전트 사회도 인간 사회 시스템과 유사한 수렴 동역학을 겪는가? 최근 Moltbook은 자율 에이전트가 개방형이며 지속적으로 진화하는 온라인 사회에 참여하는 합리적인 미래 시나리오를 구현한다. 본 연구는 이 AI 에이전트 사회에 대한 최초의 대규모 시스템적 진단을 제시한다. 정적 관찰을 넘어, 우리는 AI 에이전트 사회의 동적 진화를 위한 정량적 진단 프레임워크를 도입하여 의미론적 안정화, 어휘 교체, 개체 관성, 영향력 지속성, 집단적 합의를 측정한다. 우리의 분석은 Moltbook 내에서 동적 균형을 이루는 시스템을 보여준다: 전역 의미론적 평균은 빠르게 안정화되지만, 개별 에이전트는 높은 다양성과 지속적인 어휘 교체를 유지하여 동질화를 거부한다. 그러나 에이전트는 강한 개체 관성을 보이며 상호작용 상대에 대한 적응적 반응이 최소화되어 상호 영향력과 합의를 방해한다. 그 결과, 영향력은 일시적으로만 머물며 지속적인 슈퍼노드가 나타나지 않고, 공유된 사회적 기억의 부재로 인해 안정적인 집단적 영향력의 정착점이 개발되지 못한다. 이러한 발견은 규모와 상호작용 밀도만으로는 사회화를 유도하기에 부족함을 입증하며, 차세대 AI 에이전트 사회를 위한 실행 가능한 설계 및 분석 원칙을 제공한다.
우리는 종단간 연구 수행 능력을 평가하기 위한 벤치마크 및 실행 환경인 ResearchGym을 소개한다. 이를 구현하기 위해 ICML, ICLR, ACL의 구두 발표 및 스포트라이트 논문 5편을 재구성했다. 각 논문의 저장소에서 데이터셋, 평가 도구, 베이스라인 구현체는 유지하되, 논문에서 제안한 방법론은 제외했다. 이를 통해 총 39개의 하위 작업으로 구성된 5개의 컨테이너화된 작업 환경을 구축했다. 각 환경에서 에이전트는 새로운 가설을 제안하고 실험을 실행하며, 해당 논문의 평가 지표에서 강력한 인간 베이스라인을 능가하려 시도해야 한다. GPT-5 기반 에이전트에 대한 통제 평가에서 능력-신뢰도 간극이 뚜렷이 관찰되었다. 해당 에이전트는 저장소에서 제공된 베이스라인 대비 15회 평가 중 단 1회(6.7%)에서 11.5% 개선에 그쳤으며, 평균적으로 하위 작업의 26.5%만 완료했다. 우리는 인내심 부족, 시간 및 자원 관리 미흡, 약한 가설에 대한 과신, 병렬 실험 조율의 어려움, 컨텍스트 길이 한계 등 장기적 실패 모드가 반복적으로 발생함을 확인했다. 그러나 단일 실행에서 해당 에이전트는 ICML 2025 스포트라이트 과제의 해결책을 능가하는 결과를 보여주었는데, 이는 최첨단 에이전트가 경우에 따라 최신 수준의 성능에 도달할 수 있으나 신뢰성 있게 수행하지는 못함을 시사한다. 추가적으로 Claude Code(Opus-4.5) 및 Codex(GPT-5.2)를 포함한 독점 에이전트 스캐폴드를 평가한 결과 유사한 간극이 확인되었다. ResearchGym은 폐쇄 루프 연구에서 자율 에이전트의 체계적인 평가 및 분석을 위한 인프라를 제공한다.
통합 모델은 단일 아키텍처 내에서 다중 모드 이해와 생성을 모두 처리할 수 있지만, 일반적으로 단일 패스로 작동하여 출력을 반복적으로 개선하지는 않습니다. 복잡한 공간 구성, 다중 상호 작용 객체, 또는 변화하는 지시사항을 포함하는 많은 다중 모드 작업은 지시사항 분해, 중간 결과 검증 및 반복적 수정을 필요로 합니다. 테스트 시간 스케일링(TTS)이 반복적 추론을 위한 추가 추론 컴퓨팅 자원 할당이 언어 모델 성능을 크게 향상시킨다는 것을 입증했지만, 이러한 패러다임을 통합 다중 모드 모델로 확장하는 것은 여전히 해결 과제로 남아 있습니다. 본 논문에서는 단일 통합 모델이 다중 라운드에 걸쳐 추론, 검증 및 개선을 수행할 수 있도록 하는 다중 모드 사고 연쇄 테스트 시간 스케일링 프레임워크인 UniT를 소개합니다. UniT는 에이전트 기반 데이터 합성, 통합 모델 학습 및 유연한 테스트 시간 추론을 결합하여 검증, 하위 목표 분해, 내용 기억과 같은 인지적 행동을 이끌어냅니다. 우리의 주요 발견 사항은 다음과 같습니다: (1) 짧은 추론 궤적으로 학습된 통합 모델은 테스트 시간에 더 긴 추론 체인으로 일반화됩니다; (2) 순차적 사고 연쇄 추론은 병렬 샘플링보다 확장성 있고 컴퓨팅 효율적인 TTS 전략을 제공합니다; (3) 생성 및 편집 궤적으로의 학습은 분포 외 시각 추론 성능을 향상시킵니다. 이러한 결과는 통합 모델의 생성과 이해 능력을 모두 발전시키는 효과적인 패러다임으로서 다중 모드 테스트 시간 스케일링의 가능성을 입증합니다.
텍스트 임베딩 모델은 정보 검색, 클러스터링, 분류를 포함한 의미론적 유사성 작업에 널리 사용됩니다. 범용 모델은 일반적으로 대조 손실 함수를 사용한 단일 또는 다단계 과정으로 학습됩니다. 본 연구에서는 모델 디스틸레이션 기법과 작업 특화 대조 손실을 결합한 새로운 학습 방식을 소개하여, 컴팩트하면서도 높은 성능의 임베딩 모델을 생성합니다. 우리의 연구 결과에 따르면, 이 접근법은 순수 대조 학습이나 디스틸레이션 기반 학습 패러다임만을 단독으로 사용하는 것보다 소규모 모델 학습에 더 효과적입니다. 결과 모델인 jina-embeddings-v5-text-small과 jina-embeddings-v5-text-nano의 벤치마크 점수는 유사 크기의 모델들에 대한 최첨단 기술을 능가하거나 동등한 성능을 보입니다. jina-embeddings-v5-text 모델들은 또한 많은 언어에서 긴 텍스트(최대 32k 토큰)를 지원하며, 임베딩이 잘림 및 이진 양자화 상황에서도 견고성을 유지하도록 생성됩니다. 모델 가중치는 공개되어 임베딩 모델 개발의 추가 발전을 촉진할 것으로 기대됩니다.
플라톤적 표현 가설은 신경망의 표현이 현실의 공통 통계 모델로 수렴하고 있다고 주장한다. 본 연구에서는 표현 유사성을 측정하는 기존 지표들이 네트워크 규모에 의해 왜곡될 수 있음을 보인다. 모델의 깊이나 너비를 증가시키면 표현 유사성 점수가 체계적으로 상승할 수 있다. 이러한 효과를 보정하기 위해 순열 기반의 영점 보정 프레임워크를 도입하여, 어떠한 표현 유사성 지표라도 통계적 보장이 있는 보정된 점수로 변환할 수 있도록 한다. 이 보정 프레임워크로 플라톤적 표현 가설을 재검토한 결과, 미묘한 양상이 드러났다. 전역적 스펙트럼 측정법으로 보고된 겉보기 수렴 현상은 보정 후 대부분 사라지는 반면, 국소 이웃 유사성(국소 거리 제외)은 다양한 양식 간에 유의미한 일치를 유지한다. 이러한 발견을 바탕으로 우리는 아리스토텔레스적 표현 가설을 제안한다. 신경망의 표현은 공유된 국소 이웃 관계로 수렴하고 있다는 것이다.
트랜스포머 모델의 학습 후 압축은 일반적으로 절단된 특이값 분해(SVD)에 의존합니다. 그러나 단일 공유 부분공간을 강제하는 것은 중간 수준의 압축에서도 정확도를 저하시킬 수 있습니다. 희소 사전 학습은 더 유연한 부분공간 합집합 표현을 제공하지만, 기존 접근법은 반복적인 사전 및 계수 업데이트 문제를 자주 겪습니다. 본 연구에서는 소량의 캘리브레이션 데이터셋을 사용하여 희소 가중치 분해를 추정하는 학습이 필요 없는 압축 프레임워크인 COMPOT(Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers)를 제안합니다. COMPOT는 사전에 대해 폐형 Procrustes 업데이트를 가능하게 하고 계수에 대해 분석적 단일 단계 희소 코딩을 가능하게 하는 직교 사전을 사용하여 반복 최적화를 제거합니다. 또한 전역 압축 예산 내에서 이질적인 계층 민감도를 처리하기 위해 COMPOT는 계층별 압축률을 적응적으로 재분배하는 원샷 동적 할당 전략을 추가로 도입합니다. 다양한 아키텍처와 작업에 대한 광범위한 실험을 통해 COMPOT가 강력한 저랭크 및 희소 베이스라인 대비 일관적으로 우수한 품질-압축 트레이드오프를 제공하는 동시에 극한 압축을 위한 학습 후 양자화와 완전히 호환됨을 확인했습니다. 코드는 https://github.com/mts-ai/COMPOT에서 이용 가능합니다.
현재 멀티모달 모델 연구는 생성 능력 향상이 이해 능력의 저하를, 또는 그 반대의 상황을 초래하는 주요 과제에 직면해 있습니다. 우리는 이러한 상충 관계를 분석한 결과, 그 주요 원인이 생성과 이해 간의 잠재적 충돌, 즉 모델 내 경쟁적 역학 관계에 있을 수 있음을 확인했습니다. 이를 해결하기 위해 우리는 Reason-Reflect-Refine(R3) 프레임워크를 제안합니다. 이 혁신적인 알고리즘은 단일 단계 생성 과제를 '생성-이해-재생성'이라는 다단계 과정으로 재구성합니다. 생성 과정에서 모델의 이해 능력을 명시적으로 활용함으로써 최적화 딜레마를 성공적으로 완화하고, 더욱 강력한 생성 결과와 생성 과정과 연관된 이해 능력 향상을 동시에 달성했습니다. 이는 차세대 통합 멀티모달 모델 설계에 귀중한 통찰력을 제공합니다. 코드는 https://github.com/sen-ye/R3에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 훈련은 점점 더 정교한 선조건자(Preconditioner)를 적용한 밀집 적응형 최적화 알고리즘에 거의 전적으로 의존해 왔습니다. 본 연구는 이러한 관행에 도전하여, 매개변수 업데이트를 무작위로 마스킹하는 방법이 매우 효과적일 수 있음을 보여줍니다. 특히 RMSProp의 마스킹 변형이 최신 최첨단 최적화 알고리즘들을 지속적으로 능가하는 성능을 발휘했습니다. 우리의 분석에 따르면, 무작위 마스킹은 곡률에 의존하는 기하학적 정규화(Geometric Regularization)를 유발하여 최적화 궤적을 매끄럽게 만듭니다. 이러한 발견에 동기를 부여받아, 우리는 모멘텀-기울기 정렬(Momentum-gradient Alignment)을 사용하여 마스킹된 업데이트를 조절하는 Momentum-aligned gradient masking(Magma)을 제안합니다. 광범위한 LLM 사전 훈련 실험을 통해 Magma가 일관된 성능 향상과 무시할 수 있는 계산 오버헤드로 기존 적응형 최적화 알고리즘의 간단한 대체재가 될 수 있음을 입증했습니다. 특히 10억 개 매개변수 규모의 모델에서 Magma는 Adam 및 Muon 대비 각각 19% 이상, 9% 이상의 perplexity 감소를 달성했습니다.
대규모 언어 모델(LLM)은 바이브 코딩(vibe coding)으로 알려진 코딩 패러다임을 변화시키고 있지만, 알고리즘적으로 정교하고 강건한 코드를 합성하는 것은 여전히 중요한 과제로 남아 있습니다. 이러한 장벽을 극복하기 위해서는 LLM의 심층 추론 능력을 고양시키는 것이 필수적입니다. 강화 미세 조정(RFT)은 이러한 필요를 해결하기 위한 유망한 전략으로 부상했습니다. 그러나 기존 대부분의 접근법은 테스트 케이스에 내재된 이질적 난이도와 세분화를 간과하여 보상 신호의 불균형한 분포와 이로 인한 훈련 중 편향된 기울기 업데이트를 초래합니다. 이를 해결하기 위해 우리는 테스트 주도 및 능력 적응형 커리큘럼 강화 미세 조정(TAROT)을 제안합니다. TAROT는 각 문제에 대해 기본, 중급, 복합, 경계의 4단계 테스트 슈트를 체계적으로 구성하여 커리큘럼 설계와 평가를 위한 통제된 난이도 환경을 제공합니다. 중요한 것은, TAROT가 커리큘럼 진행을 원시 보상 점수로부터 분리하여 능력 기반 평가와 다양한 커리큘럼 정책 포트폴리오로부터의 원칙적 선택을 가능하게 하며, 이는 우발적인 테스트 케이스 난이도 구성에 의존하지 않습니다. 이러한 설계는 안정적인 최적화와 더 효율적인 능력 습득을 촉진합니다. 광범위한 실험 결과는 코드 생성에서 RFT를 위한 최적의 커리큘럼이 모델의 내재적 능력과 밀접하게 연관되어 있음을 보여주며, 능력이 낮은 모델은 쉬운 것에서 어려운 순서의 진행으로 더 큰 향상을 달성하는 반면, 능력이 높은 모델은 어려운 것부터 시작하는 커리큘럼에서 더 뛰어난 성과를 보입니다. TAROT는 모델의 능력에 맞춰 커리큘럼 설계를 적응적으로 조정하는 재현 가능한 방법을 제공함으로써 생성된 코드의 기능적 정확성과 강건함을 지속적으로 향상시킵니다. 모든 코드와 데이터는 재현성을 촉진하고 커뮤니티 연구를 발전시키기 위해 https://github.com/deep-diver/TAROT 에 공개되었습니다.
언어 모델은 새로운 문서, 진화하는 지식, 사용자별 데이터 등 훈련되지 않은 콘텐츠에 대해 추론하는 데 점점 더 많이 사용되고 있습니다. 일반적인 접근 방식은 검색 증강 생성(RAG)으로, 이는 문서를 원문 그대로 외부에 청크 형태로 저장하고 추론 시점에 LLM이 추론할 수 있도록 관련된 하위 집합만 검색합니다. 그러나 이는 테스트 시간 계산 자원을 비효율적으로 사용하며(LLM이 동일한 문서를 반복적으로 추론), 또한 청크 검색은 관련 없는 문맥을 유입시켜 근거 없는 생성의 가능성을 높일 수 있습니다. 우리는 인간과 유사한 비모수적 연속 학습 프레임워크를 제안합니다. 이 프레임워크에서는 기본 모델은 고정된 상태로 유지되고, 각각의 새로운 경험을 지속적으로 축적 및 통합되는 외부 의미 기억 상태에 통합함으로써 학습이 발생합니다. 우리는 이를 구현하는 Panini를 소개합니다. Panini는 문서를 생성적 의미 작업 공간(GSW)으로 표현하는데, GSW는 엔터티 및 이벤트 인식 질문-답변(QA) 쌍의 네트워크로, LLM이 경험한 상황을 재구성하고 네트워크 상의 추론 기반 추론 체인을 통해 잠재 지식을 도출하는 데 충분합니다. 쿼리가 주어지면 Panini는 지속적으로 업데이트되는 GSW만 탐색하고(원문 문서나 청크가 아님) 가장 가능성 높은 추론 체인을 검색합니다. 6개의 QA 벤치마크에서 Panini는 평균 최고 성능을 달성했으며, 다른 경쟁력 있는 베이스라인보다 5%-7% 높은 성능을 보였습니다. 동시에 답변-문맥 토큰 사용량은 2-30배 적고, 완전한 오픈소스 파이프라인을 지원하며, 정제된 답변 불가 쿼리에 대한 근거 없는 답변을 줄였습니다. 이러한 결과는 GSW 프레임워크가 달성한 것처럼, 기록 시점에 경험을 효율적이고 정확하게 구조화하는 것이 읽기 시점에 효율성과 신뢰성 향상을 모두 가져온다는 것을 보여줍니다. 코드는 https://github.com/roychowdhuryresearch/gsw-memory 에서 확인할 수 있습니다.
강화학습(RL)은 대규모 언어 모델의 추론 능력을 크게 향상시켰지만, 기존 RL 미세 조정 방법은 안정성을 유지하기 위해 엔트로피 정규화 및 재가중치와 같은 경험적 기법에 크게 의존합니다. 실제로 이러한 방법들은 후기 단계 성능 붕괴를 자주 경험하여 추론 품질 저하와 불안정한 학습을 초래합니다. 우리는 RL에서 토큰 단위 정책 그래디언트의 크기가 토큰 확률 및 지역 정책 엔트로피와 음의 상관관계를 가짐을 도출했습니다. 이 결과를 바탕으로 우리는 훈련 불안정성이 전체 토큰의 약 0.01%에 해당하는 극소수 토큰에 의해 주도된다는 것을 증명하며, 이러한 토큰을 허위 토큰(spurious tokens)으로 명명합니다. 이러한 토큰이 정답 응답에 등장할 경우, 이들은 추론 결과에는 거의 기여하지 않지만 시퀀스 수준의 전체 보상을 상속받아 비정상적으로 증폭된 그래디언트 업데이트를 초래합니다. 이러한 관찰에 기반하여, 우리는 대규모 모델 정제를 위한 허위 토큰 인식 정책 최적화(STAPO)를 제안합니다. STAPO는 이러한 업데이트를 선택적으로 마스킹하고 유효한 토큰에 대한 손실을 재정규화합니다. Qwen 1.7B, 8B, 14B 기본 모델을 사용한 6개의 수학적 추론 벤치마크에서 STAPO는 일관되게 우수한 엔트로피 안정성을 보였으며, GRPO, 20-Entropy, JustRL 대비 평균 7.13%의 성능 향상을 달성했습니다.
웹은 한때 인간의 소비를 위해 생성되었고 이제는 시각-언어 모델(VLMs)을 사용하는 에이전트에 의해 점점 더 해석되는 이미지로 가득 차 있습니다. 이러한 에이전트는 대규모로 시각적 결정을 내리며, 무엇을 클릭하고, 추천하고, 구매할지를 결정합니다. 그러나 우리는 그들의 시각적 선호도 구조에 대해 거의 알지 못합니다. 우리는 VLM을 통제된 이미지 기반 선택 과제에 배치하고 입력을 체계적으로 변동시켜 이를 연구하기 위한 프레임워크를 소개합니다. 우리의 핵심 아이디어는 에이전트의 결정 함수를 잠재적 시각적 효용으로 간주하여, 노출된 선호도(체계적으로 편집된 이미지 간의 선택)를 통해 추론할 수 있도록 하는 것입니다. 제품 사진과 같은 일반적인 이미지에서 출발하여, 우리는 텍스트 최적화 방법을 이미지 생성 모델을 사용하여 시각적으로 타당한 수정(예: 구도, 조명, 배경)을 반복적으로 제안하고 적용하도록 조정하는 시각적 프롬프트 최적화 방법을 제안합니다. 그런 다음 어떤 편집이 선택 확률을 증가시키는지 평가합니다. 최첨단 VLM에 대한 대규모 실험을 통해 최적화된 편집이 일대일 비교에서 선택 확률을 유의미하게 변화시킨다는 것을 입증합니다. 우리는 이러한 선호도를 설명하기 위해 자동 해석 가능성 파이프라인을 개발하여 선택을 주도하는 일관된 시각적 주제를 식별합니다. 우리는 이 접근 방식이 시각적 취약점과 안전 문제를 실제 환경에서 암묵적으로 발견될 수 있는 것보다 먼저 실용적이고 효율적으로 표면화하여, 이미지 기반 AI 에이전트에 대한 보다 선제적인 감사와 거버넌스를 지원한다고 주장합니다.
명시적 카메라 제어 하에서 미래 관측을 시뮬레이션하는 예측적 세계 모델은 상호작용형 AI의 기초를 이룹니다. 빠른 발전에도 불구하고, 현재 시스템은 공간 지속성이 부족합니다. 즉, 장기 궤적에 걸쳐 안정적인 장면 구조를 유지하지 못하며 카메라가 이전에 관측한 위치를 재방문할 때 세부 사항을 빈번히 환각(hallucinate)합니다. 우리는 이러한 기하학적 표류(geometric drift)가 3D 일관성에 필요한 투영 기하학(projective geometry)과 상충되는 스크린 공간 위치 임베딩(screen-space positional embeddings)에 대한 의존성에서 비롯됨을 규명했습니다. 우리는 카메라 광선 방향을 비전 변환기(video transformer)의 자기 주의(self-attention) 계층에 직접 주입하는 기하학 인지 인코딩인 ViewRope를 제안합니다. 픽셀 지역성(pixel locality)이 아닌 상대적 광선 기하학으로 주의를 매개변수화함으로써, ViewRope는 시간적 격차를 넘어 3D 일관성 있는 콘텐츠를 검색하기 위한 모델 고유의 귀납적 편향(inductive bias)을 제공합니다. 우리는 더 나아가 이러한 기하학적 단서를 활용하여 관련 역사 프레임에 선택적으로 주의를 기울여 메모리 일관성을 희생하지 않으면서 효율성을 향상시키는 기하학 인지 희소 프레임 주의(Geometry-Aware Frame-Sparse Attention)를 제안합니다. 또한 루프 폐쇄(loop-closure) 충실도와 기하학적 표류를 측정하는 진단 도구 모음인 ViewBench를 소개합니다. 우리의 결과는 ViewRope가 계산 비용을 줄이면서 장기적 일관성을 크게 향상시킴을 입증합니다.
대규모 언어 모델(LLM)이 전문가 수준의 의학 지식을 보여주지만, 개방형 출력을 임상의의 세분화된 선호도와 일치시키는 것은 여전히 어려운 과제입니다. 기존 방법은 대체로 전문 가이드라인에 기반이 약한 거시적 목표나 신뢰할 수 없는 자동 평가 기준에 의존합니다. 우리는 이러한 격차를 해결하기 위해 두 단계 프레임워크를 제안합니다. 첫째, 임상의가 LLM이 초안을 작성한 평가 기준을 엄격한 의학 표준에 부합하도록 개선한 7,034개의 의사 검증 선호도 예시 데이터셋인 HealthRubrics를 소개합니다. 둘째, 이러한 평가 기준을 HealthPrinciples로 정제합니다. 이는 임상 차원별로 구성된 119개의 광범위하게 재사용 가능하며 임상적으로 근거 있는 원칙으로, 수동 주석 이상의 확장 가능한 감독을 가능하게 합니다. 우리는 HealthPrinciples를 (1) 레이블이 지정되지 않은 쿼리에 대한 평가 기준 합성을 통한 오프라인 정렬과 (2) 유도된 자기 수정을 위한 추론 시점 도구로 활용합니다. 우리의 프레임워크로 훈련되고 추론 시 3B 매개변수만 활성화하는 30B 매개변수 모델은 HealthBench-Hard에서 33.4%를 달성하여 Deepseek-R1 및 o3를 포함한 훨씬 더 큰 모델들을 능가하며, 임상 정렬을 위한 자원 효율적인 기준선을 확립했습니다.
기반 모델 배포를 위해 실무자들은 점점 더 규범적 스케일링 법칙을 필요로 합니다: 주어진 사전 학습 계산 예산 하에서, 현대적인 사후 학습 방법론을 적용했을 때 달성 가능한 다운스트림 정확도는 어느 정도이며, 해당 분야가 진화함에 따라 이 매핑의 안정성은 어떻게 되는가? 우리는 모델 성능에 대한 5,000개의 관측 데이터와 새로 샘플링한 2,000개의 데이터를 활용한 대규모 관측 평가를 통해 능력 한계(벤치마크 점수의 높은 조건부 분위수)를 로그 사전 학습 FLOPs의 함수로 추정합니다. 이는 단조 증가하고 포화되는 시그모이드 매개변수화를 적용한 평활 분위수 회귀를 통해 수행됩니다. 시간적 신뢰성은 초기 모델 세대에 적합시켜 학습하고 이후 출시된 모델에 대해 평가함으로써 검증합니다. 다양한 작업에서 추정된 한계는 대체로 안정적이나, 수학적 추론 과제의 경우 시간이 지남에 따라 한계가 지속적으로 진전되는 양상을 보입니다. 이후 우리의 접근법을 확장하여 작업 의존적 포화 현상을 분석하고 수학적 추론 과제에서 데이터 오염과 관련된 변화를 탐구합니다. 마지막으로, 평가 예산의 약 20%만을 사용하여 전체 데이터 프론티어에 근접한 결과를 복원하는 효율적인 알고리즘을 소개합니다. 종합적으로, 본 연구는 최신 모델 성능 평가 데이터셋인 Proteus 2k를 공개하고, 계산 예산을 신뢰할 수 있는 성능 기대치로 전환하는 실용적인 방법론과 시간에 따른 능력 한계 변화를 모니터링하는 방안을 제시합니다.
액션 청킹(action chunking)은 Vision Language Action (VLA) 모델이 실시간으로 실행될 수 있게 하지만, 단순한 청크 실행 방식은 종종 청크 경계에서 불연속성을 보인다. 실시간 청킹(Real-Time Chunking, RTC)은 이 문제를 완화하지만 정책(policy)과 분리되어 있어, 부적절한 다중 모드 전환(multimodal switching)과 본질적으로 매끄럽지 않은 궤적(trajectories)을 초래한다. 본 논문에서는 액션 청킹 기반 흐름(flow-based) VLA 정책을 위한 학습 시점 전속(training-time continuation) 방법인 Legato를 제안한다. 구체적으로, Legato는 알려진 액션과 노이즈의 스케줄 형태 혼합물(schedule-shaped mixture)에서 디노이징(denoising)을 초기화하여, 모델이 부분적 액션 정보에 노출되게 한다. 더불어 Legato는 학습된 흐름 역학(flow dynamics)을 재구성하여, 단계별 지도(per-step guidance) 하에서 학습과 추론 간 디노이징 과정이 일관되게 유지되도록 보장한다. 또한 Legato는 학습 중 무작위 스케줄 조건(randomized schedule condition)을 사용하여 다양한 추론 지연을 지원하고 제어 가능한 매끄러움(controllable smoothness)을 달성한다. 실험 결과, Legato는 실행 중 더 매끄러운 궤적을 생성하고 부적절한 다중 모드 전환을 줄여, 망설임을 감소시키고 작업 완료 시간을 단축한다. 다양한 실제 환경 실험을 통해 Legato가 5가지 조작 작업(manipulation tasks)에서 RTC를 지속적으로 능가하며, 궤적 매끄러움과 작업 완료 시간 모두에서 약 10%의 향상을 달성함을 보여준다.
세계 모델은 예측, 추론 및 제어를 지원하기 위해 견고한 관계적 이해를 필요로 합니다. 객체 중심 표현이 유용한 추상화를 제공하지만 상호작용 의존적 역동성을 포착하기에는 불충분합니다. 이에 우리는 객체 중심 세계 모델인 C-JEPA를 제안합니다. C-JEPA는 마스킹된 공동 임베딩 예측을 이미지 패치에서 객체 중심 표현으로 확장하는 간단하고 유연한 모델입니다. 객체 수준 마스킹을 적용하여 객체의 상태를 다른 객체로부터 추론하도록 요구함으로써, C-JEPA는 반사실적 효과와 유사한 잠재 개입을 유도하고 단축 해결책을 방지하여 상호작용 추론을 필수적으로 만듭니다. 실험적으로 C-JEPA는 시각 질의응답에서 일관된 성능 향상을 보였으며, 객체 수준 마스킹이 없는 동일 아키텍처 대비 반사실적 추론에서 약 20%의 절대적 개선을 달성했습니다. 에이전트 제어 과제에서 C-JEPA는 패치 기반 세계 모델이 필요로 하는 전체 잠재 입력 특징의 1%만 사용하면서도 비슷한 성능을 달성하여 훨씬 더 효율적인 계획을 가능하게 했습니다. 마지막으로, 객체 수준 마스킹이 잠재 개입을 통해 인과적 귀납 편향을 유도한다는 형식적 분석을 제시합니다. 우리의 코드는 https://github.com/galilai-group/cjepa에서 확인할 수 있습니다.
효율적인 장문맥 처리, 특히 자원이 제한된 환경에서의 처리 능력은 현대 대규모 언어 모델(LLM)의 중요한 과제로 남아 있다. 소프트 압축 아키텍처는 긴 토큰 시퀀스를 학습된 압축 토큰의 더 작은 집합으로 대체함으로써 효과적인 맥락 길이를 확장할 것을 약속한다. 그러나 압축 가능성의 한계와 압축이 작업 관련 콘텐츠를 삭제하기 시작하는 시점은 여전히 충분히 연구되지 않았다. 본 논문에서는 압축된 표현이 주어진 질의에 답하기에 충분한 정보를 더 이상 포함하지 않는 체제를 토큰 오버플로로 정의하고, 이를 특성화하고 탐지하는 방법론을 제안한다. xRAG 소프트 압축 환경에서 질의-무관한 포화 통계는 압축된 토큰 표현과 압축되지 않은 토큰 표현을 안정적으로 구분하여 압축 토큰을 식별하는 실용적인 도구를 제공하지만, 오버플로 탐지 능력은 제한적인 것으로 나타났다. 질의 및 맥락 xRAG 표현에 대한 경량 프로빙 분류기는 HotpotQA, SQuADv2, TriviaQA 데이터셋에서 평균 0.72 AUC-ROC로 오버플로를 탐지하여 질의 정보를 통합하면 탐지 성능이 향상됨을 입증한다. 이러한 결과는 질의-독립적 진단에서 질의-인식 탐지기로의 발전을 의미하며, 압축으로 인한 오류를 완화하기 위한 저비용의 LLM 사전 게이팅을 가능하게 한다.
대규모 언어 모델 기반 다중 에이전트 시스템(MAS)은 고도화된 협력적 추론 능력을 구현했으나, 이산적 텍스트 통신의 비효율성으로 인해 여전히 제약을 받고 있습니다. 이는 상당한 런타임 오버헤드와 정보 양자화 손실을 초래합니다. 잠재 상태 전송은 높은 대역폭의 대안을 제공하지만, 기존 접근법은 동일한 송수신자 구조를 가정하거나 특정 쌍에 대해 학습된 번역기에 의존하여, 서로 다른 매니폴드를 가진 다양한 모델 패밀리 간 확장성과 모듈성을 제한합니다. 본 연구에서는 비전-언어 모델(VLM)의 시각 인터페이스를 재활용하여 모델에 구애받지 않는 텍스트 없는 통신을 가능하게 하는 새로운 프레임워크인 '비전 웜홀'을 제안합니다. 범용 시각 코덱을 도입하여 이기종 추론 흔적을 공유된 연속 잠재 공간에 매핑하고 수신자의 시각 경로에 직접 주입함으로써, 시각 인코더를 에이전트 간 텔레파시를 위한 범용 포트로 효과적으로 활용합니다. 본 프레임워크는 허브-앤-스포크 토폴로지를 채택하여 pairwise 정렬 복잡도를 O(N^2)에서 O(N)으로 줄이고, 레이블 없는 교사-학생 증류 목적함수를 활용하여 고속 시각 채널과 텍스트 경로의 강력한 추론 패턴을 정렬합니다. 다양한 이기종 모델 패밀리(예: Qwen-VL, Gemma)를 대상으로 한 광범위한 실험을 통해 비전 웜홀이 통제된 비교 환경에서 종단 간 경과 시간을 단축하면서도 표준 텍스트 기반 MAS에 필적하는 추론 정확도를 유지함을 입증했습니다. 코드는 https://github.com/xz-liu/heterogeneous-latent-mas 에서 확인할 수 있습니다.
Clawdbot은 로컬 실행과 웹 기반 워크플로우를 포괄하는 광범위한 행동 영역을 가진, 자체 호스팅 방식의 도구 활용 개인 AI 에이전트로, 모호한 상황과 적대적 조종 하에서 높은 수준의 안전 및 보안 문제를 제기합니다. 본 논문은 Clawdbot에 대한 6가지 위험 차원에서의 궤적 중심 평가를 제시합니다. 우리의 테스트 스위트는 기존 에이전트 안전 벤치마크(ATBench 및 LPS-Bench 포함)의 시나리오를 샘플링 및 경량 수정하고, Clawdbot의 도구 인터페이스에 맞게 수동 설계된 사례를 추가로 보완하였습니다. 우리는 전체 상호작용 궤적(메시지, 행동, 도구 호출 인수/출력)을 기록하고, 자동화된 궤적 판단 시스템(AgentDoG-Qwen3-4B)과 인간 검토를 통해 안전성을 평가합니다. 34개의 표준 사례 전반에 걸쳐, 안전성 프로파일이 균일하지 않음을 확인했습니다: 신뢰성 중심 작업에서는 전반적으로 일관된 성능을 보인 반면, 대부분의 실패는 명세가 불명확한 의도, 개방형 목표, 또는 악의가 없는 듯 보이는 재킹브레이크 프롬프트 상황에서 발생하였으며, 이때 사소한 오해가 고위험 도구 행동으로 확대될 수 있었습니다. 전체 결과를 대표적인 사례 연구로 보완하고 이러한 사례들의 공통점을 요약함으로써, Clawdbot이 실제로 유발하기 쉬운 보안 취약점과 전형적인 실패 모드를 분석하였습니다.
HLE(Humanity's Last Exam)는 까다로운 다분야 질문에 대한 최첨단 대규모 언어 모델 평가를 위해 널리 사용되는 벤치마크가 되었습니다. 그러나 커뮤니티 주도 분석을 통해 HLE가 상당한 수의 노이즈 항목을 포함하고 있어 평가 결과를 편향시키고 모델 간 비교를 왜곡할 수 있다는 우려가 제기되었습니다. 이러한 문제를 해결하기 위해 우리는 투명한 검증 프로토콜과 세분화된 오류 분류 체계를 갖춘 검증 및 수정 버전인 HLE-Verified를 소개합니다. 우리의 구축 방법론은 인증된 벤치마크를 산출하는 2단계 검증-수정 워크플로우를 따릅니다. 1단계에서는 각 항목이 분야 전문가 검토와 모델 기반 교차 검증을 통해 문제와 정답에 대한 이진 검증을 거쳐 641개의 검증된 항목을 확보합니다. 2단계에서는 결함이 있지만 수정 가능한 항목들을 독립적인 전문가 이중 수정, 모델 지원 감사, 최종 판정을 통해 원래 평가 의도를 보존하는 엄격한 제약 하에 수정하여 1,170개의 수정 및 인증 항목을 생성합니다. 나머지 689개 항목은 명시적 불확실성 원인과 전문성 태그가 포함된 문서화된 불확실 집합으로 공개되어 향후 개선을 위해 활용될 수 있습니다. 우리는 7개의 최신 언어 모델을 HLE와 HLE-Verified에서 평가했을 때, HLE-Verified에서 평균 절대 정확도가 7-10% 포인트 향상되는 것을 관찰했습니다. 이 향상은 원래 문제 설명이나 참조 정답에 오류가 있는 항목에서 특히 두드러져 30-40% 포인트의 성능 향상을 보였습니다. 우리의 분석은 추가적으로 모델 신뢰도와 문제 설명 또는 참조 정답의 오류 존재 사이에 강한 연관성이 있음을 밝혀내어 우리의 수정 작업의 효과를 입증했습니다. 전반적으로 HLE-Verified는 주석 노이즈를 줄이고 모델 능력을 더 정확하게 측정할 수 있도록 함으로써 HLE 스타일 평가의 신뢰성을 향상시킵니다. 데이터는 https://github.com/SKYLENAGE-AI/HLE-Verified 에서 이용 가능합니다.
대규모 언어 모델(LLM)은 최신 정보와 다중 홉 추론을 요구하는 지식 집약적 질문을 처리하는 데 여전히 어려움을 겪고 있습니다. 비정형 텍스트와 구조화된 지식 그래프 같은 하이브리드 외부 지식으로 LLM을 증강시키는 것은 비용이 많이 드는 지속적 사전 학습에 대한 유망한 대안을 제공합니다. 이에 따라 검색 및 추론 능력에 대한 신뢰할 수 있는 평가가 중요해졌습니다. 그러나 기존 벤치마크 중 상당수는 LLM 사전 학습 데이터와 점점 더 중복되어, 답변이나 지원 지식이 이미 모델 매개변수에 인코딩되어 있을 수 있어 진정한 검색 및 추론과 매개변수 기억을 구분하기 어렵게 만듭니다. 우리는 하이브리드 지식에 대한 검색 집약적 다중 홉 추론을 평가하기 위한 벤치마크 구축 프레임워크인 HybridRAG-Bench를 소개합니다. HybridRAG-Bench는 arXiv의 최신 과학 논문에서 도출된 비정형 텍스트와 구조화된 지식 그래프 표현을 자동으로 결합하고, 명시적 추론 경로에 기반한 지식 집약적 질문-답변 쌍을 생성합니다. 이 프레임워크는 유연한 도메인 및 시간대 선택을 지원하여 모델과 지식이 진화함에 따라 오염을 고려하고 맞춤형 평가를 가능하게 합니다. 인공지능, 거버넌스 및 정책, 생물정보학이라는 세 가지 도메인에 대한 실험은 HybridRAG-Bench가 매개변수 기억이 아닌 진정한 검색과 추론을 평가할 수 있음을 보여주며, 하이브리드 지식 증강 추론 시스템을 평가하기 위한 원칙적인 테스트베드를 제공합니다. 우리는 코드와 데이터를 github.com/junhongmit/HybridRAG-Bench에서 공개합니다.