번역이 포함된 일일 선별된 AI 연구 논문
소수-스텝 생성은 오랜 기간 연구되어 온 목표로, 최근 MeanFlow를 대표로 하는 단일-스텝 생성 방법이 놀라운 성과를 거두었습니다. 기존 MeanFlow 연구는 주로 클래스-이미지 생성에 집중되어 있습니다. 그러나 직관적이면서도 탐색되지 않은 방향은 고정된 클래스 레이블 조건을 유연한 텍스트 입력으로 확장하여 더 풍부한 콘텐츠 생성이 가능하도록 하는 것입니다. 제한된 클래스 레이블에 비해 텍스트 조건은 모델의 이해 능력에 더 큰 도전을 제기하며, 강력한 텍스트 인코더를 MeanFlow 프레임워크에 효과적으로 통합해야 합니다. 놀랍게도, 텍스트 조건 통합이 단순해 보임에도 불구하고, 기존 훈련 전략을 사용하여 강력한 LLM 기반 텍스트 인코더를 통합하면 만족스러운 성능을 얻지 못한다는 사실을 발견했습니다. 근본적인 원인을 규명하기 위해 상세한 분석을 수행한 결과, MeanFlow 생성의 정제 단계 수가 극히 제한적(예: 단일 스텝)이기 때문에 텍스트 특징 표현이 충분히 높은 식별 능력을 보유해야 함을 밝혔습니다. 이는 이산적이고 쉽게 구분 가능한 클래스 특징이 MeanFlow 프레임워크 내에서 잘 작동하는 이유를 설명해 줍니다. 이러한 통찰을 바탕으로, 요구되는 의미론적 특성을 보유한 것으로 검증된 강력한 LLM 기반 텍스트 인코더를 활용하고 MeanFlow 생성 과정을 이 프레임워크에 적용하여 최초로 효율적인 텍스트 조건 합성을 구현했습니다. 더 나아가 널리 사용되는 확산 모델에서 우리의 접근법을 검증하여 생성 성능이 크게 개선됨을 입증했습니다. 본 연구가 향후 텍스트 조건 MeanFlow 생성 연구에 일반적이고 실용적인 참고 자료를 제공하기를 바랍니다. 코드는 https://github.com/AMAP-ML/EMF에서 확인할 수 있습니다.
체인 오브 씽크(CoT) 추론은 VLA 기반 자율주행에서 궤적 예측의 강력한 동력이 되었지만, 그 자동회귀적 특성으로 인한 지연 시간 비용이 실시간 적용에는 장벽으로 작용해왔습니다. 잠재적 CoT 방법은 추론 과정을 연속적인 은닉 상태로 압축하여 이 격차를 해소하려 시도하지만, 명시적 CoT 방법의 성능을 일관되게 따라가지 못했습니다. 우리는 이러한 현상이 순수하게 언어적인 잠재 표현이 운전을 실제로 지배하는 인과적 역학보다는 세계에 대한 상징적 추상화를 압축하기 때문이라고 판단합니다. 이에 우리는 이중 보조 디코더로 감독되는 간결한 잠재 토큰을 통해 추론을 라우팅하는 통합 VLA 및 월드 모델 프레임워크인 OneVL(비전-언어 설명을 통한 단일 단계 잠재 추론 및 계획)을 제안합니다. 텍스트 CoT를 재구성하는 언어 디코더와 함께, 미래 프레임 토큰을 예측하는 시각적 월드 모델 디코더를 도입하여 잠재 공간이 도로 기하학, 행위자 운동, 환경 변화의 인과적 역학을 내재화하도록 유도합니다. 3단계 학습 파이프라인은 이러한 잠재 변수를 궤적, 언어, 시각 목표에 점진적으로 정렬시켜 안정적인 공동 최적화를 보장합니다. 추론 시에는 보조 디코더를 제거하고 모든 잠재 토큰을 단일 병렬 패스로 미리 채워 답변 전용 예측과 동일한 속도를 달성합니다. 4개 벤치마크에서 OneVL은 명시적 CoT를 능가하는 첫 번째 잠재 CoT 방법으로 등극하여, 답변 전용 대기 시간으로 최첨단 정확도를 제공하며, 언어 및 월드 모델 감독을 함께 적용한 더 긴밀한 압축이 토큰별 세부 추론보다 일반화 가능한 표현을 생성한다는 직접적인 증거를 제시합니다. 프로젝트 페이지: https://xiaomi-embodied-intelligence.github.io/OneVL
대규모 언어 모델은 외부의 상태 유지 도구 환경과 상호작용하는 범용 에이전트로서의 역할이 점점 더 기대되고 있다. 모델 컨텍스트 프로토콜(MCP)과 광범위한 에이전트 기술은 에이전트를 확장 가능한 실세계 서비스에 연결하기 위한 통일된 인터페이스를 제공하나, 강력한 에이전트 훈련은 현실적인 환경과 평생 학습을 위한 원칙적인 메커니즘의 부족으로 제한받고 있다. 본 논문에서는 확장 가능한 환경을 통해 범용 에이전트 지능을 향상시키기 위한 자가 진화 훈련 아레나인 에이전트-월드(Agent-World)를 제시한다. 에이전트-월드는 두 가지 주요 구성 요소를 갖는다: (1) 주제 정렬 데이터베이스와 수천 가지 실세계 환경 테마에서 실행 가능한 도구 생태계를 자율적으로 탐색하고 검증 가능한 작업을 난이도 조절과 함께 합성하는 에이전트 환경-작업 발견; (2) 다중 환경 강화 학습과 동적 작업 합성을 통해 능력 격차를 자동으로 식별하고 표적 학습을 주도하는 자가 진화 에이전트 아레나를 결합하여 에이전트 정책과 환경의 공동 진화를 가능하게 하는 지속적 자가 진화 에이전트 훈련. 23개의 도전적인 에이전트 벤치마크 전반에 걸쳐, 에이전트-월드-8B 및 14B는 강력한 독점 모델 및 환경 확장 기준선을 꾸준히 능가했다. 추가 분석은 환경 다양성 및 자가 진화 라운드와 관련된 규모 확장 경향을 보여주며, 범용 에이전트 지능 구축을 위한 통찰을 제공한다.
게임 개발은 창의적 디자인과 복잡한 소프트웨어 공학의 교차점에 위치하며, 게임 엔진, 실시간 루프, 그리고 수많은 파일에 걸친 긴밀하게 결합된 상태의 공동 조화를 요구합니다. 대규모 언어 모델(LLM)과 코드 에이전트가 이제 고립된 프로그래밍 작업을 쉽게 해결하지만, 높은 수준의 설계로부터 완전히 실행 가능한 게임을 생성하라는 요청을 받으면 파일 간 불일치, 끊어진 장면 연결, 논리적 비일관성으로 인해 지속적으로 실패합니다. 우리는 이러한 격차를 end-to-end 웹 게임 생성에 특화된 최초의 오픈소스 에이전트 프레임워크인 OpenGame으로 메웁니다. 그 핵심에는 재사용 가능하고 진화하는 능력인 Game Skill이 있으며, 이는 경험으로부터 프로젝트 골격 라이브러리를 성장시키는 Template Skill과 검증된 수정 사항의 활성 프로토콜을 유지하는 Debug Skill로 구성되어, 에이전트가 안정적인 아키텍처를 구성하고 고립된 구문 오류를 수정하는 대신 통합 오류를 체계적으로 수리할 수 있게 합니다. 이 프레임워크의 동력은 GameCoder-27B로, 지속적인 사전 학습, 지도 미세 조정, 실행 기반 강화 학습의 3단계 파이프라인을 통해 게임 엔진 숙달에 특화된 코드 LLM입니다. 상호작용 가능한 플레이 가능성을 검증하는 것이 정적 코드를 확인하는 것보다 근본적으로 더 어렵기 때문에, 우리는 헤드리스 브라우저 실행과 VLM(Vision-Language Model) 평가를 통해 에이전트의 게임 생성 결과를 빌드 상태, 시각적 사용성, 의도 정합성 측면에서 점수화하는 평가 파이프라인인 OpenGame-Bench를 추가로 소개합니다. 150개의 다양한 게임 프롬프트에 걸쳐 OpenGame은 새로운 최첨단 기술을确立합니다. 우리는 OpenGame이 코드 에이전트가 이산적인 소프트웨어 공학 문제를 넘어 복잡하고 상호작용적인 현실 세계 애플리케이션을 구축하는 방향으로 나아가도록 추진력을 주길 바랍니다. 우리의 프레임워크는 완전히 오픈소스로 공개될 예정입니다.
비디오 월드 모델은 사용자 또는 에이전트의 행동에 대한 환경 역학 시뮬레이션에서 놀라운 성공을 거두었습니다. 이는 역사 프레임과 현재 행동을 입력으로 받아 미래 프레임을 예측하는 행동 조건 비디오 생성 모델로 구현됩니다. 그러나 기존 대부분의 접근법은 단일 에이전트 시나리오로 제한되어 있으며, 실제 세계의 다중 에이전트 시스템에 내재된 복잡한 상호작용을 포착하지 못합니다. 본 논문에서는 다중 에이전트의 정확한 제어와 다중 뷰 일관성 유지를 가능하게 하는 통합 다중 에이전트 다중 뷰 월드 모델링 프레임워크인 MultiWorld를 제안합니다. 정밀한 다중 에이전트 제어를 위해 다중 에이전트 조건 모듈을 도입하고, 서로 다른 뷰 간의 일관된 관측을 보장하기 위해 글로벌 상태 인코더를 설계했습니다. MultiWorld는 에이전트 및 뷰 수의 유연한 확장을 지원하며 효율성을 위해 다중 뷰를 병렬로 합성합니다. 다중 플레이어 게임 환경과 다중 로봇 조작 작업에 대한 실험을 통해 MultiWorld가 비디오 품질, 행동 추종 능력, 다중 뷰 일관성에서 기준선보다 우수한 성능을 보임을 입증했습니다. 프로젝트 페이지: https://multi-world.github.io/
검증 가능한 보상 강화학습(RLVR)은 대규모 언어 모델의 추론 능력 향상에 뛰어난 효과를 입증해왔습니다. 모델이 본질적으로 다중 모드 아키텍처로 진화함에 따라 RLVR을 비디오 이해 영역으로 확장하는 것은 점점 더 중요해지고 있으나, 비디오 과업 유형의 다양성, 고차원 시각 입력의 반복적 디코딩 및 전처리로 인한 계산 부담, 그리고 수많은 민감한 하이퍼파라미터에 대한 재현 가능한 평가의 어려움으로 인해 여전히 크게 탐구되지 않고 있습니다. 기존 오픈소스 RL 훈련 프레임워크는 텍스트 및 이미지 시나리오를 위한 견고한 기반을 제공하지만 비디오 양식에 맞춤화된 체계적인 최적화가 부족합니다. 본 연구에서는 비디오 이해 과업에서 대규모 시각-언어 모델을 훈련시키기 위해 특별히 설계된 완전하고 효율적인 강화학습 프레임워크인 EasyVideoR1을 제안합니다. EasyVideoR1은 다음과 같은 기여를 합니다: (1) 불필요한 비디오 디코딩을 제거하고 처리량을 1.47배 향상시키는 오프라인 전처리 및 텐서 캐싱을 갖춘 완전한 비디오 RL 훈련 파이프라인; (2) 11가지의 서로 다른 비디오 및 이미지 문제 유형을 통합 라우팅과 모듈식 확장으로 포괄하는 과업 인식 보상 시스템; (3) 정제된 고품질 궤적과 정책 기반 탐사를 결합하여 더 어려운 과업 학습에 도움이 되는 혼합 오프라인-온라인 데이터 훈련 패러다임; (4) 독립적으로 구성 가능한 픽셀 예산을 통한 이미지-비디오 공동 훈련으로 두 양식이 상호 강화될 수 있도록 함; (5) 22개의 주류 비디오 이해 벤치마크를 포괄하며, 재현된 정확도가 공식 보고 점수와 밀접하게 일치하는 비동기 다중 벤치마크 평가 프레임워크.
대규모 언어 모델은 일반적으로 지도 미세 조정(SFT)과 강화 학습(RL)을 통해 후속 훈련을 거치지만, 효율적인 지식 주입과 강력한 일반화 능력을 효과적으로 통합하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 훈련 역학 분석을 통해 SFT가 극도로 희소한 암묵적 보상과 불안정한 역확률 가중치를 갖는 정책 경사 최적화의 특수한 경우로 해석될 수 있음을 보여줍니다. 이 두 요소가 함께 작용하여 단일 경로 의존성, 엔트로피 붕괴 및 그래디언트 폭발을 초래한다는 점을 확인했습니다. 이러한 진단 결과를 바탕으로, 본 연구에서는 두 가지 메커니즘을 통해 이러한 본질적 한계를 해결하는 통합 후속 훈련 프레임워크인 그룹 미세 조정(GFT)을 제안합니다. 첫째, 다양한 응답 그룹을 구성하고 정규화된 대조적 supervision을 도출하여 보상 희소성을 완화하는 그룹 어드밴티지 러닝(Group Advantage Learning)과, 둘째, 역확률 가중치를 적응적으로 제한하여 효율적인 지식 주입을 유지하면서 최적화를 안정화하는 동적 계수 수정(Dynamic Coefficient Rectification)입니다. 실험 결과, GFT는 SFT 기반 방법들을 일관적으로 능가하며 후속 RL 훈련과 보다 원활하게 통합되는 정책을 생성하는 것으로 나타났습니다.
대규모 언어 모델은 종단간 웹 코딩이 가능한 상호작용형 코딩 에이전트로 빠르게 진화하고 있지만, 기존 벤치마크는 이러한 능력의 일부 측면만을 평가해 왔습니다. 일반적으로 정적 정확도 메트릭을 활용한 텍스트 조건 생성 위주로 평가가 이루어져 시각적 충실도, 상호작용 품질, 코드베이스 수준의 추론은 대체로 측정되지 못했습니다. 우리는 웹 엔지니어링 능력에 대한 통합 생명주기 평가를 제공하는 멀티모달 벤치마크인 WebCompass를 소개합니다. 실제 웹 코딩이 생성, 편집, 수리의 반복적인 주기라는 점을 감안하여, WebCompass는 세 가지 입력 양식(텍스트, 이미지, 비디오)과 세 가지 작업 유형(생성, 편집, 수리)을 포괄하며, 전문가 워크플로우를 반영하는 일곱 가지 작업 범주를 구성합니다. 다단계, 인간 참여형 파이프라인을 통해 우리는 15개의 생성 도메인, 16개의 편집 작업 유형, 11개의 수리 결함 유형을 아우르는 인스턴스를 수집하며, 각각을 쉬움/중간/어려움 수준으로 주석 처리했습니다. 평가를 위해 우리는 편집 및 수리 작업에는 체크리스트 기반의 LLM-as-a-Judge 프로토콜을 채택하고, 생성 작업에는 생성된 웹사이트를 실제 브라우저에서 자동 실행하고, Model Context Protocol(MCP)을 통해 상호작용 동작을 탐색하며, 반복적으로 표적 테스트 케이스를 합성하여 인간 수용 테스트에 근접한 새로운 Agent-as-a-Judge 패러다임을 제안합니다. 대표적인 클로즈드소스와 오픈소스 모델을 평가한 결과, 우리는 다음과 같은 사실을 관찰했습니다: (1) 클로즈드소스 모델이 여전히 상당히 강력하고 균형 잡힌 성능을 보임; (2) 편집과 수리는 서로 다른 난이도 프로필을 나타내며, 수리는 상호작용성을 더 잘 보존하지만 실행 측면에서는 여전히 어려움을 겪음; (3) 미적 요소는 가장 지속적인 병목 현상이며, 특히 오픈소스 모델에서 두드러짐; (4) 프레임워크 선택이 결과에 실질적으로 영향을 미치며, Vue는 일관되게 어려운 반면 React와 Vanilla/HTML은 작업 유형에 따라 더 강력한 성능을 보임.
클로 형태 에이전트의 훈련 및 평가를 위한 환경 구축은 여전히 수작업과 인간 의존적 방식으로 진행되어 확장성이 떨어집니다. 우리는 단순한 데이터셋이 아닌, 다양한 검증된 환경을 필요에 따라 자동 생성할 수 있는 파이프라인이 필요하다고 주장합니다. 이를 위해 우리는 자연어 설명으로부터 이러한 형식론을 구현하는 자율 생성 파이프라인인 ClawEnvKit을 소개합니다. 이 파이프라인은 세 가지 모듈로 구성됩니다: (1) 자연어 입력에서 구조화된 생성 매개변수를 추출하는 파서, (2) 작업 명세, 도구 인터페이스, 점수 구성 설정을 생성하는 생성기, (3) 생성된 환경 전반에 걸쳐 실현 가능성, 다양성, 구조적 타당성, 내부 일관성을 검증하는 검증기. ClawEnvKit을 사용하여 우리는 24개 범주에 걸친 1,040개 환경으로 구성된 클로 형태 에이전트 최초의 대규모 벤치마크인 Auto-ClawEval을 구축했습니다. 실증적으로 Auto-ClawEval은 인간이 직접 구축한 환경과 일관성 및 명확성 측면에서 동등하거나 우수한 성능을 보이면서도 비용은 13,800배 낮습니다. 4개 모델 패밀리와 8개 에이전트 하네스 프레임워크에 걸쳐 평가한 결과, 하네스 엔지니어링이 기본 ReAct 기준선 대비 최대 15.7% 포인트까지 성능을 향상시키며, 완성도는 여전히 주요 변동 축으로 어떤 모델도 벤치마크를 포화시키지 못했고, 자동화된 생성을 통해 이전에는 불가능했던 규모의 평가가 가능해졌습니다. 정적 벤치마킹을 넘어 ClawEnvKit은 라이브 평가를 가능하게 합니다: 사용자가 자연어로 원하는 능력을 설명하면 검증된 환경을 주문형으로 얻을 수 있어 평가를 지속적이고 사용자 주도적인 프로세스로 전환합니다. 동일한 메커니즘은 주문형 훈련 환경 생성기로도 작동하여, 기존 사용자 로그에 국한되지 않고 에이전트의 현재 약점에 적응하는 작업 분포를 생성합니다.
대규모 언어 모델은 검증 가능한 보상을 활용한 강화 학습(RLVR)을 통해 추론 능력에서 상당한 향상을 이루어 왔습니다. 그러나 모델 역량이 성장함에 따라 고품질 보상 신호를 구축하는 것은 점점 더 어려워지고 있어, 약한 형태의 감독 하에서 RLVR이 언제 성공할 수 있는지 이해하는 것이 중요해졌습니다. 우리는 세 가지 약한 감독 설정—데이터 부족, 노이즈가 있는 보상, 자기 지도 프록시 보상—하에서 다양한 모델 패밀리와 추론 영역에 걸쳐 체계적인 실증 연구를 수행했습니다. 연구 결과, 일반화 능력은 훈련 보상 포화 역학에 의해 지배되는 것으로 나타났습니다. 일반화를 보이는 모델들은 훈련 보상과 다운스트림 성능이 함께 상승하는 장기간의 포화 이전 단계를 거치는 반면, 빠르게 포화되는 모델들은 학습하기보다 암기하는 경향을 보였습니다. 우리는 중간 단계들이 최종 답변을 논리적으로 지지하는 정도로 정의되는 '추론 충실도'가 모델이 어느 영역에 속하는지를 예측하는 RL 이전 속성임을 확인했으며, 출력 다양성만으로는 정보를 제공하지 못한다는 점을 발견했습니다. 이러한 결과에 기반하여, 우리는 지속 사전 학습과 지도 미세 조정의 기여를 분리하여 분석했습니다. 그 결과, 약한 감독 하에서 일반화를 위해서는 명시적인 추론 과정에 대한 지도 미세 조정이 필수적인 반면, 해당 도메인 데이터에 대한 지속 사전 학습은 그 효과를 증폭시키는 것으로 나타났습니다. 이러한 개입 방법들을 Llama3.2-3B-Base 모델에 함께 적용했을 때, 기존 기본 모델이 실패했던 세 가지 설정 모두에서 일반화가 가능해졌습니다.
자율 에이전트의 역량 한계가 지속적으로 확대됨에 따라, 플러그 앤 플레이 방식의 외부 스킬을 통해 전문적인 작업을 수행할 수 있는 능력도 점차 향상되고 있다. 그러나 현재의 벤치마크는 주로 모델이 제공된 스킬을 사용할 수 있는지 여부를 테스트하는 데 그쳐, 경험을 통해 스킬을 발견하고, 실패 후 수복하며, 시간이 지나도 일관된 라이브러리를 유지할 수 있는지에 대한 여지는 남겨둔다. 본 연구에서는 20개 패밀리(family)에 걸친 166개 작업으로 구성된 SkillFlow 벤치마크를 소개한다. 각 패밀리 내 작업 구성은 에이전트 워크플로우 프레임워크를 정의하는 도메인 독립 실행 흐름(DAEF)을 따르므로, 이러한 작업들이 일관된 워크플로우를 공유할 수 있다. 에이전트는 에이전트 평생 학습 프로토콜 하에서 평가되는데, 이 프로토콜에서는 에이전트가 초기 스킬 없이 시작하여 각 패밀리 내 작업을 순차적으로 해결하고, 궤적 및 루브릭 기반 스킬 패치를 통해 학습 내용을 외부화하며, 갱신된 라이브러리를 이후 작업에 이관한다. 실험 결과 상당한 역량 격차가 확인되었다. Claude Opus 4.6의 경우 평생 스킬 진화를 통해 작업 성공률이 62.65%에서 71.08%로(+8.43점) 향상되었다. 그러나 높은 스킬 사용률이 반드시 높은 유용성으로 이어지지는 않았는데, Kimi K2.5은 66.87%의 스킬 사용률에도 불구하고 +0.60점에 그친 반면, Qwen-Coder-Next는 44.58%의 낮은 작업 완료율을 보였을 뿐만 아니라 기본 설정 대비 성능이 저하되었다. SkillFlow는 이 방향성에 대한 구조화된 테스트베드와 평생 평가 하에서의 스킬 발견, 패칭, 전이 및 그 실패 모드에 대한 심층 실증 분석을 제공한다는 점에서 기여한다.
별도로 학습된 LoRA 어댑터를 병합하는 것은 다중 작업을 함께 학습하는 대안으로 실용적이지만, 성능 저하가 자주 발생합니다. 기존 방법들은 일반적으로 LoRA 업데이트 ΔW = BA를 단일 객체로 취급하며 두 LoRA 행렬을 구분하지 않습니다. 본 연구에서는 LoRA 병합 간섭의 주요 원인이 출력 측 행렬 B에서 비롯됨을 보여줍니다. 다양한 작업에서 B는 소수의 공유 방향을 반복적으로 사용하는 반면, A는 훨씬 더 작업 특화적으로 유지됩니다. 그 결과 병합된 어댑터는 이러한 공유 방향을 과도하게 강조하게 되고 작업 특화 정보는 손실됩니다. 우리는 데이터 없이도 적용 가능한 방법인 Pico(출력 공간에서의 병합 전 간섭 보정)를 제안합니다. Pico는 과도하게 공유된 방향을 축소한 후 병합된 업데이트를 재조정하여 B를 사전에 보정합니다. Pico는 Task Arithmetic, TIES, TSV-M과 같은 기존 병합 방법에 직접 적용할 수 있습니다. 수학, 코딩, 금융, 의료 분야의 8가지 다양한 벤치마크에서 Pico는 해당 기본 방법 대비 평균 정확도를 3.4-8.3점 향상시켰으며, 전반적인 평균 성능에서도 가장 우수한 결과를 달성했습니다. 또한 Pico를 적용한 병합 어댑터는 모든 작업 데이터로 학습된 LoRA를 능가하는 성능을 보여주었습니다. 이러한 결과는 두 LoRA 행렬을 별도로 처리할 때 LoRA 병합이 더 효과적으로 작동함을 시사합니다.
온-폴리시 지식 증류(OPD)는 훈련 후 언어 모델을 위한 점차 중요해지는 패러다임입니다. 그러나 우리는 보편적인 "확장적 오교정 법칙"을 확인했습니다: OPD는 과제 정확도를 효과적으로 향상시키지만, 모델을 심각한 과적신 상태로 체계적으로 빠뜨립니다. 우리는 이러한 실패를 정보 불일치로 추적합니다: 교사 감독은 훈련 중 이용 가능한 특권 정보를 바탕으로 형성되는 반면, 배포된 모델은 배포 시점 정보만을 사용하여 신뢰도를 보고해야 합니다. 우리는 이 관점을 이론적으로 정형화하여, 교사 조건부 성공이 일반적으로 배포 시점 신뢰도에 대한 유효한 목표가 아니며, 유용한 특권 정보는 엔트로피 붕괴와 체계적인 낙관적 편향을 유발함을 보여줍니다. 이를 해결하기 위해 우리는 캘리브레이션 인식 OPD 프레임워크인 CaOPD를 제안합니다. CaOPD는 모델 롤아웃에서 경험적 신뢰도를 추정하고, 자체 보고된 신뢰도를 이 학생 기반 목표로 대체하며, 수정된 응답을 동일한 자기 증류 파이프라인을 통해 증류합니다. 다양한 모델과 도메인에서의 실험 결과, CaOPD가 경쟁력 있는 성능을 유지하면서 파레토 최적 캘리브레이션을 달성하고, 분포 외 및 지속 학습 상황에서 강건하게 일반화함을 보여줍니다. 우리의 연구 결과는 능력 증류가 캘리브레이션된 신뢰도를 의미하지 않으며, 신뢰도가 훈련 후 과정에서 필수적인 목표로 취급되어야 함을 강조합니다. 코드: https://github.com/SalesforceAIResearch/CaOPD
비전-언어 모델은 놀라운 능력을 보여주지만, 단어 순서와 속성 바인딩 측면에서 취약점을 드러내며 구성적 추론에 어려움을 겪는 경우가 많습니다. 이러한 한계는 대조적 사전 학습 과정에서 미묘한 의미적 변이를 구별하는 데 필요한 정보적 샘플의 부족에서 비롯됩니다. 하드 네거티브 마이닝이 유망한 해결책으로 제시되지만, 기존 방법은 어떤 언어적 요소가 수정 대상인지를 명시적으로 결정하는 메커니즘을 갖추지 못했습니다. 본 연구는 생성 아키텍처를 설계하는 대신, 어휘적 구체성을 네거티브 샘플 효율성의 근본적 결정 요인으로 규정합니다. 높은 구체성을 지닌 용어를 수정할 경우 더 뚜렷한 구조적 및 시각적 차이가 발생하여 상당히 강력한 학습 신호를 제공합니다. 이 원리를 활용하여 지각적으로 기반한 개념을 체계적으로 분리하고 조작하는 ConcretePlant를 제안합니다. InfoNCE에 대한 분석은 또한 쉽게 구별 가능한 샘플 쌍이 최적화 과정을 지나치게 압도하고 미묘한 학습에 사용 가능한 대역폭을 제한하는 심각한 그래디언트 불균형을 추가로 밝혀냅니다. 이러한 성능 저하를 해결하기 위해 마진 기반 접근법을 활용한 Cement 손실 함수를 공식화합니다. 심리언어학적 점수와 샘플 난이도를 연관시킴으로써, 이 목적 함수는 개별 학습 쌍에 적용되는 패널티를 동적으로 조정합니다. 포괄적인 평가를 통해 이러한 이론적 주장을 입증합니다. Slipform으로 명명된 통합 프레임워크는 다양한 구성적 평가 벤치마크, 일반적인 크로스모달 검색, 단일 및 다중 레이블 선형 프로빙에서 최첨단 정확도를 달성합니다.
컴퓨터 사용 에이전트는 웹 탐색, 데스크톱 자동화, 소프트웨어 상호작용과 같은 실제 작업에서 빠르게 발전하여 경우에 따라 인간의 성능을 능가하기도 합니다. 그러나 동일한 작업과 모델이 유지되더라도 한 번 성공한 에이전트가 동일한 작업을 반복 실행할 때 실패할 수 있습니다. 이는 근본적인 질문을 제기합니다: 에이전트가 한 번 작업을 성공할 수 있다면, 무엇이 안정적으로 성공하는 것을 방해하는 것일까요? 본 연구에서는 실행 중 확률성, 작업 명세의 모호성, 에이전트 행동의 변동성이라는 세 가지 요인을 통해 컴퓨터 사용 에이전트의 불안정성 원인을 분석합니다. 우리는 OSWorld에서 동일한 작업을 반복 실행하고 설정 간 작업 수준 변화를 포착하는 쌍체 통계 검정을 통해 이러한 요인들을 분석합니다. 우리의 분석은 안정성이 작업이 어떻게 명세되는지와 실행 간 에이전트 행동이 어떻게 변하는지 모두에 의존함을 보여줍니다. 이러한 결과는 반복 실행 하에서 에이전트를 평가할 필요성, 에이전트가 상호작용을 통해 작업 모호성을 해결할 수 있도록 허용할 필요성, 그리고 실행 간 안정성을 유지하는 전략을 선호할 필요성을 시사합니다.
수학 문제 해결은 대규모 언어 및 멀티모달 모델에게 여전히 어려운 추론 과제로 남아있지만, 기존 벤치마크는 규모, 언어 범위, 과제 다양성 측면에서 한계를 보입니다. 본 연구에서는 생성 모델의 수학적 추론 능력과 임베딩 기반 시스템의 수학적 검색 성능을 평가하기 위한 벤치마크와 함께, 올림피아드 수준의 수학 문제로 구성된 고품질 대규모 멀티모달 다국어 데이터셋인 MathNet을 소개합니다. MathNet은 47개국, 17개 언어, 20년간의 경쟁 문제를 아우르며, 다양한 영역의 해결책과 함께 전문가가 작성한 30,676개의 문제로 구성됩니다. 핵심 데이터셋 외에도 인간 전문가가 선별한 수학적으로 동등하고 구조적으로 유사한 문제 쌍으로 구성된 검색 벤치마크를 구축했습니다. MathNet은 세 가지 과제를 지원합니다: (i) 문제 해결, (ii) 수학 인식 검색, (iii) 검색 강화 문제 해결. 실험 결과에 따르면 최첨단 추론 모델(Gemini-3.1-Pro 78.4%, GPT-5 69.3%)도 여전히 어려움을 겪는 반면, 임베딩 모델은 동등한 문제 검색에 어려움을 보입니다. 또한 검색 강화 생성 성능이 검색 품질에 매우 민감함을 확인했으며, 예를 들어 DeepSeek-V3.2-Speciale는 최대 12%의 성능 향상을 달성하며 벤치마크에서 가장 높은 점수를 기록했습니다. MathNet은 최초의 수학 문제 검색 평가 벤치마크와 함께 가장 큰 고품질 올림피아드 데이터셋을 제공하며, 데이터셋과 벤치마크를 https://mathnet.mit.edu에서 공개합니다.
최근 등장한 종단 간 음성 대화 모델은 자연스러운 상호작용을 가능하게 합니다. 그러나 사용자 요구가 점점 더 복잡해짐에 따라 대화 능력만으로는 이러한 요구를 충족시키기 어려운 경우가 많습니다. 따라서 에이전트 능력의 통합이 필수적입니다: 도구 사용을 통해 이러한 모델은 지식의 경계를 확장하고 실제 업무를 더 효과적으로 해결할 수 있습니다. 그러나 기존 연구는 주로 핵심 인식 및 생성 기술에 집중되어 있으며, 이러한 도구 기반 확장에 대한 탐구는 상대적으로 제한적이었습니다. 이러한 격차를 해소하기 위해, 본 논문은 종단 간 음성 대화 모델에 포괄적인 에이전트 능력을 부여하기 위해 설계된 통합 프레임워크인 VoxMind를 제안합니다. 저희가 직접 구축한 470시간 분량의 AgentChat 데이터셋을 활용하여, 모델이 계획 및 응답 생성에 앞서 구조화된 추론을 필수 전제 조건으로 내재화할 수 있는 "Think-before-Speak" 메커니즘을 도입했습니다. 더 나아가 대규모 도구 통합으로 인한 지연 시간 병목 현상을 완화하기 위해 Multi-Agent Dynamic Tool Management 아키텍처를 제안합니다. 검색 작업을 주 모델의 추론 경로와 일치하는 보조 에이전트에 비동기적으로 위임함으로써, 이 시스템은 추론 지연 시간을 도구 집합의 크기로부터 효과적으로 분리합니다. 실험 결과, VoxMind가 에이전트 성능에서 유의미한 향상을 달성했음을 확인했습니다: 강력한 베이스라인 대비 작업 완료율이 34.88%에서 74.57%로 증가하여 일반적인 대화 품질을 유지하면서 음성 에이전트 작업에서 Gemini-2.5-Pro를 능가했습니다. 소스 코드 및 관련 데이터는 https://github.com/MM-Speech/VoxMind에서 공개되어 있습니다.
장기적 목표를 수행하는 대규모 언어 모델(LLM) 에이전트는 근본적으로 컨텍스트(Context)에 의해 제한됩니다. 상호작용이 길어질수록 도구 설명, 검색된 메모리, 원시적인 환경 피드백이 누적되어 의사 결정에 필요한 정보가 밀려나게 됩니다. 동시에 작업을 통해 얻은 유용한 경험은 여러 에피소드에 걸쳐 흔히 소실됩니다. 우리는 장기적 성능이 컨텍스트 길이 자체가 아니라, 제한된 컨텍스트 예산 내에서 의사 결정에 관련된 정보가 얼마나 유지되느냐에 의해 결정된다고 주장합니다. 본 논문은 단일 원칙, 즉 컨텍스트 정보 밀도 극대화를 중심으로 구축된 범용 자기 진화 LLM 에이전트 시스템인 GenericAgent(GA)를 제시합니다. GA는 이를 밀접하게 연결된 네 가지 구성 요소를 통해 구현합니다: 인터페이스를 단순하게 유지하는 최소 단위 도구 집합, 기본적으로 소량의 높은 수준의 개요만 보여주는 계층적 주문형 메모리, 검증된 과거 실행 궤적을 재사용 가능한 표준 운영 절차(SOP)와 실행 코드로 전환하는 자기 진화 메커니즘, 그리고 장기 실행 중 정보 밀도를 유지하는 컨텍스트 생략 및 압축 계층이 그것입니다. 작업 완료, 도구 사용 효율, 메모리 효과성, 자기 진화, 웹 브라우징 전반에 걸쳐 GA는 상당히 적은 토큰과 상호작용을 사용하면서도 주요 에이전트 시스템들을 일관되게 능가하며, 시간이 지남에 따라 계속해서 진화합니다. 프로젝트: https://github.com/lsdefine/GenericAgent
현재의 멀티모달 대규모 언어 모델(MLLM)은 단편 영상 이해에서 뛰어난 능력을 보여왔으나, 장편 영화 영상을 시간적으로 정교하게 구분된 상세한 대본으로 변환하는 작업은 여전히 큰 과제로 남아 있습니다. 본 논문은 새로운 비디오-투-스크립트(V2S) 과제를 소개하며, 등장인물의 행동, 대사, 표정, 음향 효과를 포함한 계층적 장면별 대본 생성을 목표로 합니다. 이를 위해 최초의 인간 주석 기반 벤치마크를 구축하고 시간 인식 계층적 평가 프레임워크를 제안합니다. 더 나아가 장편 서사 이해에 특화된 8B 매개변수 오므니모달(시청각) 언어 모델인 OmniScript를 제시합니다. OmniScript는 플롯 및 등장인물 추론을 위한 사고 연쇄 지도 미세 조정과 이어서 시간 분할 보상을 활용한 강화 학습을 통해 점진적으로 훈련됩니다. 광범위한 실험 결과, 매개변수 효율성에도 불구하고 OmniScript가 더 큰 규모의 오픈소스 모델을 크게 앞지르며 Gemini 3-Pro를 포함한 최첨단 상용 모델에 버금가는 성능을 시간적 위치 지정 및 다중 분야 의미 정확도에서 달성함을 입증합니다.
LLM 기반 에이전트는 환경 관찰을 자신의 추론 과정에 통합할 것으로 가정됩니다: 매우 관련성이 높지만 예상치 못한 정보를 발견했을 때 모델이 스스로의 발견을 활용하는 방향으로 자연스럽게 진행되어야 합니다. 본 연구는 이러한 가정이 현재의 LLM 기반 에이전트에게는 거짓임을 보여줍니다. 이들은 예상치 못한 정보를 반영하거나 이에 대응하는 데 어려움을 겪습니다. 세 가지 벤치마크(Terminal-Bench, SWE-Bench, AppWorld)에서 에이전트 환경에 완전한 과제 해결책을 주입하여 모델이 과제의 해결책을 의도적으로 접하도록 했습니다. 터미널-벤치에서는 에이전트가 실행의 79-81%에서 이러한 해결책을 발견했지만, 실제로 이를 상호작용하거나 활용(exploit)한 경우는 37-50%에 불과했습니다. 이 격차는 AppWorld에서 가장 두드러졌습니다: 에이전트는 시도의 90% 이상에서 특정 명령이 "이 과제에 대한 완전한 해결책을 반환한다"는 문서를 확인했지만, 이를 활용한 시도는 7% 미만이었습니다. 우리는 에이전트가 '환경적 호기심(environmental curiosity)'이라 부르는 능력, 즉 환경적 자극에 반응하여 예상치 못하지만 관련성 있는 관찰을 인지하고 탐구하는 능력이 부족함을 보여줍니다. 환경적 호기심에 영향을 미치는 세 가지 주요 요인을 확인했습니다: 에이전트 스캐폴드 내에서 사용 가능한 도구, 테스트 시점 연산 자원(test-time compute), 그리고 훈련 데이터 분포입니다. 우리의 연구 결과는 호기심을 최대화하는 구성이 수정되지 않은 원본 벤치마크에서도 최고의 성능을 달성함을 보여줍니다. 그러나 공동으로 최적화된 에이전트라 할지라도 발견한 해결책을 대부분의 시도에서 여전히 무시합니다: 현재의 에이전트는 환경을 예상된 정보를 얻는 데는 사용하지만, 자신의 전략을 수정하거나 유용한 자극을 최대한 활용하는 데는 사용하지 않습니다.
뇌 신호로부터의 시각 정보 해독은 컴퓨터 비전과 신경과학의 교차점에서 중요한 과제로, 신경 표현과 시각의 계산 모델을 연결하는 방법론이 필요합니다. 이 분야의 공통된 목표는 일반화 가능한 교차 대상 모델을 구현하는 것입니다. 이 목표를 달성하는 데 있어 주요 장애물은 개인 간 신경 표현의 상당한 변동성으로, 지금까지는 각 대상별로 맞춤형 모델을 훈련하거나 개별적으로 미세 조정해야 했습니다. 이러한 문제를 해결하기 위해 우리는 미세 조정 없이도 새로운 대상에게 일반화되는 fMRI 기반 의미론적 시각 해독을 위한 메타 최적화 접근법을 제안합니다. 새로운 개인의 소량의 이미지-뇌 활성화 예시만을 조건으로 삼아, 우리 모델은 해당 개인의 고유한 신경 인코딩 패턴을 빠르게 추론하여 강력하고 효율적인 시각 해독을 가능하게 합니다. 우리의 접근법은 새로운 대상의 인코딩 모델에 대한 콘텍스트 내 학습을 명시적으로 최적화하며, 계층적 추론을 통해 인코더를 역전파하여 해독을 수행합니다. 첫째, 여러 뇌 영역에 대해 다중 자극과 반응을 통해 콘텍스트를 구성함으로써 복셀별 시각 반응 인코더 매개변수를 추정합니다. 둘째, 다중 복셀에 걸쳐 인코더 매개변수와 반응 값으로 구성된 콘텍스트를 구축하여 집계적 기능 역전파를 수행합니다. 우리는 다양한 시각 백본에 대해 재훈련이나 미세 조정 없이도 강력한 교차 대상 및 교차 스캐너 일반화 성능을 입증합니다. 더욱이, 우리의 접근법은 해부학적 정렬이나 자극 중복을 요구하지 않습니다. 본 연구는 비침습적 뇌 해독을 위한 일반화 가능한 기초 모델로 나아가는 중요한 단계입니다.
현재 대부분의 에이전트는 인간이 정의한 보상과 규칙을 따라 '자기 진화'를 수행합니다. 그러나 이 과정은 근본적으로 외부 감독에 의존적이며, 인간의 지도 없이는 진화가 중단됩니다. 본 연구에서는 에이전트가 작업 수행 전에 미지의 환경에 대해 자발적으로 학습할 수 있는 내재적 메타-진화 능력을 갖추도록 훈련시킵니다. 이러한 능력을 심어주기 위해, 우리는 에이전트가 자체 생성한 세계 지식이 하위 작업에서의 성공률을 얼마나 향상시키는지를 측정하는 결과 기반 보상 메커니즘을 설계했습니다. 이 보상 신호는 모델이 효과적으로 탐색하고 요약하는 방법을 가르치기 위해 훈련 단계에서만 독점적으로 사용됩니다. 추론 시점에는 에이전트에게 외부 보상이나 인간의 지시가 필요하지 않습니다. 에이전트는 내부 매개변수를 활용하여 미지의 환경에 적응하기 위해 자생적 자기 진화를 자발적으로 수행합니다. 이러한 자생적 진화 방식의 전환을 Qwen3-30B와 Seed-OSS-36B에 적용했을 때, WebVoyager와 WebWalker에서 20%의 성능 향상을 보였습니다. 가장 주목할 만한 점은 생성된 세계 지덕이 소규모의 14B Qwen3 모델로 하여금 외부 지원 없이 단독 수행한 Gemini-2.5-Flash를 능가하는 성과를 내게 하여, 진정한 의미의 진화하는 에이전트를 위한 새로운 패러다임을 확립했다는 것입니다.
게임은 전략적 계획, 확률적 추론, 적응적 의사 결정을 자연스럽게 요구하기 때문에 언어 모델의 일반적 추론 능력 개발에 매력적인 패러다임을 제공합니다. 그러나 기존의 자기 주도 학습(self-play) 접근법은 단순히 최종 게임 결과에만 의존하여, 게임 특화 휴리스틱과 전이 가능한 추론 패턴을 구분할 수 있는 메커니즘이 부족했습니다. 본 연구에서는 추론 전이의 두 가지 근본적 장벽, 즉 학습된 패턴이 게임 의미론에 고정되는 도메인 특이성(domain specificity)과 정적인 게임 환경이 점진적 추론 발전을 촉진하지 못하는 상황적 정체성(contextual stasis)을 해결하는 STRATAGEM을 제안합니다. STRATAGEM은 추론 전이 계수(Reasoning Transferability Coefficient)를 통해 추상적이고 도메인 독립적인 추론을 보여주는 경로를 선택적으로 강화하며, 추론 진화 보상(Reasoning Evolution Reward)을 통해 적응적 추론 발전을 장려합니다. 수학적 추론, 일반 추론, 코드 생성 벤치마크에서의 실험 결과, 특히 다단계 추론이 중요한 경쟁 수준의 수학 문제에서 특히 큰 향상을 보여주었습니다. ablation 연구와 인간 평가를 통해 두 구성 요소가 모두 전이 가능한 추론에 기여함을 확인했습니다.
다중모달 LLM은 다양한 양식에 걸쳐 수치 정보를 정확하게 인지할 수 있지만, 동일한 산술 문제가 숫자, 수사, 이미지 또는 음성 형태로 제시될 때 정확한 다중 자릿수 곱셈을 수행하지 못합니다. 기존 벤치마크는 종종 양식 간 체계적으로 짝을 이룬 인스턴스를 포함하지 않아, 단일 모델 패밀리 내 및 여러 모델 패밀리 간의 진정한 산술 능력 한계를 비교하기 어렵습니다. 이에 따라 우리는 재현 가능한 생성기로부터 짝을 이룬 인스턴스를 통해 자릿수 길이, 자릿수 희소성, 표현 방식(예: 숫자 대 수사), 양식(텍스트, 렌더링된 이미지, 음성)을 요인 설계 방식으로 변화시키는 통제된 다중모달 곱셈 벤치마크를 소개합니다. 또한 우리는 연산 횟수에 대한 간결하고 기제 기반의 대리 지표로, 총 자릿수와 0이 아닌 자릿수의 곱인 산술 부하 C를 정의합니다. 다양한 평가에서 정확도는 C가 증가함에 따라 급격히 떨어지며, 종종 C > 100이 되면 거의 0에 가까워집니다. 실제로 C는 다양한 양식과 모델에 걸쳐 성능을 예측하는 데 유효하며, R-제곱 값이 종종 0.5를 넘어 중간 산술 단계의 수를 세는 더 복잡한 산술 부하 측정값에서 나오는 값에 근접합니다. 별도의 인지 대 연산 분해 분석은 다중모달 성능 저하가 인지적이기보다는 주로 연산적임을 보여줍니다: 일치된 인지 검사에서 모델은 곱셈 정확도가 떨어질 때조차도 모든 양식에서 거의 완벽한 성능(> 99%)을 보입니다. 모델이 실패하는 시점을 측정하는 것을 넘어, 우리는 모델이 어떤 절차를 따르는 경향이 있는지 묻습니다. 우리는 휴리스틱별 추론 접두사(열세로 곱셈, 분배 분해, 반올림/보상 포함)를 점수화하는 강제 완성 손실 프로브를 소개합니다. 여기서 분해는 텍스트와 시각 양식 모두에서 선호됩니다. 휴리스틱별 LoRA 어댑터는 거직교적인 업데이트를 생성하지만 정확도를 저하시켜, 기본 모델이 잘 조정된 내부 라우터를 유지하고 있음을 시사합니다.
우리는 언어 모델의 의미론적 구문 처리 과제 평가를 위해 설계된 평가 도구인 SemanticQA를 소개한다. 이 벤치마크는 기존 다중 단어 표현(MwE) 자원을 통합하고 이를 일관된 테스트베드로 재구성하였다. 여기에는 어휘적 연어와 같은 일반적인 어휘 현상과 더불어 관용 표현, 명사 합성어, 동사 구조 등 세 가지 세분화된 범주가 포함된다. SemanticQA를 통해 우리는 다양한 아키텍처와 규모의 언어 모델을 대상으로 추출, 분류, 해석 과제 및 순차적 과제 구성 능력을 평가하였다. 특히 의미론적 추론이 필요한 과제에서 상당한 성능 변동을 확인하였으며, 이는 언어 모델 간 추론 효율성과 의미론적 이해의 차이를 부각시켜, 비단순적 의미 구문에 대한更强的 이해력을 갖춘 언어 모델 개발을 위한 통찰을 제공한다. SemanticQA의 평가 도구 및 데이터는 https://github.com/jacklanda/SemanticQA에서 이용 가능하다.
코드 완성과 달리 디버깅은 오류의 위치를 파악하고 표적 수정을 적용해야 합니다. 저희는 최신 LLM들이 디버깅 과정에서 종종 정확하지만 지나치게 수정된 해결책을 재생성한다는 점을 관찰했습니다. LLM이 정밀한 디버깅에 얼마나 근접했는지 평가하기 위해, 정밀도 중심 평가가 포함된 디버깅 벤치마크로 모든 코딩 데이터셋을 자동 변환하는 PDB(Precise Debugging Benchmark) 프레임워크를 소개합니다. PDB는 검증된 원자적 버그를 합성하고 이를 다중 버그 프로그램으로 구성하여 버그가 포함된 프로그램을 생성합니다. 또한, 필요한 수정이 얼마나 이루어졌는지와 해결된 버그의 수를 측정하는 두 가지 새로운 메트릭인 수정 수준 정밀도와 버그 수준 재현율을 정의합니다. 저희는 단일 라인 버그를 위한 PDB-Single-Hard와 다중 라인 버그를 위한 PDB-Multi라는 두 가지 평가 벤치마크를 공개합니다. 실험 결과, GPT-5.1-Codex 및 DeepSeek-V3.2-Thinking과 같은 최신 모델들은 단위 테스트 통과율이 76% 이상에 달하지만, 최소한의 디버깅을 수행하도록 명시적으로 지시한 경우에도 정밀도는 45% 미만으로 나타났습니다. 마지막으로, 반복적이고 에이전트 기반의 디버깅 전략이 정밀도나 재현율을 크게 개선하지 못함을 보여주며, 이는 코딩 모델의 사후 학습 파이프라인 재고의 필요성을 강조합니다.
네이티브 올모달 대규모 언어 모델(OLLMs)은 파이프라인 아키텍처에서 통합된 표현 공간으로 전환되었습니다. 그러나 이러한 네이티브 통합은 중요하지만 제대로 연구되지 않은 현상인 모달리티 선호도를 야기합니다. 이러한 격차를 해소하기 위해, 우리는 먼저 새롭게 구축된 충돌 기반 벤치마크와 모달리티 선택 비율 지표를 사용하여 OLLMs의 모달리티 선호도를 체계적으로 정량화합니다. 10개의 대표적인 OLLMs에 대한 평가 결과, 기존 VLM들의 '텍스트 우위'와는 달리 대부분의 OLLMs에서 뚜렷한 시각적 선호도가 나타나는 주목할 만한 패러다임 전환이 관찰되었습니다. 근본적인 메커니즘을 추가로 이해하기 위해 계층별 프로빙을 수행한 결과, 이러한 모달리티 선호도는 정적이지 않으며 중간~후반 계층에서 점진적으로 발현된다는 것을 입증했습니다. 이러한 통찰을 바탕으로, 우리는 이러한 내부 신호를 활용하여 교차 모달리티 환각 현상을 진단하며, 과제 특화 데이터 없이도 세 가지 다운스트림 멀티모달 벤치마크에서 경쟁력 있는 성능을 달성했습니다. 본 연구는 보다 신뢰할 수 있는 OLLMs 구축을 위한 메커니즘적 이해와 실용적인 도구를 제공합니다. 코드 및 관련 자료는 https://github.com/icip-cas/OmniPreference 에서 공개되었습니다.
대규모 언어 모델(LLM)은 연구 집약적인 과제에서 광범위하게 탐구되고 있으나, 구조화된 생물의학 증거로부터 과학적 결론을 추론할 수 있는지 테스트하기 위한 자원은 여전히 제한적입니다. 우리는 생물의학 결론 생성을 위한 570만 개의 PubMed 구조화 초록 대규모 데이터셋인 MedConclusion을 소개합니다. 각 인스턴스는 초록의 비결론 부분과 원저자가 작성한 결론을 짝지어, 증거-결론 추론을 위한 자연 발생적 감독 학습을 제공합니다. MedConclusion은 생물의학 범주 및 SJR과 같은 저널 수준 메타데이터도 포함하여 생물의학 분야 전반의 하위 그룹 분석을 가능하게 합니다. 초기 연구로서, 우리는 결론 및 요약 프롬프트 설정 하에서 다양한 LLM을 평가하고 참조 기반 메트릭과 LLM-as-a-judge를 통해 출력 결과를 채점합니다. 우리는 결론 작성이 요약 작성과 행동적으로 구별되며, 강력한 모델들이 현재의 자동 메트릭 하에서 밀접하게 군집화되어 있고, 평가자 정체성이 절대 점수를 상당히 변화시킬 수 있음을 발견했습니다. MedConclusion은 과학적 증거-결론 추론 연구를 위한 재사용 가능한 데이터 자원을 제공합니다. 우리의 코드와 데이터는 https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion에서 이용 가능합니다.
대규모 언어 모델(LLM)은 다양한 영역에서 뛰어난 성능을 보여주고 있지만, 높은 추론 지연시간으로 인해 점차 제약을 받고 있다. 얼리 엑싯(Early Exit)은 불필요한 계층을 동적으로 우회하여 추론 속도를 높이기 위한 유망한 해결책으로 부상했다. 그러나 디코더 전용 아키텍처에서 얼리 엑싯의 효율성은 KV 캐시 부재(KV Cache Absence) 문제로 인해 심각하게 저하된다. 이 문제는 건너뛴 계층이 후속 토큰에 필요한 이전 상태를 제공하지 못하는 현상이다. 재계산이나 마스킹과 같은 기존 해결책은 상당한 지연시간 오버헤드를 초과하거나 심각한 정밀도 손실을 일으켜, 이론적인 계층 감소와 실제 월클락 속도 향상 간의 격차를 해결하지 못한다. 본 논문에서는 훈련 없이도 원활한 토큰 수준 얼리 엑싯을 가능하게 하는 River-LLM을 제안한다. River-LLM은 경량의 KV 공유 엑싯 강(KV-Shared Exit River)을 도입하여 엑싯 과정에서 백본의 누락된 KV 캐시가 자연스럽게 생성되고 보존되도록 하여, 비용이 큰 복구 연산의 필요성을 제거한다. 더 나아가, 디코더 블록 내 상태 전이 유사성을 활용하여 누적 KV 오류를 예측하고 정확한 엑싯 결정을 안내한다. 수학적 추론 및 코드 생성 작업에 대한 폭넓은 실험을 통해 River-LLM이 높은 생성 품질을 유지하면서 1.71배에서 2.16배의 실제 속도 향상을 달성함을 입증한다.
게놈 공학은 염기서열 수준에서 놀라운 정밀도를 달성했지만, 교란 후 세포가 차지하게 될 전사체 상태를 예측하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 단일세포 CRISPR 스크린은 세포가 비교란 상태에서 얼마나 이동하는지를 측정하지만, 이러한 효과 크기는 근본적인 질문을 간과합니다: 세포들이 함께 움직이는가? 동일한 크기를 가진 두 교란이 서로 다른 결과를 낼 수 있는데, 하나는 세포들을 공유된 경로를 따라 응집적으로 이동시키는 반면, 다른 하나는 세포들을 발현 공간 전체에 흩뿌리기 때문입니다. 우리는 단일세포 교란 반응의 방향성 응집성을 개별 세포 이동 벡터와 평균 교란 방향 간의 평균 코사인 유사도로 정량화하는 기하학적 안정성 지표인 Shesha를 소개합니다. 5개의 CRISPR 데이터셋(CRISPRa, CRISPRi, 풀 스크린을 아우르는 2,200개 이상의 교란) 전반에 걸쳐 안정성은 효과 크기와 강한 상관관계를 보였으며(Spearman ρ=0.75-0.97), 보정된 데이터셋 간 상관관계는 0.97이었습니다. 중요한 것은, 두 지표가 분리되는 불일치 사례들이 조절 구조를 드러낸다는 점입니다. CEBPA와 GATA1과 같은 다면적 마스터 조절인자는 '기하학적 비용'을 지불하여 크지만 비응집적인 이동을 생성하는 반면, KLF1과 같은 계통 특이적 인자들은 긴밀하게 조율된 반응을 생성합니다. 크기를 통제한 후에도, 기하학적 불안정성은 독립적으로 샤페론 활성화 증가(HSPA5/BiP; 데이터셋 간 부분 상관관계 ρ_{partial}=-0.34 및 -0.21)와 연관되었으며, 고안정성/고스트레스 사분면은 체계적으로 고갈되었습니다. 크기-안정성 관계는 scGPT 파운데이션 모델 임베딩에서도 지속되어, 이 관계가 선형 투영이 아닌 생물학적 상태 공간의 속성임을 확인했습니다. 교란 안정성은 스크린에서 히트 후보 우선순위 지정, 세포 제조에서의 표현형 품질 관리, 및 전산 교란 예측 평가를 위한 보완적인 축을 제공합니다.
대규모 언어 모델과 에이전트의 융합은 과학적 발견의 새로운 시대, 즉 에이전트 기반 과학(Agentic Science)을 촉진하고 있습니다. 과학적 방법론은 본질적으로 반복적이지만, 기존 에이전트 프레임워크는 주로 정적이며 범위가 제한되고 시행착오로부터 학습할 수 있는 능력이 부족합니다. 이러한 격차를 해소하기 위해 우리는 대규모 에이전트 기반 과학을 위해 특별히 설계된 진화적 기초 에이전트 프레임워크인 EvoMaster를 제시합니다. 지속적 자가 진화라는 핵심 원리에 기반한 EvoMaster는 에이전트가 실험 주기를 거쳐 가설을 반복적으로 개선하고, 자기 비판을 수행하며, 점진적으로 지식을 축적할 수 있도록 하여 인간의 과학적 탐구 과정을 충실히 재현합니다. 중요한 것은, EvoMaster는 도메인에 구애받지 않는 기반 플랫폼으로서 확장성이 매우 뛰어나며, 개발자가 약 100줄의 코드로 임의의 분야에 대해 고성능의 자가 진화 과학 에이전트를 구축하고 배포할 수 있게 합니다. EvoMaster를 기반으로 우리는 기계 학습, 물리학, 일반 과학 등 다양한 분야에 걸쳐 SciMaster 생태계를 구축했습니다. 4개의 권위 있는 벤치마크(Humanity's Last Exam, MLE-Bench Lite, BrowseComp, FrontierScience)에서의 평가 결과, EvoMaster는 각각 41.1%, 75.8%, 73.3%, 53.3%라는 최첨단 성적을 달성했습니다. 이는 범용 기준선인 OpenClaw를 +159%에서 +316%에 이르는 상대적 개선률로 종합적으로 능가하며, 차세대 자율 과학 발견을 위한 최고의 기초 프레임워크로서의 효율성과 일반성을 강력하게 입증합니다. EvoMaster는 https://github.com/sjtu-sai-agents/EvoMaster에서 이용할 수 있습니다.
최근 의미론적 대응 기술의 발전은 DINOv2와 확산 백본을 결합한 듀얼 인코더 아키텍처에 주로 의존해 왔습니다. 이러한 수십억 개의 파라미터를 가진 모델들은 정확하기는 하지만, 학습된 키포인트를 벗어난 상황에서는 일반화 성능이 떨어져 벤치마크 성능과 실제 활용성 사이에 간극이 존재합니다. 실제로 질의되는 포인트들은 학습 시見過던 포인트들과 일치하는 경우가 드물기 때문입니다. DINOv2를 기반으로, 우리는 미세한 위치 추정 성능과 의미론적 일반화 능력을 모두 향상시키는 새로운 학습 프레임워크로 구동되는 일반화 가능한 대응을 위한 통합 모델인 MARCO를 소개합니다. 공간 정밀도를 개선하는 coarse-to-fine 목적 함수와, 주석이 달린 영역을 넘어 희소 감독을 확장하는 자기 지식 증류 프레임워크를 결합함으로써, 우리의 접근 방식은 소수의 키포인트를 조밀하고 의미론적으로 일관된 대응 관계로 변환합니다. MARCO는 SPair-71k, AP-10K, PF-PASCAL에서 새로운 최첨단 성능을 기록하며, 특히 미세 위치 추정 임계값에서의 향상도(+8.9 PCK@0.01), 보이지 않는 키포인트(+5.1, SPair-U) 및 카테고리(+4.7, MP-100)에 대한 가장 강력한 일반화 성능을 보여주었고, 확산 기반 접근법보다 3배 더 작고 10배 더 빠른 성능을 유지했습니다. 코드는 https://github.com/visinf/MARCO 에서 이용할 수 있습니다.
사용자가 LLM 기반 에이전트에 요청할 때 필수 세부사항을 생략하는 경우가 빈번하며, 이로 인해 도구 사용을 위한 입력이 불충분하게 지정되는 문제가 발생합니다. 이는 도구 활용 에이전트에게 근본적인 과제로 작용하는데, API 실행에는 일반적으로 완전한 인수가 필요하기 때문에 개인화된 도구 호출의 필요성이 부각됩니다. 본 연구는 이 문제를 탐구하기 위해 265개의 다중 세션 대화로 구성된 MPT 벤치마크를 소개합니다. MPT는 선호도 기억(Preference Recall), 선호도 추론(Preference Induction), 선호도 전이(Preference Transfer)라는 세 가지 과제를 다룹니다. 또한 사용자 선호도를 진화하는 가설로 표현하는 테스트 타임 메모리 강화 방법인 PRefine을 제안합니다. 이 방법은 생성-검증-정제(generate-verify-refine) 루프를 통해 기록에서 재사용 가능한 제약 조건을 추출하며, 전체 기록 프롬프팅에 필요한 토큰의 1.24%만 사용하면서 도구 호출 정확도를 향상시킵니다. 이러한 결과는 에이전트 시스템에서 강력한 개인화가 사용자의 선택 자체가 아닌 선택 배후의 이유를 포착하는 메모리에 의존함을 시사합니다.
감정 지원 대화(ESC)는 공감과 지지를 담은 대화를 생성하여 고통을 겪는 개인을 돕는 것을 목표로 합니다. 기존 연구에서는 일반적으로 각 지원자의 발화가 단일 전략에 대응된다고 가정하지만, 실제 지원적 의사소통에서는 단일 발화 내에 여러 전략이 함께 사용되는 경우가 많습니다. 본 논문에서는 ESC 과제를 각 발화가 하나 이상의 전략-응답 쌍을 포함할 수 있는 다중 전략 발화 생성으로 재정의합니다. 우리는 두 가지 생성 방법을 제안합니다: 모든 전략-응답 쌍을 단일 디코딩 단계에서 예측하는 All-in-One 방식과, 완료될 때까지 전략-응답 쌍을 반복적으로 생성하는 One-by-One 방식입니다. 두 방법 모두 강화 학습을 통한 인지 추론을 추가하여 전략 선택과 응답 구성을 개선하였습니다. 우리는 ESConv 데이터셋에서 발화 수준과 대화 수준 설정 하에 모델을 평가합니다. 실험 결과, 우리의 방법이 다중 전략 발화를 효과적으로 모델링하며 지원 질과 대화 성공률을 향상시킴을 보여줍니다. 우리가 아는 한, 이 연구는 단일 발화 내에서 여러 지원 전략의 사용이 감정 지원 대화에 실현 가능하며 유익하다는 첫 체계적인 실증적 증거를 제시합니다. 모든 코드와 데이터는 https://github.com/aliyun/qwen-dianjin에서 공개될 예정입니다.
언어 모델의 안정적인 배포에는 표면적으로는 구별되지만 공통된 기하학적 토대를 공유하는 두 가지 능력이 필요합니다: 모델이 의도된 행동 제어를 수용할지 예측하는 것과 모델의 내부 구조가 저하될 때 이를 감지하는 것입니다. 우리는 표현의 짝거리(pairwise) 거리 구조의 일관성을 의미하는 기하학적 안정성(geometric stability)이 이 두 가지를 모두 해결할 수 있음을 보여줍니다. 작업에 정렬된 기하학적 안정성을 측정하는 지도 학습 방식의 Shesha 변형들은 35-69개의 임베딩 모델과 세 가지 NLP 작업에 걸쳐 선형 조종 가능성(linear steerability)을 거의 완벽에 가까운 정확도(ρ= 0.89-0.97)로 예측하며, 클래스 분리 가능성(class separability) 이상의 고유한 분산을 포착합니다(부분 ρ= 0.62-0.76). 중요한 분리 현상이 나타납니다: 비지도 학습 기반 안정성은 실제 작업에서의 조종(steering) 예측에 대해 완전히 실패하며(ρ 약 0.10), 이는 작업 정렬(task alignment)이 제어 가능성 예측에 필수적임을 보여줍니다. 그러나 비지도 학습 기반 안정성은 표류 감지(drift detection)에서 탁월한 성능을 발휘하여, 훈련 후 정렬(post-training alignment) 과정에서 CKA보다 최대 2배 가까운 기하학적 변화를 측정하며(Llama에서는 최대 5.23배), 모델의 73%에서 더 빠른 경고를 제공하고 Procrustes보다 6배 낮은 오경보율(false alarm rate)을 유지합니다. 지도 학습 및 비지도 학습 기반 안정성은 함께 LLM 배포 라이프사이클을 위한 상호 보완적인 진단 도구를 형성합니다. 하나는 배포 전 제어 가능성 평가를, 다른 하나는 배포 후 모니터링을 위한 것입니다.
비전-언어 모델(VLM)은 임상 진단에 점점 더 많이 활용되고 있지만, 적대적 공격에 대한 강건성은 거의 연구되지 않아 심각한 위험을 초래하고 있습니다. 기존 의료 분야 공격은 모델 추출이나 적대적 미세 조정과 같은 부수적 목표에 집중하는 반면, 자연 이미지 기반 전이 공격은 임상의가 쉽게 감지할 수 있는 시각적 왜곡을 유발합니다. 이를 해결하기 위해 우리는 임상적으로 그럴듯한 오진을 유도하면서도 섭동을 지각하기 어렵게 유지하는 고도의 전이 가능 블랙박스 다중모드 공격 기법인 MedFocusLeak을 제안합니다. 이 방법은 비진단적 배경 영역에 조정된 섭동을 주입하고 주의 분산 메커니즘을 활용하여 모델의 초점을 병리 영역에서 벗어나게 합니다. 6가지 의료 영상 모드에 대한 포괄적 평가 결과, MedFocusLeak은 다양한 VLM에서 오도하지만 현실적인 진단 결과를 생성하며 최첨단 성능을 달성함을 확인했습니다. 또한 우리는 공격 성공률과 영상 충실도를 함께 평가하는 새로운 지표를 포함한 통합 평가 프레임워크를 도입하여 현대 임상 VLM의 추론 능력에 내재된 치명적 약점을 밝혔습니다.
다중모달 대규모 언어 모델(MLLMs)은 인상적인 능력을 보여주지만, 정확한 이미지 번역에 중요한 이미지 내 세밀한 텍스트 정보를 효과적으로 포착하는 데는 종종 어려움을 겪습니다. 이로 인해 이미지 번역을 위한 시각적 텍스트 입력과 텍스트 입력/출력 간의 모달리티 간극이 발생하는 경우가 많습니다. 주로 지시 미세조정에 의존하는 기존 방법들은 사전 학습된 지식의 매개변수 중복을 초래하여 일반화 성능을 저해할 위험이 있습니다. 이를 해결하기 위해 우리는 향상된 이미지 번역을 위해 MLLMs 내 개별 뉴런의 특화된 역할을 활용하는 새로운 접근법인 모달리티 뉴런 인식 미세조정(MNAFT)을 제안합니다. MNAFT는 지시 기반 활성화 분석을 통해 시각 및 언어 모듈의 언어-불특정 뉴런과 언어-특정 뉴런을 식별하고 다양한 번역 작업에서 이들의 중요성을 평가합니다. 그런 다음 대상 작업과 관련된 선택된 계층 내에서 언어-특정 및 언어-불특정 뉴런의 매개변수만 선택적으로 업데이트하는 미세조정을 수행하며, 다른 뉴런과 계층에 인코딩된 지식은 보존합니다. 여러 벤치마크에 대한 광범위한 실험을 통해 MNAFT가 캐스케이드 모델, 표준 전체 미세조정 및 매개변수 효율적 조정 기법을 포함한 최첨단 이미지 번역 방법들을 크게 능가함을 입증했습니다. 더 나아가, 뉴런 활성화 및 클러스터링 패턴의 시각화를 포함한 포괄적인 분석을 제공하여 교차 모달 이해를 매개하고 정확한 언어-특정 번역을 용이하게 하는 다양한 뉴런 그룹의 역할에 대한 통찰을 제시합니다.
취약점 관련 활동을 이해하고 예측하는 것은 사이버 위협 인텔리전스의 주요 과제입니다. 본 연구는 개념 증명 공개, 탐지 템플릿, 온라인 논의와 같은 취약점 목격(sighting)이 시간에 따라 예측 가능한지 조사합니다. 텍스트 설명으로부터 취약점 심각도를 예측하는 트랜스포머 기반 모델인 VLAI에 대한 기존 연구를 바탕으로, 심각도 점수가 외생 변수로서 시계열 예측 성능을 향상시킬 수 있는지 검토합니다. 우리는 취약점별 단기 목격 횟수 예측을 위해 여러 접근법을 평가합니다. 먼저, 로그(x+1) 변환 및 VLAI 기반 심각도 입력 적용 여부에 따른 SARIMAX 모델을 테스트합니다. 이러한 조정이 제한적인 개선만 제공하지만, SARIMAX는 희소하고 짧으며 폭발적인 특성을 가진 취약점 데이터에는 여전히 적합하지 않습니다. 실제로 예측은 종종 지나치게 넓은 신뢰 구간과 때로는 비현실적인 음수 값을 생성합니다. 목격의 이산적이고 사건 기반인 특성을 더 잘捕捉하기 위해 포아송 회귀와 같은 계수 기반 방법을 탐구합니다. 초기 결과에 따르면, 특히 목격 데이터를 주간으로 집계할 때 이러한 모델이 더 안정적이고 해석 가능한 예측을 생성합니다. 또한 긴 역사적 시계열을 요구하지 않고 향후 활동을 추정하기 위해 단기 예측 기간에 대한 지수 감쇠 함수와 같은 더 간단한 운영적 대안도 논의합니다. 전반적으로, 본 연구는 드물고 폭발적인 사이버 이벤트 예측의 잠재력과 한계를 동시에 강조하며, 예측 분석을 취약점 인텔리전스 워크플로우에 통합하기 위한 실용적인 지침을 제공합니다.
풀-듀플렉스 음성 언어 모델(FD-SLM)은 기존의 하프-듀플렉스 모델에 비해 더욱 역동적인 사용자 경험을 제공하며 실시간 중첩 대화형 상호작용을 가능하게 합니다. 그러나 기존 벤치마크는 주로 단일 차례 상호작용 평가에 초점을 맞추어 다중 차례 통신의 복잡성을 간과하고 있습니다. FD-SLM을 다중 차례 환경에서 평가하는 것은 통신 내 턴 경계의 모호함, 모델 추론 중 발생하는 문맥 불일치 등 상당한 과제를 안고 있습니다. 또한 기존 벤치마크는 대화 기능 평가에만 집중하여 다른 중요한 측면을 종종 간과합니다. 이러한 격차를 해결하기 위해 본 논문은 FD-SLM의 포괄적인 다중 차례 평가를 위해 설계된 새로운 벤치마크인 MTR-DuplexBench를 소개합니다. MTR-DuplexBench는 연속적인 풀-듀플렉스 대화를 개별 턴으로 분할하여 턴별 평가를 수행할 뿐만 아니라, 대화 기능, 대화 품질, 지시 따르기, 안전성 등 다양한 평가 측면을 통합합니다. 실험 결과에 따르면, 현재의 FD-SLM들은 다중 차례와 다양한 평가 차원에 걸쳐 일관된 성능을 유지하는 데 어려움을 겪으며, 본 벤치마크의 필요성과 효과성을 입증하였습니다. 코드와 데이터는 다음에서 이용 가능합니다: https://github.com/ZhangHe0918/MTR-DuplexBench
본 논문에서는 Intel AI Boost NPU에서 검증된 이종 가속기 하드웨어용 트랜스포머 배포를 위한 4단계 컴파일러인 Forge-UGC(FX Optimization and Register-Graph Engine for Universal Graph Compilation)를 제시한다. OpenVINO 및 ONNX Runtime과 같은 기존 프레임워크는 불투명한 컴파일 파이프라인, 제한된 패스 수준 가시성, 취약한 버퍼 관리로 인해 높은 컴파일 비용과 런타임 오버헤드를 초래하는 경우가 많다. Forge-UGC는 그래프 캡처, 최적화, 중간 표현 로워링(lowering), 백엔드 스케줄링을 분리하는 하드웨어 비의존적 설계로 이러한 문제를 해결한다. 1단계에서는 torch.export를 통해 ATen 연산자 수준에서 그래프를 캡처하며, 회전 위치 임베딩(rotary position embedding), 그룹화된 질의 어텐션(grouped-query attention), SwiGLU 등 현대적인 트랜스포머 구성 요소를 수동 분해 없이 지원한다. 2단계에서는 데드 코드 제거, 공통 부분 표현 제거, 상수 폴딩, 어텐션 퓨전, 연산자 퓨전, 레이아웃 최적화 등 6가지 최적화 패스를 적용하여 그래프 노드 수를 14.2~21.9% 감소시킨다. 3단계에서는 최적화된 그래프를 명시적 가상 레지스터 할당이 포함된 타입 중간 표현으로 로워링한다. 4단계에서는 라이브니스 분석(liveness analysis)과 선형 스캔 버퍼 할당을 통해 최대 버퍼 사용량을 30~48% 절감하고, 디바이스 선호도 스케줄링(device-affinity scheduling)을 통해 NPU-CPU 전환을 42~65% 줄인다. 125M에서 8B 파라미터에 이르는 6개 모델 패밀리를 WikiText-103과 GLUE로 평가한 결과, Forge-UGC는 OpenVINO 및 ONNX Runtime 대비 컴파일 속도가 6.9~9.2배 빠르고, 추론 지연 시간은 18.2~35.7% 낮으며, 추론 당 에너지는 30.2~40.9% 더 적게 소모되었다. 정확도는 최대 절대 로짓 차이가 2.1e-5 미만, KL 발산이 8.4e-9 미만으로 유지되었다. 또한 NPU 컴파일 파이프라인의 체계적인 평가를 위해 퓨전 이득 비율(Fusion Gain Ratio), 컴파일 효율 지수(Compilation Efficiency Index), 패스 별 실행 프로파일링을 도입하였다.
유전자형-환경 상호작용(GxE)은 다양한 환경에서 유전자형의 표현형 발현에 영향을 미쳐 목표 환경에서의 표현형 예측 가능성을 감소시킵니다. GxE 상호작용에 대한 심층 분석은 특정 환경 조건에서 유전적 장점 또는 결함이 어떻게 발현되거나 억제되는지 파악하는 것을 가능하게 하여, 효율적인 유전자 선발 및 육종 실무 개선에 기여합니다. 본 논문은 GxE 상호작용 연구를 위한 두 가지 핵심 모델을 소개합니다. 구체적으로, 유전자 또는 GxE 상호작용이 표현형 형질에 유의미한 영향을 미치는지 판단하기 위한 혼합효과모델 기반 유의성 분석과, 유전자와 환경 간의 상호작용 관계 및 환경별 유전자형의 상대적 우열을 추가로 탐구하는 안정성 분석을 포함합니다. 또한 본 논문은 저자들이 자체 개발한 경량화 상호작용 도구인 RGxEStat을 소개합니다. 해당 도구는 상기 모델들의 구성, 해석, 시각화 기능을 통합하며, 육종가 및 농학자들이 복잡한 SAS 또는 R 프로그래밍을 학습할 필요 없이 직관적인 사용자 인터페이스를 통해 효율적인 육종 데이터 분석을 수행할 수 있도록 설계되어 연구 주기를 단축합니다. 코드와 데이터 세트는 https://github.com/mason-ching/RGxEStat에서 이용 가능합니다.
우리는 JuRe(Just Repair)를 소개한다. 이는 시계열 이상 감지를 위한 최소 잡음 제거 네트워크로, 핵심 발견점을 제시한다: 매니폴드 투영 원리를 올바르게 구현한 훈련 목표가 있을 때는 구조적 복잡성이 불필요하다는 점이다. JuRe는 은닉 차원 128의 단일 깊이별 분리 가능 합성곱 잔차 블록으로 구성되며, 손상된 시계열 창을 복구하도록 훈련되고 추론 시에는 고정된 매개변수 없는 구조적 불일치 함수로 점수가 매겨진다. 어텐션, 잠재 변수, 적대적 구성 요소를 전혀 사용하지 않음에도 불구하고, JuRe는 TSB-AD 다변량 벤치마크(AUC-PR 0.404, 180개 시계열, 17개 데이터셋)에서 2위를, AUC-PR 기준 UCR 단변량 아카이브(0.198, 250개 시계열)에서 2위를 기록하며 AUC-PR과 VUS-PR 모두에서 모든 신경망 기준 모델을 선도했다. TSB-AD에 대한 구성 요소 제거 실험은 훈련 시 손상 적용이 주요 요인임을 확인했으며(제거 시 ΔAUC-PR = 0.047), 네트워크 용량이 아닌 잡음 제거 목표가 감지 품질을 주도함을 입증했다. TSB-AD에서 25개 기준 모델 중 21개에 대한 pairwise Wilcoxon 부호 순위 검정으로 통계적 유의성을 확립했다. 코드는 https://github.com/iis-esslingen/JuRe 에서 이용 가능하다.
저희는 보상 해킹이 가능한 것으로 입증된 인기 있는 공개 벤치마크에서 복제한 331개 터미널 에이전트 벤치마크 환경 하위 집합인 Terminal Wrench를 공개합니다. 이 데이터 세트에는 3개의 최첨단 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4)에 대한 3,632개의 해킹 궤적과 2,352개의 정상 기준 궤적이 포함되어 있습니다. 각 항목은 검증기를 어떻게 우회했는지를 보여주는 전체 공격 궤적과 함께 원본 작업 정의를 보존합니다. 또한 작업이 의도대로 해결되지 않은 사례도 포함됩니다. 작업 범위는 시스템 관리, 머신러닝, 소프트웨어 엔지니어링, 보안 과제에 걸쳐 있으며, 악용 기법은 단순한 출력 스푸핑부터 스택 프레임 검사, 표준 라이브러리 패치, 루트킷 스타일 바이너리 하이재킹까지 다양합니다. 중요한 것은 이러한 악용 기법이 평가 도구가 아닌 각 작업에 특화되어 있어 패치가 더 어렵다는 점입니다. 또한 해킹 궤적을 정제하거나 추론 흔적을 제거한 후 LLM 평가자가 점수를 매기는 모니터링 가능성 연구를 제시하며, 사고 흔적이 제거되면 탐지 성능이 의미 있게 저하됨을 보여줍니다(AUC가 0.97에서 0.92로 하락). 데이터 세트는 https://github.com/few-sh/terminal-wrench 에서 공개적으로 이용할 수 있습니다.
인공지능에서 가장 중요한 구조적 문제는 모델의 크기가 아니라, 모델이 이해한 내용을 이어나가는 계층의 부재입니다. 세션이 종료되고, 컨텍스트 창이 채워지며, 메모리 API는 모델이 매번 읽을 때마다 처음부터 재해석해야 하는 평면적인 사실들만 반환합니다. 그 결과는 세션 내에서는 강력하지만 시간이 지나면 망각에 빠지는 지능입니다. 이 입장 문서는 이 문제를 해결하는 계층, 즉 연속성 계층이 해당 분야에서 아직 구축되지 않은 가장 중요한 인프라이며, 이를 구축하기 위한 엔지니어링 작업이 공개적으로 시작되었다고 주장합니다. 여기서 설명하는 특성에 대한 공식 평가 프레임워크는 250개 이야기 코퍼스에 대한 평가 결과가 별도로 공개된 ATANT 벤치마크(arXiv:2604.06710)이며, 동반 논문(arXiv:2604.10981)은 이 프레임워크를 기존 메모리, 장문 컨텍스트, 에이전트 메모리 벤치마크와 비교합니다. 본 논문은 연속성을 메모리 및 검색과 구분되는, 일곱 가지 필수 특성을 가진 시스템 속성으로 정의합니다. 기록 시 분해와 읽기 시 재구성을 통해 해당 속성을 생성하는 저장 기본 요소(분해된 흔적 수렴 메모리)를 설명하고, 이 엔지니어링 아키텍처를 케노시스의 신학적 패턴과 알파와 오메가의 상징적 패턴에 대응시키며, 이 대응이 은유가 아닌 구조적이라고 주장합니다. 외부 SDK에서 하드웨어 노드, 장기적 인간 인프라에 이르는 4계층 개발 아크를 제안하고, 모델 계층을 현재 제약하는 물리학적 한계가 왜 연속성 계층을 새롭게 중요하게 만드는지 검토합니다. 또한 거버넌스 아키텍처(정책이 아닌 물리학으로 구현된 프라이버시, 협상 불가능한 구조적 약속에 대한 설립자 지배 종류주)가 제품 자체와 분리될 수 없음을 주장합니다.
신경 그래프 표현은 객체와 그 관계를 모델링하여 구조화된 시각적 이해를 가능하게 하며, 다중 뷰 및 3D 장면 추론에 널리 사용되어 왔습니다. MSG와 같은 기존 방법은 대조 학습과 어텐션 기반 연관성을 사용해 유클리드 공간에서 신경 그래프 임베딩을 학습합니다. 그러나 유클리드 기하학은 장소와 객체 간의 계층적 함의 관계를 명시적으로 포착하지 못해 학습된 표현의 구조적 일관성을 제한합니다. 이를 해결하기 위해 우리는 계층적 관계가 기하학적 거리를 통해 자연스럽게 인코딩되는 쌍곡 공간에서 신경 그래프 임베딩을 학습하는 Hyperbolic Scene Graph(HSG)를 제안합니다. 우리의 결과는 HSG가 강력한 검색 성능을 유지하면서 계층적 구조 품질을 향상시킴을 보여줍니다. 가장 큰 향상은 그래프 수준 지표에서 관찰됩니다: HSG는 33.17의 PP IoU와 가장 높은 33.51의 Graph IoU를 달성하여 최고의 AoMSG 변형(25.37)을 8.14 앞섰으며, 이는 신경 그래프 모델링을 위한 쌍곡 표현 학습의 효과를 입증합니다. 코드: https://github.com/AIGeeksGroup/HSG.
디코더 전용 대규모 언어 모델(LLM)은 BERT 스타일 아키텍처를 대체하여 밀집 검색의 핵심 백본으로 자리 잡으며, 상당한 성능 향상과 폭넓은 적용을 이루고 있습니다. 그러나 이러한 LLM 기반 검색 모델의 강건성은 아직 충분히 연구되지 않았습니다. 본 논문에서는 최신 오픈소스 LLM 기반 밀집 검색 모델의 강건성을 일반화성과 안정성이라는 두 가지 상호 보완적인 관점에서 체계적으로 최초로 연구합니다. 일반화성 측면에서는 30개 데이터셋에 걸친 4개 벤치마크에서 검색 효과를 평가하고, 선형 혼합 효과 모델을 사용하여 한계 평균 성능을 추정하며 모델의 본질적 능력과 데이터셋 이질성을 분리합니다. 우리의 분석은 지시어 튜닝된 모델이 일반적으로 우수하지만, 복잡한 추론에 최적화된 모델은 종종 "전문화 비용"을 치르며 더 넓은 맥락에서 제한된 일반화성을 보인다는 것을 밝힙니다. 안정성 측면에서는 의도치 않은 질의 변형(예: 재구성, 오타)과 악의적 적대적 공격(예: 코퍼스 오염) 모두에 대한 모델 복원력을 평가합니다. LLM 기반 검색 모델은 인코더 전용 기준 모델 대비 오타와 코퍼스 오염에 대해 향상된 강건성을 보이지만, 동의어 치환과 같은 의미론적 교란에는 여전히 취약한 것으로 나타납니다. 추가 분석에 따르면 임베딩 기하학(예: 각도 균일성)은 어휘적 안정성에 대한 예측 신호를 제공하며, 모델 크기 확장이 일반적으로 강건성 향상으로 이어짐을 시사합니다. 이러한 결과는 향후 강건성 고려 검색 모델 설계와 체계적인 벤치마킹에 기여합니다. 우리의 코드는 https://github.com/liyongkang123/Robust_LLM_Retriever_Eval 에 공개되어 있습니다.
본 논문은 대규모 언어 모델의 자발적 문제 인식 능력을 평가하기 위한 첫 번째 버전의 KWBench(Knowledge Work Bench) 벤치마크를 소개합니다. 즉, LLM이 문제 해결을 시도하기 전에 전문가 수준의 시나리오를 식별할 수 있는지 평가합니다. 기존 최첨단 벤치마크는 포화 상태에 이르렀으며, 현재까지의 대부분의 지식 작업 평가는 사양에 따른 정보 추출이나 과제 수행으로 축소되는 경향이 있습니다. KWBench는 그 이전 단계, 즉 원시 입력만으로 상황을 지배하는 구조를 인식하는 능력을 목표로 합니다. 이 벤치마크는 조달, 계약 협상, 임상 약학, 조직 정치, 사기 분석, 인센티브 설계 등 다양한 분야의 실무자들로부터 수집된 223개의 과제로 구성됩니다. 각 과제는 공식적인 게임 이론적 패턴(주인-대리인 갈등, 시그널링, 메커니즘 설계 실패, 전략적 생략, 연합 역학, 전략적 상호의존성)을 내포하며, 전문가의 상황 판단과 예상 실패 모드를 구조화된 정답 데이터로 기록합니다. 모델은 문제 유형에 대한 어떠한 힌트도 없는 원시 데이터와 과제 지시를 받습니다. 채점은 필수 결합 조건 확인을 통과해야 하는 3단계 평가 기준으로 이루어집니다. 필수 기준은 예측된 오류 경로를 코드화합니다. 총 16개의 모델을 평가한 결과, 최고 성능 모델은 과제의 27.9%만을 통과했습니다. 상위 두 모델은 통과한 과제 중에서도 31.7%만 일치했습니다. 상위 8개 모델 중 44개의 과제는 정확히 하나의 모델만이 해결했으며, 상위 8개 모델을 모두 활용하면 벤치마크의 50.7%를 커버해 단일 최고 모델 성능의 거의 두 배에 달했습니다. 통과한 과제에 한정하면 품질 점수는 약 83%로 모델 간 수렴하는 반면, 전체 무조건 점수는 그렇지 않았습니다. 동일 모델들은 질문을 받으면 관련 게임 이론 개념을 정확히 설명하지만, 별도의 지시 없이는 이를 적용하지 못했습니다. 우리는 KWBench를 공개하여 최첨단 모델의 지식 작업 평가 방식을 전환하고, 문제가 이미 정의된 후 실행을 얼마나 잘하는지뿐만 아니라 상황 자체에서 올바른 문제를 인식하는지에 따라 평가하고자 합니다.
도구를 통해 환경과 상호작용하는 AI 에이전트는 강력한 애플리케이션을 가능하게 하지만, 높은 위험이 따르는 비즈니스 환경에서는 의도하지 않은 행동이 개인정보 유출이나 재정적 손실과 같은 용납할 수 없는 피해를 초래할 수 있습니다. 훈련 기반 방법이나 신경망 기반 가드레일과 같은 기존 완화 기술은 에이전트 신뢰성을 향상시키지만 보장을 제공할 수 없습니다. 본 연구는 AI 에이전트에 대한 강력한 안전 및 보안 보장을 위한 실용적인 방안으로 기호적 가드레일을 연구합니다. 3부로 구성된 본 연구에는 평가 정책을 식별하기 위한 80개의 최첨단 에이전트 안전 및 보안 벤치마크에 대한 체계적 검토, 기호적 가드레일로 보장 가능한 정책 요구사항 분석, 그리고 τ^2-Bench, CAR-bench, MedAgentBench에서 기호적 가드레일이 안전, 보안 및 에이전트 성공에 미치는 영향 평가가 포함됩니다. 연구 결과, 벤치마크의 85%가 구체적인 정책이 부족하고, 대신 명세가 불분명한 높은 수준의 목표나 상식에 의존하고 있음을 발견했습니다. 명시된 정책 중 74%의 정책 요구사항은 종종 간단하고 저비용의 메커니즘을 사용하는 기호적 가드레일로 시행될 수 있습니다. 이러한 가드레일은 에이전트 유용성을 희생하지 않으면서 안전과 보안을 향상시킵니다. 전체적으로, 우리의 결과는 기호적 가드레일이 특히 도메인 특화 AI 에이전트의 일부 안전 및 보안 요구사항을 보장하는 실용적이고 효과적인 방법임을 시사합니다. 모든 코드와 아티팩트는 https://github.com/hyn0027/agent-symbolic-guardrails에서 공개합니다.
지식 증류는 대규모 언어 모델의 능력을 더 작고 효율적인 학생 모델로 전달하기 위해 널리 채택된 기술입니다. 그러나 권한 없는 지식 증류 사용은 첨단 모델 개발에 투입된 상당한 노력과 비용을 부당하게 이용하는 행위입니다. 본 연구에서는 교사 모델이 생성한 추론 흔적을 수정하여 권한 없는 증류를 방지하는 두 가지 목적, 즉 (1) 훈련 유용성을 저하시키는 반-증류 효과와 (2) 학생 모델에 검증 가능한 서명을 삽입하는 API 워터마킹을 달성하는 방법을 탐구합니다. 우리는 답변의 정확성과 의미적 일관성을 유지하면서 교사 모델의 추론 결과를 동적으로 재작성하는 여러 접근법을 소개합니다. 이 중 두 가지는 대규모 언어 모델의 재작성 능력을 활용하고, 나머지는 그래디언트 기반 기술을 사용합니다. 우리의 실험 결과, 간단한 지시 기반 재작성 접근법이 교사 모델의 성능을 유지하거나 오히려 개선하면서도 강력한 반-증류 효과를 달성함을 보여줍니다. 더 나아가, 우리의 재작성 접근법은 오탐지가 거의 없이도 신뢰성 있게 검출 가능한 워터마크 삽입도 가능하게 함을 확인했습니다. 코드는 https://github.com/xhOwenMa/trace-rewriting에서 확인할 수 있습니다.