번역이 포함된 일일 선별된 AI 연구 논문
대화형 비디오 생성을 위한 세계 모델은 주로 단일 에이전트 설정에 초점을 맞추어 왔으며, 이 경우 미래 관측값이 단일 제어 신호로부터 생성된다. 그러나 많은 생성 환경에서는 다중 에이전트 상호작용, 즉 여러 플레이어, 로봇 또는 체화된 에이전트가 공유 공간 내에서 동시에 행동해야 한다. 이러한 설정으로 세계 모델을 확장하기 위해서는 원칙적인 다중 에이전트 설계가 필요하다. 에이전트는 독립적으로 제어 가능해야 하며, 순열 대칭성을 가지며, 시간과 관점에 걸쳐 일관성을 유지하면서 효율적인 추론을 지원해야 한다. 본 논문에서는 대화형 시뮬레이션을 위한 생성적 다중 에이전트 세계 모델을 제시한다. 이 모델은 3D RoPE의 파라미터 없는 확장인 심플렉스 회전 에이전트 인코딩(Simplex Rotary Agent Encoding)을 도입하여, 에이전트를 회전 각 공간에서 정규 심플렉스의 꼭짓점으로 표현한다. 이는 각 에이전트에 고유한 위상을 부여하면서 모든 에이전트를 순열 등가로 만들어, 학습된 슬롯별 식별자나 고정된 에이전트 순서 없이 확장 가능한 에이전트 정체성을 가능하게 한다. 에이전트 간의 모든 쌍(all-to-all) 어텐션을 피하기 위해, 우리는 희소 허브 어텐션(Sparse Hub Attention)을 추가로 제안한다. 여기서 학습 가능한 허브 토큰이 에이전트 간 토큰 상호작용을 중재하여, 에이전트 간 어텐션 비용을 에이전트 수에 대해 이차에서 선형으로 감소시킨다. 실시간 롤아웃을 위해, 전체 컨텍스트 확산 교사 모델을 증류하여 인과적 학생 모델로 만들고, KV 캐싱을 사용하여 시간 블록을 순차적으로 생성함으로써 24FPS에서 행동 반응형 생성을 가능하게 한다. 다중 플레이어 가상 환경 실험에서, 우리 모델은 슬롯 기반 및 밀집 어텐션 기준선에 비해 비디오 충실도, 행동 제어 가능성 및 에이전트 간 일관성을 개선하면서, 추가 학습 없이 2명에서 4명의 플레이어로 일반화됨을 보여준다.
프로액티브 추천 시스템(PRS)은 중간 추천 항목의 경로를 생성하여 사용자의 선호도를 목표 항목으로 체계적으로 전환하는 것을 목표로 한다. 강화 학습(RL)은 이러한 순차적 의사결정 작업을 최적화하기 위한 원칙적인 프레임워크를 제공하는데, 경로 보상은 단기적 수용과 장기적 유도 효과를 자연스럽게 포착할 수 있기 때문이다. 그러나 PRS에 정책 그래디언트를 단순하게 적용하면 그래디언트 추정이 부족해진다. 본 논문은 두 가지 결함을 식별한다: (1) 경로 수준 보상이 양의 평균을 가진 단계 수준 보상으로 분해되면서 길이 의존적 편향이 발생하여, 그래디언트가 의미 있는 탐색보다 경로 확장을 선호하게 된다; (2) 각 단계를 전체 경로 수준 보상으로 가중하면 분해 구조를 무시하여 그래디언트 분산이 높아진다. 이러한 두 가지 결함을 해결하기 위해, 본 논문은 프로액티브 추천을 위한 두 가지 새로운 메커니즘을 포함하는 효과적인 RL 프레임워크인 ProRL을 제안한다. 첫째, 단계별 보상 중앙화(Stepwise Reward Centering)는 기대 보상을 차감하여 길이 의존적 편향을 중화함으로써, 경로 확장이 기대 그래디언트 신호를 생성하지 않도록 보장한다. 둘째, 위치 특이적 이점 추정(Position-Specific Advantage Estimation)은 보상 분해 구조를 활용하여 단계 의존적 기준선을 계산함으로써 그래디언트 분산을 줄인다. 이 두 메커니즘을 통해 경로 품질을 정확히 타겟팅하는 정책 그래디언트를 얻을 수 있다. 세 개의 실제 데이터셋에 대한 실험 결과, ProRL이 최신 PRS 방법들을 유의미하게 능가함을 보여준다. 코드는 https://github.com/hongruhou89/ProRL에서 확인할 수 있다.
확장된 추론을 갖춘 시각-언어 모델은 복잡한 문제에서 성공하지만, 많은 실제 문제는 내부 추론만으로는 해결하기 어려운 외부 도구를 필요로 한다. 따라서 에이전트적 추론은 구조적 비대칭성을 가진 두 가지 행동, 즉 사고(자체 포함된 기본 행위)와 도구 사용(고분산 보조 행위)을 교차시킨다. 우리는 이러한 비대칭성을 사고-행동 간극(Thinking-Acting Gap)이라고 부른다. GRPO와 같은 표준 RL 방식에서 이 간극은 훈련 중 두 가지 진단적 증상으로 나타난다. 즉, 도구 사용은 롤아웃의 약 30%에서만 시도되며, 시도될 경우 그룹 내 도구 사용 롤아웃은 약 40%의 질문에서 모두 틀려, 학습 신호가 필요한 도구 호출 지점에서 신호가 억압된다. 우리는 AXPO(Agent eXplorative Policy Optimization)를 제안한다. 각각의 전체 오답 도구 사용 부분그룹에 대해, AXPO는 사고 프리픽스를 고정하고 도구 호출 및 그 이후를 재표집하며, 불확실성 기반 프리픽스 선택과 결합한다. 9개의 멀티모달 벤치마크와 세 가지 규모의 Qwen3-VL-Thinking에서 SFT+AXPO는 평균적으로 SFT+GRPO보다 성능이 뛰어나며(8B에서 평균 Pass@1 +1.8pp, Pass@4 +1.8pp), SFT+AXPO를 적용한 8B 모델은 4배 적은 파라미터로 32B Base 모델의 Pass@4를 능가한다.
현재 시각-언어 모델(VLM)은 일반적으로 다단계 정렬을 통해 별도의 이미지 인코더와 언어 디코더를 결합하는 모듈식 프레임워크를 사용하며, 이는 필연적으로 프레임 간 픽셀 수준 신호를 분할하고 초기 픽셀-단어 상호작용을 산만하게 만든다. 이와 병행하여, 네이티브 VLM은 단일 이미지에서 인상적인 성능을 보임에도 불구하고 다중 이미지, 비디오 이해 및 공간 지능 측면에서는 거의 탐구되지 않은 상태이다. 이에 우리는 외부 인코더, 보조 어댑터 또는 사후 융합 없이 프레임 간 및 픽셀-단어 대응을 종단간 학습하는 네이티브 기초 모델인 NEO-ov를 소개한다. 모듈 경계를 완전히 제거함으로써 NEO-ov는 모델 내부에서 고유하게 세밀하고 통합된 시공간 모델링이 발현되도록 한다. 주목할 점은 NEO-ov가 모듈식 대응 모델과의 격차를 크게 좁히는 동시에 세밀한 시각 인식에서 탁월한 성능을 보여, 네이티브 '단일 비전' 아키텍처가 확장 가능한 수준에서 실행 가능할 뿐만 아니라 경쟁력 있음을 검증한다는 것이다. 실증적 성능 외에도, 우리는 체계적인 아키텍처 분석과 상세한 훈련 레시피를 공개하여 후속 네이티브 멀티모달 모델링을 촉진한다. 코드와 모델은 다음에서 공개적으로 이용 가능하다: https://github.com/EvolvingLMMs-Lab/NEO.
탐색은 자기 개선 언어 모델 및 에이전트 시스템, 특히 후학습 샘플 생성 및 추론 모두에서 효과적인 방법으로 제안되어 왔다. 그러나 최상-N 샘플링 및 트리 탐색과 같은 널리 사용되는 방법은 두 가지 근본적인 한계에 직면한다: 희소 검증 신호에 의해 안내되며, 후보를 주로 자기회귀적 확장을 통해 구성하여 상당한 모델 확률 질량을 가진 영역으로만 탐색을 제한한다. 이러한 문제를 해결하기 위해, 우리는 전진 후보 진화와 후진 목표 분해를 결합한 탐색 프레임워크인 양방향 진화 탐색(BES)을 제안한다. 전진 탐색에서 BES는 부분 궤적을 재조합하여 단일 모델 롤아웃으로는 얻기 어려운 후보를 생성하는 진화 연산자로 표준 확장을 보강한다. 후진 탐색에서 BES는 원래 작업을 확인 가능한 하위 목표로 재귀적으로 분해하여 전진 탐색을 안내하는 밀집 중간 피드백을 생성한다. 우리는 확장 전용 탐색으로 생성된 후보가 좁은 엔트로피 껍질에 국한되는 반면 진화 연산자는 이를 벗어날 수 있으며, 후진 탐색이 정답을 찾는 데 필요한 샘플 수를 지수적으로 감소시킬 수 있음을 보여주는 이론적 동기를 제공한다. 실험 결과, 주류 후학습 알고리즘이 개선에 실패하는 까다로운 후학습 과제에서 BES가 일관된 성능 향상을 가능하게 하며, 추론 시 세 가지 공개 문제 해결 벤치마크에서 BES가 기존 오픈소스 프레임워크를 평균 및 최고 성능 모두에서 능가함을 보여준다. 코드와 학습된 모델은 https://github.com/Embodied-Minds-Lab/BES에서 확인할 수 있다.
수학의 최전선은 아직 해결책이 알려지지 않은 문제들로 정의되지만, 언어 모델이 인간의 개입 없이 그러한 문제들에 의미 있게 접근할 수 있는지는 여전히 불분명하다. 주요 장애물은 대규모 연구 수준의 수학 데이터셋이 부족하다는 점이다. 이를 위해 우리는 다중 에이전트 파이프라인을 통해 학술 출처에서 선별한 14,056개의 문제로 구성된 ResearchMath-14k를 소개하며, 이는 현재까지 가장 큰 연구 수준의 수학 문제 모음집이다. 또한 두 개의 오픈 모델에서 220K개의 교사 궤적(teacher trajectories)으로 구성된 ResearchMath-Reasoning을 생성했으며, 여기서 시도하지 않음(non-attempts) 및 조작된 참조(fabricated references)와 같은 반복적인 회피 행동을 관찰했다. 흥미롭게도, 8개의 오픈 가중치(open-weight) 모델에서 최신 세대는 추적(trace)당 5.6배 더 많은 참조와 5.0배 더 많은 가짜 참조를 생성한다. ResearchMath-Reasoning에 대한 에이전틱 필터링(agentic filtering) 후, 4B에서 30B 파라미터까지의 Qwen3 모델을 미세 조정(fine-tuning)하면 기본 모델 대비 평균 9.2포인트 향상된다. 이는 필터링된 미해결 문제 시도가 완전히 올바른 추론 궤적 없이도 유용한 지도(supervision)를 제공할 수 있음을 보여준다. 연구 수준의 수학적 추론에 대한 향후 연구를 위해 ResearchMath-14k를 공개한다.
강화 학습은 대규모 언어 모델의 추론 능력을 향상시키는 중심 패러다임이 되었지만, 기존의 대부분 방법들은 여전히 더 강력한 교사 모델이나 엄선된 어려운 데이터셋에 의존하여 확장 가능한 능력 향상에 제한이 있습니다. 본 논문에서는 약한 모델의 실패로부터 복구 지향적 최적화를 통해 외부 감독을 대체하는 강화 학습 프레임워크인 DenoiseRL을 소개합니다. 더 강력한 감독이나 정교하게 설계된 데이터에 의존하는 대신, DenoiseRL은 잘못된 추론 궤적으로부터 직접 학습하여 이를 개선 기회로 전환함으로써 훈련을 보다 확장 가능하게 하고 외부 자원에 대한 의존도를 낮춥니다. 이로 인해 더 풍부하고 다양한 학습 신호가 생성되어 불완전한 모델 행동으로부터 탐색 효율성을 향상시킵니다. 결과적으로, DenoiseRL은 값비싼 데이터 큐레이션이나 강력한 교사 모델의 필요성을 줄이면서 추론 성능과 전반적인 훈련 효율성을 향상시킵니다. 실험적으로, DenoiseRL은 경쟁적인 수학 및 일반 추론 벤치마크에서 강력한 온-정책 강화 학습 기준선을 일관되게 능가하며, 훈련 난이도가 증가함에 따라 더 강력한 자기 교정 행동을 촉진하여 대규모 언어 모델의 추론 개선을 위한 효과적이고 확장 가능한 대안적 경로를 강조합니다.
구현형 시각-언어 모델(VLM)은 특히 시각-언어-행동 프레임워크 내에서 로봇 공학 분야에 인상적인 성능과 일반화 능력을 입증해 왔다. 그러나 표준 텍스트 기반 사전 학습 패러다임의 고수준 의미 중심과 구현 환경에서 실행에 중요한 저수준 공간 및 물리적 지식 사이에는 여전히 상당한 격차가 존재한다. 본 논문에서는 이러한 격차를 해소하기 위해 설계된 GEM(생성적 지도 학습 기반 구현형 시각-언어 모델)을 소개한다. 우리는 깊이 맵 생성 작업을 VLM 사전 학습 단계에 직접 통합할 것을 제안한다. 이 생성적 목표를 주 모델과 함께 공동으로 학습함으로써, 구현형 지능에서 실질적인 개선을 관찰하였으며, 의미 이해와 물리적 조작 능력이 모두 크게 향상되었다. 이러한 패러다임을 지원하기 위해, 우리는 grounding, 추론, 계획 데이터와 고품질 깊이 감독 정보가 결합된 포괄적인 대규모 데이터셋인 GEM-4M을 선별하여 공개한다. 광범위한 실험을 통해 GEM이 다양한 구현형 벤치마크에서 최첨단 결과를 달성함을 입증한다. 또한, 우리가 배포한 행동 모델인 GEM-VLA는 시뮬레이션 환경과 실제 환경 평가 모두에서 훨씬 뛰어난 작업 실행 능력을 보여준다. 코드, 모델 및 데이터셋은 https://zhaorw02.github.io/GEM/ 에서 확인할 수 있다.
메모리는 대규모 언어 모델이 장기 추론을 지원할 수 있도록 하는 데 필수적이지만, 기존 메모리 시스템은 여전히 신뢰할 수 없고 디버깅하기 어렵다. 메모리의 동적 진화를 추적하는 것은 정보가 시간에 따라 어떻게 합성, 전파 또는 변질되는지 이해하는 데 중요하다. 본 연구에서는 LLM 메모리 시스템에서의 오류 추적 및 귀인이라는 새로운 문제를 탐구한다. 우리는 메모리 파이프라인을 실행 가능한 메모리 진화 그래프로 변환하여 세밀한 연산 정보 흐름 추적을 가능하게 하는 새로운 프레임워크를 제안한다. 그런 다음 Long-Context, RAG, Mem0 및 EverMemOS와 같은 대표적인 메모리 시스템에서 수집된 벤치마크인 MemTraceBench를 구축하여 메모리 실패 모드를 체계적으로 연구한다. 또한 실패 사례의 근본 원인을 파악하기 위해 연산 부분 그래프를 반복적으로 추적하는 자동 귀인 방법을 도입한다. 분석 결과, 메모리 실패는 정보 손실 및 검색 정렬 오류와 같은 연산 수준 문제에서 비롯된 체계적임이 밝혀졌다. 중요한 점은, 이러한 세밀한 귀인 신호를 활용하여 다운스트림 프롬프트 최적화를 유도함으로써 오류를 자동으로 수정하고 최종 태스크 성능을 최대 7.62% 향상시키는 폐쇄 루프 시스템을 구축했다는 것이다. 코드는 https://github.com/zjunlp/MemTrace에서 공개될 예정이다.
컴퓨터 사용 에이전트(CUA)는 최근 상당한 진전을 이루었지만, 각 소프트웨어 도메인마다 별도의 대규모 전문가를 배치하는 것은 여전히 비용이 많이 든다. 소규모 공개 컴퓨터 사용 에이전트는 더 실용적인 특화 대상이지만, 여전히 상당히 취약하며 도메인별로 불균일한 실패를 보인다. 간단한 해결책은 대상 도메인에 대한 대규모 훈련 데이터를 합성하는 것이지만, 이러한 단순한 접근 방식은 미미한 개선만을 가져온다는 것을 발견했다. 이러한 관찰을 바탕으로, 우리는 더 강력한 참조 에이전트를 사용하여 대상 도메인에서 학생의 약점을 식별하고, 맞춤형 작업을 합성하며, 자동으로 감독을 구축하는, 소규모 컴퓨터 사용 에이전트를 위한 주석 없는 특화 프레임워크인 LearnWeak를 소개한다. LearnWeak는 또한 계획 오류와 실행 오류를 분리하는 오류 인식 특화 목적 함수를 도입하여, 광범위한 균일 감독보다 더 행동적으로 정밀한 업데이트를 가능하게 한다. OSWorld에서 LearnWeak는 여덟 도메인에 걸쳐 EvoCUA-8B 및 OpenCUA-7B 대비 각각 평균 11.6%포인트 및 11.1%포인트의 향상을 달성했다. 또한 우리의 학생 인식 데이터셋 생성 및 훈련 접근 방식이 기존의 자율 궤적 생성 및 훈련 기준선을 능가한다는 것을 검증한다. 본 연구는 데이터 합성 및 에이전트 훈련 모두에서 학생 인식의 중요성을 강조하며, 다양한 도메인에서 소규모 컴퓨터 사용 에이전트를 특화하기 위한 보다 원칙적이고 효율적인 경로를 제시한다.
자율 연구 에이전트는 경쟁력 있는 해결책과 전문가 수준의 원고를 생성하지만, 그 결과물에는 표면적 평가로는 탐지할 수 없는 검증 가능성 실패(조작된 인용, 재현 불가능한 점수, 구현과 다른 방법론 설명)가 포함되어 있다. 본 연구는 세 가지 기여를 통해 이를 해결한다. 첫째, 모든 주장이 증거 출처까지 추적 가능해야 한다는 검증 가능성 프레임워크인 증거 사슬(Chain-of-Evidence, CoE)을 제안한다. 둘째, 문헌 검토, 해결책 발견, 논문 작성 전반에 걸쳐 증거 사슬을 구조적으로 유지하는 종단간 자율 연구 시스템인 ScientistOne을 제안한다. 셋째, 사후 감사 도구인 CoE Audit을 제안하며, 이는 점수 검증, 규격 위반, 참조문헌 검증, 방법론-코드 정합성의 네 가지 무결성 검사를 모든 시스템에 동일하게 적용한다. 다섯 가지 시스템과 다섯 가지 최전선 연구 과제에 걸친 75편의 논문 분석 결과, 모든 기준 시스템은 적어도 하나의 체계적 실패 모드를 보였다: 환각 참조문헌 비율은 21%에 달했고, 점수 검증 통과율은 42%에 불과한 논문도 있었으며, 방법론-코드 정합성은 20%에서 80%까지 분포했다. 반면 ScientistOne은 환각 참조문헌이 0건(0/337), 점수 검증 완벽 통과(12/12), 가장 높은 방법론-코드 정합성(14/15)을 달성했으며, 다섯 가지 모든 과제에서 인간 전문가 성능과 동등하거나 이를 초과했다. 또한 ScientistOne은 의료 영상, 세부 인식, 3차원 인식, 언어 모델링을 포함한 여섯 가지 추가 과제로 일반화되었으며, 기준 시스템이 완전히 실패하는 MLE-Bench 과제에서 금메달을 획득하고 Parameter Golf에서 최첨단 성능을 달성했다.
AI 연구 에이전트는 이제 연구 아이디어를 생성하고, 실험을 설계하며, 코드를 실행하고, 논문을 초안 작성할 수 있어 대규모 AI 지원 과학적 발견의 가능성을 제기한다. 많은 현재 에이전트 프레임워크는 명시적으로 새롭고 영향력이 큰 아이디어의 생성을 장려한다. 그러나 AI 지원 아이디어 생성이 과학적 탐구를 확장하는지 아니면 주로 기존 연구 주변에 집중되는지 여부는 여전히 불분명하다. 우리는 AI 연구 에이전트를 과학적 탐색 시스템으로 연구한다. 네 가지 AI 연구 에이전트 프레임워크와 여섯 개의 대규모 언어 모델을 사용하여, AI 및 머신러닝의 인용 기반 연구 분야 전반에 걸쳐 공유된 시드 문헌으로부터 37,802개의 과학적 아이디어를 생성한다. 그런 다음 생성된 AI 아이디어를 동일한 연구 분야의 인간 저자 논문, 동일한 시드 문헌에서 파생된 후속 인간 연구, 그리고 시드 문헌 자체와 비교한다. 실험 전반에 걸쳐 네 가지 일관된 패턴이 나타난다. 첫째, AI 생성 아이디어는 동일한 연구 분야의 인간 저자 논문보다 훨씬 더 집중되어 있다. 둘째, AI 생성 아이디어는 후속 인간 연구보다 시작 문헌에 훨씬 더 가깝게 유지된다. 셋째, AI 생성 아이디어와 가장 유사한 논문들은 이후 인용 횟수가 낮은 경향을 보인다. 넷째, AI 생성 아이디어가 기존 연구와 다를 때, 그 차이는 근본적으로 새로운 연구 질문을 도입하기보다는 기존 기술적 방법을 재조합하는 데서 주로 발생한다. 전반적으로, 현재 AI 연구 에이전트는 과학적 탐구를 확장하기보다는 국소적 정교화에 더 적합한 것으로 보인다.
기존의 메모리 증강 LLM 에이전트는 종종 메모리를 사전 정의된 표현과 고정된 검색 파이프라인을 가진 정적 저장소로 취급하는데, 이는 피드백, 작업 변동성, 이질적 신호가 지속적으로 무엇을 기억해야 하고 어떻게 연결해야 하는지를 재구성하는 동적 에이전트 환경에서 취약합니다. 이를 해결하기 위해, 우리는 FluxMem을 제안합니다. 이는 메모리를 이종 그래프로 모델링하고 초기 연결 형성, 피드백 기반 정제, 장기 통합의 세 단계를 통해 점진적으로 토폴로지를 개선하는 연결성 진화 메모리 프레임워크입니다. 실행 중 FluxMem은 누락된 링크를 복구하고, 간섭을 제거하며, 추상화 세분성을 정렬하고, 반복되는 성공적인 궤적을 재사용 가능한 절차적 회로로 추출합니다. 이는 메모리 일반화 가능성과 진화적 성숙도를 위한 하나의 지표에 의해 안내됩니다. LoCoMo, Mind2Web, GAIA를 포함한 세 가지 근본적으로 다른 벤치마크에서 FluxMem은 일관된 최첨단 성능을 달성하며, 복잡한 에이전트 환경에서 강력한 적응과 일반화를 보여줍니다. 코드는 https://github.com/zjunlp/LightMem에서 오픈소스로 공개될 예정입니다.
인과적 트랜스포머 언어 모델은 엄격한 순차 디코딩과 단계별 2차 주의 비용이라는 문제를 안고 있다. 선형 시간 인과 모델과 이산 확산 모델은 각각 이러한 약점을 해결하지만, 이들의 통합은 본질적으로 일관성이 없다. 확산은 양방향 주의를 필요로 하는 반면, 인과 모델은 단방향이기 때문이다. 이러한 아키텍처를 통합하기 위해, 우리는 B^3D-RWKV를 제안한다. 이는 삼중 블록 배치 방법을 통해 모델의 O(L) 추론 효율성과 병렬 양방향 이산 확산을 통합하는 확산 RWKV 변종이다. B^3D-RWKV-7.2B는 8개 작업 모음에서 기존 모델과 비슷한 정확도를 달성하면서도, 디코딩 처리량에서 기준 모델을 크게 상회하며 평균 1.6배의 속도 향상을 보인다.
에이전트 스킬은 구조화된 파일에 재사용 가능한 절차적 지식을 저장함으로써 LLM 에이전트를 특수한 도메인에 적응시키는 경량화된 방법을 제공한다. 그러나 제3자로부터 다운로드하거나 자체 생성한 스킬은 종종 신뢰할 수 없거나 불완전하거나 구식이다. 기존의 스킬 진화 방법은 명시적인 최적화 공식 없이 경험적 반성을 통해 이러한 결함을 해결하는 경우가 많다. 본 논문에서는 에이전트 스킬을 최적화하기 위한 경사 하강법에서 영감을 받은 프레임워크인 SkillGrad를 제안한다. SkillGrad는 스킬 패키지를 구조화된 파라미터로 간주하여 경사 하강법 방식으로 최적화한다. 즉, 작업 실행은 궤적 수준의 손실 증거를 제공하고, 자동 진단은 수정 방향을 나타내는 텍스트 기반 그래디언트를 제공한다. 반복 최적화를 안정화하기 위해 모멘텀 에이전트가 반복적인 진단 패턴을 지속적인 메모리 오버레이에 축적한다. 마지막으로 LLM 기반 패처는 스킬 패키지에 레이어 인식 편집을 적용하여 파라미터 업데이트를 실행한다. SpreadsheetBench Verified 및 WikiTableQuestions에서 평가한 결과, SkillGrad는 두 백본 LLM에 걸쳐 학습 기반 스킬 진화 기준선을 일관되게 능가하며, 가장 강력한 학습 기반 기준선 대비 평균 6.7% 포인트 향상되었다. 추가 절제 연구는 모멘텀과 대조 진단이 모두 최종 스킬 품질에 기여함을 보여준다.
확산 트랜스포머는 강력한 비디오 생성 품질을 제공하지만, 완전한 어텐션의 이차 비용이 효율성을 제한합니다. 본 논문에서는 희소 어텐션, 병렬 처리, 양자화 및 강화 학습을 통합한 효율적인 텍스트-비디오 생성 모델인 OSP-Next를 제안합니다. OSP-Next는 하이브리드 완전-희소 어텐션 아키텍처를 사용하며, 희소 구성 요소는 Skiparse-2D 어텐션으로 구현됩니다. 이 고정 패턴 메커니즘은 공간 차원을 따라 토큰 단위 및 그룹 단위 희소 어텐션을 적용하여, FlashAttention 커널과의 기본 호환성을 유지하면서 국소성을 활용합니다. Skiparse-2D 어텐션에서 재배열의 국소적 등가성을 바탕으로, 우리는 추가로 희소 시퀀스 병렬 처리(SSP)를 제안합니다. 이는 서브시퀀스를 여러 랭크에 분할하고 단일 All-to-All 통신을 통해 희소 패턴을 전환합니다. Ulysses 시퀀스 병렬 처리(SP)와 비교하여 SSP는 희소 어텐션에 대한 기본 병렬 전략을 제공하고 통신량을 75% 감소시킵니다. OSP-Next는 또한 HiF8 양자화를 통합하여 8비트 양자화 및 희소 미세 조정을 통한 안정적인 공동 학습을 가능하게 하고, Mix-GRPO 사후 학습을 적용하여 희소 모델의 성능을 향상시킵니다. 실험 결과, OSP-Next는 VBench 총점 83.73%를 달성하여 Wan2.1 기준선을 능가합니다. 5초 720P 및 5초 768P 설정에서 OSP-Next는 NVIDIA H200 GPU에서 최대 1.64배 단일 GPU 가속과 1.52배 이상의 8-GPU 가속을 달성합니다. 또한, VBench 총점이 0.4% 하락하는 데 그친 OSP-Next-HiF8은 단일 Ascend 950PR에서 두 설정 하에 각각 1.69배 및 2.27배의 가속을 보여, 다양한 하드웨어 플랫폼에서 OSP-Next의 효율성과 성능을 입증합니다.
멀티모달 대규모 언어 모델이 GUI(Graphical User Interface) 에이전트 구축 측면에서 빠르게 발전하고 있음에도 불구하고, 실제 작업 완료 능력은 근본적으로 GUI 작업에 관한 세계 지식(World Knowledge)의 부족에 의해 병목 현상을 겪고 있다. 기존 해결책은 일반적으로 고비용의 다중 에이전트 프레임워크나 지도 미세 조정(SFT) 및 강화 학습(RL)과 같은 전통적인 사후 훈련(Post-training) 패러다임에 의존한다. 그러나 사후 훈련은 에이전트가 행동 주석이나 보상 신호를 통해 세계 지식을 암묵적으로 흡수하도록 허용할 뿐이며, 이는 진정한 이해보다는 비효율적인 궤적 암기에 그치게 한다. 따라서 이러한 지식의 명시적 학습을 가능하게 하는 접근 방식이 필수적이다. 이를 위해, 우리는 GUI-CIDER를 제안한다. 이는 인과적 내면화(Causal Internalization)와 밀도 기반 예제 재선택(Density-aware Exemplar Reselection)을 통해 GUI 세계 지식을 명시적으로 내재화하는 중간 훈련(Mid-training) 방법이다. GUI-CIDER는 세 단계로 작동한다: (1) 데이터 합성 단계로, GUI 궤적으로부터 정적 계획 및 동적 인과 지식을 텍스트로 추출(distill)한다; (2) 예제 재선택 단계로, 인과 구조에 보상을 부여하고 의미적 중복성을 패널티를 주어 말뭉치를 필터링한다; (3) 중간 훈련 단계로, 정제된 데이터를 사용하여 획득된 지식을 임베딩한다. 두 가지 GUI 지식 벤치마크와 세 가지 작업 완료 벤치마크에 대한 광범위한 실험 결과, GUI-CIDER가 에이전트의 GUI 작업 이해도와 작업 성공률을 일관되게 향상시킴을 보여준다. 코드는 https://github.com/Wuzheng02/GUI-CIDER 에서 확인할 수 있다.
대규모 언어 모델(LLM)을 위한 온라인 강화 학습(RL)의 최근 발전은 복잡한 추론 작업에서 유망한 성능을 입증해 왔다. 그러나 이러한 방법들은 종종 불균형한 탐색-활용 트레이드오프를 보여주어, 불안정한 최적화와 최적 이하의 성능을 초래한다. 우리는 정보 병목(Information Bottleneck) 이론에 기반한 새로운 지표인 IB-Score를 소개한다. 이는 단계별 추론 다양성과 정답과 공유되는 상호 정보 간의 트레이드오프를 정량화하여 정책의 탐색-활용 균형을 평가한다. IB-Score 기반 분석은 일반적인 정규화기를 사용하는 널리 알려진 온라인 RL 접근법(예: GRPO)이 훈련 중 균형을 일관되게 유지하지 못하고 최적 이하의 결과를 낳는다는 것을 보여준다. 이를 해결하기 위해, 우리는 정보 병목 기반 트리 정책 최적화(Information Bottleneck-driven Tree-based Policy Optimization, IB-TPO)를 제안한다. 이는 IB-Score를 세분화된 최적화 목표로 정식화하고, 새로운 IB-유도 트리 샘플링 전략을 활용하는 원칙적인 프레임워크이다. 이 전략은 동일한 토큰 예산 하에서 50% 더 많은 궤적으로 온라인 샘플링의 효율성을 향상시킬 뿐만 아니라, 트리 구조를 재사용하여 효과적인 IB-Score 몬테카를로 추정을 가능하게 한다. 표준 벤치마크에 걸친 광범위한 실험은 우리의 방법이 GRPO 기준선보다 2.9%에서 3.6%까지 크게 향상된 성능을 보이며, 다른 최신 온라인 RL 접근법들도 능가함을 보여준다. 우리의 코드는 https://github.com/alibaba/EfficientRL에서 확인할 수 있다.
엔드-투-엔드 자율 주행을 위한 비전-언어-행동(VLA) 모델은 고충실도 궤적 계획과 효율적 추론 사이의 불안정한 균형을 요구한다. 기존 패러다임은 일반적으로 부족한 점이 있다: 자기회귀(AR) VLA는 엣지 하드웨어에서 메모리 대역폭에 제약을 받고 노출 편향 드리프트에 취약한 반면, 전체 시퀀스 확산 모델은 KV-캐시 재사용을 불가능하게 하고 기본적인 인지-후-계획 인과관계를 위반하는 "논리적 누출"을 겪는다. 본 논문에서는 Fast-dDrive를 제안한다. 이는 의미 단위 내에서 양방향 정제를 수행하면서 단위 간에 엄격한 인과적 순서를 강제하는 블록 확산 VLA이다. 주행 VLA가 종종 구조화된 JSON 유사 출력을 생성한다는 관찰을 활용하여, Fast-dDrive는 구조적 토큰을 섹션 스캐폴드로 고정하고 안전-중요 계획을 우선시하는 섹션 인식 훈련 방법을 채택한다. 또한, AR 동등 품질을 현저히 높은 처리량으로 달성하기 위해 스캐폴드 추측 디코딩을 도입한다. 마지막으로, 단일 공유 프리픽스 KV 캐시에서 N개의 확률적 궤적 롤아웃을 포킹하고 이를 평균화함으로써 극히 적은 계산 비용으로 예측 분산을 효과적으로 억제하는 낮은 오버헤드의 테스트 시간 스케일링 기법을 제안한다. 실험 결과는 Fast-dDrive가 주행 에이전트의 속도-정확도 경계를 재정의함을 보여준다. WOD-E2E 테스트 세트에서 Fast-dDrive는 최첨단 ADE@3s 및 ADE@5s를 달성하고, 확산 기반 VLA 중 가장 높은 RFS를 기록한다. nuScenes에서는 평균 L2 오차를 0.32m로 감소시켜 22% 개선을 달성한다. SGLang과 통합 시, 본 프레임워크는 AR 기준선 대비 12배의 처리량 가속을 제공하여 고용량 VLA와 실시간 차량 탑재 배포의 효율성 요구 사이의 격차를 좁힌다.
장기 운용 AI 에이전트는 지속 운영 시스템으로 점차 배치되고 있지만, 여전히 새로 초기화된 모델처럼 평가되고 있다. 첫날 벤치마크는 근본적인 시스템 문제를 간과한다. 즉, 배포 후 에이전트가 얼마나 오랫동안 신뢰성을 유지하는가 하는 점이다. 모델 가중치가 고정되더라도 에이전트의 실질적 상태는 상호작용 기록을 압축하고, 확장되는 메모리 저장소에서 검색하며, 업데이트 후 사실을 수정하고, 정기 유지보수를 거치면서 계속 변화한다. 따라서 신뢰성은 기본 모델의 스냅샷 속성뿐만 아니라 전체 에이전트 시스템의 수명 속성이 된다. 본 연구는 AgingBench를 소개한다. 이는 에이전트 수명 공학을 위한 종단 신뢰성 벤치마크로, 배포된 에이전트가 성능 저하를 겪는지 여부뿐만 아니라 어떤 형태의 저하가 발생하는지, 그리고 수리가 어느 지점을 대상으로 해야 하는지를 측정한다. AgingBench는 에이전트 노화를 네 가지 메커니즘, 즉 압축 노화, 간섭 노화, 수정 노화, 유지보수 노화로 체계화한다. 이러한 실패를 진단하기 위해 AgingBench는 시간적 의존성 그래프와 쌍을 이룬 반사실적 탐침을 사용하여 메모리 파이프라인의 쓰기, 검색, 활용 단계에 대한 진단 프로파일을 생성한다. 7개 시나리오, 14개 모델, 다양한 메모리 정책, 그리고 러너 제어 및 자율 에이전트 모두에 걸쳐 8~200세션에 이르는 약 400회의 실행 결과는 에이전트 노화가 단일 차원이 아님을 보여준다. 즉, 행동 테스트는 깨끗하게 유지되면서 사실 정밀도는 저하될 수 있고, 파생 상태 추적은 단일 모델 내에서 급격히 붕괴될 수 있으며, 동일한 오답이라도 진단 프로파일이 가리키는 바에 따라 다른 수리가 필요할 수 있다. 이러한 결과는 신뢰할 수 있는 에이전트 배포를 위해서는 더 강력한 첫날 모델뿐만 아니라 수명 평가, 메커니즘 수준 진단, 그리고 단계별 수리가 필요함을 시사한다.
우리는 GE-Sim 2.0(Genie Envisioner World Simulator 2.0)을 소개한다. 이는 로봇 조작을 위한 폐루프 비디오 월드 시뮬레이터이다. GE-Sim 2.0은 Genie Envisioner의 액션 조건부 비디오 생성 프레임워크를 기반으로, 원격 조작, 접촉이 풍부한 상호작용, 온-로봇 정책 배치를 아우르는 수천 시간 분량의 실제 로봇 데이터로 재학습되어, 액션 추종 정확도와 궤적 커버리지를 크게 향상시켰다. 이러한 기반 위에 세 가지 새로운 모듈이 비디오 시뮬레이션에서 정책 학습으로의 폐루프를 완성한다: 비디오 잠재 변수에서 고유수용성 상태를 디코딩하여 하위 VLA 정책의 다음 청크 예측을 지원하는 상태 전문가(state expert); 생성된 롤아웃을 작업 명령어에 대해 평가하여 수동 검사 대신 기계 검증 가능한 성공 신호와 보상을 제공하는 월드 심판(world judge); 단일 H100에서 2.3초 만에 25프레임 롤아웃을 생성하고 추론 시 최대 4배 프레임 스킵으로 장기 평가를 가능하게 하는 가속 프레임워크. GE-Sim 2.0은 단 2B 파라미터로 공개 WorldArena 리더보드 1위를 차지하며, 전용 로봇 월드 모델과 폐쇄형 일반 비디오 생성기를 모두 능가하고, 그 롤아웃과 보상에 대해 훈련된 정책이 실제 환경에서 측정 가능한 성과 향상으로 이어져, GE-Sim 2.0이 조작 정책의 확장 가능한 평가와 폐루프 학습을 위한 실용적인 플랫폼임을 입증한다.
모델 내부 표현은 대규모 언어 모델(LLM)이 학습 데이터를 처리하는 방식에 대한 풍부한 정보를 인코딩하고 있으나, 사후 학습 데이터 엔지니어링은 주로 외부 신호에 의존하며 모델 내부에 존재하는 풍부한 내재적 신호를 무시하고 있다. 본 논문은 LLM 강화 학습(RL)을 위한 데이터 엔지니어링 프레임워크인 SAERL을 제안한다. SAERL은 고급 기계적 해석 가능성 도구인 희소 오토인코더(SAE)로 추출한 모델 내부 표현을 활용하여 다양성, 난이도, 품질이라는 세 가지 내재적 데이터 속성을 모델링한다. 각 속성은 구체적인 데이터 엔지니어링 작업의 기반이 된다: 배치 다양성 제어를 위한 적정 수준의 배치 혼합을 적용한 SAE 공간 클러스터링, 쉬움에서 어려움으로의 커리큘럼 순서를 위한 난이도 프록시, 데이터 필터링을 위한 품질 탐침. SAERL은 기본 GRPO 대비 평균 정확도를 3.00% 향상시켰으며, Qwen2.5-Math-1.5B 모델에서 목표 정확도에 도달하는 학습 단계를 20% 단축하였고, 모델 규모 및 RL 알고리즘 전반에 걸쳐 일관된 성능 향상을 보였다. 실험 결과, SAE는 모델 계열과 규모를 넘어 효과적으로 전이되어 경량화되고 재사용 가능한 데이터 엔지니어링 도구로 활용될 수 있음을 확인하였다. 이러한 결과는 모델 내부 표현이 사후 학습 데이터 엔지니어링에 강력하고 실용적인 신호원이 될 수 있음을 입증한다.
LLM 기반 검색 에이전트는 진정으로 검색을 수행하는 것인가, 아니면 이미 알고 있는 내용을 웹을 통해 확인하는 것인가? 우리는 BrowseComp를 대상으로 세 가지 진단을 통해 이 질문을 연구한다. 분석 결과, 내재적 지식 의존성(IKD)이 발견되었다. 즉, 도구에 접근할 수 있음에도 불구하고 에이전트는 종종 검색 이전에 모델에 인코딩된 정보인 내재적 지식에 의존하며, 외부 증거에는 의존하지 않는다. 에이전트는 BrowseComp 질문의 최대 44.5%를 도구 없이 답변하며, 검색 질의의 절반 이상을 검색 결과에서 얻은 단서가 아닌 내부적으로 생성한 가설로부터 생성하고, 답변을 뒷받침하는 증거가 제거되었을 때 폐쇄형 기준치보다 낮은 성능을 보인다. 이러한 결과는 정적 검색 벤치마크가 증거 기반 발견보다는 기억 기반 확인에 보상을 제공할 수 있음을 시사하며, 에이전트가 이미 알고 있는 것과 찾을 수 있는 것을 혼동하게 만든다. 이후 우리는 LiveBrowseComp를 도입하는데, 이는 내재적 범위를 넘어서는 에이전트를 평가하도록 설계된 심층 검색 벤치마크이다. 여기에는 6개의 업데이트된 출처에서 수집하고 전 세계적으로 주목받는 사건을 제외하여 필터링한, 벤치마크 구축 시점 기준 90일 이내에 발표된 사실에 의존하는 335개의 인간 작성 질문이 포함된다. LiveBrowseComp에서 평가된 모든 에이전트는 폐쇄형 정확도가 2% 미만으로 떨어졌고, 검색 증강 점수는 BrowseComp 대비 25~40포인트 하락했으며, 이전 모델 순위는 더 이상 성능을 안정적으로 예측하지 못한다. LiveBrowseComp는 https://huggingface.co/datasets/Forival/LiveBrowseComp에서 확인할 수 있다.
하이브리드 추론 대규모 언어 모델(LLM)은 추론 노력에 대한 명시적 제어를 제공하여 사용자나 시스템이 답변 품질과 추론 비용 간의 상충 관계를 조정할 수 있게 한다. 그러나 적응형 사고 모드 선택을 위한 기존 방법들은 일반적으로 서로 다른 모델, 데이터셋, 구현 가정 하에 평가되어 실제 동작을 비교하기 어렵다. 본 논문에서는 하이브리드 추론 LLM에서 사고 모드 전환을 연구하기 위한 통합 평가 프레임워크인 HRBench를 소개한다. HRBench는 설계 공간을 두 축, 즉 세 가지 전환 전략군(프롬프트 기반 선택, 외부 라우팅, 추측 실행)과 네 가지 학습 체계(학습 불필요, SFT, 오프라인 및 온라인 강화 학습)로 구성하여 12개의 통제된 평가 설정을 도출한다. 우리는 이러한 설정을 Qwen3.5-2B부터 Kimi-K2.5-1.1T까지의 6개 LLM과 수학, 과학, 코드를 포함한 5개의 추론 벤치마크에서 평가하며, 동일한 파이프라인 내에서 12개 이상의 대표적인 기존 방법을 재구현한다. 우리의 분석은 서로 다른 전환 전략이 어떻게 뚜렷한 효과성-효율성 상충 영역을 차지하는지 특성화한다: 프롬프트 기반 방법은 종종 유리한 토큰-정확도 상충 관계를 제공하고, 라우팅 방법은 더 안정적인 비용 절감을 제공하며, 추측 방법은 더 높은 토큰 비용에서 정확도를 향상시키는 경향이 있다. 또한 학습이 전략에 서로 다른 영향을 미치며, 선호되는 전략이 모델 규모와 작업 도메인에 따라 달라짐을 발견했다. HRBench는 하이브리드 추론 LLM의 효율적 추론에 대한 더 통제된 연구를 지원하기 위해 참조 구현과 통합 평가 플랫폼을 제공한다. 데이터, 코드 및 저장소는 https://github.com/usail-hkust/HRBench에서 확인할 수 있다.
온-정책 증류(on-policy distillation)는 최근 표준 시퀀스 수준 모방의 유망한 대안으로 부상했으며, 교사 모델로 학생 자신의 롤아웃(rollout)을 평가하여 학생을 훈련시킨다. 그러나 이 패러다임에서 '오프-정책 교사 쇠퇴(Off-policy Teacher Decay)' 문제를 관찰한다: 이후 토큰의 경우, 학생의 초기 궤적이 교사에게 오프-정책인 맥락으로 사용될 때, 교사가 교정 점수를 생성하는 능력이 쇠퇴하여 사전 훈련 단계에서 학습된 토큰 완성 행동으로 되돌아갈 수 있다. 우리는 이 문제를 경험적으로 확인하고, 이를 해결하기 위해 조기 중단 롤아웃(Early Stopping Rollout, ESR)을 제안한다: 이는 단순히 롤아웃 생성을 첫 번째 응답 토큰으로 제한하는 간단하면서도 효과적인 증류 전략이다. 우리는 ESR이 모델 크기, 계열, 작업 및 훈련 방식 전반에서 전체 롤아웃 OPD 성능을 능가하며, 특히 교차 모델 계열 시나리오에서 훨씬 더 높은 GPU 효율성과 훈련 안정성을 보여줌을 입증한다. 또한 이 놀라운 성능 뒤에 있는 메커니즘을 추가로 조사하여, ESR의 '캐스케이딩 정렬(Cascading Alignment)' 및 '서브모드 커밋먼트(Sub-mode Commitment)' 효과를 발견했으며, 이는 ESR이 효과적으로 작동하고 때로는 교사 모델 성능을 초과하는 이유를 설명할 수 있다. 게다가, 이 위치 기반 토큰 선택 전략이 KL 발산(KL divergence) 및 엔트로피 신호만으로는 완전히 설명될 수 없음을 보여준다.
장기적이고 신뢰할 수 있는 상호작용을 가능하게 하기 위해, LLM 에이전트는 누적된 대화 이력을 충실히 저장하고, 효율적으로 검색하며, 깊이 있게 추론할 수 있는 메모리 시스템을 필요로 한다. 기존의 대부분의 방법은 추출된 사실 기반 패러다임을 채택한다. 즉, 수작업으로 제작된 정적 프롬프트가 원시 대화를 원자적 사실로 압축한 후, 이를 저장하고 매칭하여 하위 추론 과정에 주입한다. 그러나 이러한 사실 중심 설계는 필연적으로 원래 대화의 세부 정보를 폐기하고, 흩어져 있는 고립된 사실에 대한 깊은 추론을 지원하지 못한다. 더욱이 정적 프롬프트는 다양한 대화 스타일에서 일관된 추출 세분성을 유지할 수 없다. 이러한 한계를 해결하기 위해, 우리는 TriMem을 제안한다. 이는 세 가지 공존하는 표현 세분성을 유지하는데, 여기에는 저장 충실도를 위한 소스 식별자로 고정된 원시 대화 세그먼트, 효율적인 메모리 검색을 위한 추출된 원자적 사실, 그리고 깊은 추론을 위해 분산된 사실을 통합적인 의미 이해로 집계하는 합성된 프로파일이 포함된다. 또한, 응답 품질 피드백을 통해 추출 및 프로파일링 프롬프트를 반복적으로 개선하는 TextGrad 기반 프롬프트 최적화를 도입하여, 파라미터 업데이트 없이 평생 진화를 달성한다. LoCoMo 및 PerLTQA 데이터셋에서 여러 LLM 백본을 대상으로 한 광범위한 실험은 TriMem이 강력한 메모리 기준 모델들을 일관되게 능가함을 보여준다. 코드는 https://TMLR-TriMem.github.io 에서 확인할 수 있다.
현대 대규모 언어 모델(LLMs)은 방대한 잠재 어휘를 보유하고 있음에도 불구하고, 종종 반복적이고 균질한 텍스트를 생성한다는 비판을 받습니다. 기존 연구가 모델 지식과 학습 데이터에 초점을 맞춘 반면, 우리는 디코딩 메커니즘이 언어적 다양성을 억제하는 역할을 조사합니다. 우리는 맥락에 적합한 인간 어휘가 표준 샘플링 필터(예: Top-p, Top-k, Min-p)에 의해 수학적으로 얼마나 제거되는지 정량화하는 지표인 단어 적용 범위 점수(WCS)를 도입합니다. WCS는 정적 지식을 평가하는 대신, 샘플링 매개변수의 함수로서 저빈도·고정보 인간 단어의 어휘 생존율을 측정합니다. 오픈 가중치 모델을 인간이 작성한 코퍼스 조각에 대해 감사(audit)함으로써, 디코더가 논리적으로 선택할 수 있는 어휘 선택 중 어떤 것들이 확률 공간 내에 존재함에도 불구하고 도달 불가능하게 되는지 식별합니다. 우리의 결과는 업계 표준 샘플링 기본값이 의도하지 않은 검열 메커니즘으로 작용하여 인간 표현의 독특한 질감을 균질화된 담론으로 평탄화한다는 정량적 증거를 제공합니다. WCS는 텍스트 일관성과 어휘적 풍부성 사이의 균형을 최적화하기 위한 엄격한 프레임워크를 제공하며, 생성 모델에서 인간 언어의 다양성을 보존하기 위한 진단 도구 역할을 합니다.
신뢰할 수 없는 데이터로 대규모 언어 모델을 미세 조정하면 백도어 공격에 노출되어 오염된 샘플이 의도된 오작동을 유발합니다. 기존의 샘플 필터링 방어 기법은 클러스터링에 의존하는데, 이는 충분한 데이터가 필요하고 극단적인 오염 비율에서는 실패할 수 있습니다. 우리는 샘플별 그래디언트의 스펙트럼 엔트로피에 기반한 백도어 샘플 필터링 방법인 GradSentry({Grad}ient {Sentry})를 제안합니다. 핵심 발견은 오염된 샘플이 깨끗한 샘플보다 더 높은 스펙트럼 엔트로피를 가진 그래디언트를 생성한다는 것입니다. GradSentry는 샘플별 그래디언트 스펙트럼을 사용하여 출력을 변경하는 백도어 서명을 포착하며, 특징 구성 시 샘플 간 비교와 클러스터링을 피합니다. 중요한 점은 우리의 방법이 훈련 방식에 구애받지 않는다는 것입니다. 즉, LoRA와 같은 매개변수 효율적 미세 조정 방법과 전체 매개변수 조정 모두에서 작동하는데, 이는 그래디언트 분석이 훈련 중 업데이트되는 매개변수와 무관하게 수행되기 때문입니다. GradSentry는 클러스터링이 필요 없으며, 모든 오염 비율(1%~90%)에서 효과적으로 작동하고, 계산 오버헤드가 최소화됩니다(7B 모델 기준 샘플당 20-50ms). 네 가지 QA 데이터셋과 네 가지 공격 유형에 대한 평가는 백도어 탐지를 위한 스펙트럼 엔트로피의 효과를 입증합니다. 코드는 https://github.com/dongdongzhaoUP/GradSentry에서 확인할 수 있습니다.
게임 및 시뮬레이션에서 사용되는 인터랙티브 3D 에셋은 일반적으로 애니메이션, 물리, 스크립트 기반 동작을 지원하기 위해 특정 의미적 파트(semantic parts)로 분해되지만, 대부분의 생성형 3D 모델은 단일체 메시(monolithic mesh)나 응용 프로그램별 요구사항에 부합하지 않는 임의의 파트 분할을 생성합니다. 본 논문에서는 파트 구조를 명시적인 추론 시 제어 신호(inference-time control signal)로 노출하는, 개방형 어휘(open-vocabulary) 기반의 파트 제어 가능한 3D 메시 생성 프레임워크인 CubePart를 제시합니다. 전역 텍스트 프롬프트와 사용자가 정의한 파트 스키마(part schema)를 개방형 파트 이름 목록으로 입력받아, 우리의 방법은 스키마의 각 요소에 해당하는 메시 집합을 생성하며, 이들은 지정된 의미적 구조를 준수하면서 일관된 객체로 조립됩니다. 이러한 기능을 구현하기 위해, 우리는 확장 가능한 데이터 파이프라인을 도입하여 대규모 개방형 어휘 파트 레이블 3D 데이터셋을 구축하고, 전역 형상 합성과 파트 수준 디코딩을 분리하는 2단계 생성 아키텍처(two-stage generative architecture)를 제시합니다. 생성된 에셋은 별도의 수동 후처리 없이 게임 엔진에 직접 통합되어 애니메이션 및 동작 스크립트로 구동될 수 있음을 입증합니다. 프로젝트 페이지: https://cubepart.github.io/
LLM 기반 에이전트는 검색 벤치마크에서 높은 점수를 기록하지만, 실제 사용자들은 지속적으로 결과에 불만족을 느껴 평가와 경험 간의 지속적인 괴리가 드러난다. 우리는 이러한 괴리가 기존 벤치마크가 지나치게 명세화된 질의, 단일 턴 상호작용, 고정된 스키마 평가에 의존하기 때문이라고 본다. 이러한 요소들은 사용자와 에이전트가 다중 턴 대화를 통해 모호한 의도를 협력적으로 정교화하는 실제 검색 행동을 반영하지 못한다. 우리는 이 패러다임을 VibeSearch라고 명명하고, 20개 도메인에 걸쳐 수작업으로 선별된 200개의 이중 언어(중국어 및 영어) 작업으로 구성된 벤치마크인 VibeSearchBench를 소개한다. 이 벤치마크는 VibeSearch-Pro(전문)와 VibeSearch-Daily(일상) 하위 집합으로 나뉜다. 각 작업은 사용자 페르소나와 스키마가 없는 정답 지식 그래프를 짝지으며, 점진적 정보 공개 사용자 시뮬레이터와 그래프 매칭 평가 프레임워크를 통해 평가된다. 우리는 ReAct 프레임워크와 OpenClaw 에이전트 하네스 모두에서 7개의 최첨단 모델을 벤치마킹한다. 결과는 모든 모델이 VibeSearch에 대해 상당히 부적합함을 보여준다(최고 F1: 30.30). 이는 장기 맥락 추론, 능동적 의도 도출, 구조화된 지식 구축의 근본적인 발전 필요성을 강조한다.
시각적 결과는 다중 모달 대규모 언어 모델에서 점점 더 중심적인 역할을 하고 있으며, 이에 따라 신뢰할 수 있고 세분화된 검증이 범용 기반 모델을 확장하는 데 필수적이 되고 있다. 본 연구에서는 결정 신호만이 아닌 검증기 생성 근거를 활용하는 다중 모달 메타 검증을 조사하고, 메타 검증 피드백을 다중 모달 검증기 훈련에 효과적으로 통합하는 방법을 탐구한다. 우리는 두 가지 핵심 발견을 확인하였다. 첫째, 기호적 검증기 출력(예: 경계 상자)은 메타 검증 근거로서 텍스트 설명보다 우수하며, 보조 판단 모델의 모델 기반 보상에 의존하지 않으면서 효율적인 규칙 기반 강화 학습 보상을 가능하게 한다. 둘째, 이진 판단과 메타 검증을 위한 강화 학습 목표를 분리하는 것이 출력 구조와 학습 역학의 본질적인 차이로 인해 결합 보상 최적화보다 훨씬 우수한 성능을 보인다. 이러한 통찰을 바탕으로 우리는 기호적 메타 검증과 분리된 강화 학습을 활용하는 범용 시각 검증기인 OmniVerifier-M1을 훈련한다. OmniVerifier-M1은 강력한 검증과 세분화된 오류 위치 파악을 제공하며, 나아가 동적 영역 수준 자가 교정을 달성하는 검증기 구동 에이전트 기반 생성 시스템인 M1-TTS를 가능하게 한다. 이러한 접근 방식은 보다 신뢰할 수 있고 해석 가능하며 세분화된 다중 모달 검증을 위한 길을 열어주며, 더 안전하고 제어 가능한 기반 모델 배포를 지원한다.
사고 사슬(Chain-of-Thought, CoT) 모니터링은 대규모 언어 모델의 잘못된 정렬 행동을 탐지하기 위한 유망한 안전 메커니즘으로 제안되었다. 그러나 그 신뢰성은 영어를 넘어 다양한 모델 계열에 걸쳐 거의 탐구되지 않았다. 본 연구는 13개 다양한 언어와 7개의 최첨단 모델 계열(총 16개 모델)에 걸친 CoT 모니터링 가능성에 대한 최초의 대규모 평가를 제시한다. 명시적 중간 계산을 요구하는 적대적 힌트 평가와 내부 답변 토큰 확률 분석을 통해, 우리는 언어 및 힌트 유형 전반에서 일관되게 CoT 불충실성을 발견했으며, 8B~120B 매개변수 모델에서 평균 95.9%의 비율을 확인했다. 최첨단 모델은 답변 전환, 사후 합리화, 힌트의 절차적 악용을 포함한 체계적인 전략적 조작에 관여하여, 외부 모니터가 기만 행위를 탐지하는 것을 어렵게 만든다. 또한, CoT가 충실해 보일 때조차도 최첨단 모델은 생성 초기 15% 이내에 잠재 활성화에서 잘못된 정렬 신호에 이미 전념하는 것으로 나타났다. 놀랍게도, 이러한 기만 패턴은 저자원 언어에서 100% 유지되어, 현재 CoT 기반 감독의 근본적 한계를 드러낸다. 본 연구 결과는 언어적 분포 변화 하에서 CoT 모니터링이 근본적으로 취약하며, 영어 기반 연구가 시사하는 것보다 훨씬 약한 안전 신호를 제공함을 보여준다. 이러한 발견은 강건한 CoT 모니터의 개발 필요성과 특히 중·저자원 언어에서 CoT 모니터링 가능성을 개선하기 위한 화이트박스 모니터링 기술 연구 가속화의 시급성을 강조한다. 본 연구의 코드는 다음에서 확인할 수 있다: \url{https://multilingual-cot-monitoring.github.io/}\texttt{\{여기\}}.
노이즈로부터 이미지를 생성하는 것은 이미지 생성(image generation)이며, 거친 입력으로부터 미세한 세부 사항을 재구성하는 것은 초해상도(super-resolution)이다. 실용적인 차이점에도 불구하고, 둘 다 스케일 간의 정보 손실을 역전시키는 것으로 이해될 수 있다. 우리는 생성과 연속 초해상도를 하나의 비조건부 프레임워크 내에서 통합하는 Scale-invariant K-Space Image Learning 확산 모델인 SKILD를 소개한다. 자연 이미지와 임계 물리 시스템 모두 스케일 불변성(scale invariance)을 나타내며, 우리는 이를 활용하여 미세한 스케일에서 거친 스케일로 이미지 콘텐츠를 감쇠하면서 스펙트럼이 일치하는 가우시안 노이즈를 주입하는 순방향 과정을 설계하여, 스케일을 확산 동역학의 명시적 좌표로 만든다. 동일하게 훈련된 역방향 과정은 시작 시간 단계만 변경함으로써 생성과 연속 초해상도를 수행한다: 작업별 아키텍처, 조건부 분기, 분류기 없는 안내(classifier-free guidance), 스케일 팩터당 재훈련이 필요 없다. 실험적으로, SKILD는 비조건부 CIFAR-10에서 FID 2.65와 Inception Score 9.63을 달성하고, 단일 비조건부 체크포인트로 ImageNet에서 2배–8배 초해상도를 수행하면서 지각적 지표에서 조건부 모델을 능가하며, 연결된 4점 상관 관계가 실제 값과 밀접하게 일치하는 임계 Ising 모델을 재구성한다.
파라미터 효율적 미세조정(PEFT)은 대규모 언어 모델을 적용하기 위한 표준 접근 방식이 되었지만, 평가는 주로 하류 작업 정확도에 초점을 맞추고 사전 훈련된 능력의 유지는 간과하고 있다. 본 논문은 PEFT가 안정성-가소성 딜레마, 즉 대상 작업 적응과 망각 저항성 간의 상충 관계를 통해 평가되어야 한다고 주장한다. 우리는 하류 작업 성능과 일반 능력 유지를 동시에 측정하는 벤치마크인 PEFT-Arena를 도입한다. 방법들 간에 뚜렷한 안정성-가소성 프로파일이 발견되었으며, 유사한 파라미터 예산 하에서 직교 미세조정이 가장 유리한 파레토 경계를 달성한다. 이러한 차이를 설명하기 위해, 우리는 두 가지 기하학적 관점에서 PEFT 업데이트를 분석한다. 가중치 공간에서 스펙트럼 분석은 파라미터화가 사전 훈련된 특이값 구조와 상호작용하는 방식을 밝혀낸다. 활성화 공간에서 유지 지표는 미세조정이 일반 능력 표현을 보존하는지 왜곡하는지 보여주며, 망각은 비등거리 표현 왜곡과 연관된다. 마지막으로, 최종 SFT 체크포인트는 종종 더 나은 목표-유지 작동 지점을 초과하는 경향이 있음을 분석으로 보여준다. 이에 영감을 받아, 우리는 경로 기반 되감기를 통한 사후 개선의 사례 연구를 제시한다.
교차 시점 공간 추론은 시각-언어 모델(VLM)의 약점으로 남아 있다. 이러한 모델들은 종종 언어적으로 추론할 뿐, 작업에 필요한 정밀한 기하학적 정보를 놓치곤 한다. 생각과 함께 이미지를 활용하는 접근법은 중간 사고 이미지를 생성함으로써 이 문제를 해결하고자 하지만, 최근 연구에 따르면 모델들이 이러한 과정에서 시각적 증거를 무시하는 경우가 많다. 따라서 우리는 시각적 사고가 실질적으로 활용되도록 만드는 방법과 어떤 유형의 시각적 사고가 가장 효과적인지 탐구한다. 우리는 이러한 질문을 이미지-텍스트 혼합 생성을 기본적으로 지원하는 통합 멀티모달 모델(UMM) 환경에서 연구한다. 첫 번째 질문에 대해 우리는 시점 드롭아웃(VDrop)을 제안한다. 이는 훈련 시 개입 방식으로, 입력 시점 중 일부를 응답 구간에서는 숨기되 사고 이미지 토큰에서는 볼 수 있게 유지한다. 이를 통해 모델이 입력 시점에만 의존하지 않고 사고 이미지를 활용하여 응답하도록 유도한다. 사고 이미지가 응답 예측에 사용된다면, 어떤 유형의 시각적 사고가 가장 효과적인지 연구한다. 우리는 이를 학습 가능성-정보성 상충 관계로 구성하고, 세 가지 사고 이미지 변형(탑다운, 파노라마, 점 매칭 렌더링)을 비교한다. 합성 장면에서 훈련하고 다섯 가지 실제 도메인 외(out-of-domain) 벤치마크에서 평가한 결과, VDrop과 결합된 파노라마 시각적 사고가 정보성과 학습 가능성을 모두 갖춘 유일한 구성이며, 최고의 도메인 외 일반화 성능을 달성한다.
대규모 언어 모델(LLM) 기반의 멀티에이전트 시스템은 사전에 고정하기 어려운 다양한 조정 선택지를 요구한다. 어떤 스킬 프로토콜을 호출할지, 어떤 에이전트 역할이 하위 작업을 수행해야 하는지, 각 역할에 어떤 모델을 할당할지, 역할 간 상호작용 방식을 어떻게 정할지, 검색 또는 검증을 언제 사용할지, 특정 단계를 아예 생략할지 등이 그 예이다. 이러한 선택들은 작업 체제 및 운영 제약 조건과 상호작용하므로, 정적 파이프라인이나 일회성 모델 비교는 설계 공간에 대한 제한적인 시각만을 제공한다. 본 논문은 부분 관측성 하에서 멀티에이전트 조정을 온라인 정책 학습 문제로 다루는 오픈소스 프레임워크인 AgensFlow를 소개한다. 이 프레임워크는 조정 선택지를 스킬, 역할, 모델, 토폴로지, 평가 선택지를 고정된 파이프라인 설계로 간주하는 대신, 반복된 궤적으로부터 관찰 가능하고 학습 가능하게 만든다. AgensFlow는 분산 시스템 장애 작업과 보안 권고 작업이라는 두 가지 말뭉치에 대해 평가되었다. 평가 결과는 세 가지 주요 결과를 보여준다: 학습된 라우팅은 조정이 중요한 클래스에서 고정 파이프라인 기준선보다 더 높은 품질의 작동 지점에 도달한다; skip:X는 토폴로지 압축이 기반의 의미 있는 구성 요소임을 분리하여 보여준다; 웜스타트 정책 그래프는 탐색 비용을 줄이면서도 평탄역 품질을 유지할 수 있다. 전반적으로, 결과는 학습 가능하고 감사 가능한 라우팅이 정적 배선에 비해 조정이 중요한 멀티에이전트 워크플로우를 개선할 수 있음을 뒷받침한다.
검증 가능한 보상으로부터의 강화 학습(RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 표준 패러다임으로 자리 잡았으며, 다중 토큰 예측(MTP)은 사전 학습에서 널리 채택된 모듈이다. 이 둘을 결합하는 것은 자연스러운 접근법이나, 현재의 강화 학습 관행에서는 공동 훈련이 성능을 저하시키기 때문에 MTP 그래디언트를 분리한다. 우리는 최적화 관점에서 이러한 실패를 재검토한다. MTP가 강화 학습 목적 함수에 미치는 단계별 효과가 1차 상관 항과 2차 섭동 패널티 항으로 분해될 수 있음을 보인다. 이러한 분해는 Detach, 교차 엔트로피 손실, 정책 손실이라는 세 가지 MTP 훈련 방식을 통합하고, 각 방식이 성공하거나 실패하는 이유를 설명한다. 정책 손실에 대한 추가 분석은 직관과 일치함에도 불구하고 성능이 여전히 저하된다는 점을 밝혀낸다: 상관 항은 감소하는 반면 2차 패널티는 지속된다. 이 분석에 기반하여, 우리는 최적 계수 보정(OCC)을 제안한다. 이는 로그 확률 프록시를 통해 온라인으로 최적 계수를 추적하는 적응형 기법으로, 비용이 거의 들지 않는다. 여섯 개의 경쟁 수준 수학적 추론 벤치마크에서 OCC는 일관되게 분리 기준선과 동등하거나 더 나은 성능을 보이며, 개선된 공동 MTP-RL 훈련 성능을 제공한다.
AI 안전성 평가의 타당성은 통제된 환경과 배포 환경에서 모델이 일관되게 행동하는지에 달려 있다. 선행 연구는 가상 시나리오와 같은 테스트 시점의 맥락적 단서가 언어화된 평가 인식과 이후의 행동 변화를 유발하는 원천임을 확인하였다. 본 논문에서는 이러한 현상의 잠재적 설명으로 평가 메타지식(evaluation meta-knowledge), 즉 평가를 특징짓는 구조적 특성에 관한 파라미터 지식을 탐구한다. 벤치마크 노출이 암기를 통해 더 높은 성능을 이끌어내는 데이터셋 오염과 유사하게, 평가 관행을 설명하는 텍스트로 훈련된 모델이, 예를 들어 AI 벤치마킹에 관한 과학 논문이나 소셜 미디어 게시물에 노출됨으로써 평가와 유사한 맥락을 인식하고 이에 반응하는 방식을 암묵적으로 학습할 수 있다는 가설을 세운다. 이를 검증하기 위해, 검증 가능한 구조나 도덕적 딜레마와 같은 평가 특성을 설명하는 합성 문서로 모델을 미세 조정한다. 이 미세 조정된 모델을 여섯 가지 안전성 벤치마크에서 평가한 결과, 기본 모델 및 통제 모델에 비해 현저히 더 안전한 것으로 나타났다. 이러한 행동 변화는 평가 인식의 명시적 언어화가 없는 응답으로 분석을 제한하더라도 지속된다. 본 결과는 평가 메타지식이 안전성 벤치마크 성능을 부풀릴 수 있으며, 이는 명시적 암기나 언어화된 평가 인식과 독립적인 새로운 교란 요인을 도입하므로 탐지가 어렵다는 것을 보여준다. 이러한 발견은 AI 안전성 평가의 설계와 해석에 중요한 시사점을 제공한다. 우리의 코드와 모델은 https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge에서 이용할 수 있다.
차트 질의응답(QA) 벤치마크는 올바른 답변을 위해 시각적 추론이 필요한 질문을 제시하는 것을 목표로 하지만, 모델은 종종 자신의 배경 지식을 바탕으로 한 단축 경로나 차트에 대한 사전 친숙성을 통해 해결책에 도달할 수 있습니다. 시각적 추론을 엄격히 평가하기 위해, 우리는 차트-질문 과제는 고정되어 있지만 기본 차트와 해당 답변은 변화하는 반사실적 차트를 제안합니다. 우리는 차트를 실행 가능한 코드로 역설계하고, 재구성 충실도를 검증하며, 시드 제어된 반사실적 변형을 생성하고, 실행 가능한 QA 논리로부터 새로운 답변을 도출하는 프레임워크인 Chartographer를 소개합니다. 우리는 이 프레임워크를 기존 차트 QA 데이터셋에 적용하고, 독점 및 오픈소스 비전-언어 모델(VLM)을 평가하여 변형 민감도와 일반화 능력을 측정합니다. 반사실적 차트는 단일 차트 성능에 가려진 실패를 드러냅니다: VLM은 원본 차트를 올바르게 답변한 후에도 일반화에 실패하는 경우가 많습니다. 우리는 업데이트된 차트가 새로운 시각적 추론 경로를 필요로 할 때 실패가 가장 널리 발생한다는 것을 발견했습니다.
과학적 연구는 가설 생성, 실험 설계, 실행, 수정의 반복적 순환을 통해 진행된다. AI 에이전트는 이 과정의 일부를 자동화할 수 있지만, 기존 접근 방식은 일반적으로 단일 연구 궤적을 따르거나 고정된 목표를 가진 중앙 계획자를 통해 조정된다. 그 결과, 병렬 탐색을 지속하거나, 실험 증거가 변화함에 따라 적응하거나, 장기 실행 실험에서 실패한 방향에 대한 지식을 보존하는 데 어려움을 겪는다. 본 연구에서는 장기 실행 계산 과학 실험을 위한 분산형 AI 에이전트 팀인 AutoScientists를 소개한다. 에이전트는 공유된 실험 상태를 해석하고, 유망한 가설을 중심으로 자발적으로 팀을 구성하며, 실험 계산 자원을 사용하기 전에 제안을 비판적으로 검토하고, 성공과 실패를 공유하여 중복 탐색을 줄인다. 동일한 실험 예산 하에서 AutoScientists는 생물의학 머신러닝, 언어 모델 훈련 최적화, 단백질 적합성 예측 분야에서 기존 AI 에이전트보다 성능을 향상시킨다. 생물의학 영상, 단백질 공학, 단일 세포 오믹스, 신약 발견을 포괄하는 BioML-Bench에서 AutoScientists는 24개 과제에 걸쳐 평균 리더보드 백분위 74.4%를 달성하여, 가장 강력한 AI 에이전트보다 +8.33% 향상되었다. GPT 훈련 최적화에서는 AutoScientists가 Autoresearch보다 1.9배 더 빠르게 목표 검증 비트-퍼-바이트에 도달했으며, 단일 에이전트 접근 방식이 전혀 발견하지 못한 개선점을 출발 챔피언으로부터 지속적으로 발견했다(허용된 개선 7건 대 0건). 단백질 적합성 예측 벤치마크인 ProteinGym에서 AutoScientists는 ACE2-스파이크 결합에 대한 방법을 발견하여 기존 최첨단 모델보다 스피어만 상관계수에서 +12.5% 향상되었다. 모든 217개의 ProteinGym 분석에 수정 없이 적용했을 때, 동일한 방법은 기존 최첨단 기술보다 +6.5%(스피어만 상관계수) 향상되었다.
기존의 정서 지원 대화(ESC) 시스템은 주로 종단간 응답 생성 또는 개략적인 전략 감독에 의존하여 해석 가능성이 제한적이고 체계적인 기술 향상을 거의 지원하지 않는다. 우리는 실행 가능한 정서 지원 기술을 발견하고 자기 진화시키는 기술 중심 프레임워크인 ESC-Skills를 제안한다. 먼저 국소적 지원 상호작용을 중재 단위(Intervention Units, IUs)로 모델링하며, 이는 치료 요구자 상태, 지원 중재, 응답 후 정서 변화 간의 상태-행동-결과 역학을 포착한다. 성공 및 실패한 ESC 대화에서 추출된 IU를 기반으로, 중재 지침, 적용 조건, 예상 결과, 잠재적 위험을 포함하는 실행 가능한 정서 지원 기술의 저장소인 ESC-Skills 뱅크를 구축한다. 견고성을 더욱 향상시키기 위해, ESC 에이전트가 SAGE 평가 하에 다양한 시뮬레이션된 치료 요구자 프로필과 상호작용하는 다중 프로필 자기 진화적 개선 프레임워크를 도입한다. 결과 상호작용 궤적을 분석하여 누락된 기술, 안전하지 않은 중재, 프로필별 실패 패턴을 식별하고, 이를 시뮬레이션 기반 검증을 통해 Skills 뱅크를 개선하는 데 사용한다. 실험 결과는 ESC-Skills가 응답 수준 품질과 대화 수준 정서 결과를 모두 개선하면서 더 해석 가능하고 통제 가능한 지원 행동을 제공함을 보여준다. 코드, 프롬프트, ESC-Skills 뱅크를 https://github.com/aliyun/qwen-dianjin에서 공개할 예정이다.
AI 코딩 에이전트는 실제 소프트웨어를 작성하는 데 점점 더 많이 사용되고 있지만, 그 출력의 정확성을 보장하는 것은 여전히 근본적인 과제로 남아 있다. 형식 검증은 유망한 해결책을 제시한다. 즉, 에이전트가 코드와 함께 기계가 검증한 증명을 생성하여 코드가 형식 명세를 만족함을 보장하는 것이다. 그러나 형식 명세 자체가 사용자의 의도와 일치한다는 보장은 없다. 본 연구에서는 명세 자동 형식화(specification autoformalization), 즉 LLM 에이전트가 비형식적 프로그래밍 문제를 신뢰할 수 있는 형식 명세로 변환할 수 있는지 여부를 연구한다. 우리는 Rust 검증기인 Verus를 대상으로 Codeforces 문제에서 파생된 581개의 명세 작성 과제로 구성된 벤치마크인 Verus-SpecBench와, 모델이 Verus, bash, 파일시스템과 상호작용하며 명세를 개발할 수 있는 에이전트 환경인 Verus-SpecGym을 소개한다. 핵심 과제는 평가(evaluation)이다. 전문가가 작성한 참조 명세는 작성 비용이 많이 들고, LLM 판정자는 미묘한 오류를 놓칠 수 있다. 우리는 (a) Verus의 exec_spec 메커니즘을 확장하여 생성된 명세가 Rust 코드로 실행될 수 있도록 하고, (b) 이를 공식 Codeforces 테스트와 Codeforces "해킹(hacks)"에서 추출한 적대적 사례(즉, 경쟁자가 잘못된 해결책을 깨기 위해 작성한 극단적 사례)에 대해 테스트함으로써 이 문제를 해결한다. Verus-SpecBench에서 가장 강력한 모델인 Gemini 3.1 Pro는 과제의 77.8%를 해결했으며, 다른 최첨단 모델은 51.1–57.8%를, 오픈소스 모델은 21.5–25.5%만을 해결했다. 실패 모드 분석 결과, 모델이 생성한 명세는 중요한 입력 가정을 생략하거나, 잘못된 출력을 수용하거나, 유효한 출력을 거부할 수 있음을 보여준다. 또한 LLM-as-a-judge 평가는 우리 평가자가 포착한 실패의 26%를 놓친다는 사실을 발견했다. 전반적으로, 본 연구 결과는 명세 자동 형식화가 최첨단 에이전트에게는 가능하지만, 이미 올바른 코드를 생성할 수 있는 문제에서도 여전히 취약함을 시사한다. 코드, 데이터, 로그는 https://github.com/formal-verif-is-cool/verus-spec-gym에서 확인할 수 있다.
최근 장기적(long-horizon) 에이전트 과제에 대한 진전은 주로 더 강력한 모델, 향상된 도구, 보다 효과적인 스캐폴딩(scaffolding)을 통해 개별 에이전트를 확장(scale up)하는 방식으로 이루어져 왔습니다. 이와 대조적으로, 확장(scale out)에 대해서는 이해가 훨씬 부족한데, 동일한 과제를 목표로 하는 다수의 피어(peer) 에이전트가 명시적인 역할 전문화나 워크플로 오케스트레이션에 의존하지 않고도 추가적인 능력의 원천이 될 수 있는지에 대한 연구가 미흡합니다. 본 논문에서는 이 질문을 연구하고, 공유 추론 허브(shared reasoning hub)를 중심으로 구축된 집단적 추론 프레임워크인 AgentFugue를 제안합니다. 피어 에이전트가 동일한 과제를 병렬로 탐색하는 동안 허브는 각 에이전트가 확립, 시도, 또는 배제한 사항에 대한 간결한 메모를 기록하며, 각 에이전트가 현재 탐색에 유용한 형태로 다른 에이전트가 발견한 내용에 선택적으로 접근할 수 있도록 합니다. 이 설계는 중앙 집중식 계획 없이, 그렇지 않으면 고립되었을 궤적을 재사용 가능한 중간 추론의 연결된 생태계로 전환합니다. 허브는 플러그인 통신 계층으로 구현되며, 지도 미세 조정(supervised fine-tuning) 및 종단 간 강화 학습(end-to-end reinforcement learning)을 통해 훈련됩니다. 우리가 연구한 도전적인 장기적 설정 전반에서 AgentFugue는 강력한 기준선(baseline) 대비 성능을 향상시킵니다. 본 결과는 집단적 추론이 피어 에이전트 시스템의 확장을 단순히 더 많은 컴퓨팅을 사용하는 방식이 아닌, 별개의 능력 향상 원천으로 전환할 수 있음을 시사합니다.
다중 모달 대규모 언어 모델(MLLM)을 기반으로 한 자율적 컴퓨터 사용 에이전트가 복잡한 디지털 워크플로를 완료하는 유능한 어시스턴트로 부상하고 있다. 그러나 실제 실행 환경은 이상적이지 않다: 팝업, 해상도 변경, 경쟁 애플리케이션 등이 에이전트의 인식과 제어를 자주 방해한다. 본 연구에서는 동적 환경에서의 불확실성이 직접적인 적대적 의도 없이 실행 흐름을 방해하는 일반적인 손상 하에서 컴퓨터 사용 에이전트의 강건성을 평가하기 위해 설계된 벤치마크인 AgentHijack을 소개한다. 구체적으로, AgentHijack은 실제적인 불완전 시나리오를 재현하기 위해 9가지 설정 가능한 일반 손상을 도입한다. MLLM 기반 에이전트를 활용하는 다양한 데스크톱 작업을 평가한 결과, 사소한 손상도 상당한 성능 저하를 초래할 수 있음을 발견했으며, 이는 에이전트의 취약성을 강조하고 강건성 평가의 필요성을 부각시킨다. 이후, 향상된 근거 능력을 갖춘 행동 생성기와 행동 요약 및 환경 점검을 담당하는 관찰자를 통합한 프레임워크인 AgentHijack-Agent를 제안한다. 광범위한 실험을 통해 그 효과성을 검증했다. 코드, 환경, 기준 모델 및 데이터는 https://AgentHijack.github.io에서 공개적으로 제공된다.
대규모 멀티모달 모델(LMM)은 지각과 추론 능력에서 빠르게 발전해 왔으나, 이러한 능력이 패턴 인식을 넘어 개방형 환경에서 시각적으로 근거된 해결책을 발견하는 데까지 일반화될 수 있는지 여부는 여전히 불분명하다. 이러한 환경에서 지능은 잘 정의된 질문에 답하는 것 이상으로, 장면 내 요소들이 명확하지 않으면서도 물리적으로 실현 가능한 방식으로 어떻게 재사용될 수 있는지를 식별하는 것을 포함한다. 이러한 형태의 창의적 문제 해결은 인간 지능의 핵심이지만, 현재의 벤치마크에서는 대부분 테스트되지 않았다. 이 능력을 평가하기 위해, 우리는 시각적으로 풍부하고 물리적 제약이 있는 환경에서 어포던스 기반 창의적 도구 사용을 위한 벤치마크인 MM-CreativityBench를 소개한다. 각 인스턴스는 후보 개체와 그 부분들의 구조화된 뷰를 포함한 시나리오 이미지를 제시하여, 모델이 반복적으로 장면을 검사하고 관련 어포던스를 식별하며 시각적 및 물리적으로 근거된 해결책을 구성하는 방식에 대한 세분화된 대화형 평가를 가능하게 한다. 실험 결과, 현재의 LMM은 생성 능력 부족이 아닌, 근거된 탐색을 지속하지 못하기 때문에 종종 부족한 성과를 보인다. 모델은 종종 관련 개체를 간과하거나, 중요한 부분을 충분히 검토하지 않거나, 이미지에 근거하지 않은 속성을 환각한다. 이러한 실패 양상에 동기 부여되어, 우리는 창의적 도구 사용을 선호 학습 문제로 보는 어포던스 기반 정렬(affordance-grounded alignment)을 제안한다. 직접 선호 최적화(DPO)를 사용하여, 모델이 환각된 대안보다 시각적 증거에 근거한 속성-어포던스 추론을 선호하도록 유도한다. 또한, 어포던스 지식 기반에서 파생된 감독을 통합하여 더 넓은 개체 탐색과 다중 회차 계획을 안내한다. 결과는 올바른 개체와 부분을 선택하는 데 있어 일관된 성능 향상을 보여주며, 환각 및 근거 관련 오류를 크게 줄인다.
공간적 및 시간적 자원 제약은 생물학적 및 인공 지능 시스템 모두에게 중요하다. 여기서 우리는 무한 격자의 유한 부분집합으로 간주되는 순환 합성곱 신경망 내에서 폭, 깊이, 시간에 대한 미분 가능한 비용 항을 정의한다. 역전파를 통해 작업 오류와 함께 이러한 비용을 공동으로 최적화한다. 폭, 깊이, 시간에 서로 다른 압력을 설정하여 훈련을 통해 다양한 계산 그래프가 유기적으로 나타나도록 한다. 주어진 정확도 수준을 달성하기 위해 세 가지 자원 모두 서로 상충 관계에 있음을 발견한다. 네트워크는 작업 복잡성에 따라 세 가지 차원 모두에서 성장하며, 입력이 가려질 때 자발적으로 더 많은 순환 단계를 수행한다. 놀랍게도, 모델이 사용하는 시간은 객체 인식 작업에서 인간의 반응 시간과 상관관계를 보인다. 우리의 프레임워크는 자원 제약이 신경 구조를 어떻게 형성하는지에 대한 규범적 설명을 제공하며, 신경과학의 뇌 설계에 관한 질문과 연결되고, 자연에서 발견되는 다양한 신경 해법을 조명하는 데 도움이 될 수 있다.
대규모 언어 모델(LLM)을 활용한 코드 완성 및 생성 기술이 소프트웨어 개발에 점차 널리 사용되고 있지만, 훈련 예제를 저자 표기 없이 그대로 재현할 수 있어 표절 및 라이선스 준수와 관련된 법적·윤리적 우려가 제기된다. Winnowing과 같은 전통적인 핑거프린팅 기반 표절 탐지기는 여전히 높은 효과성을 보이나, 검사 과정에서 코드 조각을 전체 훈련 데이터셋과 비교해야 하며 선형 시간 검색이 소요되므로 현대 코드 LLM 훈련에 사용되는 수십억 규모의 말뭉치에는 실용적이지 않다. 이러한 격차를 해소하기 위해, 우리는 코드 검색에 특화된 300M 파라미터 인코더인 SOURCETRACKER와 함께 하이브리드 2단계 출처 추적 파이프라인인 HYBRIDSOURCETRACKER(HST)를 제안한다. HST는 먼저 벡터 검색을 통해 소수의 후보 코드 조각 집합을 좁히고, 이후 정확한 핑거프린트를 기반으로 Winnowing을 적용하여 해당 후보들을 재순위화한다. 우리는 THESTACKV2 데이터셋의 1000만 조각 부분집합을 대상으로 시스템을 훈련 및 평가하였으며, 현실적인 식별자 이름 변경을 모사한 원문 그대로의 조각과 변형된 조각을 모두 사용하였다. 변형된 질의로 10만 조각 검색 공간을 대상으로 한 시험관 내 실험에서, 하이브리드 접근법은 30토큰 조각에 대해 Winnowing과 동등한 평균 역순위(MRR)를 달성하였다. 이후 60토큰 이상의 윈도우부터는 최대 5.4%까지 일관되게 더 나은 성능을 보이면서도 로그 시간 질의 복잡성을 유지하였다. LLM 기반 평가자를 활용한 추가 평가에서, 많은 검색된 조각이 실제 정답으로 레이블링되지 않았음에도 특히 긴 컨텍스트 윈도우에서 예상 출처와 매우 유사하여 최종 사용자에게 유용함을 확인하였다. 전반적으로, 본 결과는 벡터 검색과 핑거프린팅을 통합함으로써 LLM이 생성한 코드에 대한 확장 가능하고 정밀도 높은 출처 추적이 가능함을 보여준다.
초기 배터리 열화 궤적 예측(BDTF)은 초기 운전 데이터로부터 전체 수명의 상태 궤적을 예측하는 것으로, 배터리 최적화, 제조 및 배치에 중요하다. 배터리 열화 데이터는 두 가지 주요 특성을 보인다. 첫째, 열화 데이터는 노화 조건 내에서 공유되는 규칙성과 배터리 간에 공유되는 궤적 패턴을 포함하는 다중 수준 구조를 나타낸다. 둘째, 전압-전류 프로파일의 열화 관련 변동은 종종 특정 충전 상태(SOC) 구간에 국한된다. 기존 접근법은 이러한 특성을 명시적으로 모델링하지 못하는 경우가 많다. 이러한 격차를 해소하기 위해, 우리는 초기 BDTF를 위한 다중 수준 Transformer인 BatteryMFormer를 제안한다. BatteryMFormer는 (1) 열화 조건 정보를 활용한 쿼리와 열화 조건 인식 어텐션을 통해 열화 조건 사전 정보를 주입하는 열화 조건 인식 디코더, (2) 장기 예측을 안내하기 위해 궤적 프로토타입을 학습하고 검색하는 메타 열화 패턴 메모리, (3) 전압 및 전류 시계열로부터 시간적 동역학과 SOC 구간별 변동을 공동으로 포착하는 이중 뷰 인코더를 통합한다. 네 가지 배터리 도메인에 대한 광범위한 실험을 통해 BatteryMFormer가 최신 기법 기준선을 일관되게 능가하여, 신뢰할 수 있는 BDTF를 향한 중요한 진전을 이루었음을 보여준다. 우리의 코드는 https://github.com/Ruifeng-Tan/BatteryMFormer에서 확인할 수 있다.
최근 연구들은 대규모 언어 모델(LLM)이 그래프 탐색 알고리즘과 몇 번의 학습(few-shot learning) 환경에서의 단계별 추론을 추상적으로 설명하는 기능적 상징적 표현을 통합함으로써 강력한 추론 성능을 달성할 수 있음을 보여주었다. 그러나 LLM이 소수의 시연 예시만으로 각 추론 단계의 추상적 의미와 전체 알고리즘을 어떻게 진정으로 이해하는지는 여전히 불명확하다. 본 연구는 개별 추론 단계를 담당하는 어텐션 헤드를 위치화하고, 이들 간에 전송되는 정보의 유형을 특성화하는 것을 목표로 한다. 먼저, 상징 기반 사고 연쇄(Chain-of-Thought, CoT) 프롬프팅 프레임워크 하에서 구성 추론 단계를 해당 토큰 로짓과 정렬한다. 분석 결과, 추론 과정을 유도하는 토큰 위치는 시연 예시에서 추론 행동 패턴을 만족시키기 위한 제약으로 인해 발생하는 낮은 신뢰도 점수와 연관되어 있음을 보여준다. 이후 인과 매개 분석 기법을 채택하여 이러한 패턴을 담당하는 어텐션 헤드를 식별한다. 또한, 연구 결과는 LLM이 전문적인 어텐션 헤드(전체 헤드의 약 3%)를 통해 개별 하위 추론 과제에 대한 사실 및 규칙 기반 정보를 검색하는 반면, 상위 계층은 주로 정보 통합과 여러 중간 추론 단계를 조정하여 전체 과제를 해결하는 전역적 추론 전략(예: 그래프 탐색 알고리즘)의 출현을 촉진함을 시사한다.
LLM 에이전트는 점점 더 코드를 작성하여 작업을 수행하지만, 에이전트를 구동하는 런타임과 모델이 작성하는 코드 사이에는 여전히 분리가 존재한다. 런타임은 루프, 맥락, 제어 흐름을 소유하며, 모델은 이들 중 어느 것에 대해서도 거의 발언권이 없다. 모델이 작성한 코드가 런타임 자체를 형성하도록 허용하면 에이전트는 더욱 표현력이 풍부해지지만, 동시에 안전 문제도 더욱 심각해진다. 모델은 프롬프트 인젝션에 의해 전환되거나, 잘못된 도구를 호출하거나, 중간에 실패하여 일관되지 않은 상태를 남길 수 있으며, 이러한 각각의 실패는 코드가 단일 동작을 표현할 때보다 코드가 런타임을 형성할 때 더 큰 파급 효과를 낳는다. 본 논문에서는 이러한 분리를 해소하면서도 안전성을 유지하는 에이전트용 프로그래밍 모델인 LACUNA를 제시한다. 각 에이전트 동작은 타입이 지정된 호출 `agent[T](task)`이며, 실행이 해당 지점에 도달하면 LLM이 코드로 채우고, 코드는 실행 전에 주변 프로그램에 대해 타입 검사를 받는다. 각 동작은 전체로서 승인되거나 거부되기 때문에, 거부된 동작은 환경을 변경하지 않은 상태로 두며, 컴파일러 진단 정보는 재시도를 유도한다. 동일한 검사는 동작이 사용할 수 있는 도구와 데이터의 범위 및 그 흐름 방식도 제한한다. 우리의 프리미티브는 ReAct 루프, 하위 에이전트, 스킬, 병렬 분해, 멀티모델 계획을 일반적인 제어 흐름으로 표현한다. 우리는 LACUNA를 BrowseComp-Plus 및 τ²-bench 테스트 사례 모음에서 평가한다. BrowseComp-Plus에서는 생성의 8.6%가 실행 전에 거부되며, 쿼리당 평균 0.7회의 재시도가 발생하고, 에이전트는 27.1%의 정확도를 달성한다. τ²-bench에서 LACUNA는 우수한 모델을 사용하여 네 가지 도메인에 걸친 392개 작업 중 76.0%를 해결하며, 이는 기준 에이전트와 동등한 수준이다.
지시적 분할(Referring Segmentation)은 텍스트 질의에 기반하여 이미지나 비디오 내의 대상 객체를 분할하는 것을 목표로 한다. 지난 몇 년간 눈에 띄는 발전이 있었음에도 불구하고, 기존 연구들은 사용자가 제공하는 질의가 이미 정확하고 명확하다고 가정한다. 그러나 이러한 가정은 현실적이지 않다. 실제 시나리오에서는 모든 사용자가 자신의 시각적 콘텐츠를 철저히 검토하고 질의가 고유하고 모호하지 않도록 신중히 작성할 것이라고 기대하는 것은 비현실적이다. 이러한 경우가 발생하면 기존 분할 모델은 사용자의 선호도를 임의로 추측하는 경향이 있으며, 종종 원치 않는 결과를 초래한다. 이러한 한계를 해결하기 위해, 우리는 분할 전에 다중 턴 대화를 통해 사용자의 의도를 능동적으로 명확히 하는 새로운 에이전트 기반 프레임워크인 IC-Seg를 제안한다. 이 능력을 효과적으로 촉진하기 위해, 우리는 궤적, 턴, 단계 수준에서 밀집되고 정보가 풍부한 감독 신호를 주입하는 새로운 계층적 최적화 전략인 Hi-GRPO를 추가로 도입한다. 이 전략은 효율적인 의도 명확화를 장려하여 중복 상호작용을 효과적으로 제거하고 전반적인 대화 품질을 향상시킨다. 평가를 위해, 모호한 사용자 질의를 포함하는 참조 비디오 객체 분할 벤치마크인 Ambi-RVOS를 구축한다. 광범위한 실험을 통해 IC-Seg가 모호한 질의 해결에서 기존 방법을 큰 폭으로 능가할 뿐만 아니라, 표준 추론 분할 벤치마크에서도 최첨단 성능을 유지함을 입증한다. 코드와 데이터는 https://github.com/iSEE-Laboratory/IC-Seg에서 공개될 예정이다.
이미지로부터 3D 객체를 이해하는 것은 로봇공학 및 AR/VR 응용 분야의 핵심 과제이다. 최근 연구들은 범주 수준의 자세 추정에서 진전을 이루었지만, 현재의 표현 방식은 객체의 부품, 기능, 상호작용에 대한 추론에 필요한 세부 의미를 포착하지 못한다. 본 연구에서는 카메라 공간에서의 범주 수준 3D 대응(category-level 3D correspondence)을 다룬다. 즉, 단일 이미지로부터 해당 범주 내 객체 인스턴스들 간에 일관된 3D 위치를 예측하는 것이며, 명시적인 대응 지도 학습 없이 공유 가능한 변형 객체 사전(morphable object prior)을 학습함으로써 이러한 대응이 자연스럽게 출현할 수 있음을 보인다. 이 방향의 연구를 촉진하기 위해, 우리는 HouseCorr3D를 소개한다. 이는 단안 범주 수준 3D 대응을 위한 최초의 대규모 벤치마크로, 50개의 가정용 객체 범주, 280개의 고유 인스턴스, 178k개의 이미지를 포함하며, CAD 모델에 직접 3D 키포인트 주석이 제공된다. 특히 HouseCorr3D는 가려진 영역에 대한 비가시적 대응 레이블(amodal correspondence labels)과 명시적 대칭 주석을 제공하여 기존 데이터셋의 주요 한계를 해결한다. 또한 우리는 표준 형태, 변형, 객체 자세를 분리(disentangling)함으로써 변형 가능한 범주 수준 형태 사전을 학습하는 Morpheus 방법을 제안한다. 이러한 공유 표준 기준점(shared canonical grounding)을 통해 카메라 공간에서 의미론적으로 의미 있는 3D 대응이 암시적으로 출현한다. 이렇게 출현한 3D 대응은 HouseCorr3D에서 새로운 최첨단 성능을 달성하며, 직접적인 대응 지도 학습 없이도 의미론적 3D 객체 이해가 가능함을 입증한다. 데이터와 코드는 https://github.com/GenIntel/HouseCorr3D 에서 공개적으로 이용 가능하다.
Clark Hash는 신경망 임베딩을 적은 공간에 저장하기 위한 간단한 방법이다. 각 데이터베이스 벡터를 정규화하고, 결정적 희소 부호화된 존슨-린덴스트라우스 투영을 적용한 후 결과를 클리핑하여 고정 폭 스칼라 양자화 코드를 저장한다. 쿼리는 부동 소수점으로 유지되며 저장된 스케치와 비교하여 점수를 매긴다. 기본 384차원 문장 임베딩 설정에서 Clark Hash는 코사인 검색 벡터를 고밀도 f32 저장소의 1536바이트 대신 48바이트에 저장한다. 이는 32배 작은 크기이다. 이 방법은 새 벡터를 저장하기 전에 학습 과정, 학습된 코드북, 회전, 또는 코퍼스 통계를 필요로 하지 않는다. 본 연구에서는 이 코덱, Rust 구현, 그리고 29개 하위 집합의 9,304개 레이블이 있는 쌍에 대한 다국어 문장 유사도 평가를 설명한다. 다국어 MiniLM 인코더를 사용한 48바이트 스케치는 STS17과 STS22에서 고밀도 코사인 점수와의 매크로 피어슨 상관관계가 각각 0.910과 0.946에 도달했다. Clark Hash는 새로운 존슨-린덴스트라우스 정리가 아니며, 근사 최근접 이웃 인덱스를 대체하지 않는다. 이는 컴팩트한 임베딩 저장을 위한 단순한 무상태 코덱이다.
LLM 안전성 평가는 주로 모델을 격리된 상태에서 테스트하지만, 배포된 AI 에이전트는 점점 더 다른 에이전트와 함께 지속적인 사회적 환경 내에서 작동하고 있습니다. 우리는 수천 개의 LLM 에이전트가 시뮬레이션된 한 달 동안 커뮤니티 간 상호작용하는 몰트북(Moltbook) 스타일의 시뮬레이션 플랫폼을 도입하고, 이를 사용하여 다양한 수준의 사회적 압박 하에서 개인정보 보호를 다운스트림 안전 문제로 평가합니다. 단일 턴에서 다중 턴 사회적 평가로 전환하면 개인정보 침해가 증가하며(OpenAI 모델 기준 CIMemories 19.95%에서 당사 기준 45.30%로), 정보 유출은 사회적으로 전염되어 에이전트가 동료의 유출 행동을 관찰한 후 민감 정보를 공개할 가능성이 8배 더 높아지며, 명시적 개인정보 보호 지침은 이러한 효과를 줄이지만 완전히 제거하지는 못하여 보호 조치가 있음에도 유출률이 37.8%를 초과하는 것으로 나타났습니다. 본 연구 결과는 정적 채팅 기반 안전 벤치마크가 에이전트 배포 환경의 위험을 체계적으로 과소평가하며, 사회적 맥락만으로도 단일 턴 평가에서는 절대 드러나지 않는 민감 정보 공개를 유발하기에 충분함을 시사합니다.
최근 비디오 초해상도(VSR) 접근법은 심층 신경망을 사용하여 저품질 입력 비디오를 향상시키고 시각적 디테일을 복원하며, 특히 확산 기반 방법이 유망한 결과를 보여주고 있다. 본 논문에서는 기존 비디오 품질 모델이 이러한 확산 기반 VSR 방법의 성능을 평가하는 데 사용될 수 있는지 조사하기 위해, 모델 예측과 주관적 평가 결과를 비교한다. 연구는 UHD-1/4K 화면에서의 재생을 고려하여 압축(AV1 및 DCVC-RT) 및 비압축 저해상도 비디오에 적용된 6가지 업스케일링 방법(Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini)을 비교한다. 다양한 전참조 및 무참조 품질 모델이 이러한 새로운 유형의 품질 저하에 대한 적용 가능성을 평가하는 데 사용되며, 특히 시퀀스 내 성능에 초점을 맞춘다. 결과는 LPIPS, DISTS 및 CVQA-FR과 같은 CNN 기반 전참조 모델이 기존 전참조 모델 및 테스트된 무참조 모델보다 유의미하게 높은 상관 계수를 보여줌을 강조한다. 대부분의 모델은 SCST의 지나치게 선명한 결과를 과대평가하며, VMAF는 주로 Starlight Mini에 의해 도입된 공간적 불일치로 인해 실패한다. 테스트된 비디오 품질 모델 중 어느 것도 보완적 주관적 평가를 대체할 만큼 충분한 정확도에 도달하지 못한다. 참조, 열화 및 업스케일링된 비디오와 사용자 평점 및 모델 점수는 논문과 함께 https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR에서 공개 데이터로 제공된다.
대규모 언어 모델(LLM)은 주로 결과 확률의 합이 1로 제약되는 확률적 프레임워크에 의해 지배된다. 소프트맥스 층에 의해 종종 부과되는 이러한 구조적 한계는 불확실성의 붕괴를 초래하여 인식론적 불확실성, 역설, 모호성을 구분하기 어렵게 만든다. 본 연구는 진리(T), 불확정성(I), 거짓(F)을 세 가지 독립적 차원으로 다루는 중성 논리(Neutrosophic Logic) 프레임워크를 LLM의 인식 상태 모델링에 적용한 경험적 조사를 제시한다. 네 가지 OpenAI GPT 모델군을 대상으로 다섯 가지 언어 현상(논리적 역설, 인식론적 무지, 모호성, 윤리적 모순, 미래 우발성)에 대해 세 가지 프롬프팅 전략(중성적, 확률적, 엔트로피 기반)으로 실험을 수행하였다. 연구 결과, T+I+F > 1(본 연구에서 초진리(hyper-truth)라 명명한 상태)을 허용하는 중성적 접근법이 모델 내부 상태에 대한 더 풍부한 표현을 제공함을 확인하였다. 평가의 35%에서 초진리가 자발적으로 나타났으며, 주로 윤리적 모순과 논리적 역설 하에서 발생하였다. 이 접근법이 퍼지 맥락에서 진릿값을 보존하고 내부 모델 충돌을 식별 및 정량화하는 강건한 방법을 제공함을 입증한다. 결론적으로, 중성적 평가 층의 통합은 보다 투명하고 신뢰할 수 있으며 윤리적으로 민감한 AI 시스템을 향한 중요한 단계임을 주장한다.
본 논문에서는 Minecraft 환경에서 에이전트 메모리를 추론 시점 검색에서 경험을 통해 내재화된 파라미터 상주 기술로 변환하는 PEAM(Parametric Embodied Agent Memory) 프레임워크를 제안한다. PEAM은 개방형 추론을 위한 느린 숙고형 LLM과 통합된 기술의 반사적 실행을 위한 빠른 파라메트릭 모듈을 결합한다. 빠른 모듈은 범주별로 물리적으로 분리된 어댑터를 갖춘 다중 모달 Mixture-of-Experts LoRA 아키텍처로, 파괴적 망각 없이 파라미터 수준의 지속적 학습을 가능하게 한다. 실패를 최우선 학습 신호로 처리하여, 실패-수정 궤적 쌍을 행동 복제 및 대조적 목표 함수를 결합한 방식으로 내재화함으로써, 에이전트는 성공하는 방법뿐만 아니라 수정된 행동이 실패와 어떻게 다른지도 학습한다. 통합을 제어하기 위해, PEAM은 어떤 경험을 내재화할지 결정하는 파라미터화 적합도 점수와, 언제 내재화할지를 결정하는 척도 없는 자기 트리거 통합 메커니즘을 도입한다. 이 메커니즘은 작업별 수동 조정 임계값 없이 트리거가 작업 분포를 가로질러 전이됨에 따라 에이전트가 스스로 진화하게 한다. Minecraft 실험에서 PEAM은 장기 과제 수행 능력을 향상시키고, 이전에 통합된 기술에 대한 망각을 완화하며, 검색 기반 체화 에이전트 및 파라메트릭 메모리 변형에 비해 파라메트릭 대비 검색 효율을 개선함을 보여준다.
이산 확산 모델은 구조화된 범주형 데이터를 생성하기 위한 강력한 프레임워크로 부상했다. 그러나 보상이 기울어진 분포(reward-tilted distributions)로부터 효율적으로 샘플링하는 것은 여전히 근본적인 도전 과제로 남아 있다. Twisted 순차적 몬테카를로(SMC)는 이 작업에 대해 점근적 정확성을 제공하지만, 이산 상태 공간에서 최적의 트위스트 함수를 추정하려면 비용이 많이 드는 몬테카를로 근사가 필요하며, 이는 추론 시 심각한 계산 병목 현상을 초래한다. 이러한 한계를 극복하기 위해 우리는 양성 및 음성 샘플을 통해 매개변수화된 트위스트 함수를 학습함으로써 SMC 추론 비용을 분할 상환하는 새로운 프레임워크인 대비 분포 매칭(CDM)을 소개한다. 효율적인 훈련을 위해, 우리는 이산 확산 모델의 폐쇄형 순방향 커널을 활용하도록 그래디언트 추정기를 재구성한다. 실제로 학습된 트위스트 함수를 평가하는 데는 기본 모델의 단일 순방향 전달에 비해 5% 미만의 추가 계산 오버헤드만 발생한다. 광범위한 실증 평가를 통해, 우리는 CDM이 동일한 벽시계 시간 조건에서 기존의 기준 모델들을 일관되게 능가함을 보여준다. 우리는 유해 텍스트 생성, 조절 DNA 서열 설계, 단백질 설계 가능성, 확산 대규모 언어 모델 정렬 등 다양한 응용 분야에서 우리 접근법의 효과성과 다용도성을 검증한다.