번역이 포함된 일일 선별된 AI 연구 논문
참조 비디오로부터 카메라 모션을 복제하는 것은 비디오 생성에서 중요한 작업으로, 비디오가 직관적이고 정밀한 제어를 제공하기 때문이다. 기존 방법들은 다중 샷 생성을 처리하지 못하는 매개변수 표현을 직접 사용하거나, 데이터 부족 문제를 겪는 교차 쌍 데이터를 합성하여 복잡한 카메라 모션 복제에서 성능이 저하된다. 이러한 문제를 해결하기 위해, 우리는 카메라를 그리드 모션 비디오로 인코딩하는 일반적인 카메라 모션 표현을 도입한다. 이 카메라 그리드는 카메라 매개변수를 시각적으로 나타내며, 다중 샷 비디오 생성을 위해 다양한 궤적의 통합을 지원한다. 이를 기반으로, 우리는 백만 규모의 카메라 그리드-비디오 쌍으로 훈련된 통합 프레임워크인 OmniDirector를 제안한다. 이는 캐릭터, 동작 및 카메라를 조정하여 다중 모달 확산 트랜스포머에 감독 수준의 제어를 제공한다. 또한, 우리는 신호 관계를 이해하여 카메라 모션과 시각적 콘텐츠를 체계적으로 설명함으로써 다양한 제어 신호를 조화롭게 통합하는 새로운 계층적 프롬프트 확장 에이전트를 설계한다. 광범위한 실험을 통해 우리 프레임워크의 우수한 성능과 뛰어난 제어 가능성을 입증한다. 프로젝트 페이지: https://ymlinfeng.github.io/OmniDirector.github.io/
최근 에이전트 강화학습(Agentic Reinforcement Learning) 분야의 발전은 대규모 언어 모델 에이전트의 다중 대화 도구 사용 능력을 크게 향상시켰다. 그러나 기존 방법들은 대부분 도구 호출 경계나 고정된 작업 흐름과 같은 조잡한 휴리스틱 단위를 기준으로 신용 할당을 수행하기 때문에, 어떤 중간 결정이 최종 결과에 영향을 미치는지 식별하기 어렵다. 본 연구에서는 에이전트 강화학습을 두 가지 관점, 즉 분기할 위치와 분기 후 신용 할당 방법으로 분석한다. 예비 분석 결과, 영향력 있는 결정 지점은 도구 호출에 집중되지 않고 생성된 시퀀스 전반에 걸쳐 널리 분포하며, 토큰 엔트로피만으로는 최종 결과에 미치는 영향을 신뢰성 있게 반영하지 못한다. 이러한 관찰에 기반하여, 우리는 분기와 신용 할당을 조잡한 상호작용 단위에서 시퀀스 내 세분화된 결정 지점으로 전환하는 APPO(Agentic Procedural Policy Optimization)를 제안한다. APPO는 토큰 불확실성과 정책에 의해 유도된 후속 연속 가능성 이득을 결합한 분기 점수(Branching Score)를 사용하여 분기 위치를 선택함으로써, 허위 높은 엔트로피 위치를 걸러내면서 더욱 표적화된 탐색을 가능하게 한다. 또한 절차 수준의 이점 스케일링(procedure-level advantage scaling)을 도입하여 분기된 롤아웃 간의 신용 분포를 개선한다. 13개 벤치마크 실험에서 APPO는 강력한 에이전트 강화학습 기준선 대비 약 4포인트의 일관된 성능 향상을 보였으며, 효율적인 도구 호출과 행동 해석 가능성을 유지하였다.
최근의 진전에도 불구하고, LLM 에이전트는 긴 상호작용 이력에 대한 추론에서 여전히 어려움을 겪고 있다. 현재의 메모리 증강 에이전트는 정적인 검색 후 추론(retrieve-then-reason) 패러다임에 의존하지만, 이러한 경직된 파이프라인 설계는 추론 과정에서 발견된 중간 증거에 따라 메모리 접근을 동적으로 적응시키지 못하게 한다. 이러한 한계를 극복하기 위해, 우리는 연관 메모리 그래프(associative memory graph)와 능동 재구성 메커니즘(active reconstruction mechanism)을 결합한 프레임워크인 MRAgent를 제안한다. 우리는 메모리를 큐-태그-내용(Cue-Tag-Content) 그래프로 표현하며, 여기서 연관 태그는 세분화된 큐와 메모리 내용을 연결하는 의미적 다리 역할을 한다. 이 구조를 기반으로 작동하는 능동 재구성 메커니즘은 LLM 추론을 메모리 접근에 직접 통합하여, 에이전트가 축적된 증거에 따라 검색 경로를 반복적으로 탐색하고 가지치기할 수 있게 한다. 이를 통해 메모리 검색이 추론 맥락에 동적으로 적응하면서도, 제약 없는 확장으로 인한 조합적 폭발을 방지한다. LoCoMo 벤치마크와 LongMemEval 벤치마크 실험 결과, 강력한 기준 모델 대비 최대 23%의 유의미한 성능 향상을 보였으며, 토큰 및 실행 시간 비용을 상당히 절감하여 장기 메모리 추론을 위한 능동적이고 연관적인 재구성의 효과를 입증하였다.
대규모 언어 모델(LLM)은 대화 생성기에서 추론, 행동, 기억 및 자기 개선이 가능한 통합 AI 시스템으로 근본적인 변환을 겪고 있다. 우리는 이러한 전환을 챗봇에서 디지털 동료로의 변화, 즉 대화형 응답에서 지속적 작업으로의 이행으로 개념화한다. 이 전환을 두 가지 밀접하게 연관된 차원을 따라 조직한다. 첫째, 인지적 핵심 수준에서 LLM은 다음 토큰 예측에 기반한 챗봇 시대의 '빠른 사고' 시스템에서, 추론 시간 계산, 사고 사슬 추론, 반성, 과정 감독 및 강화 학습을 활용하여 보다 신중하고 신뢰할 수 있는 인지를 지원하는 사고형 LLM으로 발전하고 있다. 둘째, 도구 증강 작업 실행 수준에서 LLM은 임시 방식으로 외부 자원을 호출하는 도구 호출 에이전트에서, 지속적 워크스페이스, 스킬, 검증 루프 및 거버넌스를 갖춘 오픈클로 방식의 워크스테이션 시스템으로 발전하고 있다. '워크스페이스 + 스킬' 패러다임은 상태 지속성, 재사용 가능 절차, 작업 종결 및 경험 재사용을 통해 일회성 도구 사용을 동료적 행위로 전환한다. 우리는 데이터 구축이 명령-응답 쌍에서 상태-행동-관찰 궤적으로, 평가가 정적 벤치마크에서 격리된 감사 가능한 자기 진화형 AI 생태계로 전환되는 과정을 검토한다.
최근 에이전트 스웜의 성공은 대규모 언어 모델(LLM) 기반 에이전트의 패러다임을 단일 에이전트 워크플로우에서 다중 에이전트 시스템으로 전환시키며, 작업 분해 및 협업을 위한 에이전트 오케스트레이션의 중요성을 부각시켰다. 그러나 기존 오케스트레이션 프레임워크는 제한된 모달리티 집합에 국한되어 이질적 모달리티가 공존하고 상호작용하는 더 복잡한 환경으로 일반화하는 데 어려움을 겪는다. 이러한 한계는 텍스트, 이미지, 오디오, 비디오와 같은 다양한 입력에 대한 통합된 이해와 조정이 요구되는 옴니모달 시나리오에서 특히 두드러진다. 본 연구에서는 다중 모달리티에 걸친 효율적인 에이전트 협업을 지원하도록 설계된 옴니모달 에이전트 오케스트레이션 프레임워크인 Orchestra-o1을 제안한다. Orchestra-o1은 모달리티 인식 작업 분해, 온라인 서브 에이전트 전문화, 병렬 서브 태스크 실행을 가능하게 하는 통일된 오케스트레이션 메커니즘을 도입한다. 이러한 확장 가능한 설계는 에이전트 시스템이 이질적 정보 소스를 포함하는 복잡한 실제 작업을 효과적으로 처리할 수 있게 하며, OmniGAIA 벤치마크에서 두 번째로 우수한 접근법보다 정확도가 10.3% 향상되었다. 또한, 결정 정렬 그룹 상대 정책 최적화(DA-GRPO)를 도입하여 Orchestra-o1-8B를 훈련하기 위한 효율적인 에이전틱 강화 학습 접근법을 제시하며, 이는 기존의 모든 오픈소스 옴니모달 에이전트 대비 최첨단 성능을 달성한다.
AI 에이전트의 성능은 모델이 관찰하고 추론하고 행동하는 방식을 중재하는 프롬프트, 도구, 메모리, 제어 흐름으로 구성된 런타임 하네스에 결정적으로 의존한다. 그러나 오늘날의 하네스는 대체로 수제작되고 정적이어서, 새로운 모델이나 작업이 등장할 때마다 여전히 맞춤형 스캐폴딩이 필요하며, 실행 중에 생성되는 풍부한 트레이스는 체계적인 개선으로 거의 환류되지 않는다. 우리는 구성 가능하고 적응 가능하며 진화 가능한 에이전트 하네스의 파운드리인 HarnessX를 소개한다. HarnessX는 대치 대수를 통해 타입화된 하네스 프리미티브를 조립하고, 기호적 적응과 강화 학습 간의 운영적 거울에 기반한 트레이스 기반 다중 에이전트 진화 엔진인 AEGIS를 통해 이를 적응시키며, 궤적을 하네스 업데이트와 모델 훈련 신호로 변환하여 하네스-모델 루프를 닫는다. 다섯 가지 벤치마크(ALFWorld, GAIA, WebShop, tau^3-Bench, SWE-bench Verified)에서 HarnessX는 평균 +14.5%(최대 +44.0%)의 향상을 보이며, 기준 성능이 가장 낮은 곳에서 향상 폭이 가장 크다. 이러한 결과는 에이전트의 진보가 모델 확장에서만 비롯될 필요가 없음을 시사한다. 즉, 실행 피드백으로부터 런타임 인터페이스를 구성하고 진화시키는 것은 실행 가능하고 보완적인 지렛대이다. 전체 코드베이스는 향후 릴리스에서 오픈소스로 공개될 예정이다.
검색 증강 생성이 텍스트를 넘어 장시간의 자기중심적(egocentric) 비디오로 확장되고 있으며, 이러한 시스템은 다중 모달리티와 시간적 세분성에 걸쳐 질의 관련 청크(chunk)를 선택해야 한다. 그러나 비디오RAG(VideoRAG)의 발전은 두 가지 격차로 인해 제한된다. 기존 벤치마크는 비디오 없이도 질의에 답할 수 있어 검색 오류를 모호하게 하며, 기존 방법은 질의당 단일 모달리티-세분성 구성을 적용하여 청크 수준의 변동성을 무시한다. 우리는 이 두 문제를 해결하기 위해 검색과 생성을 충실하게 분리 평가할 수 있는 ⟨질의, 증거 청크, 답⟩ 삼중항(triplet)으로 구성된 벤치마크인 V-RAGBench를 도입하고, 다양한 구성에 걸쳐 병렬 검색기를 실행하며 청크 적응형 재순위화(chunk-adaptive reranking)를 통해 각 청크에 최적의 구성을 식별하는 간단한 방법인 CARVE를 제안한다. 각 청크는 검색 중 선택된 최적 구성 하에 생성기로 전달되며, 청크 수준의 결정이 두 단계에 걸쳐 전파되는 인터리브된(interleaved) 증거 형태를 생성한다. CARVE는 최근 8개의 비디오RAG 기준 방법보다 우수한 성능을 보이며, 생성기에 제공되는 청크가 단일 구성을 공유하는 대신 여러 구성을 인터리브하는데, 이는 질의 수준 방법으로는 달성할 수 없는 동작이다.
현재 자동화된 시청각 질의응답(QA) 파이프라인은 일반적으로 '비디오-캡션-QA' 패러다임을 채택합니다. 그러나 이러한 방법들은 대개 비디오를 짧은 클립으로 분할하고 오디오 및 시각적 양식에 대해 별도의 설명을 생성합니다. 이러한 분리된 처리는 소리와 시각적 출처 간의 고유한 연관성을 단절시키며, 개별 클립 처리는 동일한 개체에 대해 세그먼트 간 일관되지 않은 설명을 초래하는 경우가 많습니다. 더욱이 긴 텍스트 이해와 QA 합성을 단일 단계로 결합하면 모델이 국지적 이벤트에 제한되어 장기적 시간 연결과 깊은 교차 양식 추론이 부족한 질문을 생성하게 됩니다. 이러한 문제를 해결하기 위해 우리는 두 가지 메커니즘을 특징으로 하는 자동화된 데이터 엔진을 제안합니다: (1) 개체 기반 비디오 스크립팅(Entity-Anchored Video Scripting)은 비디오를 요약, 주요 개체 목록, 세그먼트별 시청각 설명으로 구성된 구조화된 스크립트로 변환합니다. 개체 목록은 세그먼트 간 참조 일관성을 보장하고 시청각 연관성을 재구성하기 위한 전역 사전 정보 역할을 합니다. (2) 단서 기반 QA 생성(Clue-Guided QA Generation)은 모델이 먼저 스크립트에서 세그먼트 간, 다중 모드 단서를 마이닝한 다음 이러한 고가치 단서를 기반으로 QA 쌍을 생성하도록 유도합니다. 이 파이프라인을 활용하여 우리는 명령어 튜닝 데이터셋인 OmniVideo-100K와 사람이 검증한 테스트 세트인 OmniVideo-Test를 구축합니다. OmniVideo-100K에서 VITA-1.5, Qwen2.5-Omni-7B 및 Qwen3-Omni-30B를 미세 조정하면 OmniVideo-Test에서 최대 20.59%의 성능 향상을 얻을 수 있으며, Daily-Omni 및 JointAVBench와 같은 기존 벤치마크에서 강력한 일반화(최대 12.64% 개선)를 보여줍니다.
지난 10년 동안, 인간 수준의 인공 일반 지능(AGI)을 구축하는 것은 먼 미래의 추측에 불과한 주제에서 많은 대형 AI 조직들의 구체적인 향후 10년 목표로 전환되었다. 이러한 목표의 달성은 인간 사회에 광범위하고 지대한 영향을 미칠 것이며, 이는 향후 10년 동안 해결해야 할 많은 복잡한 질문들을 제기한다. 본 보고서는 기계 지능의 연속선 상에서 AI 자체가 포스트-AGI 세계에서 어떻게 계속 발전할 수 있을지 탐구한다. 이 연속선의 종점인 유니버설 AI는 이론적으로 잘 이해되어 있으며, 이는 본 보고서의 주요 초점인 인간 수준의 AGI에서 인공 일반 초지능(ASI)으로의 전환에 대한 공식적 기반을 제공한다. 직관적으로 ASI는 대규모 인간 조직보다 더 지능적이고 인지적 능력이 뛰어난 시스템으로 이해될 수 있다. 보고서는 ASI의 특성을 규명한 후, AGI에서 ASI로 가는 네 가지 잠재적 경로, 즉 AGI 확장, AI 패러다임 전환, 재귀적 개선, 대규모 다중 에이전트 집단에서의 ASI 출현에 대해 논의한다. 이어서 이러한 경로를 따라 발생할 수 있는 마찰과 병목 현상을 논의한다. 이러한 마찰의 영향이 미미할지 또는 실질적일지 결정하는 것은 몇 가지 구체적인 공개 연구 질문을 제기한다. ASI 발전을 예측하는 데는 큰 불확실성이 존재하므로, 향후 AI 발전이 계속 가속화될 가능성을 배제할 수 없다. 이는 인간 수준의 AGI가 사회에 도입됨으로 인한 단일 변혁적 단계적 변화라는 이미지가 부정확할 수 있음을 시사한다. AI가 가능하게 하는 과학 및 기술의 여러 영역에서의 진보와 돌파구로 인해 발생하는 일련의 변혁적 사회 변화 전망이 더 적절할 수 있다. 이러한 전망에 대비하기 위해서는 전 세계적 범위와 관심을 가진 대규모 학제적 노력이 필요하다.
우리는 그룹 상대 정책 최적화(GRPO)에서 대규모 언어 모델(LLM)의 롤아웃 다양성을 개선하기 위한 새로운 차원을 식별한다. GRPO는 다양한 롤아웃에 의존하지만, 기존의 주요 전략들은 주로 더 많은 토큰 수준의 무작위성을 도입하여 다양성을 증가시키며, 이는 단계별 노이즈를 유발하고 일관성 없는 궤적(trajectory)을 초래할 수 있다. 우리는 동일 모델 패밀리 내에서 더 작은 모델이 본질적으로 더 높은 정책 수준의 다양성을 나타내며, 이는 샘플 수가 증가할수록 더 큰 모델에 비해 우수한 pass@k 지표로 증명된다. 토큰 수준의 노이즈와 달리, 이러한 다양성은 시간적 상관성을 가지며 논리적 일관성을 유지하고, 기울기 추정을 위한 구조화된 탐색 신호를 제공한다. 따라서 우리는 S2L-PO(Small-to-Large Policy Optimization) 프레임워크를 제안한다. 이는 고정된 소형 모델을 자연 탐색기로 활용하여 대형 모델을 훈련하는 방식이다. 탐색과 활용의 균형을 맞추기 위해, 우리는 오프라인 소형 모델 롤아웃에서 대형 학습자의 자체 샘플링으로 전환하는 점진적 어닐링(progressive annealing) 전략을 설계한다. 이러한 전환은 소형 모델의 용량 한계로 인한 중간 훈련 성능 저하를 우아하게 방지하며, 더 빠른 수렴을 달성하고 더 높은 성능 상한을 열어준다. S2L-PO는 다양한 수학적 추론 벤치마크(예: 1.7B 탐색기로 8B 모델을 안내할 때 AIME 24에서 +8.8% 정확도 향상)에서 정확도를 개선하는 동시에 롤아웃 계산을 줄인다.
대규모 언어 모델(LLMs)은 고정된 깊이와 순서로 모든 레이어를 비순환적으로 실행하여 추론을 수행한다. 본 연구에서는 사전 학습된 레이어를 모듈로 묶은 후, 각 입력에 맞춰 사용자 정의 프로그램을 형성하도록 건너뛰거나 반복할 수 있는, 학습 없이도 가능한 유연하고 동적인 레이어 프로그램(PoLar)이 광범위하게 존재함을 밝힌다. 대부분의 입력에 대해, 상당히 짧은 프로그램 실행이 동일하거나 더 나은 정확도를 달성할 수 있으며, 원래 LLM의 잘못된 예측은 더 적은 레이어를 사용하는 대체 프로그램으로 교정될 수 있다. 이러한 관찰은 추론이 표준 순방향 전파를 넘어 여러 유효한 잠재 계산 경로를 허용함을 시사한다. 실제로 PoLar를 효율적으로 구현하기 위해, 각 입력에 대해 사전 학습된 레이어를 동적으로 건너뛰거나 반복하는 실행 프로그램을 학습하는 경량의 PoLar 예측 네트워크를 제안한다. 수학적 추론 벤치마크 실험 결과, PoLar는 표준 추론 및 기존 동적 깊이 방법보다 일관되게 정확도를 향상시켰으며, 종종 더 적은 레이어를 실행하면서도 이러한 이점이 분포 외 평가에서도 유지됨을 보여준다. 본 결과는 고정 깊이 실행이 LLM의 잠재적 추론 능력 중 극히 일부만을 포착함을 시사한다.
대규모 언어 모델(LLM)이 이제 의사 면허 시험에서 전문가 수준의 점수를 획득하면서, 높은 점수가 안전한 의학적 판단을 의미한다는 가정을 부추기고 있으며, 환자들은 점점 더 이를 건강 조언에 활용하고 있다. 우리는 이 가정이 취약함을 보여준다. LLM이 원래 정확히 답변했던 질문에 오해의 소지가 있는 맥락이 삽입되면, LLM은 정답을 포기한다. 우리는 적대적 맥락에서도 올바른 판단을 유지하는 능력을 인식적 회복력(epistemic resilience)이라고 부르며, 이를 측정하기 위해 MedMisBench를 소개한다. MedMisBench는 의학적 추론, 행위자 능력, 환자 여정 평가를 포괄하는 10,932개의 의학 질문 항목과 48,889개의 오해 유발 맥락-선택지 쌍을 포함한다. 11개 모델 구성에서 평균 정확도는 원래 질문에서 71.1%에서 집중된 오해 유발 맥락 하에서 38.0%로 떨어졌으며, 공격 성공률은 51.5%였다. 가장 치명적인 삽입은 형식적이고 규칙 같은 조작으로, 권위를 내세운 허위 정보는 69.5%의 공격 성공률을, 예외 중독 주장은 64.1%의 공격 성공률을 기록했다. 7개국에서 모인 14명의 임상 패널은 검토된 사례 중 38.2%에서 심각한 잠재적 해악을 확인했다. MedMisBench는 의료 환경에서 LLM 평가의 구조적 사각지대를 드러낸다. 기존 벤치마크는 모델이 무엇을 아는지 측정하지만, 오해 유발 맥락에서 올바른 의학적 판단을 유지하는지 여부는 측정하지 않는다.
사용자는 에이전트 동작 관찰, 장애 진단 및 책임 추적을 위해 실행 추적(trace)에 의존한다. 이러한 추적은 도구 호출, 중간 의사 결정, 오류 복구 로직 등 풍부한 절차적 상세 정보를 포함한다. 그러나 이러한 상세 정보는 개인 절차적 기술을 노출할 수 있으며, 이를 통해 다운스트림 방법이 모델 가중치나 스킬 파일에 접근하지 않고도 핵심 수식, 임계값 및 전략을 복구할 수 있다. 이러한 위험을 정량화하고 보호 방법을 평가하기 위해, 본 연구에서는 75개의 특수 장기 과제와 7개 도메인에 걸친 154개의 엄선된 스킬로 구성된 벤치마크인 CapTraceBench를 구축한다. 또한 RedAct(https://github.com/XuShuwenn/RedAct)를 소개한다. RedAct는 보호된 추적 릴리스 프레임워크로서, 보호 대상 핵심 정보를 위치화하고, 검증자에게 중요한 증거를 보존하면서 추적을 재작성하며, 다운스트림 출처 분석을 위한 행동 워터마크를 내장한다. 대표적인 추적 재사용 방법들에 대해 RedAct는 원시 추적 대비 정규화된 스킬 전이(NST)를 44.7~67.1%에서 무스킬(no-skill) 기준선 이하로 감소시키면서 감사 증거를 보존한다. 독립형 행동 워터마크는 최대 1.9%의 오경보율에서 93.6~100.0%의 실제 탐지율을 달성한다. 이러한 결과는 공개 에이전트 추적을 보안 인터페이스로 규정하고, 선택적 수정이 감사 증거를 제거하지 않으면서 절차적 기능 누출을 줄일 수 있음을 보여준다.
대규모 언어 모델 기반 코딩 에이전트는 소프트웨어 엔지니어링 작업에서 뛰어난 성능을 입증해 왔다. 그러나 대부분의 에이전트는 저장소를 거의 완전히 텍스트로만 처리하는데, 이는 인간 개발자가 폴더 계층 구조나 의존 관계와 같은 시각적 구조를 활용하여 대규모 코드베이스에서 방향을 잡는 방식과는 다르다. 다중 모달 대규모 언어 모델(MLLM)의 등장으로, 에이전트가 저장소의 시각적 표현으로부터 효과적으로 이점을 얻을 수 있는지는 아직 해결되지 않은 문제이다. 본 논문은 저장소 수준의 이슈 해결에 있어 LLM 기반 에이전트를 위한 저장소의 시각적 표현에 대한 최초의 체계적인 경험적 연구를 제시한다. 우리는 네 가지 최신 다중 모달 모델을 평가했다. 결과에 따르면, 순수 시각 전용 설정은 정확도를 저하시키고 토큰 비용을 증가시키는데, 이는 에이전트가 충분한 기호 정보를 얻지 못하고 반복적인 시각 질의로 이를 보완하기 때문이다. 반면, 저장소 구조의 시각적 그래프를 표준 텍스트 인터페이스와 함께 보조 양식으로 통합하면 에이전트가 구조를 보다 효율적으로 이해하는 데 도움이 된다. 입력 토큰 소비는 최대 26% 감소하는 반면, 이슈 해결 정확도는 유지되거나 개선된다. 시각화는 오류 위치 파악 단계와 에이전트가 탐색 깊이를 자율적으로 제어할 때 가장 유용하다. 이러한 발견은 차세대 코딩 에이전트를 위한 실용적인 텍스트-시각 하이브리드 설계를 시사한다.
대규모 언어 모델(LLM)은 텍스트-이미지(T2I) 시스템에서 널리 사용되지만, 일반적으로 텍스트 인코딩에 국한되며 잡음 제거는 새로 학습된 생성 백본이 처리한다. 표현 오토인코더(RAE)의 등장은 생성 목표를 의미론적으로 구조화된 시각적 표현으로 전환하여 사전 학습된 LLM 사전 분포와 더 호환되는 잠재 공간을 만든다. 깨끗한 시각적 표현을 사전 학습된 LLM과 정렬하는 데 MLP 프로젝터만으로 충분한 멀티모달 LLM(MLLM)에서 영감을 받아, 우리는 이 메커니즘을 깨끗한 입력에서 잡음이 있는 입력으로 확장하여 MLLM 자체를 잡음이 있는 표현 인코더로 재활용한다. 우리는 결과 MLLM 출력을 디퓨전 트랜스포머의 조건 신호로 사용하는 RepFusion을 제시한다. 유사한 추론 예산 내에서 수행된 통제 비교에서, RepFusion은 새로 초기화된 잡음 제거기에 비슷한 용량을 할당한 기준 모델보다 우수한 성능을 보인다. 이러한 결과는 MLLM이 시각적 표현의 잡음 제거에 강력한 사전 분포를 제공하며, 진화하는 잡음이 있는 표현에 조건화함으로써 현대 T2I 시스템에서 반복적인 MLLM 조건화에 테스트 시간 계산을 생산적으로 사용할 수 있음을 입증한다.
포현적 세계 모델은 시각적 로봇 의사결정 및 상호작용 환경 시뮬레이션을 위한 핵심 패러다임으로 부상했다. 그러나 기존의 포현적 프레임워크는 저차원의 구조화된 행동 벡터(예: 관절 각도와 말단효과기 자세)에 의존하며, 이는 제한된 표현 능력, 다양한 체현 간의 낮은 일반화 성능, 그리고 복잡한 물리적 상호작용에 대한 부자연스러운 동역학 모델링이라는 한계를 가진다. 이러한 한계를 극복하기 위해 본 논문은iMac(Image as Action Control)을 제안한다. 이는 포현적 세계 모델을 위해 원시 시각 이미지를 자연스러운 행동 표현으로 취급하는 새로운 통합 제어 패러다임이다. 기존의 명시적 운동학적 행동 부호화에서 벗어나, iMac은 연속적인 시각적 조작을 이미지 기반 행동 토큰으로 정식화하며, 이는 공간적 운동 의도, 상호작용 기하학적 제약 및 미묘한 물리적 동역학을 본질적으로 내포한다. 우리는 이미지-행동 인코더와 동적 세계 예측기로 구성된 이중 분기 포현적 아키텍처를 구축한다. 인코더는 목표 지향적 시각 이미지를 간결한 행동 임베딩으로 압축하고, 예측기는 이미지 행동에 조건화된 환경 전이 규칙을 학습하여 고충실도 미래 상태 예측 및 폐루프 포현적 제어를 달성한다. 공개 포현적 조작 벤치마크와 실제 로봇 시나리오에서 광범위한 실험을 수행했다. 결과는 iMac이 예측 정확도, 작업 성공률 및 교차 장면 일반화 능력에서 벡터 기반 행동 제어 기준선을 능가함을 보여준다. 더욱이, 우리의 이미지-행동 설계는 수동으로 정의된 행동 공간에 대한 의존성을 제거하여 이질적인 포현적 에이전트에 대한 유연하고 보편적인 제어를 실현한다. 이 연구는 포현적 세계 모델에 대한 혁신적인 시각-행동 관점을 제공하며, 확장 가능한 로봇 지각 및 조작을 위한 간단하면서도 효과적인 패러다임을 제시한다.
본 보고서에서는 Hy-Embodied-0.5-VLA (약칭 HyVLA-0.5)를 제시한다. 이는 데이터 수집, 모델 설계, 지속적 사전 훈련 및 지도 미세 조정, 강화학습 후처리, 실제 환경 배포에 이르는 로봇 학습 전체 스택을 아우르는 종단간(end-to-end) 시스템이다. 각 구성 요소는 이 스택에서 고유한 역할을 수행한다.
현대의 Lean 정리 증명기는 검증된 증명 데이터의 부족과 형식 증명 탐색의 긴 추론 과정으로 인해, 상당한 학습 및 추론 컴퓨팅 자원이 있어야만 높은 성능을 달성하며, 이는 지도 미세 조정(SFT)과 샘플링 모두를 비용이 많이 드는 작업으로 만듭니다. 우리는 실용적인 컴퓨팅 예산에 맞춰 설계된 컴퓨팅 효율적인 오픈소스 Lean 정리 증명기 제품군인 Pythagoras-Prover를 소개합니다. 이 제품군은 두 가지 생성 패러다임을 포괄합니다: 4B 및 32B 매개변수의 자기회귀 모델과, 추론 시점에 Lean 증명을 반복적으로 개선하는 최초의 개념 증명 확산 기반 증명기(4B)입니다. 학습 효율성을 위해, 우리는 커리큘럼 SFT를 위한 쉬움, 중간, 어려움 문제로 계층화된 Lean 검증 말뭉치를 구축하여, 모델이 더 짧고 단순한 증명에서 더 길고 어려운 증명으로 점진적으로 증명 기술을 습득하도록 합니다. SFT 중에는 동적 증명 추론 필터링 기법을 통해 각 인스턴스를 8k 토큰 컨텍스트 예산 내로 유지하면서 정보성 있는 증명 추적을 보존합니다. 또한, 검증된 말뭉치를 형식 명제의 변형으로 확장하는 증강 Lean 형식화(ALF)를 도입합니다. ALF는 모든 변형 인스턴스를 형식 검증하지 않고 자가 증류를 통해 추가 학습 신호를 제공합니다. 알려진 문제를 변형하면서도 형식적 특성을 유지함으로써, ALF는 명제의 표면 형태에 대한 의존성을 줄입니다. 실험적으로, Pythagoras-Prover-4B는 MiniF2F-Test에서 pass@32 기준(86.1% 대 82.4%)으로 DeepSeek-Prover-V2-671B를 약 167배 적은 매개변수로 능가하며, Pythagoras-Prover-32B는 MiniF2F-Test에서 93.0%로 오픈소스 최고 성능을 달성하고 PutnamBench의 672개 문제 중 93개를 해결합니다. 우리는 MiniF2F-ALF라는 ALF 변형 기반 오염 민감 벤치마크를 공개하며, 이 벤치마크에서는 평가된 모든 모델의 정확도가 하락합니다. 여기서 우리의 32B 모델은 가장 강력한 성능을 유지하고, 4B 모델은 이전 최고 성능인 Goedel-Prover-V2-32B와 동등한 성능을 보입니다.
AI 생성 리뷰가 실험 도구에서 동료 심사 인프라로 전환됨에 따라, 대부분의 견고성 우려는 은닉 명령 및 프롬프트 인젝션과 같은 명시적 공격에 초점을 맞춰왔다. 본 연구는 더 어렵고 정책적으로 중요한 실패 모드를 분석한다: 은닉 텍스트, 프롬프트 인젝션, 그리고 방법론, 실험, 그림, 수식, 증명, 수치 결과에 대한 변경이 전혀 없는 경우이다. 공격자는 초록, 기여도 프레이밍, 관련 연구, 논의, 서사 구조 등 프레젠테이션 수준의 내용만 수정한다. 우리는 적대적 재포장(adversarial repackaging)을 도입한다: 이는 AI 리뷰어의 피드백을 활용하여 과학적 증거는 고정된 상태에서 프레젠테이션 수준의 개정을 탐색하는 폐쇄 루프 공격이다. 세 가지 주류 AI 리뷰어를 대상으로 한 실험에서, 적대적 재포장은 75.1%의 공격 성공률과 평균 +1.21/10의 점수 향상을 달성했다. 이 효과는 일반적인 산문 다듬기(prose polishing)로는 설명되지 않는다. 또한, 리뷰어가 논문을 해석하는 방식을 변경하는 전략(예: 관련 연구 재배치, 분석적 논의 확장)이 표면적 편집(예: 국부적 다듬기, 표 서식, 알고리즘 박스)보다 훨씬 뛰어난 성과를 보인다는 사실을 밝혀냈다. 우리의 분석은 두 가지 더 깊은 구조적 실패 모드를 드러낸다. 첫째, AI 리뷰어는 설득보다 감동시키기가 더 쉽다: 강점을 부각하면 인지된 가치가 확실히 증가하는 반면, 약점을 해소하려는 시도는 종종 역효과를 낳는다. 둘째, AI 리뷰어는 한계를 해결한 것처럼 보이는 것과 실제로 해결하는 것을 혼동할 수 있으며, 이로 인해 변경되지 않은 증거가 더 강력한 과학적 기여로 재해석될 수 있다. 이러한 결과는 배포 위험이 악의적인 은닉 명령뿐만 아니라, 논문 프레젠테이션 자체가 최적화 대상으로 부상하는 데 있음을 보여준다. 우리는 AI 리뷰어가 프레젠테이션만 수정된 상태에서도 과학적 내용에 고정되어 있는지 테스트하기 위한, 오염 없는 순환 벤치마크 및 공격 프레임워크를 공개한다.
Group Relative Policy Optimization(GRPO)을 GUI 그라운딩에 적용할 때, 롤아웃은 단일 스크린샷 뷰에서 샘플링되며, 그룹은 어려운 인스턴스에서는 모두 실패하거나 쉬운 인스턴스에서는 모두 성공하는 경우가 많아 유의미한 상대적 이점을 얻을 수 없습니다. 본 논문에서는 동일한 GUI 인스턴스의 여러 타겟 보존 뷰(target-preserving views)로 각 비교 그룹을 구성하는 GRPO 기반 훈련 프레임워크인 VISTA(View-Consistent Self-Verified Training)를 제안합니다. 각 뷰는 타겟 요소를 보이게 유지하고 해당 박스를 정확히 재매핑하는 크롭(crop)으로 생성되므로, 모델 롤아웃은 의미적으로는 동일하지만 기하학적으로는 다른 입력들 간에 비교됩니다. VISTA는 짧은 좌표 생성을 안정화하면서 강화 학습을 무조건적 모방으로 변질시키지 않기 위해, 자체 검증된 교차 뷰 앵커(self-verified cross-view anchor)를 추가합니다. 이는 이점 가중 손실(advantage-weighted loss)로 최적화된 오라클 답변(oracle answer)으로, 그룹 기준선에서 제외되며 모델이 최대 보상 롤아웃을 생성한 경우에만 활성화됩니다. 다섯 가지 GUI 그라운딩 벤치마크와 여러 Qwen 백본에 걸쳐 VISTA는 일관되게 그라운딩 정확도를 향상시킵니다. ScreenSpot-Pro에서는 Qwen3-VL 4B/8B/30B-A3B의 성능을 55.5/52.7/53.7에서 63.4/65.8/67.0으로 끌어올렸습니다. 강건성 분석에서는 최악 뷰 정확도가 더 높아지고 예측 반전률이 낮아지는 것을 추가로 보여줍니다.
비디오 기반 월드 모델의 최근 발전은 고품질 시각적 시퀀스를 합성하는 전례 없는 능력을 보여주었다. 그러나 시각적으로 그럴듯한 비디오 생성과 월드 모델의 기능적 요구 사항, 특히 장기적인 시간 범위에 걸쳐 안정적이고 합리적인 내부 상태를 유지하는 데 있어 근본적인 차이가 여전히 존재한다. 기존 벤치마크는 주로 시각적 품질, 움직임 일관성 및 텍스트-비디오 정렬을 강조하지만, 월드 모델이 장기적 범위와 복잡한 상호작용 전반에 걸쳐 일관성을 유지하는 핵심 기능인 메모리를 대부분 간과한다. 이러한 격차를 해소하기 위해, 우리는 비디오 월드 모델의 메모리 능력을 정량화하고 평가하는 데 특화된 포괄적인 벤치마크인 MBench를 제시한다. 우리는 비디오 월드 모델의 메모리 능력을 세 가지 계층적이고 상호 보완적인 핵심 차원, 즉 개체 일관성, 환경 일관성 및 인과 일관성으로 체계적으로 분해하며, 이는 장기 메모리의 포괄적인 특성화를 위해 12개의 정량화 가능한 하위 차원으로 더욱 세분화된다. 우리의 벤치마크는 엄격하게 선별된 실제 촬영 장기 비디오를 기반으로 구축되었으며, 규칙 기반 정량적 지표와 VLM을 통해 객관적이고 포괄적인 일관성 평가를 가능하게 한다. 최첨단 비디오 월드 모델에 대한 광범위한 평가는 기존 방법의 장기 상태 유지에 있어 중요한 시스템적 한계를 드러내며, 이 분야를 발전시키기 위한 표준화된 벤치마크와 명확한 연구 방향을 제공한다.
행동이 물리적 변화를 유도하는 과정을 포착하는 월드 모델은 구현체 특화 행동 레이블 없이도 확장 가능한 로봇 학습을 가능하게 한다. 픽셀 공간 비디오 모델은 광범위한 시각적 사전 지식을 제공하지만 밀집된 외관 재구성에 모델 용량을 소모하는 반면, 직접 행동 모델은 구현체 특화 레이블을 필요로 하여 확장성을 저해한다. 본 논문에서는 3D 궤적에 기반한 확장 가능한 월드 모델인 μ_0를 제안한다. μ_0는 밀집 픽셀을 예측하거나 행동을 직접 모델링하는 대신, 객체, 도구, 손, 접촉 영역 등 주요 상호작용 지점에 대한 부드러운 3D 궤적을 예측하여, 구현체에 구애받지 않는 컴팩트한 모션 인터페이스를 제공한다. 다양한 비디오 소스로부터 훈련을 가능하게 하기 위해, TraceExtract 시스템은 키포인트를 선택하고, 전역적으로 정렬된 궤적을 구축하며, 모션 세그먼트를 계층적 언어 설명과 연관시킴으로써 3D 지도 신호를 자동으로 추출한다. 이 TraceExtract 지도 신호는 사전 훈련된 시각-언어 백본을 모듈식 궤적 전문가와 결합하여 μ_0를 사전 훈련시키며, 궤적 전문가는 각 질의를 B-스플라인 제어점으로 표현하고 미래 궤적을 예측한다. 실험 결과, μ_0는 궤적 예측 모델 및 토큰화된 VLM 방법을 포함한 2D 및 3D 궤적 예측 모두에서 기준 모델보다 우수한 성능을 보였다. μ_0는 고정되어 재사용 가능하므로, 하위 로봇 구현체를 위한 행동 전문가와 결합될 수 있다. 행동 없는 사전 훈련에도 불구하고, 결과적으로 얻어진 궤적 조건 정책은 π_0와 같은 행동 지도 신호로 사전 훈련된 VLA 모델과 경쟁할 만한 성능을 달성한다. 이러한 결과는 3D 궤적이 교차 구현체 조작을 위한 확장 가능하고 전이 가능한 표현임을 입증한다.
다중 언어 모델 에이전트로 구축된 AI 시스템이 보편화됨에 따라, 이들은 공유된 작업에 대해 논의하고, 협상하며, 행동하는 등 함께 의사결정을 내리는 데 점점 더 많이 사용되고 있다. 개별 에이전트는 단독으로 테스트되었을 때 잘 정렬된 것처럼 보일 수 있지만, 이들이 서로 상호작용하는 방식에서 문제가 발생할 수 있다. 우리는 다중 에이전트 대화를 실시간으로 모니터링하고 어떤 참가자가 부정합 방식으로 행동하고 있는지 식별하도록 설계된 에이전트인 Arbiter를 소개한다. Arbiter는 제한된 "검사 예산(inspection budget)" 하에서 작동하므로, 자원을 어떻게 사용할지 신중히 결정해야 한다. 대화를 단계별로 관찰하면서, 대기하거나, 참가자에게 질문하거나, 시스템 프롬프트나 추론 과정과 같은 내부 정보를 조사하거나, 우려되는 행동을 기록할 수 있다. 마지막에는 부정합의 가능한 원인을 식별하는 보고서를 생성한다. 우리는 위험한 금융 조언 모델 유기체부터 평가 인식 및 공모 에이전트에 이르기까지 다섯 가지 대화 조건에 걸쳐 Arbiter를 평가했으며, 증가된 기능을 가진 다섯 가지 도구 구성과 두 가지 백본 모델을 테스트했다. 그 결과 Arbiter는 대화가 끝나기 훨씬 전에 부정합 에이전트를 신뢰할 수 있게 탐지하며, 능동적 검사 도구는 탐지 정확도와 속도를 모두 향상시킨다는 것을 발견했다. 가중치 유발 부정합은 탐지가 가장 어려운 반면, 명령 유발 부정합은 수동적 관찰에서도 안정적으로 식별되었다. 기록 도구는 재현율을 향상시키는 대신 정밀도를 희생시키는 이중 효과를 보였다. 이러한 결과는 지속적이고 예산을 인식하는 모니터링이 부정합을 효과적으로 포착할 수 있으며, 다중 에이전트 시스템을 감독하려면 감사자를 과정의 적극적 참여자로 취급해야 할 수 있음을 시사한다. 코드는 https://github.com/aisilab/arbiter 에서 확인할 수 있다.
타겟 개인과 단순히 시각적으로 유사할 뿐만 아니라 행동적으로도 인식 가능하여, 그들의 말하는 리듬, 제스처 경향, 표정 역학을 충실히 재현하는 아바타 비디오를 생성하는 것은 여전히 해결되지 않은 과제로 남아 있다. 기존 방법들은 주로 단일 정적 이미지에 조건화되는데, 이는 충분한 정체성 정보를 제공하지 못하고 동적 움직임 특성을 포착할 수 없으며, 표준 픽셀 수준의 목표 함수는 아바타 충실도를 결정하는 지각적으로 중요한 안면 영역을 충분히 반영하지 못한다. 우리는 이러한 한계를 비디오 참조 조건화 정체성 모델링을 통해 해결하는 프로덕션 규모의 프레임워크인 Avatar V를 제시한다. 제안된 모델은 정체성을 고정 크기 임베딩으로 압축하는 대신 참조 비디오의 전체 토큰 시퀀스에 직접 조건화하여, 참조 컨텍스트에 대한 어텐션을 통해 정적 정체성 속성(안면 기하학, 피부 질감)과 동적 행동 패턴(말하는 리듬, 미세 표정)을 모두 재현하도록 학습한다. 우리는 비대칭 메커니즘으로 임의 길이의 참조에 대해 선형 복잡도의 조건화를 달성하는 희소 참조 어텐션(Sparse Reference Attention), 폐루프 말투 스타일 전이를 가능하게 하는 움직임 표현 스트림, 그리고 완전한 참조 조건화를 계승하는 정체성 인식 초해상도 리파이너(refiner)를 도입한다. 이러한 구성 요소는 5천만 개의 원본 비디오에서 1억 개 이상의 훈련 클립을 선별하는 데이터 엔진과, 흐름 정합 사전 학습, 성격 미세 조정, 2단계 증류(10배 이상 가속), RLHF 정렬을 포함하는 5단계 훈련 파이프라인에 의해 뒷받침되며, 수천 개의 GPU에 걸쳐 배포된다. Avatar V는 무제한 길이의 1080p 비디오를 생성하며, 당사의 교차 장면 벤치마크에서 최고 수준의 정체성 보존, 입술 동기화 및 생성 품질을 달성하여, 자동 평가 지표와 인간 평가 모두에서 Seedance 2.0, Kling O3 Pro, Veo 3.1, OmniHuman 1.5를 포함한 주요 시스템을 일관되게 능가한다.
확산 트랜스포머(Diffusion Transformers, DiTs) 기반의 비디오 생성 모델은 비디오 합성에서 뛰어난 성능을 보이지만, 3D 어텐션의 이차 복잡도로 인해 높은 추론 지연 시간과 계산 비용을 겪는다. 기존 가속 방법들은 주로 희소 어텐션 및 KV 캐싱과 같은 기술을 통해 각 개별 잡음 제거 단계 내에서 계산 복잡도를 줄이는 데 초점을 맞춘다. 그러나 이러한 방법들은 표준 확산 파이프라인의 고유한 제약, 즉 대상 비디오 시퀀스의 모든 프레임이 모든 확산 시간 단계에 걸쳐 완전하고 조밀한 잡음 제거 과정을 거쳐야 한다는 제약을 엄격히 따른다. 우리는 인접한 프레임 간의 대응하는 콘텐츠와 움직임으로 인해, 중요한 의미론적 전환을 담당하는 키프레임이 고정되면 다른 프레임들의 중간 상태가 더 예측 가능한 궤적을 따르는 경우가 많다는 것을 관찰하였으며, 이는 이러한 균일하고 조밀한 잡음 제거 과정이 자연 비디오 데이터에 대해 본질적으로 중복됨을 시사한다. 이에 우리는 RhymeFlow를 소개한다. RhymeFlow는 훈련 없는 프레임워크로, 서로 다른 프레임의 잡음 제거 궤적을 분리한다. 구체적으로, 먼저 잠재 의미론적 진화를 주도하는 희소한 핵심 키프레임 집합을 식별한다. 그런 다음, 구조적 무결성을 보장하기 위해 이 키프레임들만 밀집된 단계별 잡음 제거를 수행하는 반면, 비키프레임은 계산 비용을 최소화하기 위해 점진적으로 잡음 제거 단계를 건너뛴다. 비키프레임의 건너뛴 중간 상태는 키프레임 잡음 제거 단계에서 시간적 일관성을 깨뜨려 시각적 저하를 초래하므로, 우리는 추가로 잠재 궤적 투영 모듈을 도입하여 키프레임이 완전하고 시간적으로 일관된 시퀀스 표현과 상호 작용할 수 있도록 한다. 현재 DiT 기반 비디오 생성 모델에 대한 광범위한 실험을 통해, 우리의 방법이 더 높은 추론 속도와 더 나은 시각적 품질로 기존 기준선을 능가함을 입증한다.
저차원 적응(LoRA)에서 스케일링 인자 α는 종종 학습률에 대한 단순한 보조 수단으로 간주되지만, 최적화에서의 역할은 여전히 제대로 이해되지 않고 있다. 본 논문에서는 스케일링 인자 α와 학습률이 서로 다른 기능을 수행하며, α가 효과적 최적화의 주요 동인으로 부상하여 학습률 스케일링만으로는 복제할 수 없는 이득을 제공한다는 점을 밝힌다. 광범위한 실증 분석과 이론적 신호-드리프트 프레임워크의 시너지를 통해 LoRA의 스케일링 메커니즘에 대한 세 가지 발견을 제시한다. 첫째, LoRA의 스펙트럼 억제는 최적화 지형을 평탄화하여 표준 하이퍼파라미터를 지나치게 보수적으로 만들고 최적화 격차를 발생시킨다. 둘째, 이러한 평탄성을 활용하여 수렴을 가속화할 때 α는 드리프트 비율을 증가시키지 않으면서 작업 신호를 증폭하여 학습률보다 우수한 성능을 보인다. 셋째, 최적 스케일링 인자는 랭크와 서브리니어 관계를 가지며, 예상보다 큰 계수를 가진 제곱근 법칙으로 잘 특성화되어, 기존의 랭크 기반 휴리스틱의 스케일링 부족을 드러낸다. 이러한 통찰을 바탕으로 α를 원칙적 체계로 복원하여 LoRA를 표준적인 작은 학습률과 호환되게 하는 미니멀리스트 프레임워크인 LoRA-α를 제안한다. 다양한 작업에 걸친 광범위한 평가는 LoRA-α가 하이퍼파라미터 탐색을 간소화하면서 일관되게 성능을 향상시켜 LoRA의 학습 잠재력을 극대화함을 보여준다.
활성 조정(activation steering)은 추론 시점에서 언어 모델의 행동을 제어하는 가벼운 접근법을 제공하지만, 성공 여부는 프롬프트, 개념, 모델 및 조정 구성에 크게 의존한다. 성공적인 조정의 영역과 경계를 찾기 위해서는 일반적으로 비용이 많이 드는 그리드 탐색과 전체 자동회귀 롤아웃(autoregressive rollout)에 대한 사후 평가가 필요하다. 본 연구에서는 생성 과정 초기, 예를 들어 처음 몇 개의 토큰을 생성한 후에 모델의 내부 상태로부터 조정 가능성(steerability)을 예측할 수 있는지, 그리고 이러한 예측기를 활용하여 조정 성공률을 향상시키는 방법을 조사한다. 이를 위해 먼저 ASTEER를 소개한다. ASTEER는 150개의 개념에 걸쳐 각각 성공/실패로 레이블링된 140만 개의 조정된 생성문을 포함하는 테스트베드이다. 이 테스트베드를 활용하여, 조정 전후의 은닉 상태를 계층 및 초기 디코딩 단계별로 비교하는 특징을 추출함으로써 모델의 초기 디코딩 동역학을 분석한다. 이러한 특징은 조정 효과가 계층과 토큰 위치를 따라 어떻게 전파되는지 이해하는 데 도움을 주며, 이는 조정 가능성 예측의 핵심 정보를 제공한다. 그런 다음 이러한 특징에 대해 그래디언트 부스팅 결정 트리(GBDT) 분류기를 훈련하여 전체 롤아웃 없이 개입이 과소 조정, 성공, 또는 과대 조정 중 어떤 결과를 초래할지 예측한다. 해당 예측기는 보지 못한 개념에 대해 약 0.7의 매크로 F1 점수를 달성하며, 초기 은닉 상태가 최종 조정 효과에 대한 상당한 구조화된 정보를 인코딩함을 입증한다. 또한 이 조정 가능성 예측기를 조정 강도 탐색의 지침으로 활용하여, 적은 디코딩 비용으로 거의 최적에 가까운 성능을 달성한다.
신뢰할 수 있는 의료 멀티모달 대규모 언어 모델(MLLM)을 구축하는 것은 안정적인 임상 의사 결정 지원에 필수적이다. 기존 의료 할루시네이션 벤치마크는 주로 데이터 수집에 초점을 맞추지만, 추론 과정 내에서 할루시네이션이 어디서 발생하는지는 종종 간과한다. 우리는 할루시네이션 소스가 샘플에 따라 다양하다는 점을 발견했다. 오류는 시각 인식 오류, 부정확한 의학 지식 회상, 또는 결함 있는 추론 통합에서 발생할 수 있다. 소스 수준의 할루시네이션 진단을 가능하게 하기 위해, 우리는 의료 MLLM 추론에서 단계별 할루시네이션 진단을 위한 벤치마크인 ClinHallu를 도입한다. ClinHallu는 7,031개의 검증된 인스턴스를 포함하며, 각 인스턴스는 시각 인식, 지식 회상, 추론 통합으로 분해된 구조화된 추론 트레이스로 보강된다. 또한 특정 단계를 교정했을 때 최종 답변에 미치는 영향을 측정하기 위해 단계 대체 개입을 사용한다. 평가를 넘어, 우리는 추적 감독 미세 조정이 단계별 할루시네이션을 줄인다는 것을 보여준다. ClinHallu는 의료 MLLM에서 추론 실패를 진단하고 완화하기 위한 세분화된 할루시네이션 테스트베드를 제공한다. 이 벤치마크는 https://github.com/alibaba-damo-academy/ClinHallu에서 공개적으로 이용 가능하다.
온라인 그룹 채팅은 명시적으로 언급되는 경우가 드문 지역적 대화 규범을 가진 사회적 공간이다. LLM 기반 에이전트가 이러한 규범을 인식하고 적응할 수 있는 능력과 의지는 대부분 탐구되지 않은 상태로 남아 있다. 우리는 다자간 채팅에서의 지역적 사회 규범 적응을 위한 벤치마크인 LoSoNA를 소개한다. 각 시나리오는 대상 모델에게 비대상 참여자들이 숨겨진 지역적 규범을 보여주는 정리된 그룹 채팅 대화록을 제공하며, 이어서 대상 모델이 해당 규범을 추론했는지 여부를 드러내는 응답을 강제하는 최종 유도 발언이 제시된다. 우리는 여덟 개의 최첨단 및 오픈 가중치 모델을 네 가지 프롬프트 조건(이전 대화를 답변의 근거로 어떻게 처리할지 명시성의 정도가 다른 조건)에서 평가했다. 단순 프롬프팅은 대부분의 모델에서 여전히 제한적이었다. 명시적 규범 인식 프롬프팅은 불균등하게 도움이 되었는데, Gemini 3.1 Pro는 84.2%, Claude Fable 5는 81.6%에 도달한 반면, 다른 여러 모델은 미미한 향상 또는 성능 저하를 보였다. LoSoNA는 모델이 선례에서 지역적 대화 규범을 추론하고 이를 한 턴의 그룹 채팅 응답에 활용할 수 있는지를 테스트함으로써, LLM의 사회적 능력을 평가하자는 최근의 요구에 기여한다.
AI 에이전트는 과학적 발견을 가속화하기 위해 점점 더 많이 개발되고 있지만, 실제 연구 환경에서의 실용적 역량은 여전히 잘 이해되지 않고 있다. AI 에이전트를 위한 기존 벤치마크는 과학 작업에 요구되는 복잡성, 이질성, 확장된 추론 과정을 거의 포착하지 못하는 반면, 과학 작업을 위한 벤치마크는 연구를 정적이고 직접적인 문제로 축소하고 상호작용적 평가를 위한 지원이 제한적이다. 본 논문에서는 여러 분야의 신흥 요구로부터 도출된 실제 과학 연구 시나리오에서 AI 에이전트를 평가하기 위한 체계적인 벤치마크인 SciAgentArena를 소개한다. SciAgentArena는 단계별 검증을 포함한 약 200개의 작업과 다양한 AI 에이전트를 평가하기 위한 상호작용적이고 에이전트에 구애받지 않는 환경으로 구성된다. 이 벤치마크를 사용하여, 현재 에이전트는 특히 작업 구조와 평가 기준이 명확할 때 잘 정의된 데이터 분석 워크플로우에 효과적으로 기여할 수 있음을 발견했다. 그러나 과학적 맥락에 따라 성능은 고르지 않았다: 에이전트는 진정으로 새로운 통찰력을 생성하고, 자기 주도적 탐색을 유지하며, 개방형 연구 질문에 대한 강력한 해결책을 공식화하는 데 어려움을 겪었다. 또한 에이전트 간 공통적인 실패 모드를 특성화하고, 신뢰성, 자율성 및 과학적 추론을 개선할 수 있는 기회를 식별했다. 종합하면, SciAgentArena는 과학을 위한 AI 에이전트의 진전을 측정하고 복잡한 과학적 과제를 해결할 수 있는 미래 에이전트 설계를 안내하는 실용적인 프레임워크를 제공한다. 전체 코드, 작업 및 데이터셋은 다음 링크에서 확인할 수 있다: https://sciagentarena.github.io/.
온-정책 증류(OPD)은 최근 두 가지 바람직한 요소, 즉 온-정책 학생 궤적과 조밀한 교사 지도를 결합함으로써 주목할 만한 사후 학습 방법이 되었으나, 이러한 혼합이 모델의 매개변수를 어떻게 변화시키는지는 여전히 불명확하다. 여러 언어 및 시각-언어 모델 쌍과 사용 사례에 걸친 분석을 통해, 우리는 두 가지 주요 결과를 도출했다. 희소성 측면에서, OPD 스타일의 업데이트는 크기가 작고 좌표적으로 희소하다. 이들은 계층 전반에 분포하며 일반적으로 FFN(피드포워드 네트워크)에 집중된다. 이러한 희소 구조는 운영상 유용하다: 발견된 하위 네트워크만 학습해도 전체 OPD와 거의 동일한 성능을 회복한다. 그러나 희소성을 유도하는 SGD 최적화기는 옵티마이저 절제 실험에서 AdamW보다 성능이 낮았는데, 이는 조밀한 교사 지도가 AdamW의 적응적 스케일링이 여전히 유용한 이질적인 좌표별 기울기 스케일을 보존하기 때문일 가능성이 크다. 기하학 측면에서, 업데이트는 수치적으로 완전한 계수(rank)를 가지지만 스펙트럼적으로 집중되어 있다; 이들은 대부분 원본 가중치의 주요 특이 부분 공간에서 벗어나 있으며, 원본 가중치가 0에 가까운 좌표에 불균형적으로 적용된다. 이러한 발견은 조밀한 교사 지도가 OPD를 일반적인 조밀한 매개변수 재작성으로 전환하지 않는다는 것을 시사한다; 대신 OPD는 온-정책 사후 학습의 중요한 기하학적 특성을 유지한다.
어포던스 추론(Affordance reasoning), 즉 물체의 형태와 재질 같은 물리적 특성으로부터 그 물체가 제공하는 행동 가능성을 추론하는 것은 인간의 물리적 이해에 필수적이며, 대규모 언어 모델(LLM)에게 점점 더 중요해지고 있다. 그러나 기존의 어포던스 벤치마크는 평가 설정에서 객체의 정체성을 명확히 드러내어, 모델이 물리적 특성에 대한 추론보다는 암기된 객체-어포던스 매핑에 의존할 수 있도록 한다. 이러한 격차를 해소하기 위해, 우리는 객체의 정체성을 드러내지 않고 20가지 질문 게임 형식으로 구성된 새로운 어포던스 추론 벤치마크인 Affordance20Q를 소개한다. 각 게임에서 모델은 후보 집합에서 숨겨진 객체의 어포던스를 식별하기 위해 해당 객체의 물리적 특성에 대한 예/아니오 질문을 한다. Affordance20Q는 454개 객체와 59개 어포던스에 걸쳐 1,009개의 게임으로 구성되며, 모두 수동으로 필터링, 정제 및 주석 처리되었다. 최첨단 LLM 15개를 대상으로 포괄적인 실험을 수행한 결과, 인간의 성능과 비교하여 상당한 격차(약 20포인트)를 발견했다. KL 기반 정보 이득(IG) 분석 결과, 게임이 진행됨에 따라 모델이 변별력 있는 질문을 하지 못하는 것으로 나타났다. 이러한 격차를 해소하기 위해, 우리는 지식 베이스(KB)의 증거에 기반한 어포던스 규칙을 생성하는 LLM 기반 파이프라인인 KB 기반 규칙 유도(KB-Anchored Rule Induction, KARI)를 개발했다. KARI는 오픈소스 LLM의 성능을 최대 15.2포인트 향상시키지만, KB의 제한된 범위가 추가적인 성능 향상을 저해한다. 모든 코드와 데이터는 https://github.com/1171-jpg/Affordance20Q.git에서 공개한다.
인간 추론 연구에 따르면, 사람들은 일반적으로 추론을 처음부터 생성하는 것보다 평가하는 데 더 뛰어난 능력을 보인다. 이와 대조적으로, 대규모 추론 모델(LRM)은 복잡한 문제를 해결하기 위해 긴 추론 체인을 생성하는 데 탁월하도록 훈련된다. 그렇다면 LRM은 추론 평가에서 어떤 성능을 보일까? 우리는 VAIR(Valid-Answer-Invalid-Reasoning) 데이터셋을 사용하여 이를 조사한다. 이 데이터셋은 수학 문제와 해결책으로 구성되며, 사소한 추론 결함이 있지만 유효한 답변을 포함하여, 추론 평가를 추론 생성의 혼란 변인으로부터 분리하도록 설계되었다. 우리가 발견한 바에 따르면, 인간은 이러한 문제를 푸는 것보다 채점하는 데 단 6%의 성능 저하만을 보이는 반면, LRM에서는 상당한 생성-평가 격차가 관찰된다. 즉, 최첨단 모델은 VAIR 해결책을 평가할 때 최저 48%의 점수를 기록하는데, 이는 거의 완벽에 가까운 해결책 생성 능력과 대조적이다. 이러한 수수께끼의 원인은 무엇일까? 사고의 흐름(CoT) 분석을 통해 답변 확인 편향의 증거를 발견했다. LRM은 각 단계를 신중히 검증하기보다 정답을 생성한 후 확인하는 경향이 있으며, 비정상적인 추론을 발견하더라도 이를 합리화하는 허위 설명을 만들어낸다. 선형 프로브 분석도 이를 뒷받침하는데, LRM 활성화는 유효한 추론에 대한 일부 표상을 인코딩하지만, VAIR 해결책을 무효로 견고하게 표상하지는 못한다. 최종 답변의 표상에 대한 인과적 패치는 LRM의 판단과 활성화를 역전시키며, 이는 모델의 확인 편향에 답변 유효성이 책임이 있음을 보여준다. 이러한 발견은 지배적인 추론 훈련 접근법의 중요한 한계를 시사한다. 즉, 현재 방식은 LRM이 정답을 향한 추론을 생성하고 확인하도록 장려하지만, 근본적인 추론 자체를 견고하게 평가하도록 훈련하지는 않는다는 점이다.
멀티모달 대규모 언어 모델은 복잡한 프로그램을 생성하는 코드를 작성할 수 있을 뿐만 아니라, 프로그램을 활용하여 3D 모델링을 수행할 수 있으며, 이는 그들의 사전 지식, 세계 지식 및 추론 능력에 기반한 3D 생성의 새로운 경로를 열어줍니다. 그러나 기존 벤치마크는 코드를 통한 3D 모델링을 거의 평가하지 않습니다. 이러한 모델링은 단순히 실행 가능한 코드 이상을 요구합니다. 텍스트나 시각적 명세로부터 모델은 기하학적으로 정밀하고, 의미적으로 정합하며, 조립 일관성을 갖춘 매개변수형 3D 프로그램을 생성해야 합니다. 우리는 매개변수형 3D 생성을 위한 벤치마크인 P3D-Bench를 소개합니다. 3D 메시와 달리, 매개변수형 3D 프로그램은 명시적인 치수, 구성 연산 및 부품 관계를 드러내어, 모델이 디자인의 외형뿐만 아니라 구조를 복원하는지 보여줍니다. 통일된 프로토콜 하에, P3D-Bench는 세 가지 작업군(텍스트-3D, 이미지-3D, 조립-3D)을涵盖하며, 각 출력에 대해 실행 가능성, 기하학적 충실도, 위상, 텍스트 기반 제약 조건, 다중 시점 의미 정합성 및 부품 수준 구조를 평가합니다. 우리는 최첨단 MLLM과 텍스트 전용 LLM을 400개의 텍스트 사례, 400개의 이미지 사례, 203개의 주석이 달린 조립체에 대해 평가하였으며, 도메인 특화 모델을 참조점으로 사용했습니다. 광범위한 평가를 통해 세 가지 결과를 도출했습니다. 첫째, 조립체가 가장 어려운 설정으로, 모델이 여전히 여러 부품을 일관된 구조로 구성하는 데 실패합니다. 둘째, 모델은 종종 대상 객체의 전반적인 형태와 의미적 정체성을 복원할 수 있지만, 입력에 의해 지정된 정밀한 매개변수형 기하학을 재현하는 데는 실패합니다. 셋째, 부품 수준 모델링은 조립체에서 여전히 취약하여, 모델이 각 부품의 기하학적 구조나 적절한 부품 개수를 복원하지 못합니다. 이러한 결과는 P3D-Bench를 매개변수형 3D 생성에서 정밀한 매개변수형 기하학과 부품 수준 구조를 평가하기 위한 벤치마크로 자리매김하게 합니다.
시각-언어-동작(VLA) 모델은 사전 학습된 시각-언어 모델(VLM)을 연속 동작 전문가(continuous action expert)와 결합하여 강력한 조작 성능을 달성했지만, 분포 외(OOD) 언어 명령에 대한 일반화 성능은 여전히 낮다. 알려진 과제 중 하나는 VLA 데이터의 구조적 불균형으로, 언어가 시각 및 동작 콘텐츠보다 훨씬 덜 다양하여 정책이 시각적 지름길(visual shortcuts)에 취약해진다는 점이다. 이산 동작 방법(discrete-action methods)은 시각-언어 공동 학습을 통해 이를 완화하지만, 연속 동작 전문가는 이러한 보호 장치가 부족하다. 즉, 무작위 초기화에서 시작하여 불균형 데이터로부터 전적으로 학습하며, 이로 인해 생성된 노이즈가 많은 그래디언트가 VLM을 손상시키고 언어 능력을 활용하지 못하게 된다. 우리는 이 문제를 베이지안 관점에서 접근하여, 정책을 언어와 무관한 시각-동작(VA) 사전(prior)과 언어 조건부 VLA 가능도(likelihood)로 분해하고, 동작 전문가 사전 학습(Action expert PreTraining)을 강조하는 2단계 훈련 방법인 APT를 제안한다. 1단계에서는 동작 전문가를 고정된 VLM의 시각-동작 쌍을 기반으로 VA 사전으로 사전 학습하여 언어 불균형을 우회한다. 2단계에서는 학습된 시각-운동 사전(visuomotor prior)을 유지하면서 VLM 특징을 통합하는 게이티드 융합 메커니즘(gated fusion mechanism)을 통해 언어 토큰을 주입한다. APT는 π 및 GR00T 스타일 아키텍처를 포함한 주류 VLA 아키텍처에 적용 가능하다. 포괄적인 실험을 통해 APT가 보이지 않는 명령 및 구성적 과제에서 일관된 성능 향상을 달성함을 검증하였다. 프로젝트 페이지: https://xukechun.github.io/papers/APT/
이미지-3D 방법은 종종 충실도와 완전성 사이에서 절충을 보인다. 깊이 추정기는 입력 픽셀에 고정되지만 가시 표면까지만 추정하는 반면, 이미지-3D 모델은 완전한 형태를 생성하지만 입력과 정렬이 잘못되는 경우가 많다. 우리는 World Tracing을 소개한다. 이는 관찰된 픽셀과 정렬된 3D 점을 예측하면서 가시 표면 너머의 기하를 완성하는 생성적 픽셀 정렬 기하 표현이다. 각 입력 픽셀에 대해 World Tracing은 카메라 공간 3D 점의 정렬된 스택을 예측하며, 첫 번째 층은 가시 표면을 나타내고 이후 층들은 가려진 표면과의 전면-후면 교차점을 나타낸다. 우리는 이 표현을 World Tracing 확산 트랜스포머(WT-DiT)로 구체화하며, 이는 여러 기하 층을 분해 및 전역 주의를 통해 결합된 별도의 노이즈 제거 토큰으로 처리한다. WT-DiT는 픽셀 공간 흐름 매칭과 가시 표면 복원과 가려진 기하 생성 간의 균형을 맞추는 혼합 노이즈 스케줄로 훈련된다. World Tracing은 객체, 장면, 동적 벤치마크 전반에서 가시 표면 복원 및 완전한 기하 생성에서 강력한 성능을 달성하며, 깊이 추정기와 이미지-3D 생성기 모두를 능가한다. 또한 2D-3D 대응을 유지하여 텍스트 기반 3D 장면 편집, 기하 조건의 새로운 시점 비디오 합성, 텍스처 메시 생성기와의 훈련 없는 통합을 가능하게 한다.
다중 모달 기반 모델(Multimodal Foundation Models, MFMs)은 상당한 진전을 이루었지만, 물리적 세계에 대한 공간 추론에서는 여전히 취약함을 보인다. 핵심 병목은 자아중심적 관찰을 전역적 타자중심 공간 표현으로 변환하지 못하는 데 있다. 이를 해결하기 위해, 우리는 기반 모델의 타자중심 공간 인지를 위한 에이전트 기반 프레임워크인 AlloSpatial을 제안한다. AlloSpatial은 World2Mind를 도입하는데, 이는 플러그 앤 플레이 방식의 인지 매핑 샌드박스로서 자아중심적 관찰을 구조화된 타자중심 사전 정보로 변환한다. 여기에는 객체 위상, 기하학적 관계, 통과 가능성 및 궤적을 질의할 수 있는 타자중심 공간 트리(Allocentric-Spatial Trees)와 경로 맵이 포함된다. 잡음이 있는 재구성과 모호한 시각적 증거 하에서 이러한 사전 정보를 안정적으로 활용하기 위해, AlloSpatial은 공간 추론 하네스(Spatial Reasoning Harness)를 도입하여 도구 사용 판단, 모달리티 분리 단서 수집, 기하-의미 조정을 수행한다. 우리는 이 과정을 Qwen3-VL에 콜드 스타트 강화 학습과 하네스 게이트 궤적 수준 보상을 통해 내재화한다. VSI-Bench와 MindCube 실험 결과, AlloSpatial은 훈련 없이도 독점 모델의 성능을 5%~18% 향상시켰으며, AST 만으로도 시각 입력이 제거된 상태에서 강력한 공간 추론을 지원했다. 훈련된 AlloSpatial 에이전트는 더 큰 범용 모델과 경쟁력 있는 공간 기준 모델을 능가하여, 구조화된 타자중심 표현, 능동적 도구 사용, 검증 가능한 추론이 공간 능력을 갖춘 기반 모델로 가는 유망한 경로임을 시사한다.
우리는 확률적 미니맥스 트리에서의 고정 신뢰도 최적 행동 식별(BAI) 문제를 연구한다. 이 문제는 현대 AI 계획 수립에서 점점 더 중요해지고 있으며, 심층 미니맥스 탐색과 언어 모델을 활용한 긴 롤아웃을 포함한 몬테카를로 트리 탐색(MCTS)은 근본적인 트레이드오프에 직면해 있다: 휴리스틱 평가는 저렴하지만 편향된 반면, 정확한 롤아웃은 신뢰할 수 있지만 비용이 엄청나게 많이 든다. 우리는 다중 충실도 플랫 밴딧 아이디어를 트리로 확장하는 이중 충실도 트리 탐색 알고리즘인 2FFS를 제안한다. 이 알고리즘은 미니맥스 스타일의 빠른 확장과 MCTS 스타일의 확률적 샘플링을 결합하여, 저렴한 편향 평가를 활용할 시점과 국소적 인증을 위해 비용이 많이 드는 정확한 평가를 호출할 시점을 적응적으로 결정한다. 우리는 고정 신뢰도 정확성을 증명하고, 정확한 식별을 위한 유한 정지 조건을 확립하며, 일반 깊이 트리에 대한 다항식 깊이 비용 상한을 제시한다. 다양한 수치적 확률적 트리 실험에서 2FFS는 기존 BAI-MCTS 기준선에 비해 현저히 적은 샘플과 계산 연산을 사용한다.
토큰 수준 환각 탐지기는 모든 토큰에 대한 AUC를 통해 분류기로 평가되지만, 스트리밍 모니터는 환각 발생부터 경보까지 경과하는 토큰 수인 반응 시간으로 판단된다. 본 연구는 환각 발생 탐지를 최단 변화 감지 문제로 정식화한다. RAGTruth에서 검증된 잠재적 충실/환각 상태의 1차 마르코프 모델은 이 작업을 고전적 변화점 이론의 범주에 위치시키며, 오경보율 0.01에서 약 1.3 토큰의 Lorden 하한을 도출한다. 이후 인과적 순환 레이블러가 학습된 증분을 갖는 CUSUM으로 작동함을 보인다. 일치된 오경보율에서 이는 11-13 토큰 내에 탐지하는 반면, 선형 토큰별 기준선은 31 토큰이 소요되며, 통제된 분해를 통해 이 이점의 대부분이 시간적 축적보다는 더 나은 토큰별 점수에 기인함을 확인한다. Donsker-Varadhan 유형의 정보율 최적성 정리는 나머지 규모 차이를 설명한다. 학습된 점수는 특징이 전달하는 발산의 1/4.5만을 실현하며, 이 결손은 재보정으로 제거할 수 없고, 나머지는 유한 수평선 효과에 해당한다. 분류 지표는 이러한 지연 구조를 은폐하지만, 순차 분석은 이를 측정 가능하게 만든다.
우리는 실제 소프트웨어 형식 검증 과제에서 AI 모델과 에이전트를 평가하기 위한 벤치마크를 제시한다. 먼저 실제 파이썬 저장소에서 11,039개의 속성 기반 테스트(PBT)를 수집한 후, 이 중 2,772개(25%)를 자동으로 9,415개의 Lean 4 명세로 변환하며, 이때 sorry 플레이스홀더를 포함시킨다(PBT당 약 3개의 형식화; 품질 지표에서 우위를 점하는 방식이 없을 경우 여러 시도를 유지한다). PBT를 Lean 명세로 변환하는 것은 까다롭다. Lean에서 파이썬 의미론을 모델링하고, 명령형 PBT에 인코딩된 논리적 속성을 추론하며, 드물게 사용되는 언어에서 의존 타입 프로그래밍의 고유한 어려움을 처리해야 하기 때문이다. 우리는 PBT를 Lean 명세로 트랜스파일링하기 위한 세 에이전트 LLM 파이프라인을 설명하고, 커버리지와 품질 지표를 평가하며, 여러 자동화 및 모델 기반 접근법을 사용한 증명 생성을 위한 기준선을 제공한다. 모든 코드(스크레이퍼 및 에이전트)와 데이터(PBT 및 Lean 명세)는 오픈 소스로 공개된다. 우리의 벤치마크는 점점 더 많은 코드를 AI가 생성하는 세상에서 중요성이 커지고 있는, 실세계 소프트웨어의 AI 보조 형식 검증이라는 충분히 탐구되지 않은 문제의 발전을 촉진하는 것을 목표로 한다.
자기중심적 인간 비디오는 로봇 데이터에 대한 확장 가능한 대안을 사전 학습에 제공하지만, 이러한 비디오로 사전 학습된 모델은 로봇 데이터로 사전 학습된 모델에 비해 일관되게 성능이 떨어진다. 우리는 이러한 격차를 누락된 신호, 즉 자기중심적 비디오에서 인간이 조작 중 지속적으로 시점을 재조정하여 표준 파이프라인이 노이즈로 처리하는 카메라 움직임을 유발하는 능동적 지각 행동 때문이라고 본다. 이를 해결하기 위해, 우리는 단일 신체 부착 RGB 카메라에서 동기화된 카메라 및 손목 궤적을 복구하고, 카메라 움직임을 시점 행동으로 모델링하며, 실제 환경의 자기중심적 인간 비디오로부터 능동적 지각과 조작을 공동으로 학습한 후 목표 로봇에 적용하는 사전 학습 프레임워크인 ActiveMimic을 제시한다. 실증적으로, 다양한 능동적 지각 요구를 가진 작업에 걸친 실제 실험에서 ActiveMimic은 인간 비디오로 사전 학습된 기준선을 일관되게 능가하고, 로봇 데이터로 사전 학습된 최신 모델과 일치하는 성능을 보인다. 추가 분석은 능동적 지각 능력이 로봇 특화 미세 조정이 아닌 자기중심적 인간 비디오 사전 학습에서 비롯됨을 입증하며, 능동적 지각이 로봇 사전 학습을 위한 자기중심적 인간 비디오의 활용을 가능하게 하는 핵심 요소임을 확인한다.
상호작용 주행은 규칙 기반 자율주행 스택에서 간과하기 쉬운 실패 모드를 드러낸다. 우선순위가 없는 에이전트의 작은 합법적 양보가 실현 가능성을 회복할 수 있음에도 불구하고, 자아 후보에 대한 엄격한 규칙 마진이 음수일 수 있다. 기존의 규칙집, 방어막, 도달 가능성 필터는 안전하지 않은 행동을 거부하는 데 강력한 반면, 예측 기반 계획자는 가능한 반응을 모델링한다. 어느 쪽도 기동을 수정하는 경계적 다중 에이전트 편집이 무엇인지, 편집의 소유자가 누구인지, 요청이 통행권을 감당할 수 있는지, 요청이 준수되지 않을 때 어떤 자아 대비책이 남아 있는지를 명시하는 런타임 증명 객체를 반환하지 않는다. 우리는 이 누락된 객체를 *상호작용 수리 인증*으로 정식화하고, 자아 소유 및 에이전트 소유 전술 연산자의 유한 격자 위에 예측이 필요 없는 인증 계층인 *CARVE*를 소개한다. 에이전트 소유 요청은 \(B_j(s) = β(π_j)α_j^{\max}(s)\) 내에서만 허용 가능하며, 이는 운동학적 도달 가능성과 규범적 우선권을 분리하는 협력 범위이다. 결과적으로 생성된 인증서는 바인딩 규칙, 수리 범주, 수리 집합, 책임 가중 비용 분할 및 대비책을 기록한다. 589개의 Lanelet2 기하 기반 INTERACTION 재생 에피소드에서 CARVE-Greedy는 초기에 거부된 기동의 98.64%를 수용하고, 인간이 해결한 378건의 거짓 거부 중 370건을 복구하며, 589/589의 통행권 존중, 우선 에이전트에 대한 거짓 양성 0건, 400/400의 부정적 스트레스 거부를 유지한다. 우리는 인증서의 건전성, 구조적 통행권 존중, 정확한 유한 격자 최소성, 대비책 비상 상황 및 책임 일관성 조건을 증명한다. CARVE는 다른 운전자의 준수를 예측하거나 요구하지 않는다. 제안된 상호작용이 선언된 가정 하에 경계적이고, 귀인 가능하며, 규범적으로 허용 가능한지를 인증한다.
대규모 추론 모델은 일반적으로 읽기-생각하기 패러다임을 따릅니다. 즉, 완전한 입력을 관찰하고 정적 맥락에서 추론한 후 답을 생성합니다. 그러나 오디오 및 비디오 스트림과 같은 많은 실제 시나리오는 본질적으로 동적이며, 정보가 연속적인 흐름으로 도착하고 모델이 부분적인 관찰 하에서 추론, 업데이트 및 응답해야 합니다. 최근 스트리밍 추론 방법은 모델이 읽으면서 생각할 수 있게 하지만, 사전 구축된 궤적에 대한 지도 모방에 크게 의존하여 유연성이 제한됩니다. 본 논문에서는 입력 스트리밍 중에 추론하고 스트림이 완료되면 최종 숙고를 수행하며, 언제 생각할지와 각 단계에 얼마나 많은 계산을 할당할지를 학습하는 적응형 스트리밍 추론 프레임워크인 AdaSR을 제안합니다. 이 계층적 추론 과정을 최적화하기 위해 HRPO(계층적 상대 정책 최적화)를 도입합니다. 이는 정책 최적화를 스트리밍 추론 단계와 심층 추론 단계로 분해하여, 단일 시퀀스 수준의 이점을 모든 토큰에 균일하게 분배하는 대신 더 세분화된 이점 할당을 제공합니다. HRPO는 형식, 정확성 및 적응형 사고 보상을 통합하여 유효한 추론 프로토콜을 강제하고, 최종 작업 성능을 유지하며, 지연 시간을 고려한 계산 할당을 장려합니다. 실험 결과, AdaSR이 지도 미세 조정 기준선과 비교하여 추론 정확도, 계산 효율성 및 스트리밍 지연 시간 사이에서 더 나은 균형을 달성함을 보여줍니다. 코드는 https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR에서 공개합니다.
비정형 가지치기는 희소 가중치 텐서를 생성하지만, 표준 구현은 텐서 형태를 그대로 유지하므로 배포된 모델은 가지치기 전보다 작아지지 않는다. 본 연구에서는 최소화(minimization)라고 명명한 정확한 구조적 재작성을 제시하는데, 이는 마스킹된 네트워크를 부동소수점 반올림 오차를 제외하고 동일한 순방향 함수를 갖는 더 작은 밀집 네트워크로 변환한다. Squeeze-Release 주기는 가지치기와 최소화를 반복하되, 중간에 해제(release) 단계를 추가하여 압축된 텐서 내의 정확한 영점 위치를 작은 교정 잡음으로 다시 활성화함으로써, 그렇지 않으면 낭비될 용량을 다시 훈련 가능한 파라미터로 전환한다. 연속적인 주기는 이 용량을 활용하여 단일 패스로는 발견할 수 없는 구조적 중복성을 찾아낸다. 또한, CompensatedLayerNorm을 도입하는데, 이는 LayerNorm을 대체하는 함수 보존적 변환으로, LayerNorm이 장착된 잔차 스트림에서의 채널 축소를 최소화로 확장한다. Squeeze-Release는 완전 연결 모델 네트워크에서 가지치기 전 모델보다 39배, 최신 CNN(ConvNeXt-Tiny)에서는 14.8배 더 작은 배포 가능 네트워크로 압축하며, 비슷한 정확도를 유지한다. 추가로, 이 재작성이 트랜스포머 아키텍처로 확장 가능함을 증명한다.
크고 인구통계학적으로 균형 잡힌 데이터셋은 신뢰할 수 있는 신경영상 바이오마커에 필수적이다. 전체 해상도의 3D 뇌 MRI 합성은 이러한 환경에서 데이터 증강을 지원할 수 있지만, 기존 접근법은 체적 규모에서 엄청난 계산 비용을 초래하거나 해부학적 세부 구조를 손상시킬 수 있는 손실 잠재 압축에 의존한다. 결과적으로 실용적인 3D 생성적 증강은 종종 특수한 계산 인프라를 필요로 한다. 본 연구는 3D 하르 이산 웨이블릿 변환의 계수 공간에서 작동하는 조건부 흐름 매칭 프레임워크인 WaveDiT를 제안한다. 이 모델은 분해된 공간-깊이 주의 메커니즘과 고차 웨이블릿 통계량에서 도출된 대역별 이분산 불확실성 모델링을 결합한다. 예측된 로그 분산은 흐름 목적 함수와 조건화 경로 모두에 직접 통합되어, 해부학적 세부 구조의 두꺼운 꼬리와 입력 의존적 분산 구조에 부합하는 적응형 정밀도를 가능하게 한다. 이러한 공식은 단일 최신 GPU 상에서 실용적인 메모리 및 시간 제약 하에서도 전체 해상도의 3D 합성을 지원한다. 다중 기관 코호트에 대한 평가 결과, 확산, 잠재, 웨이블릿 기반 기준 모델 대비 생성된 MRI와 실제 MRI 분포 간의 정합성 향상과 함께 하류 작업인 뇌 연령 예측 및 영역 수준의 해부학적 일치도 개선이 입증되었다. 코드는 https://github.com/sisinflab/WaveDiT에서 확인할 수 있다.
PRECISE는 예측 기반 추론(Prediction-Powered Inference)을 확장하여, 적은 수의 인간 레이블 세트와 대규모 LLM 판단 세트를 결합함으로써 순위 평가 지표에 대한 편향 보정 추정치를 생성합니다. PPI는 LLM 판단기의 오류 프로파일과 무관하게 증명 가능한 불편향성을 제공합니다. 이를 Precision@K와 같은 계층적 지표에 적용 가능하게 만들기 위해, 주석이 문서별로 이루어지지만 지표는 질의별로 산출되는 점을 고려하여 출력 공간 계산을 O(2^|C|)에서 O(2^K)로 축소했습니다. ESCI 벤치마크에서 Claude 3 Sonnet 판단으로 30개의 인간 주석을 보강한 결과, Precision@4 추정치의 표준 오차가 4.45에서 3.50으로 감소(21% 상대적 감소)했습니다. 운영 시스템에서 본 프레임워크는 100개의 인간 레이블과 2시간의 도메인 전문가 주석을 바탕으로 세 가지 시스템 변형 중 최적을 정확히 식별했으며, A/B 테스트는 일일 매출 +407bps로 이 순위를 확인했습니다.