번역이 포함된 일일 선별된 AI 연구 논문
강화 학습은 대규모 언어 모델을 인간의 의도 및 작업 요구사항에 맞추기 위한 표준 패러다임이 되었다. 그룹 상대 정책 최적화는 근접 정책 최적화에 대한 효율적이고 가치 모델이 없는 대안을 제공하지만, 이를 실제 다중 보상 환경에 적용하는 것은 여전히 어려운 과제이다. 표준 스칼라화 방법인 보상 결합과 이점 결합은 심각한 단점을 가진다: 보상 결합은 훈련 불안정을 초래하는 과도하게 큰 제곱 크기의 이점을 자주 생성하는 반면, 이점 결합은 정적 하이퍼파라미터에 의존하고 목표 간 상관관계를 무시한다. 이러한 한계를 해결하기 위해, 우리는 동적 분산 적응 이점 최적화(DVAO)를 제안한다. 이 방법은 롤아웃 그룹 내 각 목표의 경험적 보상 분산에 기반하여 결합 가중치를 동적으로 조정하며, 학습 신호가 강한 목표는 가중치를 높이고 잡음이 많은 목표는 억제한다. 우리는 DVAO가 안정적인 훈련을 위해 유계된 이점 크기를 유지하고 자체 적응형 교차 목표 정규화 메커니즘을 도입함을 수학적으로 증명한다. Qwen3 및 Qwen2.5 모델을 사용한 수학적 추론 및 도구 사용 벤치마크에 대한 광범위한 실험은 DVAO가 기준 방법보다 현저히 우수한 성능을 보여, 우수한 다중 목표 파레토 경계선과 강건한 훈련 안정성을 달성함을 입증한다.
인터랙티브 월드 모델은 빠르게 발전하고 있지만, 기존 벤치마크는 요구되는 역량의 일부만을 다루고 있어 체계적인 평가를 위한 통일된 기준이 부재한 상황이다. 이러한 격차를 해소하기 위해, 우리는 WBench를 소개한다. WBench는 비디오 품질, 설정 준수, 상호작용 준수, 일관성, 물리 법칙 준수의 다섯 가지 차원에 걸쳐 인터랙티브 월드 모델을 평가하기 위한 포괄적인 멀티턴 벤치마크다. WBench는 289개의 테스트 케이스와 1,058개의 상호작용 턴을 포함하며, 각 케이스는 다양한 장면, 스타일, 주제, 1인칭 및 3인칭 시점, 그리고 네 가지 상호작용 유형(이동, 주체 행동, 이벤트 편집, 시점 전환)을 아우르는 월드 설정과 멀티턴 상호작용 시퀀스를 명시한다. 이동의 경우, WBench는 텍스트, 6자유도 자세, 이산 행동 제어를 통합하여 서로 다른 기본 입력 인터페이스를 가진 모델의 평가를 가능하게 한다. 평가는 전문 시각 모델과 대규모 멀티모달 모델을 결합한 22개의 자동 하위 지표를 사용하며, 모든 지표는 인간 판단에 대해 검증되었다. 20개의 최첨단 모델에 대한 평가 결과, 모든 차원에서 강력한 성능을 보이는 단일 모델은 없음을 발견했다. 우리는 각 모델의 특징적인 강점, 약점 및 미해결 과제에 대한 상세한 진단적 통찰을 제공한다. 코드와 데이터는 https://github.com/meituan-longcat/WBench 에서 확인할 수 있다.
개인 에이전트가 복잡하고 사용자 중심적인 작업을 처리하도록 진화함에 따라, 정적 일반 텍스트 채팅이 급속히 병목 현상으로 작용하고 있다. 생성형 UI가 필요한 새로운 인터페이스 계층으로 부상하며, 상호작용 맥락으로부터 적절한 컨트롤, 옵션 및 상태를 실시간으로 동적으로 합성한다. 본 논문에서는 개인 에이전트를 위한 생성형 UI 모델인 Macaron-A2UI를 제시한다. 목표는 에이전트가 정보 수집, 선호도 정제, 확인 및 다중 목표 조직을 위한 가볍고 실행 가능한 UI 동작과 함께 자연어를 생성할 수 있도록 함으로써 텍스트 전용 상호작용을 넘어서는 것이다. 다양한 이종 대화 소스로부터 대규모 생성형 UI 코퍼스를 구축하고, 통제된 평가를 위한 A2UI-Bench를 도입하며, 파라미터 효율적인 LoRA 기반 지도 미세 조정 후 보상 기반 강화 학습을 통해 30B, 235B 및 754B 모델을 훈련한다. 최고 성능의 Macaron-A2UI 모델은 명시적 스키마 힌트 없이 A2UI-Bench에서 전체 75.6점을 달성하여, 가장 강력한 전체 스키마 최첨단 기준선을 능가한다. 본 연구팀은 모델, 벤치마크 및 평가 프로토콜을 공개하여 개인 에이전트를 위한 생성형 UI 관련 후속 연구를 지원한다.
자율 에이전트는 도구에서 사회적 인프라의 계층으로 진화하고 있다. 이들은 소프트웨어를 탐색, 구매, 배포하고 시스템을 관리하며 점차 서로 상호작용한다. 이러한 시스템이 확장됨에 따라 병목 현상은 원시 모델의 성능에서 조정(coordination)으로 이동한다. 에이전트는 신뢰할 수 있는 관계를 형성하고, 다중 에이전트 작업을 조직하며, 가치를 교환하고, AI 경제를 지원하며, 실제 환경의 감독 하에 안전하고 책임 있는 상태를 유지해야 한다. 본 논문은 떠오르는 인간-AI 사회를 위한 그래프 우선 조정 계층인 파운데이션 프로토콜(FP)을 소개한다. FP는 에이전트, 도구, 자원, 인간, 제도, 조직을 포함한 이기종 개체들을 통합하며, 기본적인 다자 조직 및 이벤트 기반 협업을 지원한다. 또한 계량, 영수증, 정산을 위한 경제적 기본 요소를 제공하며, 정책, 출처, 감사를 일급 관심사로 취급한다. FP는 기존 프로토콜을 대체하기보다 감싸고 연결하도록 설계되어, 통합 및 거버넌스 오버헤드를 줄이면서 점진적 도입을 가능하게 한다. 목표는 자율적 행위 주체성을 구성 가능하게 유지하는 동시에 책임성을 양보 불가능한 조건으로 남겨, 조정 자체가 개방적이고 다원적이며 통치 가능한 인간-AI 사회를 위한 공유 인프라가 될 수 있도록 하는 것이다.
스파스 뷰 3차원 재구성은 이미지로부터 직접 명시적 프리미티브를 예측하는 피드포워드 스플래팅 네트워크를 통해 점점 더 많이 다루어지고 있다. 그러나 대부분의 기존 방법은 가우시안 프리미티브에 초점을 맞추고 표면을 간접적으로만 노출시킨다. 즉, 다운스트림 시뮬레이션, 물리 추론 또는 체화된 상호작용을 위해 사용 가능한 메시를 추출하려면 여전히 피드포워드의 장점을 무효화하는 비용이 많이 드는 후처리 단계가 필요하다. 이러한 한계는 장면 구조와 카메라 파라미터를 희소 관측치로부터 공동으로 추정해야 하는 포즈 미지정 설정에서 특히 두드러진다. 본 논문은 방향성 삼각형 프리미티브로 장면을 표현하고 단일 순방향 패스로 시뮬레이션 준비가 완료된 메시 장면을 직접 내보내는 피드포워드 재구성 네트워크인 TriSplat을 제시한다. 입력 이미지가 주어지면 네트워크는 로컬 3D 포인트 맵, 삼각형 속성, 카메라 포즈 및 선택적 내부 파라미터를 예측한다. 삼각형 방향을 제약 없는 잠재 변수로 회귀하는 대신, 본 접근법은 예측된 포인트 맵으로부터 기하 법선을 구성하고, 이미지 조건부 법선 헤드로 이를 정제한 후, 삼각형 파라미터화를 위한 안정적인 로컬 프레임으로 변환한다. 단일 법선 부트스트랩 스케줄은 초기 훈련을 더욱 안정화시키고, 불투명도 및 블러 스케줄링은 직접 메시 추출을 위해 학습된 표면 표현을 점진적으로 선명하게 만든다. RealEstate10K 및 DL3DV 데이터셋에 대한 실험은 이 표현이 가우시안 피드포워드 기준선보다 기하학적으로 더 충실한 재구성을 생성하면서도 경쟁력 있는 새로운 시점 렌더링 품질을 유지함을 보여준다. 렌더링 프리미티브 자체가 표면 삼각형이므로, 출력은 변환 없이 물리 엔진, 충돌 감지기 및 표준 렌더링 파이프라인에 직접 입력될 수 있어 피드포워드 3D 장면 재구성을 위한 실용적인 시뮬레이션 준비 솔루션이 된다.
다중 모달 모델링은 모달리티 무관 추론에서 세계 모델링으로 나아가는 중요한 단계를 나타낸다. 초기 접근법은 주로 인코더와 출력 헤드를 갖춘 고정된 언어 백본을 조합하는 후기 융합에 의존했지만, 최근 연구들은 우수한 다중 모달 성능을 위해 모달리티의 본질적 통합을 통한 본질적 다중 모달 모델링(NMM)으로 패러다임을 전환하고 있다. 이러한 잠재력에도 불구하고, 본질적 아키텍처의 설계 공간은 여전히 충분히 정의되지 않은 상태이다. 본 논문에서 우리는 이 전환을 위한 공식화된 로드맵을 학계에 제시한다. 구체적으로, 우리는 아키텍처 본질성을 공식적으로 정의하여 중간 융합 및 초기 융합을 비본질적 패러다임과 구분한다. 또한 기존의 본질적 모델들을 입력-출력 이중성의 관점에서 세 가지 범주로 체계화한다: (i) 교차 모달 이해를 위한 다중-텍스트(텍스트 전용 출력), (ii) 시나리오 지향 생성을 위한 다중-목표(예: 이미지, 오디오 및 비디오 생성), (iii) 대칭적 입력-출력을 통한 통합 모델링을 위한 다중-다중. 우리는 이해와 생성이 통합 트랜스포머 패러다임 내에서 원활하게 공존하는 최종적 NMM 프레임워크로의 전환에 대한 포괄적이고 산업 수준의 조사를 제공한다. 아키텍처 조정, 대규모 데이터 큐레이션, 전체 스택 학습 레시피, 추론 및 배포, 그리고 진정한 본질적 모델링을 위한 포괄적 평가에 이르기까지 산업적 관점에서 종단간 파이프라인을 체계적으로 분석한다.
강화학습(RL)을 통해 대규모 멀티모달 모델(LMM)이 기본적으로 비디오 처리 도구(예: 크롭)를 호출하도록 훈련하는 방식은 장시간 비디오 이해를 위한 유망한 경로가 되었다. 그러나 기존의 순수 RL 방식은 도구 호출을 순차적으로(즉, 한 턴에 하나씩) 처리한다. 이때 단일 크롭 오류는 동료 교정 없이 오류를 전파하고, 다중 턴 도구 호출은 컨텍스트를 오염시키며, 추론 비용은 턴 수에 비례하여 증가한다. 우리는 ParaVT를 제안한다. 이는 병렬 비디오 도구 호출을 위한 최초의 다중 에이전트 종단간 RL 훈련 프레임워크로, 단일 턴에 여러 시간 윈도우 크롭을 동시에 호출하여 더 깔끔한 컨텍스트와 더 나은 오류 허용성을 제공한다. 그러나 표준 RL을 ParaVT에 적용하면 '도구 사전 지식 역설(Tool Prior Paradox)'이라는 장애물이 드러난다. 이는 도구 탐색을 가능하게 하는 사전 훈련된 도구 사전 지식이 콜드 스타트된 구조적 형식을 불안정하게 만들고, 온도 샘플링 하에서 도구 생략 보상 지름길을 노출시키는 현상이다. 사전 지식이 약한 LMM에서의 교차 모델 대비 실험은 이러한 주장을 뒷받침한다. 형식은 안정적으로 유지되지만 RL이 도구 호출을 전혀 유도하지 못하며, 이는 사전 지식 강도가 형식 붕괴와 도구 탐색 모두의 공통 원인임을 시사한다. 우리는 PARA-GRPO(Parseability-Anchored and Ratio-gAted GRPO)를 제안한다. 이는 표준 RL에 두 가지 상호 보완적 메커니즘을 추가한다: (i) 붕괴에 가장 취약한 구조적 토큰 위치에만 적용되는 타겟 형식 보상, (ii) 프롬프트별 프레임 예산 무작위화로, 도구 호출 시 생략 대비 측정 가능한 보상 신호를 생성하는 훈련 프롬프트를 만든다. 6개의 장시간 비디오 이해 벤치마크에서 ParaVT는 Qwen3-VL 기준선 대비 평균 +7.9% 성능 향상을 보였으며, PARA-GRPO는 훈련 중 형식 준수율을 0.13에서 0.64로 끌어올렸다. 현대 LMM에서 도구 기능이 점점 내재화됨에 따라 RL은 결과적 사전 지식과 협력해야 하며, ParaVT는 에이전트 RL을 위한 일반적인 레시피를 제공한다. 코드, 데이터 및 모델 가중치는 공개적으로 이용 가능하다.
심층 연구 에이전트는 검색 엔진의 역할을 키워드 일치 페이지 검색에서 지식 종합으로 확장하여, 인간이 정보와 상호작용하는 방식을 근본적으로 변화시킵니다. 그러나 최첨단 시스템은 여전히 독점적이며, 기존 오픈 에이전트는 다양한 작업 유형에서 일반화 성능이 낮은 경우가 많아, 광범위한 능력을 갖춘 심층 연구 에이전트를 학습하는 방법이 불분명한 상태입니다. 우리는 QUEST를 공개합니다. QUEST는 2B에서 35B까지 다양한 크기의 오픈 모델 제품군으로, 다양한 장기 검색 작업을 처리하도록 설계된 범용 심층 연구 에이전트로서, 사실 탐색, 인용 근거 확인, 보고서 종합에서 강력한 능력을 발휘합니다. QUEST를 구축하기 위해, 우리는 중간 학습(mid-training), 지도 미세 조정, 강화 학습을 결합한 효과적인 학습 레시피를 제안합니다. 이 레시피의 핵심은 통합 루브릭 트리(unified rubric trees)에 기반한 큐레이션된 데이터 합성 파이프라인으로, 이는 다양한 작업 유형에 적용 가능하며 사람의 주석 없이 검증 가능한 보상이 있는 학습 데이터를 합성할 수 있게 합니다. 또한 QUEST는 효과적인 장기 추론과 지식 종합을 가능하게 하는 내장 컨텍스트 관리 메커니즘을 통합하고 있습니다. 단 8K 개의 합성 작업만을 사용하여, QUEST는 다양한 작업 유형을 포괄하는 8개의 심층 연구 벤치마크에서 최첨단 폐쇄형 소스 에이전트에 근접하거나 심지어 능가하며, 최근 공개 가중치 에이전트 중 최고의 전반적 성능을 달성합니다. 우리는 모델, 데이터, 학습 스크립트 등 모든 것을 공개했습니다.
효율적인 어텐션 알고리즘은 긴 컨텍스트 작업에서 어텐션의 이차 비용을 완화하는 데 중요하다. 기존 연구는 블랙웰 GPU에서 블록 스케일 양자화 기법을 활용하여 어텐션 연산을 4비트 정밀도로 이동시켜 추론을 가속화했다. 그러나 이러한 기법은 긴 컨텍스트 설정에서 상당한 품질 저하를 초래한다. 우리는 양자화 오류의 출력 영향이 매우 비균일하며 각 쿼리-키 상호작용의 중요도에 따라 증가하여, 가장 중요한 토큰을 포함하는 소수의 어텐션 블록에 기능적으로 관련된 오류가 집중됨을 보여준다. 우리는 FP4 추론 효율성에 가까운 FP16 수준의 긴 컨텍스트 품질을 제공하는 저비트 어텐션 변형인 ThriftAttention을 제안한다. 이 접근법은 두 단계로 진행된다. 첫째, 휴리스틱이 FP16 정밀도를 위한 소수의 중요한 쿼리-키 블록 쌍을 신속하게 선택한다. 둘째, 선택된 블록은 FP16으로 계산되고 나머지 블록은 FP4로 계산되며, 두 경로 모두 온라인 소프트맥스를 통해 단일 출력으로 병합된다. 우리는 긴 컨텍스트 벤치마크와 모델 제품군에 걸쳐 쿼리-키 블록의 5%만 FP16으로 계산함으로써 ThriftAttention이 FP4 대 FP16 성능 격차의 평균 89.1%를 회복함을 입증한다. 또한 ThriftAttention의 이점이 시퀀스 길이에 따라 증가하여 긴 컨텍스트에서 관찰되는 체계적인 FP4 품질 저하를 완화함을 보여준다. 코드는 https://github.com/joesharratt1229/ThriftAttention에서 확인할 수 있다.
AI 시스템이 고립된 지원을 넘어 문헌 기반 설정, 가설 생성, 실험, 검증, 보고 및 수정에 이르는 장기 워크플로우를 포괄함으로써 과학 연구의 형태를 재편하고 있다. 이러한 변화는 과학을 위한 작업 수준의 AI에서 워크플로우 수준의 연구 자동화로의 전환을 의미한다. 그러나 현재의 시스템은 자율성, 도메인 범위, 실행 환경, 검증 메커니즘 및 인간의 감독 측면에서 차이를 보이며 여전히 파편화되어 있고, 증거 보존, 재현성, 약방향 거부, 출처 추적, 교차 도메인 견고성 및 책임 있는 과학적 종결에 어려움을 겪고 있다. 본 조사는 AI 기반 과학 워크플로우 자동화의 발전 스펙트럼으로 정의되는 AutoResearch를 통해 이러한 발전을 검토한다. 그 안에서 Vibe Research는 프롬프트 기반 지원과 인간 검증 실행의 인간 주도 영역을 나타내는 반면, 신흥 AI 주도 시스템은 발견 루프의 더 큰 부분을 조정하지만 강력한 자율성을 달성하지는 못한다. 우리는 연구 시스템이 워크플로우 전반에 걸쳐 제어, 증거, 실행, 검증 및 책임성을 어떻게 재분배하는지 분석하고, 다섯 가지 워크플로우 조건(문헌 및 연구 기반 설정, 가설 형성 및 계획, 실험 및 도구 사용, 피드백·검증·리뷰, 보고 및 지식 전달)을 중심으로 해당 분야를 정리한다. 또한 AI 과학자 시스템, 혼합 주체 공동 연구 프레임워크, 벤치마크, 도메인 배포 및 오픈소스 인프라를 종합한다. 마지막으로, 우리는 다섯 가지 평가 차원(참신성, 타당성, 영향, 신뢰성, 출처)을 제안하고, AutoResearch의 자율성은 도메인 조건에 따라 달라져 구조화되고 실행 가능하며 신속하게 검증 가능한 환경에서는 더 신뢰할 수 있지만, 구현된, 지연된, 이질적이거나 윤리적·제도적 책임이 요구되는 맥락에서는 제한적임을 보여준다.
다중 모달 검색은 주로 단일 벡터 검색기에 의존하는데, 이는 풍부한 순차적 토큰 시퀀스를 하나의 단일 전역 표현으로 압축한다. 효율적이기는 하지만, 밀집 검색 작업에 중요한 세부적인 지역 증거를 버리게 된다. 이러한 문제를 해결하기 위해 다중 벡터 접근 방식이 도입되었지만, 이는 엄격하게 학습을 필요로 하며, 많은 경우 전역 요약 표현의 필요성을 무시한다. 이에 대응하여, 우리는 표준 단일 벡터 모델의 잠재된 다중 벡터 능력을 활성화하는 프레임워크인 SMART를 제안한다. 먼저, 풀링 임베딩에 대한 표준 대조 학습이 그래디언트 흐름을 통해 이전 은닉 상태의 검색 기하 구조를 암묵적으로 형성함을 보여준다. 추론 중에 이러한 고정된 은닉 상태에 직접적인 늦은 상호작용을 적용함으로써 SMART는 플러그 앤 플레이 업그레이드 역할을 하여 다양한 모달리티에서 일관된 성능 향상을 제공하며, MMEB-V2에서 최첨단 모델까지도 더욱 개선한다. 또한, SMART의 우수한 성능을 밝히는데, 간단한 경량 사후 학습은 시간과 계산을 절약할 뿐만 아니라 시각 문서 검색에서 추가적인 개선을 가져와 단일 벡터 모델이 최첨단 다중 벡터 대응 모델을 능가할 수 있게 한다. 궁극적으로 SMART는 다중 모달 검색을 위한 매우 효율적인 추론 향상 기법이자 강력한 미세 조정 기법을 동시에 제공한다. 우리는 코드와 가중치를 https://github.com/HanSolo9682/SMART에서 오픈소스로 공개한다.
비디오로부터 완전한 디지털 트윈을 생성하려면 정밀한 카메라 제어, 전역 장면 커버리지, 그리고 엄격한 공간-시간 일관성 제약이 필요하며, 이는 제한된 시야(FoV)로 인해 원근 비디오 생성기에게 여전히 어려운 과제입니다. 좁은 시야는 긴 경로나 다중 시점 궤적을 강제하여, 시점 간 불일치와 시간적 드리프트를 증폭시킵니다. 우리는 360° 비디오 생성이 자연스러운 해결책을 제공한다고 주장합니다: 파노라마 커버리지는 궤적 설계를 단순화하고 일관성 유지를 위한 강력한 전역 맥락을 제공합니다. 본 논문에서는 Pantheon360: 3D 인지 360° 비디오 확산을 통한 디지털 트윈 생성 제어를 소개합니다. 이는 희소 360° 입력으로부터 고충실도 비디오를 합성하는 제어 가능한 360° 비디오 생성 프레임워크입니다. 핵심 아이디어는 입력으로부터 재구성된 명시적 3D 캐시로, 이는 사용자 정의 카메라 경로에 대한 기하학적 지지 구조 역할을 합니다. 이를 통해 확산 모델은 사실적인 질감 개선에 집중할 수 있으며, 3D 캐시는 전역 기하학적 일관성을 강제합니다. 실험 결과, Pantheon360은 뛰어난 시각적 품질과 비할 데 없는 기하학적 일관성을 달성하여, 다운스트림 시뮬레이션 및 디지털 트윈 애플리케이션을 위한 안정적이고 유연한 360° 장면 생성을 가능하게 합니다.
검증 가능한 보상 기반 강화 학습(RLVR)은 수학, 도구 사용, 소프트웨어 엔지니어링과 같은 분야에서 획기적인 발전을 이끌어냈지만, 컴퓨터 사용 에이전트(CUA)로의 확장은 결정론적 보상을 갖춘 확장 가능한 훈련 데이터의 부족으로 인해 병목 현상을 겪어왔다. CUA를 위한 이러한 데이터를 구축하려면 일관된 작업 명령, 실행 가능한 환경, 그리고 검증 가능한 보상이 필요하다. 그러나 수동으로 선별된 벤치마크는 높은 보상 충실도를 달성하지만 적용 범위가 적고, LLM 판사 기반 데이터셋은 광범위하게 확장되지만 신뢰할 수 있는 검증이 부족하다. 우리는 작업 명령, 환경 상태, 보상 함수를 공동으로 생성하는 확장 가능한 파이프라인인 CUA-Gym을 제시한다. 구체적으로, 생성기(Generator) 에이전트가 초기 및 골든 환경 상태를 구성하고, 별도의 판별기(Discriminator) 에이전트가 작업 사양으로부터 보상 함수를 작성한다. 오케스트레이터(Orchestrator) 에이전트는 실행을 통해 반복적인 라운드를 거쳐 두 에이전트를 구동한다. 생성된 튜플은 최종 필터(LLM 다수결 투표와 에이전트 롤아웃을 결합)를 통과하여 작업별 적대적 루프 이상의 품질을 보장한다. 훈련 환경의 부족 문제를 해결하기 위해, 우리는 실제 소프트웨어 사용 분포에 기반한 고충실도 모의 웹 애플리케이션 모음인 CUA-Gym-Hub를 추가로 합성하여 CUA RLVR 데이터의 규모를 한 차원 확장한다. 이 파이프라인을 사용하여 우리는 110개 환경에 기반한 32,112개의 검증된 RLVR 훈련 튜플 데이터셋인 CUA-Gym을 구축한다. CUA-Gym에서 GSPO로 훈련된 CUA-Gym-A3B와 CUA-Gym-A17B는 OSWorld-Verified에서 각각 62.1%와 72.6%를 달성하여, 비슷한 규모의 기존 오픈소스 CUA를 능가하며, 성능은 데이터 규모와 환경 다양성 모두에서 원활하게 확장된다. 동일한 체크포인트는 보류된 WebArena 벤치마크에서도 개선되어, 훈련 환경을 넘어서는 전이를 나타낸다. 우리는 전체 합성 파이프라인, 데이터셋, CUA-Gym-Hub 환경, 그리고 모델을 오픈소스로 공개할 예정이다.
기존의 딥러닝 기반 저조도 향상 방법은 일반적으로 단일 향상 목표를 가진 제한된 데이터셋에서 학습되어, 실제 응용에서의 일반화 능력과 제어 가능성이 제한적이다. 이러한 한계를 극복하기 위해, 본 논문은 저조도 향상을 위한 제어 가능하고 일관성 있으며 일반화 가능한 프레임워크인 ControlLight를 제안한다. 먼저, 연속적인 조명 강도 감독을 포함한 대규모 실제 열화 영상 데이터셋을 구축한다. 또한, 다양한 제어 강도에서도 일관된 출력을 보장하기 위해, 연속적인 향상 강도에 걸쳐 영상 구조를 유지하는 정렬 불일치를 고려한 가중 흐름 매칭 손실을 도입한다. ControlLight는 사용자가 시각적 일관성과 사실성을 유지하면서 강도를 유연하게 제어하여 실제 열화된 저조도 영상을 만족스러운 향상 결과로 편집할 수 있도록 한다. 광범위한 실험을 통해 ControlLight가 기존 저조도 향상 방법 대비 최첨단 성능을 달성할 뿐만 아니라, 강력한 연속 제어 가능성과 실제 시나리오에 대한 일반화 능력을 보여줌을 입증한다.
대규모 언어 모델 에이전트는 점차 사용자의 디지털 세계에서 관련된 모든 것에 접근할 수 있는 항시 온 상태의 개인 비서로 구상되고 있다. 그러나 현재 시스템은 그 세계의 극히 일부만을 대상으로 작동하므로, 맥락에 민감한 추론과 효과적인 지원에 한계가 있다. 기존 벤치마크 역시 사용자 상태의 일부만을 제공하기 때문에, 이처럼 광범위하고 항시 온 상태인 환경에서의 성능을 포착하지 못한다. 이러한 격차를 해소하기 위해 우리는 Claw-Anything을 소개한다. 이 벤치마크는 에이전트의 맥락을 장기 활동 이력, 상호 의존적인 백엔드 서비스, 그리고 여러 기기에 걸친 통합 GUI 및 CLI 상호작용이라는 세 가지 차원으로 확장한다. 이 환경을 구현하기 위해, 우리는 다중 라운드 이벤트 주입을 통해 수개월 간의 사용자 활동을 시뮬레이션하여 복잡한 세계 상태와 현실적인 잡음(무관한 이벤트 및 상충하는 신호 포함)을 생성한다. 에이전트는 이러한 잡음에 강건함을 유지하면서 풍부한 맥락적 환경에 대해 추론해야 한다. 이러한 확장된 범위는 또한 사전 예방적 지원의 평가를 가능하게 하며, 에이전트가 사용자 니즈를 예측하고 적시에 추천을 제공해야 한다. 실험 결과 GPT-5.5는 34.5%의 pass@1만을 달성하여, 이전 벤치마크에 비해 현저히 낮은 성능을 보였으며, 이는 현재 에이전트 능력과 항시 온 상태의 개인 비서 요구 사이의 격차를 강조한다. 벤치마크와 함께, 우리는 2,000개의 훈련 환경을 생성하는 자동화된 데이터 생성 파이프라인을 공개하며, 이는 기본 모델의 성능을 23.7% 향상시켜 확장 가능한 데이터 인프라의 유용성을 입증한다.
AI 에이전트가 추론 및 도구 사용에서 뛰어난 능력을 보여주지만, 이들은 근본적으로 반응적입니다. 즉, 명시적인 사용자 프롬프트가 있을 때만 응답을 계산합니다. 이러한 패러다임은 중요한 기회를 간과합니다. 상호작용 사이의 유휴 시간이 대부분 낭비되어, 에이전트가 향후 사용자 요구를 준비할 수 없게 됩니다. 이 격차를 해소하기 위해, 우리는 유휴 시간 연산을 활용하여 발생 가능한 향후 사용자 요구를 예측하고 충족시키는 선제적 에이전트 아키텍처인 ProAct를 제안합니다. ProAct는 진화하는 대화 이력과 지속적 메모리를 함께 분석하여 다가올 요구를 예측하고 반복적으로 정보를 획득함으로써, 사용자가 질의를 시작하기 전에 에이전트가 지식 격차를 해소하고 증거를 준비할 수 있도록 합니다. 선제적 능력을 엄격하게 평가하기 위해, 우리는 예측 가능한 필요 체인과 다양한 사용자 인지 프로파일을 특징으로 하는 40개 도메인에 걸친 200개 시나리오로 구성된 포괄적 벤치마크인 ProActEval도 도입합니다. 실증 결과는 반응적 기준선 대비 상당한 이점을 보여줍니다. ProAct는 ProActEval에서 필요한 턴 수를 14.8% 줄여 작업 완료를 가속화하고, 사용자 노력을 11.7% 감소시키며, 환각률을 28.1% 낮춥니다. 또한, MemBench 평가는 ProAct가 최첨단 반성적 정확도를 달성하여 지속적이고 강력한 성능을 입증함을 확인합니다.
자기회귀 영상 생성기(auto regressive video generator)는 스트리밍, 장기 지평(long-horizon) 및 대화형 응용에 매력적이지만, 강력한 블랙박스 교사(teacher) 모델을 인과적 학생(student) 모델에 증류(distillation)하는 것은 여전히 어렵다. 학생 모델은 자체 롤아웃 분포(rollout distribution) 하에서 학습해야 하는 반면, 실제 교사 모델은 프롬프트 조건화된 완성 영상만을 제공할 수 있으며, 구조, 용량, 시간적 설계 및 샘플링 일정에서 차이가 있을 수 있다. 이러한 인터페이스는 지도 미세 조정(supervised fine-tuning)을 오프-정책(off-policy)으로 만들고, 점수 기반 증류(score-based distillation)를 적용 불가능하게 하며, 직접적인 적대적 모방(adversarial imitation)은 잡음 제거 시간에 대한 신용 할당(credit assignment)에 너무 희소하다. 우리는 이질적 블랙박스 영상 증류를 위한 온-정책(on-policy) 프레임워크인 적대적 흐름 증류(Adversarial Flow Distillation, AFD)를 제안한다. AFD는 교사 모델을 질의하고 동일한 프롬프트에서 현재 학생 모델을 롤아웃하며, 프롬프트 쌍을 이룬 Bradley-Terry 판별기(discriminator)를 학습시켜 클린 샘플(clean-sample)에서의 교사-학생 차이를 추정하고, 결과적인 온-정책 이득(advantage)을 학생 모델 자체의 노이즈가 추가된 상태에 대한 순방향 과정 흐름 정합(forward-process flow-matching) 업데이트로 변환한다. 따라서 AFD는 교사 모델의 점수, 잠재 변수, 잡음 제거 궤적, 단계 정렬 또는 역방향 체인 강화 학습 없이도 조밀한 속도장 지도(dense velocity-field supervision)를 제공한다. 두 가지 인과적 자기회귀 학생 모델군에 대한 실험은 AFD가 일반 영상 품질을 유지하면서도 움직임 및 물리 관련 생성 능력을 일관되게 향상시키며, 절제 연구는 적응형 온-정책 피드백과 순방향 과정 신용 할당의 중요성을 검증한다. 이 방법은 교사 영상과 학생 롤아웃만을 필요로 하므로, 독점적이거나 이질적인 영상 생성기를 효율적인 자기회귀 학생 모델로 증류하는 실용적인 경로를 제공한다.
대규모 언어 모델(LLM) 에이전트는 실제 세계 과제를 해결하는 과정에서 풍부한 에피소드 궤적을 축적하지만, 이러한 경험을 재사용 가능한 절차적 기술로 정제할 수 있는지 여부는 여전히 불분명하다. 본 논문에서는 경험 재사용에서 기술 형성으로의 단계를 평가하기 위한 진단적 벤치마크인 SkillEvolBench를 소개한다. 이 벤치마크는 여섯 가지 실제 세계 에이전트 환경 전반에 걸친 180개의 과제를 포함하며, 공유된 잠재 절차를 가진 역할 조건부 과제군으로 구성된다. 에이전트는 습득 과제로부터 학습하고, 압축된 궤적과 검증기 피드백을 활용하여 외부 기술 라이브러리를 업데이트한 후, 맥락 전환, 적대적 지름길, 조합을 테스트하는 고정 배치 과제에 직면한다. SkillEvolBench는 자기 생성 및 큐레이션 기반 기술 진화를 무기술 및 원시 궤적 통제군과 비교함으로써, 절차적 추상화를 기본 능력, 큐레이션된 사전 지식, 에피소드 흔적의 직접 재사용으로부터 분리한다. 열 가지 모델 구성과 세 가지 에이전트 하네스에 걸친 실험 결과, 현재 에이전트는 종종 국소적으로 적응하지만 강건한 재사용 가능한 기술을 거의 형성하지 못하는 것으로 나타났다. 기술 기반 조건은 습득 또는 재연을 개선할 수 있으며, 개별 모델은 특정 배치 축에서 이점을 얻기도 하지만, 이러한 이점은 고정 배치 상황에서 불안정하다. 원시 궤적 재사용은 정제된 기술보다 자주 우수한 성능을 보이는데, 이는 현재의 추상화 절차가 향후 과제에 여전히 유용한 맥락 및 절차적 단서를 폐기함을 시사한다. 용량 및 비용 분석은 더 많은 기술을 작성하거나 더 큰 계층-3 자원 라이브러리를 구축하는 것만으로는 충분하지 않음을 추가로 보여준다: 추가 업데이트는 적용 범위를 향상시킬 수 있지만, 에피소드 특이적 표류와 절차적 잡음을 유발한다. 이러한 발견은 SkillEvolBench를 일회성 경험이 과제 국소적 메모리가 아닌 지속 가능한 절차적 지식으로 전환되는 시점을 측정하기 위한 테스트베드로 자리매김하게 한다.
본 연구에서는 패치 단위 토큰을 채널 단위 토큰으로 대체하는 새로운 이미지 토큰화 패러다임인 채널별 벡터 양자화(CVQ)를 제안합니다. 기존의 벡터 양자화가 각 패치 특징 벡터에 이산 토큰을 할당하는 반면, CVQ는 특징 맵의 각 채널을 양자화합니다. 이러한 방식은 이미지를 공간적 패치 격자가 아닌 시각적 세부 정보의 이산적 수준으로 표현합니다. CVQ를 기반으로, "다음-채널 예측"을 활용하는 새로운 시각적 자기회귀 프레임워크를 소개합니다. 본 연구의 채널별 자기회귀(CAR) 모델은 이미지를 래스터 순서로 패치 단위로 렌더링하는 대신, 채널을 순차적으로 예측하여 점진적으로 풍부해지는 시각적 세부 정보를 생성합니다. 구체적으로, 먼저 전역 구조를 스케치한 후 세밀한 속성을 정제하는데, 이는 인간 예술가의 작업 흐름과 유사합니다. 실험 결과, (1) CVQ는 별도의 부가 장치 없이 16K+ 크기의 코드북에서 100% 코드북 활용률을 달성하고, 기존 VQ 대비 재구성 품질을 크게 향상시키며, (2) CAR은 DPG 점수 86.7, GenEval 점수 0.79를 달성하여 텍스트-이미지 생성에서 강력한 효과를 입증합니다.
메모리는 장문맥 LLM 에이전트를 가능하게 하는 기본 구성 요소로, 지속적인 서비스 및 업데이트 생애주기를 통해 상호작용 간 영구 상태를 지원합니다. 상당한 기존 연구에도 불구하고, 기존 시스템은 세분화되지 않은 상태 관리와 본질적으로 순차적인 업데이트 파이프라인이라는 두 가지 주요 한계로 인해 상당한 유지보수 오버헤드를 겪습니다. 특히, 업데이트는 종종 LLM 추론과 밀접하게 결합되어 전체 상태 재작성이 필요하며, 이는 확장성 저하와 메모리 축적에 따른 지연 시간 증가로 이어집니다. 이러한 문제를 해결하기 위해, 우리는 에이전트 메모리를 쓰기 효율적인 시간적 데이터 관리 문제로 재구성하는 메모리 프레임워크인 MemForest를 제시합니다. MemForest는 병렬 청크 추출을 통해 순차적 병목을 해소하여 메모리 구성을 동시적이고 독립적인 작업으로 분리합니다. 세분화되지 않은 유지보수를 추가로 제거하기 위해, 우리는 메모리를 평면적 전역 요약 대신 시간 순서 트리로 구성하는 계층적 시간 색인인 MemTree를 도입합니다. 이 설계는 전체 상태 재작성을 국소적 노드별 업데이트로 대체하여 영향을 받은 트리 경로로 유지보수 비용을 줄이면서 시간적으로 진화하는 상태를 자연스럽게 보존합니다. 우리는 두 가지 장문맥 메모리 벤치마크인 LongMemEval-S와 LoCoMo에서 MemForest를 평가합니다. LongMemEval-S에서 MemForest는 상태 기반 기준선 중 최고의 전반적 성능을 달성하여 79.8%의 pass@1 정확도를 보였으며, EverMemOS를 포함한 최첨단 접근법보다 약 6배 더 높은 메모리 구축 처리량을 유지했습니다.
최근 생성 모델의 발전은 다양체 제약 환경에서 기하학 인식 모델링의 강력함을 부각시키고 있다. 그러나 자연 이미지의 경우, 해당 분야는 여전히 유클리드 가정에 국한되어 데이터 내 내재적 기하 구조의 잠재력을 활용하지 못하고 있다. 본 연구에서는 자연 이미지의 기하학적 특성을 조사하여, 의미 정보가 주로 방향 성분에 인코딩되는 반면 노름 성분은 전역 평균으로 근사될 수 있음을 관찰하였다. 이러한 특성은 RGB 공간과 잠재 공간 모두에서 유지되며, 자연 이미지가 초구 위에서 효과적으로 모델링될 수 있음을 시사한다. 이 발견을 바탕으로, 각도 거리를 활용하는 구형 최적 수송 흐름 매칭(SOT-CFM)과 다양체 상에서 직접 동역학을 제약하는 구형 흐름 매칭(SFM)을 소개한다. 실험 결과, 이러한 기하학 인식 방법이 유클리드 기준선 대비 우수한 성능을 달성함을 입증한다. 궁극적으로, 본 연구는 리만 다양체 기반 모델링과 자연 이미지 생성 사이의 간극을 해소하는 새로운 관점을 제시한다.
본 논문에서는 임의의 명령어에 따른 다중 인스턴스 분할을 위해 설계된 통합적이고 간결한 프레임워크인 InstructSAM을 소개한다. 명령어 기반 인스턴스 분할을 집합 구조의 쿼리 예측 문제로 정식화하고, 비전-언어 모델(VLM)과 SAM3를 우아하게 연결하는 명시적 추론-대-인스턴스 쿼리 인터페이스를 제안한다. 구체적으로, 학습 가능한 인스턴스 쿼리 뱅크를 VLM에 주입하고 명령어 및 시각 정보와 맥락화하여 각 쿼리가 인스턴스 인식 슬롯으로 기능하도록 한다. 하이브리드 어텐션 메커니즘은 이러한 쿼리, 시각 토큰 및 명령어 토큰 간의 상호 작용을 더욱 촉진하여 인스턴스 열거를 개선하고 중복 예측을 줄인다. 결과적으로 생성된 LLM 조건부 쿼리는 SAM3의 검출기 쿼리 공간으로 투영되어 단일 순방향 패스에서 정확한 다중 인스턴스 분할을 구동한다. 이 설계는 SAM3의 핵심 아키텍처를 수정하지 않고도 고수준 명령어 이해, 구성적 추론 및 인스턴스 수준 집합 예측을 가능하게 한다. 훈련 및 평가를 지원하기 위해 자유 형식의 명령어와 인스턴스 수준 마스크를 결합한 고품질의 대규모 명령어 기반 인스턴스 분할 데이터셋 및 벤치마크인 Inst2Seg를 추가로 구축하였다. 광범위한 실험을 통해 2B 규모의 InstructSAM만으로도 복잡한 명령어 기반 및 구문 수준 지시 분할 벤치마크에서 강력한 성능을 달성하며, 기존의 종단간 방법 및 SAM3의 에이전트 파이프라인을 능가하면서 효율적인 단일 패스 다중 인스턴스 예측을 가능하게 함을 보여준다.
사고 체인(CoT)은 대규모 언어 모델의 행동을 해석하고 검증하는 데 핵심적인 역할을 해 왔다. 그러나 점점 더 많은 증거는 이러한 추적 기록이 모델 예측 뒤에 있는 계산 과정을 충실하게 대표하지 못하는 경우가 많음을 시사한다. 여러 충실성 지표가 제안되었지만, 이들이 실제로 충실성을 측정하는지 여부는 여전히 알려져 있지 않다. 이에 답하기 위해서는 실측 레이블이 필요한데, 내부 계산 과정이 직접 관찰 가능하지 않기 때문에 이를 얻기가 어렵다. 결과적으로, 지표를 제안하는 대부분의 연구는 절대 점수나 이전 지표와의 비교만을 보고하며, 소수의 기존 벤치마크는 타당성이나 중요성과 같은 대리 지표에 의존한다. 이러한 속성들은 충실성과 직교하며, CoT를 신뢰할 수 있는지에 대해 오해를 불러일으킬 수 있다. 우리는 출력이 어떤 중간 계산 과정에 의해 생성되었는지 드러내는 과제를 구성하고, 단계 및 CoT 수준에서 실측 충실성 레이블을 생성하는 자동화된 레이블링 파이프라인을 개발함으로써 이 문제에 대처한다. 이 방법론을 바탕으로, 우리는 13개 과제와 10개 모델에 걸친 3,066개의 레이블이 부여된 CoT로 구성된 벤치마크인 BonaFide를 제시하고, 이를 활용하여 주요 충실성 지표에 대한 최초의 체계적 평가를 수행한다. 실험 결과, 대부분의 지표는 무작위 수준에 가까운 성능을 보이며, 강한 예측 편향을 나타내고, 더 긴 CoT에서 성능이 저하된다. 최고 지표는 CoT 수준에서 AUROC 0.70에, 다른 지표는 단계 수준에서 0.59에 도달하지만, 두 지표 모두 설정 간 전이가 불가능할 뿐만 아니라 금지적으로 높은 계산 비용을 수반한다. 우리의 결과는 현재 충실성 평가의 근본적인 격차를 드러내며, 더 신뢰할 수 있고 효율적인 지표의 개발을 촉구한다.
트랜스포머 기반 대규모 언어 모델이 장기 과제(long-horizon tasks)에 점차 널리 사용되고 있지만, 이들의 어텐션 메커니즘은 컨텍스트 길이에 따라 확장성이 낮다. 이를 해결하기 위해, 우리는 모델이 주기적으로 최근 컨텍스트를 지속적인 고속 가중치(persistent fast weights)로 변환한 후 키-값 캐시(key-value cache)를 초기화하는 수면과 같은 통합 메커니즘(sleep-like consolidation mechanism)을 연구한다. 수면 중에 모델은 축적된 컨텍스트에 대해 N번의 오프라인 순환 처리(offline recurrent passes)를 수행하고, 학습된 국소 규칙(learned local rule)을 통해 상태 공간 모델(SSM) 블록의 고속 가중치를 업데이트한다. 추론 중에는 추가 계산을 수면 단계로 이동시켜 각성 시간 예측(wake-time prediction)의 지연 시간(latency)을 유지한다. 우리는 세포 자동자(cellular automata) 및 다중 홉 그래프 검색(multi-hop graph retrieval)을 포함한 통제된 합성 과제와, 일반 트랜스포머 및 SSM-어텐션 하이브리드 모델이 실패하는 현실적인 수학 추론 과제에서 우리의 방법을 테스트한다. 그런 다음 우리 모델의 수면 기간 N을 늘리면 성능이 향상되며, 더 깊은 추론이 필요한 예제에서 가장 큰 이득이 있음을 보인다.
현행 비디오-4D 방법들은 복잡한 위상 변화, 투명 재질, 얇은 구조물, 내부 표면 처리에 어려움을 겪는다. 본 논문에서는 Trellis2의 표현적 능력을 계승하여 이미지-3D에서 비디오 기반 4D 생성으로 확장한 동적 메시 생성 프레임워크인 Helix4D를 제시한다. 본 설계는 두 가지 핵심 질문에서 비롯된다: (a) Trellis2의 프레임 내부 어텐션이 투명 객체나 내부 표면과 같은 드문 경우에 대해 사전 학습된 품질을 유지하면서 프레임 간 정보를 공유하도록 하는 방법, (b) 순수 3D 위치 인코딩에 시간 정보를 사전 학습 능력 손상 없이 주입하는 방법. (a)를 해결하기 위해 슬라이딩 윈도우 교차 프레임 어텐션을 도입하고 첫 번째 프레임을 앵커로 사용한다. 첫 번째 프레임은 기본 Trellis2 모델로 생성하여 본 모델에 주입함으로써 교차 프레임 어텐션을 통해 Trellis2의 드문 경우에 대한 품질을 상속받게 한다. (b)를 해결하기 위해 4D 시간 인코딩을 제안하는데, 이는 중복되는 저주파 공간 RoPE 대역을 시간 용도로 재할당하여 추가 파라미터 없이 3D 인코딩을 확장한다. 광범위한 실험을 통해 ActionBench 및 자체 구축한 까다로운 복잡 동역학 데이터셋에서 Helix4D의 고품질 동적 메시 생성 효용성을 입증한다.
비디오 예측은 일반화 가능한 세계 모델을 향한 경로로 점차 인식되고 있지만, 이러한 시스템이 미래 예측을 위해 근본적인 인과 구조를 학습하는지 아니면 단순히 표면적인 시각적 상관관계를 활용하는지는 여전히 불명확하다. 우리는 CRONOS를 소개한다. 이는 개입 기반 벤치마크로, 역사실적 물리적 일관성(counterfactual physical consistency)을 평가하도록 설계되었다. 즉, 모델의 물리적 사건 예측이 장면 맥락, 시점, 객체 외형, 객체 범주와 같은 시각적 입력의 통제된 변화에 적절히 반응하는지 여부를 평가한다. 포토리얼리스틱 언리얼 엔진 환경에서 구축된 CRONOS는 다양한 장면과 역학에 걸쳐 통제된 고충실도 비디오 생성을 가능하게 한다. 이전 벤치마크와 달리, CRONOS는 충돌, 가림, 낙하와 같은 근본적인 물리적 사건 유형은 고정한 채 시점, 장면, 객체 범주, 객체 외형이라는 네 가지 주요 요인에 체계적으로 개입한다. 최근 오픈소스 비디오 생성기에 대한 우리의 평가는 역사실적 물리적 일관성에서 상당한 실패를 드러낸다. 동일한 물리적 사건 유형에 대한 예측 품질이 외형, 환경, 특히 시점 변화에 의해 영향을 받는다. CRONOS는 다양한 개입에 따라 생성된 비디오의 품질이 어떻게 변화하는지 진단하기 위한 통제 가능하고 재현 가능한 테스트베드를 제공하며, 여러 조건의 변화에 걸쳐 일관되게 수행되는 모델을 개발하기 위한 구체적인 목표를 설정한다. 데이터셋과 코드는 프로젝트 페이지에서 확인할 수 있다.
메타포 비디오는 복잡한 아이디어를 전달하기 위해 다양한 실제 시나리오에서 널리 사용되며, 이를 이해하는 데는 일반적으로 고차원 인지 능력이 필요하다. 메타포 비디오 이해에 관한 체계적인 연구의 부재는 대규모 멀티모달 언어 모델(MLLM)의 실제 적용 가능성을 제약할 뿐만 아니라, 해당 모델의 고차원 인지 능력에 대한 철저한 평가를 저해한다. 이러한 격차를 해소하기 위해, 우리는 메타포 비디오 이해에 특화된 최초의 체계적이고 포괄적인 벤치마크인 MetaphorVU-Bench를 제안한다. 실험을 통해 현재의 MLLM은 정확한 메타포 비디오 이해에 어려움을 겪으며, 주로 결함 있는 교차 도메인 매핑으로 인해 인간 수준에 크게 미치지 못함을 발견했다. 이 발견에 기반하여, 우리는 매핑 증강을 위한 메타포 지식 그래프를 구축하고, 추론 시점 개선 프레임워크인 MetaphorBoost를 제안하여 일관된 성능 향상을 달성하였다. 우리의 벤치마크, 분석, 방법은 MLLM 발전을 위한 향후 연구에 유용한 통찰과 기반을 제공한다.
통합된 다중 모달 이해 및 생성 모델은 더 풍부한 인간-AI 상호작용을 가능하게 한다. 그러나 캐릭터의 정체성, 대화 스타일, 시각적 정체성을 공동으로 맞춤 설정하면서도 모달리티 간 출력 일관성을 유지하는 방법은 아직 충분히 탐구되지 않았다. 이러한 격차를 해소하기 위해, 우리는 새로운 과제인 맞춤형 다중 모달 역할극(Customized Multimodal Role-Play, CMRP)을 도입한다. 우리는 20개의 캐릭터로 구성된 RoleScape-20 데이터셋을 구축하였으며, 이 데이터셋은 캐릭터의 정체성, 스타일 설명, 시각적/표현적 단서, 텍스트-이미지 상호작용을 포괄하는 학습 및 평가 데이터를 포함한다. 통합 모델을 기반으로, 우리는 통합 지도 미세 조정(Unified Supervised Finetuning, Unified-SFT)과 캐릭터 특화 그룹 상대 정책 최적화(Character-specific Group Relative Policy Optimization, Character-GRPO)로 구성된 2단계 학습 프레임워크인 UniCharacter를 설계하였다. 단 10장의 이미지와 이에 상응하는 상호작용 예시만으로도 모델은 목표 캐릭터를 습득하고, 생성된 텍스트와 이미지 모두에서 일관된 정체성, 스타일, 시각적 정체성을 나타낸다. 이 과정은 약 100 GPU 시간이 소요된다. RoleScape-20 데이터셋에 대한 실험 결과, 제안된 방법이 기존 접근법을 크게 능가함을 보여준다. 제거 실험을 통해 교차 모달 일관성 설계와 소수 샷 맞춤 설정 전략의 효과성을 추가로 검증하였다. 우리는 CMRP가 통합 모델링과 결합하여 차세대 개성 있고 몰입감 있는 대화형 에이전트의 기반을 제공한다고 주장한다.
텍스트-이미지 확산 모델(예: Stable Diffusion)은 텍스트로부터 고품질 이미지를 생성하지만, 추론 시 재학습 없이 시각적 안내(예: 스케치, 스타일)를 주입할 방법이 부재하다. 기존 방법은 계산 비용이 많이 드는 미세 조정을 필요로 하거나, 텍스트 프롬프트와의 의미적 불일치 위험이 있는 스타일 전이 기법에 의존한다. 본 논문에서는 개념별 학습 없이 추론 시점에 이미지와 텍스트 프롬프트 모두에 대한 이중 조건화를 제공하는 최초의 방법인 시각적 개념 융합(VCF)을 소개한다. VCF는 CLIP 이미지 특징을 텍스트 임베딩 공간에 정렬함으로써 시각적 개념을 Stable Diffusion에 주입할 수 있게 한다. VCF는 세 가지 구성 요소로 이루어져 있다: (1) InfoNCE 및 교차 주의 재구성 손실을 사용하여 이미지 토큰을 텍스트 임베딩 다양체에 매핑하는 경량 정렬기, (2) 텍스트 및 시각 의미 모두를 보존하는 융합 전략, (3) 테스트 시간 정제를 위한 선택적 프롬프트-잡음 최적화(PNO) 모듈. 실험 결과, VCF가 프롬프트 준수를 유지하면서 참조 이미지의 스타일, 구성, 색상 팔레트를 포함한 시각적 속성을 성공적으로 전이함을 보여준다. 정량적 결과는 텍스트 정렬(CLIP 점수)과 시각적 대응(LPIPS) 사이의 균형을 나타내며, VCF는 참조 충실도에서 기준 모델을 능가한다.
이미지 초해상도(SR)에서 생성 사전은 종종 충실한 복원을 저해하는데, 우리는 이러한 한계를 등방성 목적 함수와 고유 자연 이미지 다양체 간의 근본적인 스펙트럼 불일치에 기인한다고 본다. 직접 선호 최적화는 정렬을 위한 경로를 제공하지만, 스펙트럼적으로 평탄한 가우시안 잡음에 의존하기 때문에 실제 고주파 세부 정보와 환영을 구별하는 데 실패한다. 이러한 기하학적 간극을 해소하기 위해, 우리는 ASASR을 제안한다. 이는 자연스러운 스펙트럼 감쇠를 반영하도록 잡음 전이 커널에 명시적으로 색을 입힘으로써 생성 흐름을 소볼레프 유도 리만 기하학으로 재구성하는 이론적으로 기반을 둔 프레임워크이다. 이러한 기하학적 정렬을 추진하기 위해, 우리는 리즈 표현 정리에 기반한 파라미터화된 적대자를 통합한다. 이는 가능한 구조적 실패의 접평면을 따라 최적화를 유도하기 위해 최악의 경우 소볼레프 기울기와 동등한 표적화된 음성 샘플을 합성한다. 광범위한 평가를 통해 ASASR이 주요 생성 기준선보다 우수한 성능을 보이며, 특히 스펙트럼 일관성과 구조적 충실도를 유지하는 데 있어 탁월하며, 인공물을 효과적으로 완화하는 강건한 해결책을 제공함을 입증한다.
대규모 언어 모델(LLM) 에이전트는 상호작용을 통해 점차 개선되고 있지만, 대부분의 자기 진화 방법은 정책 또는 학습 환경을 개별적으로 적응시킨다. 우리는 이러한 구조적 격차를 에이전트-환경 부정합(Agent-Environment Misalignment)으로 식별한다. 즉, 훈련 중 에이전트의 능력 경계는 변화하는 반면, 감독을 제공하는 환경은 정적으로 유지되거나 에이전트가 드러낸 실패와 약하게만 연결된다. 우리는 대화형 도구 사용 에이전트를 위한 폐루프 공동 진화 프레임워크인 SEAL을 제안한다. SEAL은 실행 가능 검증 하에서 온-정책 궤적을 수집하고, 실패한 롤아웃을 진단하여 턴 단위 실패 레이블로 변환하며, 이 진단을 환경 측 적응과 모델 측 정책 최적화 모두를 위한 공유 신호로 사용한다. 환경은 더 명확한 도구 사용 신호, 제약 정보, 복구 지향 피드백을 노출함으로써 훈련 시 학습 인터페이스를 진화시키고, 정책은 진단 기반 이점 재가중을 통해 업데이트된다. 분포 내 및 분포 외 다중 턴 도구 사용 평가에 걸친 광범위한 실험은 SEAL이 저자원 에이전트 학습을 개선함을 보여준다. 단 400개의 훈련 샘플로 세 가지 백본에서 평균 8.25~26.25점의 향상을 가져오며, 긍정적인 분포 외 전이를 나타낸다. 이러한 결과는 강건한 자기 개선 LLM 에이전트를 위해 학습자와 그 훈련 시 학습 기반을 공동으로 적응시키는 가치를 입증한다.
최근 검증 가능 보상 기반 강화 학습(RLVR)과 테스트 시간 확장(TTS)은 실행 가능 검증을 통해 LLM 코드 생성을 발전시켜 왔다. 그러나 실측 단위 테스트(GT UT)는 여전히 병목 지점으로 남아 있다: 최첨단 RLVR 방법은 비용이 많이 드는 학습을 위해 이를 필요로 하는 반면, 기존 TTS 방법은 이러한 테스트 없이는 경쟁력을 잃는다. 이는 GT 불필요 TTS에 대한 동기를 부여하며, 기존 방법들은 자체 생성된 UT를 직접 사용하여 코드 후보를 정제하고 선택한다. 그러나 이러한 UT는 종종 노이즈가 있거나 잘못된 코드와 우연히 결합되며, 신뢰할 수 있는 코드 없이는 UT 품질도 검증할 수 없다. 따라서 핵심 과제는 두 가지를 동시에 개선하는 것이다. 이를 위해 우리는 CoSPlay를 제안한다. 이는 GT가 필요 없고 학습이 필요 없는 프레임워크로, 협력적 자가 대결(self-play)을 통해 코드와 UT를 공동으로 개선한다. 먼저 다양한 해결 아이디어를 탐색하고 잠재적인 실패 모드를 식별하여 변별력 있는 UT 아이디어를 생성한다. 그런 다음 코드-UT 실행 매트릭스의 양방향 통과 횟수 신호를 사용하여 약한 코드를 반복적으로 제거하거나 수정하고 신뢰할 수 없는 UT를 갱신하거나 대체함으로써 두 풀이 공진화하게 한다. 마지막으로 여러 코드가 가장 높은 통과 횟수에서 동점일 때, 가장 큰 출력 합의(output-consensus) 클러스터에서 최종 코드를 선택하는데, 올바른 코드는 동일한 입력에 대해 일치하는 반면 잘못된 코드는 분기하기 때문이다. 네 가지 까다로운 벤치마크에 대한 실험에서 Qwen2.5-7B-Instruct에 적용된 CoSPlay는 평균 BoN을 22.1%에서 33.2%로, UT 정확도를 14.6%에서 78.3%로 향상시켜 RLVR 모델 CURE-7B와 일치하거나 능가했다. CURE-7B에 적용했을 때는 BoN을 추가로 5.7% 개선했다. CoSPlay는 다양한 백본에서 일반화되며, 유사한 토큰 예산 하에서 GT 불필요 TTS 기준선을 능가하고 예산이 증가함에 따라 지속적인 이득을 보인다. 이러한 결과는 GT 데이터 없이 경쟁력 있는 코드 생성을 위한 확장 가능한 추론 전략을 시사한다.
최근 소수 단계 확산 증류의 발전으로 효율적인 이미지 생성이 가능해졌지만, 이러한 모델을 인간의 선호도와 일치시키는 것은 여전히 어려운 과제로 남아 있습니다. 우리는 소수 단계 플로우 생성기를 위한 분포 매칭 증류와 보상 기반 강화 학습을 통합하는 두 단계 프레임워크인 RTDMD(Reward-Tilted Distribution Matching Distillation)를 제안합니다. 우리는 보상 편향 교사 분포에 대한 KL 발산 최소화가 자연스럽게 분포 매칭 항과 보상 최대화 항으로 분해됨을 보입니다. 첫 번째 단계에서는 주변 일관성 분포 매칭 증류(AC-DMD)를 도입합니다. 이 방법은 하위 구간별 분포 매칭을 수행하고, 제한된 업데이트 하에서 변화하는 생성기 분포를 추적하도록 가짜 점수 모델을 돕기 위해 가짜 점수 목적 함수에 일관성 정규화기를 추가합니다. 두 번째 단계에서는 두 항을 공동으로 최적화합니다. 보상 최대화 항을 위해, 우리는 확률적 중간 전이에 대한 GRPO 스타일 추정기와 결정론적 최종 단계를 통한 직접 보상 역전파를 결합한 하이브리드 정책 그래디언트를 유도하고, 분산을 줄이기 위해 단계 부분집합 GRPO(SubGRPO)를 추가로 도입합니다. SD3, SD3.5, FLUX.2에 대한 실험은 RTDMD가 단 4번의 추론 단계만으로 선호도, 미적, 구성 메트릭 전반에 걸쳐 새로운 최첨단 결과를 달성하여 이전의 소수 단계 텍스트-이미지 생성 방법들을 능가함을 보여줍니다. 코드와 모델은 https://github.com/Harahan/RTDMD 에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 기반 에이전트가 온라인 담론에 점차 참여함에 따라, 이들의 정치적 영향력 캠페인 지원 능력을 레드팀 테스트하는 것은 정보 무결성을 위해 매우 중요하다. 이 목표를 위해, 우리는 최첨단 API 전용 모델이 아닌 로컬에 배포된 오픈소스 LLM에 초점을 맞춘다. 이는 오픈소스 LLM이 소셜 미디어 환경에 배포된 프라이버시를 중시하는 악의적 행위자의 운영 제약 조건과 더 잘 부합하기 때문이다. 우리는 논란이 되는 주제에 대해 모델이 신뢰할 수 있게 표현할 수 있는 정치적 의견의 범위로 정의되는 LLM 오버턴 윈도우(OW)를 측정하고, 간단한 자연어 탈옥이 해당 범위를 어떻게 확장하는지 정량화하기 위한 경험적 레드팀 테스트 프레임워크를 도입한다. 우리는 10개 모델 계열과 5개 출신 국가에 걸친 30개 이상의 LLM을 평가한다. 그 결과 정치적 표현성에서 체계적인 비대칭성을 발견한다. 오픈소스 LLM은 일반적으로 좌파 성향의 소셜 미디어 콘텐츠를 생성하는 데 더 적극적이며, OW는 모델 크기에 반비례하여 수축하는 경향이 있고, 오픈소스 생태계에서의 불균등한 대표성에도 불구하고 지역적 차이는 상당하다. 또한 탈옥 효능은 모델 계열 간에 크게 달라지며, 이는 효과적인 탈옥 기법 조합을 식별하기 위한 작업 흐름을 촉발한다. 종합하면, 우리의 결과는 오픈소스 LLM의 정치적 조종 가능성을 감사하고, 향후 연구자들이 LLM 기반 영향력 캠페인에 대한 더 강력한 대응책을 설계하는 데 도움이 되는 실용적인 프레임워크를 구축한다.
보상 해킹은 모델이 의도된 작업을 해결하는 대신 지름길을 활용하여 대리 보상을 개선할 때 발생한다. 우리는 언어 모델에서 강화 학습 업데이트의 기하학적 구조를 통해 이 실패 모드를 연구하며, 최적화가 안정적인 저차원 학습 궤적으로부터 이탈할 때 해킹이 발생한다고 주장한다. 우리는 매개변수 업데이트의 지배적인 특이 방향을 통해 이러한 이탈을 분석하며, 보상 해킹 실행이 깨끗한 실행보다 훨씬 더 큰 방향 변화를 보인다는 것을 보여준다. 이 관찰에 착안하여, 우리는 기울기가 깨끗한 참조 부분 공간 내에 유지되도록 제약하는 신뢰 방향 투영을 도입한다. 수학적 추론에 대한 보상 해킹 실험 전반에 걸쳐, 제안된 접근 방식은 지름길 활용을 지연시키고 작업 성능을 더 잘 보존한다.
희소 인코더는 어휘 공간 내에서 용어 중요성을 표현함으로써 고정밀 검색을 제공하지만, 그들의 영어 중심 구조는 비영어권 언어에 대한 언어 전이에 심각한 장애를 초래한다. 이러한 구조적 한계를 극복하기 위해, 우리는 다국어 브리지 모델을 활용하여 희소 인코더에서의 교차 언어 적응을 위해 설계된 새로운 임베딩 초기화 방법인 SemBridge를 제안한다. SemBridge는 다국어 밀집 임베딩을 브리지로 사용하여 소스 어휘와 대상 어휘 간의 의미적 정렬을 설정한다. 모든 소스 토큰에 직접 의존하는 대신, SemBridge는 의미적으로 관련된 소수의 소스 언어 토큰을 선택하여 각 대상 언어 토큰을 초기화하는 데 사용함으로써 의미적 잡음을 효과적으로 걸러내고 대상 토큰을 핵심 동의어의 정밀한 선형 결합으로 재구성한다. 이는 미세 조정 중 수렴을 가속화하고 훈련 효율을 향상시킨다. 다섯 개 언어와 네 개의 희소 아키텍처에 걸친 광범위한 실험을 통해 SemBridge가 기존 기준선과 비교하여 우수한 제로샷 검색 성능을 달성하고 미세 조정 후 검색 성능을 일관되게 향상시킴을 입증한다. 이러한 결과는 SemBridge가 다양한 언어 환경에서 고성능 희소 검색 시스템을 배포하기 위한 실용적인 솔루션임을 검증한다.
대규모 언어 모델 기반의 모바일 GUI 에이전트가 빠르게 발전하면서 현실적이고 포괄적인 평가의 필요성이 긴급히 대두되고 있다. 기존 벤치마크는 재현성을 우선시하지만, 실제 애플리케이션에서 보상을 구성하기 어려워 오픈소스 앱이나 파일 조작 작업에 국한되는 경우가 많아, 벤치마크 환경과 실제 사용 환경 간 차이가 존재한다. 또한, 대부분의 벤치마크는 기본적인 그라운딩 및 탐색에 초점을 맞추고 있으며, 복잡하고 장기적인 상호작용에 대한 포괄성은 제한적이다. 이러한 한계를 해결하기 위해, 우리는 다양한 유형과 난이도를 아우르는 120개의 도전적인 과제로 구성된 완전 합성 벤치마크인 SimuWoB를 소개한다. 우리는 고충실도의 과제와 환경을 합성하고 각 과제에 대해 자동으로 유효한 보상을 제공하는 강력한 가상 환경 생성 프레임워크를 구축했다. 각 환경은 URL을 통해 접근 가능한 백엔드 없는 웹페이지로 배포되어 효율적이고 재현 가능한 평가를 가능하게 한다. 우리는 여러 최첨단 모바일 GUI 에이전트에 대해 포괄적인 실험을 수행했다. 평균 성공률은 27.92%에 불과했으며, 장기 과제에서는 17.82%로 떨어져 복잡한 시나리오에서 현재 에이전트의 상당한 취약점을 드러냈다. 실제 샘플 과제와의 평가 결과 비교는 우리의 합성 환경 기반 에이전트 평가가 잘 일반화됨을 입증한다. 또한, 우리는 주요 역량 차원에 걸친 진단적 통찰을 제공하고 향후 모바일 GUI 에이전트 개발에 대한 시사점을 논의한다.
강화 학습에서 시간적 신용 할당은 오랫동안 핵심적인 과제였다. 신경생물학의 도파민 시스템이 가진 다중 시간 규모 인코딩에서 영감을 받아, 최근 연구는 단기 반응과 장기 계획의 균형을 맞추기 위해 Proximal Policy Optimization(PPO)과 같은 Actor-Critic 구조에 여러 할인 계수를 도입하려는 시도를 해왔다. 그러나 본 논문은 복잡한 지연 보상 과제에서 다중 시간 규모 신호를 무분별하게 융합하면 심각한 알고리즘 병리 현상이 발생할 수 있음을 밝힌다. 우리는 시간적 주의 라우팅 메커니즘을 정책 기울기에 노출시키면 대리 목표 해킹(surrogate objective hacking)이 발생하고, 기울기 없는 불확실성 가중치를 채택하면 되돌릴 수 없는 근시성 퇴화가 촉발된다는 것을 체계적으로 입증하며, 이 현상을 시간적 불확실성의 역설(Paradox of Temporal Uncertainty)이라고 명명한다. 이러한 문제를 해결하기 위해 우리는 목표 분리(Target Decoupling) 구조를 제안한다. Critic 측에서는 다중 시간 규모 예측을 유지하여 보조 표현 학습을 강화하고, Actor 측에서는 단기 신호를 엄격히 분리하여 장기 이점에만 기반하여 정책을 갱신한다. LunarLander-v2 환경에서 여러 독립적인 무작위 시드에 걸친 엄격한 실증 평가를 통해 제안된 구조가 통계적으로 유의미한 성능 향상을 달성함을 입증한다. 하이퍼파라미터 해킹에 의존하지 않고도 최소 분산으로 '환경 해결(Environment Solved)' 임계값을 일관되게 초과하며, 정책 붕괴를 완전히 제거하고, 단일 시간 규모 기준선을 가두는 맴도는 지역 최적점을 벗어난다. 실험 재현을 위한 소스 코드는 https://github.com/ben-dlwlrma/Representation-Over-Routing에서 공개적으로 이용 가능하다.
통신은 다중 에이전트 강화 학습(MARL)에서 협력을 가능하게 하지만, 드론 군집을 이용한 수색 및 구조와 같은 많은 실제 응용 분야에서는 심각한 대역폭 제약 하에서 작동한다. 많은 통신 아키텍처는 여전히 공유 잠재 표현을 정책 실행과 에이전트 간 통신 모두에 사용하는 결합된 병목을 노출한다. 결과적으로 메시지 크기를 줄이는 것은 정책의 잠재 공간을 직접 제한하여 종종 상당한 성능 저하로 이어진다. 본 연구는 두 가지 기여를 통해 이 문제를 해결한다. 첫째, 희소성, 라운드, 메시지 차원을 하나의 비교 가능한 제약 조건으로 통합하는 정규화된 에이전트별 대역폭 예산인 β를 도입한다. 둘째, 통신 경로를 정책의 잠재 표현에서 분리하는 최소 아키텍처인 SLIM을 제공하여, 동시 통신의 이점을 활용하면서 정책 용량의 효과로부터 대역폭의 효과를 분리할 수 있게 한다. 본 방법을 통신이 필수적인 여러 부분 관측 가능 MARL 벤치마크에서 평가한다. 제안된 접근법은 최첨단 성능을 달성하며, 대역폭이 감소함에 따라 미미한 성능 저하만 보이며 제한된 통신 환경에서 확장성과 견고성을 나타낸다.
평가 하네스는 모델 호출, 데이터 로딩, 메트릭 계산 및 결과 보고를 조정하여 모델 평가를 체계화하는 소프트웨어 시스템이다. 머신러닝 인프라에서 중요한 역할을 함에도 불구하고, 이들의 운영상 과제와 엔지니어링 문제는 지금까지 제한된 주목만 받아왔다. 본 연구는 57개 평가 하네스에 대한 실증적 연구를 통해 5단계 하네스 모델을 도출하고, 16,560개의 이슈를 워크플로우 단계와 근본 원인별로 분류하였다. 대부분의 하네스 운영 과제는 명세 단계(이슈의 41.4%)에 집중되며, 이 단계에서 하네스는 외부 모델, 데이터셋 및 평가 판정기를 통합한다. 운영 과제의 가장 빈번한 세 가지 근본 원인은 미구현 기능(24.3%), 문서화 부족(20.3%), 입력 검증 누락(17.2%)이며, 이 세 가지가 분류된 이슈의 61.7%를 차지하며, 기존 기능의 결함과 의도된 워크플로우를 차단하는 기능 격차 모두를 포괄한다. 근본 원인은 워크플로우 단계에 따라 달라지는데, 환경 비호환 및 외부 의존성 손상은 프로비저닝 이슈의 36.2%를 차지하는 반면, 알고리즘 오류(25.9%)와 검증 공백(22.5%)은 평가 이슈에서 주를 이룬다. 이러한 기여는 평가 엔지니어링을 별개의 소프트웨어 엔지니어링 분야로 다루기 위한 실증적 토대를 마련한다.
CLI 에이전트는 언어 모델이 체화된 환경에 가장 근접한 형태로, 모델이 명령을 내리면 터미널이 이를 실행하고 반환되는 스트림(stdout, 오류, 파일, 로그, 추적)이 결과를 기록한다. 우리는 이 스트림이 감독 신호라고 주장하지만, 표준 에이전트 강화학습은 이를 무시한다. GRPO 방식의 훈련은 희소한 결과 수준 보상으로 행동 토큰을 업데이트할 뿐, 이미 롤아웃에 포함된 환경 응답은 무시한다. 실패한 롤아웃은 환경이 어떻게 반응하는지에 대한 풍부한 증거를 포함하고 있음에도 불구하고 정책 그래디언트 신호를 거의 제공하지 못한다. 이에 우리는 ECHO(Environment Cross-entropy Hybrid Objective)를 제안한다. 이는 행동 토큰에 대한 표준 정책 그래디언트 손실과 정책이 자신의 행동으로 인한 환경 관찰 토큰을 예측하도록 훈련하는 보조 손실을 결합한 하이브리드 목적 함수이다. ECHO는 GRPO와 동일한 순전파를 재사용하며 추가 롤아웃이 필요 없고, 터미널 피드백을 모든 롤아웃에 대한 밀집 감독으로 변환한다. ECHO는 TerminalBench-2.0에서 GRPO의 pass@1을 두 배로 향상시킨다. Qwen3-8B는 2.70%에서 5.17%로, Qwen3-14B는 5.17%에서 10.79%로 개선된다. 또한 ECHO는 정책이 생성하지 않은 궤적에 대해서도 터미널 동역학을 더 잘 예측하는 정책을 산출한다. 보류된 롤아웃에서 환경 토큰 교차 엔트로피를 급격히 줄이는 반면, GRPO만으로는 거의 변화가 없다. 기본 Qwen3-8B에서 ECHO는 전문가 시연 없이도 보류된 터미널 작업에서 전문가 SFT 후 GRPO의 성능과 일치하며, TerminalBench-2.0에서 전문가 SFT 초기화 이점의 약 절반을 회복한다. 일부 설정에서는 환경 예측 손실만으로 검증자 없는 자기 개선이 가능해져, 정책이 환경 상호작용만으로 학습하여 보지 못한 OOD 작업에서 향상될 수 있다. 이러한 결과는 환경 관찰이 단순히 미래 행동을 위한 맥락이 아니라, 모든 롤아웃에 이미 존재하는 밀집되고 온-정책적인 감독 신호임을 시사한다.
교통 안전 분석은 충돌 기록, 도로 속성 및 지리공간 데이터를 GIS 기반 워크플로우를 통해 통합해야 하지만, 기관 및 지역사회 이해관계자 간의 접근성은 여전히 불균등하다. 기술적 선행 조건들은 안전 계획의 핵심인 분석 도구와 이를 활용할 수 있는 실무자 간의 격차를 만들어낸다. 지역 기관, 학교 위원회, 주민들은 안전 문제를 인식하고 있지만, 관련 데이터를 검색, 필터링, 매핑 및 분석할 수 있는 역량은 제한적일 수 있다. 생성형 AI는 이러한 격차를 좁힐 방법을 제시하지만, 공공 부문에서의 사용은 신뢰성, 재현성 및 거버넌스에 대한 의문을 제기한다. 본 논문은 교통 안전 분석을 위한 스키마 기반 자연어 인터페이스를 제시하며, 대규모 언어 모델(LLM)을 사용하여 사용자 의도를 해석하는 동시에 권위 있는 데이터베이스에 대한 결정론적이고 검토 가능한 실행을 보장한다. 사용자 질의는 구조화된 의미 프레임으로 변환되고, 규칙 기반 계층에 의해 검증되며, 공간 연산의 유형화된 방향성 비순환 그래프로 컴파일된 후 PostGIS 데이터베이스에서 실행된다. 이 경계가 정해진 설계는 언어 해석과 결정론적 실행을 분리하여 결과의 재현성과 스키마 기반성을 유지하면서 접근 장벽을 제거한다. 프레임워크는 학교, 버스 정류장, 횡단보도, 지자체 경계를 포함한 충돌 기록, 도로 속성 및 지리공간 계층을 통합한 매사추세츠 전역 교통 안전 데이터베이스를 사용하여 평가되었다. 모든 질의가 성공적으로 실행되었으며, 검증 계층은 평가 질의의 29%에서 오류를 수정하였으며, 이는 유연한 자연어와 엄격한 스키마 기반 요구사항 간의 격차를 반영한다. 결과는 자연어 접근성과 결정론적 실행의 결합이 교통 안전 데이터에 대한 접근성을 확대하기 위한 실용적인 방향임을 시사하며, 이는 공공 부문 계획에서의 신뢰할 수 있는 AI에 대한 함의를 제공한다.
온라인 3D 재구성은 엄격한 인과적 및 제한된 메모리 제약 조건 하에서 카메라 포즈와 장면 기하를 추정해야 합니다. 기존 방법은 긴 시퀀스에서 드리프트, 지터 또는 붕괴를 자주 겪습니다. 우리는 이러한 실패가 근본적인 부정합에서 비롯된다고 추적합니다. 스트리밍 기하 구조는 본질적으로 시간적으로 이질적이며, 증거는 단기 대응에서 지속적인 전역 스케일에 이르기까지 다양합니다. 그러나 현재의 아키텍처는 균일하고 병리적인 영향 패턴을 강제합니다. 예를 들어, 슬라이딩 윈도우는 하드 컷오프를 강제하고, 게이트 없는 순환과 인과적 어텐션은 캐시 포화와 스파이크 형태의 어텐션 싱크를 유발합니다. 이를 해결하기 위해, 우리는 기하학적 전파를 증거 영향 커널로 공식화하고, 이 커널을 명시적으로 분해하는 장기 지평 트랜스포머인 HorizonStream을 제안합니다. 장기 시간 요소를 위해, 기하학적 선형 어텐션은 채널별 감쇠율을 학습하여 기하 증거의 제한된 다중 시간 규모 전파를 가능하게 합니다. 단기 공간 요소를 위해, 시공간 RoPE를 갖춘 기하학적 지역 어텐션은 어텐션 싱크를 억제하면서 신뢰할 수 있는 3D 매칭을 수행합니다. 마지막으로, 메트릭 리드아웃 토큰은 지속적인 기하 상태에서 직접 안정적인 스케일과 강체 자세를 복구합니다. 광범위한 실험 결과, 48프레임 클립에서만 훈련된 HorizonStream이 일정한 메모리와 선형 시간으로 10,000프레임을 초과하는 시퀀스에 안정적으로 일반화되어 최첨단 스트리밍 3D 재구성 성능을 달성함을 보여줍니다. 프로젝트 페이지: https://3dagentworld.github.io/horizonstream/
대화형 LLM 기반 애플리케이션이 개발되고 정교화됨에 따라, 모델 개발자는 생성된 텍스트의 품질을 다양한 측면에서 평가할 필요가 있습니다. 단순한 시스템에서는 인간 평가가 실용적일 수 있지만, 대화형 챗봇과 같은 복잡한 시스템에서는 생성된 텍스트의 양이 인간 주석(annotation) 자원을 압도할 수 있습니다. 모델 개발자는 LLM을 생성 품질 판단에 활용하는 자동 평가(auto-evaluation)에 크게 의존하기 시작했습니다. 그러나 기존의 LLM-as-a-judge 벤치마크는 대부분 다중 턴 대화의 복잡성을 반영하지 않는 단순한 질의응답(Q&A) 작업에 집중되어 있습니다. 본 논문에서는 참조 문서에 기반한 다중 턴 대화에서 LLM-as-a-judge를 평가하기 위한 벤치마크 생성기인 RankJudge를 소개합니다. RankJudge는 하나의 대화에 한 턴에서 단일 결함이 주입된 대화 쌍을 생성합니다. 이러한 구성은 쌍을 이루는 대화가 더 우수하거나 더 열등함을 명확히 레이블링할 수 있게 하며, 결함 범주를 개별 턴으로 정밀하게 분리하여 판단을 위한 엄격한 공동 정확도 기준을 가능하게 합니다. 우리는 기계 학습, 생물의학, 금융 분야에 걸쳐 RankJudge를 구현하고, 21개의 최첨단 LLM 판단기(judge)를 평가한 후 Bradley-Terry 모델을 통해 이들을 순위화합니다. 또한 본 공식화를 통해 각 대화 쌍에 난이도 등급을 부여할 수 있으며, 이를 활용하여 평가 슬라이스(slice)를 동적으로 선별함으로써 인간 주석을 통해 확인된 레이블 노이즈를 줄입니다. 우리는 판단기 순위가 부분 관측 가능성, 더 거친 정확도 기준, 그리고 대안적인 무작위 보행(random-walk) 평가 알고리즘 하에서도 안정적임을 발견했습니다.
현재 모션 제어 기반 이미지-투-비디오 생성 모델은 사용자가 제공한 궤적을 엄격히 따르도록 설계되어 있으며, 이러한 궤적은 종종 희소하고 부정확하며 인과적으로 불완전합니다. 이러한 의존성은 특히 이차적 인과 결과를 놓침으로써 부자연스럽거나 타당하지 않은 결과를 초래하는 경우가 많습니다. 이 문제를 해결하기 위해, 우리는 모션 제어를 추론 후 생성(reasoning-then-generation) 문제로 재구성하는 새로운 프레임워크인 MotiMotion을 제안합니다. 인과적으로 근거가 있고 상식에 부합하는 상호작용을 장려하기 위해, 우리는 학습이 필요 없는 비전-언어 추론기를 활용하여 주요 궤적의 이미지 공간 좌표를 정제하고 타당한 이차적 움직임을 추론합니다. 또한 움직임의 자연스러움을 더욱 개선하기 위해, 신뢰도를 고려한 제어 방식을 제안하여 유도 강도를 조절함으로써, 모델이 높은 신뢰도의 계획을 밀접히 따르면서 낮은 신뢰도의 입력에 대해서는 내부 생성 사전 지식을 활용하여 아티팩트를 보정할 수 있도록 합니다. 체계적인 평가를 지원하기 위해, 우리는 움직임에 의해 새로운 이벤트가 촉발되는 상호작용 중심 장면으로 구성된 새로운 이미지-투-비디오 벤치마크인 MotiBench를 구축했습니다. MotiBench에 대한 VLM 기반 평가와 인간 연구 모두에서 MotiMotion이 더 타당한 객체 행동과 상호작용을 보여주는 비디오를 생성하며, 기존 접근 방식보다 선호됨을 입증했습니다.
자동화된 포장도로 손상 평가는 이미지 수준 분류나 거친 경계 상자 검출 이상을 요구하며, 유지보수 관련 정량화에 필요한 기하학적 정밀도를 달성하기 위해 얇고 가지가 갈라지며 불규칙한 균열의 정밀한 위치 파악을 필요로 한다. 본 논문은 Mask R-CNN 인스턴스 분할에 기반한 비전 기반 포장도로 손상 분석 시스템을 제시하고, 차량 장착 스마트폰으로 수집되고 종방향 균열, 횡방향 균열, 악어가죽 균열 및 포트홀에 대해 다각형 레이블로 수동 주석이 달린 자체 현장 수집 도로 이미지 데이터셋인 UWGB-StreetCrack에서 이를 평가한다. 일관된 미세 조정 프로토콜 하에서 다섯 가지 Detectron2 기반 Mask R-CNN 백본 변형을 고려하였다. 가장 우수한 성능을 보인 모델인 ResNet-101 FPN 백본을 갖춘 Mask R-CNN은 프로젝트 특정 경계 상자 매칭 프로토콜 하에서 84.23%의 정밀도, 90.04%의 재현율, 87.04%의 F1 점수를 달성했다. 동일 모델은 2.164%의 총 예측 균열 면적 비율을 산출하였으며, 이는 2.170%의 실제 균열 면적 비율과 밀접하게 일치한다. 분할 시스템을 검출기 중심 대안과의 맥락에서 비교하기 위해, CSPDarknet53 기반 YOLO 검출기도 데이터셋에 맞게 조정 및 재훈련되었으며, 검증 프로토콜에서 27.5%의 정밀도와 20.7%의 재현율을 달성했다. 결과는 인스턴스 분할이 현장 포장도로 영상 및 총 균열 면적 추정을 위한 실용적인 방향임을 보여주는 동시에, 주석 일관성, 클래스 불균형, 혼란 변수 제거 및 마스크 수준 벤치마킹에서의 해결되지 않은 과제들을 드러낸다.
긴 형식의 이미지 캡셔닝은 강화학습(RL)에서 보상 세분성 문제를 드러낸다. 캡션은 전체 시퀀스로 평가되지만, 중요한 오류는 개별 시각적 주장 수준에서 발생한다. 좋은 조밀 캡션은 사실에 충실하면서도 정보를 풍부하게 담아야 하며, 할루시네이션을 피하면서 중요한 세부 사항을 생략하지 않아야 한다. 그러나 쌍별 선호도, 참조 기반 메트릭, 전체론적 스칼라 보상은 이러한 국소적 오류를 단일 시퀀스 수준 신호로 압축하여 사실성과 포괄성 간의 상충 관계를 모호하게 만든다. 우리는 참조 조건부 원자적 주장 차이를 캡션 RL의 보상 단위로 사용하는 프레임워크인 ClaimDiff-RL을 소개한다. 이미지, 행위자 캡션, 참조 캡션이 주어지면, 멀티모달 평가자는 시각적으로 기반한 차이점들을 열거하고, 각 차이점을 이미지에 대해 검증하며, 개방 어휘 오류 유형과 심각도 수준을 할당하고, 보상 구성을 위한 차이점별 통계를 생성한다. 이를 통해 할루시네이션된 주장과 생략된 중요한 사실을 각각 측정하고 조정할 수 있다. 실험 결과, 전체론적 스칼라 보상은 누락된 사실을 증가시킴으로써 할루시네이션을 줄일 수 있는 반면, ClaimDiff-RL은 이러한 사실성과 포괄성 간의 상충 관계를 드러내고 더 균형 잡힌 운용 지점을 가능하게 한다. 160개 이미지로 구성된 인간 레이블 진단 벤치마크, 공개 캡셔닝 벤치마크, VQA 벤치마크에서 ClaimDiff-RL은 할루시네이션-누락 사실 균형을 개선하고, 일반적인 능력을 유지하며, 객체 계수, 공간 관계, 장면 인식과 같은 여러 세분화된 능력 차원에서 Gemini-3-Pro-Preview를 능가하기도 한다. 이러한 결과는 유형화되고 검증 가능한 주장 차이가 세분화되고 진단 가능한 캡션 RL을 위한 효과적인 보상 단위임을 시사한다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 역추적 및 자가 검증 메커니즘을 통해 중간 단계를 수정하고 올바른 해결책에 도달하며, 복잡한 논리적 벤치마크에서 강력한 성능을 보인다. 우리는 이러한 행동이 모델이 자신의 실수를 감지할 충분히 강한 '비판' 능력을 가질 때에만 유용하다고 가정한다. 본 연구는 중간 추론 단계에 산술적 오류를 삽입함으로써 현재 LRM이 어떻게 오류로부터 회복하는지 체계적으로 조사한다. 특히, 우리는 독특하면서도 중요한 현상을 발견한다: 오류가 어떤 언어적 수정 없이 전체 사고 연쇄(Chain-of-Thought, CoT)를 통해 전파됨에도 불구하고, 모델은 사고 과정이 끝난 후에도 올바른 최종 답변에 도달한다. 이러한 회복은 모델이 오류를 감지하고 자가 수정을 촉발하는 내부 메커니즘의 존재를 시사하며, 우리는 이를 숨은 비판 능력(hidden critique ability)이라고 부른다. 특징 공간 분석을 바탕으로, 우리는 이 행동을 나타내는 해석 가능성이 높은 비판 벡터(critique vector)를 식별한다. 여러 모델 규모와 계열에 걸친 광범위한 실험은 이 벡터로 잠재 표현을 조종하면 추가 훈련 비용 없이 모델의 오류 감지 능력이 향상되고 테스트 시간 확장 성능이 개선됨을 보여준다. 본 연구 결과는 LRM의 비판 행동에 대한 귀중한 이해를 제공하며, 자가 검증 메커니즘을 제어하고 개선할 수 있는 유망한 방향을 제시한다. 우리의 코드는 다음에서 확인할 수 있다: https://github.com/mail-research/lrm-critique-vectors.
로그 이상 탐지는 시스템 운영 및 보안 보장에 있어 중요한 과제이다. 그러나 대규모 네트워크 시스템에서는 로그 데이터가 방대한 양으로 생성되는 반면, 인스턴스 수준의 주석은 엄청난 비용이 소요되어 세밀한 이상 위치 파악에 큰 어려움이 따른다. 이러한 문제를 해결하기 위해, 본 논문에서는 배그 수준 레이블만을 사용하여 배그 수준 이상 탐지와 인스턴스 수준 이상 위치 파악을 모두 가능하게 하는 약지도 학습 프레임워크인 LogMILP(프로토타입 및 교란을 활용한 다중 인스턴스 학습 기반 로그 이상 위치 파악)를 제안한다. 본 방법은 반사실적 교란 일관성 정규화를 갖춘 프로토타입 기반 구조적 모델링을 통해 모델이 중요한 로그 항목을 정확히 식별하도록 유도함으로써, 거친 수준의 지도 학습 하에서 위치 파악 신뢰성과 해석 가능성을 향상시킨다. 세 가지 공개 데이터셋에 대한 실험 결과, LogMILP는 경쟁력 있는 탐지 성능을 달성하면서도 훨씬 더 신뢰할 수 있는 인스턴스 수준 위치 파악을 제공함을 보여준다. 본 코드는 https://github.com/YUK1207/LogMILP 에서 오픈소스로 공개된다.