번역이 포함된 일일 선별된 AI 연구 논문
메모리는 AI 에이전트에게 매우 중요하지만, 널리 채택된 정적 메모리는 사전에 즉시 사용 가능한 메모리를 생성하려는 목적으로 심각한 정보 손실을 피할 수 없다. 이러한 한계를 해결하기 위해, 우리는 일반 에이전트 메모리(GAM)라는 새로운 프레임워크를 제안한다. GAM은 "적시 컴파일(JIT)" 원칙을 따르며, 오프라인 단계에서는 단순하지만 유용한 메모리만 유지하면서 런타임에 클라이언트를 위한 최적화된 컨텍스트를 생성하는 데 초점을 맞춘다. 이를 위해 GAM은 다음과 같은 구성 요소로 이루어진 듀오 디자인을 채택한다. 1) 메모라이저(Memorizer): 경량 메모리를 사용하여 주요 역사적 정보를 강조하면서, 보편적인 페이지 저장소 내에 완전한 역사적 정보를 유지한다. 2) 리서처(Researcher): 사전 구축된 메모리의 지도를 받아 페이지 저장소에서 유용한 정보를 검색하고 통합하여 온라인 요청에 대응한다. 이 디자인은 GAM이 최첨단 대형 언어 모델(LLM)의 에이전트 능력과 테스트 시 확장성을 효과적으로 활용할 수 있게 하며, 강화 학습을 통한 종단 간 성능 최적화도 가능하게 한다. 우리의 실험 연구에서 GAM은 기존 메모리 시스템 대비 다양한 메모리 기반 작업 완료 시나리오에서 상당한 개선을 달성함을 보여준다.
인간은 다양한 역학, 관측, 보상 구조를 가진 세계들에서 내재된 규칙을 학습함으로써 자연스럽게 다양한 환경에 적응합니다. 반면, 기존 에이전트들은 일반적으로 단일 도메인 내에서 자기 진화를 통해 향상을 보여주며, 이는 암묵적으로 고정된 환경 분포를 가정합니다. 교차 환경 학습은 대부분 측정되지 않은 채 남아있었는데, 이는 통제 가능하고 이질적인 환경들의 표준 컬렉션도, 에이전트 학습 방식을 통일적으로 표현하는 방법도 없기 때문입니다. 우리는 이러한 격차를 두 단계로 해결합니다. 첫째, 환경을 전이, 관측, 보상에 대한 인수분해 가능한 분포로 취급하여 이질적인 세계의 저비용(평균 4.12 USD) 생성을 가능하게 하는 자동화된 프레임워크인 AutoEnv를 제안합니다. AutoEnv를 사용하여 358개의 검증된 레벨을 가진 36개 환경의 데이터셋인 AutoEnv-36을 구축했으며, 7개의 언어 모델이 이 데이터셋에서 12-49%의 정규화된 보상을 달성하여 AutoEnv-36의 도전 과제를 입증했습니다. 둘째, 우리는 에이전트 학습을 개선 가능한 에이전트 구성요소에 적용된 선택, 최적화, 평가의 세 단계로 구동되는 구성요소 중심 프로세스로 공식화합니다. 이 공식화를 바탕으로 8가지 학습 방법을 설계하고 AutoEnv-36에서 이를 평가합니다. 실증적으로, 단일 학습 방법의 이득은 환경 수가 증가함에 따라 빠르게 감소하여 고정된 학습 방법이 이질적인 환경 간에 확장되지 않음을 보여줍니다. 학습 방법의 환경 적응적 선택은 성능을 상당히 개선하지만, 방법 공간이 확장됨에 따라 체감 수익을 나타냅니다. 이러한 결과는 확장 가능한 교차 환경 일반화를 위한 에이전트 학습의 필요성과 현재의 한계를 동시에 강조하며, AutoEnv와 AutoEnv-36을 교차 환경 에이전트 학습 연구를 위한 테스트베드로 위치시킵니다. 코드는 https://github.com/FoundationAgents/AutoEnv에서 확인할 수 있습니다.
픽셀 확산은 이미지를 픽셀 공간에서 직접 종단간 방식으로 생성하는 것을 목표로 합니다. 이 접근법은 두 단계 잠재 확산에서 VAE의 한계를 피하여 더 높은 모델 용량을 제공합니다. 기존 픽셀 확산 모델은 단일 확산 트랜스포머(DiT) 내에서 고주파 신호와 저주파 의미를 모두 모델링하므로 학습 및 추론 속도가 느린 단점이 있습니다. 보다 효율적인 픽셀 확산 패러다임을 추구하기 위해, 우리는 주파수 분리 픽셀 확산 프레임워크를 제안합니다. 고주파와 저주파 구성 요소의 생성을 분리한다는 직관에 기반하여, 우리는 DiT의 의미론적 지도를 조건으로 고주파 세부 사항을 생성하는 경량 픽셀 디코더를 활용합니다. 이를 통해 DiT는 저주파 의미 모델링에 전문화될 수 있습니다. 또한, 시각적으로 중요한 주파수는 강조하고 중요하지 않은 주파수는 억제하는 주파수 인식 흐름 매칭 손실을 도입합니다. 광범위한 실험을 통해 DeCo가 픽셀 확산 모델 중에서 우수한 성능을 달성하며, ImageNet에서 FID 1.62(256x256) 및 2.22(512x512)를 기록하여 잠재 확산 방법과의 격차를 좁히는 것을 확인했습니다. 더 나아가, 우리의 사전 학습된 텍스트-이미지 모델은 시스템 수준 비교에서 GenEval 기준 선도적인 전체 점수 0.86을 달성했습니다. 코드는 https://github.com/Zehong-Ma/DeCo에서 공개적으로 이용 가능합니다.
깊은 연구 모델은 장문의 출처가 명확한 답변을 생성하기 위해 다단계 연구를 수행합니다. 그러나 대부분의 오픈 소스 깊은 연구 모델은 검증 가능한 보상을 통한 강화 학습(RLVR)을 통해 검증이 쉬운 단문 질의응답 작업에 대해 훈련되어, 현실적인 장문 작업으로 확장되지 못하는 한계가 있습니다. 우리는 이를 진화하는 채점 기준을 통한 강화 학습(RLER)으로 해결합니다. RLER에서는 훈련 과정에서 정책 모델과 함께 공동 진화하는 채점 기준을 구성 및 유지하며, 이를 통해 기준이 모델이 새롭게 탐색한 정보를 통합하고 차별화된 온-정책 피드백을 제공할 수 있도록 합니다. RLER를 사용하여 우리는 개방형 장문 깊은 연구를 위해 직접 훈련된 최초의 오픈 모델인 Deep Research Tulu(DR Tulu-8B)를 개발했습니다. 과학, 헬스케어 및 일반 영역의 4가지 장문 깊은 연구 벤치마크에서 DR Tulu는 기존 오픈 소스 깊은 연구 모델을 크게 능가하고, 상용 깊은 연구 시스템과 동등하거나 그 이상의 성능을 보이면서도 크기와 쿼리당 비용이 훨씬 작습니다. 향후 연구를 촉진하기 위해 새로운 MCP 기반 에이전트 인프라를 포함한 모든 데이터, 모델 및 코드를 공개합니다.
컴퓨터 사용 에이전트(CUA)는 그래픽 사용자 인터페이스(GUI)를 통해 디지털 환경을 자율적으로 운영하는 능력이 점차 향상되고 있습니다. 그러나 대부분의 GUI는 여전히 인간을 주 대상으로 설계되어 미적 요소와 사용성을 우선시함으로써, 에이전트로 하여금 효율적인 작업 수행에 불필요한 인간 중심의 행동을 채택하도록 강요하고 있습니다. 동시에 코드 지향 언어 모델(Coder)의 급속한 발전으로 자동 GUI 설계가 혁신되고 있습니다. 이는 근본적인 질문을 제기합니다: Coder의 자동 GUI 설계를 지원하는 판단자로서 CUA를 활용할 수 있을까? 이를探究하기 위해, 우리는 다양한 분야에 걸친 52개 애플리케이션을 아우르는 자동 GUI 개발 벤치마크인 AUI-Gym을 소개합니다. 언어 모델을 활용하여 현실 세계 시나리오를 모방한 1560개의 작업을 종합합니다. 작업 신뢰성을 보장하기 위해, 각 작업이 해당 환경 내에서 실행 가능한지를 프로그램 방식으로 검증하는 검증기를 추가 개발합니다. 이를 바탕으로 Coder-CUA 협업 프레임워크를 제안합니다: Coder는 Designer 역할로 웹사이트를 생성 및 수정하고, CUA는 Judge 역할로 기능성을 평가하고 설계를 개선합니다. 성공은 시각적 외관이 아닌, 작업 해결 가능성과 CUA 탐색 성공률로 측정됩니다. CUA 피드백을 실용적인 지침으로 전환하기 위해, 다단계 탐색 기록을 간결한 시각적 요약으로 압축하여 반복적 재설계를 위한 해석 가능한 지침을 제공하는 CUA 대시보드를 설계합니다. 에이전트를 설계자이자 판단자로 위치시킴으로써, 우리의 프레임워크는 인터페이스 설계를 에이전트 본연의 효율성과 신뢰성 방향으로 전환합니다. 본 연구는 에이전트가 디지털 환경에서 수동적 사용을 넘어 능동적 참여자로 전환되는 데 한 걸음을 내디딥니다. 우리의 코드와 데이터셋은 https://github.com/showlab/AUI에서 이용 가능합니다.
디퓨전 트랜스포머는 최근 1K 해상도 분야에서 강력한 텍스트-이미지 생성 성능을 보여주었으나, 본 연구에서는 다양한 종횡비에서 기본 4K 해상도로 확장할 경우 위치 인코딩, VAE 압축, 최적화에 걸친 긴밀하게 결합된 실패 모드가 나타남을 보여줍니다. 이러한 요소들을 개별적으로 해결하는 것은 상당한 품질 향상의 기회를 놓치게 합니다. 따라서 우리는 데이터-모델 공동 설계 관점을 취하고 UltraFlux를 소개합니다. 이는 Flux 기반 DiT로, 제어된 다중 종횡비 범위, 이중 언어 캡션, 해상도 및 종횡비 인식 샘플링을 위한 풍부한 VLM/IQA 메타데이터를 갖춘 100만 장 규모의 4K 이미지 코퍼스인 MultiAspect-4K-1M에서 기본적으로 4K 해상도로 학습되었습니다. 모델 측면에서 UltraFlux는 (i) 4K에서 학습-창, 주파수, 종횡비 인식 위치 인코딩을 위한 YaRN과 결합된 Resonance 2D RoPE; (ii) 4K 재구성 충실도를 향상시키는 간단한 비-적대적 사후 학습 VAE 기법; (iii) 타임스텝과 주파수 대역 간 그래디언트 균형을 재조정하는 SNR-인식 Huber Wavelet 목적 함수; (iv) 모델 사전 분포에 의해 제어되는 고-잡음 스텝에 고-심미성 감독을 집중시키는 단계별 심미성 교욱 학습 전략을 결합합니다. 이러한 구성 요소들은 함께 광범위, 정사각형, 세로 길이의 종횡비에 걸쳐 일반화되는 안정적이고 디테일을 보존하는 4K DiT를 구현합니다. 4096 벤치마크에서의 Aesthetic-Eval 및 다중 종횡비 4K 설정에서 UltraFlux는 충실도, 심미성, 정렬도 메트릭 전반에 걸쳐 강력한 오픈소스 기준 모델들을 일관되게 능가하며, LLM 프롬프트 리파이너와 결합 시 독점 모델인 Seedream 4.0에 필적하거나 이를 넘어서는 성능을 보여줍니다.
대규모 비디오 생성 모델은 최근 강력한 시각 능력을 입증하며 현재 관측 프레임의 논리적, 물리적 단서를 따르는 미래 프레임 예측을 가능하게 하였다. 본 연구에서는 프레임 내에 내재된 시각적 신호를 지시어로 해석하여 제어 가능한 이미지-비디오 생성에 이러한 능력을 활용할 수 있는지 탐구하며, 이를 인-비디오 지시어(In-Video Instruction) 패러다임으로 명명한다. 본질적으로 전역적이고 포괄적인 텍스트 설명을 제공하는 프롬프트 기반 제어와 달리, 인-비디오 지시어는 오버레이 텍스트, 화살표, 궤적 등의 요소를 통해 사용자 지침을 시각 영역에 직접 인코딩한다. 이를 통해 서로 다른 객체에 개별 지시어를 할당함으로써 시각적 대상과 의도된 동작 간의 명시적, 공간 인식적, 모호함 없는 대응 관계를 가능하게 한다. Veo 3.1, Kling 2.5, Wan 2.2를 포함한 세 가지 최첨단 생성기에 대한 광범위한 실험을 통해 비디오 모델이 특히 복잡한 다중 객체 시나리오에서 이러한 시각적으로 내재된 지시어를 안정적으로 해석하고 실행할 수 있음을 보여준다.
신뢰할 수 있는 보상 함수는 이미지 생성 분야의 강화 학습(RL)에 필수적입니다. 현재 대부분의 RL 접근법은 인간의 선호도를 근사화하기 위해 스칼라 보상을 출력하는 사전 학습된 선호 모델에 의존합니다. 그러나 이러한 보상은 종종 인간의 인식을 제대로 반영하지 못하며, 더 높은 점수가 더 나은 이미지를 의미하지 않는 '보상 해킹'에 취약합니다. 이를 해결하기 위해 우리는 보상 모델과 생성기를 반복적으로 업데이트하는 적대적 보상을 갖춘 RL 프레임워크인 Adv-GRPO를 제안합니다. 보상 모델은 참조 이미지를 양성 샘플로 사용하여 지도 학습되며, 보상 해킹을 크게 피할 수 있습니다. 매개변수 업데이트를 제약하는 KL 정규화와 달리, 우리가 학습한 보상은 시각적 출력을 통해 생성기를 직접 안내하여 더 높은 품질의 이미지를 생성합니다. 또한 기존 보상 함수를 최적화하면 보상 해킹을 완화할 수 있지만, 그固有的 편향은 여전히 남아 있습니다. 예를 들어 PickScore는 이미지 품질을 저하시킬 수 있는 반면, OCR 기반 보상은 종종 미적 충실도를 낮춥니다. 이를 해결하기 위해 우리는 이미지 자체를 보상으로 삼고, 참조 이미지와 비전 파운데이션 모델(예: DINO)을 활용하여 풍부한 시각적 보상을 제공합니다. 단일 스칼라 값이 아닌 이러한 밀집된 시각적 신호는 이미지 품질, 미적 요소, 작업별 메트릭 전반에 걸쳐 지속적인 성능 향상을 이끕니다. 마지막으로 참조 샘플과 파운데이션 모델 기반 보상을 결합하면 분포 변환과 유연한 스타일 사용자 지정이 가능함을 보여줍니다. 인간 평가에서 우리의 방법은 Flow-GRPO와 SD3를 능가하며, 이미지 품질과 미적 측면에서 각각 70.0%, 72.4%의 승률을 달성했습니다. 코드와 모델은 공개되었습니다.
비전-언어 모델(VLM)은 언어적 공간에서의 추론에는 뛰어나지만, 공간 추론 및 기하학적 인식과 같이 조밀한 시각적 인식을 요구하는 지각적 이해에는 어려움을 겪습니다. 이러한 한계는 현재 VLM이 공간 차원에 걸친 조밀한 시각 정보를 포착할 수 있는 메커니즘이 제한적이라는 사실에서 비롯됩니다. 본 연구에서는 VLM이 단어뿐만 아니라 연속적인 시각 토큰(풍부한 지각 단서를 인코딩하는 컴팩트한 잠재 표현)을 통해서도 추론할 수 있도록 하는 체인-오브-비주얼-사고(COVT) 프레임워크를 소개합니다. 약 20개의 토큰이라는 작은 예산 내에서 COVT는 경량화된 비전 전문가로부터 지식을 추출하여 2D 외관, 3D 기하학, 공간 배치, 에지 구조 등 상호 보완적인 속성을 포착합니다. 학습 과정에서 COVT를 탑재한 VLM은 이러한 시각 토큰을 자기회귀적으로 예측하여 조밀한 감독 신호(예: 깊이, 분할, 에지, DINO 특징)를 재구성합니다. 추론 시에는 모델이 연속적인 시각 토큰 공간에서 직접 추론하여 효율성을 유지하면서, 필요에 따라 해석 가능성을 위해 조밀한 예측 결과를 디코딩합니다. CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA, HRBench 등 10개 이상의 다양한 인식 벤치마크에서 평가한 결과, Qwen2.5-VL 및 LLaVA와 같은 강력한 VLM에 COVT를 통합하면 성능이 3%에서 16%까지 지속적으로 향상되며, 컴팩트한 연속적 시각 사고가 더 정확하고 근거 있으며 해석 가능한 다중모달 인텔리전스를 가능하게 함을 입증했습니다.
대규모 언어 모델(LLM)의 다양한 과제에서 시험 시간 계산량 확장은 성능 향상으로 이어지며, 이는 도구 활용 에이전트로도 확장되었습니다. 이러한 에이전트에게 확장은 토큰 단위의 "사고"뿐만 아니라 도구 호출을 통한 "행동"도 포함됩니다. 도구 호출 횟수는 에이전트의 외부 환경과의 상호작용을 직접적으로 제한합니다. 그러나 단순히 더 많은 도구 호출 예산을 부여하는 것은 에이전트가 "예산 인식" 능력을 갖추지 못하고 빠르게 성능 한계에 도달하기 때문에 성능 향상으로 이어지지 않습니다. 이를 해결하기 위해 우리는 명시적인 도구 호출 예산 하에서 웹 검색 에이전트를 중심으로 이러한 에이전트를 효과적으로 확장하는 방법을 연구합니다. 먼저, 에이전트에게 지속적인 예산 인식을 제공하는 경량 플러그인인 '예산 추적기(Budget Tracker)'를 도입하여 단순하지만 효과적인 확장을 가능하게 합니다. 더 나아가 BATS(Budget Aware Test-time Scaling)라는 고급 프레임워크를 개발하여 이러한 인식을 활용해 잔여 자원에 따라 유망한 단서를 "심층 탐색"할지 새로운 경로로 "전환"할지를 결정하며, 계획 및 검증 전략을 동적으로 조정합니다. 비용-성능 확장을 통제된 방식으로 분석하기 위해 토큰과 도구 사용량을 함께 고려하는 통합 비용 메트릭을 정형화합니다. 우리는 예산이 제한된 에이전트에 대한 첫 번째 체계적인 연구를 제시하며, 예산 인식 방법이 더 유리한 확장 곡선을 생성하고 비용-성능 파레토 최적 경계를 확장함을 보여줍니다. 본 연구는 도구 활용 에이전트의 확장에 대한 더 투명하고 체계적인 이해를 위한 실증적 통찰을 제공합니다.
저희는 경량이면서도 강력한 오픈소스 비디오 생성 모델인 HunyuanVideo 1.5를 소개합니다. 본 모델은 83억 개의 매개변수만으로도 최첨단 시각적 품질과 동작 일관성을 달성하여 소비자용 GPU에서도 효율적인 추론이 가능합니다. 이 성과는 신중하게 구성된 데이터, 선택적 및 슬라이딩 타일 어텐션(SSTA)을 특징으로 하는 향상된 DiT 아키텍처, 문자 인식 텍스트 인코딩을 통한 향상된 양국어 이해, 점진적 사전 학습 및 사후 학습, 효율적인 비디오 초해상도 네트워크를 포함한 여러 핵심 구성 요소에 기반합니다. 이러한 설계를 활용하여 다양한 길이와 해상도에서 고품질의 텍스트-비디오 및 이미지-비디오 생성을 가능하게 하는 통합 프레임워크를 개발했습니다. 광범위한 실험을 통해 이 컴팩트하면서도 능숙한 모델이 오픈소스 비디오 생성 모델 중 새로운 최첨단 기준을 수립함을 입증했습니다. 코드와 모델 가중치를 공개함으로써 비디오 생성 및 연구의 진입 장벽을 낮추고 더 많은 사용자들이 첨단 비디오 생성 기술을 접할 수 있도록 고성능 기반을 커뮤니티에 제공합니다. 모든 오픈소스 자산은 https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5에서 공개적으로 이용 가능합니다.
영상의학은 현대 의학에서 필수적인 역할을 수행하지만, 영상 검사량의 증가 속도는 인력 증가 속도를 훨씬 앞지르고 있습니다. 파운데이션 모델은 영상의학 업무 전반을 지원할 수 있는 길을 제시하지만, 기존 의료 모델들은 한계가 뚜렷합니다. 볼륨 단위 CT와 MRI를 저해상도 2D 단층 영상으로 처리하고, 중요한 그레이스케일 대비 정보를 누락하며, 실제 임상 현장을 반영한 평가 체계가 부족합니다. 본 연구에서는 대규모 학술 센터의 복부-골반 CT 42,990건, 흉부 CT 86,411건, 두경부 CT 14,348건, 유방 MRI 11,543건으로 사전 학습된 영상의학 파운데이션 모델 Pillar-0와, 대규모 언어 모델(LLM)을 이용하여 366가지 영상의학 소견에 대한 구조화된 라벨을 거의 완벽한 정확도로 추출하는 확장 가능한 프레임워크 RATE를 소개합니다. 복부-골반 CT 14,230건, 흉부 CT 10,646건, 두경부 CT 4,906건, 유방 MRI 1,585건으로 구성된 내부 테스트셋에서 Pillar-0는 평균 AUROC 86.4, 88.0, 90.1, 82.9를 달성하며 새로운 성능 한계를确立(확립)했고, MedGemma(Google), MedImageInsight(Microsoft), Lingshu(Alibaba), Merlin(Stanford)을 7.8-15.8 AUROC 점수 차이로 능가하며 전체 태스크의 87.2%(319/366)에서 최고 성능을 기록했습니다. Pillar-0는 Stanford Abdominal CT 데이터셋에 대한 외부 검증에서도 Merlin(82.2 vs 80.6 AUROC)을 포함한 모든 기준 모델을 동일하게 능가했습니다. Pillar-0는 사전 학습 범위를 넘어선 태스크로도 확장 가능하여, 장기적인 폐암 위험 예측에서는 NLST 데이터셋에서 기존 최첨단 모델인 Sybil보다 C-index 3.0점 향상되었으며, MGH(5.9점)와 CGMH(1.9점) 데이터셋에서도 개선된 일반화 성능을 보였습니다. 뇌출혈 탐지에서는 가장 표본 효율성이 높은 다음 기준 모델 대비 1/20에 불과한 데이터만 사용하여 95 이상의 AUROC를 획득했습니다. Pillar-0와 RATE는 함께 개방적이며 임상적으로 엄격한 기반을 제공하여, 컴퓨팅 자원, 데이터, 평가 체계의 제약으로 인해 기존에는 실현 불가능했던 고성능 영상의학 시스템 구축과 응용을 가능하게 합니다.
다중 에이전트 시스템은 일반적인 추론 과제에서 우수한 성능을 보입니다. 그러나 특화 분야에 대한 훈련 부족으로 인해 정확도가 제한됩니다. 기존 훈련 방식은 시스템 내 모든 에이전트를 위해 통합된 대규모 언어 모델(LLM)을 학습시킵니다. 이는 각 에이전트마다 상이한 데이터 분포로 인해 성능 향상에 한계가 있을 수 있습니다. 따라서 서로 다른 LLM을 활용하여 다중 에이전트 시스템을 훈련시키는 것이 다음 단계 과제입니다. 하지만 이 접근법은 최적화 문제를 야기합니다. 예를 들어, 에이전트들은 서로 다른 빈도로 운영되고, 롤아웃 과정에서 하위 에이전트 호출 횟수가 가변적이며, 에이전트들이 종종 별도의 서버에 분산 배치되어 엔드투엔드 경사 흐름이 단절됩니다. 이러한 문제를 해결하기 위해 우리는 주 에이전트(플래너)와 다수의 하위 에이전트(다중 턴 도구 실행자)로 구성된 수직적 다중 에이전트 시스템을 위해 설계된 Group Relative Policy Optimization의 계층적 확장인 M-GRPO를 제안합니다. M-GRPO는 주 에이전트와 하위 에이전트 모두에 대해 그룹 상대적 이점(group-relative advantage)을 계산하여 계층적 기여도 할당을 유지합니다. 또한 가변적인 하위 에이전트 호출에도 불구하고 고정 크기의 배치를 생성하는 궤적 정렬(trajectory-alignment) 기법을 도입합니다. 우리는 에이전트들이 별도 서버에서 운영되고 공유 저장소를 통해 최소한의 통계치만 교환하는 분리된 훈련 파이프라인을 배포합니다. 이를 통해 서버 간 역전파 없이 확장 가능한 훈련이 가능해집니다. 실제 벤치마크(GAIA, XBench-DeepSearch, WebWalkerQA) 실험에서 M-GRPO는 단일 에이전트 GRPO 및 하위 에이전트가 고정된 다중 에이전트 GRPO보다 consistently 우수한 성능을 보였으며, 향상된 안정성과 샘플 효율성을 입증했습니다. 이러한 결과는 이질적인 궤적을 정렬하고 특화된 에이전트 간 최적화를 분리함으로써 도구 강화 추론 과제의 성능이 향상됨을 보여줍니다.
M^3-Bench를 소개합니다. 이는 모델 컨텍스트 프로토콜(Model Context Protocol) 하에서 다중 모달 도구 사용 능력을 평가하는 최초의 벤치마크입니다. 본 벤치마크는 시각적 기반 및 텍스트적 추론, 도구 간 의존성, 단계별 중간 자원의 지속성 등을 요구하는 현실적이고 다중 홉(multi-hop), 다중 스레드(multi-threaded) 워크플로우를 대상으로 합니다. 우리는 유사도 기반 정렬 방식을 도입하여 각 도구 호출을 직렬화하고, 문장 인코더로 시그니처를 임베딩하며, 유사도 버킷 헝가리안 매칭을 수행하여 검증 가능한 1:1 대응 관계를 얻습니다. 이 정렬을 바탕으로 의미론적 정확도와 워크플로우 일관성을 분리하여 보고하는 해석 가능한 지표를 제시합니다. 벤치마크는 231개의 도구와 28개의 서버를 아우르며, Executor & Judge 파이프라인과 인간 검증을 통해 선별된 표준화된 실행 궤적을 제공합니다. 보조적으로 4개의 대형 언어 모델(LLM) Judge 앙상블이 최종 작업 완료도와 정보 기반 정도를 보고합니다. 최신 다중 모달 LLM(MLLM)들의 평가 결과, 특히 인자 정확도와 구조 일관성에서 다중 모달 MCP 도구 사용에 지속적인 격차가 존재함을 보여주며, 이미지, 텍스트, 도구 그래프를 함께 추론하는 방법의 필요성을 강조합니다. 우리 벤치마크의 익명 저장소는 https://github.com/EtaYang10th/Open-M3-Bench 에서 확인할 수 있습니다.
확산 트랜스포머는 시각 합성에서 놀라운 능력을 입증했으나, 고차원적 의미론적 추론과 장기 계획에는 종종 어려움을 겪습니다. 이러한 한계는 복잡한 장면 이해, 인간-객체 상호작용, 다단계 행동, 맥락 내 동작 추론이 포함된 시나리오에서 특히 시각적 환각과 사용자 지시 불일치를 빈번히 초래합니다. 이러한 문제를 해결하기 위해 본 연구에서는 고차원 의미론적 계획을 명시적으로 강화하여 비디오 생성 과정을 지시하는 Plan-X 프레임워크를 제안합니다. 그 핵심에는 학습 가능한 다중모달 언어 모델인 의미론적 플래너가 있으며, 이는 텍스트 프롬프트와 시각적 맥락 모두에서 사용자의 의도를 추론하고, 자동회귀적으로 텍스트 기반 시공간 의미론적 토큰 시퀀스를 생성합니다. 이러한 의미론적 토큰은 고차원 텍스트 프롬프트 지도와 상호 보완적으로 작용하며, 시간에 따른 구조화된 "의미론적 스케치" 역할을 통해 고충실도 시각적 디테일 합성에 강점을 지닌 비디오 확산 모델에 제공됩니다. Plan-X는 다중모달 맥락 내 추론 및 계획에 있어 언어 모델의 강점과 사실적 비디오 합성에 있어 확산 모델의 강점을 효과적으로 통합합니다. 광범위한 실험을 통해 본 프레임워크가 시각적 환각을 상당히 줄이고 다중모달 맥락과 일관된 세밀한 지시-정렬 비디오 생성을 가능하게 함을 입증합니다.
본 논문에서는 동적인 4D 콘텐츠를 동기화된 RGB 프레임과 포인트맵으로 생성하는 통합 4D 생성 및 복원 프레임워크인 One4D를 제안합니다. 통합 마스크 조건화(UMC) 메커니즘을 통해 조건 프레임의 다양한 희소성을 일관되게 처리함으로써, One4D는 단일 이미지로부터의 4D 생성, 전체 비디오로부터의 4D 복원, 그리고 희소 프레임으로부터의 혼합 생성 및 복원 작업 사이에 원활하게 전환될 수 있습니다. 우리의 프레임워크는 강력한 비디오 생성 모델을 RGB와 포인트맵의 결합 생성을 위해 적용하며, 신중하게 설계된 네트워크 아키텍처를 갖추고 있습니다. 깊이맵 또는 포인트맵 복원을 위해 일반적으로 사용되는 디퓨전 미세 조정 전략은 RGB와 포인트맵의 결합 생성 작업에서 종종 실패하며, 기본 비디오 모델의 성능을 빠르게 저하시킵니다. 이러한 문제를 해결하기 위해 우리는 분리된 LoRA 제어(DLC)를 도입했습니다. 이는 두 개의 모달리티별 LoRA 어댑터를 사용하여 RGB 프레임과 포인트맵을 위한 분리된 계산 브랜치를 구성하고, 경량의 영초기화 제어 링크로 연결되어 서로 간의 픽셀 수준 일관성을 점진적으로 학습합니다. 합성 및 실제 4D 데이터셋의 혼합으로 적절한 계산 예산 하에 학습된 One4D는 생성 및 복원 작업 모두에서 높은 품질의 RGB 프레임과 정확한 포인트맵을 생성합니다. 이 연구는 비디오 디퓨전 모델을 사용한 일반적이고 고품질의 기하학 기반 4D 세계 모델링을 향한 한 걸음을 나타냅니다. 프로젝트 페이지: https://mizhenxing.github.io/One4D
다지선다형 질의응답(MCQA)은 현대 멀티모달 언어 모델의 평가 및 강화 미세 조정(RFT)을 위한 인기 있는 형식으로 자리잡았습니다. 제한된 출력 형식은 단순하고 결정론적인 자동 검증을 가능하게 합니다. 그러나 본 연구에서는 선택지가 활용 가능한 신호를 누설할 수 있어 정확도 지표가 실제 능력을 나타내는 데 신뢰할 수 없으며 RFT 과정에서 명시적 또는 암묵적인 답안 추측 행위를 부추길 수 있음을 발견했습니다. 이에 대해 가능한 경우 답변을 검증 가능하게 유지하면서 다지선다형 질문을 개방형 질문으로 재구성하는 ReVeL(LLM 기반 재작성 및 검증) 프레임워크를 제안합니다. 해당 프레임워크는 질문을 다양한 응답 유형에 따라 분류하고 각각 다른 재작성 및 검증 방식을 적용합니다. RFT 적용 시 20,000개의 MCQA 샘플을 변환하여 GRPO로 Qwen2.5-VL 모델을 미세 조정했습니다. ReVeL-OpenQA로 학습된 모델은 다지선다형 벤치마크에서 MCQA 정확도를 유지하면서 개방형 질의응답(OpenQA) 정확도를 약 6%p 향상시켜 MCQA 기반 학습보다 우수한 데이터 효율성과 강건한 보상 신호를 보여주었습니다. 평가에 활용할 경우 ReVeL은 MCQA 벤치마크에서 최대 20%p의 점수 왜곡(OpenQA 대비)을 드러내는 동시에 평가 정확도를 높이고 비용과 지연 시간을 모두 절감했습니다. 코드와 데이터는 공개할 예정입니다.
우리는 상호정보량(MI) 추정기 설계를 위한 완전한 데이터 주도 방식을 제안한다. 모든 MI 추정기는 두 확률 변수에서 관찰된 표본의 함수이므로, 우리는 이 함수를 신경망(MIST)으로 매개변수화하고 종단간 학습을 통해 MI 값을 예측하도록 훈련시킨다. 훈련은 실제 MI 값이 알려진 62만5,000개의 합성 결합 분포로 구성된 대규모 메타 데이터셋에서 수행된다. 다양한 표본 크기와 차원을 처리하기 위해 입력 표본 간의 순열 불변성을 보장하는 2차원 어텐션 기법을 도입하였다. 불확실성을 정량화하기 위해 분위수 회귀 손실을 최적화하여 추정기가 단일 점 추정값을 반환하는 대신 MI의 표본 분포를 근사하도록 한다. 이 연구 프로그램은 완전한 경험적 경로를 채택함으로써 기존 연구와 차별화되며, 보편적인 이론적 보장을 유연성과 효율성과 맞바꾼다. 경험적으로, 학습된 추정기는 훈련 시 관찰되지 않은 결합 분포를 포함하여 다양한 표본 크기와 차원에서 기존의 고전적 기준선을 크게 능가한다. 결과적으로 얻어진 분위수 기반 구간은 잘 보정되어 있으며 부트스트랩 기반 신뢰구간보다 더 신뢰할 수 있는 동시에 추론 속도는 기존 신경망 기준선보다 수 orders of magnitude 빠르다. 즉각적인 경험적 이점을 넘어, 이 프레임워크는 더 큰 학습 파이프라인에 내장될 수 있는 훈련 가능하고 완전히 미분 가능한 추정기를 제공한다. 더 나아가 MI의 가역 변환에 대한 불변성을 활용하면 정규화 흐름을 통해 메타 데이터셋을 임의의 데이터 양식에 맞게 조정할 수 있어 다양한 목표 메타 분포를 위한 유연한 훈련이 가능해진다.
본 연구에서는 래스터 이미지의 세밀하고 제어 가능한 다중 레이어 분리를 달성하기 위한 방법인 Controllable Layer Decomposition(CLD)를 제안한다. 실제 작업 흐름에서 디자이너들은 일반적으로 최종 래스터 이미지로 합성하기 전에 각 RGBA 레이어를 독립적으로 생성하고 편집한다. 그러나 이 과정은 비가역적이며, 일단 합성되면 레이어 수준의 편집은 더 이상 불가능해진다. 기존 방법들은 일반적으로 이미지 매팅과 인페인팅에 의존하지만, 제어성과 분할 정밀도 측면에서 한계가 남아 있다. 이러한 문제를 해결하기 위해 우리는 두 가지 핵심 모듈을 제안한다: 이미지 요소를 별도의 레이어로 분리하고 세밀한 제어를 가능하게 하는 LayerDecompose-DiT(LD-DiT); 그리고 다중 레이어 토큰에 대상 이미지 정보를 주입하여 정확한 조건부 생성을 달성하는 Multi-Layer Conditional Adapter(MLCA)이다. 포괄적인 평가를 위해 우리는 새로운 벤치마크를 구축하고 맞춤형 평가 지표를 도입했다. 실험 결과, CLD는 분해 품질과 제어성 모두에서 기존 방법들을 지속적으로 능가하는 것으로 나타났다. 더 나아가, CLD에 의해 생성된 분리된 레이어들은 PowerPoint와 같은 일반적인 디자인 도구에서 직접 조작이 가능하여, 실제 창의적 작업 흐름에서의 실용적 가치와 적용 가능성을 부각시킨다.
웹 데이터 품질이 대규모 언어 모델에 중요함에도 불구하고, 대부분의 데이터 정제 작업은 필터링과 중복 제거에 집중하며 HTML-텍스트 추출을 고정된 전처리 단계로 취급합니다. 기존 웹 코퍼스는 Trafilatura와 같은 경험적 기반 추출기를 사용하는데, 이러한 도구들은 문서 구조 보존에 어려움을 겪으며 수식, 코드, 표와 같은 구조화된 요소를 자주 훼손합니다. 우리는 추출 품질 향상이 다운스트림 성능에 있어 공격적인 필터링 전략만큼 영향력 있을 것이라는 가설을 세웁니다. 본 연구에서는 콘텐츠 추출을 6억 개 매개변수 언어 모델로 해결되는 시퀀스 레이블링 문제로 재정의한 새로운 추출 파이프라인인 MinerU-HTML을 소개합니다. 텍스트 밀도 휴리스틱과 달리 MinerU-HTML은 의미적 이해를 활용하고, 마크다운으로 변환하기 전에 의미 요소를 명시적으로 분류하는 2단계 포맷팅 파이프라인을 사용합니다. 결정적으로, 모델 기반 접근법은 본질적으로 확장 가능한 반면 휴리스틱 방법은 개선 경로가 제한적입니다. 7,887개의 주석이 달린 웹 페이지로 구성된 벤치마크인 MainWebBench에서 MinerU-HTML은 Trafilatura의 63.6%에 비해 81.8%의 ROUGE-N F1 점수를 달성했으며, 구조화된 요소 보존에서도 탁월한 성능(코드 블록 90.9%, 수식 94.0%)을 보였습니다. MinerU-HTML을 사용하여 우리는 두 개의 Common Crawl 스냅샷에서 7.3조 토큰 규모의 다국어 코퍼스인 AICC(AI-ready Common Crawl)를 구축했습니다. AICC와 Trafilatura로 추출한 TfCC에 동일한 필터링을 적용한 통제된 사전 학습 실험에서, AICC(620억 토큰)로 학습된 모델은 13개 벤치마크에서 평균 50.8% 정확도를 기록하며 TfCC 대비 1.08%p 우수한 성능을 보여 추출 품질이 모델 능력에 중대한 영향을 미친다는 직접적인 증거를 제공합니다. AICC는 주요 벤치마크에서 RefinedWeb과 FineWeb도 능가했습니다. 우리는 MainWebBench, MinerU-HTML 및 AICC를 공개하여 HTML 추출이 웹 코퍼스 구축의 중요하지만 종종 과소평가되는 구성 요소임을 입증합니다.
정보 탐색은 AI 에이전트의 핵심 능력으로, 장기적인 실행 궤적에 걸쳐 도구 생성 정보를 수집하고 추론하는 것을 요구합니다. 그러나 이러한 다단계 정보 탐색 작업은 언어 모델 기반 에이전트에게 여전히 어려운 과제로 남아 있습니다. 과정 보상 모델(PRM)은 테스트 시점에 후보 단계들을 순위화하여 에이전트를 안내할 수 있지만, 이진 판단을 통한 짧은 추론을 위해 설계된 기존 PRM들은 도구 상호작용이나 도구 출력에 대한 추론과 같은 정보 탐색 단계의 풍부한 차원을 포착하지 못하며, 장기 과제에서 급격히 증가하는 맥락을 처리하지도 못합니다. 이러한 한계를 해결하기 위해 우리는 이중 능력으로 훈련된 생성형 PRM인 PRInTS를 소개합니다: (1) PRM의 다중 단계 품질 차원(예: 도구 출력 해석, 도구 호출 정보성)에 걸친 추론을 기반으로 한 조밀 점수화와 (2) 단계 평가에 필수적인 정보를 보존하면서 증가하는 맥락을 압축하는 궤적 요약입니다. FRAMES, GAIA(1-3단계), WebWalkerQA(쉬움-어려움) 벤치마크에서 여러 모델을 대상으로 한 포괄적인 평가와 절제 연구를 통해 확인된 바에 따르면, PRInTS를 활용한 n-최선 표본 추출은 오픈소스 모델뿐만 아니라 특화 에이전트의 정보 탐색 능력을 향상시키며, 훨씬 작은 백본 에이전트로 프론티어 모델의 성능에 맞서거나 능가하고, 다른 강력한 보상 모델링 기준선들을 뛰어넘는 성과를 보입니다.
본 논문에서는 저해상도 특징을 훈련 없이도 고해상도의 픽셀 단위 출력으로 복원하는 경량화된 테스트 타임 최적화(TTO) 프레임워크인 Upsample Anything을 제안한다. 비전 파운데이션 모델은 다양한 다운스트림 작업에서 강력한 일반화 능력을 보여주지만, ViT와 같이 14x/16x로 특징맵이 다운샘플링되는 경우가 많아 픽셀 수준 응용에 직접 사용하기에는 한계가 있다. 기존 특징 업샘플링 방법은 데이터셋 특화 재훈련이나 무거운 암묵적 최적화에 의존하여 확장성과 일반화가 제한된다. Upsample Anything은 공간 및 범위 정보를 결합한 이방성 가우시안 커널을 학습하는 단순한 단일 이미지 최적화를 통해 이러한 문제를 해결하며, 가우시안 스플래팅과 Joint Bilateral Upsampling을 효과적으로 연결한다. 학습된 커널은 아키텍처와 모달리티를 가로지르는 보편적인 에지 인식 연산자로 작동하여 특징, 깊이, 확률 맵의 정밀한 고해상도 복원을 가능하게 한다. 이 방법은 224x224 이미지당 약 0.419초만에 수행되며, 의미 분할, 깊이 추정, 깊이/확률 맵 업샘플링에서 최첨단 성능을 달성한다. 프로젝트 페이지: https://seominseok0429.github.io/Upsample-Anything/
비전 언어 모델(VLM)은 표준 비디오 작업에서 우수한 성능을 보이지만, 운동 역학 및 공간 상호작용을 포함하는 물리 기반 추론에는 어려움을 겪습니다. 이러한 한계는 실제 또는 AI 생성 콘텐츠(AIGC) 비디오를 해석하고 물리적으로 일관된 콘텐츠를 생성하는 VLM의 능력을 저하시킵니다. 본 연구는 물리적 세계의 상황 맥락 단서를 VLM의 인지, 이해, 추론 능력에 부합하는 해석 가능한 표현으로 변환하여 이러한 격차를 해결하는 접근법을 제시합니다. 우리는 물리적 이해 작업에 초점을 맞춘 4,350개의 실제 세계 및 AIGC 비디오와 8,361개의 자유 형식 비디오 질의응답 쌍으로 구성된 포괄적인 벤치마크인 MASS-Bench를 소개합니다. 여기에는 시각적 감지, 하위 세그먼트 그라운딩, 개체에 대한 전체 시퀀스 3D 모션 추적을 포함한 상세 주석이 포함됩니다. 또한 깊이 기반 3D 인코딩과 시각적 그라운딩을 통해 시공간 신호를 VLM 언어 공간에 주입하고, 객체 역학을 위한 모션 트래커와 결합한 모델 불문 방법인 MASS를 제시합니다. 교차 모달 정렬 및 추론 능력을 강화하기 위해 강화 미세 조정을 적용합니다. 실험 및 애블레이션 결과, 우리의 정제된 VLM은 유사 및 더 큰 규모의 베이스라인과 기존 최첨단 모델을 각각 8.7%, 6.0% 능가하며, Gemini-2.5-Flash와 같은 폐쇄형 최첨단 VLM에 버금가는 물리 추론 및 이해 성능을 달성했습니다. 이러한 결과는 우리 접근법의 효과를 입증합니다.
장기 과업 로봇 매니퓰레이션은 최근 제로샷 일반화 및 시뮬레이션-현실 세계 전이 분야에서의 진전에도 불구하고 Vision-Language-Action(VLA) 모델에게 여전히 어려운 과제로 남아 있습니다. 기존 VLA 모델은 단계 환각(stage hallucination) 문제를 겪는데, 이는 에이전트가 다단계 작업을 속임수로 우회하기 위해 coarse한 평가 신호를 활용하여 작업을 실제로 완수하지 않고도 높은 진행률을 보고하는 현상입니다. 본 논문에서는 이 문제를 해결하기 위한 자가 지도 VLA 프레임워크인 EvoVLA를 제안합니다. EvoVLA는 상호 보완적인 세 가지 구성 요소로 구성됩니다: 1) Gemini로 생성된 hard negative를 활용한 triplet 대조 학습을 통해 시각적 단축 경로를 방지하는 Stage-Aligned Reward(SAR), 2) 원시 픽셀 대신 객체-그리퍼 상대 포즈에 호기심을 근거하는 Pose-Based Object Exploration(POE), 3) 확장된 롤아웃 동안 내재적 형성(intrinsic shaping)을 안정화하기 위한 선택적 맥락 유지와 게이트 융합을 사용하는 Long-Horizon Memory입니다. 3가지 다단계 작업으로 구성된 장기 과업 매니퓰레이션 벤치마크인 Discoverse-L에서의 광범위한 평가 결과, EvoVLA는 가장 강력한 베이스라인(OpenVLA-OFT) 대비 평균 작업 성공률을 10.2%p 향상시켜 69.2%에 도달함을 보여줍니다. 또한 EvoVLA는 1.5배 더 나은 샘플 효율성을 달성하고 단계 환각 비율을 38.5%에서 14.8%로 줄였습니다. 물리적 로봇에 대한 실제 현장 적용에서 EvoVLA는 4가지 매니퓰레이션 작업에서 평균 54.6%의 성공률을 기록하여 OpenVLA-OFT를 11%p 앞섰으며, 효과적인 sim-to-real 전이와 강력한 일반화 성능을 입증했습니다. 코드: https://github.com/AIGeeksGroup/EvoVLA. 웹사이트: https://aigeeksgroup.github.io/EvoVLA.
최신 흐름 모델은 뛰어난 품질을 달성하지만 느리고 반복적인 샘플링이 필요합니다. 이를 가속화하기 위해 사전 학습된 교사 모델로부터 흐름 맵을 추출할 수 있는데, 이 과정은 기존에는 외부 데이터셋에서 샘플링을 필요로 했습니다. 우리는 이러한 데이터 의존성이 정적 데이터셋이 교사 모델의 전체 생성 능력을 불완전하거나 오히려 일치하지 않게 표현할 수 있어 '교사-데이터 불일치'라는 근본적인 위험을 초래한다고 주장합니다. 이는 흐름 맵 추출의 성공을 위해 데이터에 대한 이러한 의존이 정말 필요한지 의문을 제기하게 합니다. 본 연구에서는 교사 모델이 구조상 반드시 따르는 사전 분포에서만 샘플링하여 불일치 위험을 완전히 회피하는 데이터 무관 대안을 탐구합니다. 이러한 철학의 실현 가능성을 입증하기 위해, 우리는 교사 모델의 샘플링 경로를 예측하면서 높은 정확도를 보장하기 위해 자체 누적 오류를 능동적으로 수정하는 원리 기반 프레임워크를 제안합니다. 우리의 접근 방식은 모든 데이터 기반 방법을 능가하며 상당한 차이로 새로운 최첨단 기술을确立합니다. 구체적으로, SiT-XL/2+REPA로부터 추출한 우리 방법은 ImageNet 256x256에서 1.45, ImageNet 512x512에서 1.49의 인상적인 FID를 단 1회 샘플링으로 달성합니다. 우리의 연구가 생성 모델 가속화를 위한 보다 강력한 패러다임을确立하고, 데이터 없이 흐름 맵 추출을 더 폭넓게 채택하도록 동기를 부여하기를 바랍니다.
최근 등장한 세계 모델들은 매우 사실적인 비디오를 생성하지만, 로봇 경로 계획 수행 능력은 여전히 명확하지 않으며 정량화되지 않았습니다. 우리는 실제 환경에서 의미론적 목표물을 향한 무지도 경로 계획 작업에 대해 세계 모델을 평가하기 위해 특별히 설계된 최초의 벤치마크인 Target-Bench를 소개합니다. Target-Bench는 45개의 의미론적 범주에 걸친 450개의 로봇 수집 비디오 시퀀스와 SLAM 기반의 실측 궤적 데이터를 제공합니다. 우리의 평가 파이프라인은 생성된 비디오에서 카메라 운동을 복원하고, 목표 도달 능력, 궤적 정확도, 방향 일관성을 정량화하는 5가지 상호 보완적인 지표를 사용하여 계획 성능을 측정합니다. 우리는 Sora 2, Veo 3.1, Wan 시리즈를 포함한 최첨단 모델들을 평가했습니다. 최고의 오프더셸 모델(Wan2.2-Flash)은 전체 점수 0.299에 그쳐, 로봇 계획 작업을 위한 현재 세계 모델의 상당한 한계를 드러냈습니다. 우리는 오픈소스 50억 파라미터 모델을 우리 데이터셋의 325개 시나리오만으로 미세 조정했을 때 전체 점수 0.345를 달성함을 보여주었습니다. 이는 기본 버전(0.066) 대비 400% 이상, 최고의 오프더셸 모델보다 15% 높은 성능 향상입니다. 우리는 코드와 데이터셋을 오픈소스로 공개할 예정입니다.
대규모 언어 모델(LLM)은 "천식을 치료하는 방법은?" 또는 "라트비아의 수도는?"과 같은 사실 관련 작업에 널리 사용됩니다. 그러나 LLM이 내부 확률적 표현에서 참, 거짓, 참도 거짓도 아닌 내용 간의 구분을 얼마나 안정적으로 인코딩하는지는 여전히 불분명합니다. 본 연구는 진리의 운영적 정의에 대한 변화에 대응하는 LLM의 진위 표현 견고성을 '표상 안정성'으로 정의합니다. 우리는 표상 안정성을 (i) LLM의 활성화 값을 기반으로 참과 참이 아닌 문장을 구분하는 선형 탐색기를 훈련시키고, (ii) 통제된 라벨 변경 하에서 학습된 결정 경계가 어떻게 이동하는지를 측정하여 평가합니다. 16개의 오픈소스 모델과 세 가지 사실 영역에서의 활성화 값을 사용하여 두 유형의 중립 문장을 비교합니다. 첫 번째는 훈련 데이터에 존재하지 않는다고 판단되는 개체에 대한 사실적 주장입니다. 이를 '익숙하지 않은 중립 문장'이라고 부릅니다. 두 번째는 잘 알려진 허구적 맥락에서 추출한 비사실적 주장입니다. 이를 '익숙한 중립 문장'이라고 부릅니다. 익숙하지 않은 문장은 가장 큰 경계 이동을 유발하며, 취약한 영역(예: 단어 정의)에서 최대 40%의 진리 판단 반전을 생산하는 반면, 익숙한 허구 문장은 더 응집성 있게 군집을 이루며 더 작은 변화(8.2% 이하)를 보입니다. 이러한 결과는 표상 안정성이 언어적 형태보다 인식적 익숙함에서 비롯됨을 시사합니다. 더 넓게 보면, 우리의 접근법은 출력 정확도만을 최적화하기보다는 의미적 불확실성 하에서 일관된 진리 할당을 보존하도록 LLM을 감사하고 훈련시키기 위한 진단 도구를 제공합니다.
손-물체 상호작용(HOI) 생성은 애니메이션과 로봇공학 분야의 응용 발전에 중요한 역할을 합니다. 현재 비디오 기반 방법론은 주로 단일 뷰에 의존하여 포괄적인 3D 기하학적 인식을 방해하고 기하학적 왜곡이나 비현실적인 운동 패턴을 초래하는 경우가 많습니다. 3D HOI 접근법은 동적으로 그럴듯한 운동을 생성할 수 있지만, 통제된 실험실 환경에서 획득한 고품질 3D 데이터에 대한 의존성으로 인해 실제 환경으로의 일반화가 심각하게 제한됩니다. 이러한 한계를 극복하기 위해 우리는 시각적 사전 지식, 운동 역학, 다중 뷰 기하학을 통합하여 동기화된 다중 뷰 HOI 비디오와 4D 운동을 공동 생성하는 최초의 모델인 SyncMV4D를 소개합니다. 우리의 프레임워크는 두 가지 핵심 혁신을 특징으로 합니다: (1) HOI 비디오와 중간 운동을 공동 생성하는 다중 뷰 공동 디퓨전(MJD) 모델, (2) 거친 중간 운동을 전역적으로 정렬된 4D 계량 점 궤적으로 정제하는 디퓨전 점 정렬기(DPA). 2D 외관과 4D 역학을 긴밀하게 결합하기 위해 폐쇄형 상호 강화 순환 구조를 구축했습니다. 디퓨전 노이즈 제거 과정에서 생성된 비디오는 4D 운동 정제를 조건화하고, 정렬된 4D 점 궤역은 재투영되어 다음 단계의 공동 생성을 안내합니다. 실험적으로 우리의 방법은 시각적 현실감, 운동 타당성, 다중 뷰 일관성 측면에서 최첨단 대안들보다 우수한 성능을 입증했습니다.
설명 충실도는 설명이 모델의 실제 추론 과정을 얼마나 정확하게 반영하는지를 측정하는 지표로, 추천 시스템 분야에서 여전히 심각하게 연구가 부족한 상태이다. 본 연구에서는 SPINRec(신경망 추천 설명을 위한 확률적 경로 통합)를 소개한다. 이는 모델에 독립적인 접근법으로, 경로 통합 기법을 추천 데이터의 희소성과 암묵성에 맞게 적용한 것이다. 기존 방법론의 한계를 극복하기 위해 SPINRec는 확률적 기준점 샘플링을 채택한다: 고정된 또는 비현실적인 기준점에서 통합하는 대신, 경험적 데이터 분포에서 여러 개의 그럴듯한 사용자 프로필을 샘플링하고 가장 충실한 귀속 경로를 선택한다. 이러한 설계는 관측된 상호작용과 관측되지 않은 상호작용의 영향력을 모두 포착하여 보다 안정적이고 개인화된 설명을 제공한다. 우리는 세 가지 모델(MF, VAE, NCF), 세 가지 데이터셋(ML1M, Yahoo! Music, Pinterest), 그리고 AUC 기반 변동 곡선 및 고정 길이 진단을 포함한 일련의 반사실적 메트릭을 통해 현재까지 가장 포괄적인 충실도 평가를 수행한다. SPINRec는 모든 기준 방법을 일관되게 능가하며, 추천 분야에서 충실한 설명 가능성에 대한 새로운 벤치마크를 수립한다. 코드와 평가 도구는 https://github.com/DeltaLabTLV/SPINRec에서 공개되어 있다.
사용자 및 아이템 임베딩에서 단의성 뉴런을 추출하는 방법을 제안한다. 단의성 뉴런은 일관되고 해석 가능한 개념과 정렬되는 잠재 차원으로 정의된다. 우리의 접근법은 사전 학습된 표현 내의 의미론적 구조를 드러내기 위해 Sparse Autoencoder(SAE)를 활용한다. 언어 모델 연구와 달리, 추천 시스템에서의 단의성은 별도의 사용자와 아이템 임베딩 간 상호작용을 보존해야 한다. 이를 위해 고정된 추천 모델을 통해 역전파를 수행하고 학습된 잠재 구조를 모델의 사용자-아이템 선호도 예측과 정렬하는 예측 인식 훈련 목표를 도입한다. 그 결과 생성된 뉴런은 장르, 인기도, 시간적 트렌드 등의 속성을 포착하며, 기본 모델을 수정하지 않고도 타겟 필터링 및 콘텐츠 프로모션을 포함한 사후 제어 작업을 지원한다. 우리의 방법은 다양한 추천 모델과 데이터셋에 일반화되어 해석 가능하고 제어 가능한 개인화를 위한 실용적인 도구를 제공한다. 코드 및 평가 리소스는 https://github.com/DeltaLabTLV/Monosemanticity4Rec에서 확인할 수 있다.
위장 객체 탐지는 색상, 질감, 크기에서 높은 유사성으로 주변 환경에 완벽하게 녹아드는 객체를 식별하고 분할해야 하는 새롭고 도전적인 컴퓨터 비전 과제입니다. 이 과제는 저조도 조건, 부분적 폐색, 작은 객체 크기, 복잡한 배경 패턴, 다중 객체로 인해 더욱 어려워집니다. 이 작업을 위해 많은 정교한 방법들이 제안되었지만, 현재 방법들은 특히 작고 다중 객체가 있는 복잡한 시나리오에서 위장 객체를 정밀하게 탐지하는 데 여전히 어려움을 겪어 개선의 여지가 있음을 보여줍니다. 우리는 Pyramid Vision Transformer 백본을 통해 다중 스케일 특징을 추출하고 특화된 Attention-Based Scale Integration Units을 통해 이를 결합하여 선택적 특징 병합을 가능하게 하는 Multi-Scale Recursive Network를 제안합니다. 보다 정밀한 객체 탐지를 위해, 우리의 디코더는 Multi-Granularity Fusion Units을 통합하여 특징을 재귀적으로 정제합니다. 전역적 맥락 이해를 향상시켜 모델이 이 과제의 어려움을 극복하도록 돕는 새로운 재귀-피드백 디코딩 전략을 개발했습니다. 다중 스케일 학습과 재귀적 특징 최적화를 공동으로 활용함으로써, 우리가 제안하는 방법은 성능 향상을 이루며 작고 다중 위장 객체를 성공적으로 탐지합니다. 우리 모델은 위장 객체 탐지를 위한 두 벤치마크 데이터셋에서 최첨단 결과를 달성하고 나머지 두 데이터셋에서 2위를 기록했습니다. 우리의 코드, 모델 가중치 및 결과는 https://github.com/linaagh98/MSRNet에서 확인할 수 있습니다.