번역이 포함된 일일 선별된 AI 연구 논문
네이티브 병렬 추론기(NPR)는 대규모 언어 모델(LLM)이 진정한 병렬 추론 능력을 자가 진화할 수 있도록 하는 교사 없는 프레임워크입니다. NPR은 세 가지 핵심 혁신을 통해 모델을 순차적 모방에서 네이티브 병렬 인식으로 전환합니다: 1) 외부 감독 없이 "콜드 스타트" 형식 발견부터 엄격한 토폴로지 제약 조건으로 전환하는 자기 증류적 점진적 훈련 패러다임, 2) 실행 그래프 내에서 직접 분기 정책을 최적화하여 모델이 시행착오를 통해 적응적 분해를 학습할 수 있도록 하는 새로운 병렬 인식 정책 최적화(PAPO) 알고리즘, 3) SGLang의 메모리 관리 및 흐름 제어를 재구성하여 안정적인 대규모 병렬 강화 학습을 가능하게 하는 강력한 NPR 엔진. 8개의 추론 벤치마크에서 Qwen3-4B로 훈련된 NPR은 최대 24.5%의 성능 향상과 최대 4.6배의 추론 속도 향상을 달성했습니다. 자동회귀 디코딩으로 후퇴하는 기존 베이스라인과 달리, NPR은 100% 진정한 병렬 실행을 입증하며 자기 진화적이고 효율적이며 확장 가능한 에이전트 추론의 새로운 표준을 수립했습니다.
로터리 위치 임베딩(RoPE)은 복소평면에서 쿼리와 키 벡터에 회전을 적용하여 대규모 언어 모델(LLM)의 시퀀스 순서를 인코딩하는 표준 방식으로 자리잡았습니다. 그러나 표준 구현에서는 어텐션 점수 계산을 위해 복소수 값 내적의 실수부만 활용합니다. 이러한 단순화는 중요한 위상 정보를 포함하는 허수부를 버리게 되어, 장문맥 의존성 모델링에 중요한 관계적 세부 사항의 손실을 초래할 수 있습니다. 본 논문에서는 버려진 이 허수부를 재통합하는 확장 방법을 제안합니다. 우리의 방법은 전체 복소수 값 표현을 활용하여 이중 구성 요소 어텐션 점수를 생성합니다. 이를 통해 더 많은 위치 정보를 보존함으로써 장문맥 의존성 모델링이 향상됨을 이론적 및 실증적으로 입증합니다. 더 나아가, 일련의 장문맥 언어 모델링 벤치마크에서의 평가 결과, 우리 방법이 표준 RoPE 대비 일관적으로 성능을 향상시키며, 이러한 이점은 문맥 길이가 증가함에 따라 더욱 두드러지는 것으로 나타났습니다. 코드는 https://github.com/OpenMOSS/rope_pp에서 확인할 수 있습니다.
기존 비디오 편집 방법은 중요한 절충점에 직면해 있습니다: 전문가 모델은 정밀도를 제공하지만 마스크와 같은 작업별 사전 정보에 의존하여 통합을 방해하고, 반대로 통합된 시간적 맥락 학습 모델은 마스크가 필요 없지만 명시적인 공간적 단서가 부족하여 약한 지시-영역 매핑과 부정확한 지역화를 초래합니다. 이러한 갈등을 해결하기 위해 우리는 Chain-of-Thought 추론에서 영감을 받은 새로운 Chain-of-Frames 접근법인 VideoCoF를 제안합니다. VideoCoF는 비디오 확산 모델이 대상 비디오 토큰을 생성하기 전에 먼저 추론 토큰(편집 영역 잠재 변수)을 예측하도록 강제하여 "보고, 추론한 후 편집" 절차를 적용합니다. 이 명시적 추론 단계는 사용자 제공 마스크가 필요 없으면서도 정확한 지시-영역 정렬과 세밀한 비디오 편집을 가능하게 합니다. 더 나아가, 우리는 이러한 추론 토큰을 활용하여 모션 정렬을 보장하고 훈련 기간을 초과하는 길이 외삽을 가능하게 하는 RoPE 정렬 전략을 도입합니다. 단 50,000개의 비디오 쌍이라는 최소한의 데이터 비용으로 VideoCoF가 VideoCoF-Bench에서 최첨단 성능을 달성하여 우리 접근법의 효율성과 효과성을 입증합니다. 우리의 코드, 가중치, 데이터는 https://github.com/knightyxp/VideoCoF에서 이용할 수 있습니다.
복셀 아트는 게임과 디지털 미디어에서 널리 사용되는 독특한 스타일라이제이션 기법이지만, 3D 메쉬로부터의 자동 생성은 기하학적 추상화, 의미 보존, 이산 색상 일관성이라는 상충되는 요구사항으로 인해 여전히 어려운 과제입니다. 기존 방법들은 기하학을 지나치게 단순화하거나 복셀 아트의 픽셀 단위 정밀도와 팔레트 제약 미학을 달성하지 못합니다. 본 연구에서는 3D 메쉬 최적화와 2D 픽셀 아트 지도를 연결하는 미분 가능한 2단계 프레임워크인 Voxify3D를 소개합니다. 우리의 핵심 혁신은 다음 세 가지 구성 요소의 시너지적 통합에 있습니다: (1) 원근 왜곡을 제거하여 복셀-픽셀 정렬을 정밀하게 하는 직교 픽셀 아트 지도, (2) 이산화 수준에 관계없이 의미를 보존하는 패치 기반 CLIP 정렬, (3) 제어 가능한 팔레트 전략으로 이산 색상 공간에서 미분 가능 최적화를 가능하게 하는 팔레트 제약 Gumbel-Softmax 양자화. 이러한 통합은 극단적 이산화에서의 의미 보존, 체적 렌더링을 통한 픽셀 아트 미학, 종단간 이산 최적화라는 근본적인 문제들을 해결합니다. 실험 결과, 다양한 캐릭터와 제어 가능한 추상화(2-8색, 20x-50x 해상도)에서 우수한 성능(37.12 CLIP-IQA, 77.90% 사용자 선호도)을 보여줍니다. 프로젝트 페이지: https://yichuanh.github.io/Voxify-3D/
참조 영상 생성(R2V)은 참조 이미지의 대상 정체성을 보존하면서 텍스트 프롬프트와 일치하는 영상을 합성하는 것을 목표로 합니다. 그러나 기존 R2V 방법은 명시적인 참조 이미지-영상-텍스트 삼중항에 의존하는 한계가 있으며, 이러한 데이터 구축은 비용이 매우 크고 확장하기 어렵습니다. 우리는 이러한 병목 현상을 명시적인 R2V 데이터 없이도 작동하는 확장 가능한 제로샷 프레임워크인 Saber를 도입하여 우회합니다. Saber는 오직 영상-텍스트 쌍으로만 훈련되며, 마스크 훈련 전략과 맞춤형 어텐션 기반 모델 설계를 통해 정체성 일관성 및 참조 인식 표현을 학습합니다. 참조 영상 생성에서 흔히 발생하는 복사-붙여넣기 아티팩트를 완화하기 위해 마스크 증강 기법이 추가로 통합되었습니다. 더 나아가 Saber는 다양한 수의 참조 이미지에 걸쳐 뛰어난 일반화 능력을 보여주며, R2V 데이터로 훈련된 방법들보다 OpenS2V-Eval 벤치마크에서 우수한 성능을 달성합니다.
대규모 언어 모델(LLM) 기반 다중 에이전트 시스템은 오류가 길고 분기된 상호작용 흐름에서 비롯되는 경우가 많아 디버깅이 어렵습니다. 현재 일반적인 방식은 LLM을 활용한 로그 기반 오류 국소화로, 특정 에이전트와 단계에 오류를 귀속시키는 것입니다. 그러나 이러한 패러다임에는 두 가지 주요 한계가 있습니다: (i) 로그만을 이용한 디버깅은 검증이 부족하여 검증되지 않은 가설을 생성하며, (ii) 단일 단계 또는 단일 에이전트 귀속은 종종 잘 정의되지 않은 문제입니다. 실패한 작업을 복구하기 위해 여러 개별 개입이 독립적으로 효과를 발휘할 수 있기 때문입니다. 첫 번째 한계를 해결하기 위해 우리는 DoVer라는 개입 주도 디버깅 프레임워크를 도입했습니다. 이는 표적 개입(예: 메시지 수정, 계획 변경)을 통한 능동적 검증으로 가설 생성을 보강합니다. 두 번째 한계에 대해서는 귀속 정확도 평가 대신, 시스템이 오류를 해결하거나 작업 성공을 위해 정량적 진전을 이루었는지 측정하는 데 중점을 둡니다. 이는 더욱 결과 지향적인 디버깅 관점을 반영합니다. Magnetic-One 에이전트 프레임워크 내에서 GAIA와 AssistantBench에서 파생된 데이터셋을 대상으로 한 실험에서 DoVer는 실패한 시도의 18-28%를 성공으로 전환했으며, 최대 16%의 중간 진전을 달성하고, 오류 가설의 30-60%를 검증하거나 반증했습니다. DoVer는 다른 데이터셋(GSMPlus)과 에이전트 프레임워크(AG2)에서도 효과적으로 작동하여 실패한 시도의 49%를 복구했습니다. 이러한 결과는 개입이 에이전트 시스템의 신뢰성 향상을 위한 실용적인 메커니즘임을 보여주며, LLM 기반 다중 에이전트 시스템을 위한 더 강력하고 확장 가능한 디버깅 방법 개발의 가능성을 열어줍니다. 프로젝트 웹사이트와 코드는 https://aka.ms/DoVer에서 공개될 예정입니다.
우리는 인터랙티브 AR 애플리케이션을 위한 지시어 기반 1인칭 영상 편집을 연구합니다. 최신 AI 영상 편집기는 3인칭 영상에서는 좋은 성능을 보이지만, 1인칭 시점은 급격한 자체 운동과 빈번한 손-객체 상호작용 같은 독특한 과제를 제시하여 상당한 도메인 차이를 만듭니다. 더욱이 기존의 오프라인 편집 파이프라인은 높은 지연 시간으로 인해 실시간 상호작용을 제한합니다. 이러한 문제를 해결하기 위해 우리는 1인칭 영상 편집을 위한 완전한 생태계를 제시합니다. 첫째, EgoEditData를 구축했습니다. 이는 풍부한 손-객체 상호작용을 특징으로 하면서 손을 명시적으로 보존하도록 특별히 설계되고 수작업으로 정제된, 1인칭 편집 시나리오 전용 데이터셋입니다. 둘째, 단일 GPU에서 실시간 스트리밍 추론을 지원하는 지시어 추종 1인칭 영상 편집기인 EgoEdit을 개발했습니다. 마지막으로, 지시어 충실도, 손 및 상호작용 보존, 자체 운동 하에서의 시간적 안정성을 평가하는 EgoEditBench 평가 도구를 소개합니다. EgoEdit은 1인칭 및 일반 편집 작업 전반에 걸쳐 상호작용 수준의 지연 시간으로 시간적으로 안정적이고 지시어에 충실한 결과를 생성합니다. 이는 기존 방법이 어려움을 겪는 1인칭 편집 벤치마크에서 명확한 성능 향상을 달성하는 동시에 일반 편집 작업에서는 가장 강력한 베이스라인과 비슷한 성능을 유지합니다. EgoEditData와 EgoEditBench는 연구 커뮤니티를 위해 공개될 예정입니다. 자세한 내용은 웹사이트(https://snap-research.github.io/EgoEdit)를 참조하십시오.
최근 강화학습(RL) 기법을 적용함으로써 언어 모델의 추론 능력이 크게 향상된 사례들이 보고되었으나, 사후 훈련이 사전 훈련 단계에서 습득한 능력을 넘어서는 진정한 추론 능력의 확장을 가져오는지는 여전히 명확하지 않습니다. 근본적인 난제는 현대적 훈련 파이프라인에서의 통제 부재에 있습니다: 대규모 사전 훈련 코퍼스는 불투명하고, 중간 훈련 단계는 종종 충분히 분석되지 않으며, RL 목표는 모델의 알려지지 않은 사전 지식과 복잡하게 상호작용합니다. 이러한 모호함을 해결하기 위해, 우리는 사전 훈련, 중간 훈련, RL 기반 사후 훈련의 인과적 기여도를 분리하는 완전히 통제된 실험 프레임워크를 구축했습니다. 우리의 접근법은 명시적인 원자적 연산, 단계별 추론 경로의 구문 분석 가능성, 훈련 데이터 분포의 체계적 조작이 가능한 합성 추론 과제들을 활용합니다. 우리는 모델을 두 가지 축을 따라 평가합니다: 더 복잡한 조합에 대한 외삽 일반화 능력과 표면적 문맥 변화에 대한 맥락 일반화 능력입니다. 이 프레임워크를 통해 우리는 RL의 효과성에 대한 상반된 주장들을 조정합니다. 우리는 다음과 같이 보여줍니다: 1) RL은 사전 훈련이 충분한 향상 여지를 남겨두고, RL 데이터가 모델의 능력 한계(어렵지만 아직 불가능하지 않은 경계 영역의 과제)를 정확히 타겟팅할 때만 진정한 능력 향상(pass@128)을 생산합니다. 2) 맥락 일반화는 최소한이면서 충분한 사전 훈련 노출을 요구하며, 이후 RL은 이를 안정적으로 전이할 수 있습니다. 3) 중간 훈련은 고정된 컴퓨팅 자원 하에서 RL만 적용했을 때보다 성능을 크게 향상시키며, 훈련 파이프라인에서 중간 훈련의 핵심적이지만 제대로 탐구되지 않은 역할을 입증합니다. 4) 과정 수준 보상은 보상 해킹을 줄이고 추론의 정확도를 향상시킵니다. 종합적으로, 이러한 결과들은 사전 훈련, 중간 훈련, RL 간의 상호작용을 명확히 하여, 추론 언어 모델 훈련 전략을 이해하고 개선하기 위한 기초를 제공합니다.
대부분의 시각적 생성 모델은 확산 또는 자기회귀 모델링을 적용하기 전에 이미지를 잠재 공간으로 압축합니다. 그러나 VAE나 파운데이션 모델 정렬 인코더와 같은 기존 접근법은 잠재 공간의 분포를 명시적으로 설계하지 않은 채 암묵적으로 제약을 가해, 어떤 유형의 분포가 모델링에 최적인지 불분명하게 만듭니다. 우리는 분포 매칭 제약을 통해 인코더의 잠재 분포를 임의의 참조 분포와 명시적으로 정렬하는 Distribution-Matching VAE(DMVAE)를 소개합니다. 이는 기존 VAE의 가우시안 사전 분포를 넘어 자기지도 학습 특징, 확산 노이즈 또는 기타 사전 분포에서 유래한 분포와의 정렬을 가능하게 합니다. DMVAE를 통해 우리는 어떤 잠재 분포가 모델링에 더 유리한지 체계적으로 연구할 수 있으며, SSL에서 유래한 분포가 재구성 정확도와 모델링 효율성 사이에서 탁월한 균형을 제공함을 발견했습니다. 이는 ImageNet에서 단 64회의 학습 에폭만으로 gFID 3.2를 달성했습니다. 우리의 결과는 고정된 사전 분포에 의존하기보다는 적합한 잠재 분포 구조를 선택하는 것(분포 수준 정렬을 통해 달성)이 모델링하기 쉬운 잠재 변수와 고정밀 이미지 합성 간의 격차를 해소하는 핵심임을 시사합니다. 코드는 https://github.com/sen-ye/dmvae에서 확인할 수 있습니다.
인간은 단순히 속성 유사성만 보는 것이 아닌 관계적 유사성도 인식합니다. 사과가 복숭아와 비슷한 이유는 둘 다 붉은색 과일이기 때문이지만, 지구도 복숭아와 유사합니다. 지구의 지각, 맨틀, 핵은 각각 복숭아의 껍질, 과육, 씨에 대응되기 때문입니다. 이러한 관계적 유사성을 지각하고 인식하는 능력은 인지 과학자들에 의해 인간을 다른 종과 구별하는 핵심 요소로 논쟁됩니다. 그러나 현재 널리 사용되는 모든 시각 유사성 측정 방법(예: LPIPS, CLIP, DINO)은 오직 지각적 속성 유사성에만 초점을 맞추어 인간이 인지하는 풍부하고 종종 놀라운 관계적 유사성을 포착하지 못합니다. 이미지의 가시적 내용을 넘어 그 관계적 속성을 어떻게 포착할 수 있을까요? 동일한 관계적 논리를 가진 이미지들을 표현 공간에서 어떻게 더 가깝게 만들 수 있을까요? 이러한 질문에 답하기 위해 우리는 먼저 관계적 이미지 유사성을 측정 가능한 문제로 정형화합니다. 두 이미지는 시각 요소들의 속성이 다르더라도, 그 요소들 간의 내부 관계나 기능이 서로 대응될 때 관계적으로 유사하다고 정의합니다. 다음으로, 우리는 캡션이 익명화된 11만 4천 개의 이미지-캡션 데이터셋을 구축했습니다. 이 캡션들은 표면적 내용이 아니라 장면의 근본적인 관계적 논리를 설명합니다. 이 데이터셋을 사용하여 우리는 비전-언어 모델을 미세 조정하여 이미지 간의 관계적 유사성을 측정합니다. 이 모델은 가시적 외관이 아닌 근본적인 관계적 구조로 이미지를 연결하는 첫걸음이 됩니다. 우리의 연구는 관계적 유사성이 많은 실제 응용 가능성을 지니고 있음에도, 기존 이미지 유사성 모델들이 이를 포착하지 못함을 보여주며, 이는 시각 컴퓨팅 분야의 중요한 격차를 드러냅니다.
본 논문에서는 Multi-view Pyramid Transformer(MVP)를 제안한다. MVP는 수십에서 수백 장의 이미지를 단일 순전파만으로 대규모 3D 장면을 직접 복원하는 확장 가능한 다중 뷰 트랜스포머 아키텍처이다. "넓게 보아 전체를 보고, 세밀하게 보아 디테일을 본다"는 아이디어에 기반하여 MVP는 두 가지 핵심 설계 원칙으로 구성된다: 1) 로컬 뷰에서 그룹, 최종적으로 전체 장면에 이르기까지 모델의 시각을 점진적으로 확장하는 지역-전역 간 뷰 계층 구조, 2) 상세한 공간 표현에서 시작하여 점진적으로 정보가 밀집된 컴팩트 토큰으로 집계하는 세밀-거친 내부 뷰 계층 구조. 이 이중 계층 구조는 계산 효율성과 표현적 풍부함을 동시에 달성하여 크고 복잡한 장면의 빠른 복원을 가능하게 한다. 다양한 데이터셋에서 MVP를 검증한 결과, 기본 3D 표현으로 3D Gaussian Splatting과 결합 시 광범위한 뷰 구성에서 높은 효율성과 확장성을 유지하면서 최첨단 일반화 복원 품질을 달성함을 확인하였다.
LongCat-Image를 소개합니다. 이는 이미지 생성 분야의 선구적인 오픈소스 및 중영 이중 언어 기반 모델로, 현재 주류 모델들이 직면한 다국어 텍스트 렌더링, 사실적 화질, 배포 효율성, 개발자 접근성 등의 핵심 과제를 해결하기 위해 설계되었습니다. 1) 사전 학습, 중간 학습, SFT 단계에 걸친 엄격한 데이터 큐레이션 전략과 RL 단계에서의 정교한 보상 모델 연계를 통해 이를 실현하였습니다. 이 전략은 모델이 새로운 SOTA를 달성하여 뛰어난 텍스트 렌더링 능력과 놀라운 사실적 화질, 그리고 크게 향상된 미적 품질을 제공하도록 합니다. 2) 특히 한자 렌더링 분야에 새로운 산업 표준을 제시합니다. 복잡하고 희귀한 문자까지 지원함으로써 커버리지 면에서 주요 오픈소스 및 상용 솔루션들을 능가할 뿐만 아니라 정확도 또한 우수합니다. 3) 이 모델은 컴팩트한 설계로 놀라운 효율성을 달성합니다. 핵심 디퓨전 모델 매개변수가 6B에 불과하여, 해당 분야에서 흔한 20B에 가깝거나 그 이상의 MoE 아키텍처보다 상당히 작습니다. 이는 VRAM 사용량을 최소화하고 추론 속도를 빠르게 하여 배포 비용을 크게 절감합니다. 생성 기능 외에도 LongCat-Image는 이미지 편집에서도 뛰어나며, 다른 오픈소스 작업들에 비해 우수한 편집 일관성을 바탕으로 표준 벤치마크에서 SOTA 성과를 달성합니다. 4) 커뮤니티에 완전한 역량을 부여하기 위해 지금까지 가장 포괄적인 오픈소스 생태계를 구축하였습니다. 중간 학습 및 학습 후 단계의 체크포인트를 포함한 텍스트-이미지 변환 및 이미지 편용용 다중 모델 버전뿐만 아니라 전체 훈련 프로세스 툴체인도 공개합니다. 우리는 LongCat-Image의 개방성이 개발자와 연구자들에게 강력한 지원을 제공하여 시각적 콘텐츠 창작의 최전선을推進할 것이라고 믿습니다.
최근 비디오 생성 모델은 인상적인 합성 능력을 보여주지만 단일 양식 조건화에 제한되어 전체적인 세계 이해에 한계를 보입니다. 이는 포괄적인 세계 지식 표현을 위한 교차 양식 상호작용 부족과 양식 다양성의 한계에서 비롯됩니다. 이러한 한계를 해결하기 위해 우리는 다중 양식(분할 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵)과 훈련 패러다임을 통합 학습하는 세계 인식 비디오 생성 통합 프레임워크인 UnityVideo를 소개합니다. 우리의 접근 방식은 두 가지 핵심 구성 요소를 특징으로 합니다: (1) 이질적인 훈련 패러다임을 통합하기 위한 동적 노이징, (2) 모듈식 매개변수와 문맥 학습을 통한 통합 처리가 가능한 인-컨텍스트 학습기를 갖춘 양식 전환기. 우리는 130만 개의 샘플로 구성된 대규모 통합 데이터셋을 구축했습니다. 공동 최적화를 통해 UnityVideo는 수렴 속도를 가속화하고 보이지 않는 데이터에 대한 제로샷 일반화 성능을 크게 향상시킵니다. UnityVideo가 우수한 비디오 품질, 일관성 및 물리적 세계 제약 조건과의 향상된 정렬을 달성함을 입증합니다. 코드와 데이터는 https://github.com/dvlab-research/UnityVideo에서 확인할 수 있습니다.
대규모 시각 언어 모델(VLM)은 방대한 사전 학습을 통해 양식 간 격차를 효과적으로 연결하고 언어와 정렬된 정교한 시각 표현을 습득합니다. 그러나 다중 양식 이해 작업에 최적화된 이러한 표현이 시각 생성에 내재된 잠재력을 지니는지 여부는 아직 충분히 탐구되지 않았습니다. 본 논문에서는 모든 시각 언어 모델 내에 잠재된 시각 생성 능력을 활성화하도록 설계된 새로운 패러다임인 VGT(Visual Generation Tuning)를 제안합니다. 잘 사전 학습된 VLM에 효율적인 시각 생성 튜닝을 수행함으로써, 우리는 정렬 비용을 크게 절감하고 연속 공간에서의 자기회귀 모델링 수렴 속도를 가속화합니다(20배 향상). 구체적으로, 우리는 확산 트랜스포머를 위해 설계된 복잡한 픽셀 수준 VAE를 배제하고, 사전 학습된 VLM의 의미 인코더를 픽셀 디코더의 잠재 표현과 정렬함으로써 VGT-AE를 구성합니다. 이미지 재구성 작업에서 우리는 28배 압축률에서 26.67 PSNR과 0.50 rFID를 달성하여 특화된 VAE를 능가하며, 시각 생성 작업에서는 자기회귀 모델 중 최첨단 성능인 GenEval에서 0.77, DPG-Bench에서 78.73을 달성했습니다. 더 나아가, 우리가 제안한 VGT는 확장 가능성이 뛰어나며 다중 양식 이해를 위해 훈련된 모든 VLM에 시각 생성 능력을 부여하는 데 다양하게 활용될 수 있어, 차세대 통합 다중 양식 기초 모델을 탐구하는 새로운 길을 열어줍니다. 모델과 코드는 https://github.com/hustvl/VGT에서 확인할 수 있습니다.
밀집된 단계별 피드백을 제공하는 프로세스 보상 모델(PRM)은 강화 학습에 유용한 가능성을 보여왔으나, 여전히 비용이 많이 드는 단계별 주석이나 정답 레퍼런스 필요성으로 인해 적용이 제한되고 있습니다. 우리는 SPARK를 제안합니다: 3단계 프레임워크로, 첫 번째 단계에서는 생성기 모델이 다양한 해결책을 생성하고 검증기 모델이 병렬 스케일링(자기 일관성)과 순차적 스케일링(메타 비판)을 사용하여 이를 평가합니다. 두 번째 단계에서는 이러한 검증 출력을 합성 훈련 데이터로 사용하여 생성형 프로세스 보상 모델을 미세 조정하며, 이 모델은 이후 훈련 중 보상 신호로 기능합니다. 우리는 단계별로 여러 독립 검증을 집계하면 정답 결과 지도 학습을 능가하는 프로세스 보상 모델 훈련 데이터가 생성됨을 보여줍니다. ProcessBench(수학적 추론에서 오류가 있는 단계 식별 벤치마크)에서 67.5 F1을 달성했으며, 이는 레퍼런스 기반 훈련(66.4) 및 GPT-4o(61.9)보다 높은 성능입니다. 마지막 단계에서는 생성형 PRM에 사고 연쇄 검증(PRM-CoT)을 적용하여 수학적 추론 RL 실험에서 보상 모델로 사용하고, 보상 해킹을 방지하기 위해 형식 제약을 도입합니다. Qwen2.5-Math-7B를 사용하여 6개 수학적 추론 벤치마크에서 평균 47.4% 정확도를 달성했으며, 정답 기반 RLVR(43.9%)을 능가합니다. 우리의 연구는 정답 방법을 초과하는 레퍼런스 없는 RL 훈련을 가능하게 하여, 검증 가능한 답변이나 접근 가능한 정답이 부족한 분야에 새로운 가능성을 열어줍니다.
도구 통합 시각 추론(TiVR)은 다중 모드 문제 해결 능력 향상에 큰 잠재력을 보여주고 있습니다. 그러나 기존 TiVR 패러다임은 주로 강화 학습을 통한 다양한 시각 도구 통합에 집중하고, 신뢰할 수 없거나 오류가 있는 도구 출력을 처리하기 위한 효과적인 응답 메커니즘 설계를 소홀히 해왔습니다. 이러한 한계는 참조 및 그라운딩 작업에서 특히 두드러지는데, 부정확한 검출 도구 예측이 TiVR 모델을 환각 추론을 생성하도록 오도하는 경우가 많기 때문입니다. 이 문제를 해결하기 위해 우리는 도구 정제 참조 그라운딩 추론을 목표로 하는 최초의 프레임워크인 VG-Refiner를 제안합니다. 기술적으로는 모델이 도구 피드백을 명시적으로 분석하고 응답할 수 있는 2단계 생각-재고 메커니즘과, 열악한 도구 결과에 효과적으로 대처하는 수정을 장려하는 정제 보상을 도입했습니다. 또한 두 가지 새로운 평가 척도를 제안하고 공정한 평가 프로토콜을 수립하여 현재 모델의 정제 능력을 체계적으로 측정합니다. 우리는 소량의 작업 특화 데이터를 활용하여 VG-Refiner의 정제 능력을 강화했으며, 사전 학습 모델의 일반적인 능력을 유지하면서 참조 및 추론 그라운딩 벤치마크에서 정확도와 수정 능력이 크게 향상된 결과를 달성했습니다.
본 논문에서는 순수 영상 기반의 카메라 제어 신규 궤적 동영상 생성 프레임워크인 ReCamDriving을 제안한다. 복원 기반 방법론은 복잡한 아티팩트를 복원하지 못하고 LiDAR 기반 접근법은 희소하고 불완전한 단서에 의존하는 반면, ReCamDriving은 조밀하고 장면 전체를 포함하는 3DGS 렌더링을 활용하여 명시적인 기하학적 guidance를 제공함으로써 정밀한 카메라 제어 생성을 달성한다. 3DGS 렌더링을 조건으로 사용할 때 복원 동작에 과적합되는 문제를 완화하기 위해 ReCamDriving은 2단계 학습 패러다임을 채택한다. 1단계에서는 카메라 포즈를 사용한 coarse 제어를, 2단계에서는 3DGS 렌더링을 통합한 세밀한 시점 및 기하학적 guidance를 수행한다. 더 나아가, 카메라 변환 패턴에서 발생하는 학습-테스트 간극을 제거하기 위해 3DGS 기반 교차 궤적 데이터 큐레이션 전략을 제시하여 단안 영상으로부터 확장 가능한 다중 궤적 supervision을 가능하게 한다. 이 전략을 바탕으로 11만 개 이상의 병렬 궤적 동영상 쌍을 포함하는 ParaDrive 데이터셋을 구축하였다. 폭넓은 실험을 통해 ReCamDriving이 최첨단 수준의 카메라 제어성과 구조적 일관성을 달성함을 입증한다.
멀티모달 대규모 언어 모델(MLLMs)의 최근 발전은 통합된 인지-추론 능력을 가능하게 했지만, 이러한 시스템들은 여전히 안전 조정을 우회하고 유해한 행동을 유도하는 탈옥 공격에 매우 취약합니다. JailBreakV-28K, MM-SafetyBench, HADES와 같은 기존 벤치마크는 멀티모달 취약성에 대한 유용한 통찰력을 제공하지만, 일반적으로 제한된 공격 시나리오에 초점을 맞추고, 표준화된 방어 평가가 부족하며, 통일되고 재현 가능한 도구 상자를 제공하지 않습니다. 이러한 격차를 해결하기 위해 우리는 멀티모달 탈옥 공격-방어 평가를 위한 포괄적인 도구 상자인 OmniSafeBench-MM을 소개합니다. OmniSafeBench-MM은 13가지 대표적인 공격 방법, 15가지 방어 전략, 그리고 현실적인 사용자 의도를 반영하기 위해 자문형, 명령형, 평서형 질의 유형으로 구조화된 9개 주요 위험 영역과 50개의 세분화된 범주를 아우르는 다양한 데이터셋을 통합합니다. 데이터 범위를 넘어, 이 도구 상자는 (1) 낮은 영향의 개인적 피해부터 재앙적인 사회적 위협까지 세분화된 다단계 척도로 구분되는 유해성, (2) 응답과 질의 간의 의도 일치도, (3) 응답의 상세 수준을 측정하는 3차원 평가 프로토콜을 확립하여 미묘한 안전성-유용성 분석을 가능하게 합니다. 우리는 10개의 오픈소스와 8개의 클로즈드소스 MLLM에 대한 광범위한 실험을 수행하여 멀티모달 탈옥에 대한 이들의 취약성을 밝혔습니다. 데이터, 방법론, 평가를 오픈소스이면서 재현 가능한 플랫폼으로 통합함으로써, OmniSafeBench-MM은 향후 연구를 위한 표준화된 기반을 제공합니다. 코드는 https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM에서 공개되었습니다.
주체 기반 이미지 생성 분야에서의 유망한 발전에도 불구하고, 현재 모델들은 참조 정체성에서 벗어나거나 여러 주체가 등장하는 복잡한 장면에서 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 주체 기반 생성 및 조작을 위한 2.5M 개의 샘플과 4.35M 개의 이미지로 구성된 비디오 기반 대규모 코퍼스인 OpenSubject를 소개합니다. 본 데이터셋은 프레임 간 정체성 사전 정보를 활용하는 4단계 파이프라인으로 구축되었습니다. (i) 비디오 큐레이션: 해상도 및 미적 기준 필터링을 적용하여 고품질 클립을 확보합니다. (ii) 프레임 간 주체 탐색 및配对: 비전-언어 모델 기반 범주 합의, 지역 위치 추정, 다양성 인식配对를 활용하여 이미지 쌍을 선택합니다. (iii) 정체성 보존 참조 이미지 합성: 세그멘테이션 맵 기반 아웃페인팅을 통해 주체 기반 생성을 위한 입력 이미지를 합성하고, 박스 기반 인페인팅을 통해 주체 기반 조작을 위한 입력 이미지를 생성하며, 기하학적 인식 증강 및 불규칙 경계 침식을 함께 적용합니다. (iv) 검증 및 캡션 생성: 비전-언어 모델을 활용하여 합성된 샘플을 검증하고, 실패한 샘플은 (iii)단계를 기반으로 재합성한 후 짧은 캡션과 긴 캡션을 구성합니다. 또한, 주체 기반 생성 및 조작을 포괄하는 벤치마크를 도입하고 비전-언어 모델 평가자를 통해 정체성 정확도, 프롬프트 준수도, 조작 일관성, 배경 일관성을 평가합니다. 폭넓은 실험을 통해 OpenSubject로 학습 시 생성 및 조작 성능, 특히 복잡한 장면에서의 성능이 향상됨을 확인했습니다.
디코딩 기반 회귀는 회귀 문제를 시퀀스 생성 작업으로 재구성하여 대규모 언어 모델을 수치 예측에 적용하는 유망한 패러다임으로 부상했습니다. 그러나 이 방법의 발전은 이산적인 토큰 수준의 목적 함수(예: 교차 엔트로피)와 연속적인 수치 값 사이의 불일치로 인해 저해되고 있습니다. 토큰 수준 제약에 의존하는 기존 접근법은 종종 목표 값의 전반적인 크기(global magnitude)를 제대로 포착하지 못해 정밀도와 일반화 성능이 제한됩니다. 본 논문에서는 강화 학습을 통해 디코딩 기반 회귀의 잠재력을 극대화하고자 제안합니다. 생성 과정을 마르코프 결정 과정으로 공식화하고, 시퀀스 수준 보상을 활용하여 전역적인 수치 일관성을 강화합니다. 표 형태 데이터 회귀 및 코드 메트릭 회귀에 대한 광범위한 실험을 통해, 우리의 방법(특히 ReMax 및 GRPO 사용 시)이 최첨단 토큰 수준 베이스라인과 기존 회귀 헤드 모두를 꾸준히 능가함을 입증하여 시퀀스 수준 신호 도입의 우수성을 보여줍니다. 우리의 분석은 더 나아가 강화 학습이 샘플링 효율성과 예측 정밀도를 현저히 향상시켜, 디코딩 기반 회귀를 일반적인 수치 예측을 위한 강력하고 정확한 패러다임으로 정립함을 보여줍니다.
시각 생성 모델(예: 확산 모델)은 일반적으로 학습 효율성과 샘플 품질의 균형을 맞추기 위해 압축된 잠재 공간에서 동작합니다. 동시에, 고품질 사전 학습된 시각 표현을 VAE 내부에 정렬하거나 생성 모델 내에서 직접 활용하는 데 대한 관심이 높아지고 있습니다. 그러나 이해 지향적 특징과 생성 친화적 잠재 공간 간의 근본적인 불일치로 인해 이러한 표현을 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 표현 인코더는 마스킹된 영역에 대한 다양한 가설을 포착하는 고차원 잠재 공간으로부터 이점을 얻는 반면, 생성 모델은 주입된 노이즈를 충실히 보존해야 하는 저차원 잠재 공간을 선호합니다. 이러한 차이로 인해 기존 연구들은 복잡한 목적 함수와 아키텍처에 의존해 왔습니다. 본 연구에서는 사전 학습된 시각 표현을 생성에 적합한 저차원 잠재 공간으로 단일 어텐션 계층만을 사용하여 적응시키면서도 재구성과 이해에 모두 충분한 정보를 보존하는 간단하면서 효과적인 프레임워크인 FAE(Feature Auto-Encoder)를 제안합니다. 핵심은 두 개의 별도 심층 디코더를 결합하는 것으로, 하나는 원본 특징 공간을 재구성하도록 학습되고, 두 번째는 재구성된 특징을 이미지 생성의 입력으로 사용합니다. FAE는 범용적으로, 다양한 자기 지도 인코더(예: DINO, SigLIP)로 구현될 수 있으며 두 가지 다른 생성 모델 패밀리(확산 모델과 정규화 흐름)에 연결될 수 있습니다. 클래스 조건부 및 텍스트-이미지 벤치마크에서 FAE는 강력한 성능을 달성합니다. 예를 들어, ImageNet 256x256에서 CFG를 사용한 우리의 확산 모델은 약 1.29(800 에포크) 및 1.70(80 에포크)의 거의 최첨단 FID를 달성했습니다. CFG 없이도 FAE는 1.48(800 에포크) 및 2.08(80 에포크)의 최첨단 FID에 도달하여 높은 품질과 빠른 학습 속도를 모두 입증했습니다.
우리는 군 작용(group action)에 기반한 위치 인코딩의 통합 프레임워크인 GRAPE(Group RepresentAtional Position Encoding)를 제안한다. GRAPE는 두 가지 메커니즘 계열을 통합한다: (i) SO(d)에서의 곱셈적 회전(Multiplicative GRAPE)과 (ii) 일반 선형군 GL 내 단일순(unipotent) 작용에서 비롯된 가법적 로짓 바이어스(Additive GRAPE). Multiplicative GRAPE에서 Z 내 위치 n(또는 R 내 t)은 순위-2 반대칭 생성자 L ∈ R^{d × d}를 사용하여 G(n)=exp(n,ω,L)로 작용하며, 닫힌 형태의 행렬 지수 함수를 갖는 상대적, 구성적, 놈 보존적 매핑을 생성한다. d/2 개의 평면이 로그 균일 스펙트럼을 갖는 표준 좌표 쌍일 때 RoPE가 정확히 복원된다. 학습된 교환 부분공간과 컴팩트한 비교환 혼합은 이 기하구조를 엄격하게 확장하여 각각 헤드당 O(d) 및 O(r d)의 비용으로 부분공간 간 특징 결합을 포착한다. Additive GRAPE에서는 순위-1(또는 낮은 순위) 단일순 작용으로서 가법적 로짓이 발생하며, 정확한 상대성 법칙과 스트리밍 캐시 가능성을 보존하면서 ALiBi와 Forgetting Transformer(FoX)를 정확한 특수 사례로 복원한다. 전체적으로 GRAPE는 장문맥 모델에서 위치 기하구조를 위한 원칙적인 설계 공간을 제공하며, RoPE와 ALiBi를 특수 사례로 포괄한다. 프로젝트 페이지: https://github.com/model-architectures/GRAPE.
자동회귀(AR) 생성 모델의 최근 발전으로 미디어 합성을 위한 강력한 시스템이 점차 등장하고 있다. 이 중 다음 단계 규모 예측은 모델이 coarse-to-fine 방식으로 이미지를 생성하는 인기 있는 패러다임으로 부상했다. 그러나 규모별 AR 모델은 생성 품질을 저해하는 노출 편향 문제를 겪는다. 우리는 이 문제의 두 가지 주요 원인을 규명했다: (1) 추론 시 모델이 자신의 불완전한 예측에 의존해야 하는 훈련-테스트 불일치, 그리고 (2) 특정 규모에서 불균형적으로 높은 최적화 복잡성이 나타나는 규모별 학습 난이도 불균형이다. 훈련 역학에 대한 포괄적 분석을 통해 우리는 이러한 한계를 해결하기 위한 자기-자동회귀 정교화(SAR)를 제안한다. SAR는 경량 자동회귀 롤아웃을 수행하여 모델이 자신의 중간 예측 결과를 접하도록 함으로써 훈련-테스트 패턴을 일치시키는 Stagger-Scale Rollout(SSR) 메커니즘과, 자기 생성 컨텍스트에 대한 적절한 감독을 제공하여 안정적인 훈련을 보장하는 상호 보완적인 Contrastive Student-Forcing Loss(CSFL)를 도입한다. 실험 결과는 사전 훈련된 AR 모델에 SAR를 적용하면 최소한의 계산 오버헤드로 생성 품질이 지속적으로 향상됨을 보여준다. 예를 들어, SAR는 ImageNet 256으로 훈련된 FlexVAR-d16에서 10에포크(32xA100 GPU 기준 5시간) 내에 5.2%의 FID 개선을 달성했다. 효율성, 확장성 및 효과성을 고려할 때, SAR는 시각적 자동회귀 생성을 위한 신뢰할 수 있는 사후 훈련 방법으로 기대된다.
최근 시각-언어 모델(VLM)은 강화 학습(RL)을 통해 놀라운 추론 능력을 달성하며, 경험 시대에 지속적 자기 진화 대형 시각-언어 모델(LVLM)을 실현할 수 있는 실행 가능한 솔루션을 제공합니다. 그러나 VLM을 위한 RL은 풍부한 고품질 다중모드 데이터를 필요로 하며, 특히 화학, 지구 과학, 다중모드 수학과 같은 전문 분야에서는 매우 어려운 과제입니다. 합성 데이터 및 자기 보상 메커니즘과 같은 기존 전략은 제한된 분포와 정렬 어려움으로 인해 결국 보상 해킹(reward hacking)을 초래합니다. 즉, 모델이 높은 보상 패턴을 악용하여 정책 엔트로피가 붕괴되고 훈련이 불안정해집니다. 우리는 DoGe(Decouple to Generalize)를 제안합니다. 이는 이중 분리 프레임워크로, 합성 데이터 방법이 간과한 문제 맥락 시나리오에 다시 주목함으로써 모델이 문제 해결보다 먼저 맥락에서 학습하도록 유도합니다. 학습 과정을 이중 구성 요소(Thinker와 Solver)로 분리함으로써 이 과정의 보상 신호를 합리적으로 정량화하고, 자유로운 맥락 탐색에서 실질적인 과제 해결에 이르는 2단계 RL 사후 훈련 접근법을 제안합니다. 둘째, 훈련 데이터의 다양성을 높이기 위해 DoGe는 진화하는 커리큘럼 학습 파이프라인, 즉 확장된 기본 도메인 지식 코퍼스와 반복적으로 진화하는 시드 문제 풀을 구축합니다. 실험 결과, 우리의 방법은 다양한 벤치마크에서 기준선을 꾸준히 능가하며, 자기 진화 LVLM을 실현하기 위한 확장 가능한 경로를 제공합니다.
로봇 조작에서의 일반화는 개방형 환경에서 로봇을 배치하고 인공 일반 지능(AGI)으로 나아가기 위한 필수 요소입니다. 최근의 시각-언어-행동(VLA) 모델들은 대규모 사전 학습된 이해 모델을 활용하여 지각 및 지시 수행 능력을 갖추고 있지만, 새로운 작업, 객체, 환경에 대한 일반화 능력은 여전히 제한적입니다. 본 연구에서는 대규모 비디오 생성 모델을 로봇 VLA 조작기로 변환하는 가능성을 탐구하는 간단한 접근법인 VideoVLA를 제시합니다. 언어 지시와 이미지가 주어지면 VideoVLA는 행동 순서와 미래의 시각적 결과를 예측합니다. 다중 모드 Diffusion Transformer를 기반으로 하는 VideoVLA는 비디오, 언어, 행동 양식을 공동으로 모델링하며, 사전 학습된 비디오 생성 모델을 사용하여 시각 및 행동 예측을 결합합니다. 우리의 실험은 높은 품질의 예측된 미래가 신뢰할 수 있는 행동 예측 및 작업 성공과 상관관계가 있음을 보여주며, 조작에서 시각적 상상력의 중요성을 강조합니다. VideoVLA는 다른 구현체의 기술 모방 및 새로운 객체 처리를 포함한 강력한 일반화 능력을 입증합니다. 이중 예측 전략(행동과 그에 따른 시각적 결과를 모두 예측)은 로봇 학습의 패러다임 전환을 탐구하고 조작 시스템의 일반화 능력을 개방합니다.
장기 문맥 대화 시스템은 정적 제약으로 인해 진화하는 사용자 의도와 확립된 역사적 문맥 간 충돌을 해결하지 못하는 상태 관성(State Inertia) 문제를 겪습니다. 이를 해결하기 위해 우리는 충돌 인식 동적 KL 제약과 보정된 시간적 주의 편향을 상호 보완적으로 결합한 비파괴적 정렬 프레임워크인 DZ-TDPO를 제안합니다. Multi-Session Chat(MSC) 데이터셋 실험 결과, DZ-TDPO는 Phi-3.5 기준 55.4%의 최첨단 승률을 달성하면서도 강력한 제로샷 일반화 성능을 유지했습니다. 우리의 확장성 분석은 "용량-안정성 트레이드오프(Capacity-Stability Trade-off)"를 보여줍니다: 소규모 모델은 역사적 관성을 극복하기 위해 "정렬 부담(alignment tax)(퍼플렉서티 급증)"을 치르는 반면, 더 큰 Qwen2.5-7B 모델은 퍼플렉서티 오버헤드가 거의 없이 50.8%의 승률을 달성했습니다. 이는 TAI가 파괴적인 가중치 업데이트보다 정밀한 주의 규제를 통해 완화될 수 있음을 확인하며, 모델 규모 전반에 걸쳐 일반 능력(MMLU)을 보존합니다. 코드와 데이터는 다음에서 이용 가능합니다: https://github.com/lyj20071013/DZ-TDPO
로봇이 인간의 작업 공간에 진입함에 따라, 직관적이고 유창한 인간-로봇 상호작용(HRI)을 가능하게 하기 위해 로봇이 구체화된 인간의 지시를 이해할 수 있는 능력이 중요하게 요구됩니다. 그러나 다양한 HRI 환경에서 자연스러운 구체화된 상호작용을 포착하는 대규모 데이터셋의 부족으로 인해 정확한 이해는 어려운 과제입니다. 기존 데이터셋은 시점 편향, 단일 시점 수집, 비언어적 제스처 커버리지 부족, 실내 환경에 대한 편중된 초점 등의 한계를 지닙니다. 이러한 문제를 해결하기 위해 우리는 실내 및 실외 환경에서 다양한 시점으로 수집된 구체화된 언어적 및 비언어적 상호작용의 대규모 데이터셋인 Refer360 데이터셋을 제시합니다. 추가적으로, 구체화된 참조 표현 이해를 향상시키기 위해 설계된 다중 양식 가이드 잔여 모듈인 MuRes를 소개합니다. MuRes는 정보 병목 현상으로 작용하여 두드러진 양식별 신호를 추출하고 사전 훈련된 표현에 이를 강화하여 하류 작업을 위한 상호 보완적 특징을 형성합니다. Refer360 데이터셋을 포함한 4개의 HRI 데이터셋에 대한 광범위한 실험을 수행하며, 현재의 다중 양식 모델들이 구체화된 상호작용을 포괄적으로 파악하지 못함을 보여줍니다. 그러나 MuRes로 이를 보강하면 성능이 지속적으로 향상됩니다. 이러한 연구 결과는 Refer360을 가치 있는 벤치마크로 확립하고, 인간 환경 내에서 운영되는 로봇의 구체화된 참조 표현 이해 능력을 발전시키기 위한 가이드 잔여 학습의 잠재력을 입증합니다.
경사도 기반 게임 학습에 대한 기존 수렴 보장 조건은 Rosen(1965)이 보여준 바와 같이 유사 경사도(pseudo-gradient)가 유클리드 기하에서 (강) 단조(monotone)해야 하지만, 이 조건은 강한 상호 플레이어 결합(cross-player coupling)이 존재하는 단순 게임에서도 종종 위반됩니다. 본 연구에서는 사용자 정의 블록 가중치 기하(block-weighted geometry)에서의 블록 소게인(block small-gain) 조건인 SGN(Small-Gain Nash)을 소개합니다. SGN은 국소 곡률(local curvature)과 상호 플레이어 립시츠 결합(cross-player Lipschitz coupling) 경계를 수렴성(contraction)의 검증 가능한 증명서(tractable certificate)로 변환합니다. 이는 유클리드 의미에서 비단조(non-monotone)일지라도, 해당 경계가 유지되는 임의의 영역에서 유사 경사도가 강한 단조성을 갖도록 하는 가중 블록 계량(weighted block metric)을 구성합니다. 연속 흐름(continuous flow)은 이렇게 설계된 기하에서 지수적으로 수렴하며, SGN 마진(margin)과 국소 립시츠 상수로부터 유도된 명시적 단계 크기(step-size) 범위 내에서 투영 오일러(projected Euler) 및 RK4 이산화(discretization)가 수렴합니다. 우리의 분석은 인증된 "시간尺度 대역(certified timescale band)"을 보여주는데, 이는 점근적이지 않은(non-asymptotic) 계량 기반 증명서로 TTUR과 유사한 역할을 합니다: 즉, 사라지고 서로 다른 단계 크기를 통해 점근적 시간尺度 분리(asymptotic timescale separation)를 강제하는 대신, SGN은 단일 단계 크기(single-step-size) 역학이 검증 가능하게 수렴하는 상대적 계량 가중치의 유한 대역을 식별합니다. 우리는 유클리드 단조성 분석이 수렴을 예측하지 못하는 2차 게임(quadratic games)에서 본 프레임워크를 검증하고(SGN은 성공적으로 수렴을 증명함), 마르코프 게임(Markov games)의 엔트로피 정규화 정책 경사도(entropy-regularized policy gradient)를 위한 미러/피셔 기하(mirror/Fisher geometries)로 구성을 확장합니다. 그 결과는 컴팩트 영역(compact regions)에서 곡률, 결합, 립시츠 매개변수를 추정하고, SGN 마진을 확대하기 위해 블록 가중치를 최적화하며, 비단조 게임(non-monotone games)에 대한 계량(metric), 수렴율(contraction rate), 안전한 단계 크기(safe step-sizes)로 구성된 구조적이고 계산 가능한 수렴 증명서(structural, computable convergence certificate)를 반환하는 오프라인 검증 파이프라인(offline certification pipeline)입니다.
벡터 양자화 변분 자동인코더(VQ-VAE)는 이미지를 이산 토큰으로 압축하는 이산 자동인코더입니다. 이산화로 인해 학습이 어렵다는 문제가 있습니다. 본 논문에서는 특정 제약 조건이 있는 가우시안 VAE를 추가 학습 없이 VQ-VAE로 변환하는 Gaussian Quant(GQ)라는 간단하면서 효과적인 기법을 제안합니다. GQ는 무작위 가우시안 노이즈를 코드북으로 생성하고 사후 평균에 가장 가까운 노이즈를 찾습니다. 이론적으로는 코드북 크기의 로그값이 가우시안 VAE의 비트-백 코딩 속도를 초과할 때 작은 양자화 오차가 보장됨을 증명합니다. 실제적으로는 효과적인 GQ를 위해 가우시안 VAE를 학습하는 휴리스틱 방법인 목표 발산 제약(TDC)을 제안합니다. 실험적으로 GQ가 UNet과 ViT 아키텍처 모두에서 VQGAN, FSQ, LFQ, BSQ와 같은 기존 VQ-VAE들을 능가함을 보입니다. 더 나아가 TDC는 TokenBridge와 같은 기존 가우시안 VAE 이산화 방법들보다도 향상된 성능을 보입니다. 소스 코드는 https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE에서 확인할 수 있습니다.
구조화된 텍스트 번역에 대한 최근 연구들은 복잡한 문서 수준의 XML 또는 HTML 구조를 효과적으로 처리하지 못해 여전히 문장 수준에 국한되고 있다. 이를 해결하기 위해 우리는 감독 미세조정 모델 위에 그룹 상대 정책 최적화를 적용하여 새로운 구조 인식 보상 함수를 직접 최적화하는 Format 강화 학습(FormatRL)을 제안한다: 1) 예측된 XML 트리와 참조 XML 트리 간의 구조적 유사성을 측정하는 TreeSim과 2) XML 노드 수준에서 번역 품질을 측정하는 Node-chrF이다. 추가로 사소한 오류와 주요 구조적 실패를 구분하는 세분화된 평가 지표인 StrucAUC를 적용한다. SAP 소프트웨어 문서 벤치마크에서의 실험은 6가지 평가 지표 전반에 걸쳐 개선을 보여주며, 추가 분석을 통해 서로 다른 보상 함수가 구조적 및 번역 품질 개선에 어떻게 기여하는지 입증한다.
강건한 음성 표현 학습을 위해 Joint-Embedding Predictive Architecture(JEPA)와 Density Adaptive Attention Mechanism(DAAM)을 결합한 2단계 자기 지도 프레임워크를 소개한다. 1단계에서는 JEPA와 DAAM을 활용하여 잠재 공간 내 마스킹 예측을 통해 파형 재구성과 완전히 분리된 의미론적 오디오 특징을 학습한다. 2단계에서는 이러한 표현을 바탕으로 Finite Scalar Quantization(FSQ)과 혼합 기수 패킹 방식을 사용한 효율적인 토큰화를 수행한 후, HiFi-GAN 디코더를 통한 고품질 파형 재구성을 수행한다. JEPA 인코더에 가우시안 혼합 모델 기반의 밀도 적응 게이팅을 통합함으로써, 모델은 적응형 시계열 특징 선택을 수행하고 2.5Hz의 낮은 프레임 레이트에서 계층적 음성 구조를 발견한다. 그 결과 생성되는 토큰(초당 47.5 토큰)은 기존 신경망 오디오 코덱과 비교하여 경쟁력 있으면서도 종종 더 효율적인, 가역적이며 높은 압축률을 가지며 언어 모델에 친화적인 표현을 제공한다.
본 논문은 최신 두 세그먼트 애니씽 모델인 SAM2와 SAM3 간의 근본적인 불연속성을 조사한다. 우리는 SAM2의 프롬프트 기반 분할 전문성이 왜 SAM3의 다중모달 개념 주도 패러다임으로 이전되지 않는지 설명한다. SAM2는 공간 프롬프트(점, 상자, 마스크)를 통해 작동하여 순수 기하학적 및 시간적 분할을 산출한다. 이와 대조적으로 SAM3는 개방형 어휘 추론, 의미 기반 연결, 대조 정렬 및 예시 기반 개념 이해가 가능한 통합 비전-언어 아키텍처를 도입한다. 우리는 이 분석을 다섯 가지 핵심 구성 요소를 통해 구조화한다: (1) 프롬프트 기반과 개념 기반 분할 간의 개념적 단절로, SAM2의 공간 프롬프트 의미론과 SAM3의 다중모달 융합 및 텍스트 조건 마스크 생성을 대비한다; (2) 아키텍처적 분기로, SAM2의 순수 비전-시간 설계와 SAM3의 비전-언어 인코더, 기하학 및 예시 인코더, 융합 모듈, DETR 스타일 디코더, 객체 쿼리, Mixture-of-Experts를 통한 모호성 처리의 통합을 상세히 설명한다; (3) 데이터셋 및 주석 차이로, SAM2의 SA-1B 비디오 마스크와 SAM3의 다중모달 개념 주석 코퍼스를 대비한다; (4) 훈련 및 하이퍼파라미터 차이로, SAM2 최적화 지식이 왜 SAM3에 적용되지 않는지 보여준다; (5) 평가, 메트릭 및 실패 모드로, 기하학적 IoU 메트릭에서 의미론적, 개방형 어휘 평가로의 전환을 개괄한다. 이러한 분석들을 종합하여 SAM3를 새로운 부류의 분할 기초 모델로 규정하고 부상하는 개념 주도 분할 시대의 미래 방향을 제시한다.