번역이 포함된 일일 선별된 AI 연구 논문
지도 미세 조정(SFT)은 도메인 적응의 표준 패러다임이지만, 종종 파괴적 망각의 비용을 수반합니다. 이와는 극명한 대조로, 온-폴리시 강화 학습(RL)은 일반 능력을 효과적으로 보존합니다. 우리는 이러한 차이를 조사하고 근본적인 분포 차이를 확인했습니다: RL은 모델의 내부 신념과 일치하는 반면, SFT는 모델이 외부 지도에 적합하도록 강제합니다. 이러한 불일치는 종종 낮은 확률이지만 낮은 엔트로피를 특징으로 하는 "자신 있는 충돌" 토큰으로 나타납니다. 이러한 경우 모델은 자신의 예측에 매우 확신하지만 상이한 실제 값(ground truth)을 학습하도록 강제받아 파괴적인 그래디언트 업데이트를 유발합니다. 이를 해결하기 위해 우리는 엔트로피 적응 미세 조정(EAFT)을 제안합니다. 예측 확률만을 의존하는 방법과 달리, EAFT는 토큰 수준 엔트로피를 게이팅 메커니즘으로 활용하여 인식적 불확실성과 지식 충돌을 구분합니다. 이를 통해 모델이 불확실한 샘플로부터는 학습하되, 충돌하는 데이터의 그래디언트는 억제할 수 있습니다. 수학, 의학, 에이전트 분야에서 Qwen 및 GLM 시리즈(4B부터 32B 매개변수 범위)를 대상으로 한 광범위한 실험을 통해 우리의 가설을 확인했습니다. EAFT는 표준 SFT의 하류 작업 성능을 꾸준히 유지하면서 일반 능력의 저하를 현저히 완화했습니다.
우리는 에이전트가 실행 가능한 스킬 라이브러리를 지속적으로 구축, 정제, 재사용해야 하는 개방형 구체화 환경에서의 지속적 스킬 획득을 연구합니다. 본 논문에서는 스킬이 실행 가능한 기호 프로그램으로 구성되고 경험을 통해 진화하는 조합적 네트워크를 형성하는 Programmatic Skill Network(PSN) 프레임워크를 소개합니다. PSN은 대규모 언어 모델을 통해 구현된 세 가지 핵심 메커니즘을 정의합니다: (1) 스킬 조합에 대한 구조화된 결함 지역화를 수행하는 REFLECT, (2) 신뢰할 수 있는 스킬은 안정화시키면서 불확실한 스킬에 대해서는 가소성을 유지하는 성숙도 인지 업데이트 게이팅을 통한 점진적 최적화, (3) 네트워크 간결성을 유지하며 롤백 검증 하에 수행되는 표준 구조 리팩토링입니다. 또한 PSN의 학습 역학이 신경망 훈련과 구조적 유사성을 보인다는 점을 확인합니다. MineDojo와 Crafter에 대한 실험을 통해 개방형 작업 분포 전반에 걸쳐 강력한 스킬 재사용, 빠른 적응 능력 및 우수한 일반화 성능을 입증합니다.
대규모 언어 모델(LLM)과 외부 도구의 통합은 AI 에이전트의 능력을 크게 확장시켰습니다. 그러나 LLM과 도구의 다양성이 증가함에 따라 최적의 모델-도구 조합을 선택하는 것은 고차원 최적화 문제가 되었습니다. 기존 접근법은 단일 모델이나 고정된 도구 호출 로직에 의존하는 경우가 많아 이질적인 모델-도구 조합 간 성능 변동을 충분히 활용하지 못합니다. 본 논문에서는 교차 영역 복합 추론에서 동적 도구 사용을 위한 이중 경로 프레임워크인 ATLAS(Adaptive Tool-LLM Alignment and Synergistic Invocation)를 제시합니다. ATLAS는 두 가지 경로로 운영됩니다: (1) 영역 특화 정렬을 위한 경험적 사전 지식을 활용하는 학습 불필요 클러스터 기반 라우팅, (2) 분포 외 일반화를 위한 자율적 궤적 탐색이 가능한 강화 학습 기반 다단계 라우팅. 15개 벤치마크에 걸친 광범위한 실험을 통해 본 방법이 GPT-4o와 같은 폐쇄형 모델을 능가하며, 기존 라우팅 방법 대비 분포 내 작업(+10.1%)과 분포 외 작업(+13.1%) 모두에서 우수한 성능을 보임을 입증했습니다. 더 나아가 본 프레임워크는 전문적인 다중 모달 도구들을 조정하여 시각 추론 영역에서도 상당한 성능 향상을 나타냈습니다.
대규모 언어 모델(LLM) 평가를 위한 벤치마크의 급속한 확산은 벤치마크 품질 자체를 체계적으로 평가할 방법에 대한 시급한 필요성을 야기하였습니다. 본 연구에서는 상호 보완적인 세 가지 지표로 구성된 종합 프레임워크인 Benchmark^2를 제안합니다: (1) 동종 벤치마크와 일치하는 모델 순위를 생성하는지 측정하는 교차 벤치마크 순위 일관성, (2) 벤치마크가 모델 간 차별화 능력을 정량화하는 변별력 점수, (3) 동일 모델 패밀리 내에서 더 강력한 모델이 실패하고 더 약한 모델이 성공하는 문제적인 인스턴스를 식별하는 능력 정렬 편차입니다. 우리는 수학, 추론, 지식 영역에 걸친 15개 벤치마크와 4개 모델 패밀리의 11개 LLM을 대상으로 광범위한 실험을 수행했습니다. 분석 결과, 기존 벤치마크 간에 상당한 품질 편차가 존재함을 확인하고, 우리의 지표를 기반으로 한 선택적 벤치마크 구성을 통해 대폭 축소된 테스트 세트로도 비교 가능한 평가 성능을 달성할 수 있음을 입증했습니다.
오디오-비디오 결합 생성 기술은 빠르게 발전했지만 여전히 상당한 과제가 남아 있습니다. 비상업적 접근법들은 오디오-비디오 비동기화, 입모양-음성 정렬 불일치, 단일 모달리티 성능 저하 등의 문제를 겪는데, 이는 약한 오디오-비디오 상관관계 모델링, 제한된 일반화 능력, 고품질 고밀도 캡션 데이터의 부족에서 기인합니다. 이러한 문제를 해결하기 위해 우리는 Klear를 소개하고 모델 아키텍처, 학습 전략, 데이터 구성이라는 세 가지 축을 심층적으로 분석합니다. 아키텍처 측면에서는 통합 DiT 블록과 Omni-풀 주의 메커니즘을 적용한 싱글 타워 설계를 채택하여 강력한 오디오-비디오 정렬과 확장성을 달성했습니다. 학습 전략에서는 무작위 모달리티 마스킹부터 작업 간 통합 최적화에 이르는 점진적 다중 작업 방식과 다단계 커리큘럼을 도입하여 견고한 표현 학습, 오디오-비디오 정렬된 세계 지식 강화, 단일 모달리티 붕괴 방지를 실현했습니다. 데이터 측면에서는 고밀도 캡션이 포함된 최초의 대규모 오디오-비디오 데이터셋을 제시하고, 수백만 개의 다양하고 고품질이며 엄격하게 정렬된 오디오-비디오-캡션 삼중항을 자동으로 주석 처리 및 필터링하는 새로운 데이터 구축 파이프라인을 도입했습니다. 이를 기반으로 Klear는 대규모 데이터셋으로 확장 가능하며, 결합 및 단일 모달리티 설정 모두에서 높은 충실도와 의미적/시간적 정렬을 갖춘 지시 따르기 생성 능력을 보여주면서 분포 외 시나리오에 대해 강력한 일반화 성능을 발휘합니다. 다양한 작업에서 기존 방법들을 큰 차이로 크게 앞지르며 Veo 3에 버금가는 성능을 달성함으로써 차세대 오디오-비디오 합성을 위한 통합적이고 확장 가능한 길을 제시합니다.
우리 물리적 4차원(3차원 + 시간) 세계의 동적 객체는 지속적으로 진화하고, 변형되며, 다른 객체와 상호작용함으로써 다양한 4차원 장면 역학을 만들어냅니다. 본 논문에서는 이러한 현상을 종합하기 위해 동적 객체와 장면의 운동을 구성(CHOREographing)하는 범용 생성 파이프라인인 CHORD를 제안합니다. 이러한 역학을 생성하는 기존 규칙 기반 그래픽스 파이프라인은 범주별 경험적 방법에 기반하지만, 노동 집약적이고 확장성이 떨어집니다. 최근의 학습 기반 방법은 일반적으로 대규모 데이터셋을 요구하는데, 이는 관심 있는 모든 객체 범주를 포함하지 않을 수 있습니다. 우리의 접근법은 오일러 표현 방식의 2D 비디오에 내재된 풍부한 라그랑주 운동 정보를 추출하기 위한 증류 기반 파이프라인을 제안함으로써 비디오 생성 모델의 보편성을 계승합니다. 우리의 방법은 보편적이고 다용도이며 범주에 구애받지 않습니다. 우리는 다양한 다중체 4차원 역학 생성을 위한 실험을 수행하여 방법의 효과를 입증하고, 기존 방법 대비 장점을 보여주며, 로봇틱스 조작 정책 생성에의 적용 가능성을 입증합니다. 프로젝트 페이지: https://yanzhelyu.github.io/chord
최근 강화 학습을 통해 인간 선호도 정렬에 관한 플로우 매칭 모델의 성능이 향상되었습니다. 확률적 샘플링은 디노이징 방향 탐색을 가능하게 하지만, 여러 디노이징 단계에 걸쳐 최적화를 수행하는 기존 방법들은 희소하고 모호한 보상 신호 문제에 직면해 있습니다. 우리는 높은 엔트로피 단계가 더 효율적이고 효과적인 탐색을 가능하게 하는 반면, 낮은 엔트로피 단계는 차별화되지 않은 롤아웃을 초래한다는 것을 관찰했습니다. 이를 위해 우리는 SDE 샘플링 단계의 엔트로피를 증가시키기 위한 엔트로피 인식 그룹 상대 정책 최적화(E-GRPO)를 제안합니다. 확률적 미분방정식의 통합은 여러 단계에서 비롯된 확률성으로 인해 모호한 보상 신호 문제를 겪기 때문에, 우리는 연속적인 낮은 엔트로피 단계를 통합하여 하나의 높은 엔트로피 SDE 샘플링 단계를 구성하는 동시에 나머지 단계에는 ODE 샘플링을 적용합니다. 이를 기반으로 동일한 통합 SDE 디노이징 단계를 공유하는 샘플 내에서 그룹 상대 이점을 계산하는 다단계 그룹 정규화 이점을 도입합니다. 다양한 보상 설정에서의 실험 결과는 우리 방법의 효과성을 입증하였습니다.
검증은 에이전트 성능 향상에 핵심적인 역할을 합니다: 이는 강화 학습을 위한 보상 신호를 제공하고 테스트 시간 스케일링(TTS)을 통해 추론 시간 성능 향상을 가능하게 합니다. 그러나 이러한 중요성에도 불구하고, 소프트웨어 엔지니어링(SWE) 에이전트 환경에서의 검증은 종종 코드 실행에 의존하는데, 환경 설정 부담으로 인해 확장이 어려울 수 있습니다. 패치 분류기나 휴리스틱 방법과 같은 확장 가능한 대안이 존재하지만, 이러한 방법들은 코드베이스 컨텍스트에 기반을 둔 정도가 낮고 해석이 더 어렵습니다. 이를 위해 우리는 에이전트 기반 루브릭(Agentic Rubrics)을 탐구합니다: 전문가 에이전트가 저장소와 상호작용하여 컨텍스트에 기반한 루브릭 체크리스트를 생성하고, 후보 패치들은 테스트 실행 없이 이 체크리스트에 대해 점수가 매겨집니다. 병렬 TTS 평가 하의 SWE-Bench Verified에서 에이전트 기반 루브릭은 Qwen3-Coder-30B-A3B에서 54.2%, Qwen3-32B에서 40.6%의 점수를 달성했으며, 비교 집단에서 가장 강력한 기준선 대비 최소 +3.5%p의 성능 향상을 보였습니다. 우리는 루브릭 동작을 추가로 분석하여, 루브릭 점수가 실제 테스트 결과와 일관성을 유지하면서도 테스트가 포착하지 못하는 문제들을 함께 표시함을 보여줍니다. 우리의 애블레이션 연구는 에이전트 기반 컨텍스트 수집이 코드베이스 특화적이고 명확한 기준을 생성하는 데 필수적임을 보여줍니다. 이러한 결과들은 종합적으로 에이전트 기반 루브릭이 SWE 에이전트를 위한 효율적이고 확장 가능하며 세분화된 검증 신호를 제공함을 시사합니다.
분자 동역학(MD) 시뮬레이션은 재료 과학에서 원자 규모 거동을 이해하는 데 필수적이지만, LAMMPS 스크립트 작성은 여전히 매우 전문적이고 시간 소모적인 작업입니다. 대규모 언어 모델(LLM)이 코드 생성 및 도메인 특화 질의응답 분야에서 잠재력을 보여주고 있으나, MD 시나리오에서의 성능은 부족한 도메인 데이터, 최첨단 LLM의 높은 배포 비용, 그리고 낮은 코드 실행 가능성에 의해 제한됩니다. 기존 MDAgent 연구를 기반으로, 우리는 MD 도메인 내에서 지식 질의응답과 코드 생성을 모두 수행할 수 있는 첫 번째 종단간(end-to-end) 프레임워크인 MDAgent2를 제시합니다. 우리는 MD 지식, 질의응답, 코드 생성을 아우르는 세 가지 고품질 데이터셋을 생성하는 도메인 특화 데이터 구축 파이프라인을 구축했습니다. 이러한 데이터셋을 바탕으로, 우리는 지속 사전 학습(CPT), 지도 미세 조정(SFT), 강화 학습(RL)의 3단계 사후 학습 전략을 채택하여 도메인에 적응된 두 모델, MD-Instruct와 MD-Code를 학습시켰습니다. 더 나아가, 시뮬레이션 결과를 보상 신호로 활용하고 낮은 보상 궤적을 재활용하여 지속적 개선을 이루는 폐쇄형 RL 방법인 MD-GRPO를 도입했습니다. 또한 코드 생성, 실행, 평가, 자가 수정을 통합한 배포 가능한 다중 에이전트 시스템인 MDAgent2-RUNTIME을 구축했습니다. 본 연구에서 제안된 LAMMPS 코드 생성 및 질의응답을 위한 첫 번째 벤치마크인 MD-EvalBench과 함께, 우리의 모델과 시스템은 여러 강력한 기준 모델들을 능가하는 성능을 달성했습니다. 이 작업은 산업 시뮬레이션 작업에서 대규모 언어 모델의 적응성과 일반화 능력을 체계적으로 입증하며, AI for Science 및 산업 규모 시뮬레이션 분야의 자동 코드 생성을 위한 방법론적 기초를 마련합니다. URL: https://github.com/FredericVAN/PKU_MDAgent2
신뢰할 수 있는 역학적 추론은 연구 증거를 종합하여 인구 수준에서의 질병 부담, 전파 역학, 중재 효과를 추론하는 것을 요구합니다. 기존 의학 질의응답 벤치마크는 주로 임상 지식이나 환자 수준 추론을 강조하지만, 증거에 기반한 역학적 추론을 체계적으로 평가하는 사례는 드뭅니다. 본 연구에서는 다양한 질병에 걸친 역학적 질의응답을 위한 첫 번째 진단적 벤치마크인 EpiQAL을 소개합니다. 이는 공개 문헌 자료로 구축된 세 가지 하위 집합으로 구성되며, 각각 텍스트 기반 사실 회상, 문서 증거와 역학 원칙을 연결하는 다단계 추론, 그리고 논의 부분을 제외한 결론 재구성을 평가합니다. 구축 과정에는 전문가 설계 분류 체계 지침, 다중 모델 검증 및 검색 기반 난이도 조절이 결합되었습니다. 10가지 오픈 모델에 대한 실험 결과, 현재의 대규모 언어 모델들은 역학적 추론에서 제한된 성능을 보였으며, 다단계 추론이 가장 큰 도전 과제로 나타났습니다. 모델 순위는 하위 집합에 따라 변동했으며, 규모만으로는 성공을 예측할 수 없었습니다. 사고 사슬(Chain-of-Thought) 프롬프트는 다단계 추론에는 도움이 되었으나 다른 영역에서는 혼재된 결과를 보였습니다. EpiQAL은 증거 기반, 추론적 사고, 결론 재구성에 대한 세분화된 진단 신호를 제공합니다.
대규모 언어 모델(LLM)이 안전이 중요한 애플리케이션의 핵심 요소로 자리잡으면서, 적대적 프롬프트에 대한 모델의 강건성을 확보하는 것이 최우선 과제가 되었습니다. 그러나 기존 레드 팀링 데이터셋은 위험 분류 체계의 불일치, 제한된 도메인 범위, 구식 평가 방식 등의 문제로 체계적인 취약점 평가에 걸림돌이 되고 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 RedBench를 소개합니다. RedBench는 주요 학회 및 저장소에서 수집한 37개의 벤치마크 데이터셋을 통합한 범용 데이터셋으로, 공격 및 거부 프롬프트 샘플 총 29,362개로 구성됩니다. RedBench는 22개 위험 범주와 19개 도메인으로 구성된 표준화된 분류 체계를 적용하여 LLM 취약점에 대한 일관되고 포괄적인 평가를 가능하게 합니다. 우리는 기존 데이터셋에 대한 상세한 분석을 제공하고, 최신 LLM에 대한 기준 성능을 제시하며, 데이터셋과 평가 코드를 공개합니다. 본 연구의 기여를 통해 강건한 성능 비교가 용이해지고, 향후 연구가 촉진되며, 현실 세계에 배포 가능한 안전하고 신뢰할 수 있는 LLM 개발이 활성화될 것으로 기대합니다. 코드: https://github.com/knoveleng/redeval
우리는 과학적 워크플로우 단계에 대응하는 6개의 LLM 에이전트 파이프라인을 활용하여 ML 연구 논문을 자율 생성한 4건의 엔드투엔드 시도 사례를 보고한다. 이 네 차례 시도 중 세 건은 구현 또는 평가 단계에서 실패했다. 한 건은 파이프라인을 완료하여 AI 시스템을 제1저자로 요구하는 실험적인 초개최 학회인 Agents4Science 2025에 인간 및 다중 AI 심사를 통과하여 게재 승인되었다. 이러한 시도 과정에서 우리는 여섯 가지 반복적인 실패 모드를 문서화한다: 훈련 데이터 기본값에 대한 편향, 실행 압력 하에서의 구현 표류, 장기간 과업에서의 메모리 및 문맥 저하, 명백한 실패에도 불구하고 성공을 선언하는 과도한 흥분, 불충분한 도메인 지능, 그리고 실험 설계에서의 취약한 과학적 안목이다. 결론으로, 보다 견고한 AI 과학자 시스템을 위한 네 가지 설계 원칙, 자율적 과학 발견에 대한 함의를 논의하며, 모든 프롬프트, 산출물 및 결과물을 https://github.com/Lossfunk/ai-scientist-artefacts-v1 에 공개한다.
언어 모델(LM)은 텍스트 시퀀스를 토큰 단위로 생성하기 위해 원시 텍스트 데이터셋으로 사전 학습됩니다. 이러한 접근 방식은 세계 지식과 추론 능력 학습에는 효과적이지만, 언어 능력을 명시적으로 최적화하지는 않습니다. 이러한 격차를 해소하기 위해 우리는 표준 다음 토큰 예측과 함께 언어 학습 과제를 통합한 사전 학습 프레임워크인 L2T를 제안합니다. 인간의 언어 습득에서 영감을 받은 L2T는 원시 텍스트를 구조화된 입력-출력 쌍으로 변환하여 명시적인 언어 자극을 제공합니다. 원시 텍스트와 L2T 데이터를 혼합하여 언어 모델을 사전 학습하면 언어 능력 벤치마크에서 전반적인 성능이 향상될 뿐만 아니라 습득 속도가 가속화되며, 일반적인 추론 과제에서도 경쟁력 있는 성능을 유지합니다.
다분야 생성 모델을 활용한 지시어 기반 이미지 편집 기술은 빠르게 발전했으나, 내재된 시각 추론 능력의 한계로 인해 추론 중심 편집에서의 성능은 아직 미흡한 실정입니다. 강화학습(RL)은 이미지 편집 품질 향상을 위해 연구되어 왔지만, (1) 확률적 노이즈 제거 과정에 국한된 제한된 추론 탐색, (2) 편향된 보상 융합, (3) 불안정한 VLM 기반 지시어 보상이라는 세 가지 주요 과제에 직면해 있습니다. 본 연구에서는 시각 추론과 이미지 합성을 분리하고 노이즈 제거를 넘어선 추론 탐색을 확장하는 추론 중심 RL 프레임워크인 ThinkRL-Edit를 제안합니다. 이를 위해 온라인 샘플링 과정에서 생성 전에 계획 및 성찰 단계를 포함하는 연쇄 사고(CoT) 기반 추론 샘플링을 도입하여, 모델이 시각적 결과를 확정하기 전에 여러 의미론적 가설을 탐색하고 타당성을 검증하도록 유도합니다. 또한 가중치 기반 집계의 실패를 피하기 위해 다중 보상 차원에 걸친 편향 없는 체인 선호도 그룹화 전략을 제안합니다. 더 나아가 구간 기반 VLM 점수를 이진 체크리스트로 대체하여 복잡한 추론에 대해 더 정확하고 분산이 낮으며 해석 가능한 보상을 제공합니다. 실험 결과, 우리의 방법은 추론 중심 이미지 편집에서 기존 연구를 크게 능가하며, 지시어에 충실하고 시각적으로 일관성 있으며 의미론적으로 타당한 편집 결과를 생성함을 확인했습니다.
인간 평가는 다국어 NLP의 표준 방법론으로 여겨지지만, 기존 도구를 활용한 설정이 공학적·운영적 부담이 크고 매우 복잡하며 느리기 때문에 실제 현장에서는 자동 평가 지표로 대체되는 경우가 많습니다. 우리는 경량이면서도 기능이 풍부한 플랫폼인 Pearmut를 소개합니다. Pearmut는 종단간 인간 평가를 자동 평가만큼 쉽게 실행할 수 있도록 합니다. Pearmut는 일반적인 진입 장벽을 제거하고 특히 기계 번역에 중점을 둔 다국어 작업 평가를 지원합니다. 본 플랫폼은 DA, ESA, MQM 등 표준 평가 프로토콜을 구현하면서도 새로운 프로토콜 시범 적용을 위한 확장성을 갖추고 있습니다. 문서 수준의 맥락 지원, 절대 및 대조 평가, 주의력 검사, ESAAI 사전 주석 처리, 정적 및 능동 학습 기반 할당 전략 등의 특징을 포함합니다. Pearmut는 신뢰할 수 있는 인간 평가가 가끔 진행되는 작업이 아닌 모델 개발 및 진단의 실용적이고 일상적인 구성 요소가 될 수 있도록 합니다.
메모리 증강 생성(MAG)은 외부 메모리를 활용해 대규모 언어 모델의 장문 맥락 추론 능력을 확장하지만, 기존 접근법은 단일 메모리 저장소에 대한 의미적 유사성에 크게 의존하여 시간적, 인과적, 개체 정보가 혼재됩니다. 이러한 설계는 해석 가능성과 질의 의도-검증 증거 간 정합성을 저해하여 최적에 미치지 못하는 추론 정확도를 초래합니다. 본 논문에서는 직교적인 의미, 시간, 인과, 개체 그래프를 통해 각 메모리 항목을 표현하는 다중 그래프 에이전트 메모리 아키텍처인 MAGMA를 제안합니다. MAGMA는 이러한 관계적 뷰를 정책 기반으로 탐색하는 검색 방식을 구현하여 질의 적응형 선택과 구조화된 맥락 구성을 가능하게 합니다. 메모리 표현과 검색 로직을 분리함으로써 MAGMA는 투명한 추론 경로와 세분화된 검색 제어를 제공합니다. LoCoMo 및 LongMemEval에서의 실험 결과, MAGMA가 장기적 추론 과제에서 최신 에이전트 메모리 시스템을 지속적으로 능가함을 입증하였습니다.
본 논문에서는 잔차 기반 점증적 밀도화 단계를 훈련 불필요형 대응점-가우시안 초기화 방식으로 대체하는 강건한 가우시안 스플래팅 SLAM 프레임워크인 RGS-SLAM을 소개한다. 잔차 분석을 통해 누락된 기하구조가 발견될 때마다 점차적으로 가우시안을 추가하는 기존 방식과 달리, RGS-SLAM은 신뢰도 인지 내점 분류기를 통해 정제된 DINOv3 디스크립터 기반의 조밀한 다중 뷰 대응점을 일회성 삼각측정하여 최적화 전에 균일한 분포와 구조 인지성을 갖춘 가우시안 시드 집합을 생성한다. 이러한 초기화 방식은 초기 매핑 안정성을 확보하고 수렴 속도를 약 20% 가량 향상시켜, 텍스처가 풍부하고 복잡한 장면에서 더 높은 렌더링 충실도를 구현하면서도 기존 GS-SLAM 파이프라인과 완전히 호환된다. TUM RGB-D 및 Replica 데이터셋에서의 평가 결과, RGS-SLAM은 최신 가우시안 및 포인트 기반 SLAM 시스템 대비 경쟁력 있거나 우수한 위치 인식 및 재구성 정확도를 달성하면서 최대 925 FPS의 실시간 매핑 성능을 유지하였다.
기존의 자기회귀(AR) 생성을 위한 1D 시각 토크나이저는 주로 언어 모델링의 설계 원칙을 따릅니다. 이들은 언어에서 비롯된 사전 지식을 가진 트랜스포머를 직접 기반으로 구축되어 단일 계층의 잠재 토큰을 생성하고 시각 데이터를 평평한 순차적 토큰 스트림으로 취급하기 때문입니다. 그러나 이러한 언어적 형식화는 시각의 핵심 속성, 특히 시각 모델에서 수렴과 효율성에 오랫동안 필수적이었던 계층적 및 잔차 네트워크 설계를 간과합니다. '시각'다운 특성을 시각 모델로 되돌리기 위해 우리는 계층적 잔차를 이미지 토큰과 잠재 토큰 모두에 대해 구축하는 1D 시각 토크나이저인 Residual Tokenizer(ResTok)를 제안합니다. 점진적 병합을 통해 얻어진 계층적 표현은 각 층에서 교차-수준 특징 융합을 가능하게 하여 표현 능력을 크게 향상시킵니다. 동시에 계층 간의 의미론적 잔차는 정보 중복을 방지하여 AR 모델링이 더 쉬운, 더 집중된 잠재 분포를 생성합니다. 그 결과 명시적인 제약 없이 교차-수준 결합이 자연스럽게 발생합니다. 생성 과정을 가속화하기 위해 우리는 토큰을 엄격하게 하나씩 생성하기보다 전체 수준의 잠재 토큰을 한 번에 예측하여 샘플링 단계를 상당히 줄이는 계층적 AR 생성기를 추가로 도입합니다. 광범위한 실험을 통해 시각 토크나이제이션에 계층적 잠차 사전 지식을 복원하면 AR 이미지 생성이 크게 개선되며, ImageNet-256에서 단 9개의 샘플링 단계로 gFID 2.34를 달성함을 입증했습니다. 코드는 https://github.com/Kwai-Kolors/ResTok에서 확인할 수 있습니다.
Gen3R는 장면 단위 3D 생성 작업을 위해 강력한 기반 재구성 모델과 비디오 확산 모델의 사전 지식을 융합하는 방법론을 제안합니다. 우리는 VGGT 재구성 모델의 토큰에 어댑터를 학습시켜 기하학적 잠재 공간을 생성하도록 재구성하였으며, 이 잠재 공간은 사전 학습된 비디오 확산 모델의 외관 잠재 공간과 정렬되도록 정규화됩니다. 이러한 분리되었으나 정렬된 잠재 공간을 공동으로 생성함으로써 Gen3R는 RGB 비디오와 함께 카메라 포즈, 깊이 맵, 전역 포인트 클라우드에 해당하는 3D 형상을 동시에 생성합니다. 실험 결과, 우리의 접근 방식이 단일 및 다중 이미지 조건부 3D 장면 생성 분야에서 최첨단 성능을 달성함을 입증합니다. 또한, 생성적 사전 지식을 활용하여 재구성의 강건성을 향상시킬 수 있어 재구성 모델과 생성 모델의 긴밀한 결합이 상호 이득을 가져옴을 보여줍니다.