번역이 포함된 일일 선별된 AI 연구 논문
다중 에이전트 시스템(MAS)은 대규모 언어 모델(LLM)을 독립적인 단일 모델 추론에서 조정 가능한 시스템 수준 지능으로 확장합니다. 기존 LLM 에이전트가 추론과 의사소통을 위해 텍스트 기반 중재에 의존하는 반면, 우리는 연속 잠재 공간 내에서 모델이 직접 협업할 수 있도록 한 단계 더 나아갑니다. 본 논문은 LLM 에이전트 간의 순수 잠재 협업을 가능하게 하는 훈련 없이 작동하는 종단 간 프레임워크인 LatentMAS를 소개합니다. LatentMAS에서 각 에이전트는 먼저 최종 은닉층 임베딩을 통한 자기회귀적 잠재 사고 생성을 수행합니다. 그런 다음 공유 잠재 작업 메모리가 각 에이전트의 내부 표현을 보존하고 전달하여 무손실 정보 교환을 보장합니다. 우리는 LatentMAS가 기존 텍스트 기반 MAS 대비 훨씬 낮은 복잡도로 더 높은 표현력과 무손실 정보 보존을 달성함을 이론적으로 분석합니다. 또한 수학 및 과학 추론, 상식 이해, 코드 생성에 이르는 9가지 종합 벤치마크에서의 실험적 평가를 통해 LatentMAS가 강력한 단일 모델 및 텍스트 기합 MAS 기준선을 꾸준히 능가하며, 최대 14.6% 높은 정확도 달성, 70.8%~83.7%의 출력 토큰 사용량 감소, 4배~4.3배 빠른 종단 간 추론 속도를 제공함을 보여줍니다. 이러한 결과는 우리의 새로운 잠재 협업 프레임워크가 추가 훈련 없이 시스템 수준 추론 품질을 향상시키면서도 상당한 효율성 이득을 제공함을 입증합니다. 코드와 데이터는 https://github.com/Gen-Verse/LatentMAS에서 완전히 공개되어 있습니다.
멀티모달 대규모 언어 모델(MLLM)은 현재 연구의 중심에 있으며 규모와 능력에서 빠른 발전을 보여주고 있지만, 그 지능, 한계 및 위험은 여전히 충분히 이해되지 않고 있습니다. 이러한 문제를 해결하기 위해, 특히 현재 멀티모달 벤치마크가 존재하지 않는 러시아어 환경에서, 우리는 러시아어 구조를 위한 오픈 멀티모달 평가 프레임워크인 Mera Multi를 소개합니다. 이 벤치마크는 지시 기반이며 기본 텍스트, 이미지, 오디오, 비디오 양식을 포괄하며, 범용 모델과 양식 특화 구조(이미지-텍스트, 비디오-텍스트, 오디오-텍스트)를 위한 18개의 새로 구축된 평가 과제로 구성됩니다. 우리의 기여는 다음과 같습니다: (i) 멀티모달 능력의 보편적 분류 체계; (ii) 러시아 문화 및 언어적 특수성, 통합 프롬프트, 메트릭에 주의를 기울여 완전히 새롭게 생성된 18개의 데이터셋; (iii) 독점 및 오픈소스 모델에 대한 기준 결과; (iv) 워터마킹 및 비공개 세트 라이선스를 포함한 벤치마크 유출 방지 방법론. 현재 초점은 러시아어에 맞춰져 있지만, 제안된 벤치마크는 유형론적으로 다양한 언어, 특히 슬라브어군 내에서 멀티모달 벤치마크를 구축하기 위한 재현 가능한 방법론을 제공합니다.
월드 모델은 에이전트 AI, 구현형 AI, 게임 등 다양한 분야의 핵심 시뮬레이터 역할을 하며, 물리적으로 현실적이고 상호작용 가능한 장시간 고품질 비디오를 생성할 수 있습니다. 더 나아가 이러한 모델의 규모 확장은 시각적 인지, 이해 및 추론 분야에서의 새로운 능력 발현을 가능케 하여, 현재의 대규모 언어 모델(LLM) 중심 비전 기초 모델을 넘어서는 새로운 패러다임을 열어갈 수 있습니다. 이를 가능하게 한 핵심 기술은 반자회귀(블록 디퓨전) 디코딩 패러다임으로, 디퓨전과 자회귀 방식의 장점을 결합하여 비디오 토큰을 블록 단위로 생성합니다. 각 블록 내에서는 디퓨전을 적용하면서 이전 블록의 정보를 조건으로 활용함으로써 더욱 일관되고 안정적인 비디오 시퀀스를 만들어냅니다. 특히, 표준 비디오 디퓨전의 한계를 극복하기 위해 LLM 스타일의 KV 캐시 관리 방식을 재도입하여 효율적이고 가변 길이의 고품질 생성을 가능하게 했습니다. 이에 따라 인페릭스(Inferix)는 최적화된 반자회귀 디코딩 프로세스를 통해 몰입형 세계 합성을 가능하게 하는 차세대 추론 엔진으로 특별히 설계되었습니다. 세계 시뮬레이션에 대한 이러한 집중적인 초점은 높은 동시성 처리를 위해 설계된 시스템(vLLM 또는 SGLang 등)이나 기존의 고전적인 비디오 디퓨전 모델(xDiTs 등)과 차별화되는 점입니다. 인페릭스는 상호작용형 비디오 스트리밍 및 프로파일링 기능을 추가로 제공하여 실시간 상호작용과 현실적인 시뮬레이션을 통해 세계의 역학을 정확하게 모델링할 수 있게 합니다. 또한, 1분 이상의 장시간 비디오 생성 시나리오에 맞춰 설계된 새로운 세분화 평가 벤치마크인 LV-Bench을 원활하게 통합하여 효율적인 성능 평가를 지원합니다. 우리는 커뮤니티가 함께 인페릭스의 발전을 도모하고 월드 모델 탐구를 활성화하기를 기대합니다.
동기화된 오디오-비주얼 콘텐츠 합성은 생성 AI의 핵심 과제로, 오픈소스 모델들은 강건한 오디오-비디오 정합 문제에 직면해 있습니다. 우리의 분석에 따르면, 이 문제는 공동 디퓨전 과정의 세 가지 근본적인 한계에 기인합니다: (1) 동시에 진화하는 잡음 잠재 공간이 안정적인 정합 학습을 방해하는 대응 관계 드리프트, (2) 세밀한 시간적 단서를 포착하지 못하는 비효율적인 글로벌 어텐션 메커니즘, (3) 조건부 생성을 강화하지만 교차 모달 동기화는 향상시키지 않는 기존 Classifier-Free Guidance(CFG)의 모달 내 편향. 이러한 한계를 극복하기 위해 우리는 기계적으로 오디오-비주얼 동기화를 강제하는 새로운 프레임워크인 Harmony를 제안합니다. 먼저, 오디오 기반 비디오 생성과 비디오 기반 오디오 생성 과제에서 강력한 감독 신호를 활용하여 드리프트를 완화하는 Cross-Task Synergy 훈련 패러다임을 제안합니다. 다음으로, 효율적이고 정밀한 시간적-스타일 정합을 위한 Global-Local Decoupled Interaction Module을 설계합니다. 마지막으로, 추론 과정에서 정합 신호를 명시적으로 분리 및 증폭하는 새로운 Synchronization-Enhanced CFG(SyncCFG)를 제시합니다. 폭넓은 실험을 통해 Harmony가 생성 충실도와 특히 세밀한 오디오-비주얼 동기화 달성에 있어 기존 방법들을 크게 능가하는 새로운 최첨단 성능을确立함을 입증합니다.
경량 문서 파싱 및 OCR 모델인 Nemotron-Parse-1.1을 소개합니다. 이 모델은 이전 버전인 Nemoretriever-Parse-1.0의 성능을 향상시켰습니다. Nemotron-Parse-1.1은 일반 OCR, 마크다운 서식 지정, 구조화된 테이블 파싱, 그림/차트/다이어그램 내 텍스트 추출 등 다양한 분야에서 개선된 성능을 제공합니다. 또한 시각적으로 밀도 높은 문서를 위해 더 긴 출력 시퀀스 길이를 지원합니다. 이전 모델과 마찬가지로 텍스트 세그먼트의 바운딩 박스와 해당 의미론적 클래스를 추출합니다. Nemotron-Parse-1.1은 885M 매개변수를 가진 인코더-디코더 아키텍처를 채택하며, 여기에는 컴팩트한 256M 매개변수의 언어 디코더가 포함됩니다. 공개 벤치마크에서 경쟁력 있는 정확도를 달성하여 강력한 경량 OCR 솔루션으로 자리매김했습니다. 모델 가중치는 Huggingface를 통해 공개하며, 최적화된 NIM 컨테이너와 더 넓은 Nemotron-VLM-v2 데이터셋의 일부인 훈련 데이터 서브셋도 함께 제공합니다. 추가로 시각 토큰 길이를 축소하여 20%의 속도 향상을 제공하며 품질 저하를 최소화한 Nemotron-Parse-1.1-TC도 공개합니다.
통합 멀티모달 모델(UMMs)은 단일 아키텍처로 이해와 생성 모두에서 인상적인 성능을 보여주고 있습니다. 그러나 UMMs는 여전히 근본적인 불일치를 보입니다. 이해는 컴팩트한 임베딩을 선호하는 반면, 생성은 재구축이 풍부한 표현을 선호하기 때문입니다. 이러한 구조적 트레이드오프는 정렬되지 않은 의사 결정 경계, 저하된 교차 모달 일관성, 그리고 분포 변화 및 적대적 변화 상황에서 취약성이 증가하는 결과를 낳습니다. 본 논문에서는 이러한 불일치를 직접적으로 해결하는 자체-적대적 사후 훈련 프레임워크인 UniGame을 제안합니다. 공유 토큰 인터페이스에 경량의 교란기를 적용함으로써 UniGame은 생성 분기가 취약한 이해를 능동적으로 탐색하고 도전하도록 하여 모델 자체를 자신의 적대자로 만듭니다. 실험 결과, UniGame이 일관성을 크게 향상시켰음을 보여줍니다(+4.6%). 또한 이해(+3.6%), 생성(+0.02), 분포 외 및 적대적 강건성(NaturalBench와 AdVQA에서 각각 +4.8%, +6.2%)에서도 상당한 개선을 달성했습니다. 이 프레임워크는 아키텍처에 독립적이며, 1% 미만의 추가 매개변수만 도입하고, 기존 사후 훈련 방법과 상호 보완적입니다. 이러한 결과는 적대적 자기 경험이 향후 멀티모달 기초 모델의 일관성, 안정성 및 통합 능력 향상을 위한 일반적이고 효과적인 원리로 자리매김함을 보여줍니다. 공식 코드는 https://github.com/AIFrontierLab/UniGame 에서 확인할 수 있습니다.
우리는 대규모 언어 모델(LLM)이 서로 다른 과제 난이도에 걸쳐 얼마나 잘 일반화하는지 조사하며, 이는 효과적인 데이터 큐레이션과 평가를 위한 핵심 질문입니다. 기존 연구는 쉬운 데이터나 어려운 데이터 중 어떤 것으로 훈련했을 때 더 나은 결과를 얻는지, 그리고 그러한 성능 향상이 쉬운 테스트 데이터와 어려운 테스트 데이터 중 어디에서 나타나는지에 대해 엇갈린 결론을 보여줍니다. 우리는 모델, 데이터셋, 그리고 예시 난이도의 세분화된 그룹에 걸쳐 LLM의 일반화를 체계적으로 평가함으로써 이 문제를 다룹니다. 우리는 수천 가지 서로 다른 LLM의 출력과 교육 평가 분야에서 잘 정립된 난이도 지표인 문항 반응 이론(IRT)을 활용하여 여섯 가지 데이터셋의 예시들을 순위 매깁니다. 따라서 기존 연구와 달리, 우리의 난이도 등급은 인간의 난이도 주관적 판단을 배제하고 오직 다양한 LLM들의 능력만으로 결정됩니다. 보다 객관적이고 대규모이며 세분화된 분석을 통해, 우리는 난이도 간 일반화가 종종 제한적임을 보여줍니다. 쉬운 데이터나 어려운 데이터로 훈련하는 것만으로는 모든 난이도 범위에 걸쳐 일관된 개선을 달성할 수 없습니다. 이러한 결과는 LLM의 훈련 및 평가 데이터에 다양한 난이도의 예시를 포함하는 것의 중요성과, 난이도 측면에서 지름길을 택하는 것이 위험할 수 있음을 시사합니다.
"이미지를 통한 사고"는 중간 추론 단계에 시각적 증거를 주입함으로써 텍스트만의 사고 연쇄를 넘어 시각적 추론을 발전시키는 효과적인 패러다임으로 부상했습니다. 그러나 기존 방법론은 외부 도구에 의해 유연성이 근본적으로 제한되어 인간과 유사한 추상적 시각 사고에는 미치지 못합니다. 본 연구에서는 다중모드 대규모 언어 모델(MLLM)이 중간 시각 사고로 기능하는 연속 임베딩을 생성하여 잠재 시각 공간 내에서 직접 추론할 수 있도록 하는 훈련 프레임워크인 Monet을 소개합니다. 우리는 잠재 시각 추론을 위한 MLLM 훈련에서 두 가지 핵심 과제, 즉 잠재-시각 정렬의 높은 계산 비용과 잠재 임베딩에 대한 불충분한 지도를 확인하고, 이를 3단계 증류 기반 지도 미세 조정(SFT) 파이프라인으로 해결합니다. 또한 GRPO를 잠재 추론에 적용할 때의 한계, 즉 주로 텍스트 기반 추론만을 향상시키고 잠재 추론은 향상시키지 못함을 밝혔습니다. 이를 극복하기 위해 우리는 잠재 임베딩을 정책 경사도 업데이트에 명시적으로 통합하는 강화 학습 방법인 VLPO(시각-잠재 정책 최적화)를 제안합니다. SFT를 지원하기 위해 125K개의 실제 세계, 차트, OCR, 기하학 CoT를 포함한 고품질 텍스트-이미지 연계 CoT 데이터셋인 Monet-SFT-125K를 구축했습니다. 우리의 모델인 Monet-7B는 실제 세계 인식 및 추론 벤치마크에서 일관된 성능 향상을 보였으며, 어려운 추상적 시각 추론 과제에서 강력한 분포 외 일반화 능력을 나타냈습니다. 또한 각 훈련 구성 요소의 역할을 실증적으로 분석하고 초기 실패 시도에 대해 논의하여 향후 시각 잠재 추론 발전을 위한 통찰을 제공합니다. 우리의 모델, 데이터 및 코드는 https://github.com/NOVAglow646/Monet에서 이용 가능합니다.
터미널 속도 매칭(TVM)은 고품질의 1-단계 및 소수-단계 생성 모델링을 가능하게 하는 플로우 매칭의 일반화 방법입니다. TVM은 임의의 두 확산 타임스텝 간 전이를 모델링하며, 초기 시간이 아닌 종료 시간에서의 동작을 정규화합니다. 모델이 립시츠 연속성을 가질 때 TVM이 데이터와 모델 분포 간 2-바서슈타인 거리의 상한을 제공함을 증명합니다. 그러나 디퓨전 트랜스포머는 이 속성을 만족하지 않으므로, 안정적인 단일-단계 학습을 달성하는 최소 구조적 변경을 도입합니다. TVM의 실용적 효율성을 위해 트랜스포머 구조에 잘 확장되는 야코비안-벡터 곱의 역전파를 지원하는 융합 어텐션 커널을 개발했습니다. ImageNet-256x256에서 TVM은 단일 함수 평가(NFE)로 3.29 FID, 4 NFE로 1.99 FID를 달성합니다. ImageNet-512x512에서도 동일하게 1-NFE 기준 4.32 FID, 4-NFE 기준 2.94 FID를 기록하며, 처음부터 학습한 1/소수-단계 모델 중 최첨단 성능을 나타냅니다.
비전-언어 모델(VLM)은 여전히 공간 지능 측면에서 강건성이 부족하며, 공간 이해 및 추론 과제에서 낮은 성능을 보입니다. 우리는 이러한 격차가 2D 이미지로부터 3D 공간을 재구성할 수 있는 시각 기하학 학습 과정의 부재에서 비롯된다고 분석합니다. 본 논문에서는 공간 지능의 두 가지 기본 측면인 공간 3D 재구성과 공간 이해를 연결하는 기하학 기반 비전-언어 모델인 G^2VLM을 제안합니다. G^2VLM은 학습된 3D 시각 기하학 특징을 기본적으로 활용하여 3D 속성을 직접 예측하고, 인-컨텍스트 학습 및 교차 추론을 통해 공간 추론 과제의 성능을 향상시킵니다. 우리의 통합 설계는 공간 이해 측면에서 높은 확장성을 갖습니다: 풍부한 다중 시점 이미지 및 비디오 데이터로 학습하는 동시에, 일반적으로 수집이 어려운 주해 데이터에서만 파생되는 3D 시각 사전 지식의 이점을 동시에 활용합니다. 실험 결과는 G^2VLM이 두 과제 모두에서 능숙함을 보여주며, 최신 피드포워드 3D 재구성 모델과 비슷한 수준의 결과를 달성하고 공간 이해 및 추론 과제 전반에서 더 우수하거나 경쟁력 있는 결과를Achieve합니다. 의미론적으로 강력한 VLM과 저수준 3D 비전 과제를 통합함으로써, G^2VLM이 해당 분야의 강력한 기준 모델로 역할을 수행하고 3D 장면 편집과 같은 더 많은 미래 응용 프로그램을 개척하는 데 기여하기를 바랍니다.
블록-인과 비디오 생성은 속도와 품질 간의 심각한 트레이드오프에 직면해 있습니다: 소규모 1.3B 모델은 16 FPS에 그치는 반면, 대규모 14B 모델은 4.5 FPS로 느리게 실행되어 사용자가 반응성과 품질 사이에서 선택해야 합니다. 블록 캐스케이딩은 학습 없이 가능한 병렬화를 통해 이러한 트레이드오프를 크게 완화합니다. 우리의 핵심 통찰은 다음과 같습니다: 향후 비디오 블록 생성을 시작하는 데 현재 블록이 완전히 노이즈 제거될 필요가 없습니다. 선행 블록에서 부분적으로 노이즈 제거된 컨텍스트로 블록 생성을 시작함으로써, 우리는 순차적 파이프라인을 여러 블록이 동시에 노이즈 제거를 수행하는 병렬 캐스케이드로 변환합니다. 시간적 병렬성을 활용하는 5개의 GPU를 통해 모든 모델 규모에서 약 2배 가속화를 달성했습니다: 1.3B 모델은 16 FPS에서 30 FPS로, 14B 모델은 4.5 FPS에서 12.5 FPS로 가속화됩니다. 추론 속도 이상으로, 블록 캐스케이딩은 대화형 생성 시 컨텍스트 전환 동안 발생하는 KV 재캐싱(~200ms)의 오버헤드를 제거합니다. 다양한 블록-인과 파이프라인과 비교한 폭넓은 평가를 통해, 추론 시 블록-인과 파이프라인에서 블록 캐스케이딩 파이프라인으로 전환해도 생성 품질에 유의미한 저하가 없음을 입증했습니다. 프로젝트 페이지: https://hmrishavbandy.github.io/block_cascading_page/
사족 보행 로봇의 자연어 명령을 연속 제어로 접지하는 것은 시각-언어-행동 분야의 근본적인 과제로 남아 있습니다. 기존 방법론은 고차원 의미론적 추론과 저수준 구동 사이의 간극을 메우는 데 어려움을 겪어, 불안정한 접지와 현실 세계에서의 약한 일반화 성능을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 사족 보행 로봇을 위한 명시적 추론과 연속 제어가 가능한 통합 시각-언어-행동 프레임워크인 MobileVLA-R1을 제안합니다. 우리는 구현형 궤적에 대한 다중 세분성 사고의 연속(CoT) 대규모 데이터셋인 MobileVLA-CoT를 구축하여 정렬을 위한 구조화된 추론 감독을 제공합니다. 이를 기반으로 지도 CoT 정렬과 GRPO 강화 학습을 결합한 2단계 학습 패러다임을 도입하여 추론 일관성, 제어 안정성, 그리고 장기간 실행 성능을 향상시킵니다. VLN 및 VLA 과제에 대한 폭넓은 평가에서 강력한 기준선 대비 약 5% 향상된 우수한 성능을 입증했습니다. 사족 보행 로봇에서의 실제 환경 배포는 복잡한 상황에서도 견고한 성능을 검증합니다. 코드: https://github.com/AIGeeksGroup/MobileVLA-R1. 웹사이트: https://aigeeksgroup.github.io/MobileVLA-R1.
타임스텝 디스틸레이션은 확산 모델의 생성 효율성을 향상시키는 효과적인 접근법입니다. 궤적 기반 프레임워크인 일관성 모델(CM)은 강력한 이론적 기반과 고품질의 소수-스텝 생성 능력으로 인해 상당한 잠재력을 보여줍니다. 그러나 현재의 연속-시간 일관성 디스틸레이션 방법은 여전히 훈련 데이터와 컴퓨팅 자원에 크게 의존하여, 자원이 제한된 시나리오에서의 배포를 저해하고 다양한 도메인으로의 확장성을 제한합니다. 이 문제를 해결하기 위해 우리는 교사 모델의 생성 궤적에서 직접 잠재 표현을 추출하여 외부 훈련 데이터에 대한 의존성을 제거하는 궤적-역방향 일관성 모델(TBCM)을 제안합니다. VAE 인코딩과 대규모 데이터셋이 필요한 기존 방법과 달리, 우리의 자체 포함형 디스틸레이션 패러다임은 효율성과 단순성을 모두 크게 향상시킵니다. 더욱이, 궤적에서 추출된 샘플은 훈련과 추론 간의 분포 차이를 자연스럽게 연결함으로써 더 효과적인 지식 전달을 가능하게 합니다. 실험적으로 TBCM은 1-스텝 생성 설정에서 MJHQ-30k 데이터셋에 대해 6.52의 FID와 28.08의 CLIP 점수를 달성하였으며, Sana-Sprint 대비 약 40%의 훈련 시간 단축과 상당한 양의 GPU 메모리 절약을 통해 품질 저하 없이 우수한 효율성을 입증했습니다. 우리는 추가로 연속-시간 일관성 디스틸레이션에서의 확산-생성 공간 불일치를 밝히고, 샘플링 전략이 디스틸레이션 성능에 미치는 영향을 분석하여 향후 디스틸레이션 연구를 위한 통찰을 제공합니다. GitHub 링크: https://github.com/hustvl/TBCM.
비전-언어-행동(VLA) 정책은 언어, 인지, 로봇 제어의 정렬에 탁월한 성능을 보입니다. 그러나 대부분의 VLA는 단순 모방을 통해 학습되므로 시범 데이터에 과적합되고 분포 변화에 취약합니다. 강화 학습(RL)은 작업 보상을 직접 최적화하여 이러한 불일치를 해결하지만, 실제 로봇 상호작용은 비용이 높고 기존 시뮬레이터는 설계 및 전이가 어렵습니다. 본 연구는 학습된 세계 모델과 흐름 기반 행동 헤드에 특화된 RL 절차를 통해 VLA 사후 학습에서 데이터 효율성과 최적화 안정성을 동시에 해결합니다. 구체적으로, Prophet을 도입합니다. 이는 대규모 이기종 로봇 데이터에 걸쳐 사전 학습되어 재사용 가능한 행동-결과 역학을 학습하는 통합 행동-비디오 로봇 구동 모델입니다. Prophet은 새로운 로봇, 객체, 환경에 대해 적응형 학습이 가능하여 즉시 활용 가능한 시뮬레이터를 제공합니다. Prophet 기반으로, Flow-action-GRPO(FA-GRPO)를 통해 행동 정책을 강화합니다. FA-GRPO는 Flow-GRPO를 VLA 행동에 적용하며, FlowScale(흐름 헤드의 단계별 기울기를 재조정하는 단계별 가중치 재조정 기법)과 함께 사용됩니다. Prophet, FA-GRPO, FlowScale은 함께 실용적이고 데이터 및 계산 효율적인 VLA 사후 학습 경로인 ProphRL을 구성합니다. 실험 결과, 다양한 VLA 변형에서 공개 벤치마크 기준 5-17% 성공률 향상과 실제 로봇 기준 24-30% 성능 향상을 확인했습니다.
비전 파운데이션 모델(VFM)은 공간적으로 다운샘플링된 표현을 추출하여 픽셀 수준 작업에 어려움을 제기합니다. 기존 업샘플링 접근법은 근본적인 절충 관계에 직면해 있습니다: 고전적 필터는 빠르고 폭넓게 적용 가능하지만 고정된 형태에 의존하는 반면, 현대적 업샘플러는 학습 가능한 VFM 특화 형태를 통해 우수한 정확도를 달성하지만 각 VFM마다 재학습이 필요합니다. 본 연구는 이러한 간극을 해소하는 Neighborhood Attention Filtering(NAF)을 소개합니다. NAF는 Cross-Scale Neighborhood Attention과 Rotary Position Embeddings(RoPE)를 통해 적응형 공간-콘텐츠 가중치를 학습하며, 오직 고해상도 입력 이미지만으로 지도됩니다. NAF는 제로샷 방식으로 동작하여 어떠한 VFM의 특징맵도 재학습 없이 업샘플링하므로, VFM 특화 업샘플러를 능가하고 여러 다운스트림 작업에서 최첨단 성능을 달성하는 최초의 VFM-불가지론 아키텍처입니다. 또한 높은 효율성을 유지하며 2K 특징맵까지 확장 가능하고 중간 해상도 맵을 18 FPS로 재구성합니다. 특징 업샘플링을 넘어 NAF는 이미지 복원 작업에서도 강력한 성능을 보여 다재다능함을 입증합니다. 코드와 체크포인트는 https://github.com/valeoai/NAF에서 이용 가능합니다.
우리는 핵심 인지 원시 기능을 대상으로 하는 시각적 인식 및 추론 합성 환경인 Sphinx를 소개한다. Sphinx는 모티프, 타일, 차트, 아이콘, 기하학적 원시 요소를 활용하여 퍼즐을 절차적으로 생성하며, 각각 검증 가능한 실제 정답과 쌍을 이뤄 정밀한 평가와 대규모 데이터셋 구축을 동시에 가능하게 한다. 본 벤치마크는 대칭성 탐지, 기하학적 변환, 공간 추론, 차트 해석, 순서 예측 등 25가지 과제 유형을 포괄한다. 최신 대규모 시각-언어 모델(LVLM) 평가 결과, 최첨단 GPT-5 조차도 정확도가 51.1%에 그쳐 인간의 수행 수준보다 크게 떨어지는 것으로 나타났다. 마지막으로 검증 가능한 보상 기반 강화 학습(RLVR)이 이러한 과제에서 모델 정확도를 크게 향상시키고 외부 시각 추론 벤치마크에서도 성능 향상을 가져옴을 입증하며, 이 방식이 다중모달 추론 발전을 위한 유망한 접근법임을 부각한다.
인간 피드백 강화학습(RLHF)은 대규모 언어 모델 정렬에 널리 사용되지만, 실무자들은 지속적인 딜레마에 직면합니다: 안전성 향상은 공정성을 저하시키는 경우가 많고, 다양한 인구 집단으로의 확장은 계산적으로 다루기 어려워지며, 시스템 강건성을 높이는 것은 다수 편향을 증폭시키는 경향이 있습니다. 우리는 이러한 긴장 관계를 '정렬 삼중 딜레마'로 공식화합니다: 어떤 RLHF 시스템도 (i) 다양한 인간 가치에 걸친 엡실론-대표성, (ii) 샘플 및 계산 복잡도에서의 다항식적 다루기 쉬움, (iii) 적대적 교란 및 분포 변화에 대한 델타-강건성을 동시에 달성할 수 없습니다. 통계적 학습 이론과 강건 최적화를 통합한 복잡도 이론적 분석을 통해, 우리는 글로벌 규모 인구 집단에 대해 대표성(ε ≤ 0.01)과 강건성(δ ≤ 0.001)을 모두 달성하는 것이 컨텍스트 차원에서 초다항식인 Ω(2^{d_context}) 연산을 필요로 함을 증명합니다. 현재 RLHF 구현은 이 삼중 딜레마를 대표성을 희생하여 해결함을 보입니다: 동질적인 주석자 집단에서 단 10^3–10^4개의 샘플만 수집하는 반면, 진정한 글로벌 대표성에는 10^7–10^8개의 샘플이 필요합니다. 우리의 프레임워크는 선호도 붕괴, 아첨, 체계적 편향 증폭 등 문서화된 RLHF 병리 현상에 대한 통합적 설명을 제공합니다. 우리는 정렬 요구사항의 전략적 완화를 통해 이러한 근본적인 트레이드오프를 탐색하는 구체적인 방향으로 결론을 맺습니다.
도시 규모 3D 생성은 구현형 인공지능과 세계 모델 발전에 매우 중요합니다. 그러나 기존 방법론들은 3D 세계 생성에 있어 품질, 정확도, 확장성 측면에서 상당한 어려움에 직면해 있습니다. 이에 본 논문에서는 세부적인 도시 규모의 3D 세계를 생성하는 Reality-Aligned Intelligent Synthesis Engine인 RAISECity를 제안합니다. 우리는 다양한 멀티모달 기반 도구를 활용하여 실세계 지식을 습득하고, 견고한 중간 표현을 유지하며, 복잡한 3D 장면을 구축하는 에이전트 기반 프레임워크를 소개합니다. 동적 데이터 처리, 반복적 자기 반성 및 정제, 고급 멀티모달 도구 호출을 특징으로 하는 이 에이전트 설계는 누적 오류를 최소화하고 전반적인 성능을 향상시킵니다. 광범위한 정량적 실험과 정성적 분석을 통해 RAISECity가 실세계 정합성, 형상 정밀도, 텍스처 정확도, 미적 수준에서 우수한 성능을 보이며, 전반적 지각 품질 평가에서 기존 기준선 대비 90% 이상의 승률을 달성함을 입증했습니다. 이러한 3D 품질, 현실 정합성, 확장성, 컴퓨터 그래픽스 파이프라인과의 원활한 호환성 결합은 RAISECity가 몰입형 미디어, 구현형 인공지능, 세계 모델 응용 분야에 유망한 기반 기술이 되도록 합니다.
정확한 잔여수명(Remaining Useful Life, RUL) 예측은 건강 지표(Health Indicator, HI)의 품질에 달려 있으나, 기존 방법론들은 다중 센서 시스템 내 복잡한 성능 저하 메커니즘을 분리하거나 HI 신뢰도에 대한 불확실성을 정량화하는 데 종종 실패한다. 본 논문은 HI 구축을 위한 새로운 프레임워크를 제시하며, 세 가지 핵심 기여점을 제안한다. 첫째, 예측된 경로를 따른 재구성(Reconstruction along Projectied Pathways, RaPP) 기법을 RUL 예측을 위한 건강 지표로 최초로 적용하며, 이가 기존 재구성 오류 지표보다 성능이 우수함을 입증한다. 둘째, 몬테카를로 드롭아웃 및 확률적 잠재 공간을 통한 알레아토릭 및 에피스테믹 불확실성 정량화를 RaPP 기반 HI에 적용하면 RUL 예측의 강건성이 크게 향상됨을 보인다. 셋째, 가장 핵심적으로, 시스템 특정 성능 저하를 모델링하기 위해 센서 하위 집합을 분리하는 패러다임인 지표 그룹(Indicator Groups)을 제안한다. 이를 통해 우리의 새로운 방법론인 I-GLIDE가 탄생하여 해석 가능하고 메커니즘 특정 진단이 가능해진다. 항공우주 및 제조 시스템 데이터를 활용한 평가 결과, 본 접근법은 최첨단 HI 방법론 대비 정확도와 일반화 성능에서 현저한 개선을 달성함과 동시에 시스템 고장 경로에 대한 실질적인 통찰력을 제공한다. 본 연구는 이상 감지와 예지 정비 간의 간극을 메우며, 복잡 시스템에서 불확실성을 고려한 성능 저하 모델링을 위한 체계적인 프레임워크를 제시한다.
3D 가우시안 스플래팅(3DGS)은 대부분의 설정에서 뛰어난 성능을 보이지만, 희소한 관측 데이터에 과적합되기 때문에 소수 샷 시나리오에서 새로운 시점에 대한 일반화 능력이 부족합니다. 우리는 기계 학습의 관점에서 3DGS 최적화를 재조명하며, 새로운 시점 합성 문제를 미탐색 시점에 대한 일반화 문제로 재구성합니다. 우리는 3DGS 훈련 목적 함수를 재정의하여 3DGS가 더 나은 일반화 해법으로 수렴하도록 안내하는 주파수 적응型 선예도 정규화(FASR)를 제안합니다. 선예도 인식 최소화(SAM)도 분류 모델의 일반화 성능 향상을 위해 손실 경관의 날카로움을 줄이는 유사한 접근법이지만, 작업 간 차이로 인해 3DGS에 직접 적용하는 것은 최적이 아닙니다. 구체적으로, SAM은 과도한 정규화로 인해 고주파 세부 정보 재구성을 방해하는 반면, 정규화 강도를 낮추면 선예도에 대한 패널티가 충분히 이루어지지 않습니다. 이를 해결하기 위해 우리는 지역 선예도를 추정할 때 정규화 가중치와 이웃 반경을 설정하기 위해 이미지의 지역적 주파수 특성을 반영합니다. 이는 새로운 시점에서 플로터 아티팩트를 방지하고 SAM이 과도하게 평활화하는 경향이 있는 미세한 세부 정보를 재구성합니다. 다양한 설정의 데이터셋에서 우리의 방법은 광범위한 기준선 모델들의 성능을 지속적으로 향상시킵니다. 코드는 https://bbangsik13.github.io/FASR에서 공개될 예정입니다.