번역이 포함된 일일 선별된 AI 연구 논문
자기 중심적 인지는 인간이 자신의 시점에서 세계를 직접 경험하고 이해할 수 있게 합니다. 타자 중심적(3인칭) 영상을 자기 중심적(1인칭) 영상으로 변환하는 것은 몰입형 이해에 새로운 가능성을 열어주지만, 극심한 카메라 자세 변화와 최소한의 시야 중복으로 인해 여전히 매우 어려운 과제입니다. 이 작업은 가시적 콘텐츠를 충실히 보존하면서 보이지 않는 영역을 기하학적으로 일관된 방식으로 합성해야 합니다. 이를 위해 우리는 단일 타자 중심 입력에서 자기 중심적 영상을 생성하는 새로운 프레임워크인 EgoX를 제시합니다. EgoX는 경량 LoRA 적응을 통해 대규모 비디오 확산 모델의 사전 학습된 시공간 지식을 활용하며, 너비 및 채널 방향 연결을 통해 타자 중심 및 자기 중심 사전 지식을 결합하는 통합 조건 설정 전략을 도입합니다. 또한 기하학 기반 자기 주의 메커니즘은 공간적으로 관련된 영역을 선택적으로 주의하여 기하학적 일관성과 높은 시각적 충실도를 보장합니다. 우리의 접근 방식은 일관되고 현실적인 자기 중심적 비디오 생성을 달성하며, 보지 않았거나 실제 환경의 비디오에서도 강력한 확장성과 견고성을 보여줍니다.
치과에서 다중모드 데이터의 신뢰할 수 있는 해석은 자동화된 구강 건강 관리에 필수적이지만, 현재의 다중모드 대규모 언어 모델(MLLM)은 미세한 치과 시각적 세부 사항을 포착하는 데 어려움을 겪고 정확한 진단을 위한 충분한 추론 능력이 부족합니다. 이러한 한계를 해결하기 위해 저희는 고품질 도메인 지식 주입과 강화 학습을 통해 개발된 전문 치과 MLLM인 DentalGPT를 제시합니다. 구체적으로, 진단적으로 관련된 시각적 특징을 강조하는 상세한 설명과 함께 12만 개 이상의 치과 이미지를 통합하여 현재까지 가장 큰 주석이 달린 치과 다중모드 데이터셋을 구축했습니다. 이는 현재까지 가장 방대한 치과 이미지 컬렉션을 보유한 다중모드 데이터셋입니다. 이 데이터셋을 통한 학습은 MLLM의 치과 상태에 대한 시각적 이해를 크게 향상시키며, 이후의 강화 학습 단계는 다중모드 복합 추론 능력을 더욱 강화합니다. 구강 내 및 파노라마 벤치마크와 의료 VQA 벤치마크의 치과 하위 집합에 대한 포괄적인 평가 결과, DentalGPT가 질병 분류 및 치과 VQA 작업에서 우수한 성능을 달성하여 70억 개의 매개변수만을 가짐에도 불구하고 많은 최첨단 MLLM을 능가하는 것으로 나타났습니다. 이러한 결과는 고품질 치과 데이터와 단계적 적응을 결합하는 것이 능력 있고 도메인 특화된 치과 MLLM을 구축하는 효과적인 경로를 제공함을 보여줍니다.
비주얼 파운데이션 모델(VFM) 표현에 기반한 시각 생성은 시각적 이해, 인식, 생성의 통합을 위한 매우 유망한 통합 경로를 제공합니다. 이러한 잠재력에도 불구하고, VFM 표현 공간 전체에서 대규모 텍스트-이미지 확산 모델을 완전히 학습하는 방법은 여전히 크게 탐구되지 않았습니다. 이러한 격차를 해소하기 위해 우리는 SVG(시각 생성을 위한 자기 지도 표현) 프레임워크를 확장하여 VFM 특징 영역에서 직접 고품질 텍스트-이미지 합성을 지원하는 SVG-T2I를 제안합니다. 표준 텍스트-이미지 확산 파이프라인을 활용한 SVG-T2I는 GenEval에서 0.75, DPG-Bench에서 85.78점에 도달하는 경쟁력 있는 성능을 달성합니다. 이 성능은 생성 작업에 대한 VFM의 내재적 표현 능력을 입증합니다. 표현 주도 시각 생성 연구의 활성화를 위해 오토인코더 및 생성 모델, 해당 학습/추론/평가 파이프라인, 사전 학습된 가중치를 포함한 프로젝트 전체를 오픈소스로 공개합니다.
대규모 비디오 생성 모델은 실제 장면의 사실적인 외관과 조명 상호작용을 모델링하는 데 있어 놀라운 잠재력을 보여주고 있습니다. 그러나 본질적인 장면 속성(예: 알베도, 법선, 재질, 조사도)을 공동으로 이해하고, 이를 비디오 합성에 활용하며, 편집 가능한 본질적 표현을 지원하는 폐쇄형 프레임워크는 아직 탐구되지 않았습니다. 우리는 본질적 인식 비디오 편집을 위한 최초의 종단 간 프레임워크인 V-RGBX를 소개합니다. V-RGBX는 세 가지 핵심 기능을 통합합니다: (1) 본질적 채널로의 비디오 역렌더링, (2) 이러한 본질적 표현으로부터의 사실적 비디오 합성, (3) 본질적 채널에 기반한 키프레임 기반 비디오 편집. V-RGBX의 핵심은 사용자가 선택한 키프레임을 통해 직관적이고 물리적으로 타당한 비디오 편집을 가능하게 하는 인터리빙 조건화 메커니즘으로, 모든 본질적 양태를 유연하게 조작할 수 있도록 지원합니다. 방대한 정성적 및 정량적 결과는 V-RGBX가 시간적으로 일관되고 사실적인 비디오를 생성하면서 키프레임 편집을 물리적으로 타당한 방식으로 시퀀스 전체에 전파함을 보여줍니다. 우리는 객체 외관 편집 및 장면 수준 재조명을 포함한 다양한 응용 분야에서 기존 방법의 성능을 능가하는 V-RGBX의 효과성을 입증합니다.
현재의 확산 기반 초상화 애니메이션 모델은 시각적 품질과 표정 현실감 향상에 주로 초점을 맞추며, 생성 지연 시간과 실시간 성능을 간과하여 라이브 스트리밍 시나리오에서의 적용 범위를 제한하고 있습니다. 본 연구에서는 다단계 학습 레시피를 통해 실시간 스트리밍 초상화 애니메이션을 가능하게 하는 새로운 확산 기반 프레임워크인 PersonaLive를 제안합니다. 구체적으로, 우리는 먼저 암묵적 얼굴 표현과 3D 암묵 키포인트라는 하이브리드 암묵 신호를 도입하여 표현력 있는 이미지 수준의 모션 제어를 달성합니다. 그런 다음, 더 적은 단계의 외관 증류 전략을 제안하여 노이즈 제거 과정에서의 외관 중복성을 제거함으로써 추론 효율을 크게 향상시킵니다. 마지막으로, 슬라이딩 학습 전략과 역사적 키프레임 메커니즘을 갖춘 자기회귀적 마이크로 청크 스트리밍 생성 패러다임을 도입하여 낮은 지연 시간과 안정적인 장기 비디오 생성을 가능하게 합니다. 광범위한 실험을 통해 PersonaLive가 기존 확산 기반 초상화 애니메이션 모델 대비 최대 7-22배의 속도 향상과 함께 최첨단 성능을 달성함을 입증합니다.
트랜스포머 기반 대규모 언어 모델(LLM)의 자기 주의(self-attention) 메커니즘은 입력 길이에 대해 2차적으로 확장되므로 장문맥 추론 시 비용이 많이 듭니다. 슬라이딩 윈도우 주의(SWA)는 이 비용을 선형 복잡도로 줄이지만, 전체 주의(FA)로 사전 학습된 모델에 추론 시 단순히 완전한 SWA를 적용하면 학습-추론 불일치로 인해 장문맥 성능이 심각하게 저하됩니다. 이로 인해 우리는 다음과 같은 의문을 갖게 되었습니다: FA로 사전 학습된 LLM을 재사전 학습 없이 SWA에 잘 적응시킬 수 있을까? 우리는 이 문제를 탐구하기 위해 더 나은 적응을 위한 다섯 가지 방법을 결합한 실용적인 방법론 집합인 SWAA(Sliding Window Attention Adaptation)를 제안합니다. 이 방법론은 (1) 프리필링(prefilling) 단계에서만 SWA 적용, (2) "싱크"(sink) 토큰 보존, (3) FA/SWA 계층 교차 배치, (4) 사고 연쇄(CoT), (5) 미세 조정으로 구성됩니다. 우리의 실험 결과는 SWA 적응이 비단순적이면서도 가능함을 보여줍니다: 단일 방법으로는 충분하지 않지만, 특정 시너지 조합을 통해 원본 장문맥 성능을 효과적으로 회복할 수 있습니다. 우리는さらに 다양한 SWAA 구성의 성능-효율성 트레이드오프를 분석하고 다양한 시나리오에 대한 권장 방법을 제시합니다. 코드는 https://github.com/yuyijiong/sliding-window-attention-adaptation 에서 확인할 수 있습니다.
멀티모달 학습은 강력한 대형 언어 모델(LLM)을 인지 코어로 활용하는 멀티모달 대형 언어 모델(MLLM)을 통해 시각적 이해 분야에서 빠르게 발전해왔습니다. 그러나 시각 생성 영역에서는 이러한 강력한 코어 모델이 일반적으로 확산 모델을 위한 전역 텍스트 인코더로 축소되어, 그들의 대부분의 추론 및 계획 능력이 사용되지 못하고 있습니다. 이로 인해 간극이 발생합니다: 현재의 멀티모달 LLM은 복잡한 레이아웃, 속성, 지식 집약적 장면을 분석할 수 있지만, 동일한 수준의 정밀하고 구조화된 제어를 통해 이미지나 동영상을 생성하는 데는 어려움을 겪습니다. 우리는 MLLM이 공간적 및 시공간적 잠재 공간에서 직접 추론하고 계획하며 확산 생성기와 긴밀하게 상호작용할 수 있도록 하는 경량 프레임워크인 MetaCanvas를 제안합니다. 우리는 MetaCanvas를 세 가지 다른 확산 백본에 대해 실증적으로 구현하고, 정확한 레이아웃, 견고한 속성 바인딩, 추론 집약적 제어가 각각 필요한 텍스트-이미지 생성, 텍스트/이미지-동영상 생성, 이미지/동영상 편집, 그리고 컨텍스트 내 동영상 생성 등 여섯 가지 작업에 걸쳐 평가합니다. MetaCanvas는 전역 조건 설정 기반선행 모델들을 지속적으로 능가하며, MLLM을 잠재 공간 계획자로 간주하는 것이 멀티모달 이해와 생성 간의 간극을 좁히는 유망한 방향임을 시사합니다.
3D 가우시안 스플래팅과 같은 프리미티브 기반 스플래팅 방법은 실시간 렌더링으로 새로운 시점 합성 분야에 혁명을 일으켰습니다. 그러나 이러한 점 기반 표현은 AR/VR 및 게임 엔진의 기반이 되는 메시 기반 파이프라인과는 여전히 호환되지 않습니다. 본 논문에서는 미분 가능 렌더링을 통해 형상과 외관을 공동 최적화하는 메시 기반 재구성 접근법인 MeshSplatting을 제안합니다. 제한된 들로네 삼각분할을 통해 연결성을 강화하고 표면 일관성을 정제함으로써, MeshSplatting은 실시간 3D 엔진에서 효율적으로 렌더링되는 종단간 매끄럽고 시각적으로 고품질인 메시를 생성합니다. Mip-NeRF360 데이터셋에서 메시 기반 새로운 시점 합성을 위한 최신 기술인 MiLo 대비 PSNR을 +0.69dB 향상시키면서, 학습 속도는 2배 빠르고 메모리 사용량은 2배 적어 신경망 렌더링과 인터랙티브 3D 그래픽스의 간극을 메우며 원활한 실시간 장면 상호작용을 가능하게 합니다. 프로젝트 페이지는 https://meshsplatting.github.io/에서 확인할 수 있습니다.
현실은 경직된 제약 조건과 변형 가능한 구조 사이의 춤과 같습니다. 비디오 모델의 경우 이는 구조는 물론 충실도도 보존하는 모션을 생성함을 의미합니다. 디퓨전 모델의 발전에도 불구하고, 인간 및 동물과 같은 관절 구조물 및 가변형 객체에 대한 사실적이고 구조를 보존하는 모션 생성은 여전히 어려운 과제입니다. 지금까지는 단순히 훈련 데이터를 확장하는 것만으로는 물리적으로 비합리적인 전이를 해결하지 못했습니다. 기존 접근법은 광학 흐름이나 외부 불완전 모델로 추출한 골격과 같은 노이즈가 있는 모션 표현을 조건화에 의존합니다. 이러한 문제를 해결하기 위해 우리는 자기회귀 비디오 추적 모델(SAM2)에서 구조 보존 모션 사전 지식을 양방향 비디오 디퓨전 모델(CogVideoX)로 증류하는 알고리즘을 소개합니다. 우리의 방법으로 SAM2VideoX를 훈련하는데, 여기에는 두 가지 혁신이 포함됩니다: (1) SAM2와 같은 순환 모델에서 전역 구조 보존 모션 사전 지식을 추출하는 양방향 특징 융합 모듈; (2) 지역적 특징들이 함께 어떻게 움직이는지를 정렬하는 Local Gram Flow 손실 함수. VBench 및 인간 평가 실험에서 SAM2VideoX는 기존 기준선 대비 일관된 성능 향상(VBench +2.60%, FVD 21-22% 감소, 71.4% 인간 선호도)을 보여줍니다. 구체적으로, VBench에서 95.51%를 달성하여 REPA(92.91%)를 2.60% 앞섰으며, FVD를 360.57로 낮춰 REPA 및 LoRA 파인튜닝 대비 각각 21.20%, 22.46% 개선했습니다. 프로젝트 웹사이트는 https://sam2videox.github.io/에서 확인할 수 있습니다.
본 논문에서는 로봇을 위한 범용 언어 기반 지능형 에이전트 프레임워크인 LEO-RobotAgent를 제안한다. 본 프레임워크 하에서 대규모 언어 모델(LLM)은 다양한 시나리오에서 예측 불가능한 복잡한 임무를 수행하기 위해 서로 다른 유형의 로봇들을 운용할 수 있다. 이 프레임워크는 강력한 일반화 성능, 강건성 및 효율성을 특징으로 한다. 이를 기반으로 구축된 응용 수준의 시스템은 양방향 인간-로봇 의도 이해를 완전히 향상시키고 인간-로봇 상호작용의 진입 장벽을 낮출 수 있다. 로봇 임무 계획 분야와 관련하여, 기존 연구의 대부분은 단일 임무 시나리오 및 단일 로봇 유형에 대한 대형 모델의 적용에 집중되어 있다. 해당 알고리즘들은 종종 복잡한 구조를 가지며 일반화 능력이 부족하다. 이에 따라, 제안된 LEO-RobotAgent 프레임워크는 가능한 한 간결한 구조로 설계되어 대형 모델이 이 명확한 프레임워크 내에서 독립적으로 사고, 계획, 행동할 수 있도록 한다. 우리는 모듈화되고 쉽게 등록 가능한 도구 세트를 제공하여 대형 모델이 다양한 요구 사항을 충족시키기 위해 유연하게 여러 도구들을 호출할 수 있게 한다. 동시에 본 프레임워크는 인간-로봇 상호작용 메커니즘을 통합하여 알고리즘이 인간과 파트너처럼 협업할 수 있도록 한다. 실험을 통해 본 프레임워크가 무인 항공기(UAV), 로봇 팔, 주행 로봇을 포함한 주류 로봇 플랫폼에 쉽게 적용될 수 있으며, 다양한 복잡도를 가진 정교하게 설계된 임무들을 효율적으로 수행할 수 있음이 검증되었다. 우리의 코드는 https://github.com/LegendLeoChen/LEO-RobotAgent에서 확인할 수 있다.
현대 대규모 언어 모델(LLM) 사전 학습은 방대한 양의 컴퓨팅 자원과 훈련 데이터를 소모하므로, 다양한 모델의 확장 성능 또는 확장 법칙(scaling laws)이 주요 차별화 요소로 작용합니다. 이산 확산 언어 모델(DLM)은 자기회귀 언어 모델(ALM)의 대안으로 제안되었으나, 그 확장 성능은 아직 충분히 연구되지 않았으며, 기존 연구에 따르면 DLM이 ALM과 동등한 성능을 달성하려면 더 많은 데이터와 컴퓨팅 자원이 필요할 수 있다고 합니다. 본 연구는 배치 크기 및 학습률과 같은 중요한 하이퍼파라미터를 세심하게 조정하면서, 마스킹 확산(masked diffusion)과 균일 확산(uniform diffusion) 사이를 매끄럽게 보간(interpolating)하여 다양한 노이즈 유형에 대한 DLM의 확장 성능을 분석합니다. 우리의 실험 결과, DLM의 확장 성능은 노이즈 유형에 크게 의존하며 ALM과는 상당히 다르다는 것을 보여줍니다. 모든 노이즈 유형이 컴퓨팅 자원이 제한된 조건의 확장(compute-bound scaling)에서는 유사한 손실 값에 수렴하지만, 컴퓨팅 효율적인 훈련(compute-efficient training)을 위해서는 마스킹 확산 대비 균일 확산이 더 많은 매개변수와 더 적은 데이터를 필요로 한다는 사실을 발견했습니다. 이는 데이터가 제한된 환경(data-bound settings)에서 균일 확산 모델이 매우 유망한 후보가 됨을 시사합니다. 우리는 균일 확산 모델을 10^{22} FLOPs까지 훈련시켜 100억 개의 매개변수로 확장하였으며, 이를 통해 예측된 확장 법칙을 확인하고 현재 공개된 가장 큰 규모의 균일 확산 모델을 구축했습니다.
본 논문에서는 단일 이미지로부터 사진처럼 사실적인 새로운 시점 합성 방법인 SHARP를 제안한다. 주어진 단일 사진을 통해 SHARP는 해당 장면을 표현하는 3D 가우시안 표현의 매개변수를 회귀한다. 이는 신경망의 단일 순전파 패스만으로 표준 GPU 환경에서 1초 미만에 수행된다. SHARP가 생성한 3D 가우시안 표현은 실시간으로 렌더링되어 인접한 시점에 대한 고해상도 사실적 이미지를 생성할 수 있다. 이 표현은 절대尺度를 가지는 계량적 특성으로, 계량적 카메라 이동을 지원한다. 실험 결과는 SHARP가 데이터셋 간 견고한 제로샷 일반화 성능을 보여줌을 입증한다. 여러 데이터셋에서 기존 최고 모델 대비 LPIPS는 25-34%, DISTS는 21-43% 개선하면서도 합성 시간을 1/1000 수준으로 단축하여 새로운 최첨단 성능을 달성했다. 코드와 가중치는 https://github.com/apple/ml-sharp에서 제공된다.
대규모 언어 모델(LLM)은 인공 지능 분야에 혁명을 일으켰으나, 그 방대한 메모리 및 계산 요구량으로 인해 과감한 양자화가 필수적이며, 이로 인해 표현이 점차 이론적 한계인 1비트에 가까워지고 있다. iFairy와 같은 복소수 값 LLM은 실수 값 대비 낮은 비트 표현 구현에 유리하지만, 처음부터 다시 학습해야 하므로 사전 학습된 실수 값 기반 모델의 방대한 생태계를 활용할 수 없다는 한계가 있다. 본 연구에서는 사전 학습된 실수 값 계층을 동등한 광의 선형 복소수 형태로 변환하여 기존 체크포인트를 재사용하면서도 극단적으로 낮은 비트 양자화를 가능하게 하는 범용 프레임워크인 Fairy2i를 제안한다. 실수 함수와 광의 선형 함수 간의 무손실 수학적 동등성을 증명함으로써 표준 트랜스포머를 복소수 영역으로 변환하고, 1의 네제곱근으로 구성된 고효율 코드북을 활용한 위상 인식 양자화 기법을 적용한다. 더 나아가, 양자화 오차를 반복적으로 최소화하는 재귀적 잔차 양자화 메커니즘을 도입하여 효율적인 곱셈 없는 누적 방식으로 추론을 수행할 수 있도록 한다. Fairy2i가 LLaMA-2 7B 모델의 성능을 유효 2비트 정밀도에서 완전 정밀도 기준선과 거의 유사한 수준으로 복원하며, 최첨단 실수 값 이진 및 삼진 양자화 방법들을 크게 능가함을 입증한다. 본 연구는 복소수 연산의 표현 효율성과 사전 학습 모델의 실용적 유용성 간의 간극을 해소하며, 일반 범용 하드웨어에서의 효율적인 추론을 위한 새로운 길을 제시한다.
LLM-as-judge 평가는 모델 평가 확장을 위한 사실상의 표준이 되었지만, 이 방법은 통계적으로 결함이 있습니다: 보정되지 않은 점수는 선호도를 역전시킬 수 있고, 보정되지 않은 점수에 대한 단순 신뢰구간은 거의 0%에 가까운 커버리지를 달성하며, 중요도 가중 추정기는 높은 유효 표본 크기(ESS)에도 불구하고 제한된 중첩 하에서 붕괴됩니다. 우리는 이 세 가지 결함을 모두 해결하는 프레임워크인 Causal Judge Evaluation(CJE)을 소개합니다. n=4,961개의 Chatbot Arena 프롬프트(5,000개에서 필터링 후)에서 CJE는 전체 표본 크기에서 99%의 쌍별 순위 정확도(구성 전체 평균 94%)를 달성하여 오라클 품질과 일치하며, 5%의 오라클 레이블(약 250개 레이블)만으로 16배 더 저렴한 평가자를 보정함으로써 비용을 14분의 1로 절감합니다(5개 정책 순위 매김 시). CJE는 세 가지 구성 요소를 결합합니다: (i) 평균 보존 등장 회귀를 통한 보상 보정(AutoCal-R); (ii) S-단조 후보 스태킹을 통한 가중치 안정화(SIMCal-W); (iii) 보정 불확실성을 신뢰구간에 전파하는 Oracle-Uncertainty Aware(OUA) 추론. 우리는 Coverage-Limited Efficiency(CLE) 진단을 공식화하는데, 이는 ESS가 90%를 초과할 때도 IPS 스타일 추정기가 실패하는 이유를 설명합니다: 로거가 대상 정책이 집중되는 영역을 거의 방문하지 않기 때문입니다. 주요 결과: SNIPS는 가중치 불안정성으로 인해 보상 보정 후에도 순위를 역전시킵니다(38% 쌍별, 음의 켄달 타우). 가중치 안정화에도 불구하고 보정된 IPS는 여전히 거의 무작위 수준입니다(47%), 이는 CLE와 일관됩니다. OUA는 커버리지를 거의 0%에서 약 86%(Direct) 및 약 96%(stacked-DR)로 개선하는 반면, 단순 구간은 심각하게 과소 커버됩니다.
본 논문에서는 일상적인 객체의 단일 정적 3D 메시가 주어졌을 때, 3D 부품, 운동학적 구조, 운동 제약 조건을 포함한 기본 관절 구조의 모든 속성을 직접 추론하는 순전파(Feed-forward) 방식인 Particulate를 제안합니다. 핵심에는 입력 메시의 포인트 클라우드를 처리하여 앞서 언급한 모든 속성을 기본적인 다중 관절 지원으로 예측하기 위해 유연하고 확장 가능한 아키텍처를 사용하는 트랜스포머 네트워크인 Part Articulation Transformer가 있습니다. 우리는 공개 데이터셋의 다양한 관절형 3D 자산 컬렉션을 통해 이 네트워크를 종단간(End-to-end)으로 학습시켰습니다. 추론 단계에서 Particulate는 네트워크의 순전파 예측을 입력 메시에 적용하여 몇 초 만에 완전한 관절형 3D 모델을 생성하며, 이는 객체별 최적화가 필요한 기존 접근법보다 훨씬 빠릅니다. Particulate는 AI 생성 3D 자산의 관절 구조도 정확하게 추론할 수 있어, 기존의 이미지-3D 생성기와 결합하면 단일(실사 또는 합성) 이미지에서 완전한 관절형 3D 객체 추출을 가능하게 합니다. 또한 고품질 공개 3D 자산에서 선별한 3D 관절 추정을 위한 새로운 도전적인 벤치마크를 도입하고, 평가 프로토콜을 인간의 선호도와 더 일관되도록 재설계했습니다. 정량적 및 정성적 결과는 Particulate가 최첨단 접근법을 크게 능가함을 보여줍니다.
스테레오 파운데이션 모델은 강력한 제로샷 일반화 성능을 달성하지만 실시간 응용 분야에서는 계산 비용이 과도하게 높은 문제가 있습니다. 반면 효율적인 스테레오 아키텍처는 속도를 위해 견고성을 희생하며, 도메인별로 비용이 많이 드는 미세 조정이 필요합니다. 이러한 격차를 해소하기 위해 우리는 강력한 제로샷 일반화 성능을 실시간 프레임 속도로 최초로 달성하는 Fast-FoundationStereo 아키텍처 패밀리를 제안합니다. 우리는 세 가지 구성 요소로 이루어진 분할 정복 가속화 전략을 채택했습니다: (1) 하이브리드 백본을 단일 효율적 학생 모델로 압축하는 지식 증류, (2) 대기 시간 예산 내 최적의 비용 필터링 설계를 자동으로 발견하고 검색 복잡도를 기하급수적으로 줄이는 블록 단위 신경망 구조 탐색, (3) 반복 정제 모듈의 중복성을 제거하는 구조적 가지치기. 또한 합성 훈련 데이터를 보완하고 지식 증류를 용이하게 하기 위해 140만 개의 실제 스테레오 이미지 쌍을 선별하는 자동 의사 레이블링 파이프라인을 도입했습니다. 결과 모델은 FoundationStereo 대비 10배 이상 빠른 속도로 동작하면서도 그 제로샷 정확도를 근접하게 따라가며, 실시간 방법 중 새로운 최첨단 기술을 확립합니다. 프로젝트 페이지: https://nvlabs.github.io/Fast-FoundationStereo/
우리는 2025 BEHAVIOR Challenge에서 1위를 차지한 vision-action 정책을 제시한다. 이 대규모 벤치마크는 사실적인 시뮬레이션 환경에서 양손 조작, 이동, 상황 인식 의사 결정이 필요한 50가지 다양한 장기계획 가정 작업으로 구성된다. Pi0.5 아키텍처를 기반으로 여러 혁신을 도입했다. 주요 기여는 흐름 매칭을 위한 상관 잡음으로, 이는 학습 효율성을 향상시키고 부드러운 행동 시퀀스를 위한 상관 인지 인페인팅을 가능하게 한다. 또한 학습 가능한 혼합 계층 어텐션과 모호성 해결을 위한 System 2 단계 추적을 적용했다. 학습에는 분산을 줄이기 위해 다중 샘플 흐름 매칭을 사용한 반면, 추론에는 행동 압축과 도전 과제 특화 수정 규칙을 활용했다. 우리의 접근 방식은 공개 및 비공개 리더보드에서 50개 작업 전반에 걸쳐 26%의 q-score를 달성했다.
언어 모델(LM)을 의료 시스템에 통합하면 의료 업무 흐름과 의사 결정 개선에 큰 기대를 걸 수 있습니다. 그러나 실제 현장 적용에 대한 중요한 장벽은 특히 다국어 의료 환경에서 이들의 신뢰성을 신뢰할 수 있게 평가하지 못한다는 점입니다. 기존 LM은 주로 고자원 언어로 훈련되어 중·저자원 언어로 된 의료 문의의 복잡성과 다양성을 처리하는 데 적합하지 않아, 언어적 다양성이 핵심인 글로벌 의료 환경에 LM을 배포하는 데 상당한 과제를 제기합니다. 본 연구에서는 의료 분야 언어 모델의 신뢰성을 평가하기 위한 포괄적 다국어 벤치마크인 CLINIC을 소개합니다. CLINIC은 진실성, 공정성, 안전성, 강건성, 개인정보 보호라는 신뢰성의 5가지 핵심 차원에 걸쳐 LM을 체계적으로 벤치마킹하며, 15개 언어(모든 주요 대륙 포함)에 걸친 18가지 다양한 과제를 통해 운영되고, 질병 상태, 예방 조치, 진단 검사, 치료, 수술, 약물 등 광범위한 핵심 의료 주제를 포괄합니다. 우리의 포괄적 평가 결과, LM은 사실적 정확성에 어려움을 겪으며, 인구통계학적 및 언어적 그룹 간 편향을 보이고, 개인정보 침해 및 적대적 공격에 취약한 것으로 나타났습니다. 이러한 단점을 부각시킴으로써 CLINIC은 다양한 언어를 아우르는 의료 분야 LM의 글로벌 확산과 안전성 강화를 위한 기반을 마련합니다.
인간은 복잡한 활동을 직관적으로 병렬화할 수 있지만, 모델이 단일 사용자의 관찰만으로 이를 학습할 수 있을까? 우리는 하나의 에고센트릭 비디오가 주어졌을 때, N명의 개인이 동일한 작업 집합을 가상으로 수행할 수 있는 방법인 N-바디 문제(N-Body Problem)를 제안한다. 목표는 속도 향상을 극대화하는 것이지만, 비디오 세그먼트를 개인에게 단순히 할당하는 것은 종종 현실 세계의 제약을 위반하여, 두 사람이 동일한 객체를 사용하거나 동일한 공간을 점유하는 것과 같이 물리적으로 불가능한 시나리오를 초래한다. 이를 해결하기 위해 우리는 N-바디 문제를 공식화하고 성능(속도 향상, 작업 범위)과 실행 가능성(공간 충돌, 객체 충돌 및 인과 관계 제약)을 모두 평가하기 위한一套의 메트릭을 제안한다. 그런 다음 비전-언어 모델(VLM)이 3D 환경, 객체 사용 및 시간적 의존성에 대해 추론하여 실행 가능한 병렬 실행 계획을 생성하도록 유도하는 구조화된 프롬프팅 전략을 소개한다. EPIC-Kitchens와 HD-EPIC의 100개 비디오에 대해, 우리의 방법(N=2)은 Gemini 2.5 Pro용 기준 프롬프트 대비 동작 범위를 45% 향상시키는 동시에 충돌률, 객체 및 인과 관계 충돌을 각각 55%, 45%, 55% 절감하였다.
불확실성 추정은 의료 영상 분할 시스템의 안전한 임상 적용에 필수적이며, 신뢰할 수 없는 예측을 식별하고 인간의 감독을 지원합니다. 기존 연구는 주로 픽셀 수준의 불확실성에 집중해 왔으나, 랜드마크 기반 분할은 본질적인 위상학적 보장을 제공함에도 불구하고 불확실성 관점에서는 여전히 충분히 탐구되지 않았습니다. 본 연구에서는 흉부 X-선에서 해부학적 랜드마크 기반 분할에 대한 불확실성 추정을 연구합니다. 표준 영상 컨볼루션 인코더와 그래프 기반 생성 디코더를 결합한 하이브리드 신경망 구조와 그 변분 잠재 공간을 활용하여 두 가지 상호 보완적인 측정치를 도출합니다: (i) 학습된 분포 매개변수에서 직접 포착되는 잠재적 불확실성과 (ii) 잠재 표본에서 여러 확률적 출력 예측을 생성하여 얻는 예측 불확실성. 통제된 손상 실험을 통해 두 불확실성 측정치가 교란 심각도에 따라 증가하며, 전역적 및 지역적 저하를 모두 반영함을 보여줍니다. 이러한 불확실성 신호가 수동 기준값과 비교하여 신뢰할 수 없는 예측을 식별할 수 있음을 입증하고, CheXmask 데이터셋에서 분포 외 탐지를 지원함을 보입니다. 더 중요하게는, 우리는 657,566개의 흉부 X-선 랜드마크 분할과 노드별 불확실성 추정치를 포함한 대규모 데이터셋인 CheXmask-U(huggingface.co/datasets/mcosarinsky/CheXmask-U)를 공개하여, 연구자들이 이러한 해부학적 마스크를 사용할 때 분할 품질의 공간적 변동을 고려할 수 있도록 합니다. 우리의 연구 결과는 흉부 X-선에서 랜드마크 기반 해부학적 분할 방법의 견고성과 안전한 배치를 향상시키는 유망한 방향으로 불확실성 추정을 정립합니다. 본 방법의 완전히 작동하는 대화형 데모는 huggingface.co/spaces/matiasky/CheXmask-U에서, 소스 코드는 github.com/mcosarinsky/CheXmask-U에서 이용할 수 있습니다.
대규모 텍스트 코퍼스 분석은 바람직하지 않은 모델 동작이나 훈련 데이터 내 편향 식별과 같은 작업에 핵심적인 기계 학습의 주요 과제입니다. 기존 방법은 종종 비용이 많이 드는 LLM 기반 기술(예: 데이터셋 차이 주석 달기)이나 밀집 임베딩 모델(예: 군집화용)에 의존하며, 이는 관심 속성에 대한 제어가 부족합니다. 우리는 희소 오토인코더(SAE)를 활용해 SAE 임베딩을 생성하는 방법을 제안합니다. 이는 차원이 해석 가능한 개념에 매핑되는 표현법입니다. 네 가지 데이터 분석 작업을 통해 SAE 임베딩이 LLM보다 비용 효율적이고 신뢰할 수 있으며, 밀집 임베딩보다 제어 가능함을 보여줍니다. SAE의 광범위한 가설 공간을 이용하여 (1) 데이터셋 간의 의미론적 차이와 (2) 문서 내 예상치 못한 개념 상관관계와 같은 통찰력을 발견할 수 있습니다. 예를 들어, 모델 응답을 비교함으로써 Grok-4가 다른 9개의 최첨단 모델보다 모호성을 더 자주 명확히 한다는 사실을 발견했습니다. LLM 대비 SAE 임베딩은 2~8배 낮은 비용으로 더 큰 차이를 발견하고 편향을 더 신뢰성 있게 식별합니다. 또한 SAE 임베딩은 제어 가능합니다: 개념을 필터링하여 (3) 관심 축을 따라 문서를 군집화하고 (4) 속성 기반 검색에서 밀집 임베딩을 능가할 수 있습니다. SAE 임베딩을 활용하여 두 가지 사례 연구를 통해 모델 동작을 분석합니다: OpenAI 모델 동작이 시간에 따라 어떻게 변화했는지 조사하고, Tulu-3(Lambert et al., 2024)이 훈련 데이터에서 학습한 "트리거" 문구를 발견합니다. 이러한 결과는 SAE를 비정형 데이터 분석의 다목적 도구로 자리매김하며, 데이터를 통해 모델을 해석하는 중요성이 간과되어 왔음을 강조합니다.