번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 단일 이미지로부터 형상, 텍스처, 레이아웃을 예측하는 시각 기반 3D 객체 재구성 생성 모델인 SAM 3D를 제안합니다. SAM 3D는 폐색과 장면 복잡성이 흔히 나타나며 맥락에 의한 시각적 인지 단서가 중요한 역할을 하는 자연 이미지에서 특히 뛰어난 성능을 보입니다. 이를 위해 객체 형상, 텍스처, 자세를 주석 처리하는 인간 및 모델 참여형 파이프라인을 구축하여 전례 없는 규모의 시각 기반 3D 재구성 데이터를 생성했습니다. 합성 데이터 사전 학습과 현실 세계 정렬을 결합한 현대적 다단계 학습 프레임워크로 이 데이터를 학습함으로써 3D "데이터 장벽"을 극복했습니다. 실제 객체와 장면에 대한 인간 선호도 평가에서 최소 5:1의 승률로 최근 연구 대비 획기적인 성능 향상을 달성했습니다. 코드와 모델 가중치, 온라인 데모, 그리고 실제 환경 3D 객체 재구성을 위한 새로운 도전적 벤치마크를 공개할 예정입니다.
대규모 언어 모델(LLM) 에이전트는 일반적으로 강화 학습(RL)을 통해 훈련되며, 인간이 정제한 데이터에 대한 의존성으로 인해 확장성이 제한되고 AI가 인간의 지식에 얽매이는 한계를 가집니다. 기존의 자기 진화 프레임워크는 대안을 제공하지만, 모델의 고유한 능력과 단일 라운드 상호작용에 의해 제약을 받아 도구 사용이나 동적 추론을 포함한 복잡한 커리큘럼 개발을 저해합니다. 본 연구에서는 외부 데이터 없이 다단계 공동 진화와 원활한 도구 통합을 통해 고성능 에이전트를 진화시키는 완전 자율 프레임워크인 Agent0를 소개합니다. Agent0는 동일한 기본 LLM에서 초기화된 두 에이전트 간의 공생적 경쟁을 설정합니다: 점점 더 어려운 최첨단 과제를 제안하는 커리큘럼 에이전트와 이를 해결하는 방법을 학습하는 실행자 에이전트입니다. 우리는 실행자의 문제 해결 능력을 향상시키기 위해 외부 도구를 통합하며, 이러한 개선은 차례로 커리큘럼 에이전트가 더 복잡하고 도구 인식적인 과제를 구성하도록 압박합니다. 이러한 반복적 과정을 통해 Agent0는 고품질 커리큘럼을 지속적으로 생성하는 자기 강화 순환 구조를 구축합니다. 실험적으로 Agent0는 추론 능력을 크게 향상시켜, Qwen3-8B-Base 모델의 수학적 추론 성능을 18%, 일반 추론 벤치마크에서 24% 개선했습니다. 코드는 https://github.com/aiming-lab/Agent0에서 확인할 수 있습니다.
영상 생성 모델에서 첫 번째 프레임은 어떤 역할을 할까요? 기존에는 이를 영상의 시공간적 시작점, 즉 후속 애니메이션을 위한 단순한 시드(seed)로 인식해왔습니다. 본 연구에서는 이와 근본적으로 다른 관점을 제시합니다: 영상 모델은 첫 번째 프레임을 생성 과정 중 후반에 재사용하기 위한 시각적 개체를 저장하는 개념적 메모리 버퍼로 암묵적으로 취급한다는 사실을 밝혔습니다. 이러한 통찰력을 바탕으로, 아키텍처 변경이나 대규모 파인튜닝 없이 단 20-50개의 학습 예시만으로 다양한 시나리오에서 강력하고 일반화된 영상 콘텐츠 맞춤 설정을 달성할 수 있음을 보여줍니다. 이는 참조 기반 영상 맞춤 설정을 위한 영상 생성 모델의 강력하면서도 간과되었던 능력을 드러내는 것입니다.
최근 추론 모델의 발전은 확장된 생각의 사슬(chain-of-thought) 숙고를 통해 텍스트 및 비전 영역에서 놀라운 성공을 보여주었습니다. 그러나 오디오 언어 모델에서는 난해한 현상이 지속되고 있습니다. 바로 최소한의 추론 또는 추론 없이도 일관되게 더 나은 성능을 보인다는 점으로, 이는 "오디오 지능이 정말로 의도적인 사고로부터 이점을 얻을 수 있는가?"라는 근본적인 질문을 제기합니다. 우리는 오디오 영역에서 최초로 추론 능력을 성공적으로 해금한 오디오 추론 모델인 Step-Audio-R1을 소개합니다. 우리가 제안하는 양식 기반 추론 증류(MGRD) 프레임워크를 통해 Step-Audio-R1은 연결되지 않은 숙고를 환각(hallucinate)하는 대신, 음향 특징에 진정으로 기반을 둔 오디오 관련 추론 체인을 생성하는 법을 학습합니다. 우리 모델은 음성, 환경 음향, 음악에 이르는 포괄적인 오디오 이해 및 추론 벤치마크에서 Gemini 2.5 Pro를 능가하고 최첨단 Gemini 3 Pro에 필적하는 성능을 달성하며 강력한 오디오 추론 능력을 보여줍니다. 이러한 결과는 추론이 적절히 고정(anchor)될 때 양식 간에 전이 가능한 능력임을 입증하며, 오디오 지능에 있어 확장된 숙고를 약점에서 강력한 자산으로 변모시킵니다. 최초의 성공적인 오디오 추론 모델을 구축함으로써, Step-Audio-R1은 모든 감각 양식에 걸쳐 깊이 사고하는 진정한 다중양식(multimodal) 추론 시스템을 구축하는 새로운 길을 열어줍니다.
놀라운 발전에도 불구하고, 멀티모달 기초 모델들은 여전히 공간 지능 측면에서 놀라운 결함을 보여준다. 본 연구에서는 확립된 멀티모달 기반(시각 이해 모델인 Qwen3-VL 및 InternVL3, 통합 이해 및 생성 모델인 Bagel 포함) 위에 구축된 SenseNova-SI 패밀리 내에서 공간 지능을 함양하기 위해 멀티모달 기초 모델의 규모 확장을 탐구한다. 우리는 엄격한 공간 능력 분류 체계 하에 800만 개의 다양한 데이터 샘플로 구성된 SenseNova-SI-8M을 체계적으로 구축함으로써 고성능 및 강건한 공간 지능을 위한 원칙적인 접근 방식을 취한다. SenseNova-SI는 광범위한 공간 지능 벤치마크에서 전례 없는 성능을 보인다: VSI-Bench에서 68.7%, MMSI에서 43.3%, MindCube에서 85.6%, ViewSpatial에서 54.6%, SITE에서 50.1%를 기록하면서도 강력한 일반 멀티모달 이해 능력(예: MMBench-En에서 84.9%)을 유지한다. 더 중요하게는, 우리는 데이터 규모 확장의 영향을 분석하고, 다양한 데이터 훈련을 통해 가능해진 창발적 일반화 능력의 초기 징후를 논의하며, 과적합 및 언어 단축키의 위험을 분석하고, 공간 사고 연쇄 추론에 대한 예비 연구를 제시하며, 잠재적인 다운스트림 응용 가능성을 검증한다. SenseNova-SI는 진행 중인 프로젝트이며, 본 보고서는 지속적으로 업데이트될 예정이다. 새로 훈련된 모든 멀티모달 기초 모델은 이 방향의 추가 연구를 촉진하기 위해 공개된다.
최근 Veo-3와 같은 생성적 비디오 모델의 발전은 놀라운 제로샷 추론 능력을 보여주며, 체계적이고 신뢰할 수 있는 평가의 필요성을 점점 더 증가시키고 있다. 본 연구에서는 구조적 문제 해결, 공간 인지, 패턴 기반 추론, 물리적 역학이라는 네 가지 핵심 차원에 걸친 비디오 추론 능력을 평가하기 위해 V-ReasonBench라는 벤치마크를 소개한다. 이 벤치마크는 합성 및 실제 이미지 시퀀스로 구성되어 있으며, 재현 가능하고 확장성이 있으며 모호하지 않은 다양한 답변 검증 가능 작업을 제공한다. 최신 비디오 모델 6개에 대한 평가 결과, 구조적, 공간적, 패턴 기반, 물리적 추론에서 뚜렷한 차원별 차이를 확인할 수 있었다. 또한, 강력한 이미지 모델과 비디오 모델을 비교하고, 일반적인 환각 행동을 분석하며, 비디오 지속 시간이 프레임 연쇄(Chain-of-Frames) 추론에 미치는 영향을 연구하였다. 전반적으로, V-ReasonBench는 비디오 추론을 측정하기 위한 통일되고 재현 가능한 프레임워크를 제공하며, 더 신뢰할 수 있고 인간과 일치하는 추론 능력을 가진 모델 개발을 지원하는 것을 목표로 한다.
언어 모델이 많은 실제 응용 분야에서 영향력을 발휘하고 있지만, 비디오 생성은 여전히 주로 엔터테인먼트 분야에 한정되어 있습니다. 비디오가 언어만으로 전달하기 어려운 물리적 세계 정보를 보여줄 수 있는 본질적인 능력(예: 텍스트만 사용해 넥타이 매는 법을 가르치는 상황을 상상해 보십시오)에 고무되어, 우리는 비디오를 차기 사건 예측(Next-Event Prediction, NEP)의 새로운 답변 양식으로 확장하는 활용도가 낮은 기회를 발굴하며, 이를 비디오 기반 차기 사건 예측(Video-Next-Event Prediction, VNEP)으로 정형화합니다. 기존의 NEP 과제가 절차적 또는 예측 질문과 함께 제공되는 비디오를 입력으로 받아 차기 사건을 텍스트로 예측하는 반면, VNEP는 동적인 비디오 응답을 요구합니다. 이러한 '설명'에서 '보여주기'로의 전환은 절차적 학습과 창의적 탐구를 위해 더 직관적이고 맞춤형 답변을 가능하게 합니다. 그러나 이 과제는 다중 양식 입력 이해, 지시 조건부 추론, 시각적 및 의미론적 일관성을 갖춘 비디오 생성이 필요하기 때문에 기존 모델에게는 여전히 어려운 과제로 남아 있습니다. 이를 해결하기 위해 우리는 VNEP를 위해 시각-언어 모델(Vision-Language Model, VLM)과 비디오 확산 모델(Video Diffusion Model, VDM)을 정렬시키는 강화 학습을 활용하는 VANS 모델을 소개합니다. VANS의 핵심은 VLM과 VDM이 하나의 단위로 기능하도록 조정하는 우리가 제안하는 Joint-GRPO입니다. 각 출력에 대한 공동 보상에 의해 구동되는 Joint-GRPO는 VLM이 정확하고 시각화하기 쉬운 캡션을 생성하도록 최적화하는 동시에, VDM이 이러한 캡션과 입력 시각 컨텍스트에 충실한 비디오를 생성하도록 유도합니다. 이러한 학습을 가능하게 하기 위해 우리는 VNEP 과제 전용 데이터셋인 VANS-Data-100K를 구축했습니다. 절차적 및 예측 벤치마크에 대한 실험 결과, VANS가 비디오 사건 예측 및 시각화 모두에서 최첨단 성능을 달성함을 입증합니다. 코드는 https://github.com/KlingTeam/VANS에서 공개됩니다.
다양한 규모와 배포 목표를 대상으로 대규모 언어 모델 군을 훈련시키는 것은 각기 다른 크기마다 별도의 훈련 실행이 필요해 비용이 엄청나게 많이 든다. 프루닝과 지식 증류를 통한 모델 압축에 대한 최근 연구로 이 비용이 절감되었지만, 압축 모델당 수천억 토큰에 해당하는 훈련 비용이 여전히 발생한다. 본 논문에서는 하이브리드 맘바-어텐션 아키텍처를 포함하여, 단일 상위 모델 내에 여러 중첩된 하위 모델을 내장하고 각각 다른 배포 구성과 예산에 최적화된 추론 중심 LLM 구축 프레임워크인 Nemotron Elastic을 제안한다. 이러한 각 하위 모델은 상위 모델과 가중치를 공유하며, 추가 훈련이나 미세 조정 없이 배포 시 제로샷으로 추출될 수 있다. 우리는 추론 모델에 특화된 2단계 훈련 커리큘럼과 긴밀하게 결합된 엔드투엔드 방식으로 훈련된 라우터를 통해 이 기능을 구현한다. 또한 맘바의 구조적 제약을 보존하는 그룹 인식 SSM 탄성화, 이기종 MLP 탄성화, 개선된 깊이 선택을 위한 정규화 MSE 기반 계층 중요도, 그리고 다중 예산 동시 최적화를 가능하게 하는 지식 증류를 추가로 도입한다. 우리는 Nemotron Elastic을 Nemotron Nano V2 12B 모델에 적용하여 단 110B 훈련 토큰만으로 9B 및 6B 모델을 동시에 생성했으며, 이는 처음부터 모델 군을 훈련하는 것에 비해 360배 이상, 최신 SoTA 압축 기술과 비교해约 7배의 비용 절감 효과를 거두었다. 중첩된 각 모델은 정확도 면에서 SoTA와 동등하거나 더 나은 성능을 보인다. 더욱이, 다른 압축 방법과 달리 우리 접근법의 중첩 기능은 모델 군 내 모델 수에 대해 일정한 배포 메모리를 유지하는 다중合一 추론 모델을 가능하게 한다.
MiMo-Embodied를 오픈소스로 공개합니다. 이는 자율주행과 Embodied AI 두 분야를 성공적으로 통합하고 최첨단 성능을 달성한 최초의 크로스-엠바디드 파운데이션 모델입니다. MiMo-Embodied는 작업 계획(Task Planning), 어포던스 예측(Affordance Prediction), 공간 이해(Spatial Understanding) 분야의 17개 Embodied AI 벤치마크에서 새로운 기록을 수립했으며, 환경 인지(Environmental Perception), 상태 예측(Status Prediction), 주행 계획(Driving Planning) 분야의 12개 자율주행 벤치마크에서도 뛰어난 성과를 보였습니다. 이러한 다양한 과제에서 MiMo-Embodied는 기존의 오픈소스, 클로즈드소스 및 특화된 베이스라인 모델들을 크게 능가합니다. 우리의 연구 결과는 다단계 학습, 정제된 데이터 구축, CoT/RL 미세 조정을 통해 이 두 영역이 강력한 긍정적 전이(positive transfer)를 보이며 상호 보완적으로 작용함을 시사합니다. 향후 연구를 촉진하기 위해 모델 설계 및 훈련 방법론에 대한 상세한 분석을 제공합니다. 코드와 모델은 https://github.com/XiaomiMiMo/MiMo-Embodied 에서 이용하실 수 있습니다.
비전-언어-행동(VLA) 모델은 로봇 매니픽레이션 분야에서 뛰어난 성능을 보이지만, 전문가 시연 데이터에 대한 과도한 의존으로 인한 시연 편향(demonstration bias)과 성능 한계에 직면해 있습니다. 강화 학습(RL)은 이러한 한계를 극복하기 위한 중요한 후속 훈련 전략이지만, 현재의 VLA-RL 방법론(그룹 기반 최적화 접근법 포함)은 심각한 보상 희소성(reward sparsity) 문제로 인해 효율성이 낮습니다. 이진적인 성공 지표에 의존하는 방식은 실패한 궤적에 포함된 소중한 정보를 낭비하여 학습 효율을 저하시킵니다. 이를 해결하기 위해 우리는 새로운 VLA-RL 프레임워크인 자기 참조 정책 최적화(Self-Referential Policy Optimization, SRPO)를 제안합니다. SRPO는 외부 시연 데이터나 수동적인 보상 설계 없이, 현재 학습 배치 내에서 생성된 모델 자신의 성공적인 궤적을 자기 참조(self-reference)로 활용합니다. 이를 통해 실패한 시도에도 진행 상황에 따른 보상을 부여할 수 있습니다. 핵심 혁신은 잠재 세계 표현(latent world representations)을 사용하여 행동적 진행 상황(behavioral progress)을 강건하게 측정하는 것입니다. 원본 픽셀 데이터에 의존하거나 도메인 특화 파인튜닝을 요구하는 대신, 월드 모델(world model)의 잠재 공간(latent space)에서 추출된 압축적이고 전이 가능한 인코딩을 활용합니다. 이러한 표현은 다양한 환경에서의 진행 패턴을 자연스럽게 포착하여 정확하고 일반화된 궤적 비교를 가능하게 합니다. LIBERO 벤치마크에 대한 실험적 평가를 통해 SRPO의 효율성과 효과성을 입증했습니다. 48.9% 성공률을 보인 지도 학습 기반 기준 모델에서 시작하여, SRPO는 단 200 RL 스텝 만에 99.2%라는 새로운 최첨단 성공률을 달성했으며, 이는 어떠한 추가적인 감독(supervision) 없이도 103%의 상대적 성능 향상을 의미합니다. 더 나아가, SRPO는 LIBERO-Plus 벤치마크에서 167%의 성능 향상을 보여주며 상당한 강건성(robustness)을 입증했습니다.
병원 및 의료 시스템은 환자 흐름, 비용, 치료의 질을 결정하는 운영 의사결정에 의존합니다. 일반 텍스트로 훈련된 기초 모델들은 의학 지식 및 대화 벤치마크에서 강력한 성능을 보임에도 불구하고, 이러한 운영 의사결정에 필요한 전문 지식이 부족할 수 있습니다. 우리는 NYU Langone Health의 EHR(전자 건강 기록)에서 추출한 800억 개의 임상 토큰과 인터넷에서 수집한 6,270억 개의 토큰을 혼합한 전문 코퍼스로 사전 훈련된 Lang1 모델 패밀리(1억-70억 매개변수)를 소개합니다. Lang1을 실제 환경에서 엄격하게 평가하기 위해 668,331개의 EHR 노트에서 도출된 벤치마크인 ReMedE(현실적 의료 평가)를 개발하였으며, 이는 30일 내 재입원 예측, 30일 내 사망률 예측, 재원 기간, 동반이환병 코딩, 보험 청구 거절 예측이라는 다섯 가지 주요 작업을 평가합니다. 제로샷 환경에서 범용 모델과 전문 모델 모두 사망률 예측을 제외한 네 가지 작업에서 낮은 성능(AUROC 36.6%-71.7%)을 보였습니다. 미세 조정 후, Lang1-1B는 최대 70배 큰 범용 미세 조정 모델들과 최대 671배 큰 제로샷 모델들을 능가하며, AUROC를 각각 3.64%-6.75%, 1.66%-23.66% 개선했습니다. 또한 여러 작업을 함께 미세 조정하는 교차 작업 스케일링이 관찰되어 다른 작업에서도 성능 향상이 발생했습니다. Lang1-1B는 다른 임상 작업 및 외부 의료 시스템을 포함한 분포 외 환경으로도 효과적으로 전이되었습니다. 우리의 연구 결과는 병원 운영을 위한 예측 능력이 명시적인 지도 미세 조정을 필요로 하며, EHR에 대한 도메인 내 사전 훈련이 이 미세 조정 과정을 더 효율적으로 만든다는 것을 시사합니다. 이 결과는 특화된 LLM이 전문 분야 작업에서 범용 모델과 경쟁할 수 있다는新兴 견해를 지지하며, 효과적인 의료 시스템 AI 구현에는 도메인 내 사전 훈련, 지도 미세 조정, 그리고 대리 벤치마크를 넘어선 실제 환경 평가의 결합이 필요함을 보여줍니다.
신경 정보 검색 시스템은 고자원 언어에서는 뛰어난 성능을 보이지만, 터키어와 같이 형태론적으로 풍부한 저자원 언어에 대해서는 충분히 연구되지 않았다. 현재 터키어 IR 분야에서는 밀집 바이인코더가 주로 사용되고 있으나, 세분화된 매칭을 위해 토큰 수준 표현을 유지하는 후기 상호작용 모델은 체계적으로 평가된 바 없다. 본 연구에서는 터키어 검색을 위한 밀집 인코더와 후기 상호작용 모델의 첫 번째 포괄적 벤치마크인 TurkColBERT를 소개한다. 2단계 적응 파이프라인은 영어 및 다국어 인코더를 터키어 NLI/STS 작업에 미세 조정한 후, MS MARCO-TR로 학습된 PyLate를 사용하여 이를 ColBERT 스타일 검색기로 변환한다. 과학, 금융, 논증 영역을 아우르는 5개의 터키어 BEIR 데이터셋에서 10개 모델을 평가하였다. 결과는 강력한 매개변수 효율성을 보여준다: 100만 매개변수의 colbert-hash-nano-tr은 6억 매개변수의 turkish-e5-large 밀집 인코더보다 600배 작으면서도 평균 mAP의 71% 이상을 유지한다. 밀집 인코더보다 3~5배 작은 후기 상호작용 모델들은 이를 유의미하게 능가하며, ColmmBERT-base-TR은 도메인 특화 작업에서 최대 +13.8% mAP 향상을 보인다. 프로덕션 적용을 위해 인덱싱 알고리즘을 비교한 결과, MUVERA+재순위화는 PLAID보다 3.33배 빠르고 +1.7%의 상대적 mAP 향상을 제공한다. 이를 통해 ColmmBERT-base-TR이 MUVERA에서 0.54ms의 질의 시간으로 저지연 검색이 가능하다. 모든 체크포인트, 설정 및 평가 스크립트를 공개한다. 한계점으로는 중간 규모 데이터셋(≤5만 문서)에 대한 의존성과 실제 터키어 검색 환경을 완전히 반영하지 못할 수 있는 번역 벤치마크가 있으며, 대규모 MUVERA 평가는 추가로 필요하다.
본 논문에서는 3D 공간에서 직접 텍스처 색상을 예측하는 네이티브 텍스처 생성 프레임워크인 NaTex를 소개한다. 기하구조 조건부 다중 뷰 확산 모델(MVD)로 합성된 2D 다중 뷰 이미지 베이킹에 의존하는 기존 접근법과 달리, NaTex는 MVD 파이프라인의 몇 가지 본질적 한계를 회피한다. 이러한 한계에는 인페인팅이 필요한 폐색 영역 처리의 어려움, 경계를 따라 정확한 메쉬-텍스처 정렬 달성, 그리고 콘텐츠 및 색상 강도 측면에서의 뷰 간 일관성과 응집성 유지가 포함된다. NaTex는 텍스처를 조밀한 색상 포인트 클라우드로 간주함으로써 앞서 언급한 문제들을 해결하는 새로운 패러다임을 특징으로 한다. 이 아이디어에 기반하여, 우리는 텍스처 재구성 및 생성을 위해 3D 데이터를 사용하여 처음부터 완전히 훈련된 지오메트리 인식 색상 포인트 클라우드 VAE와 다중 제어 확산 트랜스포머(DiT)로 구성된 잠재 색상 확산(latent color diffusion)을 제안한다. 정확한 정렬을 가능하게 하기 위해, 우리는 위치 임베딩과 지오메트리 잠재 코드를 통해 DiT에 직접 3D 공간 정보를 조건으로 제공하는 네이티브 지오메트리 제어(native geometry control)를 도입한다. 우리는 VAE-DiT 아키텍처를 공동 설계하였으며, 여기서 지오메트리 잠재 코드는 색상 VAE와 긴밀하게 결합된 전용 지오메트리 브랜치를 통해 추출되어 텍스처와의 강한 대응 관계를 유지하는 세밀한 표면 가이던스를 제공한다. 이러한 설계를 통해 NaTex는 강력한 성능을 보여주며, 텍스처 응집성과 정렬 측면에서 기존 방법들을 크게 능가한다. 더욱이 NaTex는 훈련 없이 또는 간단한 튜닝만으로 다양한 하류 작업(예: 재질 생성, 텍스처 정제, 부품 분할 및 텍스처링)에 대해 강력한 일반화 능력도 보여준다.
시각적 생성 분야의 최근 발전은 추론 능력의 통합을 점점 더 탐구하고 있습니다. 기존 연구는 생성 과정 전(사전 계획으로서)이나 후(사후 정제로서)에 텍스트 추론, 즉 '생각하기'를 도입했으나, 생성 과정 중 실시간 다중모드 상호작용은 부족했습니다. 본 예비 연구에서는 시각적 생성 과정 전반에 걸쳐 텍스트 추론이 공진화하도록 하는 최초의 인터리빙(interleaved) 프레임워크인 Thinking-while-Generating(TwiG)을 소개합니다. 시각 콘텐츠가 점진적으로 생성됨에 따라 텍스트 추론이 인터리빙되어 다가올 지역적 영역을 안내하고 이전에 합성된 영역을 반성합니다. 이러한 동적 상호작용은 더욱 상황 인식적이고 의미론적으로 풍부한 시각적 결과물을 생성합니다. 이 프레임워크의 잠재력을 규명하기 위해 우리는 세 가지 후보 전략, 즉 제로샷 프롬프팅, 우리가 구축한 TwiG-50K 데이터셋을 이용한 지도 미세 조정(SFT), 그리고 맞춤형 TwiG-GRPO 전략을 통한 강화 학습(RL)을 조사하며, 각각이 인터리빙 추론의 역학에 대한 고유한 통찰력을 제공합니다. 이 연구가 향상된 시각적 생성을 위한 텍스트 추론 인터리빙의 추가 연구에 영감을 주기를 바랍니다. 코드는 https://github.com/ZiyuGuo99/Thinking-while-Generating 에 공개될 예정입니다.
본 논문에서는 긴 영상 이해의 과제를 해결하기 위해 설계된 하이브리드 비전-언어 모델인 TimeViper를 소개한다. 긴 영상을 처리하기 위해서는 효율적인 모델 아키텍처와 확장된 시간적 맥락을 처리하는 효과적인 메커니즘 모두가 필요하다. 이를 위해 TimeViper는 상태 공간 모델의 효율성과 어텐션 메커니즘의 표현력을 결합한 하이브리드 Mamba-Transformer 백본을 채택한다. 이러한 하이브리드 설계를 통해 우리는 비전 토큰에서 텍스트 토큰으로 LLM 깊이가 증가함에 따라 정보가 점진적으로 흐르는 비전-텍스트 정보 집약 현상을 발견하였으며, 이로 인해 심각한 비전 토큰 중복이 발생함을 확인했다. 이러한 관찰에 기반하여, 우리는 다중모달 이해 능력을 유지하면서 비전 토큰을 명령어 토큰으로 전달 및 압축하는 토큰 정보 전달 모듈인 TransV를 제안한다. 이 설계는 TimeViper가 10,000프레임을 초과하는 시간 단위의 영상을 처리할 수 있게 한다. 다양한 벤치마크에서 수행한 포괄적인 실험을 통해 TimeViper가 프레임 수를 확장하면서도 최신 모델들과 경쟁력 있는 성능을 보임을 입증한다. 우리는 추가로 Mamba와 Transformer 계층의 어텐션 동작을 분석하여 하이브리드 모델 해석 가능성에 대한 새로운 통찰을 제공한다. 본 연구는 하이브리드 Mamba-Transformer 아키텍처의 개발, 해석 및 압축을 향한 초기 단계를 나타낸다.
UV 언래핑은 3D 표면을 최소의 왜곡으로 2D로 평면화하는 과정으로, 복잡한 표면을 여러 개의 차트로 분해하는 작업이 흔히 필요합니다. 광범위하게 연구되었음에도 불구하고, 기존 UV 언래핑 방법들은 일반적으로 노이즈가 많고, 울퉁불퉁하며, 조건이 좋지 않은 AI 생성 메시를 처리하는 데 종종 어려움을 겪습니다. 이러한 방법들은 높은 수준의 분할된 차트와 최적이 아닌 경계를 생성하여 아티팩트를 유발하고 후속 작업을 방해하곤 합니다. 우리는 PartUV를 소개합니다. 이는 파트 기반 UV 언래핑 파이프라인으로, 낮은 왜곡을 유지하면서 상당히 적은 수의 파트 정렬 차트를 생성합니다. 최근 학습 기반 파트 분해 방법인 PartField를 기반으로 구축된 PartUV는 상위 수준의 의미론적 파트 분해와 새로운 기하학적 휴리스틱을 상향식 재귀 프레임워크에서 결합합니다. 이는 전체 차트 수를 최소화하면서 각 차트의 왜곡이 사용자가 지정한 임계값 이하로 유지되도록 보장합니다. 이 파이프라인은 매개변수화 및 패킹 알고리즘을 통합 및 확장하고, 비다양체 및 퇴화 메시에 대한 전용 처리를 포함하며, 효율성을 위해 광범위하게 병렬화되었습니다. 인공물, CAD, AI 생성, 일반 형태 등 네 가지 다양한 데이터셋에 걸쳐 평가한 결과, PartUV는 차트 수와 이음선 길이에서 기존 도구 및 최신 신경망 방법을 능가하고, 비슷한 수준의 왜곡을 달성하며, 어려운 메시에서 높은 성공률을 보여주고, 파트별 다중 타일 패킹과 같은 새로운 응용을 가능하게 합니다. 우리의 프로젝트 페이지는 https://www.zhaoningwang.com/PartUV 에 있습니다.
수술 영상 분할은 컴퓨터 보조 수술에서 핵심적인 역할을 하며, 수술 도구 및 조직의 정확한 위치 추적을 가능하게 합니다. Segment Anything Model 2 (SAM2)와 같은 대화형 비디오 객체 분할(iVOS) 모델은 사전 정의된 범주를 사용하는 기법을 넘어 프롬프트 기반의 유연성을 제공하지만, 도메인 차이와 제한된 장기 추적 능력으로 인해 수술 시나리오에서 어려움에 직면합니다. 이러한 한계를 해결하기 위해 우리는 8가지 수술 유형(61k 프레임, 1.6k 마스클릿)에 걸친 인스턴스 수준의 시공간 주석(마스클릿)으로 구성된 가장 큰 수술 iVOS 벤치마크인 SA-SV를 구축하여 장기 추적 및 제로샷 일반화를 위한 포괄적인 개발과 평가를 가능하게 했습니다. SA-SV를 기반으로 우리는 SAM2를 수술 iVOS에 맞게 향상시키는 기초 모델 SAM2S를 제안합니다: (1) 강력한 장기 추적을 위한 학습 가능한 다중 메모리 메커니즘인 DiveMem, (2) 수술 도구 이해를 위한 시간적 의미 학습, (3) 다중 출처 데이터셋 간 주석 불일치를 완화하는 모호성 회복 학습을 통해 개선했습니다. 폭넓은 실험을 통해 SA-SV로 미세 조정을 수행하면 성능이 크게 향상되며, SAM2는 기본 대비 평균 J&F 12.99점이 상승함을 확인했습니다. SAM2S는 평균 J&F 80.42점으로 성능을 더욱 향상시켜 기본 SAM2 및 미세 조정된 SAM2를 각각 17.10점, 4.11점 앞섰으며, 68 FPS의 실시간 추론 속도와 강력한 제로샷 일반화 능력을 유지했습니다. 코드와 데이터셋은 https://jinlab-imvr.github.io/SAM2S에서 공개될 예정입니다.
대규모 언어 모델(LLM)의 장기적 훈련에서는 모델이 차선책 행동으로 퇴화하는 것을 방지하기 위해 안정적인 탐색을 유지해야 합니다. 엔트로피는 탐색을 제어하고 차선책 해법으로의 조기 수렴을 피하는 데 핵심적인 역할을 합니다. 그러나 기존 강화학습 방법들은 훈련 과정에서 긍정 샘플과 부정 샘플이 혼재되어 각 단계별로 엔트로피에 미치는 영향이 다르기 때문에 적절한 수준의 엔트로피를 유지하는 데 어려움을 겪습니다. 이를 해결하기 위해 우리는 비례-적분 제어를 통한 엔트로피 안정화(EntroPIC) 방법을 제안합니다. 이는 긍정 및 부정 샘플의 손실 계수를 동적으로 조정하여 이들의 영향을 적응적으로 조절하는 새로운 방법으로, 훈련 전반에 걸쳐 엔트로피를 안정화시켜 효율적인 탐색과 꾸준한 학습 진행을 보장합니다. 우리는 온-정책 및 오프-정책 학습 설정 모두에 대한 이론적 분석을 제시하며, EntroPIC이 대규모 LLM 훈련에서 엔트로피를 효과적으로 제어함을 입증합니다. 실험 결과는 우리의 방법이 목표하는 엔트로피 수준을 성공적으로 유지하여 LLM의 안정적이고 최적의 강화학습 훈련을 가능하게 함을 보여줍니다.
Transformer 기반 아키텍처는 순차 추천 시스템에서 널리 채택되고 있으나, 금융 서비스(FS)에서의 실시간 추천 적용은 실질적이고 모델링 측면에서 독특한 과제를 제기합니다. 이러한 과제에는 a) 디지털 및 물리적 채널에 걸친 장기간의 사용자 상호작용(암묵적 및 명시적)으로 인해 발생하는 시간적 이질적 컨텍스트, b) 다양한 광고 배치와 개인화 피드를 지원하면서 상충되는 비즈니스 목표를 균형 있게 조정해야 하는 다중 상호 연관된 상품의 존재가 포함됩니다. 본 논문은 이러한 FS의 과제와 운영 목표를 해결하는 Transformer 기반 프레임워크인 FinTRec를 제안합니다. 설명 가능성과 규제 요구사항 충족으로 인해 FS 분야에서는 전통적으로 트리 기반 모델이 선호되어 왔지만, 본 연구는 FinTRec가 Transformer 기반 아키텍처로의 실질적이고 효과적인 전환을 제공함을 입증합니다. 과거 데이터 시뮬레이션 및 라이브 A/B 테스트 상관관계 분석을 통해 FinTRec가 상용 등급의 트리 기반 기준 모델을 지속적으로 능가함을 보여줍니다. 통합 아키텍처는 상품 적용성을 위해 미세 조정될 때, 상품 간 신호 공유를 가능하게 하고 훈련 비용과 기술 부채를 줄이는 동시에 모든 상품에서 오프라인 성능을 향상시킵니다. 저자가 알고 있는 한, 이는 FS 분야에서 기술적 및 비즈니스적 고려 사항을 모두 다루는 통합 순차 추천 모델링에 대한 최초의 포괄적인 연구입니다.
ImageNet-1K 선형 탐사 전이 정확도는 시각적 표현 품질의 기본 지표로 남아 있지만, 더 이상 과학 영상에서의 성능을 예측하지 못한다. 46개의 현대 시각 모델 체크포인트를 대상으로 한 분석에서, ImageNet 상위 1위 정확도는 생태학 작업에서 변동성의 34%만을 설명하며 75% 이상 정확도를 보이는 모델의 30%를 잘못 순위 매긴다. 본 논문은 ImageNet이 놓치는 부분을 포착하는 오픈 생태학 비전 벤치마크인 BioBench를 소개한다. BioBench는 공개된 9개의 응용 중심 작업, 4개의 생물 분류 계통, 6개의 취득 방식(드론 RGB, 웹 비디오, 현미경 사진, 현장 및 표본 사진, 카메라 트랩 프레임)을 통합하며 총 3.1M 이미지로 구성된다. 단일 Python API로 데이터를 다운로드하고, 고정 백본에 경량 분류기를 적합시키며, 클래스 균형 매크로 F1 점수(및 FishNet, FungiCLEF용 도메인 메트릭)를 보고한다; ViT-L 모델은 A6000 GPU에서 6시간 내에 평가된다. BioBench는 생태학 분야 컴퓨터 비전을 위한 새로운 신호를 제공하며, 어떤 도메인에서든 신뢰할 수 있는 AI-for-science 벤치마크를 구축하기 위한 템플릿 레시피를 제시한다. 코드와 예측은 https://github.com/samuelstevens/biobench에서, 결과는 https://samuelstevens.me/biobench에서 확인할 수 있다.
최근 대규모 시각-언어 모델(LVLM)은 강력한 다중모달 추론 능력을 보여주지만, 시각적 증거보다 언어적 사전 지식에 지나치게 의존함으로써 근거가 부족하거나 허구적인 응답을 생성하는 경우가 많습니다. 이러한 한계는 이러한 모델들이 추론 과정에서 실제로 시각 정보를 얼마나 활용하는지에 대한 정량적 측정이 부재함을 보여줍니다. 본 연구에서는 질문 조건부 활용 지표(question-conditioned utilization metric)로 구동되는 에이전트 프레임워크인 Draft and Refine(DnR)을 제안합니다. 이 지표는 질문 특정 단서를 지역화하기 위해 쿼리 조건부 관련성 맵을 먼저 구성한 다음, 관련성 기반 확률적 마스킹(relevance-guided probabilistic masking)을 통해 의존도를 측정함으로써 모델의 시각적 증거 의존성을 정량화합니다. 이 지표의指引을 받아 DnR 에이전트는 외부 시각 전문가로부터의 표적화된 피드백을 사용하여 초기 초안을 정제합니다. 각 전문가의 출력(예: 박스 또는 마스크)은 이미지에 시각적 단서로 렌더링되며, 모델은 활용도에서 가장 큰 개선을 보이는 응답을 선택하도록 재질의됩니다. 이 과정은 재학습이나 구조 변경 없이 시각적 근거 강화를 가능하게 합니다. VQA 및 캡션 생성 벤치마크에서의 실험은 일관된 정확도 향상과 환각 현상 감소를 보여주며, 시각적 활용도를 측정하는 것이 더 해석 가능하고 증거 기반의 다중모달 에이전트 시스템을 위한 원칙적인 경로를 제공함을 입증합니다.
이미지-텍스트 사전 학습의 최근 발전은 시각적 표현과 텍스트 표현을 정렬함으로써 시각적 이해를 크게 향상시켰습니다. 대조적 언어-이미지 사전 학습(CLIP)은 멀티모달 학습에서 핵심적인 역할을 해왔습니다. 그러나 단일 레이블 및 단일 세분성 정렬에 집중하는 CLIP의 접근 방식은 의료 영상과 같은 복잡한 영역에서 그 효과성이 제한됩니다. 의료 영상에서는 단일 이미지가 여러 상위 레이블(예: 질병 범주)과 다양한 주석 세분성(예: 진단 설명, 임상적 설명)에 대응되는 경우가 빈번하기 때문입니다. 이를 해결하기 위해 우리는 다중 레이블 및 교차 세분성 정렬을 모두 개선하기 위해 설계된 대조 학습 프레임워크인 다중 세분성 언어 학습(MGLL)을 제안합니다. MGLL는 구조화된 다중 레이블 지도를 활용하고, 세분성 간 텍스트 설명을 통합하며, 점별 제약 조건을 갖는 소프트 레이블 지도를 도입하여 정렬 성능을 향상시킵니다. MGLL는 부드러운 Kullback-Leibler (KL) 발산을 사용하여 교차 세분성 일관성을 보장하면서도 비전-언어 모델용 플러그 앤 플레이 모듈로서 계산 효율성을 유지합니다. 구축된 대규모 다중 세분성 데이터셋으로 사전 학습되고 여러 데이터셋에서 평가된 결과, MGLL는 하류 작업에서 다른 최첨단 방법들을 능가하는 성능을 보여줍니다. 코드는 https://github.com/HUANGLIZI/MGLL에서 이용 가능합니다.