번역이 포함된 일일 선별된 AI 연구 논문
멀티모달 대규모 언어 모델은 인상적인 의미론적 능력을 보여주지만, 종종 공간적 맹점을 겪으며 세밀한 기하학적 추론과 물리적 역학 이해에 어려움을 느낍니다. 기존 해결책들은 일반적으로 명시적 3D 모달리티나 복잡한 기하학적 구조에 의존하는데, 이는 데이터 부족과 일반화의 한계에 직면해 있습니다. 본 연구에서는 대규모 비디오 생성 모델 내에 내재된 공간적 사전 지식을 활용하여 패러다임 전환을 제안합니다. 우리는 시간적으로 일관된 비디오를 합성하기 위해 이러한 모델이 본질적으로 강력한 3D 구조적 사전 지식과 물리 법칙을 학습한다고 가정합니다. 우리는 사전 훈련된 비디오 확산 모델을 잠재 세계 시뮬레이터로 재활용하는 플러그앤플레이 프레임워크인 VEGA-3D(Video Extracted Generative Awareness)를 소개합니다. 중간 노이즈 수준에서 시공간 특징을 추출하고 토큰 수준 적응형 게이트 융합 메커니즘을 통해 의미론적 표현과 통합함으로써, 명시적 3D 감독 없이도 MLLM에 풍부한 기하학적 단서를 제공합니다. 3D 장면 이해, 공간 추론, 구현체 조작 벤치마크에 걸친 포괄적인 실험을 통해 우리의 방법이 최첨단 기준선을 능가함을 입증하였으며, 생성적 사전 지식이 물리 세계 이해를 위한 확장 가능한 기반을 제공함을 검증했습니다. 코드는 https://github.com/H-EmbodVis/VEGA-3D에서 공개되어 있습니다.
현재 지시어 기반 비디오 편집 모델은 정확한 의미론적 수정과 원본 모션 보존을 동시에 달성하는 데 어려움을 겪고 있습니다. 기존 접근법들은 이러한 문제를 완화하기 위해 명시적인 외부 사전 정보(예: VLM 특징 또는 구조적 조건) 주입에 의존하지만, 이러한 의존성은 모델의 강건성과 일반화 성능을 심각하게 제한합니다. 이러한 한계를 극복하기 위해 우리는 비디오 편집을 의미론적 앵커링과 모션 모델링으로 분해하는 프레임워크인 SAMA(분해된 의미론적 앵커링 및 모션 정렬)를 제안합니다. 첫째, 희소 앵커 프레임에서 의미론적 토큰과 비디오 잠재 변수를 공동으로 예측하여 신뢰할 수 있는 시각적 앵커를 설정하는 의미론적 앵커링을 도입함으로써 순수하게 지시어 인식 구조 계획을 가능하게 합니다. 둘째, 모션 중심의 비디오 복원 프리텍스트 작업(큐브 인페인팅, 속도 변형, 튜브 셔플)을 통해 동일한 백본을 사전 학습하는 모션 정렬을 통해 모델이 원본 비디오로부터 직접 시간적 역학을 내재화할 수 있게 합니다. SAMA는 2단계 파이프라인으로 최적화됩니다: 짝을 이루는 비디오-지시어 편집 데이터 없이도 본질적인 의미론-모션 표현을 학습하는 분해 사전 학습 단계와, 짝을 이루는 편집 데이터에 대한 지도 미세 조정 단계가 뒤따릅니다. 주목할 점은, 분해 사전 학습만으로도 강력한 제로샷 비디오 편집 능력이 발현되어 제안된 분해 방식의 타당성을 입증합니다. SAMA는 오픈소스 모델 중 최첨단 성능을 달성하며 주요 상용 시스템(예: Kling-Omni)과도 경쟁력이 있습니다. 코드, 모델 및 데이터셋은 공개될 예정입니다.
저희는 30B MoE(활성 파라미터 3B) 규모의 오픈 모델인 Nemotron-Cascade 2를 소개합니다. 이 모델은 최고 수준의 추론 능력과 강력한 에이전트 능력을 제공합니다. 컴팩트한 크기에도 불구하고 수학 및 코딩 추론 성능은 최첨단 오픈 모델에 근접합니다. DeepSeekV3.2-Speciale-671B-A37B에 이어 2025년 국제수학올림피아드(IMO), 국제정보올림피아드(IOI), ICPC 월드 파이널에서 금메달 수준의 성능을 달성한 두 번째 오픈웨이트 LLM으로, 매개변수 수가 20배 적음에도 놀라울 정도로 높은 지능 밀도를 입증했습니다. Nemotron-Cascade 1과 대비되는 주요 기술 발전 사항은 다음과 같습니다. 정성적으로 구성된 데이터셋에 대한 SFT 이후, 훨씬 더 광범위한 추론 및 에이전트 영역을 포괄하도록 Cascade RL을 대폭 확장했습니다. 또한 Cascade RL 과정 전반에 걸쳐 각 영역별 가장 강력한 중간 교사 모델로부터의 다중 도메인 온-폴리시 지식 증류를 도입하여 벤치마크 회귀를 효율적으로 복구하고 강력한 성능 향상을 꾸준히 유지할 수 있었습니다. 모델 체크포인트와 학습 데이터 컬렉션을 공개합니다.
맞춤형 대상의 동적이고 시점 일관적인 비디오 생성은 몰입형 VR/AR, 가상 제작, 차세대 e-커머스를 포함한 다양한 신흥 애플리케이션을 위해 매우 중요하게 요구되고 있습니다. 그러나 대상 기반 비디오 생성의 급속한 발전에도 불구하고, 기존 방법들은 주로 대상을 2D 개체로 취급하며 단일 시각적 특징이나 텍스트 프롬프트를 통해 정체성을 전달하는 데 집중해 왔습니다. 실제 세계의 대상은 본질적으로 3D이기 때문에, 이러한 2D 중심 접근법을 3D 객체 맞춤화에 적용할 때 근본적인 한계가 드러납니다: 바로 3D 기하학을 재구성하는 데 필요한 포괄적인 공간 사전 지식이 부족하다는 점입니다. 그 결과, 새로운 시점을 합성할 때 보이지 않는 영역에 대해 그럴듯하지만 임의적인 세부 사항을 생성해야 하며, 진정한 3D 정체성을 보존하지 못합니다. 다중 시점 비디오 데이터셋의 부족으로 인해 진정한 3D 인식 맞춤화를 달성하는 것은 여전히 어려운 과제입니다. 제한된 비디오 시퀀스로 모델을 미세 조정하려는 시도를 할 수 있지만, 이는 종종 시간적 과적합을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 3DreamBooth와 3Dapter로 구성된 3D 인식 비디오 맞춤화를 위한 새로운 프레임워크를 소개합니다. 3DreamBooth는 1-프레임 최적화 패러다임을 통해 시간적 운동으로부터 공간 기하학을 분리합니다. 공간 표현에 대한 업데이트를 제한함으로써, 이 방법은 방대한 비디오 기반 훈련 없이도 모델에 강력한 3D 사전 지식을 효과적으로 구워 넣습니다. 정교한 질감을 향상하고 수렴 속도를 가속화하기 위해 우리는 시각적 조건화 모듈인 3Dapter를 통합합니다. 단일 시점 사전 훈련 후, 3Dapter는 비대칭 조건화 전략을 통해 주요 생성 분기와 함께 다중 시점 공동 최적화를 거칩니다. 이 설계는 모듈이 최소 참조 세트로부터 시점 특정 기하학적 힌트를 질의하는 동적 선택적 라우터 역할을 할 수 있게 합니다. 프로젝트 페이지: https://ko-lani.github.io/3DreamBooth/
실시간 실행은 물리적 환경에서 비전-언어-행동(VLA) 모델을 배치하는 데 핵심적입니다. 기존의 비동기 추론 방법은 주로 궤적 부드러움을 최적화하지만, 환경 변화에 대응하는 중요한 지연 시간을 간과해 왔습니다. 본 논문은 행동 청크 정책에서 '반응' 개념을 재고함으로써 반응 시간을 결정하는 요인에 대한 체계적인 분석을 제시합니다. 우리는 반응 시간이 첫 번째 행동까지의 시간(TTFA)과 실행 범위에 의해 공동으로 결정되는 균일 분포를 따른다는 것을 보여줍니다. 더 나아가, 흐름 기반 VLA에서 일정한 스케줄을 적용하는 표준 관행이 비효율적일 수 있으며, 시스템이 모든 샘플링 단계를 완료해야만 어떤 움직임도 시작할 수 있어 반응 지연의 병목 현상을 초래함을 밝혔습니다. 이 문제를 해결하기 위해 우리는 즉각적 반응을 위한 고속 행동 샘플링(FASTER)을 제안합니다. FASTER는 범위 인식 스케줄을 도입하여 흐름 샘플링 과정에서 단기적 행동을 적응적으로 우선시함으로써, 즉각적 반응에 대한 노이즈 제거를 단일 단계로 10배 압축하되(예: π_{0.5} 및 X-VLA 기준) 장기 궤적의 품질은 유지합니다. 스트리밍 클라이언트-서버 파이프라인과 결합된 FASTER는 실제 로봇에서, 특히 소비자 등급 GPU에 배치될 때 유효 반응 지연 시간을 크게 줄입니다. 매우 동적인 탁구 과제를 포함한 실세계 실험을 통해 FASTER가 범용 정책으로 전례 없는 실시간 응답성을 구현하여 정확하고 부드러운 궤적을 빠르게 생성할 수 있음을 입증했습니다.
우리는 에이전트 설계 에이전트 역할을 하는 범용적이며 지속적 학습이 가능한 LLM 에이전트 시스템인 Memento-Skills를 소개한다. 이 시스템은 경험을 통해 작업별 에이전트를 자율적으로 구축, 적응 및 개선한다. 이 시스템은 상태 저장 프롬프트를 사용하는 메모리 기반 강화 학습 프레임워크 위에 구축되었으며, 재사용 가능한 스킬(구조화된 마크다운 파일로 저장됨)이 지속적이고 진화하는 메모리 역할을 한다. 이러한 스킬은 행동과 맥락을 모두 인코딩하여 에이전트가 상호작용을 거쳐 지식을 이어나갈 수 있도록 한다. 웹 검색 및 터미널 작업과 같은 단순한 기초 스킬에서 시작하여, 에이전트는 Memento~2~wang2025memento2에서 소개된 읽기-쓰기 반성 학습 메커니즘을 통해 지속적으로 개선된다. 읽기 단계에서는 행동 훈련이 가능한 스킬 라우터가 현재 상태 저장 프롬프트를 조건으로 가장 관련성 높은 스킬을 선택한다. 쓰기 단계에서는 에이전트가 새로운 경험을 바탕으로 자신의 스킬 라이브러리를 업데이트하고 확장한다. 이러한 폐쇄형 루프 설계는 모든 적응이 외부화된 스킬과 프롬프트의 진화를 통해 실현되므로 LLM 매개변수를 업데이트하지 않고도 지속적 학습을 가능하게 한다. 사람이 설계한 에이전트에 의존하는 기존 접근법과 달리, Memento-Skills는 범용 에이전트가 새로운 작업을 위해 처음부터 끝까지 에이전트를 설계할 수 있게 한다. 반복적인 스킬 생성 및 정제를 통해 시스템은 자신의 능력을 점진적으로 향상시킨다. General AI Assistants 벤치마크와 Humanity's Last Exam에 대한 실험은 지속적인 성능 향상을 보여주었으며, 각각 전체 정확도에서 26.2%, 116.2%의 상대적 개선을 달성했다. 코드는 https://github.com/Memento-Teams/Memento-Skills에서 확인할 수 있다.
기존 동작 생성 연구는 주로 두 가지 패러다임을 따릅니다: 운동학적 제어에 뛰어난 연속 확산 모델과 의미적 조건 설정에 효과적인 이산 토큰 기반 생성기입니다. 양자의 장점을 결합하기 위해 우리는 조건 특징 추출(인지), 이산 토큰 생성(계획), 확산 기반 동작 합성(제어)의 세 단계로 구성된 프레임워크를 제안합니다. 이 프레임워크의 핵심은 MoTok으로, 동작 복원을 확산 디코더에 위임하여 의미적 추상화와 세밀한 재구성을 분리함으로써 동작 충실도를 유지하면서도 컴팩트한 단일 계층 토큰을 가능하게 하는 확산 기반 이산 동작 토크나이저입니다. 운동학적 조건의 경우, 계획 단계에서 대략적인 제약이 토큰 생성을 안내하고, 확산 기반 최적화를 통해 제어 단계에서 세밀한 제약이 적용됩니다. 이러한 설계는 운동학적 세부 사항이 의미적 토큰 계획을 방해하는 것을 방지합니다. HumanML3D에서 우리의 방법은 MaskControl 대비 토큰 수를 1/6만 사용하면서도 제어 가능성과 충실도를 크게 향상시켜 궤적 오차를 0.72cm에서 0.08cm로, FID를 0.083에서 0.029로 줄였습니다. 더 강한 운동학적 제약 하에서 성능이 저하되는 기존 방법과 달리, 우리 방법은 충실도를 향상시켜 FID를 0.033에서 0.014로 감소시켰습니다.
단일 이미지로부터 관절형 3D 객체를 복원하려면 제한된 시각적 증거만으로 객체 기하학, 부품 구조 및 운동 매개변수를 함께 추론해야 합니다. 핵심 난제는 운동 단서와 객체 구조 간의 긴밀한 연관성에 있으며, 이로 인해 직접적인 관절 회귀 분석이 불안정해집니다. 기존 방법들은 다중 시점 감독, 검색 기반 조립 또는 보조 영상 생성 등을 통해 이 문제를 해결하지만, 확장성이나 효율성을 희생하는 경우가 많습니다. 본 논문에서는 점진적 구조 추론에 기반한 통합 프레임워크인 MonoArt를 제안합니다. MonoArt는 이미지 특징에서 관절을 직접 예측하기보다 단일 아키텍처 내에서 시각적 관측을 점진적으로 표준 기하학, 구조화된 부품 표현 및 운동 인식 임베딩으로 변환합니다. 이러한 구조화된 추론 과정을 통해 외부 운동 템플릿이나 다단계 파이프라인 없이도 안정적이고 해석 가능한 관절 추론이 가능합니다. PartNet-Mobility에 대한 광범위한 실험을 통해 OM이 복원 정확도와 추론 속도 모두에서 최첨단 성능을 달성함을 입증했습니다. 해당 프레임워크는 로봇 매니퓰레이션 및 관절형 장면 복원 작업으로도 일반화됩니다.
이산 토큰을 활용한 시각 생성은 언어 모델과 공유되는 통합 토큰 예측 패러다임을 가능하게 하여 원활한 다중모달 아키텍처를 약속함으로써 상당한 주목을 받고 있습니다. 그러나 현재의 이산 생성 방법은 일반적으로 8-32차원과 같은 저차원 잠재 토큰에 국한되어 있어, 이해에 필수적인 의미적 풍부함을 희생하고 있습니다. 768-1024차원과 같은 고차원 사전 학습된 표현이 이 격차를 해소할 수 있지만, 이러한 표현의 이산 생성은 근본적인 어려움을 제기합니다. 본 논문에서는 고차원 표현을 위한 최초의 이산 생성 모델인 Cubic Discrete Diffusion(CubiD)을 제시합니다. CubiD는 고차원 이산 표현 전체에 걸쳐 세분화된 마스킹을 수행합니다. 즉, 모든 위치의 모든 차원이 마스킹되고 부분적 관측으로부터 예측될 수 있습니다. 이를 통해 모델은 공간 위치 내 및 위치 간의 풍부한 상관관계를 학습할 수 있으며, 생성 단계 수는 특징 차원 수와 무관하게 T로 고정됩니다(여기서 T ll hwd). ImageNet-256에서 CubiD는 9억 개에서 37억 개의 매개변수에 걸쳐 강력한 확장 성능을 보이며 최첨단 이산 생성 결과를 달성했습니다. 무엇보다도, 이러한 이산화된 토큰이 원래의 표현 능력을 보존한다는 점을 검증하여 동일한 이산 토큰이 이해와 생성 작업 모두에 효과적으로 활용될 수 있음을 입증했습니다. 이 연구가 통합 다중모달 아키텍처를 향한 향후 연구에 영감을 주기를 바랍니다. 코드는 https://github.com/YuqingWang1029/CubiD에서 확인할 수 있습니다.
F2LLM-v2는 80M에서 14B에 이르는 8가지 크기로 구성된 새로운 범용 다국어 임베딩 모델 패밀리를 소개합니다. 공개된 6천만 개의 고품질 데이터 샘플로 새롭게 구성된 복합 데이터셋으로 학습된 F2LLM-v2는 200개 이상의 언어를 지원하며, 특히 기존에 지원이 부족했던 중간 및 저자원 언어에 중점을 둡니다. 2단계 LLM 기반 임베딩 학습 파이프라인을 마트료시카 학습, 모델 프루닝, 지식 증류 기술과 결합하여, 기존 LLM 기반 임베딩 모델 대비 훨씬 더 효율적이면서도 경쟁력 있는 성능을 유지하는 모델을 제시합니다. 폭넓은 평가를 통해 F2LLM-v2-14B가 11개의 MTEB 벤치마크에서 1위를 차지했으며, 패밀리 내 더 작은 모델들도 자원이 제한된 애플리케이션을 위한 새로운 최첨단 기술을 수립함을 확인했습니다. 오픈소스 임베딩 모델 연구를 촉진하기 위해 모든 모델, 데이터, 코드 및 중간 체크포인트를 공개합니다.
옴니모달 대규모 언어 모델(OmniLLMs)의 최근 발전으로 오디오 및 비디오 입력 이해 능력이 크게 향상되었습니다. 그러나 현재 평가는 주로 10초에서 5분에 이르는 짧은 오디오 및 비디오 클립에 집중되어, 실제 응용 프로그램에서 요구되는 수십 분에 이르는 일반적인 비디오 길이를 반영하지 못하고 있습니다. 이러한 중요한 격차를 해결하기 위해 본 연구에서는 장편 오디오 및 비디오의 교차 모달 이해 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크인 LVOmniBench를 소개합니다. 이 데이터셋은 풍부한 시청각 역동성을 특징으로 하는 공개 플랫폼에서 수집한 고품질 비디오로 구성됩니다. 엄격한 수동 선별 및 주석 과정을 통해 LVOmniBench는 10분에서 90분까지 다양한 길이의 275개 비디오와 1,014개의 질문-응답(QA) 쌍을 포함합니다. LVOmniBench는 장기 기억, 시간적 위치 파악, 세밀한 이해, 다중 모달 인식 등 다양한 영역에 걸쳐 OmniLLMs의 능력을 엄격하게 평가하는 것을 목표로 합니다. 광범위한 평가 결과, 현재의 OmniLLMs는 장편 시청각 입력을 처리하는 데 상당한 어려움을 겪는 것으로 나타났습니다. 오픈소스 모델들은 일반적으로 35% 미만의 정확도를 보인 반면, Gemini 3 Pro는 약 65%의 최고 정확도에 도달했습니다. 우리는 이 데이터셋과 실증적 연구 결과가 장편 시청각 콘텐츠 내에서 복잡한 교차 모달 이해 문제를 해결할 수 있는 고급 모델의 개발과 추가 연구를 촉진할 것으로 기대합니다.
장기적 GUI 에이전트는 실전 배포를 위한 핵심 단계이지만, 현재 패러다임 하에서 효과적인 상호작용 메모리는 아직 충분히 연구되지 않았습니다. 전체 상호작용 시퀀스를 재생하는 방식은 중복성을 유발하고 노이즈를 증폭시키는 반면, 요약 방식은 종종 의존성에 중요한 정보와 추적 가능성을 제거합니다. 본 논문에서는 장기적 Android GUI 에이전트를 위한 고정 메모리 진단 프레임워크인 AndroTMem을 제시합니다. 핵심 벤치마크인 AndroTMem-Bench는 34,473개의 상호작용 단계(평균 32.1, 최대 65)로 구성된 1,069개 작업을 포함합니다. 우리는 TCR(작업 완료율)을 중심으로 에이전트를 평가하며, 특히 중요한 중간 상태를 이월해야 완료되는 작업에 집중합니다. AndroTMem-Bench는 강력한 단계 간 인과적 의존성을 강제하도록 설계되어, 희소하지만 필수적인 중간 상태가 하류 작업에 결정적 역할을 하게 하고 평가에서 상호작용 메모리의 중요성을 부각시킵니다. 오픈소스 및 클로즈드소스 GUI 에이전트 전반에 걸쳐 일관된 패턴을 관찰했습니다: 상호작용 시퀀스가 길어질수록 성능 저하는 주로 작업 내 메모리 실패에 기인하며, 고립된 인식 오류나 지역적 행동 오류가 아닙니다. 이러한 진단 결과를 바탕으로, 우리는 인과적으로 연결된 중간 상태 앵커의 간결한 집합으로 상호작용 시퀀스를 표현하여 하위 목표 지향 검색과 귀인 인식 의사 결정을 가능하게 하는 Anchored State Memory(ASM)를 제안합니다. 다양한 환경과 평가된 12개 GUI 에이전트에서 ASM은 전체 시퀀스 재생 및 요약 기반 베이스라인을 지속적으로 능가하며, TCR을 5%~30.16%, AMS를 4.93%~24.66% 향상시켜, 고정된 구조화된 메모리가 장기적 GUI 작업의 상호작용 메모리 병목 현상을 효과적으로 완화함을 입증했습니다. 코드, 벤치마크 및 관련 자료는 [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem)에서 공개되어 있습니다.
본 논문에서는 화자의 발화에 적절히 반응하는 자연스러운 청자 몸동작을 생성하는 새로운 과제인 '화자 발화 기반 반응적 청자 동작 생성'을 소개한다. 그러나 인간 반응의 본질적으로 비결정적 특성으로 인해 이러한 비언어적 청자 행동을 모델링하는 연구는 여전히 미흡하고 도전적인 과제로 남아 있다. 이를 위해 본 연구에서는 화자 발화와 다양한 적절성 수준으로 주석 처리된 다중 후보 청자 동작을 짝지은 대규모 데이터셋 ReactMotionNet을 제안한다. 이 데이터셋 설계는 청자 행동의 1대 다(one-to-many) 관계를 명시적으로 포착하며, 단일 정답 동작을 넘어서는 감독 정보를 제공한다. 이러한 데이터셋 설계를 기반으로, 기존의 입력-동작 정합도에 집중하는 모션 평가指標가 간과하는 반응적 적절성을 평가하기 위한 선호도 기반 평가 프로토콜을 개발한다. 더 나아가 텍스트, 오디오, 감정, 동작을 통합적으로 모델링하며 선호도 기반 목적함수로 훈련되어 적절하고 다양한 청자 반응을 생성하는 통합 생성 프레임워크 ReactMotion을 제안한다. 폭넓은 실험을 통해 ReactMotion이 검색 기반 베이스라인과 계단형 LLM 기반 파이프라인을 능가하며 보다 자연스럽고 다양하며 적절한 청자 동작을 생성함을 입증한다.
최근 멀티모달 대규모 언어 모델(MLLM)의 발전으로 시각 질의응답을 넘어 외부 도구를 활용한 고급 시각 작업 수행이 가능해졌습니다. 그러나 이러한 진전에도 불구하고, 다양한 도구를 정확하게 실행하고 효과적으로 조합하여 복잡한 작업을 수행하는 것은 여전히 해결해야 할 과제로 남아 있습니다. 기존 벤치마크는 제한된 도구 세트와 단순한 도구 사용 경로에 구애되어 복잡하고 다양한 도구 상호작용을 포착하지 못하며, 실제 현실적인 조건에서 모델 성능을 평가하는 데 한계를 보입니다. 이러한 격차를 해소하기 위해 우리는 MLLM의 도구 활용 능력을 평가하기 위한 포괄적인 벤치마크인 VisualToolChain-Bench(VTC-Bench)를 소개합니다. 실제 컴퓨터 비전 파이프라인과 부합하도록, 우리의 프레임워크는 32가지 다양한 OpenCV 기반 시각 연산을 특징으로 합니다. 이 풍부한 도구 세트는 광범위한 조합을 가능하게 하여 VTC-Bench가 다중 도구 구성 및 장기적, 다단계 계획 실행을 엄격하게 평가할 수 있도록 합니다. 정확한 평가를 위해 우리는 9개 범주의 인지 계층 구조로 구성된 680개의 정밀하게 선별된 문제와 각 문제에 대한 정답 실행 경로를 제공합니다. 19개의 주요 MLLM에 대한 광범위한 실험을 통해 현재 모델들의 시각 에이전트 능력에 중대한 한계가 있음을 확인했습니다. 구체적으로, 모델들은 다양한 도구 세트에 적응하고 보지 않은 연산으로 일반화하는 데 어려움을 겪었으며, 선두 모델인 Gemini-3.0-Pro는 우리 벤치마크에서 51%에 그쳤습니다. 더욱이 다중 도구 구성은 지속적인 난제로 남아있습니다. 복잡한 작업에 직면했을 때 모델들은 효율적인 실행 계획을 수립하지 못하고 최적의 도구를 선택하기보다 익숙한 소수의 하위 최적 함수들에 크게 의존하는 모습을 보였습니다. VTC-Bench는 이러한 근본적인 문제점들을 규명함으로써, 보다 일반화된 시각 에이전트 모델 개발을 이끌 수 있는 엄격한 기준선을 마련합니다.
다중모드 대형 언어 모델(MLLM)이 자연스러운 장면 해석에서는 놀라운 성공을 거두었지만, 인간 인지의 기본 구성 요소인 이산적 기호를 처리하는 능력은 여전히 중요한 미해결 과제로 남아 있습니다. 연속적인 시각 데이터와 달리 수학 공식, 화학 구조, 언어 문자와 같은 기호들은 정확하고 더 깊은 해석을 요구합니다. 본 논문은 언어, 문화, 수학, 물리학, 화학이라는 다섯 가지 영역에 걸쳐 최상위 MLLM이 이러한 '이산적 의미 공간'을 어떻게 탐색하는지 평가하기 위한 포괄적인 벤치마크를 소개합니다. 우리의 연구는 직관에 반하는 현상을 밝혀냈습니다: 모델들이 기본적인 기호 인식에서는 종종 실패하지만 복잡한 추론 과제에서는 성공하는 것으로 나타나, 이들이 진정한 시각적 인식보다는 언어적 확률에 의존하고 있음을 시사합니다. 이러한 '인지적 불일치'를 드러냄으로써, 우리는 과학적 발견과 추상적 사고의 기초가 되는 상징적 언어를 진정으로 지각하고 이해하는 데 있어 현재 인공지능 능력의 심각한 격차를 부각합니다. 본 연구는 보다 엄격하고 인간과 조화를 이루는 지능 시스템 개발을 위한 로드맵을 제시합니다.
동영상 객체 제거는 움직이는 대상 객체와 그에 따른 변형, 그림자, 반사 등의 시각적 효과를 제거하면서 원활한 배경을 복원하는 것을 목표로 합니다. 최근의 확산 모델 기반 동영상 인페인팅 및 객체 제거 방법들은 객체 자체는 제거할 수 있지만, 이러한 효과들을 지우고 일관성 있는 배경을 합성하는 데는 종종 어려움을 겪습니다. 방법론의 한계를 넘어서, 진전은 다양한 환경에서 흔히 나타나는 객체 효과들을 체계적으로 포착한 포괄적인 데이터셋의 부재로 인해 더욱 지연되고 있습니다. 이를 해결하기 위해 우리는 VOR(Video Object Removal) 대규모 데이터셋을 소개합니다. VOR는 다양한 짝을 이룬 동영상으로 구성되어 있으며, 각각은 대상 객체와 그 효과가 존재하는 동영상과 객체 및 효과가 제거된 대조 동영상, 그리고 해당 객체 마스크를 제공합니다. VOR는 촬영 및 합성 소스로부터 수집된 6만 개의 고품질 동영상 쌍을 포함하며, 5가지 효과 유형을 다루고, 광범위한 객체 범주와 복잡하고 동적인 다중 객체 장면을 아우릅니다. VOR를 기반으로 우리는 EffectErase를 제안합니다. EffectErase는 효과 인식 동영상 객체 제거 방법으로, 상호 학습 구조 내에서 동영상 객체 삽입을 역방향 보조 작업으로 간주합니다. 이 모델은 학습을 영향을 받은 영역에 집중시키고 유연한 작업 전환을 가능하게 하는 작업 인식 영역 안내를 포함합니다. 또한, 효과 영역과 구조적 단서에 대한 상호 보완적 행동과 공유된 위치 파악을 장려하는 삽입-제거 일관성 목표를 사용합니다. VOR로 학습된 EffectErase는 다양한 시나리오에 걸쳐 높은 품질의 동영상 객체 효과 제거 결과를 제공하며, 광범위한 실험에서 우수한 성능을 달성합니다.
시각-언어 모델(VLMs)은 시각 추론이 필요한 작업에서도 시각 입력을 충분히 활용하지 못하는 등 시각적 맹점을 보이는 것으로 알려져 있습니다. 본 연구에서는 VLMs이 선택적으로 맹점을 보인다는 것을 입증합니다. 이들은 동일한 시각 추론을 요구하는 상황에서도 언어적 프레이밍에 따라 시각 입력에 적용하는 주의(attention)의 양을 조절합니다. 시각 주의를 프로브(probe)로 활용하여 프레이밍이 이미지에 대한 주의의 양과 분포를 어떻게 변화시키는지 정량적으로 분석했습니다. 객관식이나 예/아니오 질문과 같은 제한적 프레이밍은 개방형 프레이밍에 비해 이미지 문맥에 대한 주의를 현저히 낮추고, 작업 관련 영역에 대한 초점을 감소시키며, 정보가 없는 토큰으로 주의를 이동시킵니다. 더 나아가 이러한 주의 할당 오류가 정확도 저하 및 프레이밍 간 불일치의 주된 원인임을 입증합니다. 이러한 메커니즘적 통찰을 바탕으로, 학습 가능한 토큰을 사용한 경량 프롬프트 튜닝 방법을 제안합니다. 이 방법은 개방형 설정에서 관찰되는 강건하고 시각에 기반한 주의 패턴을 유도하여 시각적 근거 강화 및 다양한 프레이밍에서의 성능 향상을 달성합니다.
동시 음성-음성 번역(SimulS2S)은 실시간 다국어 의사소통에 필수적이며 회의 및 스트리밍 플랫폼에 점점 더 통합되고 있습니다. 그럼에도 불구하고 SimulS2S는 연구에서 아직 충분히 탐구되지 않았으며, 현재 솔루션은 대부분 리소스 집약적인 학습 절차에 의존하고 짧은 형식의 미리 분할된 발화에서만 작동하여 연속 음성으로 일반화되지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해 우리는 장문 형식 SimulS2S를 위한 최초의 학습 불필요( training-free ) 정책인 SimulU를 제안합니다. SimulU는 사전 학습된 종단간(end-to-end) 모델의 교차 주의(cross-attention)를 활용하여 입력 기록과 출력 생성을 모두 규제하는 기록 관리 및 음성 출력 선택 전략을 채택합니다. 8개 언어의 MuST-C에 대한 평가 결과, SimulU는 강력한 캐스케이드 모델 대비 동등하거나 더 나은 품질-대기 시간 절충(trade-off)을 달성함을 보여줍니다. 별도의 특수 학습 필요성을 제거함으로써 SimulU는 현실적인 장문 시나리오에서 종단간 SimulS2S를 실현할 유망한 경로를 제시합니다.
다중 턴 LLM 에이전트는 복잡한 상호작용 작업 해결에 점점 더 중요해지고 있으며, 강화학습(RL)은 장기적 행동을 개선하는 핵심 요소입니다. 그러나 RL 훈련은 대량의 샌드박스 롤아웃 트레이젝토리 생성을 필요로 하며, 기존 인프라는 종종 롤아웃 오케스트레이션과 훈련 루프를 결합하여 시스템의 이식 및 유지보수를 어렵게 만듭니다. 롤아웃-애즈-어-서비스 철학 아래, 우리는 API 서비스를 통해 완전한 에이전트 롤아웃 라이프사이클을 제공하는 확장 가능한 인프라인 ProRL 에이전트를 제시합니다. ProRL 에이전트는 또한 루트리스 HPC 환경에서 다양한 에이전트 작업을 지원하는 표준화되고 확장 가능한 샌드박스 환경을 제공합니다. 우리는 소프트웨어 공학, 수학, STEM, 코딩 작업에 대한 RL 훈련을 통해 ProRL 에이전트를 검증합니다. ProRL 에이전트는 오픈소스이며 NVIDIA NeMo Gym의 일부로 통합되었습니다.
멀티모달 대규모 언어 모델(MLLMs)은 시각과 언어의 연결에서 인상적인 진전을 이루었으나, 여전히 공간 이해 및 시점 인식 추론에 어려움을 겪고 있습니다. 최근 연구들은 모델에 3D 공간 추론을 명시적으로 가르치기보다 기하학적 단서를 입력 표현에 추가하는 방향으로 진행되고 있습니다. 본 논문에서는 단안 비디오 입력으로부터 2D 시각-언어 모델에 고급 3D 이해 능력을 부여하는 Loc3R-VLM 프레임워크를 소개합니다. 인간의 공간 인지에서 영감을 받은 Loc3R-VLM은 장면 구조의 전체적 표현을 구축하는 전역 레이아웃 재구성과 자기 중심적 시점을 고정하는 명시적 상황 모델링이라는 두 가지 공동 목표에 기반합니다. 이러한 목표는 지각과 언어를 3D 맥락에 직접적으로 연결하는 공간적 감독을 제공합니다. 기하학적 일관성과 미터법 규모 정렬을 보장하기 위해, 사전 훈련된 3D 기초 모델에서 추출한 경량 카메라 자세 사전 정보를 활용합니다. Loc3R-VLM은 언어 기반 위치 인식에서 최첨단 성능을 달성하며, 상황 인식 및 일반 3D 질의응답 벤치마크에서 기존 2D 및 비디오 기반 접근법을 능가함으로써 우리의 공간 감독 프레임워크가 강력한 3D 이해를 가능하게 함을 입증합니다. 프로젝트 페이지: https://kevinqu7.github.io/loc3r-vlm
중요도 비율을 규제하는 것은 GRPO(Group Relative Policy Optimization) 기반 프레임워크의 훈련 안정성에 있어 핵심적입니다. 그러나 경성 클리핑과 같은 기존 비율 제어 방법은 미분 불가능한 경계와 기울기 소실 영역 문제로 인해 기울기 정확도를 유지하지 못하는 한계가 있습니다. 더욱이 이러한 방법들은 극단적 편차를 적응적으로 억제할 위험 인식 메커니즘이 부족하여 갑작스러운 정책 변화에 최적화 과정이 취약해집니다. 이러한 문제를 해결하기 위해 본 연구는 강건하고 안정적인 강화 학습을 위한 새로운 프레임워크인 MHPO(Modulated Hazard-aware Policy Optimization)를 제안합니다. 제안된 MHPO는 로그 정확도 모듈레이터(LFM)를 도입하여 무제한 중요도 비율을 유계이며 미분 가능한 영역으로 매핑합니다. 이 메커니즘은 손실 경관을 불안정하게 만드는 고분산 이상치 토큰을 효과적으로 방지하면서 전역 기울기 안정성을 보장합니다. 보완적으로, 분리형 위험 패널티(DHP)는 생존 분석의 누적 위험 함수를 통합하여 긍정적 및 부정적 정책 변화를 독립적으로 규제합니다. 위험 인식 패널티로 최적화 경관을 형성함으로써, 제안된 MHPO는 비대칭 정책 변화의 세밀한 규제를 달성하며, 과도한 확장으로 인한 모드 붕괴를 완화하고 안정화된 신뢰 영역 내에서 치명적 수축으로 인한 정책 침식을 동시에 방지합니다. 텍스트 기반 및 시각-언어 과제에 걸친 다양한 추론 벤치마크에서의 광범위한 평가를 통해 MHPO가 기존 방법들을 일관되게 능가하며, 훈련 안정성을 크게 향상시키면서도 우수한 성능을 달성함을 입증합니다.
본 기술 보고서는 이산 오디오 토큰, 자기회귀 모델링, 대규모 사전 학습이라는 확장 가능한 레시피를 기반으로 구축된 음성 생성 파운데이션 모델인 MOSS-TTS를 소개합니다. 가변 비트레이트 RVQ와 통합 의미-음향 표현을 통해 24kHz 오디오를 12.5fps로 압축하는 인과적 트랜스포머 토크나이저인 MOSS-Audio-Tokenizer를 기반으로, 우리는 두 가지 상호 보완적인 생성기를 공개합니다: 구조적 단순성, 확장성, 장문 컨텍스트/제어 중심 배포를 중시하는 MOSS-TTS와, 더 높은 모델링 효율성, 강화된 화자 보존, 더 짧은 최초 오디오 출력 시간을 위해 프레임-로컬 자기회귀 모듈을 도입한 MOSS-TTS-Local-Transformer입니다. 다국어 및 개방형 도메인 설정에서 MOSS-TTS는 제로샷 음성 복제, 토큰 수준 속도 제어, 음소/병음 수준 발음 제어, 부드러운 코드 전환, 안정적인 장문 생성을 지원합니다. 본 보고서는 공개 모델들의 설계, 학습 레시피 및 경험적 특성을 요약합니다.
단일 모델에서 조절 가능한 정밀도로 장면을 렌더링하는 능력, 즉 Level of Detail (LoD)는 3D Gaussian Splatting (3DGS)의 실용적 배포에 있어 핵심적입니다. 기존의 이산적 LoD 방법은 제한된 수의 운영 지점만을 제공하는 반면, 최근의 연속적 LoD 접근법은 더 부드러운 스케일링을 가능하게 하지만 종종 최대 성능에서 눈에 띄는 화질 저하를 겪어 LoD를 도입하는 것이 비용이 큰 설계 결정이 되었습니다. 우리는 표준 3DGS 파이프라인에서 최대 성능 렌더링 품질을 희생하지 않으면서 연속적 LoD를 가능하게 하는 학습 프레임워크인 Matryoshka Gaussian Splatting (MGS)을 소개합니다. MGS는 단일 정렬된 Gaussian 집합을 학습하여, 어떤 접두사(첫 k개의 splat)를 렌더링하더라도 예산이 증가함에 따라 정밀도가 부드럽게 향상되는 일관된 재구성 결과를 생성합니다. 우리의 핵심 아이디어는 확률적 예산 학습으로, 각 반복마다 무작위 splat 예산을 샘플링하고 해당 접두사와 전체 집합을 동시에 최적화합니다. 이 전략은 두 번의 순전파만 필요로 하며 아키텍처 수정을 전혀 도입하지 않습니다. 4개의 벤치마크와 6개의 기준 모델에 대한 실험 결과, MGS는 백본 모델의 최대 성능을 그대로 유지하면서 단일 모델로부터 연속적인 속도-품질 트레이드오프를 가능하게 함을 보여줍니다. 정렬 전략, 학습 목표, 모델 용량에 대한 광범위한 ablation 연구를 통해 해당 설계를 추가로 검증합니다.
원격 감지에 적용된 시각-언어 모델(VLMs)은 도메인 특화 이미지-텍스트 감독에 크게 의존하지만, 위성 및 항공 이미지에 대한 고품질 주석은 여전히 부족하고 생산 비용이 높습니다. 기존의 가짜 주석 파이프라인은 대형 프론티어 모델에서 지식을 추출하여 이 격차를 해소하려 하지만, 대형 교사 모델에 대한 의존은 비용이 많이 들고 확장성을 제한하며, 달성 가능한 성능을 교사 모델의 성능 한계로 제한합니다. 우리는 이러한 의존성을 제거하는 독립형 도메인 적응 프레임워크인 OSMDA를 제안합니다. 우리의 핵심 통찰은 능력 있는 기본 VLM이 자체 주석 엔진 역할을 할 수 있다는 것입니다: 항공 이미지를 렌더링된 OpenStreetMap(OSM) 타일과 결합함으로써, 모델의 광학 문자 인식 및 차트 이해 능력을 활용하여 OSM의 방대한 보조 메타데이터로 풍부해진 캡션을 생성합니다. 그런 다음 모델은 생성된 코퍼스로 위성 이미지만 사용하여 미세 조정되며, 결과적으로 수동 라벨링이나 더 강력한 외부 모델 없이 도메인 적응된 VLM인 OSMDA-VLM을 얻습니다. 우리는 이미지-텍스트-텍스트 작업에 걸친 10개 벤치마크에서 포괄적인 평가를 수행하고 9개의 경쟁력 있는 기준 모델과 비교합니다. 실제 데이터와 동등하게 혼합했을 때, 우리의 방법은 교사 모델 의존적 대안들보다 훨씬 저렴한 학습 비용으로 최첨단 결과를 달성합니다. 이러한 결과는 강력한 기초 모델이 주어졌을 때, 크라우드소싱된 지리 데이터와의 정렬이 원격 감지 도메인 적응을 위한 실용적이고 확장 가능한 경로임을 시사합니다. 데이터셋과 모델 가중치는 공개될 예정입니다.
수학적 객체를 정확하게 도출하는 능력은 공식적으로 구조화된 표현으로 귀결되어야 하는 수학, 물리학, 화학을 포함한 하위 STEM 응용 분야의 핵심 요구사항입니다. 그러나 현재 수학 및 과학적 추론에 대한 언어 모델 평가는 자동화된 평가의 편의성 때문에 수치 값이나 객관식 옵션과 같은 단순화된 답변 형식에 크게 의존하고 있습니다. 본 논문에서는 수학적 객체에 대한 추론 능력 향상을 위한 세 가지 기여를 제공합니다: (i) 수학적 객체 도출을 위한 훈련 데이터와 벤치마크인 Principia 제품군을 구축 및 공개합니다; (ii) 강력한 LLM 판단기와 검증기를 활용한 훈련 방법론을 제시하며, 온-정책 판단기 훈련이 성능을 향상시킴을 보여줍니다; (iii) 온-정책 훈련이 집합을 통해 테스트 시 연산을 확장하는 데에도 사용될 수 있음을 보여줍니다. 우리는 Qwen3-235B 및 o3와 같은 강력한 언어 모델들이 Principia에서 어려움을 겪는 반면, 우리의 훈련 방법론이 서로 다른 LLM 백본에 걸쳐 상당한 개선을 가져오고 기존의 수치 및 객관식 문제에서도 결과를 동시에 향상시켜 추론 능력의 교차 형식 일반화를 입증함을 발견했습니다.
본 연구에서는 세 가지 과제(날짜 연산, 시간대 변환, 시간적 관계 추출)를 아우르는 다국어 시간 추론 벤치마크인 MultiTempBench를 소개한다. 이 벤치마크는 다섯 개 언어(영어, 독일어, 중국어, 아랍어, 하우사어)와 여러 역법(그레고리력, 히즈라력, 중국 음력)을 포괄한다. MultiTempBench는 정성적으로 구성된 영어 질문 750개를 번역하고 각각을 통제된 날짜 형식 변형으로 확장하여 총 15,000개의 예시로 구성되었다. 우리는 20개의 대규모 언어 모델(LLM)을 평가하고, 인간의 심각도 평가로 보정된 다국어 날짜 분할 비율(mDFR)을 도입함과 동시에 내부 시간 표현에 대한 기하학적 프로빙 분석을 수행했다. 분석 결과, 시간적 요소의 토큰화 품질이 자원 의존적 병목 현상임을 확인했다: 저자원 언어와 희귀 역법에서는 분할이 연/월/일 구분을 방해하여 정확도가 급락한 반면, 고자원 환경에서는 숫자 수준 분할에 대체로 강건하였다. 토큰화를 넘어선 교차 혼합 효과 회귀 분석에 따르면, 고자원 언어에서는 시간적 선형성이 시간 추론의 가장 강력한 예측 변수인 반면, 저자원 언어에서는 분할 정도가 더 강력한 예측 변수로 나타났다. 코드는 https://github.com/gagan3012/mtb에서 확인할 수 있다.
잠재적 객체 식별은 다양한 컴퓨터 비전 응용 분야에서 객체 인식 및 분석에 있어 핵심적인 과제입니다. 기존 방법들은 일반적으로 예시 이미지, 사전 정의된 범주 또는 텍스트 설명에 의존하여 잠재적 객체를 위치 특정화합니다. 그러나 이러한 이미지 및 텍스트 프롬프트에 대한 의존성은 유연성을 제한하여 실제 시나리오에서의 적응성을 떨어뜨리는 경우가 많습니다. 본 논문에서는 외부 프롬프트에 의존하지 않고 잠재적 객체를 식별하는 새로운 프롬프트 무관 범용 영역 제안 네트워크(PF-RPN)를 제안합니다. 먼저, 희소 이미지 인식 어댑터(SIA) 모듈은 시각적 특징으로 동적으로 업데이트되는 학습 가능 쿼리 임베딩을 사용하여 잠재적 객체의 초기 위치 특정화를 수행합니다. 다음으로, 계단식 자체 프롬프트(CSP) 모듈은 자체 프롬프트 방식의 학습 가능 임베딩을 활용하여 남은 잠재적 객체를 식별하며, 계단식 방식으로 정보가 풍부한 시각적 특징을 자율적으로 집계합니다. 마지막으로, 중심점 기반 쿼리 선택(CG-QS) 모듈은 중심점 점수화 네트워크를 사용하여 고품질 쿼리 임베딩 선택을 용이하게 합니다. 우리의 방법은 적은 양의 데이터(예: MS COCO 데이터의 5%)로 최적화될 수 있으며, 미세 조정 없이도 수중 객체 탐지, 산업 결함 탐지, 원격 감지 이미지 객체 탐지와 같은 다양한 객체 탐지 응용 분야에 직접 적용 가능합니다. 19개 데이터셋에 대한 실험 결과는 우리 방법의 효과성을 입증합니다. 코드는 https://github.com/tangqh03/PF-RPN에서 확인할 수 있습니다.
COT-FM은 더 빠르고 안정적인 생성을 위해 플로우 매칭(FM)의 확률 경로를 재구성하는 일반적인 프레임워크입니다. FM 모델은 무작위 또는 배치 단위 결합으로 인해 곡선 궤적을 생성하는 경우가 많으며, 이는 이산화 오차를 증가시키고 샘플 품질을 저하시킵니다. COT-FM은 타겟 샘플을 클러스터링하고 사전 학습된 FM 모델을 역전시켜 얻은 전용 소스 분포를 각 클러스터에 할당하여 이 문제를 해결합니다. 이러한 분할 정복 전략은 모델 아키텍처를 변경하지 않으면서도 더 정확한 국소 전송과 상당히 직선적인 벡터 필드를 제공합니다. 플러그 앤 플레이 방식인 COT-FM은 2D 데이터셋, 이미지 생성 벤치마크, 로봇 매니퓰레이션 작업에서 지속적으로 샘플링 속도를 높이고 생성 품질을 향상시킵니다.
대규모 언어 모델(LLM)은 고자원 언어 쌍에 대한 기계 번역에서 뛰어난 능력을 보여왔으나, 저자원 언어 번역 성능은 여전히 뒤처지고 있습니다. 기존의 사후 훈련 방법은 고품질 병렬 데이터에 크게 의존하는데, 이러한 데이터는 저자원 언어의 경우 희귀하거나 존재하지 않는 경우가 많습니다. 본 논문에서는 단일 언어 텍스트만을 사용하여 LLM의 대규모 저자원 언어 번역 능력을 향상시키면서도 고자원 언어 성능은 유지하는 강화 훈련 방법인 WALAR를 소개합니다. 우리의 핵심 통찰은 기존 원천 기반 다국어 품질 추정(QE) 모델의 실패 모드(또는 "결함") 관찰에 기반합니다. 이러한 QE 모델을 이용한 강화 학습(RL)은 이러한 결함을 증폭시키는 경향이 있어 다국어 LLM의 성능을 저하시킵니다. 우리는 WALAR의 RL 훈련 보상에서 이러한 결함을 완화하기 위해 단어 정렬 및 언어 정렬 기법을 개발했습니다. WALAR를 사용하여 101개 언어 번역을 지원하는 LLM을 지속적으로 훈련시켰습니다. 실험 결과, 우리의 새로운 모델은 Flores-101 데이터셋의 1400개 언어 방향에서 가장 강력한 오픈소스 다국어 LLM 중 하나인 LLaMA-X를 큰 차이로 능가하는 성능을 보여주었습니다.
의미 있는 부품들의 조합으로 3D 객체를 이해하고 생성하는 것은 인간의 인지와 추론의 근간을 이룹니다. 그러나 대부분의 텍스트-3D 변환 방법은 부품의 의미론적 및 기능적 구조를 간과합니다. 최근 부품 인식 접근법이 분해 기법을 도입했지만, 여전히 기하학적 측면에 집중하여 의미론적 근거가 부족하고 부품이 텍스트 설명과 어떻게 조화를 이루는지 또는 부품 간 관계를 제대로 모델링하지 못합니다. 우리는 의미론적으로 근거 있는 부품 인식 텍스트-3D 생성 프레임워크인 DreamPartGen을 제안합니다. DreamPartGen은 각 부품의 기하학적 형상과 외관을 공동으로 모델링하는 Duplex Part Latents(DPL)와 언어에서 도출된 부품 간 상호 의존성을 포착하는 Relational Semantic Latents(RSL)를 도입합니다. 동기화된 공동 잡음 제거 과정은 기하학적 및 의미론적 일관성을 상호 강화하여 일관성 있고 해석 가능하며 텍스트와 정렬된 3D 합성을 가능하게 합니다. 다양한 벤치마크에서 DreamPartGen은 기하학적 정확도와 텍스트-형상 정렬 측면에서 최첨단 성능을 제공합니다.
산업 검사에서의 논리적 이상 감지는 배경 복잡성, 조명 변화, 흐림 등과 같은 시각적 외관 변동으로 인해 여전히 어려운 과제로 남아 있습니다. 이러한 요인들은 규칙 수준 위반을 식별해야 하는 시각 중심 감지기의 주의를 자주 분산시킵니다. 그러나 기존 벤치마크는 이러한 방해 요인이 변동하는 동안 논리적 상태는 고정된 통제된 환경을 거의 제공하지 않습니다. 이러한 격차를 해결하기 위해 우리는 시각적 방해 조건 하에서 논리적 이상 감지를 위한 데이터셋인 VID-AD를 소개합니다. 이 데이터셋은 10개의 제조 시나리오와 5개의 촬영 조건으로 구성되어 있으며, 총 50개의 one-class 작업과 10,395개의 이미지를 포함합니다. 각 시나리오는 개수, 길이, 유형, 배치, 관계 중에서 선택된 두 가지 논리적 제약 조건으로 정의되며, 단일 제약 조건 위반과 복합 위반을 모두 포함하는 이상 사례를 제공합니다. 우리는 더 나아가 정상 이미지에서 생성된 텍스트 설명에만 의존하는 언어 기반 이상 감지 프레임워크를 제안합니다. 긍정 텍스트와 이러한 설명에서 합성된 모순 기반 부정 텍스트를 활용한 대조 학습을 통해, 우리의 방법은 저수준 특징보다는 논리적 속성을 포착하는 임베딩을 학습합니다. 다양한 실험을 통해 평가된 모든 설정에서 기준선 대비 일관된 성능 향상을 입증합니다. 데이터셋은 https://github.com/nkthiroto/VID-AD에서 이용 가능합니다.
페르시아어는 고전 시, 전통 음악, 그리고 널리 퍼져 있는 코드 스위칭(code-switching)을 통해 독특한 오디오 이해 과제를 제시하는데, 기존 벤치마크들은 이를 포착하지 못했습니다. 우리는 페르시아어 오디오-언어 대규모 모델의 성능을 평가하기 위한 최초의 벤치마크인 PARSA-Bench(페르시아어 오디오 추론 및 음성 평가 벤치마크)를 소개합니다. 이 벤치마크는 음성 이해, 준언어적(paralinguistic) 분석, 문화적 오디오 이해 분야에 걸쳐 16개 과제와 8,000개 이상의 샘플로 구성되어 있습니다. 그중 10개 과제(시의 운율 및 스타일 감지, 전통 페르시아 음악 이해, 코드 스위칭 감지 등)는 새롭게 도입되었습니다. 텍스트만을 사용한 기준 모델(baseline)이 지속적으로 오디오 모델보다 우수한 성능을 보였는데, 이는 모델들이 음성 인식(transcription)만으로 제공되는 정보를 넘어서는 오디오 고유의 정보를 활용하지 못할 수 있음을 시사합니다. 문화에 기반을 둔 과제들은 질적으로 뚜렷한 실패 양상을 드러냈습니다: 모든 모델은 규모와 관계없이 운율(vazn) 감지에서 거의 무작위 수준의 성능을 보여, 현재 모델들이 운율 인식(prosodic perception)에 도달하지 못하고 있음을 시사합니다. 해당 데이터셋은 https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench 에서 공개되어 있습니다.