번역이 포함된 일일 선별된 AI 연구 논문
확산 모델을 이용한 분자 생성은 AI 기반 신약 개발 및 재료 과학 분야에서 유망한 방향으로 부상하고 있습니다. 2D 분자 그래프의 이산적 특성으로 인해 그래프 확산 모델이 널리 채택되고 있지만, 기존 모델들은 1D 모델링에 비해 화학적 타당도가 낮고 원하는 특성을 충족시키는 데 어려움을 겪고 있습니다. 본 연구에서는 기존 방법들의 오랜 성능 한계를 극복하는 강력한 분자 그래프 생성 프레임워크인 MolHIT를 소개합니다. MolHIT는 화학적 사전 지식을 인코딩하는 추가 범주로 이산 확산을 일반화하는 계층적 이산 확산 모델과, 원자 유형을 화학적 역할에 따라 분리하는 분리된 원자 인코딩을 기반으로 합니다. 전반적으로 MolHIT는 그래프 확산 모델 최초로 거의 완벽한 타당도를 보이며 MOSES 데이터셋에서 새로운 최첨단 성능을 달성하여, 여러 평가 지표에서 강력한 1D 기준 모델들을 능가했습니다. 또한 다중 특성 유도 생성 및 스캐폴드 확장을 포함한 다운스트림 작업에서도 뛰어난 성능을 입증하였습니다.
사용자 행동의 긴 시퀀스를 모델링하는 것은 생성 추천 시스템에서 중요한 과제로 부상했습니다. 그러나 기존 솔루션은 딜레마에 직면해 있습니다: 선형 어텐션 메커니즘은 제한된 상태 용량으로 인해 검색 정밀도를 희생하면서 효율성을 달성하는 반면, 소프트맥스 어텐션은 감당하기 어려운 계산 부담을 겪습니다. 이러한 문제를 해결하기 위해 우리는 장기적 안정적 선호도와 단기적 의도 급증을 명시적으로 분리하는 하이브리드 어텐션 아키텍처를 특징으로 하는 HyTRec 모델을 제안합니다. 방대한 역사적 시퀀스는 선형 어텐션 브랜치에 할당하고 최근 상호작용은 전용 소프트맥스 어텐션 브랜치에 남겨둠으로써, 우리의 접근 방식은 수만 건의 상호작용이 포함된 산업 규모의 맥락 내에서 정밀한 검색 능력을 회복합니다. 선형 레이어 내에서 빠른 관심사 변화를 포착하는 데 따른 지연을 완화하기 위해, 우리는 또한 역사적 노이즈를 효과적으로 억제하면서 신선한 행동 신호를 동적으로 가중치 부여하는 시간 인식 델타 네트워크(Temporal-Aware Delta Network, TADN)를 설계합니다. 산업 규모 데이터셋에 대한 실험 결과는 우리 모델이 선형 추론 속도를 유지하면서 강력한 기준선을 능가하고, 특히 초장기 시퀀스를 가진 사용자에 대해 히트율에서 8% 이상의 향상을 높은 효율성으로 제공하는 우수성을 확인합니다.
SkyReels V4는 비디오-오디오 결합 생성, 인페인팅, 편집을 위한 통합 멀티모달 비디오 파운데이션 모델입니다. 본 모델은 이중 스트림 멀티모달 디퓨전 트랜스포머(MMDiT) 아키텍처를 채택하여, 한 브랜치는 비디오를 합성하고 다른 브랜치는 시간적으로 정렬된 오디오를 생성하며, 멀티모달 대형 언어 모델(MMLM) 기반의 강력한 텍스트 인코더를 공유합니다. SkyReels V4는 텍스트, 이미지, 비디오 클립, 마스크, 오디오 참조를 포함한 풍부한 멀티모달 명령어를 입력받습니다. MMLM의 멀티모달 명령어 수행 능력과 비디오 브랜치 MMDiT의 인콘텍스트 러닝을 결합함으로써, 모델은 복잡한 조건 하에서 정교한 시각적 지침을 주입할 수 있는 반면, 오디오 브랜치 MMDiT는 동시에 오디오 참조를 활용하여 사운드 생성을 유도합니다. 비디오 측면에서는 이미지-투-비디오, 비디오 확장, 비디오 편집 등 다양한 인페인팅 스타일 작업을 단일 인터페이스로 통합하는 채널 연결 방식을 채택하고, 멀티모달 프롬프트를 통해 시각 참조 기반 인페인팅 및 편집으로 자연스럽게 확장됩니다. SkyReels V4는 최대 1080p 해상도, 32 FPS, 15초 길이를 지원하여 동기화된 오디오와 함께 고화질, 멀티샷, 시네마급 비디오 생성을 가능하게 합니다. 이러한 고해상도, 장시간 생성을 계산적으로 실현 가능하게 하기 위해 저해상도 전체 시퀀스와 고해상도 키프레임의 결합 생성 후 전용 초해상도 및 프레임 보간 모델을 적용하는 효율성 전략을 도입했습니다. 우리가 알기로 SkyReels V4는 시네마틱 해상도와 길이에서 강력한 효율성과 품질을 유지하면서 멀티모달 입력, 비디오-오디오 결합 생성, 생성/인페인팅/편집의 통합 처리를 동시에 지원하는 최초의 비디오 파운데이션 모델입니다.
최근 파운데이션 모델의 발전으로 오디오-비디오 결합 생성 기술에 혁신이 일어났습니다. 그러나 기존 접근법들은 일반적으로 참조 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V) 등 인간 중심 작업을 각각 독립된 목표로 취급해왔습니다. 더욱이 단일 프레임워크 내에서 여러 인물의 정체성과 음색에 대한 정밀하고 분리된 제어를 달성하는 것은 여전히 해결 과제로 남아 있습니다. 본 논문에서는 제어 가능한 인간 중심 오디오-비디오 생성을 위한 통합 프레임워크인 DreamID-Omni를 제안합니다. 구체적으로, 이종 조건 신호를 대칭적 조건 주입 방식을 통해 통합하는 Symmetric Conditional Diffusion Transformer를 설계합니다. 다인원 시나리오에서 흔히 발생하는 정체성-음색 결합 실패 및 화자 혼동 문제를 해결하기 위해 이중 수준 분리 전략을 도입합니다: 신호 수준에서는 강력한 어텐션 공간 결합을 보장하는 Synchronized RoPE를, 의미 수준에서는 명시적 속성-주체 매핑을 구축하는 Structured Captions를 적용합니다. 또한, 약하게 제약된 생성 사전 지식을 활용하여 강하게 제약된 작업을 규제하는 Multi-Task Progressive Training 기법을 고안하여 과적합을 방지하고 상이한 목표들을 조화시킵니다. 폭넓은 실험을 통해 DreamID-Omni가 비디오, 오디오, 오디오-비디오 일관성 전반에 걸쳐 포괄적인 최첨단 성능을 달성하며, 심지어 주요 상용 상업 모델들을 능가함을 입증합니다. 학술 연구와 상용 수준 애플리케이션 간의 격차를 해소하기 위해 코드를 공개할 예정입니다.
에이전트 강화 학습(ARL)은 복잡한 다단계 상호작용 과제 해결을 위해 에이전트를 훈련시키는 유망한 패러다임으로 빠르게 주목받고 있습니다. 초기 연구 결과는 고무적이지만, ARL은 여전히 매우 불안정하여 훈련 붕괴로 이어지는 경우가 많습니다. 이러한 불안정성은 더 큰 환경과 더 긴 상호작용 범위로의 확장성을 제한하며, 알고리즘 설계 선택에 대한 체계적인 탐구를 제약합니다. 본 논문에서는 먼저 통제되고 재현 가능한 환경에서 훈련 안정성을 검토하는 안정적인 훈련 방법론 및 체계적 분석 프레임워크인 ARLArena를 제안합니다. ARLArena는 먼저 깔끔하고 표준화된 테스트베드를 구축합니다. 그런 다음 정책 경사를 네 가지 핵심 설계 차원으로 분해하고 각 차원의 성능과 안정성을 평가합니다. 이러한 세분화된 분석을 통해 ARL에 대한 통합적 관점을 도출하고, ARL의 주요 불안정성 원인을 완화하도록 설계된 안정적인 에이전트 정책 최적화 방법인 SAMPO를 제안합니다. 실험적으로 SAMPO는 다양한 에이전트 과제에서 일관되게 안정적인 훈련과 높은 성능을 달성합니다. 전반적으로 본 연구는 ARL을 위한 통합적인 정책 경사 관점을 제공하고, 안정적이고 재현 가능한 LLM 기반 에이전트 훈련 파이프라인 구축을 위한 실용적인 지침을 제시합니다.
기존의 행동 조건 비디오 생성 모델(비디오 월드 모델)은 단일 에이전트 시점에 국한되어 실제 환경의 다중 에이전트 상호작용을 포착하지 못합니다. 우리는 일관된 다중 시점 관측을 시뮬레이션하는 멀티플레이어 비디오 월드 모델인 Solaris를 소개합니다. 이를 위해 Minecraft와 같은 비디오 게임에서 견고하고 지속적이며 자동화된 데이터 수집을 위해 설계된 멀티플레이어 데이터 시스템을 개발했습니다. 단일 플레이어 환경용으로 구축된 기존 플랫폼과 달리, 우리 시스템은 조정된 다중 에이전트 상호작용과 동기화된 비디오 및 행동 캡처를 지원합니다. 이 시스템을 사용하여 1,264만 프레임의 멀티플레이어 데이터를 수집하고, 멀티플레이어 이동, 메모리, 접지, 건설 및 시점 일관성에 대한 평가 프레임워크를 제안합니다. 양방향, 인과, Self Forcing 훈련을 결합하여 단일 플레이어에서 멀티플레이어 모델링으로 점진적으로 전환하는 단계적 파이프라인으로 Solaris를 훈련합니다. 최종 단계에서는 더 긴 시야를 가진 티처를 가능하게 하는 메모리 효율적인 Self Forcing 변형인 Checkpointed Self Forcing을 도입합니다. 결과는 우리의 아키텍처와 훈련 설계가 기존 베이스라인을 능가함을 보여줍니다. 우리 시스템과 모델을 오픈소스로 공개함으로써 새로운 세대의 다중 에이전트 월드 모델을 위한 기반을 마련하고자 합니다.
다중 턴 에이전시 LLM 추론의 성능은 점점 연산보다는 KV 캐시 저장소 I/O에 의해 좌우되고 있습니다. 널리 사용되는 분산 아키텍처에서 방대한 KV 캐시를 외부 저장소에서 로드하는 것은 근본적인 불균형을 초래합니다: 프리필 엔진의 저장소 NIC는 대역폭 포화 상태가 되는 반면, 디코딩 엔진의 NIC는 유휴 상태로 남습니다. 이러한 비대칭성은 전체 시스템 처리량을 심각하게 제한합니다. 본 논문에서는 이중 경로 KV 캐시 로딩을 도입하여 이러한 병목 현상을 해결하는 추론 시스템인 DualPath를 제안합니다. 기존의 저장소-프리필 경로를 넘어서, DualPath는 새로운 저장소-디코드 경로를 가능하게 합니다. 이 경로에서는 KV 캐시가 디코딩 엔진에 로드된 후 컴퓨팅 네트워크를 통한 RDMA를 통해 프리필 엔진으로 효율적으로 전송됩니다. DualPath는 네트워크 혼잡을 본질적으로 회피하고 지연 시간에 민감한 모델 실행 통신 간섭을 방지하는 이 최적화된 데이터 경로를, 프리필 및 디코드 엔진 간의 부하를 동적으로 분산시키는 글로벌 스케줄러와 결합합니다. 실제 에이전시 워크로드를 사용한 세 가지 모델에 대한 평가 결과, DualPath는 자체 추론 시스템에서 오프라인 추론 처리량을 최대 1.87배 향상시키는 것으로 나타났습니다. 또한 SLO를 위반하지 않으면서 온라인 서빙 처리량을 평균 1.96배 향상시킬 수 있습니다.
오픈소스 기반의 네이티브 GUI 에이전트는 장기적 탐색 과제에서 여전히 폐쇄형 시스템에 뒤처지고 있습니다. 이러한 격차는 두 가지 한계에서 비롯됩니다: 고품질의 액션 정합 추론 데이터의 부족, 그리고 GUI 에이전트의 고유한 난제를 간과한 범용 사후 학습 파이프라인의 직접적 도입. 우리는 이러한 파이프라인에서 두 가지 근본적인 문제를 확인했습니다: (i) CoT 추론을 활용한 표준 SFT는 종종 실세계 연계성을 해치며, (ii) 단계별 RLVR 방식의 학습은 부분 검증 가능성에 직면하는데, 여러 액션이 정답일 수 있지만 단일 시범 액션만 검증에 사용됩니다. 이로 인해 오프라인 단계별 지표는 온라인 과제 성공률을 약하게 예측합니다. 본 연구에서는 이러한 과제를 해결하는 맞춤형 학습 방법론인 GUI-Libra를 제시합니다. 첫째, 액션 정합 추론 데이터의 부족 문제를 완화하기 위해 데이터 구축 및 필터링 파이프라인을 도입하고, 정제된 81K GUI 추론 데이터셋을 공개합니다. 둘째, 추론과 실세계 연계성을 조화시키기 위해 추론-후-액션 데이터와 직접-액션 데이터를 혼합하고, 액션 및 실세계 연계성 토큰의 중요도를 재조정하는 액션 인식 SFT를 제안합니다. 췯째, 부분 검증 가능성 하에서 RL을 안정화하기 위해 RLVR에서 간과된 KL 정규화의 중요성을 확인하고, KL 신뢰 영역이 오프라인-온라인 예측 가능성 향상에 중요함을 보이며, 더 나아가 신뢰할 수 없는 부정적 기울기의 가중치를 줄이기 위한 성공 적응형 스케일링을 도입합니다. 다양한 웹 및 모바일 벤치마크에서 GUI-Libra는 단계별 정확도와 종단간 과제 완료율을 모두 지속적으로 향상시켰습니다. 우리의 결과는 신중하게 설계된 사후 학습과 데이터 큐레이션이 비용이 많이 드는 온라인 데이터 수집 없이도 상당히 강력한 과제 해결 능력을 끌어낼 수 있음을 시사합니다. 추론 능력을 갖춘 GUI 에이전트를 위한 데이터 효율적 사후 학습 연구의 발전을 위해 데이터셋, 코드 및 모델을 공개합니다.
우리는 단일 순전파만으로 이미지를 생성할 수 있으며, 5단계 미만의 적은 스텝으로 다단계 확산 모델들과 경쟁력 있는 성능을 보이는 효율적인 생성 프레임워크인 Sphere Encoder를 소개합니다. 우리의 접근 방식은 자연 이미지를 구형 잠재 공간 위에 균일하게 매핑하는 인코더와, 무작위 잠재 벡터를 이미지 공간으로 다시 매핑하는 디코더를 학습하는 방식으로 작동합니다. 순수하게 이미지 재구성 손실만으로 학습된 이 모델은 구 위의 무작위 지점을 디코딩하는 것만으로 이미지를 생성합니다. 우리의 아키텍처는 조건부 생성을 자연스럽게 지원하며, 인코더와 디코더를 몇 차례 반복하면 이미지 품질을 더욱 향상시킬 수 있습니다. 여러 데이터셋에 걸쳐 Sphere Encoder 접근법은 최첨단 확산 모델들과 경쟁력 있는 성능을 보이지만, 추론 비용은 극소수에 불과합니다. 프로젝트 페이지는 https://sphere-encoder.github.io에서 확인할 수 있습니다.
AIGC는 텍스트-이미지 생성에서 비디오 및 오디오를 아우르는 고품질 멀티모달 합성으로 빠르게 확장되고 있습니다. 이러한 맥락에서 오디오-비디오 연동 생성(JAVG)은 텍스트 설명으로부터 동기화되고 의미론적으로 정렬된 사운드와 영상을 생성하는 핵심 과제로 부상했습니다. 그러나 Veo3와 같은 고도화된 상용 모델에 비해, 기존 오픈소스 방법론들은 생성 품질, 시간적 동기화, 인간 선호도 정합성 측면에서 여전히 한계를 보입니다. 이러한 격차를 해소하기 위해 본 논문은 JAVG의 통합 모델링 및 최적화를 위한 간결하면서도 강력한 프레임워크인 JavisDiT++를 제안합니다. 첫째, 단일 모달리티 생성 품질을 향상시키면서 크로스모달 상호작용 효율을 가능하게 하는 모달리티 특화 전문가 혼합(MS-MoE) 구조를 도입합니다. 둘째, 오디오와 비디오 토큰 간 명시적 프레임 수준 동기화를 달성하기 위한 시간 정렬 RoPE(TA-RoPE) 전략을 제안합니다. 또한 품질, 일관성, 동기화 차원에서 모델 출력을 인간 선호도에 정렬시키는 오디오-비디오 직접 선호도 최적화(AV-DPO) 방법을 개발했습니다. Wan2.1-1.3B-T2V를 기반으로 구축된 우리 모델은 약 100만 개의 공개 학습 데이터만으로도 최첨단 성능을 달성하여 정성적 및 정량적 평가 모두에서 기존 접근법을 크게 능가합니다. 제안된 모듈들의 효과를 입증하기 위한 포괄적인 ablation 연구를 수행했습니다. 모든 코드, 모델 및 데이터셋은 https://JavisVerse.github.io/JavisDiT2-page에서 공개됩니다.
벡터 글리프는 디지털 타이포그래피의 기본 단위이지만, 대부분의 학습 기반 파이프라인은 여전히 신중하게 선별된 예시 시트와 래스터-벡터 후처리에 의존하여 접근성과 편집성을 제한하고 있습니다. 우리는 텍스트 설명이나 이미지 예시로부터 직접 고품질 벡터 글리프를 생성하는 단일 멀티모달 언어 모델인 VecGlypher를 소개합니다. 스타일 프롬프트, 선택적 참조 글리프 이미지, 그리고 대상 문자를 입력받으면 VecGlypher는 자동회귀적으로 SVG 경로 토큰을 출력하여 래스터 중간 과정을 피하고 한 번에 편집 가능하고 밀폐된 윤곽선을 생성합니다. 이를 가능하게 하는 것은 타이포그래피 인식 데이터 및 학습 방법론입니다: (i) SVG 구문과 장기간 기하구조 숙달을 위한 39K개의 노이즈가 포함된 Envato 폰트에 대한 대규모 확장 학습 단계, 이어서 (ii) 언어와 이미지를 기하구조와 정렬하기 위해 설명 태그와 예시가 포함된 2.5K개의 전문가 주석 Google Fonts에 대한 사후 학습 단계; 전처리 과정은 좌표계 정규화, 경로 표준화, 패밀리 중복 제거, 그리고 안정적인 장문열 디코딩을 위한 좌표 양자화를 수행합니다. 교차 패밀리 외부 분포 평가에서 VecGlypher는 텍스트 전용 생성에 있어 범용 LLM과 전문 벡터 폰트 기준 모델을 모두 크게 능가하며, 이미지 참조 생성은 최첨단 성능에 도달하여 DeepVecFont-v2 및 DualVector 대비 현저한 향상을 보입니다. Ablation 연구는 모델 규모와 두 단계 학습 방법론이 중요하며 절대 좌표 직렬화가 최상의 기하구조 결과를 제공함을 보여줍니다. VecGlypher는 사용자가 단어나 예시로 디자인할 수 있게 하여 폰트 제작의 장벽을 낮추고, 향후 멀티모달 디자인 도구를 위한 확장 가능한 기반을 제공합니다.
미래 관측 모델링을 활용하여 행동 생성을 촉진하는 것은 Vision-Language-Action (VLA) 모델의 성능을 향상시키는 유망한 방안입니다. 그러나 기존 방법들은 효율적이고 예측 가능한 미래 표현을 유지하는 것과 정밀한 행동 생성을 안내하기에 충분한 세부 정보를 보존하는 것 사이의 균형을 맞추는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 미래 관측을 행동 추론 파이프라인에 주입하여 간결한 조건으로 매핑하는 WoG(World Guidance) 프레임워크를 제안합니다. VLA는 이러한 압축된 조건을 미래 행동과 함께 동시에 예측하도록 훈련되어, 행동 추론을 위한 조건 공간 내에서 효과적인 세계 모델링을 달성합니다. 우리는 이 조건 공간을 모델링하고 예측하는 것이 세부적인 행동 생성을 용이하게 할 뿐만 아니라 뛰어난 일반화 능력을 보인다는 것을 입증합니다. 또한, 이 방법은 방대한 인간 조작 비디오로부터 효과적으로 학습합니다. 시뮬레이션과 실제 환경에서의 광범위한 실험을 통해 우리의 방법이 미래 예측에 기반한 기존 방법들을 크게 능가함을 검증합니다. 프로젝트 페이지는 https://selen-suyue.github.io/WoGNet/에서 확인할 수 있습니다.
지시 기반 이미지 편집은 의미론적 정렬에서 놀라운 성과를 거두었지만, 굴절이나 물질 변형과 같은 복잡한 인과적 역학을 포함하는 편집 작업에서 최첨단 모델들은 종종 물리적으로 타당한 결과를 생성하는 데 실패합니다. 우리는 이러한 한계를 이미지 쌍 간의 이산적 매핑으로 편집을 처리하는 기존 패러다임에서 기인한다고 분석합니다. 이 방식은 경계 조건만을 제공하고 전이 역학을 불충분하게 규정합니다. 이를 해결하기 위해 우리는 물리 인식 편집을 예측적 물리 상태 전이로 재정의하고, 2단계 필터링 및 제약 조건 인식 주석 파이프라인을 통해 구축된 5개 물리 영역에 걸친 38,000개의 전이 궤적으로 구성된 대규모 비디오 기반 데이터셋인 PhysicTran38K를 소개합니다. 이러한 지도를 바탕으로 우리는 텍스트-시각 이중 사고 메커니즘을 갖춘 종단간 프레임워크인 PhysicEdit를 제안합니다. 이 프레임워크는 물리 기반 추론을 위한 고정된 Qwen2.5-VL과 확산 백본에 시간 단계 적응형 시각 지도를 제공하는 학습 가능한 전이 쿼리를 결합합니다. 실험 결과, PhysicEdit는 물리적 현실성에서 Qwen-Image-Edit 대비 5.9%, 지식 기반 편집에서 10.1% 향상된 성능을 보여 오픈소스 방법론의 새로운 최첨단 기술을确立하면서도 주요 사유 모델들과 경쟁력을 유지합니다.
Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.
대규모 언어 모델(LLM)은 자신이 아는 것을 어떻게 알게 될까요? 사전 학습 데이터가 종종 알려지지 않거나 접근 불가능한 '블랙박스' 상태이기 때문에 이 질문에 답하는 것은 어려운 과제였습니다. 최근 공개된 nanochat—완전히 공개된 사전 학습 데이터를 가진 소규모 LLM 패밀리—은 모델의 파라미터적 지식이 어디서 비롯되는지에 대한 투명한 시각을 제공함으로써 이 문제를 해결합니다. LLM이 지식을 어떻게 인코딩하는지 이해하는 목표를 위해, 우리는 Natural Questions와 SQuAD의 질문들을 nanochat의 사전 학습 코퍼스에 답변이 존재하는지 여부에 따라 분할한 벤치마크 데이터셋인 NanoKnow를 공개합니다. 이러한 분할을 통해 우리는 이제 LLM이 출력을 생성할 때 의존하는 지식의 원천을 명확히 구분할 수 있습니다. NanoKnow의 유용성을 입증하기 위해 우리는 8개의 nanochat 체크포인트를 사용하여 실험을 수행했습니다. 우리의 연구 결과는 다음과 같습니다: (1) 폐쇄형 책(closed-book) 정확도는 사전 학습 데이터 내 답변 빈도에 크게 영향을 받으며, (2) 외부 증거를 제공하면 이 빈도 의존성을 완화할 수 있고, (3) 외부 증거가 제공되더라도 사전 학습期间 답변을 본 경우 모델의 정확도가 더 높아 파라미터적 지식과 외부 지식이 상호 보완적임을 보여주며, (4) 관련 없는 정보는 해롭고, 정확도는 관련 없는 컨텍스트의 위치와 수에 따라 감소합니다. 우리는 모든 NanoKnow 아티팩트를 https://github.com/castorini/NanoKnow 에서 공개합니다.
확산 모델은 시각적 생성에 있어 강력한 기반 기술이지만, 본질적으로 순차적인 노이즈 제거 과정으로 인해 추론 속도가 느립니다. 기존 방법들은 인접 타임스텝 간의 특징 거리를 기반으로 중간 출력을 캐싱 및 재사용하여 샘플링을 가속화해왔습니다. 그러나 기존 캐싱 전략은 일반적으로 콘텐츠와 노이즈가 뒤섞인 원시 특징 차이에 의존합니다. 이러한 설계는 저주파 구조가 먼저 나타나고 고주파 디테일이 후반에 정교해지는 스펙트럼 진화 과정을 간과합니다. 본 논문에서는 재사용 결정을 스펙트럼 정렬 표현에 기반하여 내리는 학습이 필요 없는 캐싱 스케줄인 Spectral-Evolution-Aware Cache(SeaCache)를 제안합니다. 이론적 및 실증적 분석을 통해 콘텐츠 관련 구성 요소는 보존하면서 노이즈는 억제하는 Spectral-Evolution-Aware(SEA) 필터를 도출합니다. SEA 필터링된 입력 특징을 사용하여 중복성을 추정하면, 확산 모델의 기본 스펙트럼 사전 지식을 존중하면서 콘텐츠에 적응하는 동적 스케줄을 생성할 수 있습니다. 다양한 시각 생성 모델과 베이스라인에 대한 폭넓은 실험을 통해 SeaCache가 최첨단 지연 시간-품질 트레이드오프를 달성함을 입증합니다.
최근 3D 가우시안 스플래팅(3DGS) 드롭아웃 방법론들은 가우시안 불투명도를 무작위로 무효화하여 희소 시점 조건에서의 과적합을 해결하고자 합니다. 그러나 본 연구에서는 이러한 기법들에서 이웃 보상 효과를 확인했습니다: 제거된 가우시안들이 주변 이웃들에 의해 종종 보상되어, 의도된 정규화 효과가 약화되는 현상입니다. 더욱이, 기존 방법들은 과적합에 대한 고차 구면 조화 계수(Spherical Harmonic, SH)의 기여도를 간과했습니다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 새로운 앵커 기반 드롭아웃 전략인 DropAnSH-GS를 제안합니다. 우리의 방법은 가우시안들을 독립적으로 제거하는 대신, 특정 가우시안들을 앵커로 무작위 선정하고 그 공간적 이웃들을 함께 제거합니다. 이는 앵커 주변의 지역적 중복성을 효과적으로 차단하여 모델이 더욱 강건하고 전역 정보를 반영한 표현을 학습하도록 유도합니다. 나아가, 우리는 드롭아웃을 색상 속성으로 확장하여 고차 SH 성분을 무작위로 제거함으로써 외관 정보가 저차 SH에 집중되도록 합니다. 이 전략은 과적합을 추가적으로 완화하고 SH 절단을 통한 훈련 후 유연한 모델 압축을 가능하게 합니다. 실험 결과, DropAnSH-GS는 무시할 만한 계산 오버헤드로 기존 드롭아웃 방법들을 크게 능가하며, 다양한 3DGS 변형 모델에 쉽게 통합되어 성능을 향상시킬 수 있음을 입증합니다. 프로젝트 웹사이트: https://sk-fun.fun/DropAnSH-GS
이산 확산 모델은 자동회귀 언어 모델의 강력한 대안으로 부상했으며, 최근 연구에서는 기반 단일 모달리티 모델을 초기화하여 이중 모달리티 생성을 위해 미세 조정하는 접근법이 등장했습니다. 기존 접근법과 차별화되게, 본 연구에서는 텍스트, 이미지-텍스트, 오디오-텍스트 데이터를 처음부터 사전 학습한 최초의 삼중 모달리티 마스크 확산 모델을 소개합니다. 우리는 다중 모달리티 확장 법칙, 모달리티 혼합 비율, 노이즈 스케줄 및 배치 크기 효과를 체계적으로 분석하고 최적화된 추론 샘플링 기본값을 제시합니다. 배치 크기 분석을 통해 최근 연구에서 보고된 최적 배치 크기 조정 필요성을 제거하는 새로운 확률미분방정식(SDE) 기반 재매개변수화 방식을 도출했습니다. 이 재매개변수화는 일반적으로 컴퓨팅 제약(GPU 포화, FLOP 효율성, 경과 시간)에 따라 선택되는 물리적 배치 크기와 확률적 최적화 과정에서 기울기 분산을 균형 있게 조정하기 위해 선택되는 논리적 배치 크기를 분리합니다. 마지막으로, 우리는 6.4T 토큰으로 구성된 데이터로 30억 매개변수 규모의 예비 삼중 모달리티 모델을 사전 학습하여 통합 설계의 가능성을 입증하고 텍스트 생성, 텍스트-이미지 변환, 텍스트-음성 변환 과제에서 강력한 성능을 달성했습니다. 본 연구는 현재까지 진행된 다중 모달리티 이산 확산 모델에 대한 가장 대규모의 체계적 공개 연구로서, 다중 모달리티 간 확장 동향에 대한 통찰을 제공합니다.
딥 리서치는 광범위한 오픈 웹 탐색을 통해 복잡한 질의를 해결하는 것을 목표로 하는 중요한 과제로 부상했습니다. 이를 해결하기 위해 기존 연구의 대부분은 대규모 언어 모델(LLM) 기반 에이전트에 불투명한 웹 검색 API를 장착하여, 에이전트가 반복적으로 검색 질의를 발행하고 외부 증거를 검색하며 이를 추론할 수 있도록 합니다. 딥 리서치에서 검색의 역할이 필수적임에도 불구하고, 블랙박스 형태의 웹 검색 API는 검색 구성 요소에 대한 체계적인 분석을 방해하여, 딥 리서치 환경에서 기존 텍스트 랭킹 방법들의 동작 방식을 대체로 불명확하게 남겨둡니다. 이러한 공백을 메우기 위해, 우리는 딥 리서치 환경에서 정보 검색(IR) 텍스트 랭킹 방법들에 대한 주요 연구 결과와 모범 사례 중 일부를 재현합니다. 특히 우리는 (i) 검색 단위(문서 대 문단), (ii) 파이프라인 구성(서로 다른 검색기, 재정렬기, 재정렬 깊이), (iii) 질의 특성(에이전트가 발행한 질의와 텍스트 랭커의 학습 질의 간 불일치)이라는 세 가지 관점에서 그 효과성을 검토합니다. 고정된 코퍼스를 가진 딥 리서치 데이터셋인 BrowseComp-Plus에서 실험을 수행하며, 다양한 설정 하에 2개의 오픈소스 에이전트, 5개의 검색기, 3개의 재정렬기를 평가합니다. 우리는 에이전트가 발행한 질의가 일반적으로 웹 검색 스타일의 구문(예: 따옴표로 묶인 정확일치)을 따르며, 어휘 기반, 학습된 희소, 다중 벡터 검색기에 유리함을 발견했습니다. 문단 수준 단위는 제한된 컨텍스트 윈도우 하에서 더 효율적이며, 어휘 검색에서 문서 길이 정규화의 어려움을 회피합니다. 재정렬은 매우 효과적이며, 에이전트가 발행한 질의를 자연어 질문으로 변환하는 것은 질의 불일치 문제를 상당히 완화합니다.
Model Context Protocol(MCP)은 파운데이션 모델(FM) 기반 에이전트가 도구 호출을 통해 외부 시스템과 상호작용하는 방식을 정의하는 표준 사양을 제시합니다. 그러나 FM은 도구의 목적과 기능을 이해하기 위해 자연어 도구 설명에 의존하므로, 이러한 설명은 FM이 주어진 (하위)작업에 최적의 도구를 선택하고 적절한 인수를 도구에 전달하도록 안내하는 중요한 구성 요소입니다. 이러한 설명에 결함이나 문제가 있는 경우 FM 기반 에이전트를 오도할 수 있지만, MCP 생태계 내에서 이러한 문제의 보편성과 결과는 여전히 불분명합니다. 이에 우리는 103개의 MCP 서버에 분포된 856개 도구를 실증적으로 조사하고, 그 설명의 품질과 에이전트 성능에 미치는 영향을 평가합니다. 우리는 문헌에서 도구 설명의 6가지 구성 요소를 식별하고, 이러한 구성 요소를 활용한 채점 기준을 개발한 후, 이 기준을 바탕으로 도구 설명 문제를 형식화합니다. FM 기반 스캐너를 통해 이 기준을 운영화한 결과, 분석된 도구 설명의 97.1%가 적어도 하나의 문제를 포함하고 있으며, 56%는 자신의 목적을 명확히 밝히지 못하는 것으로 나타났습니다. 이러한 설명을 모든 구성 요소에 대해 보강할 경우 작업 성공률이 중앙값 기준 5.85%p, 부분 목표 달성률이 15.12% 개선되지만, 실행 단계 수는 67.46% 증가하고 16.67%의 사례에서 성능이 저하되었습니다. 이러한 결과는 성능 향상을 달성하는 것이 단순하지 않음을 시사합니다. 실행 비용이 트레이드오프 역할을 할 수 있는 반면, 실행 컨텍스트도 영향을 미칠 수 있습니다. 더 나아가, 구성 요소 제거 실험을 통해 서로 다른 구성 요소 조합의 간결한 변형이 종종 행동 신뢰성을 유지하면서 불필요한 토큰 오버헤드를 줄여 FM 컨텍스트 창을 더 효율적으로 사용하고 실행 비용을 낮출 수 있음을 보여줍니다.
비디오 파운데이션 모델은 비디오 이해, 생성, 편집 및 지시 따르기를 단일 프레임워크로 통합하여 차세대 멀티모달 시스템의 핵심 방향으로 부상하고 있습니다. 그러나 기존 평가 벤치마크는 단일 작업을 대상으로 하고, 작업별 메트릭에 의존하며, 일반적으로 짧거나 단순한 비디오 클립을 사용함에 따라 분열되어 있고 범위가 제한적입니다. 결과적으로 이러한 모델이 제공하도록 설계된 통합 능력을 제대로 평가하지 못하고 있습니다. 이러한 격차를 해결하기 위해 본 논문에서는 비디오 이해, 비디오 생성, 비디오 편집 및 모델이 접한 비디오 콘텐츠를 얼마나 정확하게 재현하는지 평가하는 새로 제안된 작업인 비디오 재구성이라는 네 가지 핵심 능력에 걸쳐 비디오 파운데이션 모델을 평가하기 위해 특별히 구축된 벤치마크인 UniVBench을 소개합니다. 당사의 벤치마크는 고품질의 다양하고 멀티샷으로 구성된 200개의 비디오와 각각에 대한 상세한 캡션, 다양한 형식의 편집 지침, 참조 이미지를 포함하여 평가의 복잡성을 크게 확장합니다. 모든 비디오는 인간이 제작하고 신중하게 검증되어 기존 벤치마크보다 풍부한 시네마틱 정보를 제공합니다. 또한 모든 작업에 걸쳐 프롬프팅, 지침 파싱 및 채점을 표준화하는 통합 에이전트 평가 시스템(UniV-Eval)을 개발하여 통합 비디오 모델의 공정하고 확장 가능하며 재현 가능한 비교를 가능하게 합니다. 지시 기반 멀티샷 비디오 작업에 기반한 평가를 통해 UniVBench은 비디오 파운데이션 모델이 달성하고자 하는 통합 능력을 측정하는 최초의 프레임워크를 제공합니다. 광범위한 인간 주해를 통해 평가가 인간의 판단과 일치하도록 하여 엄격한 평가를 가능하게 하고 강건한 비디오 인텔리전스 발전을 가속화합니다.
우리는 널리 사용되는 AI 안전 데이터셋의 품질을 두 가지 관점에서 체계적으로 평가한다: 단독 평가와 실전 평가다. 단독 평가에서는 이러한 데이터셋이 실제 적대적 공격을 얼마나 잘 반영하는지 세 가지 핵심 속성(은폐된 의도를 동기로 함, 정교하게 제작됨, 분포 외 데이터 특성)을 기준으로 검토한다. 분석 결과, 이 데이터셋들은 안전 메커니즘을 명시적으로 작동시키도록 의도된 노골적인 부정/민감 함의를 지닌 단어나 구절인 "촉발 신호"에 지나치게 의존하며, 이는 실제 공격과 비교해 비현실적임을 발견했다. 실전 평가에서는 이 데이터셋이 진정으로 안전 위험을 측정하는지, 아니면 단순히 촉발 신호를 통해 모델의 거부 반응만 유발하는지 평가한다. 이를 탐구하기 위해 우리는 "의도 세탁" 기법을 도입한다: 이는 적대적 공격(데이터 포인트)에서 촉발 신호를 추상화하여 제거하는 동시에 그 악의적 의도와 모든 관련 세부 사항을 엄격히 보존하는 절차다. 우리의 결과는 현재의 AI 안전 데이터셋이 촉발 신호에 대한 과도한 의존으로 인해 실제 적대적 행동을 충실히 반영하지 못함을 보여준다. 이러한 신호가 제거되면, 이전에 "합리적으로 안전하다" 평가받았던 모든 모델(Gemini 3 Pro 및 Claude Sonnet 3.7 포함)이 불안전해진다. 더 나아가, 의도 세탁을 탈옥 기법으로 적용할 경우 완전한 블랙박스 접근 조건에서 90%에서 98% 이상의 높은 공격 성공률을 지속적으로 달성한다. 전반적으로, 우리의 연구 결과는 기존 데이터셋에 의한 모델 안전성 평가 방식과 실제 공격자의 행동 방식 사이에 상당한 괴리가 있음을 폭로한다.
객체 환각은 대규모 시각-언어 모델(LVLM)에서 입력 이미지에 존재하지 않는 객체를 출력에 포함하는 중요한 문제입니다. 이러한 현상에서 자연스럽게 제기되는 질문은 LVLM 파이프라인의 어떤 구성 요소가 객체 환각에 주로 기여하는가입니다. 시각 정보를 인지하는 비전 인코더일까요, 아니면 텍스트 응답을 생성하는 언어 디코더일까요? 본 연구에서는 환각 생성 과정에서 비전 인코더와 언어 디코더의 역할을 분석하기 위한 체계적인 실험을 설계하여 이 질문에 답하고자 합니다. 우리의 관찰 결과, 객체 환각은 주로 언어 디코더의 강력한 사전 지식과 연관되어 있음을 확인했습니다. 이러한 발견을 바탕으로 우리는 언어 디코더의 사전 지식을 동적으로 억제하여 출력 분포를 정제하는 간단한 학습 불요(訓練不要) 프레임워크인 No-Language-Hallucination Decoding(NoLan)을 제안합니다. 이때 억제 강도는 다중모달 입력과 텍스트 전용 입력 간의 출력 분포 차이를 기반으로 조절됩니다. 실험 결과, NoLan이 다양한 LVLM에서 여러 작업에 걸쳐 객체 환각을 효과적으로 감소시키는 것으로 나타났습니다. 예를 들어, NoLan은 POPE 평가에서 LLaVA-1.5 7B와 Qwen-VL 7B의 정확도를 각각 최대 6.45 및 7.21까지 크게 향상시켰습니다. 코드는 https://github.com/lingfengren/NoLan에서 공개되어 있습니다.
현재 오디오-비주얼 대규모 언어 모델(AV-LLM)은 RGB 비디오와 모노럴 오디오에 의존한 2차원 인식에 주로 제한되어 있습니다. 이러한 설계 선택은 복잡한 3차원 환경에서 신뢰할 수 있는 음원 위치 추정 및 공간 추론을 방해하는 근본적인 차원 불일치 문제를 초래합니다. 본 연구는 이러한 한계를 해결하기 위해 AV-LLM을 3차원 공간으로 확장하여 RGB-D 관측 데이터와 다중 채널 퍼스터더 앰비소닉스를 통합함으로써 공간 기반 결합 및 추론을 가능하게 하는 JAEGER 프레임워크를 제안합니다. 우리 연구의 핵심 기여는 신경 강도 벡터(Neural IV)로, 겹치는 음원이 존재하는 불리한 음향 환경에서도 도달 방향 추정 성능을 향상시키기 위해 강력한 방향 정보를 인코딩하는 학습된 공간 오디오 표현법입니다. 대규모 학습과 체계적인 평가를 위해, 시뮬레이션된 물리 환경에서 추출한 61,000개의 지시 튜닝 샘플로 구성된 벤치마크인 SpatialSceneQA를 제안합니다. 다양한 공간 인식 및 추론 과제에서 우리의 접근 방식이 2차원 중심 기준 모델들을 일관되게 능가함을 광범위한 실험을 통해 입증하며, 물리 환경에서의 AI 발전을 위해 명시적 3차원 모델링이 필수적임을 강조합니다. 본 논문의 승인 시 소스 코드, 사전 학습된 모델 체크포인트 및 데이터셋을 공개할 예정입니다.
비정상 시계열 데이터 분석은 물리적 해석 가능성을 바탕으로 국부적 및 전역적 패턴에 대한 통찰이 필요합니다. 그러나 B-스플라인, Savitzky-Golay 필터링, 경험적 모드 분해(EMD)와 같은 기존의 평활화 알고리즘들은 연속성이 보장된 매개변수 최적화를 수행할 능력이 부족합니다. 본 논문에서는 다양한 수학적 함수에 대해 매개변수 기반의 연속 최적화를 수행하는 JAX 가속 프레임워크인 함수적 연속 분해(FCD)를 제안합니다. FCD는 Levenberg-Marquardt 최적화를 사용하여 최대 C^1 연속성 피팅을 달성함으로써, 단기적 패턴부터 장기적 경향까지 포착하는 M개의 모드로 원본 시계열 데이터를 변환합니다. FCD의 적용 분야로는 물리학, 의학, 금융 분석, 기계 학습이 있으며, 신호의 시간적 패턴 분석, 분해의 최적화된 매개변수, 미분 및 적분 값 분석에 일반적으로 사용됩니다. 더 나아가 FCD는 평균 세그먼트 SRMSE 0.735, 1,000개 포인트 전체 분해 소요 시간 0.47초의 성능으로 물리적 분석 및 특징 추출에 적용 가능합니다. 마지막으로, 최적화된 함수 값, 매개변수, 미분값과 같은 FCD 특징으로增强된 합성곱 신경망(CNN)이 표준 CNN 대비 수렴 속도 16.8% 향상 및 정확도 2.5% 향상을 달성함을 입증합니다.
의료 기록에서 임상 정보를 추출하는 것은 저자원 언어 환경에서 자연어 처리(NLP)의 중요한 과제로 남아 있습니다. 본 연구는 페르시아어-영어 번역 모델로 Aya-expanse-8B를 사용하고, 암 완화 의료 콜센터에서 수집된 1,221개의 익명화된 페르시아어 기록으로부터 13가지 임상 특징을 이진 추출하기 위해 5개의 오픈소스 소형 언어 모델(SLM) — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct, Gemma-3-1B-it — 을 결합한 2단계 파이프라인을 평가합니다. 미세 조정 없이 소수 샷 프롬프팅 전략을 사용하여, 클래스 불균형을 고려한 매크로 평균 F1-점수, 매튜스 상관 계수(MCC), 민감도 및 특이도로 모델 성능을 평가했습니다. Qwen2.5-7B-Instruct가 가장 높은 전반적 성능(중앙값 매크로-F1: 0.899; MCC: 0.797)을 보인 반면, Gemma-3-1B-it은 가장 낮은 성능을 나타냈습니다. 대형 모델(7B–8B 매개변수)은 민감도와 MCC에서 일관되게 소형 모델보다 우수한 성능을 보였습니다. Aya-expanse-8B에 대한 이중 언어 분석 결과, 페르시아어 기록을 영어로 번역하면 민감도가 향상되고 누락된 출력이 줄어들며 클래스 불균형에 강건한 지표가 향상되었지만, 특이도와 정밀도가 약간 낮아지는 비용이 발생하는 것으로 나타났습니다. 특징 수준의 결과에서는 대부분의 모델에서 생리학적 증상을 안정적으로 추출한 반면, 심리적 불편감, 행정적 요청, 복잡한 신체적 특징은 여전히 추출이 어려운 것으로 나타났습니다. 이러한 결과는 제한된 인프라와 주석 리소스를 가진 다국어 임상 NLP 환경에서 오픈소스 SLM을 배치하기 위한 실용적이고 개인정보를 보호하는 청사진을 제시하며, 민감한 의료 응용 프로그램을 위해 모델 규모와 입력 언어 전략을 함께 최적화하는 것의 중요성을 강조합니다.
대규모 언어 모델(LLM)이 사실성을 선형적으로 인코딩한다는 보고가 있었으나, 최근 연구에서는 이 발견의 일반성을 의문시하고 있습니다. 우리는 이러한 관점을 '사실성 스펙트럼 가설'로 조화시킵니다. 즉, 표현 공간에는 광범위한 도메인 일반적 방향부터 좁은 도메인 특정적 방향에 이르기까지 다양한 방향성이 존재한다는 가설입니다. 이 가설을 검증하기 위해 우리는 다섯 가지 사실 유형(정의적, 경험적, 논리적, 허구적, 윤리적), 아척성 및 기대 반전 거짓말, 그리고 기존의 정직성 벤치마크에 걸쳐 프로브 일반화를 체계적으로 평가합니다. 선형 프로브는 대부분의 도메인에서 잘 일반화되지만, 아척성 및 기대 반전 거짓말에서는 실패합니다. 그러나 모든 도메인을 함께 훈련하면 강력한 성능이 회복되며, 이는 쌍별 전이가 낮음에도 불구하고 도메인 일반적 방향이 존재함을 확인시켜 줍니다. 프로브 방향의 기하학적 구조는 이러한 패턴을 설명합니다. 프로브 간의 마할라노비스 코사인 유사도는 도메인 간 일반화를 거의 완벽하게 예측합니다(R^2=0.98). 개념 제거 방법을 통해 (1) 도메인 일반적, (2) 도메인 특정적, 또는 (3) 특정 도메인 하위 집합에서만 공유되는 사실 방향을 추가로 분리해냅니다. 인과적 개입을 통해 도메인 특정적 방향이 도메인 일반적 방향보다 효과적으로 조정됨을 확인합니다. 마지막으로, 사후 훈련은 사실성 기하학을 재구성하여 아척성 거짓말을 다른 사실 유형으로부터 더 멀리 밀어내며, 이는 채팅 모델의 아척성 경향에 대한 표현적 기반을 시사합니다. 종합적으로, 우리의 결과는 사실성 스펙트럼 가설을 지지합니다. 즉, 다양한 일반성을 가진 사실 방향들이 표현 공간에 공존하며, 사후 훈련이 이들의 기하학적 구조를 재형성한다는 것입니다. 모든 실험에 대한 코드는 https://github.com/zfying/truth_spec에서 제공됩니다.
우리는 실제 추론 최적화 작업에서 코딩 에이전트의 능력을 테스트하기 위한 벤치마크인 ISO-Bench를 소개합니다. 이 작업들은 가장 인기 있는 LLM 서빙 프레임워크 중 두 가지인 vLLM과 SGLang에서 가져왔습니다. 각 작업은 에이전트에게 코드베이스와 병목 현상에 대한 설명을 제공하며, 에이전트는 전문가의 인간 솔루션과 비교하여 평가되는 최적화 패치를 생성해야 합니다. 우리는 측정 가능한 성능 향상이 있는 병합된 풀 리퀘스트에서 54개의 작업을 선별했습니다. 기존 벤치마크가 런타임 기반 메트릭을 많이 사용하지만, 이러한 접근 방식은 코드 변경의 실제 의도를 파악하지 못한 채 테스트를 통과하도록 조작될 수 있습니다. 따라서 우리는 하드(실행 기반) 메트릭과 소프트(LLM 기반) 메트릭을 결합하여 완전한 평가를 위해 둘 다 필요함을 보여줍니다. 클로즈드 소스 및 오픈 소스 코딩 에이전트를 모두 평가한 결과, 단일 에이전트가 모든 코드베이스에서 우월하지 않다는 것을 발견했습니다. 놀랍게도, 에이전트들은 종종 올바른 병목 현상을 식별하지만 작동하는 솔루션을 실행하는 데는 실패합니다. 또한 동일한 기본 모델을 가진 에이전트들도 상당한 차이를 보여주며, 이는 스캐폴딩이 모델만큼 중요함을 시사합니다.
우리는 관성 측정 장치(IMU) 신호와 비디오에서 추출한 2D 자세 시퀀스 간의 공동 표현을 학습하여 정확한 크로스모달 검색, 시간적 동기화, 대상 및 신체 부위 위치 추정, 행동 인식을 가능하게 하는 것을 목표로 합니다. 이를 위해 세 가지 과제를 해결하도록 설계된 계층적 대조 학습 프레임워크인 MoBind을 소개합니다: (1) 무관한 시각적 배경 필터링, (2) 구조화된 다중 센서 IMU 구성 모델링, (3) 세밀한 서브-초 단위 시간 정렬 달성. MoBind은 모션 관련 신호를 분리하기 위해 원시 픽셀이 아닌 골격 모션 시퀀스와 IMU 신호를 정렬합니다. 또한 전신 모션을 신체 부위별 궤적으로 분해하여 각각을 해당 IMU와 짝지어 의미론적으로 근거된 다중 센서 정렬을 가능하게 합니다. 세밀한 시간적 대응 관계를 포착하기 위해 MoBind는 토큰 수준의 시간 세그먼트를 먼저 정렬한 후, 지역적(신체 부위) 정렬과 전역적(전신) 모션 집계를 융합하는 계층적 대조 전략을 채택합니다. mRi, TotalCapture, EgoHumans 데이터셋에서 평가한 결과, MoBind는 네 가지 과제 모두에서 강력한 기준 모델을 일관되게 능가하며, 모달리티 간의 거시적 의미 일관성을 유지하면서도 견고한 세밀한 시간 정렬 성능을 입증했습니다. 코드는 https://github.com/bbvisual/MoBind에서 확인할 수 있습니다.
디퓨전 모델은 최근 역문제 해결을 위한 강력한 사전 확률 모델로 부상하고 있습니다. 컴퓨터 단층촬영(CT)은 이론적으로 선형 역문제에 해당하지만, 여러 실질적인 어려움을 내포하고 있습니다. 이에는 상관관계 잡음, 인공 산물 구조, 시스템 기하학에 대한 의존성, 그리고 잘못 정렬된 값 범위 등이 포함되며, 이러한 요소들로 인해 디퓨전 모델의 직접적인 적용이 자연 영상 생성과 같은 분야에 비해 더욱 복잡해집니다. 이러한 맥락에서 디퓨전 모델의 성능을 체계적으로 평가하고 기존 재구성 방법과 비교하기 위해, 우리는 CT 재구성을 위한 포괄적인 벤치마크인 DM4CT를 소개합니다. DM4CT는 희소-뷰 및 잡음 환경을 포함하는 의료 및 산업 영역의 데이터셋을 포함합니다. 디퓨전 모델의 실전 적용 과제를 탐구하기 위해, 우리는 추가로 고에너지 싱크로트론 시설에서 고해상도 CT 데이터셋을 취득하고 실제 실험 조건 하에서 모든 방법을 평가합니다. 우리는 모델 기반, 비지도, 지도 학습 접근법을 포함한 7개의 강력한 기준 방법들과 함께 최근 10개의 디퓨전 기반 방법을 벤치마크합니다. 우리의 분석은 CT 재구성을 위한 디퓨전 모델의 동작 방식, 강점 및 한계에 대한 상세한 통찰을 제공합니다. 실제 세계 데이터셋은 zenodo.org/records/15420527에서 공개되어 있으며, 코드베이스는 github.com/DM4CT/DM4CT에서 오픈소스로 제공됩니다.
풍자 감지는 문자적 의미와 의도된 의미 간의 차이를 해결해야 하므로 계산 의미론에서 근본적인 과제로 대두됩니다. 이 과제는 주석이 달린 데이터셋이 부족하거나 존재하지 않는 저자원 언어에서는 더욱 복잡해집니다. 본 논문에서는 5천만 명 이상이 사용하는 성조계 니제르-콩고어인 요루바어의 풍자 감지를 위한 최초의 골드 스탠더드 데이터셋인 Yor-Sarc를 소개합니다. 이 데이터셋은 문화적 맥락을 고려하여 요루바어 풍자에 특화된 주석 프로토콜을 통해 다양한 방언 배경을 가진 세 명의 원어민이 주석을 단 436개의 인스턴스로 구성됩니다. 해당 프로토콜은 맥락에 민감한 해석과 지역사회 기반 지침을 포함하며, 다른 아프리카 언어로의 재현을 지원하기 위해 주석자 간 일치도에 대한 포괄적인 분석을 동반합니다. 상당한 수준에서 거의 완벽에 가까운 일치도(Fleiss' κ=0.7660; pairwise Cohen's κ=0.6732–0.8743)가 달성되었으며, 83.3%에서 만장일치를 보였습니다. 한 주석자 쌍은 거의 완벽한 일치도(κ=0.8743; 원본 일치도 93.8%)를 달성하여 영어 풍자 연구에서 보고된 여러 벤치마크를 넘어섰습니다. 나머지 16.7%의 다수 합의 사례는 불확실성 인지 모델링을 위한 소프트 레이블로 보존됩니다. Yor-Sarc(https://github.com/toheebadura/yor-sarc)는 저자원 아프리카 언어에 대한 의미론적 해석 및 문화 기반 자연어 처리 연구의 촉진이 기대됩니다.