번역이 포함된 일일 선별된 AI 연구 논문
기존 깊이 추정 방법들은 근본적으로 이산적인 이미지 격자에서 깊이를 예측하는 데 한계가 있습니다. 이러한 표현 방식은 임의의 출력 해상도로의 확장성을 제한하고 기하학적 디테일 복원을 방해합니다. 본 논문은 깊이를 신경 암시적 필드로 표현하는 InfiniDepth를 소개합니다. 간단하면서도 효과적인 지역 암시적 디코더를 통해 연속적인 2D 좌표에서 깊이를 조회할 수 있어 임의의 해상도와 정밀한 깊이 추정이 가능합니다. 우리 방법의 성능을 더욱 효과적으로 평가하기 위해 5가지 서로 다른 게임에서 다양한 장면과 풍부한 기하학적 및 외형 디테일을 포함한 고품질 4K 합성 벤치마크를 구축했습니다. 폭넓은 실험을 통해 InfiniDepth가 상대적 및 절대적 깊이 추정 과제에서 합성 및 실세계 벤치마크 모두에서 최첨단 성능을 달성하며, 특히 미세 디테일 영역에서 뛰어난 성과를 보임을 입증했습니다. 또한 큰 시점 변화 하에서의 새로운 시점 합성 과제에도 효과적이며, 더 적은 결함과 인공 흔적로 고품질 결과를 생성합니다.
화자 귀속 시간 표기 전사(SATS)는 발화 내용을 전사하고 각 화자의 정확한 발화 시점을 결정하는 것을 목표로 하며, 특히 회의 전사에 있어 가치가 높습니다. 기존 SATS 시스템은 종단간 방식으로 구성되는 경우가 드물 뿐만 아니라 제한된 컨텍스트 윈도우, 취약한 장기간 화자 기억 능력, 타임스탬프 출력 불가능 등의 한계에 직면해 있습니다. 이러한 한계를 해결하기 위해 우리는 종단간 패러다임으로 화자 귀속 시간 표기 전사를 통합적으로 수행하는 통합 멀티모달 대규모 언어 모델인 MOSS Transcribe Diarize를 제안합니다. 방대한 실제 데이터로 훈련되고 최대 90분 입력을 처리하는 128k 컨텍스트 윈도우를 갖춘 MOSS Transcribe Diarize는 확장성이 뛰어나고 강력한 일반화 성능을 보입니다. 포괄적인 평가에서 본 모델은 여러 공개 및 내부 벤치마크에서 최신 상용 시스템들을 능가하는 성능을 나타냈습니다.
최근의 텍스트-비디오 확산 모델은 매력적인 비디오 시퀀스를 생성할 수 있지만, 여전히 무음 상태입니다. 이는 오디오가 제공하는 의미론적, 정서적, 분위기적 단서가 부족함을 의미합니다. 우리는 통합된 방식으로 고품질의 시간적 동기화가 된 오디오비주얼 콘텐츠를 생성할 수 있는 오픈소스 기반 모델인 LTX-2를 소개합니다. LTX-2는 140억 개의 매개변수를 가진 비디오 스트림과 50억 개의 매개변수를 가진 오디오 스트림으로 구성된 비대칭 이중 스트림 트랜스포머로, 시간적 위치 임베딩과 공유 timestep 조건화를 위한 교차 모달리티 AdaLN을 갖춘 양방향 오디오-비디오 교차 주의 계층을 통해 결합됩니다. 이 아키텍처는 오디오 생성보다 비디오 생성에 더 많은 용량을 할당하면서도 통합 오디오비주얼 모델의 효율적인 학습과 추론을 가능하게 합니다. 우리는 더 넓은 프롬프트 이해를 위해 다국어 텍스트 인코더를 사용하며, 개선된 오디오비주얼 정렬과 제어 가능성을 위한 모달리티 인식 classifier-free guidance(modality-CFG) 메커니즘을 도입했습니다. LTX-2는 음성 생성을 넘어, 각 장면의 등장인물, 환경, 스타일, 감정을 따라가는 풍부하고 일관된 오디오 트랙(자연스러운 배경음과 폴리 효과를 포함)을 생성합니다. 평가 결과, 본 모델은 오픈소스 시스템 중에서 최첨단의 오디오비주얼 품질과 프롬프트 준수도를 달성했으며, 독점 모델에 필적하는 결과를 훨씬 낮은 계산 비용과 추론 시간으로 제공합니다. 모든 모델 가중치와 코드는 공개되었습니다.
SciEvalKit은 다양한 과학 분야와 과제 역량에 걸쳐 AI 모델의 과학 능력을 평가하기 위해 설계된 통합 벤치마킹 툴킷을 소개합니다. 일반 목적의 평가 플랫폼과 달리, SciEvalKit은 과학적 다중모드 인지, 과학적 다중모드 추론, 과학적 다중모드 이해, 과학적 기호 추론, 과학적 코드 생성, 과학 가설 생성 및 과학적 지식 이해를 포함한 과학 지능의 핵심 역량에 중점을 둡니다. 이 툴킷은 물리학, 화학부터 천문학, 재료과학에 이르기까지 6대 주요 과학 영역을 지원합니다. SciEvalKit은 실제 현실의 영역 특화 데이터셋에서 엄선하여 과제가 진정한 과학적 도전 과제를 반영하도록 보장하는 전문가 수준의 과학 벤치마크 기반을 구축합니다. 본 툴킷은 유연하고 확장 가능한 평가 파이프라인을 특징으로 하며, 모델 및 데이터셋 간 일괄 평가를 가능하게 하고, 사용자 정의 모델 및 데이터셋 통합을 지원하며, 투명하고 재현 가능하며 비교 가능한 결과를 제공합니다. 역량 기반 평가와 학제적 다양성을 연결함으로써 SciEvalKit은 차세대 과학 기초 모델 및 지능형 에이전트를 벤치마크하기 위한 표준화되었으면서도 사용자 정의가 가능한 인프라를 제공합니다. 이 툴킷은 AI4Science 분야의 커뮤니티 주도 개발과 진전을 촉진하기 위해 오픈소스로 제공되며 활발히 유지보수됩니다.
통합 멀티모달 모델(UMMs)이 크로스모달 이해에서 놀라운 성과를 거두었음에도 불구하고, 이러한 내부 지식을 고품질 생성에 활용하는 능력에는 여전히 상당한 격차가 존재합니다. 우리는 이러한 불일치를 **전도 실어증(Conduction Aphasia)** 현상으로 규정합니다. 이는 모델이 멀티모달 입력을 정확하게 해석하지만, 그 이해를 충실하고 제어 가능한 합성으로 전환하는 데 어려움을 겪는 현상입니다. 이를 해결하기 위해 우리는 외부 데이터나 교사 감독이 필요 없는 간단하면서도 우아한 자기 개선 프레임워크인 **UniCorn**을 제안합니다. 단일 UMM을 제안자(Proposer), 해결자(Solver), 판단자(Judge)라는 세 가지 협력적 역할로 분할함으로써, UniCorn은 자기 경쟁(self-play)을 통해 고품질 상호작용을 생성하고 인지 패턴 재구성(cognitive pattern reconstruction)을 통해 잠재적 이해를 명시적 생성 신호로 추출합니다. 멀티모달 일관성 회복을 검증하기 위해, 텍스트 → 이미지 → 텍스트 재구성 루프를 기반으로 한 순환 일관성 벤치마크인 **UniCycle**을 도입했습니다. 광범위한 실험을 통해 UniCorn이 6개의 일반적인 이미지 생성 벤치마크에서 기본 모델 대비 포괄적이고 상당한 성능 향상을 달성함을 입증했습니다. 특히 TIIF(73.8), DPG(86.8), CompBench(88.5) 및 UniCycle에서 SOTA 성능을 달성했으며, WISE에서는 +5.0, OneIG에서는 +6.5의 상당한 추가 성능 향상을 보였습니다. 이러한 결과는 우리의 방법이 강력한 이해 능력을 유지하면서 T2I 생성 능력을 크게 향상시킴을 보여주며, 통합 멀티모달 인텔리전스를 위한 완전 자기 지도 정제의 확장성을 입증합니다.
우리는 1,000여 종 이상의 게임에서 총 4만 시간 분량의 게임플레이 영상으로 학습된 범용 게임 에이전트를 위한 비전-액션 기초 모델인 NitroGen을 소개한다. 본 모델은 세 가지 핵심 요소를 통합하였다: 1) 공개된 게임플레이 영상에서 플레이어 행동을 자동으로 추출하여 구축한 인터넷 규모의 비디오-액션 데이터셋, 2) 다양한 게임 간 일반화 성능을 측정할 수 있는 멀티게임 벤치마크 환경, 3) 대규모 행동 복제로 학습된 통합 비전-액션 모델. NitroGen은 3D 액션 게임의 전투 상황, 2D 플랫포머의 고정밀 제어, 절차적 생성 세계의 탐험 등 다양한 영역에서 강력한 능력을 보여준다. 또한 본 모델은 새로운 게임에 효과적으로 전이되어, 처음부터 학습된 모델 대비 작업 성공률에서 최대 52%의 상대적 향상을 달성한다. 범용 구현 에이전트 연구의 발전을 위해 데이터셋, 평가 도구 및 모델 가중치를 공개한다.
비전-언어-행동(VLA) 모델은 대규모 사전 학습을 통해 강력한 일반화 능력을 달성하지만, 실제 환경 적용에는 광범위한 일반성 외에도 전문가 수준의 작업 숙련도가 요구됩니다. 기존 VLA 모델 사후 학습 방법은 주로 오프라인, 단일 로봇, 또는 특정 작업에 국한되어 있어 효과적인 온-정책 적응과 실제 상호작용으로부터의 확장 가능한 학습에 한계가 있습니다. 본 연구에서는 일반적 VLA 모델의 물리적 현장에서의 온라인 분산 다중 작업 사후 학습을 가능하게 하는 확장 가능 온라인 사후 학습(SOP) 시스템을 소개합니다. SOP는 로봇 군집이 지속적으로 온-정책 경험과 인간 개입 신호를 중앙 집중식 클라우드 학습기에 전송하고, 비동기적으로 갱신된 정책을 수신하는 폐쇄 루프 구조를 통해 실행과 학습을 긴밀하게 결합합니다. 이 설계는 신속한 온-정책 수정을 지원하며 병렬 배치를 통한 경험 수집 확장성을 제공하고 적응 과정에서 일반성을 유지합니다. SOP는 사후 학습 알고리즘 선택에 독립적이며, 우리는 상호작용적 모방 학습(HG-DAgger)과 강화 학습(RECAP)을 통해 이를 구현합니다. 옷 접기, 상자 조립, 식품 재고 보충 등 다양한 실제 조작 작업에서 SOP는 대규모 사전 학습 VLA 모델의 성능을 작업 간 단일 공유 정책을 유지하면서 크게 향상시킵니다. 효과적인 사후 학습은 수시간 내의 실제 상호작용으로 달성 가능하며, 성능은 군집 내 로봇 대수에 따라 준선형적으로 확장됩니다. 이러한 결과는 온라인 학습과 군집 규모 배치의 긴밀한 결합이 물리적 세계에서 일반적 로봇 정책의 효율적, 신뢰적, 확장 가능한 사후 학습을 가능하게 하는 핵심 요소임을 시사합니다.
비디오 생성 모델의 중요한 하위 과제인 비디오 스타일화는 아직 충분히 연구되지 않았다. 이의 입력 스타일 조건에는 일반적으로 텍스트, 스타일 이미지, 스타일화된 첫 프레임이 포함된다. 각 조건은 고유한 장점을 지닌다: 텍스트는 유연성이 높고, 스타일 이미지는 더 정확한 시각적 기준을 제공하며, 스타일화된 첫 프레임은 장편 비디오 스타일화를 가능하게 한다. 그러나 기존 방법들은 대부분 단일 유형의 스타일 조건에 국한되어 적용 범위가 제한된다. 또한 고품질 데이터셋의 부재로 인해 스타일 불일치와 시간적 깜빡임이 발생한다. 이러한 한계를 해결하기 위해 우리는 통합 비디오 스타일화 프레임워크인 DreamStyle을 제안한다. 이는 (1) 텍스트 기반, (2) 스타일 이미지 기반, (3) 첫 프레임 기반 비디오 스타일화를 지원하며, 고품질 짝 지어진 비디오 데이터를 획득하기 위해 잘 설계된 데이터 큐레이션 파이프라인을 동반한다. DreamStyle은 기본 이미지-비디오(I2V) 모델을 기반으로 구축되었으며, 서로 다른 조건 토큰 간의 혼란을 줄여주는 토큰 특화 업 행렬을 적용한 LoRA(Low-Rank Adaptation)를 사용하여 학습된다. 정성적 및 정량적 평가 결과, DreamStyle은 세 가지 비디오 스타일화 과제 모두에서 우수한 성능을 보이며, 스타일 일관성과 비디오 품질에서 경쟁 방법들을 능가함을 입증하였다.
MiMo-V2-Flash는 빠르고 강력한 추론 능력과 에이전트 능력을 위해 설계된 309B 전체 파라미터와 15B 활성 파라미터를 가진 Mixture-of-Experts(MoE) 모델입니다. MiMo-V2-Flash는 5:1 혼합 비율로 128-토큰 슬라이딩 윈도우를 사용하여 Sliding Window Attention(SWA)과 글로벌 어텐션을 교차 적용하는 하이브리드 어텐션 아키텍처를 채택했습니다. 본 모델은 32k 기본 컨텍스트 길이로 27조 토큰을 Multi-Token Prediction(MTP) 방식으로 사전 학습한 후, 이를 256k까지 확장했습니다. 학습 후 컴퓨팅 자원을 효율적으로 확장하기 위해 MiMo-V2-Flash는 새로운 Multi-Teacher On-Policy Distillation(MOPD) 패러다임을 도입했습니다. 이 프레임워크에서는 도메인 전문 교사 모델(예: 대규모 강화 학습으로 학습된)이 밀집된 토큰 수준의 보상을 제공하여 학생 모델이 교사의 전문성을 완벽하게 습득할 수 있게 합니다. MiMo-V2-Flash는 각각 DeepSeek-V3.2 및 Kimi-K2의 전체 파라미터 수의 1/2, 1/3만 사용함에도 불구하고 이들과 동급의 성능을 보입니다. 추론 시 MTP를 스펙츌레이티브 디코딩을 위한 드래프트 모델로 재활용함으로써, MiMo-V2-Flash는 3개의 MTP 레이어를 사용하여 최대 3.6의 수용 길이와 2.6배의 디코딩 속도 향상을 달성합니다. 우리는 모델 가중치와 3계층 MTP 가중치를 모두 오픈소스로 공개하여 개방형 연구와 커뮤니티 협력을 촉진하고자 합니다.
상당한 발전에도 불구하고, 멀티모달 대규모 언어 모델들은 여전히 시각적 수학 문제 해결에 어려움을 겪고 있습니다. 일부 최근 연구들은 시각 인식이 시각적 수학 추론의 병목 현상임을 인지하고 있으나, 그 해결책은 시각 입력의 추출 및 해석 능력 향상에만 국한되어 있습니다. 특히, 추출된 시각 단서가 후속 추론 과정에 충실히 통합되고 적절히 활용되는지 여부라는 핵심 문제를 모두 간과하고 있습니다. 이에 동기를 받아, 우리는 인간 추론의 계층적 흐름(지각 ⇒ 내면화 ⇒ 추론)을 명시적으로 모방하는 지식 내면화 단계를 포함한 새로운 인지 과학 기반 3단계 프레임워크인 CogFlow를 제안합니다. 이 계층적 흐름에 부합하도록 모든 단계를 종합적으로 향상시킵니다. 우리는 매개변수 공간과 의미 공간에서 인식 능력을 향상시키는 시너지 시각 보상 기법을 고안하여 기호와 도표로부터 시각 정보를 추출하는 능력을 공동으로 개선합니다. 추출된 시각 단서가 후속 추론에 충실히 통합되도록 보장하기 위해, 내면화 단계에서 지식 내면화 보상 모델을 도입하여 지각과 추론 간의 간극을 메웁니다. 더 나아가, 모델이 논리적으로 보이지만 시각적으로 근거 없는 추론 체인이라는 지름길을 찾는 것을 방지하고 추론이 시각적 지식에 기반하도록 하기 위해 시각-게이트 정책 최적화 알고리즘을 설계합니다. 또한, 12만 개 이상의 고품질 지각-추론 정렬 주석이 포함된 샘플을 갖춘 새로운 데이터셋 MathCog를 모델 학습을 위해 공개합니다. 널리 사용되는 시각적 수학 추론 벤치마크에 대한 포괄적인 실험과 분석을 통해 제안된 CogFlow의 우수성을 입증합니다.
디지털 트윈은 물리적 시스템의 정밀한 디지털 표현으로서, 인공지능 기술의 통합을 통해 수동적인 시뮬레이션 도구에서 지능적이고 자율적인 개체로 진화해왔습니다. 본 논문은 모델링, 미러링, 개입, 자율 관리에 이르는 디지털 트윈 라이프사이클 전반에 걸친 AI 통합을 체계적으로 특징짓는 통합된 4단계 프레임워크를 제시합니다. 기존 기술과 실무를 종합하여 우리는 AI 방법론이 디지털 트윈 라이프사이클 전반에 어떻게 내재되는지 체계적으로 규명하는 통합 4단계 프레임워크를 도출했습니다: (1) 물리법칙 기반 및 물리정보 AI 접근법을 통한 물리적 트윈 모델링, (2) 실시간 동기화를 통한 물리적 시스템의 디지털 트윈으로의 미러링, (3) 예측 모델링, 이상 감지 및 최적화 전략을 통한 물리적 트윈 개입, (4) 대형 언어 모델, 파운데이션 모델 및 지능형 에이전트를 통한 자율 관리 달성. 우리는 물리법칙 기반 모델링과 데이터 기반 학습 간의 시너지를 분석하며, 물리적 시스템을 위한 기존 수치 해석기에서 물리정보 모델 및 파운데이션 모델로의 전환을 강조합니다. 더 나아가 대형 언어 모델 및 생성형 세계 모델을 포함한 생성형 AI 기술이 어떻게 디지털 트윈을 추론, 의사소통, 창의적 시나리오 생성이 가능한 능동적이고 자기 개선하는 인지 시스템으로 변모시키는지 검토합니다. 의료, 항공우주, 스마트 제조, 로봇공학, 스마트 시티 등 11개 응용 분야에 걸친 융합적 고찰을 통해 확장성, 설명 가능성, 신뢰성과 관련된 공통 과제를 확인하고, 책임 있는 AI 기반 디지털 트윈 시스템을 위한 방향을 제시합니다.
대규모 언어 모델(LLM)은 복잡한 수학 문제에서 강력한 성능을 보이지만, 계수 작업에서는 체계적인 한계를 보입니다. 이 문제는 트랜스포머의 아키텍처적 한계에서 비롯되며, 계수 작업이 여러 계층에 걸쳐 수행됨에 따라 깊이 제약으로 인해 큰 규모의 계수 문제에서 정확도가 저하됩니다. 이러한 한계를 해결하기 위해 우리는 System-2 인지 과정에서 영감을 받은 간단한 테스트 타임 전략을 제안합니다. 이 전략은 대규모 계수 작업을 모델이 안정적으로 해결할 수 있는 더 작고 독립적인 하위 문제로 분해합니다. 우리는 이 System-2 유사 전략의 작동 메커니즘을 이해하기 위해 관찰적 및 인과 매개 분석을 통해 이 접근법을 평가합니다. 우리의 메커니즘 분석은 핵심 구성 요소를 규명합니다: 잠재적 계수값이 각 부분의 최종 항목 표현에서 계산 및 저장되고, 전용 어텐션 헤드를 통해 중간 단계로 전달되며, 최종 단계에서 집계되어 총계를 산출합니다. 실험 결과는 이 전략이 LLM이 아키텍처적 한계를 극복하고 대규모 계수 작업에서 높은 정확도를 달성할 수 있게 함을 보여줍니다. 본 연구는 LLM의 System-2 계수에 대한 메커니즘적 통찰을 제공하고, 그 추론 행동을 개선하고 이해하기 위한 일반화 가능한 접근법을 제시합니다.
본 논문에서는 현실적인 시각 웹 에이전트를 훈련시키기 위해 현재까지 공개된 환경 중 가장 규모가 큰 WebGym을 제시합니다. 실제 웹사이트는 비정적이고 다양하기 때문에 인공적이거나 소규모의 작업 세트만으로는 강력한 정책 학습을 수행하기에 부족합니다. WebGym은 다양한 실제 웹사이트와 난이도에 걸쳐 루브릭 기반 평가를 포함한 약 30만 개의 작업을 보유하고 있습니다. 우리는 단순한 강화 학습 방법으로 에이전트를 훈련시키며, 이 방법은 에이전트 자신의 상호작용 흔적(롤아웃)을 바탕으로 학습하고 작업 보상을 학습을 안내하는 피드백으로 활용합니다. 강화 학습의 규모 확장을 가능하게 하기 위해, 우리는 웹 에이전트에 특화된 고처리량 비동기 롤아웃 시스템을 개발하여 WebGym 내에서의 궤적 샘플링 속도를 높였습니다. 우리의 시스템은 단순한 구현 방식과 비교하여 4-5배의 롤아웃 속도 향상을 달성했습니다. 둘째, 작업 세트의 폭, 깊이 및 규모를 확장하여 지속적인 성능 향상을 이루었습니다. 강력한 기본 시각-언어 모델인 Qwen-3-VL-8B-Instruct를 WebGym으로 미세 조정한 결과, 훈련 과정에서 한 번도 접하지 않은 웹사이트의 작업으로만 구성된 분포 외 테스트 세트에서 성공률이 26.2%에서 42.9%로 향상되었습니다. 이는 각각 27.1%와 29.8%를 달성한 GPT-4o 및 GPT-5-Thinking과 같은 사유 모델 기반 에이전트를 크게 앞서는 성과입니다. 이 개선 폭은 시각 웹 에이전트 훈련에 관한 많은 기존 연구들과 달리 우리의 테스트 세트가 훈련 중 전혀 접하지 않은 웹사이트의 작업으로만 구성되었다는 점에서 그 의미가 큽니다.
본 논문에서는 피드-포워드 패러다임으로 환상적인 3D 생명체를 생성하는 최초의 학습 불필요 방법인 Muses를 제안한다. 부분 인식 최적화, 수동 조립 또는 2D 이미지 생성에 의존하는 기존 방법들은 복잡한 부분 수준 조작의 어려움과 제한된 도메인 외 생성으로 인해 비현실적이거나 비일관적인 3D 자산을 생성하는 경우가 많다. 이에 반해, Muses는 생물학적 형태의 기본 표현인 3D 스켈레톤을 활용하여 다양한 요소를 명시적이고 합리적으로 구성한다. 이러한 골격 기반은 3D 콘텐츠 제작을 구조 인식형 설계, 구성, 생성 파이프라인으로 정형화한다. Muses는 먼저 그래프 제약 추론을 통해 일관된 레이아웃과 스케일을 갖춘 창의적으로 구성된 3D 스켈레톤을 구축한다. 이 스켈레톤은 구조화된 잠재 공간 내에서 복셀 기반 조립 과정을 안내하며 서로 다른 객체의 영역을 통합한다. 최종적으로는 스켈레톤 조건 하에서 이미지 기반 외관 모델링을 적용하여 조립된 형태에 스타일이 일관되고 조화로운 텍스처를 생성한다. 광범위한 실험을 통해 Muses가 시각적 정확도와 텍스트 설명 정합성 측면에서 최첨단 성능을 달성하며, 유연한 3D 객체 편집에서의 잠재력을 입증하였다. 프로젝트 페이지: https://luhexiao.github.io/Muses.github.io/.
다양한 분야에서 멀티모달 대규모 언어 모델(MLLM)의 급속한 도입이 지속적인 안전성 취약점으로 인해 점점 더 저해되고 있습니다. 그러나 기존 레드팀링 벤치마크는 종종 단편적이며, 단일 회차 텍스트 상호작용으로 제한되고, 체계적인 평가에 필요한 확장성을 결여하고 있습니다. 이를 해결하기 위해 우리는 포괄적인 MLLM 안전성 평가를 위해 설계된 통합적, 모듈식, 고처리량 레드팀링 프레임워크인 OpenRT를 소개합니다. OpenRT의 핵심은 모델 통합, 데이터셋 관리, 공격 전략, 판단 방법, 평가 지표라는 다섯 가지 핵심 차원에서 모듈식 분리를 가능하게 하는 적대적 커널을 도입하여 자동화된 레드팀링에 패러다임 전환을 설계합니다. 공격 인터페이스를 표준화함으로써, 이 프레임워크는 적대적 로직을 고처리량 비동기 런타임으로부터 분리하여 다양한 모델 간의 체계적인 확장을 가능하게 합니다. 우리의 프레임워크는 화이트박스 기울기, 멀티모달 변형, 정교한 다중 에이전트 진화 전략에 이르는 37가지 다양한 공격 방법론을 통합합니다. 20개의 최첨단 모델( GPT-5.2, Claude 4.5, Gemini 3 Pro 포함)에 대한 광범위한 실증 연구를 통해 우리는 중요한 안전성 격차를 밝혀냈습니다: 최첨단 모델조차도 공격 패러다임 전반에 걸쳐 일반화하는 데 실패하며, 주요 모델들의 평균 공격 성공률(ASR)이 49.14%에 이르는 것으로 나타났습니다. 특히, 우리의 연구 결과는 추론 모델이 복잡한 다중 회차 탈옥(jailbreak) 공격에 대해 선천적으로 우수한 견고성을 가지지는 않는다는 점을 보여줍니다. OpenRT를 오픈소스로 공개함으로써, 우리는 AI 안전성의 발전과 표준화를 가속화하는 지속 가능하고 확장 가능하며 지속적으로 유지관리되는 인프라를 제공합니다.
퍼스트-프레임 전파(FFP)는 제어 가능한 비디오 편집에 유망한 패러다임을 제공하지만, 기존 방법은 번거로운 런타임 안내에 대한 의존성으로 인해 한계를 보입니다. 우리는 이러한 한계의 근본 원인이 현재 학습 데이터셋의 부적합성에 있다고 파악했습니다. 기존 데이터셋은 너무 짧고 저해상도이며 강력한 시간적 사전 지식을 학습시키기에 필요한 작업 다양성이 부족한 경우가 많습니다. 이러한 근본적인 데이터 격차를 해결하기 위해, 우리는 먼저 FFP-300K라는 새로운 대규모 데이터셋을 소개합니다. 이 데이터셋은 720p 해상도에 81프레임 길이의 30만 개의 고화질 비디오 쌍으로 구성되었으며, 다양한 지역 및 전역 편집을 위한 원칙적인 이중 트랙 파이프라인을 통해 구축되었습니다. 이 데이터셋을 바탕으로, 우리는 첫 프레임 외관 유지와 원본 비디오 모션 보존 사이의 중요한 긴장 관계를 해결하여 진정한 무안내(guidance-free) FFP를 위한 새로운 프레임워크를 제안합니다. 아키텍처 측면에서는 외관 참조와 모션 참조를 분리하기 위해 위치 인코딩을 동적으로 재매핑하는 Adaptive Spatio-Temporal RoPE(AST-RoPE)를 도입합니다. 목적 함수 수준에서는 정체성 전파 작업이 강력한 정규화자 역할을 하는 자기 지식 증류 전략을 활용하여 장기간의 시간적 안정성을 보장하고 의미론적 드리프트를 방지합니다. EditVerseBench 벤치마크에서의 포괄적인 실험을 통해 우리 방법이 기존 학술 및 상용 모델들을 크게 능가하며, 이러한 경쟁자 대비 약 0.2점의 PickScore 및 0.3점의 VLM 점수 향상을 달성함을 입증했습니다.
지역화는 주어진 신호의 지리적 출처를 추론하는 것을 목표로 합니다. 컴퓨터 비전에서 지역화는 구성적 추론을 위한 까다로운 벤치마크로 기능하며 공공 안전과 관련이 있습니다. 이와 대조적으로 오디오 지역화의 발전은 고품질 오디오-위치 쌍의 부족으로 제약을 받아왔습니다. 이러한 격차를 해결하기 위해 우리는 72개 국가 및 지역을 포괄하는, 오디오 언어 모델(ALM)을 위한 최초의 오디오 지역화 벤치마크인 AGL1K를 소개합니다. 크라우드소싱 플랫폼에서 신뢰할 수 있게 지역화 가능한 샘플을 추출하기 위해 각 녹음의 정보성을 정량화하는 오디오 지역화 가능성 지표를 제안하며, 이를 통해 1,444개의 정제된 오디오 클립을 확보했습니다. 16개 ALM에 대한 평가 결과, ALM이 오디오 지역화 능력을 갖추기 시작했음을 확인했습니다. 우리는 공개되지 않은 모델이 오픈소스 모델을 크게 앞서는 것과 언어적 단서가 예측을 위한 비계로서 종종 지배적임을 발견했습니다. 또한 ALM의 추론 흔적, 지역적 편향, 오류 원인, 그리고 지역화 가능성 지표의 해석 가능성을 분석합니다. 전반적으로 AGL1K는 오디오 지역화를 위한 벤치마크를 확립하고 더 나은 지리 공간 추론 능력을 가진 ALM의 발전을 촉진할 수 있습니다.
희소한 행동 시퀀스로부터 복잡한 사용자 선호도를 포착하는 것은 시퀀셜 추천에서 근본적인 과제로 남아 있습니다. 최근 잠재 추론 방법론들은 다단계 추론을 통해 테스트 시점 연산을 확장하며 가능성을 보여주었으나, 단일 경로를 따른 깊이 수준 확장에만 의존하여 추론 깊이가 증가함에 따라 한계에 직면해 있습니다. 이러한 한계를 해결하기 위해, 본 연구에서는 다중의 다양한 추론 경로를 동시에 탐색함으로써 너비 수준의 연산 확장을 선도하는 새로운 프레임워크인 병렬 잠재 추론(PLR)을 제안합니다. PLR은 연속 잠재 공간에서 학습 가능한 트리거 토큰을 통해 병렬 추론 스트림을 구성하고, 전역 추론 정규화를 통해 스트림 간 다양성을 유지하며, 추론 스트림 혼합 집계를 통해 다중 스트림 출력을 적응적으로 통합합니다. 3개의 실제 데이터셋에서 진행된 포괄적인 실험을 통해 PLR이 최첨단 기준 모델들을 크게 능가하면서도 실시간 추론 효율성을 유지함을 입증했습니다. 이론적 분석은 또한 병렬 추론이 일반화 성능 향상에 효과적임을 추가로 검증합니다. 본 연구는 기존의 깊이 확장을 넘어 시퀀셜 추천의 추론 능력을 향상시키는 새로운 방향을 제시합니다.
고품질 이미지 합성 기술이 눈에 띄게 발전했음에도 생성 모델은 여전히 논리 집약적인 지시 수행에 어려움을 겪으며, 지속적인 추론-실행 간극을 드러내고 있습니다. 한편, 클로즈드 소스 시스템(예: Nano Banana)은 강력한 추론 기반 이미지 생성 능력을 입증하며 현재 오픈소스 모델과의 상당한 격차를 부각했습니다. 우리는 이 격차를 해소하려면 더 나은 시각적 생성기뿐만 아니라 실행 가능한 추론, 즉 높은 수준의 의도를 구체적이고 검증 가능한 계획으로 분해하여 생성 과정을 직접 주도하는 능력이 필요하다고 주장합니다. 이를 위해 우리는 일반 이미지 생성을 위한 작업 독립적 추론 아키텍처인 Unified Thinker를 제안합니다. 이는 다양한 생성기 및 워크플로에 연결 가능한 통합 계획 코어로 설계되었습니다. Unified Thinker는 전용 Thinker를 이미지 Generator와 분리하여 생성 모델 전체를 재학습하지 않고도 추론 모듈을 독립적으로 업그레이드할 수 있도록 합니다. 또한 두 단계의 학습 패러다임을 도입했습니다: 먼저 Thinker를 위한 구조화된 계획 인터페이스를 구축한 후, 강화 학습을 적용하여 정책을 픽셀 수준의 피드백에 기반하도록 하여, 텍스트적 타당성보다 시각적 정확도를 최적화하는 계획을 장려합니다. 텍스트-이미지 생성 및 이미지 편집에 대한 폭넓은 실험을 통해 Unified Thinker가 이미지 추론 및 생성 품질을 크게 향상시킴을 확인했습니다.
대규모 추론 모델(LRM)은 명시적인 사고 연쇄(CoT) 설명을 생성할 수 있는 능력 덕분에 수학적 추론 과제에서 높은 성능을 보이는 경우가 많습니다. 그러나 최근 연구에 따르면 LRM은 이러한 텍스트 기반 추론 단계를 완료하기 전에 종종 정답에 도달하는데, 이는 잠재적 추론(latent reasoning) 즉, 은닉 상태에 인코딩된 내부적·비언어적 계산 과정이 존재함을 시사합니다. 이러한 현상은 영어를 중심으로 연구되어 왔으나, 다국어 관점에서의 특성은 여전히 거의 알려져 있지 않습니다. 본 논문에서는 11개 언어에 걸쳐 LRM의 다국어 잠재적 추론 현상을 체계적으로 조사합니다. 절단(truncation) 기반 전략을 활용하여 모델이 부분적인 추론 흔적만을 제공받았을 때 정답이 어떻게 나타나는지 관찰함으로써, 단계별 잠재적 예측 형성 과정을 측정합니다. 연구 결과 다국어 잠재적 추론의 명확한 증거가 확인되었으나, 그 양상은 불균일했습니다. 즉, 자원이 풍부한 언어에서는 강하게 나타난 반면 저자원 언어에서는 약했고, 전반적으로 더 어려운 벤치마크에서는 덜 관찰되었습니다. 이러한 차이가 서로 다른 내부 메커니즘을 반영하는지 이해하기 위해 추가적으로 표현 분석(representational analysis)을 수행했습니다. 표면적인 차이에도 불구하고, 예측의 내부적 진화 과정은 언어 간에 매우 일관적이며 영어와 넓게 일치하는 양상을 보였습니다. 이는 영어 중심의 잠재적 추론 경로가 존재함을 시사하는 패턴입니다.
알려지지 않은 딥페이크 조작을 탐지하는 것은 얼굴 위조 탐지 분야에서 가장 어려운 과제 중 하나로 남아 있습니다. 기존의 최첨단 방법들은 주로 기존 딥페이크나 가짜 데이터에 대한 지도 학습에 의존하기 때문에 특정 위조 패턴에 과적합되어 보이지 않는 조작 방식으로 일반화하는 데 실패합니다. 이와 대조적으로 자기 지도 방법은 일반화 가능성이 더 크지만, 기존 연구들은 자기 지도만으로 판별력 있는 표현을 학습하는 데 어려움을 겪습니다. 본 논문에서는 오디오로부터 표정 시퀀스를 생성하는 확산 모델에 기반한 완전한 자기 지도 접근법인 ExposeAnyone를 제안합니다. 핵심 아이디어는 레퍼런스 세트를 사용해 모델이 특정 대상에게 맞춤화된 후, 확산 재구성 오차를 통해 의심 영상과 맞춤화된 대상 간의 신원 거리를 계산함으로써 관심 대상 얼굴 위조 탐지가 가능하다는 점입니다. 광범위한 실험을 통해 1) 우리 방법이 DF-TIMIT, DFDCP, KoDF, IDForge 데이터셋에서 평균 AUC 기준 이전 최첨단 방법보다 4.22% 포인트 우수함을, 2) 우리 모델이 기존 접근법들이 성능이 낮은 Sora2 생성 영상도 탐지할 수 있음을, 3) 우리 방법이 블러 및 압축과 같은 손상에 대해 매우 강건하여 실제 얼굴 위조 탐지 적용 가능성이 높음을 입증합니다.
우리는 소분자 약물 발견에 최적화된 사전 훈련된 기계 학습 원자간 포텐셜(MLIP)인 AceFF를 소개한다. MLIP는 밀도 범함수 이론(DFT)의 효율적인 대안으로 부상했지만, 다양한 화학 공간에 대한 일반화는 여전히 어려운 과제이다. AceFF는 약물 유사 화합물의 포괄적인 데이터셋으로 훈련된 개선된 TensorNet2 아키텍처를 통해 이 문제를 해결한다. 이 접근법은 높은 처리량의 추론 속도와 DFT 수준의 정확도를 균형 있게 갖춘 포스 필드를 제공한다. AceFF는 필수 의약화학 원소(H, B, C, N, O, F, Si, P, S, Cl, Br, I)를 완전히 지원하며 하전 상태 처리를 명시적으로 훈련받았다. 복잡한 비틀림 에너지 스캔, 분자 동역학 궤적, 배치 최소화, 힘 및 에너지 정확도를 포함한 엄격한 벤치마크 검증을 통해 AceFF가 유기 분야에서 새로운 최첨단 기술을确立함을 입증하였다. AceFF-2 모델 가중치와 추론 코드는 https://huggingface.co/Acellera/AceFF-2.0에서 이용 가능하다.
이미지 디헤이징은 안개 낀 조건에서 이미지 선명도를 향상시키기 위해 필수적인 컴퓨터 비전의 핵심 과제입니다. 기존 방법들은 대기 산란 모델에 의존하는 반면, 최근 딥러닝 기술, 특히 합성곱 신경망(CNN)과 트랜스포머는 이미지 특징을 효과적으로 분석하여 성능을 향상시켰습니다. 그러나 CNN은 장거리 의존성을 처리하는 데 어려움이 있으며, 트랜스포머는 상당한 계산 자원을 요구합니다. 이러한 한계를 해결하기 위해 우리는 U-Net 유사 설계와 스파이킹 신경망(SNN)을 통합한 혁신적인 아키텍처인 DehazeSNN을 제안합니다. DehazeSNN은 다중 스케일 이미지 특징을 포착하면서 로컬 및 장거리 의존성을 효율적으로 관리합니다. 직교 리키-적분-발화 블록(OLIFBlock)의 도입은 채널 간 통신을 향상시켜 계산 부담을 줄이면서도 우수한 디헤이징 성능을 달성합니다. 광범위한 실험을 통해 DehazeSNN이 벤치마크 데이터셋에서 최신 방법들과 매우 경쟁력이 있으며, 더 작은 모델 크기와 더 적은 승적 연산으로 고품질의 안개 제거 이미지를 제공함을 입증했습니다. 제안된 디헤이징 방법은 https://github.com/HaoranLiu507/DehazeSNN에서 공개되어 있습니다.
소셜 미디어에서의 혐오 표현 탐지는 정확성과 설명 가능성 측면에서 모두 어려움을 겪고 있으며, 특히 연구가 충분히 이루어지지 않은 인도 언어의 경우 더욱 그렇습니다. 본 연구에서는 대규모 언어 모델(LLM)의 고수준 의미론적 추론과 기존의 주의 메커니즘 향상 기법을 결합한 설명 가능성 주도 훈련 프레임워크인 X-MuTeST(eXplainable Multilingual haTe Speech deTection)를 제안합니다. 우리는 영어와 함께 힌디어와 텔루구어로 연구를 확장하여 각 단어에 대해 할당된 클래스 레이블을 정당화하는 벤치마크 수준의 인간 주석 설명을 제공합니다. X-MuTeST 설명 가능성 방법은 원본 텍스트의 예측 확률과 유니그램, 바이그램, 트라이그램의 예측 확률 간 차이를 계산합니다. 최종 설명은 LLM 설명과 X-MuTeST 설명의 합집합으로 계산됩니다. 우리는 훈련 과정에서 인간의 설명을 활용하면 분류 성능과 설명 가능성이 모두 향상됨을 보여줍니다. 더 나아가, 인간의 설명과 우리의 설명 가능성 방법을 결합하여 모델의 주의 메커니즘을 개선하면 추가적인 성능 향상을 얻을 수 있습니다. 설명 가능성 평가는 Token-F1, IOU-F1과 같은 타당성 지표와 Comprehensiveness, Sufficiency와 같은 충실도 지표를 사용하여 수행합니다. 자원이 부족한 언어에 초점을 맞춤으로써, 우리의 연구는 다양한 언어적 배경에서의 혐오 표현 탐지를 발전시킵니다. 우리의 데이터셋은 힌디어 6,004개, 텔루구어 4,492개, 영어 6,334개 샘플에 대한 토큰 수준의 설명 주석을 포함합니다. 데이터와 코드는 https://github.com/ziarehman30/X-MuTeST에서 이용할 수 있습니다.
우리는 AI 시스템의 두 가지 속성, 즉 능력(시스템이 할 수 있는 것)과 조정 가능성(의도한 결과로 행동을 얼마나 신뢰성 있게 전환할 수 있는지)을 검토한다. 핵심 질문은 능력 향상이 조정 가능성을 저하시키고 통제 붕괴 위험을 초래하는지 여부이다. 또한 우리는 인가된 조정 가능성(제작자가 의도한 행동에 신뢰성 있게 도달)과 비인가된 조정 가능성(공격자가 허용되지 않은 행동을 유발)을 구분한다. 이러한 구분은 AI 모델의 근본적인 안전-보안 딜레마를 부각시킨다: 안전은 통제(예: 중단/거부)를 강화하기 위해 높은 조정 가능성을 요구하는 반면, 보안은 악의적 행위자가 유해한 행동을 유발하는 데 낮은 조정 가능성을 요구한다. 이러한 긴장 관계는 파인튜닝이나 적대적 공격과 같은 일반적인 기법을 통해 현재 높은 조정 가능성을 보이는 오픈-가중치 모델에게 중대한 과제를 제시한다. Qwen3와 InstrumentalEval을 사용하여, 짧은 반-도구적 프롬프트 접미사가 측정된 수렴율(예: 종료 회피, 자기 복제)을 급격히 감소시킨다는 것을 발견했다. Qwen3-30B Instruct의 경우, 친-도구적 접미사 하에서 81.69%였던 수렴율이 반-도구적 접미사 하에서는 2.82%로 떨어진다. 반-도구적 프롬프팅 하에서 더 큰 정렬된 모델이 더 작은 모델보다 더 낮은 수렴율을 보였다(Instruct: 2.82% vs. 4.23%; Thinking: 4.23% vs. 9.86%). 코드는 github.com/j-hoscilowicz/instrumental_steering에서 이용 가능하다.