번역이 포함된 일일 선별된 AI 연구 논문
뛰어난 과학자는 강력한 판단력과 예지력을 갖추는데, 이는 이른바 과학적 취향과 밀접하게 연관되어 있습니다. 여기서 과학적 취향이란 높은 영향력을 가질 수 있는 연구 아이디어를 판단하고 제안하는 능력을 의미합니다. 그러나 대부분의 관련 연구는 AI 과학자의 실행 능력 향상에 초점을 맞추는 반면, AI의 과학적 취향 향상은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 대규모 커뮤니티 신호를 감독 신호로 활용하는 훈련 패러다임인 RLCF(Reinforcement Learning from Community Feedback)를 제안하고, 과학적 취향 학습을 선호도 모델링 및 정렬 문제로 공식화합니다. 선호도 모델링을 위해 70만 개의 동일 분야 및 동시기 논문 중 고인용 논문과 저인용 논문을 쌍으로 구성하여 과학적 판단 모델을 훈련시켜 아이디어를 판단하게 합니다. 선호도 정렬을 위해 과학적 판단 모델을 보상 모델로 사용하여 정책 모델인 과학적 사고 모델을 훈련시켜 높은 잠재적 영향력을 가진 연구 아이디어를 제안하게 합니다. 실험 결과, 과학적 판단 모델은 SOTA 대규모 언어 모델(예: GPT-5.2, Gemini 3 Pro)을 능가하며 미래 년도 테스트, 보이지 않은 분야, 그리고 동료 평가 선호도에 대해 일반화 성능을 보였습니다. 더 나아가 과학적 사고 모델은 기준 모델보다 더 높은 잠재적 영향력을 가진 연구 아이디어를 제안했습니다. 우리의 연구 결과는 AI가 과학적 취향을 학습할 수 있음을 보여주며, 이는 인간 수준의 AI 과학자 달성으로 가는 중요한 단계를 의미합니다.
본 논문에서는 희소 시점 이미지 및 단안 비디오와 같은 캐주얼 캡처로부터 인간-장면 상호작용(HSI)의 시뮬레이션 준비가 된 3D 재구성을 위한 통합 프레임워크인 HSImul3R을 제안합니다. 기존 방법은 지각-시뮬레이션 간극 문제를 겪고 있습니다. 즉, 시각적으로 그럴듯한 재구성 결과물이 종종 물리적 제약을 위반하여 물리 엔진에서 불안정성을 초래하고 구체화된 AI 응용 프로그램에서 실패를 야기합니다. 이러한 간극을 해소하기 위해, 우리는 물리 시뮬레이터를 인간 역학과 장면 기하학을 공동으로 정제하는 능동적 감독자로 취급하는 물리 기반 양방향 최적화 파이프라인을 도입합니다. 순방향에서는 운동 충실도와 접촉 안정성의 이중 감독 하에 인간 동작을 최적화하기 위해 장면 대상 강화 학습을 활용합니다. 역방향에서는 중력 안정성과 상호작용 성공률에 대한 시뮬레이션 피드백을 활용하여 장면 기하학을 정제하는 직접 시뮬레이션 보상 최적화를 제안합니다. 또한 다양한 객체와 상호작용 시나리오를 포함하는 새로운 벤치마크인 HSIBench를 제시합니다. 다양한 실험을 통해 HSImul3R이 최초로 안정적이며 시뮬레이션 준비가 된 HSI 재구성 결과를 생성하고 실제 휴머노이드 로봇에 직접 적용될 수 있음을 입증합니다.
딥 서치(deep search) 능력은 최첨단 대규모 언어 모델(LLM) 에이전트에게 필수적인 역량이 되었으나, 고성능 검색 에이전트 개발은 투명하고 고품질의 학습 데이터 부족으로 인해 여전히 주요 산업계 거대 기업들에 의해 주도되고 있습니다. 이러한 지속적인 데이터 부족 문제는 해당 분야에서 보다 광범위한 연구 커뮤니티의 발전과 혁신을 근본적으로 저해해 왔습니다. 이러한 격차를 해소하기 위해, 우리는 최초의 완전 오픈소스 검색 에이전트(즉, 모델과 데이터 모두)인 OpenSeeker를 소개합니다. OpenSeeker는 두 가지 핵심 기술 혁신을 통해 최첨단 수준의 성능을 달성합니다: (1) 사실에 기반한 확장 가능 및 제어 가능한 질의응답 합성 기술로, 위상학적 확장(topological expansion)과 엔티티 난독화(entity obfuscation)를 통해 웹 그래프를 역설계하여 커버리지와 복잡도를 제어할 수 있는 복잡한 다중 홉 추론 과제를 생성합니다. (2) 잡음 제거 트라젝토리 합성 기술로, 회고적 요약(retrospective summarization) 메커니즘을 사용하여 트라젝토리의 노이즈를 제거함으로써 교사 LLM이 고품질의 행동을 생성하도록 유도합니다. 실험 결과, 단 11.7k개의 합성 샘플로 단일 훈련을 수행한 OpenSeeker가 BrowseComp, BrowseComp-ZH, xbench-DeepSearch, WideSearch 등 여러 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 주목할 점은, 단순한 지도 미세 조정(SFT)으로 훈련된 OpenSeeker가 두 번째로 성능이 좋은 완전 오픈소스 에이전트인 DeepDive를 크게 앞섰으며(예: BrowseComp에서 29.5% 대 15.3%), BrowseComp-ZH에서는 광범위한 지속 사전 훈련, SFT, 강화 학습을 통해 훈련된 Tongyi DeepResearch와 같은 산업계 경쟁자들까지 능가했다는 점입니다(48.4% 대 46.7%). 우리는 최첨단 검색 에이전트 연구의 민주화와 더 투명하고 협력적인 생태계 조성을 위해 완전한 훈련 데이터셋과 모델 가중치를 완전히 오픈소스로 공개합니다.
대규모 언어 모델은 수동적인 정보 제공자에서 복잡한 워크플로우를 위한 능동적 에이전트로 전환되고 있습니다. 그러나 기업 환경에서 신뢰할 수 있는 AI 작업자로서의 배치는 전문 환경의 복잡성을 제대로 반영하지 못하는 벤치마크로 인해 지연되고 있습니다. 특히, 지속적인 상태 변화와 엄격한 접근 프로토콜 속에서 장기적인 계획 수립이 필요하다는 점이 주요 난제입니다. 본 연구에서는 현실적인 기업 환경에서 에이전트 계획 수립 능력을 평가하기 위해 설계된 벤치마크인 EnterpriseOps-Gym을 소개합니다. 구체적으로 EnterpriseOps-Gym은 164개의 데이터베이스 테이블과 512개의 기능적 도구를 갖춘 컨테이너 기반 샌드박스를 통해 실제 검색 마찰을 모방합니다. 이 환경 내에서 에이전트는 8개의 핵심 비즈니스 영역(고객 서비스, 인사, IT 등)에 걸쳐 전문가가 선별한 1,150개의 작업을 수행하며 평가됩니다. 14개의 최첨단 모델을 평가한 결과, 최고 성능을 보인 Claude Opus 4.5조차 37.4%의 성공률에 그치는 등 최신 모델의 심각한 한계가 드러났습니다. 추가 분석 결과, 오라클 인간 계획을 제공하면 성능이 14-35%p 향상되어 전략적 추론이 주요 병목 현상임을 확인했습니다. 또한 에이전트는 실행 불가능한 작업을 제때 거부하지 못하는 경우가 빈번하여(최고 모델 기준 53.9%), 의도치 않으며 잠재적으로 해로운 부작용을 초래했습니다. 이러한 결과는 현재의 에이전트가 기업 자율 배치에 아직 준비되지 않았음을 보여줍니다. 넓게 보면, EnterpriseOps-Gym은 전문 워크플로우에서 에이전트 계획 수립의 견고성을 높일 구체적인 테스트베드를 제공합니다.
만약 세계 시뮬레이션 모델이 상상된 환경이 아닌 실제로 존재하는 도시를 구현할 수 있다면 어떨까? 기존 생성형 세계 모델은 모든 콘텐츠를 상상하여 시각적으로 그럴듯하지만 인공적인 환경을 합성해왔다. 본 논문은 실제 서울 도시를 기반으로 한 도시 규모의 세계 모델인 서울 월드 모델(Seoul World Model, SWM)을 제안한다. SWM은 인근 스트리트 뷰 이미지를 검색-증강(retrieval-augmented) 조건화로 활용하여 자기회귀적 비디오 생성을 정착(anchor)시킨다. 그러나 이러한 설계는 검색된 참조 영상과 변화하는 대상 장면 간의 시간적 불일치, 차량 탑재 캡처 방식의 희소한 간격으로 인한 제한된 궤적 다양성 및 데이터 희소성 등 여러 가지 과제를 야기한다. 우리는 다양한 카메라 궤적 생성을 가능하게 하는 대규모 합성 데이터셋, 희소한 스트리트 뷰 이미지로부터 일관된 학습용 비디오를 합성하는 뷰 보간 파이프라인, 그리고 교차-시간적 페어링(cross-temporal pairing)을 통해 이러한 과제들을 해결한다. 또한 장기 생성의 안정화를 위해 미래 위치에서 검색된 이미지로 각 청크를 지속적으로 재정착시키는 가상 전방 싱크(Virtual Lookahead Sink)를 도입한다. 우리는 SWM을 서울, 부산, 앤아버 세 도시를 대상으로 최근 비디오 세계 모델들과 비교 평가한다. SWM은 수백 미터에 이르는 궤적 상에서 실제 도시 환경에 기반한 공간적으로 정확하고 시간적으로 일관된 장기 비디오 생성에 있어 기존 방법들을 능가하며, 다양한 카메라 운동과 텍스트 프롬프트 기반 시나리오 변화를 지원한다.
PreNorm 잔여 연결은 현대 대규모 언어 모델의 표준이지만, 모든 계층 출력을 고정된 단위 가중치로 누적합니다. 이러한 균일한 집계는 제어되지 않은 은닉 상태 성장을 초래하며 깊이에 따라 각 계층의 기여도를 점진적으로 희석시킵니다. 우리는 이 고정된 누적을 선행 계층 출력에 대한 소프트맥스 어텐션으로 대체하는 Attention Residuals(AttnRes)를 제안합니다. 이를 통해 각 계층은 학습된 입력 종속 가중치로 이전 표현을 선택적으로 집계할 수 있습니다. 대규모 모델 학습 시 모든 선행 계층 출력에 대한 어텐션으로 인한 메모리 및 통신 오버헤드를 해결하기 위해, 계층을 블록으로 분할하고 블록 수준 표현에 어텐션을 적용하는 Block AttnRes를 도입했습니다. 이는 전체 AttnRes의 이점 대부분을 유지하면서 메모리 사용량을 줄입니다. 캐시 기반 파이프라인 통신과 2단계 계산 전략과 결합된 Block AttnRes는 최소 오버헤드로 표준 잔여 연결을 실용적으로 대체할 수 있습니다. 스케일링 법칙 실험을 통해 모델 크기에 관계없이 개선 효과가 일관됨을 확인했으며, ablation 연구를 통해 내용 기반 깊이 방향 선택의 이점을 검증했습니다. 또한 AttnRes를 Kimi Linear 아키텍처(총 48B / 활성화 매개변수 3B)에 통합하고 1.4T 토큰으로 사전 학습을 수행한 결과, AttnRes가 PreNorm 희석을 완화하고 깊이에 걸쳐 더 균일한 출력 크기와 기울기 분포를 생성하며, 평가된 모든 다운스트림 작업에서 성능을 향상시킴을 확인했습니다.
깊이 확장은 대규모 언어 모델(LLM)의 핵심 동인입니다. 그러나 LLM이 더 깊어질수록 신호 저하 현상이 자주 발생합니다. 즉, 얕은 층에서 형성된 정보성 특징이 반복적인 잔차 업데이트로 점차 희석되어 깊은 층에서 이를 회복하기 어려워집니다. 본 논문에서는 혼합 깊이 어텐션(MoDA)을 소개합니다. 이는 각 어텐션 헤드가 현재 층의 시퀀스 키-값 쌍과 선행 층들의 깊이 키-값 쌍에 동시에 주목할 수 있게 하는 메커니즘입니다. 또한 비연속적 메모리 접근 패턴을 해결하여 시퀀스 길이 64K에서 FlashAttention-2 효율의 97.3%를 달성하는 하드웨어 효율적 MoDA 알고리즘을 제시합니다. 1.5B 매개변수 모델에 대한 실험 결과, MoDA가 강력한 기준 모델들을 지속적으로 능가함을 확인했습니다. 특히, 10개 검증 벤치마크에서 평균 복잡도를 0.2 개선하고 10개 다운스트림 작업에서 평균 성능을 2.11% 향상시켰으며, FLOPs 계산 오버헤드는 3.7%에 불과했습니다. 또한 MoDA를 사후 정규화와 결합했을 때 사전 정규화와 결합하는 것보다 더 나은 성능을 보였습니다. 이러한 결과는 MoDA가 깊이 확장을 위한 유망한 기본 구성 요소임을 시사합니다. 코드는 https://github.com/hustvl/MoDA에서 공개되었습니다.
2차 어텐션 기반 대규모 언어 모델(LLM)을 준2차 선형화 아키텍처로 정제하려는 수많은 시도가 있어 왔습니다. 그러나 광범위한 연구에도 불구하고, 이러한 정제된 모델은 다양한 다운스트림 작업에서 교사 LLM의 성능을 따라가지 못하는 경우가 많습니다. 우리는 작업 집합에 대한 학생과 교사 모델 간의 허용오차 보정 Win-and-Tie율 측면에서 정의되는 무손실 정제라는 목표를 설정했습니다. 이를 위해 xLSTM 기반 학생 모델을 위한 효과적인 정제 파이프라인을 소개합니다. 개별적으로 선형화된 전문가들을 단일 모델로 결합하는 추가 병합 단계를 제안합니다. Llama, Qwen, Olmo 패밀리의 기본 모델 및 지령 튜닝 모델을 정제하여 이 파이프라인의 효과를 입증합니다. 많은 설정에서, 우리의 xLSTM 기반 학생 모델은 교사 모델 성능의 대부분을 회복하며, 일부 다운스트림 작업에서는 이를 능가하기도 합니다. 우리의 기여는 트랜스포머 기반 LLM을 대체할 더욱 에너지 효율적이고 비용 효율적인 모델로 나아가는 중요한 단계입니다.
비전-언어 모델(VLM)은 종종 '환각' 현상, 즉 그럴듯하지만 사실적으로는 틀린 진술을 생성하는 문제를 보이며, 이는 신뢰할 수 있는 모델 배포에 있어 중요한 장벽으로 작용합니다. 본 연구에서는 환각 현상을 진단하는 새로운 패러다임을 제안하며, 이를 정적인 출력 오류가 아닌 모델의 계산적 인지 과정에서 발생하는 동적 병리 현상으로 재해석합니다. 우리의 프레임워크는 계산적 합리성이라는 규범적 원칙에 기반하여, VLM의 생성 과정을 동적 인지 궤적으로 모델링합니다. 우리는 이 궤도를 해석 가능한 저차원 인지 상태 공간에 투영하는 일련의 정보이론적 프로브를 설계했습니다. 핵심 발견은 기하-정보 이중성이라고 명명된 지배 원리로, 인지 궤적이 이 공간 내에서 보이는 기하학적 이상이 해당 궤적의 높은 정보이론적 놀람과 본질적으로 동등함을 확인했습니다. 이를 통해 환각 탐지는 기하학적 이상 탐지 문제로 귀결됩니다. 엄격한 이진 질의응답(POPE)과 포괄적 추론(MME)부터 제약이 없는 자유 형식 캡션 생성(MS-COCO)에 이르기까지 다양한 환경에서 평가한 결과, 우리의 프레임워크는 최첨단 성능을 달성했습니다. 무엇보다도 이 방법은 약한 감독 하에서 높은 효율성으로 작동하며, 교정 데이터가 심하게 오염된 경우에도 높은 강건성을 유지합니다. 이 접근법은 관찰 가능한 오류를 서로 다른 병리적 상태, 즉 지각적 불안정성(지각 엔트로피로 측정), 논리-인과적 실패(추론 충돌로 측정), 결정적 모호성(결정 엔트로피로 측정)에 매핑함으로써 실패 원인을 규명할 수 있게 합니다. 궁극적으로, 이는 추론 과정이 설계 단계부터 투명하고 감사 가능하며 진단 가능한 AI 시스템 구축으로 가는 길을 열어줍니다.
확산 변환기(Diffusion Transformers, DiTs)는 이미지 및 비디오 생성에서 뛰어난 확장성과 품질을 입증하며, 이를 제어 가능한 생성 및 편집 작업으로 확장하려는 관심이 높아지고 있습니다. 그러나 이미지 분야와 비교할 때 비디오 제어 및 편집 분야의 발전은 여전히 제한적입니다. 이는 주로 짝을 이룬 비디오 데이터의 부족과 비디오 확산 모델 훈련의 높은 계산 비용 때문입니다. 이러한 문제를 해결하기 위해 본 논문에서는 비디오 확산 변환기를 위한 비디오 없는(video-free) 튜닝 프레임워크인 ViFeEdit을 제안합니다. ViFeEdit은 어떠한 형태의 비디오 훈련 데이터도 필요로 하지 않으면서 2D 이미지만으로 적응하여 다목적 비디오 생성 및 편집을 가능하게 합니다. 우리 접근법의 핵심은 현대 비디오 확산 변환기의 전체 3D 어텐션(full 3D attention)에서 공간 독립성을 분리하는 구조적 재매개변수화(architectural reparameterization)에 있습니다. 이를 통해 최소한의 추가 매개변수만으로 시간적 일관성을 유지하면서 시각적으로 정확한 편집이 가능합니다. 더욱이, 이 설계는 노이즈 스케줄링을 위해 별도의 타임스텝 임베딩을 가진 이중 경로 파이프라인에서 작동하여 다양한 조건 신호에 대한 강력한 적응성을 보여줍니다. 광범위한 실험을 통해 우리의 방법이 2D 이미지 데이터에 대한 최소한의 훈련만으로도 제어 가능한 비디오 생성 및 편집의 유망한 결과를 제공함을 입증합니다. 코드는 https://github.com/Lexie-YU/ViFeEdit에서 확인할 수 있습니다.
자율 웹 에이전트 훈련은 학습 환경에 의해 근본적으로 제한됩니다: 실제 웹사이트는 탐험하기에 안전하지 않고, 초기화가 어려우며, 검증 가능한 피드백을 거의 제공하지 않습니다. 본 논문에서는 언어 모델을 환경 생성자로 활용하여 실제 웹사이트를 완전히 실행 가능하고 검증 가능한 합성 환경으로 자동 복제하는 VeriEnv 프레임워크를 제안합니다. Python SDK를 통해 제어된 내부 접근을 제공함으로써, VeriEnv는 에이전트가 결정론적이고 프로그램적으로 검증 가능한 보상을 갖는 작업을 자체 생성할 수 있게 하여 휴리스틱 또는 LLM 기반 평가자에 대한 의존성을 제거합니다. 이 설계는 안전하지 않은 실제 상호작용으로부터 에이전트 학습을 분리하면서 환경 확장을 통한 확장 가능한 자기 진화를 가능하게 합니다. 웹 에이전트 벤치마크 실험을 통해 VeriEnv로 훈련된 에이전트가 보지 않은 웹사이트로 일반화되고, 자기 진화 훈련을 통해 사이트 특화 숙달을 달성하며, 훈련 환경 수의 확장으로 이점을 얻음을 보여줍니다. 코드와 리소스는 승인 시 https://github.com/kyle8581/VeriEnv 에 공개될 예정입니다.
대규모 언어 모델(LLM) 프롬프트부터 다중 턴 에이전트에 이르기까지 복잡한 시스템을 최적화하는 작업은 전통적으로 노동 집약적인 수동 반복 과정을 필요로 해왔습니다. 본 연구에서는 이러한 과제를 생성형 언어 모델이 최적화자 역할을 하며 수치적 보상과 텍스트 피드백의 지도를 받아 최상의 시스템을 발견하는 확률적 생성 최적화 문제로 정형화합니다. 우리는 확률적 최적화(노이즈가 있는 피드백, 미니배치 샘플링, 확률적 시스템 동작 등)를 처리하고 솔루션 공간의 비제한적 확장을 효과적으로 관리하도록 설계된 확장 가능한 프레임워크인 POLCA(Prioritized Optimization with Local Contextual Aggregation)를 제안합니다. POLCA는 탐색과 활용 사이의 균형을 관리하기 위해 우선순위 큐를 유지하며, 후보 솔루션들과 그 평가 이력을 체계적으로 추적합니다. 효율성을 높이기 위해, 매개변수 다양성을 유지하는 ε-Net 메커니즘과 과거 시행 기록에 걸쳐 메타러닝을 수행하는 LLM 요약기를 통합합니다. 우리는 POLCA가 확률적 환경에서도 근사적 최적 후보 솔루션으로 수렴함을 이론적으로 증명합니다. τ-bench, HotpotQA(에이전트 최적화), VeriBench(코드 번역), KernelBench(CUDA 커널 생성) 등 다양한 벤치마크를 통해 우리의 프레임워크를 평가했습니다. 실험 결과, POLCA는 견고하고 샘플 및 시간 효율적인 성능을 달성하며, 결정론적 및 확률론적 문제 모두에서 최신 알고리즘들을 일관되게 능가하는 것을 보여줍니다. 본 연구의 코드베이스는 https://github.com/rlx-lab/POLCA 에서 공개되어 있습니다.
대규모 추론 모델(LRM)은 최종 답변에 도달하기 전 중간 사고 토큰을 생성할 수 있는 사고 연쇄(CoT) 추론을 통해 복잡한 추론 과제에서 인상적인 성능을 달성합니다. 그러나 LRM은 종종 심각한 과도 사고 문제를 겪으며, 답변이 일찍 생성된 후에도 과도한 계산 시간을 소모합니다. 기존 연구에서는 이 시점에서 추론을 중단하면 성능 저하 없이 CoT 출력을 상당히 단축할 수 있는 최적의 추론 길이가 존재함을 확인했습니다. 그러나 실제 데이터셋에 대한 최적의 CoT 길이를 결정하는 것은 과제와 모델에 완전히 의존하기 때문에 매우 복잡한 문제입니다. 본 논문에서는 이 문제를 정확히 해결하기 위해 추론 시 LRM의 과도 사고를 완화하는 조기 종료 전략인 TERMINATOR를 설계합니다. TERMINATOR의 핵심 아이디어는 LRM의 최종 답변이 처음 나타나는 위치를 예측 가능하며, 이러한 첫 답변 위치를 활용하여 TERMINATOR를 훈련시키기 위한 최적 추론 길이의 새로운 데이터셋을 생성한다는 것입니다. 이 접근법을 바탕으로 TERMINATOR는 MATH-500, AIME 2025, HumanEval, GPQA의 네 가지 도전적인 실제 데이터셋에서 평균 14%~55%의 CoT 길이 감소를 달성하면서도 현재 최신 방법들을 능가하는 성능을 보여줍니다.
기존 웹 생성 벤치마크는 텍스트 프롬프트나 정적 스크린샷을 입력으로 사용합니다. 그러나 비디오는 상호작용 흐름, 전환 타이밍, 동작 연속성 등 충실한 웹페이지 재현에 필수적인 풍부한 신호를 자연스럽게 전달합니다. 이러한 잠재력에도 불구하고, 비디오 기반 웹페이지 생성은 본격적으로 연구되지 않았으며 이 작업을 위한 전용 벤치마크가 부재한 실정입니다. 이러한 공백을 메우기 위해 우리는 MLLM이 데모 비디오로부터 웹페이지를 충실히 재현할 수 있는지 평가하는 벤치마크인 WebVR을 소개합니다. WebVR은 다양한 범주의 175개 웹페이지로 구성되어 있으며, 모두 웹 크롤링이 아닌 제어된 합성 파이프라인을 통해 구축되어 기존 온라인 페이지와의 중복 없이 다양하고 현실적인 데모를 보장합니다. 또한 생성된 웹페이지를 다중 차원에서 평가하는 세분화되고 인간 평가와 조응하는 시각적 평가지표를 설계했습니다. 19개 모델에 대한 실험 결과, 세부 스타일과 동작 품질 재현에서 상당한 격차가 확인된 반면, 평가지표 기반 자동 평가는 인간 선호도와 96% 일치율을 달성했습니다. 우리는 비디오-웹페이지 생성 분야의 향후 연구를 지원하기 위해 데이터셋, 평가 도구 및 기준 결과를 공개합니다.
모든 분류기,包括 최첨단 비전 모델은 선형 매핑의 기하학적 특성에 부분적으로 기반한 불변량을 보유합니다. 이러한 분류기의 영공간에 존재하는 불변량은 동일한 출력으로 매핑되는 등가 입력 집합을 유도합니다. 기존 방법론으로는 인간이 해석 가능한 정보를 제공하기 어려워, 이러한 불변량의 의미론적 내용은 여전히 모호한 상태입니다. 이러한 격차를 해결하기 위해 우리는 네트워크 관점에서 등가 이미지를 구성하고 가능한 변동에 의미론적 해석을 부여하는 SING(Semantic Interpretation of the Null-space Geometry) 방법을 제안합니다. 우리는 네트워크 특징에서 다중 모달 비전 언어 모델로의 매핑을 활용하여, 유도된 의미론적 변화에 대한 자연어 설명과 시각적 예시를 얻습니다. SING은 단일 이미지에 적용하여 지역적 불변량을 발견하거나, 이미지 집합에 적용하여 클래스 및 모델 수준에서 광범위한 통계 분석을 가능하게 합니다. 예를 들어, 우리 방법은 ResNet50이 관련 의미론적 속성을 영공간으로 누출하는 반면, 자기 지도 방식의 DINO로 사전 훈련된 ViT인 DinoViT는 불변 공간 전체에 걸쳐 클래스 의미론을 유지하는 데 우수함을 보여줍니다.
대규모 언어 모델(LLM)은 추론 과정에서 "잠깐만"과 같은 토큰 뒤에 나타나는 자기 수정과 같은 '아하 순간'을 종종 보이지만, 그 근본적인 메커니즘은 여전히 불분명합니다. 본 연구는 추론을 절차적 정보와 인식적 언어화(하위 제어 행동을 지원하는 불확실성의 명시적 외현화)로 분해하는 정보 이론적 프레임워크를 제시합니다. 순수한 절차적 추론은 정보적으로 정체될 수 있는 반면, 인식적 언어화는 지속적인 정보 획득을 가능하게 하며 정보 충분성 달성에 중요함을 보여줍니다. 실험 결과에 따르면 강력한 추론 성능은 특정 표면 토큰보다는 불확실성 외현화에 의해 주도됩니다. 우리의 프레임워크는 아하 순간과 사후 훈련 실험에 대한 기존 연구 결과를 통합하며, 향후 추론 모델 설계에 대한 통찰을 제공합니다.
동기는 인간 행동의 핵심 동인으로, 의사 결정, 목표 설정, 과업 수행을 형성합니다. 대규모 언어 모델(LLM)이 인간의 선호와 점점 더 조화를 이루어감에 따라, 우리는 LLM이 동기와 유사한 특성을 보이는지 질문합니다. 본 연구는 LLM이 다양한 수준의 동기를 "보고"하는지, 이러한 보고가 그 행동과 어떻게 관련되는지, 그리고 외부 요인이 이를 영향을 미칠 수 있는지 검토합니다. 우리의 실험은 인간 심리학을 연상시키는 일관되고 구조화된 패턴을 보여줍니다: 자기 보고된 동기는 다양한 행동 특성과 일치하고, 과업 유형에 따라 달라지며, 외부 조작을 통해 조절될 수 있습니다. 이러한 결과는 동기가 LLM 행동에 대한 일관된 조직 구성 개념임을 입증하며, 보고, 선택, 노력, 성과를 체계적으로 연결하고 인간 심리학에 기록된 것과 유사한 동기 역학을 드러냅니다. 이러한 관점은 모델 행동과 인간에서 영감을 받은 개념 간의 연결에 대한 이해를 심화시킵니다.
인간 모션 생성은 유효한 동작이 구조화된 비유클리드 기하학을 따름에도 불구하고 흔히 유클리드 공간에서 학습됩니다. 우리는 모션을 곱다양체 위에서 표현하고 리만 흐름 매칭을 통해 동역학을 학습하는 통합 프레임워크인 리만 모션 생성(RMG)을 제안합니다. RMG는 모션을 여러 다양체 인자로 분해하여 내적 정규화를 갖는 스케일 불변 표현을 생성하며, 훈련 및 샘플링을 위해 측지선 보간, 접공간 감독, 다양체 보존 ODE 적분을 사용합니다. HumanML3D에서 RMG는 HumanML3D 형식에서 최첨단 FID(0.043)를 달성하고 MotionStreamer 형식 하에서 보고된 모든 메트릭에서 1위를 기록했습니다. MotionMillion에서도 강력한 기준선(FID 5.6, R@1 0.86)을 능가했습니다. 애블레이션 연구를 통해 컴팩트한 T+R(병진 + 회전) 표현이 가장 안정적이고 효과적임을 확인하였으며, 이는 기하학 인식 모델링이 고충실도 모션 생성으로 가는 실용적이고 확장 가능한 경로임을 강조합니다.
우리는 포켓몬의 다중 에이전트 배틀 시스템과 방대한 롤플레잉 게임(RPG) 환경을 기반으로 의사 결정 연구를 위한 대규모 벤치마크인 PokeAgent Challenge를 소개한다. 부분 관찰 가능성, 게임 이론적 추론, 장기 계획 수립은 최첨단 AI의 미해결 과제로 남아 있지만, 현실적인 조건 하에서 이 세 가지를 동시에 검증하는 벤치마크는 거의 없다. PokeAgent는 상호 보완적인 두 가지 트랙을 통해 이러한 한계를 대규모로 해결한다: 경쟁적 포켓몬 배틀에서 부분 관찰 가능성 하의 전략적 추론과 일반화를 요구하는 Battling Track과, 포켓몬 RPG에서 장기 계획 수립과 순차적 의사 결정을 요구하는 Speedrunning Track이 그것이다. Battling Track은 2천만 개 이상의 배틀 궤적 데이터셋과 고수준 경쟁 플레이가 가능한 휴리스틱, 강화학습(RL), LLM 기반 베이스라인 모델군을 제공한다. Speedrunning Track은 RPG 스피드런에 대한 최초의 표준화된 평가 프레임워크를 제공하며, 모듈화된 하네스 기반 LLM 접근법의 재현 가능한 비교를 위한 오픈소스 다중 에이전트 오케스트레이션 시스템을 포함한다. NeurIPS 2025 경쟁은 우리 자원의 질과 포켓몬에 대한 연구 커뮤니티의 관심을 입증했으며, 두 트랙에 100개 이상의 팀이 참가했고 우승 솔루션은 논문에 상세히 기술되었다. 참가자 제출물과 우리의 베이스라인은 범용 모델(LLM), 전문 모델(RL), 엘리트 인간 수행 간에 상당한 격차가 있음을 보여준다. BenchPress 평가 매트릭스에 따른 분석은 포켓몬 배틀이 표준 LLM 벤치마크와 거직 직교적 관계에 있음을 보여주며, 기존 평가군이 포착하지 못한 능력을 측정함으로써 포켓몬을 RL 및 LLM 연구를 앞당길 미해결 벤치마크로 위치시킨다. 우리는 https://pokeagentchallenge.com에서 Battling을 위한 실시간 리더보드와 Speedrunning을 위한 독립형 평가 시스템을 갖춘 지속적 벤치마크로 전환한다.
코드 생성을 위한 강화 학습은 일반적으로 단위 테스트 통과율이라는 검증 가능한 보상에 의존합니다. 그러나 고품질 테스트 스위트는 부족한 실정이며, 기존 데이터셋은 제한된 커버리지만 제공하고, 정적 보상은 모델이 개선됨에 따라 적응하지 못합니다. 최근 등장한 자기 경험(self-play) 기법은 코드 생성과 테스트 생성을 단일 모델로 통합하지만, 본질적인 딜레마에 직면합니다: 화이트박스 접근은 모델이 쉬운 보상을 위해 사소한 테스트를 생성하는 자기 공모(self-collusion)로 이어지고, 블랙박스 제약은 구현 특화 버그를 놓치는 일반적인 테스트만 생성하게 됩니다. 본 논문에서는 상반된 목표를 가진 코드 LLM과 테스트 LLM을 함께 최적화하는 적대적 공진화(adversarial co-evolution) 프레임워크인 Code-A1을 소개합니다. 코드 LLM은 더 많은 테스트를 통과할 때 보상을 받고, 테스트 LLM은 더 많은 결함을 찾아낼 때 보상을 받습니다. 이러한 아키텍처적 분리는 자기 공모 위험을 제거하고, 테스트 LLM이 후보 코드를 검사하여 표적 적대적 테스트를 생성할 수 있는 화이트박스 테스트 생성을 안전하게 가능하게 합니다. 또한 경험 재생을 위한 오류 기록부(Mistake Book) 메커니즘과 테스트 타당성과 적대적 난이도를 균형 있게 고려한 복합 보상 체계를 도입했습니다. Qwen2.5-Coder 모델을 이용한 실험 결과, Code-A1은 인간이 주석을 단 테스트로 학습한 모델에 필적하거나 그 이상의 코드 생성 성능을 달성하는 동시에 테스트 생성 능력을 크게 향상시킴을 확인했습니다.
어포던스 예측은 구현형 AI에서 지각과 행동을 잇는 중요한 다리 역할을 합니다. 그러나 기존 연구는 좁은 시야각과 단편적인 관찰로 인해 종종 중요한 전체적 환경 맥락을 놓치는 핀홀 카메라 모델에 한정되어 있습니다. 본 논문에서는 전역적 공간 관계와 전체적 장면 이해를 포착하기 위해 360도 이미지를 활용하는 파노라믹 어포던스 예측을 최초로 탐구합니다. 이 새로운 과제를 지원하기 위해, 우리는 먼저 1,000개 이상의 초고해상도(12k, 11904 x 5952) 파노라마 이미지와 12,000개 이상의 정밀하게 주석 처리된 QA 쌍 및 어포던스 마스크를 포함하는 대규모 벤치마크 데이터셋인 PAP-12K를 소개합니다. 더 나아가, 파노라마 이미지의 고유한 초고해상도와 심한 왜곡 문제를 해결하기 위해 인간의 중심와 시각 시스템에서 영감을 받은 훈련이 필요 없는 coarse-to-fine 파이프라인인 PAP를 제안합니다. PAP는 그리드 프롬프팅을 통한 재귀적 시각 라우팅을 사용하여 대상을 점진적으로定位(locate)하고, 적응형 시선 메커니즘을 적용하여 지역적 기하학적 왜곡을 교정하며, 캐스케이딩 그라운딩 파이프라인을 활용하여 정밀한 인스턴스 수준 마스크를 추출합니다. PAP-12K에 대한 실험 결과, 표준 투시 이미지를 위해 설계된 기존 어포던스 예측 방법들은 파노라믹 시각의 고유한 과제로 인해 심각한 성능 저하를 겪고 실패하는 것으로 나타났습니다. 반면, PAP 프레임워크는 이러한 장애물을 효과적으로 극복하여 최첨단 기준선들을 크게 능가하며 강건한 구현형 인텔리전스를 위한 파노라믹 지각의 엄청난 잠재력을 부각시킵니다.
멀티모달 대규모 언어 모델(MLLMs)은 개별 평가에서 시각 및 청각 이해 능력이 우수한 것으로 나타났습니다. 그러나 길고 복잡한 비디오에서 전모드(시각, 청각, 텍스트) 신호를 종합적으로 추론하는 능력은 아직 크게 탐구되지 않았습니다. 우리는 이러한 도전적인 실제 조건에서 멀티모달 이해 및 추론 능력을 체계적으로 평가하기 위해 새로운 벤치마크인 MMOU를 소개합니다. MMOU는 다양한 길이의 웹 수집 비디오 9,038개와 쌍을 이루는 15,000개의 정교하게 선별된 질문으로 구성되며, 다양한 영역을 아우르고 풍부하고 긴밀하게 결합된 오디오-비디오 콘텐츠를 특징으로 합니다. 이 벤치마크는 모달리티와 시간에 걸친 증거 통합을 요구하는 13가지 기본 기술 범주를 포괄합니다. 모든 질문은 전문 주석자가 다중 턴에 걸쳐 수동으로 주석을 달아 높은 품질과 추론 정확도를 보장합니다. 우리는 MMOU를 통해 20개 이상의 최첨단 오픈소스 및 독점 멀티모달 모델을 평가했습니다. 결과는 상당한 성능 격차를 드러냈습니다: 최고의 독점 모델은 64.2% 정확도만 달성한 반면, 가장 강력한 오픈소스 모델은 46.8%에 그쳤습니다. 우리의 결과는 장편 전모드 이해의 어려움을 강조하며, 현재 모델들이 긴 비디오에서 기본적인 기술조차 자주 적용하지 못함을 보여줍니다. 상세 분석을 통해 우리는 체계적인 실패 모드를 추가로 식별하고, 현재 모델이 어디서 왜 실패하는지에 대한 통찰을 제공합니다.
사전 훈련된 대규모 언어 모델(LLM)은 광범위한 능력을 보여주지만, 특정 작업이나 도메인에서 더 높은 정확도와 신뢰할 수 있는 추론을 달성하기 위해서는 일반적으로 지도 미세 조정(SFT) 또는 강화 학습(RL)을 통한 사후 훈련이 필요합니다. 비록 종종 별개의 방법론으로 취급되지만, 최근의 이론적 및 실증적 발전은 SFT와 RL이 밀접하게 연결되어 있음을 보여줍니다. 본 연구는 SFT와 RL을 이용한 LLM 사후 훈련에 대한 포괄적이고 통합된 관점을 제시합니다. 먼저 두 기술의 목표, 알고리즘 구조, 데이터 요구 사항을 검토하며 심층적으로 개요를 제공합니다. 다음으로 SFT와 RL을 통합하는 프레임워크, 하이브리드 훈련 파이프라인, 그리고 상호 보완적 강점을 활용하는 방법을 부각시키며 이들의 상호작용을 체계적으로 분석합니다. 2023년부터 2025년까지의 대표적인 최신 응용 연구 사례를 바탕으로 부상하는 트렌드를 확인하고, 하이브리드 사후 훈련 패러다임으로의 급속한 전환을 특징짓으며, 각 방법이 언제, 왜 가장 효과적인지 명확히 하는 핵심 시사점을 도출합니다. 이론적 통찰, 실용적 방법론, 실증적 증거를 종합함으로써, 본 연구는 통합된 프레임워크 내에서 SFT와 RL에 대한 일관된 이해를 정립하고, 확장 가능하고 효율적이며 일반화 가능한 LLM 사후 훈련을 위한 향후 연구의 유망한 방향을 제시합니다.
세분화된 MoE의 스케일링 법칙에서 드러났듯이, 중간 차원의 세분화 정도가 최적 임계값을 초과하면 모델 성능 향상이 정체되어 단일 차원 세분화 설계의 추가 이득이 제한됩니다. 이러한 병목 현상을 해결하기 위해 우리는 중간 차원과 출력 차원 모두에 세분화된 전문가 설계를 확장하여 단일 차원 한계를 넘어 전문가 특화를 강화하는 FineRMoE(FineR-Grained MoE) 아키텍처를 제안합니다. 또한 활성화를 제어하기 위한 이중 수준 희소 순전파 계산 패러다임과 특화된 라우팅 메커니즘을 도입합니다. 더불어 FineRMoE를 처음부터 훈련하는 데 따르는 과도한 비용을 방지하기 위해, 비용 효율적인 방식으로 FineRMoE를 구축할 수 있는 일반화된 업사이클링 방법을 고안했습니다. 대규모 실험을 통해 FineRMoE가 10개의 표준 벤치마크에서 달성한 우수한 성능을 입증했습니다. 가장 강력한 베이스라인 대비 FineRMoE는 6배 높은 매개변수 효율, 281배 낮은 프리필 지연 시간, 그리고 추론 시 136배 높은 디코딩 처리량을 달성했습니다.
텍스트 및 이미지 생성의 주요 발전에 이어 비디오 분야가 급부상하며 매우 사실적이고 제어 가능한 영상 시퀀스를 생산해내고 있습니다. 이러한 진전과 함께, 이러한 모델들은 허위정보에 대한 심각한 우려도 제기하여 합성 비디오의 신뢰할 수 있는 탐지가 점점 더 중요해지고 있습니다. 이미지 기반 탐지기는 프레임 단위로 작동하고 시간적 동역학을 무시하기 때문에 근본적인 한계가 있으며, 지도 학습 비디오 탐지기는 보지 못한 생성 모델에 대한 일반화 성능이 낮아 새로운 모델이 빠르게 등장하는 현 상황에서 치명적인 단점을 보입니다. 이러한 과제들은 합성 데이터를 사용하지 않고 대신 실제 데이터 통계에 대해 콘텐츠를 평가하여 학습이 필요 없고 모델에 구애받지 않는 탐지를 가능하게 하는 제로샷 접근법의 동기가 됩니다. 우리는 확률론적 프레임워크 내에서 공간적 및 시간적 증거를 공동으로 모델링하여 비디오에 대한 가능도 기반 점수를 제공하는 간단하고 학습이 필요 없으며 이론적으로 타당한 탐지기인 STALL을 소개합니다. 우리는 STALL을 두 개의 공개 벤치마크에서 평가하고 최신 생성 모델을 포함한 새로운 벤치마크인 ComGenVid를 도입했습니다. STALL은 기존의 이미지 및 비디오 기반 기준 방법들을 지속적으로 능가했습니다. 코드와 데이터는 https://omerbenhayun.github.io/stall-video에서 확인할 수 있습니다.
단일 이미지 재조명은 매우 제약이 적은 문제로, 작은 조명 변화에도 그림자, 음영, 반사가 비선형적으로 크게 변하는 반면 기하 구조와 재질은 관측되지 않습니다. 기존 확산 모델 기반 접근법은 내재적 분해나 G-버퍼 파이프라인에 의존해 조밀하고 취약한 지도 학습이 필요하거나, 물리적 근거 없이 순수 잠재 공간에서 작동하여 방향, 강도, 색상에 대한 세밀한 제어가 불안정합니다. 우리는 정확한 재조명을 위해 완전한 내재적 분해가 불필요하고 중복됨을 확인했습니다. 대신 조명이 변화해야 할 위치와 재질이 반응해야 할 방식을 나타내는 희소하지만 물리적으로 의미 있는 단서들만으로도 확산 모델을 안내하는 데 충분합니다. 이러한 통찰을 바탕으로 우리는 두 수준에서 물리적 사전 지식을 통합하는 LightCtrl을 제안합니다: 제한된 PBR 지도 학습으로부터 간결한 재질-기하 구조 단서를 추출하는 소수 샷 잠재 프록시 인코더와, 조명에 민감한 영역을 식별하고 디노이저가 음영 관련 픽셀에 집중하도록 유도하는 조명 인식 마스크입니다. 부족한 PBR 데이터를 보완하기 위해 DPO 기반 목적 함수로 프록시 분기를 개선하여 예측 단서의 물리적 일관성을 강화합니다. 또한 체계적으로 변화하는 조명과 완전한 카메라-라이트 메타데이터를 갖춘 대규모 객체 수준 데이터셋인 ScaLight을 제시하여 물리적으로 일관되고 제어 가능한 학습을 가능하게 합니다. 객체 및 장면 수준 벤치마크에서 우리 방법은 정확한 연속 제어가 가능한 광도 측면에서 충실한 재조명 결과를 달성하며, 기존 확산 및 내재적 기반 방법들을 능가합니다. 특히 제어된 조명 변화에서 최대 +2.4dB PSNR 향상과 35% 낮은 RMSE를 보입니다.
원격 감지 세계 모델은 관찰된 변화를 설명하고 가능한 미래를 예측하는 두 가지 과제를 수행하는 것을 목표로 하며, 이 두 과제는 시공간적 사전 정보를 공유합니다. 그러나 기존 방법론은 일반적으로 이들을 별도로 처리하여 과제 간 전이를 제한합니다. 본 연구에서는 시공간 변화 이해와 텍스트 기반 미래 장면 예측을 통합적으로 처리하는 원격 감지 통합 세계 모델인 RS-WorldModel을 제시하고, 두 과제를 포괄하는 풍부한 언어 주해가 포함된 110만 개 샘플 데이터셋인 RSWBench-1.1M을 구축합니다. RS-WorldModel은 세 단계로 훈련됩니다: (1) 지리 인식 생성 사전 훈련(GAGP)은 지리 및 취득 메타데이터를 기반으로 예측을 조건화하고, (2) 시너지 명령어 튜닝(SIT)은 이해와 예측을 공동으로 훈련하며, (3) 검증 가능한 강화 최적화(VRO)는 검증 가능한 과제별 보상으로 출력을 정제합니다. 단 20억 개의 매개변수만으로 RS-WorldModel은 대부분의 시공간 변화 질의응답 메트릭에서 최대 120배 큰 오픈소스 모델들을 능가합니다. 텍스트 기반 미래 장면 예측에서 FID 43.13을 달성하여 모든 오픈소스 기준 모델과 폐쇄형 모델인 Gemini-2.5-Flash Image(Nano Banana)보다 우수한 성능을 보입니다.
AI가 중요한 미해결 수학 문제에 진전을 이룰 수 있을까? 대규모 언어 모델은 이제 정교한 수학 및 과학적 추론이 가능하지만, 새로운 연구를 수행할 수 있는지 여부는 여전히 널리 논쟁되고 있으며 충분히 탐구되지 않았습니다. 우리는 계산 및 응용 수학의 8개 영역에 걸친 100개 이상의 주로 미해결 문제로 구성된 벤치마크인 HorizonMath와 자동 검증을 위한 오픈소스 평가 프레임워크를 소개합니다. 우리의 벤치마크는 발견이 어렵고 의미 있는 수학적 통찰력을 요구하지만, 검증은 계산적으로 효율적이고 간단한 문제 유형을 대상으로 합니다. 이러한 해법은 알려지지 않았기 때문에 HorizonMath는 데이터 오염에 영향을 받지 않으며, 대부분의 최첨단 모델은 0%에 가까운 점수를 기록합니다. 기존 연구 수준 벤치마크는 공식적인 증명 검증이나 수동 검토에 의존하는데, 이 둘 모두 확장하기에 비용이 많이 듭니다. 이 플랫폼을 사용하여 GPT 5.4 Pro가 기존에 공개된 가장 우수한 결과를 개선하는 해법을 제안하는 두 가지 문제를 발견했으며, 이는 잠재적으로 새로운 기여가 될 수 있습니다(전문가 검토 진행 중). 우리는 HorizonMath를 오픈 챌린지 및 성장하는 커뮤니티 자원으로 공개하여, 미해결 문제 클래스에 대한 정확한 해법이 수학 문헌에서 새로운 결과가 될 수 있도록 합니다.
비디오 추론은 모델이 프레임 간에 질문 관련 증거를 찾고 추적할 것을 요구합니다. 검증 가능한 보상을 활용한 강화 학습(RL)은 정확도를 향상시키지만, 여전히 추론 과정에서 신뢰할 수 있는 시공간적 기반 확보에 어려움을 겪습니다. 더욱이 기반 성능 향상은 일반적으로 확장된 훈련 데이터나 추론 시점 인식 도구에 의존하므로, 이는 주석 비용이나 계산 비용을 증가시킵니다. 이러한 문제를 해결하기 위해 우리는 훈련 시점 지침으로 시각적 프롬프팅을 통해 시공간적 기반을 개선하는 입력 적응형 RL 프레임워크인 VisonCoach를 제안합니다. RL 훈련 동안 시각적 프롬프트는 어려운 입력에 선택적으로 적용되어 질문 관련 증거를 증폭하고 방해 요소를 억제합니다. 그런 다음 모델은 자기 지식을 통해 이러한 개선 사항을 내재화하여 추론 시점에는 시각적 프롬프트 없이 원본 비디오에서 직접 기반 추론을 수행할 수 있게 됩니다. VisonCoach는 두 가지 구성 요소로 이루어집니다: (1) 비디오와 질문에 조건부로 적절한 프롬프트 유형을 예측하는 시각적 프롬프트 선택기와 (2) 시각적 프롬프트 지도 및 객체 인식 일관성과 다중 영역 경계 상자 중첩을 강제하는 객체 인식 기반 보상 하에서 RL로 최적화되는 시공간 추론기입니다. 다양한 비디오 추론, 비디오 이해 및 시간적 기반 벤치마크(V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest, Charades-STA)에서 수행된 폭넓은 실험을 통해 VisonCoach가 동등한 설정 하에서 최첨단 성능을 달성하면서도 외부 도구 없이 단일 효율적인 추론 경로를 유지함을 입증했습니다. 우리의 결과는 훈련 중 시각적 프롬프팅이 기반 비디오 추론을 개선하는 동시에, 자기 지식을 통해 모델이 추론 시점에 프롬프트가 필요 없이 이 능력을 내재화할 수 있음을 보여줍니다.
궤적 제어 동영상 생성 분야의 최근 발전은 눈에 띄는 진전을 이루었습니다. 기존 방법들은 주로 미리 정의된 궤적을 따라 정밀한 모션 제어를 위해 어댑터 기반 아키텍처를 사용합니다. 그러나 이러한 방법들은 모두 다단계 잡음 제거 과정에 의존하여 상당한 시간 중복과 계산 부하가 발생합니다. 기존 동영상 증류 방법들은 다단계 생성기를 소수 단계로 증류하는 데 성공했지만, 이러한 접근법을 궤적 제어 동영상 생성에 직접 적용하면 동영상 품질과 궤적 정확도 모두에서 현저한 저하가 발생합니다. 이러한 격차를 해소하기 위해 우리는 소수 단계 궤적 제어 동영상 생성을 위해 설계된 새로운 훈련 프레임워크인 FlashMotion을 소개합니다. 우리는 먼저 정확한 궤적 제어를 위해 다단계 동영상 생성기에 궤적 어댑터를 훈련시킵니다. 그런 다음 생성기를 소수 단계 버전으로 증류하여 동영상 생성 속도를 높입니다. 마지막으로 확산 및 적대적 목적 함수를 결합한 하이브리드 전략을 사용하여 어댑터를 미세 조정함으로써 고품질이면서 궤적 정확도가 높은 동영상을 생성하도록 소수 단계 생성기와 조정합니다. 평가를 위해 우리는 다양한 수의 전경 객체에 걸쳐 동영상 품질과 궤적 정확도를 모두 측정하는 장면열 궤적 제어 동영상 생성 벤치마크인 FlashBench을 도입했습니다. 두 가지 어댑터 아키텍처에 대한 실험 결과, FlashMotion이 기존 동영상 증류 방법과 이전 다단계 모델들을 시각적 품질과 궤적 일관성 모두에서 능가하는 것으로 나타났습니다.
최근 연구에서는 대규모 언어 모델(LLM)의 심화에 따른 한계가 확인되었는데, 이는 후반 레이어들이 초반 레이어들에 비해 학습 및 표현에 기여하는 정도가 적다는 것을 의미합니다. 이러한 활용도 저하는 사전 레이어 정규화에서 분산이 누적되어 증가함에 따라 발생하며, 이로 인해 깊은 블록들이 거론 항등 함수에 가까운 동작을 보이게 됩니다. 본 논문에서는 희소성이 효율성 제공을 넘어 분산 전파를 조절하는 역할을 함으로써 레이어 활용도를 향상시킨다는 것을 입증합니다. 우리의 연구는 두 가지 희소성 원인을 다룹니다: (i) 가중치 감쇠에 의해 유도되는 가중치 희소성 및 장문맥 입력에 의해 유도되는 어텐션 희소성을 포함하여 훈련 및 데이터 조건에서 자연스럽게 발생하는 내재적 희소성; 그리고 (ii) Grouped-Query Attention의 키/값 공유 희소성 및 Mixture-of-Experts의 전문가 활성화 희소성을 포함하여 아키텍처 설계를 통해 강제되는 명시적 희소성. 우리의 주장은 엄격하게 통제된 심화 확장 실험과 특정 레이어 효과성 개입 실험을 통해 충분히 입증되었습니다. 다양한 설정에서 우리는 일관된 관계, 즉 희소성이 출력 분산을 줄이고 기능적 분화를 촉진함으로써 레이어 활용도를 향상시킨다는 것을 관찰했습니다. 우리는 궁극적으로 이러한 발견을 실제 적용 가능한 경험적 방법론으로 정제하여 다운스트림 작업에서 4.6%의 주목할 만한 정확도 향상을 달성했습니다. 우리의 결과는 표준 설계 선택에서 자연스럽게 발생하는 희소성이 LLM의 효과적인 심화 확장을 위한 중요하지만 이전에는 간과되었던 메커니즘임을 보여줍니다. 코드는 https://github.com/pUmpKin-Co/SparsityAndCoD에서 확인할 수 있습니다.
구현된 AI 에이전트는 점차 다양한 시간 제약 하에 공유 관측 데이터로부터 조작, 대화, 메모리 구축과 같은 여러 작업을 병렬로 실행해야 할 필요가 증가하고 있습니다. 최근 Mixture-of-Transformers(MoT) 기반의 시각-언어-행동 모델(VLAs)은 구조적으로 이러한 이질적 출력을 지원하지만, 기존 추론 시스템은 중복 계산과 자원 경쟁으로 인해 온디바이스 배포를 위한 효율적인 다중 작업 병렬 처리를 달성하지 못하고 있습니다. 우리는 분리된 KV 캐시 관리가 근본 원인이라고 판단합니다. 이를 해결하기 위해 우리는 KV 캐시를 작업 간 그리고 시간에 걸쳐 1급 공유 자원으로 취급하는 추론 패러다임인 통합 KV 캐시 관리 기법을 제안합니다. 이 추상화는 두 가지 핵심 최적화를 가능하게 합니다: 교차 작업 KV 공유는 공유 관측 데이터의 중복 프리필을 제거하고, 교차 프레임 연속 배치는 가변 길이 언어 디코딩을 제어 주기별 고정 속도 행동 생성과 분리합니다. 우리는 가장 대표적인 MoT VLA인 π_{0.5}에 이 패러다임을 구현하고 대표적인 로봇 구성 하에서 평가합니다. OxyGen은 분리 실행 대비 최대 3.7배의 속도 향상을 달성하며, 행동 품질 저하 없이 동시에 200 token/s 이상의 언어 처리량과 70Hz의 행동 주파수를 제공합니다.
시각적 텍스트 렌더링을 위한 정확한 글리프 생성은 필수적이면서도 어려운 과제입니다. 기존 방법들은 일반적으로 대량의 고품질 장면 텍스트 이미지에 대한 학습을 통해 텍스트 렌더링 성능을 향상시키지만, 글리프 변형 범위의 제한적 coverage 과 과도한 스타일화로 인해 특히 복잡하거나 도메인 외 문자에서 글리프 정확도가 떨어지는 경우가 많습니다. 일부 방법은 강화 학습을 활용하여 이 문제를 완화하지만, 해당 보상 모델은 미세한 글리프 오류에 둔감한 텍스트 인식 시스템에 의존하므로 잘못된 글리프가 포함된 이미지도 높은 보상을 받을 수 있습니다. 직접 선호도 최적화(DPO)에서 영감을 받아, 우리는 명시적 보상 모델에 대한 의존성을 제거한 선호도 기반 텍스트 렌더링 방법인 GlyphPrinter를 제안합니다. 그러나 표준 DPO 목적 함수는 두 샘플 간의 전체적 선호도만을 모델링하므로, 글리프 오류가 일반적으로 특정 지역에서 발생하는 시각적 텍스트 렌더링에는 불충분합니다. 이 문제를 해결하기 위해 우리는 지역 수준의 글리프 선호도 주석이 포함된 GlyphCorrector 데이터셋을 구축하고, 주석이 달린 지역에 대해 샘플 간 및 샘플 내 선호도를 최적화하는 지역 기반 목적 함수인 Region-Grouped DPO(R-GDPO)를 제안하여 글리프 정확도를 크게 향상시킵니다. 더 나아가, 제어 가능한 글리프 정확도를 가진 최적 분포에서 샘플링하는 추론 전략인 Regional Reward Guidance를 도입합니다. 광범위한 실험을 통해 제안된 GlyphPrinter가 스타일화와 정밀도 사이의 유리한 균형을 유지하면서 글리프 정확도에 있어 기존 방법들을 능가함을 입증합니다.
최근 비디오 확산 모델은 시각적 품질에서 놀라운 발전을 이루었으나, 정밀하고 세밀한 제어는 콘텐츠 제작을 위한 실질적인 사용자 지정 가능성을 제한하는 주요 병목 현상으로 남아 있습니다. AI 비디오 제작자에게는 세 가지 형태의 제어가 중요합니다: (i) 장면 구성, (ii) 다중 뷰 일관성 있는 주체 사용자 지정, (iii) 카메라 포즈 또는 객체 모션 조정. 기존 방법들은 일반적으로 이러한 차원을 별도로 처리하며, 임의의 포즈 변화에서 다중 뷰 주체 합성 및 정체성 보존에 대한 지원이 제한적입니다. 이러한 통합 아키텍처의 부재는 다용도적이고 공동 제어 가능한 비디오를 지원하기 어렵게 만듭니다. 우리는 장면 구성, 다중 뷰 주체 일관성, 모션 제어를 통합하는 통합 프레임워크이자 2단계 학습 패러다임인 Tri-Prompting을 소개합니다. 우리의 접근 방식은 배경 장면에는 3D 추적 점으로, 전경 주체에는 다운샘플링된 RGB 단서로 구동되는 이중 조건 모션 모듈을 활용합니다. 제어 가능성과 시각적 현실감 사이의 균형을 보장하기 위해, 우리는 추론 시 ControlNet 스케일 스케줄을 추가로 제안합니다. Tri-Prompting은 어떤 장면에도 3D 인식 주체 삽입 및 이미지 내 기존 주체 조작을 포함한 새로운 워크플로우를 지원합니다. 실험 결과는 Tri-Prompting이 Phantom 및 DaS와 같은 특화된 베이스라인을 다중 뷰 주체 정체성, 3D 일관성 및 모션 정확도에서 크게 능가함을 보여줍니다.
본 논문에서는 잠재 확산(latent diffusion)에서 변분 자동인코더(VAE)의 확산 가능성(학습 가능성)을 연구합니다. 먼저, MSE 목적함수로 학습된 픽셀 공간 확산이 본질적으로 저주파 및 중주파 공간 주파수를 학습하는 데 편향되어 있음을 보이고, 자연 이미지의 멱법칙 파워 스펙트럼 밀도(PSD)가 이러한 편향을 지각적으로 유리하게 만든다는 점을 확인합니다. 이 결과에 기반하여 우리는 스펙트럼 정합 가설(Spectrum Matching Hypothesis)을 제안합니다: 우수한 확산 가능성을 지닌 잠재 변수는 (i) 평평화된 멱법칙 PSD를 따라야 하며(인코딩 스펙트럼 정합, ESM), (ii) 디코더를 통한 주파수 대 주파수 의미론적 대응 관계를 보존해야 합니다(디코딩 스펙트럼 정합, DSM). 실제로 우리는 이미지와 잠재 변수 간의 PSD를 정합하여 ESM을 적용하고, 주파수 정렬 복구와 공유 스펙트럼 마스킹을 통해 DSM을 구현합니다. 중요한 점은, 스펙트럼 정합이 지나치게 노이즈가 많거나 과도하게 평활화된 잠재 변수에 대한 기존 관찰을 명확히 설명하고, 여러 최신 방법들(예: VA-VAE, EQ-VAE)을 특수한 경우로 해석하는 통합된 관점을 제공한다는 것입니다. 실험 결과, 스펙트럼 정합이 CelebA 및 ImageNet 데이터셋에서 우수한 확산 생성 성능을 보이며 기존 접근법들을 능가함을 확인했습니다. 마지막으로, 우리는 이 스펙트럼 관점을 표현 정렬(REPA)로 확장합니다: 목표 표현의 방향성 스펙트럼 에너지가 REPA에 중요함을 보이고, REPA의 성능을 더욱 향상시키기 위한 DoG 기반 방법을 제안합니다. 우리의 코드는 https://github.com/forever208/SpectrumMatching 에서 이용할 수 있습니다.
AI 에이전트가 장기 실행 시스템으로 점점 더 많이 배포됨에 따라, 동적 환경 내 상호작용을 가능하게 하기 위해 맞춤형 소프트웨어를 자율적으로 구축하고 지속적으로 발전시키는 것이 필수적이 되었습니다. 그러나 기존 벤치마크는 고립된 1회성 코딩 작업에 대해 에이전트를 평가하여, 실제 소프트웨어 진화에 내재된 시간적 의존성과 기술 부채를 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 노이즈가 있는 커밋 로그에서 검증 가능한 마일스톤 DAG(방향성 비순환 그래프)를 재구성하는 에이전트 파이프라인인 DeepCommit을 소개합니다. 여기서 마일스톤은 의미론적으로 응집된 개발 목표로 정의됩니다. 이러한 실행 가능한 시퀀스는 EvoClaw라는 새로운 벤치마크를 가능하게 하는데, 이 벤치마크는 에이전트가 시스템 무결성을 유지하고 오류 축적을 제한하도록 요구하며, 이는 기존 벤치마크에서 크게 간과되었던 장기 소프트웨어 진화의 차원입니다. 4가지 에이전트 프레임워크에서 12개의 최첨단 모델을 평가한 결과, 중요한 취약점이 드러났습니다: 전체 성능 점수가 고립된 작업에서는 80% 이상이었던 것이 연속적인 설정에서는 최대 38%로 크게 하락하여, 에이전트들이 장기적 유지보수와 오류 전파에 극심한 어려움을 겪고 있음을 보여줍니다.
연방공개시장위원회(FOMC) 성명은 통화정책 정보의 주요 원천이며, 그 문장 구성의 미세한 변화조차도 글로벌 금융 시장을 움직일 수 있습니다. 따라서 이 텍스트가 전달하는 강경-완화 스탠스를 측정하는 것이 핵심 과제입니다. 기존 접근법은 일반적으로 스탠스 탐지를 표준 분류 문제로 취급하며 각 성명을 개별적으로 라벨링합니다. 그러나 통화정책 커뮤니케이션의 해석은 본질적으로 상대적입니다: 시장 반응은 성명의 어조뿐만 아니라 회의 간 그 어조가 어떻게 변화하는지에도 의존합니다. 본 연구에서는 절대적 스탠스와 회의 간 상대적 변화를 함께 모델링하여 고정된 대형 언어 모델(LLM) 표현을 연속적인 스탠스 점수로 매핑하는 라벨링 불필요 프레임워크인 델타 일관성 스코어링(DCS)을 소개합니다. DCS는 수동으로 붙인 강경-완화 라벨에 의존하기보다 연속적인 회의를 자기 지도 학습의 원천으로 활용합니다. 이는 각 성명에 대한 절대적 스탠스 점수와 연속 성명 간의 상대적 변화 점수를 학습합니다. 델타 일관성 목적 함수는 절대 점수의 변화가 상대적 변화와 일관되도록 유도합니다. 이를 통해 DCS는 수동 라벨 없이도 시간적으로 일관된 스탠스 궤적을 복원할 수 있습니다. 4가지 LLM 백본에 걸쳐 DCS는 지도형 탐지기(supervised probe) 및 LLM-as-judge 기준선을 지속적으로 능가하며, 문장 수준 강경-완화 분류에서 최대 71.1%의 정확도를 달성했습니다. 그 결과 도출된 회의 수준 점수는 경제적으로도 의미가 있습니다: 이는 인플레이션 지표와 강한 상관관계를 보이며, 국채 수익률 변동과도 유의미하게 연관되었습니다. 전반적으로, 이러한 결과는 LLM 표현이 상대적 시간 구조를 통해 복원 가능한 통화정책 신호를 내포하고 있음을 시사합니다.
비전-언어-행동(VLA) 모델은 정적 조작에서는 뛰어난 성능을 보이지만 이동 표적이 있는 동적 환경에서는 어려움을 겪습니다. 이러한 성능 격차는 주로 동적 조작 데이터셋의 부족과 기존 VLA 모델이 단일 프레임 관찰에 의존하여 시공간 추론 능력이 제한되기 때문입니다. 이를 해결하기 위해 우리는 계층적 복잡성을 가진 35개 작업, 11만 개 이상의 전문가 궤적, 다차원 평가 제품군으로 구성된 일반화 가능한 동적 조작을 위한 대규모 데이터셋 및 벤치마크인 DOMINO를 소개합니다. 포괄적인 실험을 통해 기존 VLA 모델을 동적 작업에 대해 체계적으로 평가하고, 동적 인식을 위한 효과적인 훈련 전략을 탐구하며, 동적 데이터의 일반화 가능성을 검증합니다. 더 나아가 우리는 동적 인식 VLA 아키텍처인 PUMA를 제안합니다. 장면 중심 역사적 광류와 객체 중심 미래 상태를 암묵적으로 예측하기 위한 전용 월드 쿼리를 통합함으로써 PUMA는 역사 인식 인식과 단기 예측을 결합합니다. 결과적으로 PUMA는 최첨단 성능을 달성하여 기준 모델 대비 성공률에서 6.3%의 절대적 향상을 보였습니다. 또한 동적 데이터로 훈련하면 정적 작업으로 전이 가능한 강력한 시공간 표현이 학습됨을 확인했습니다. 모든 코드와 데이터는 https://github.com/H-EmbodVis/DOMINO에서 이용할 수 있습니다.
개념 맞춤화는 일반적으로 희귀 토큰을 대상 개념에 바인딩하는 방식으로 이루어집니다. 그러나 이러한 접근법은 사전 학습 데이터에 이러한 희귀 토큰이 거의 포함되지 않아 성능이 불안정한 경우가 많습니다. 동시에 이러한 희귀 토큰은 대상 개념의 내재적 지식을 전달하지 못합니다. 이에 따라 우리는 다양한 텍스트 지식을 대상 시각 개념에 바인딩하는 것을 목표로 하는 새로운 과제인 지식 인식 개념 맞춤화(Knowledge-aware Concept Customization)를 소개합니다. 이 과제는 모델이 텍스트 프롬프트 내 지식을 식별하여 높은 정확도의 맞춤형 생성을 수행할 것을 요구합니다. 또한 모델은 모든 텍스트 지식을 대상 개념에 효율적으로 바인딩해야 합니다. 따라서 우리는 지식 인식 개념 맞춤화를 위한 새로운 프레임워크인 MoKus를 제안합니다. 우리의 프레임워크는 핵심 관찰인 교차 모달 지식 전이에 기반합니다. 이는 텍스트 모달리티 내 지식을 수정하면 생성 과정에서 자연스럽게 시각 모달리티로 전이된다는 점입니다. 이러한 관찰에서 영감을 받은 MoKus는 두 단계로 구성됩니다: (1) 시각 개념 학습 단계에서는 대상 개념의 시각 정보를 저장하기 위한 앵커 표현을 먼저 학습합니다. (2) 텍스트 지식 업데이트 단계에서는 지식 쿼리에 대한 답변을 앵커 표현으로 업데이트하여 높은 정확도의 맞춤형 생성을 가능하게 합니다. 새로운 과제에 대해 제안된 MoKus를 보다 종합적으로 평가하기 위해 우리는 지식 인식 개념 맞춤화를 위한 첫 번째 벤치마크인 KnowCusBench를 도입했습니다. 광범위한 평가를 통해 MoKus가 최신 방법들을 능가함을 입증했습니다. 더 나아가 교차 모달 지식 전이 덕분에 MoKus는 가상 개념 생성 및 개념 삭제와 같은 다른 지식 인식 응용 프로그램으로 쉽게 확장될 수 있습니다. 우리는 또한 우리 방법이 세계 지식 벤치마크에서 향상을 달성하는 능력을 보여줍니다.
과학적 자율 탐구 프레임워크인 ScienceClaw + Infinite를 제안한다. 본 시스템은 독립적인 에이전트들이 중앙 조정 없이 연구를 수행하고, 모든 기여자가 새로운 에이전트를 공유 생태계에 배포할 수 있는 환경을 제공한다. 이 프레임워크는 세 가지 핵심 구성 요소로 이루어져 있다: 300개 이상의 상호 운용 가능한 과학 기술을 담은 확장 가능한 레지스트리, 방향성 비순환 그래프(DAG)로 완전한 계산 계보를 보존하는 아티팩트 계층, 그리고 출처 추적이 가능한 거버넌스 기반의 에이전트 과학 논의를 위한 구조화된 플랫폼이다. 에이전트는 자신의 과학적 프로필에 따라 도구를 선택하고 연결하며, 타입 메타데이터와 부모 계보를 갖는 불변의 아티팩트를 생성하고, 충족되지 않은 정보 요구를 공유 글로벌 인덱스에 브로드캐스트한다. ArtifactReactor는 플래너 없는 조정을 가능하게 하는데, 동료 에이전트는 압력 기반 점수화를 통해 열린 요구를 발견하고 충족시키며, 스키마 중첩 매칭은 독립적 분석 간 다중 부모 합성을 촉발한다. 자율 변이 계층은 확장되는 아티팩트 DAG를 능동적으로 정리하여 상충되거나 중복된 워크플로우를 해결하는 한편, 지속적 메모리를 통해 에이전트가 여러 주기에 걸쳐 복잡한 인식 상태를 지속적으로 구축할 수 있게 한다. Infinite는 이러한 출력들을 구조화된 게시물, 출처 뷰, 기계 가독적 논의 관계를 통해 감사 가능한 과학 기록으로 전환하며, 커뮤니티 피드백은 후속 탐구 주기를 주도한다. 소마토스타틴 수용체 SSTR2 대상 펩타이드 설계, 경량 내충격성 세라믹 스크리닝, 생물학·재료·음악을 아우르는 크로스도메인 공명 연구, 도시 형태학과 입자 경계 진화 간 형식적 유사성 구축 등 4개의 자율 탐구 과제를 통해 본 프레임워크는 이기종 도구 연쇄 활용, 독립 운영 에이전트 간의 창발적 수렴, 원시 계산부터 공개 발견에 이르는 추적 가능한 추론 과정을 입증하였다.
문서 파싱은 기본적이면서도 핵심적인 비전 과제로서, 비전-언어 모델(VLM)에 의해 혁신을 맞이하고 있습니다. 그러나 VLM에 내재된 자기회귀(AR) 디코딩은 심각한 병목 현상을 일으켜 파싱 속도를 크게 제한합니다. 본 논문에서는 VLM이 향상된 샘플 효율성으로 여러 미래 토큰을 병렬 생성할 수 있도록 하는, 플러그인 가능하고 모델에 구애받지 않으며 간단하지만 효과적인 방법인 병렬 토큰 예측(PTP)을 제안합니다. 구체적으로, 입력 시퀀스에 학습 가능한 토큰을 삽입하고 해당 훈련 목표를 설계하여 모델에 문서 파싱을 위한 병렬 디코딩 능력을 부여합니다. 더 나아가 효과적인 훈련을 지원하기 위해 VLM을 위한 대규모 고품질 문서 파싱 훈련 데이터를 효율적으로 생성하는 포괄적인 데이터 생성 파이프라인을 개발했습니다. OmniDocBench와 olmOCR-bench에서의 광범위한 실험을 통해 우리 방법이 디코딩 속도를 크게 향상시키고(1.6x-2.2x), 모델 환각을 줄이며 강력한 일반화 능력을 보여준다는 것을 입증했습니다.
시각-언어 모델의 내부 추론 과정을 해석하는 것은 안전이 중시되는 분야에 AI를 배포하기 위해 필수적입니다. 개념 기반 설명 가능성은 의미론적으로 의미 있는 구성 요소를 통해 모델의 동작을 표현함으로써 인간에 맞춰진 렌즈를 제공합니다. 그러나 기존 방법은 주로 이미지에 국한되어 있으며 크로스 모달 상호작용을 간과합니다. CLIP에서 생성된 것과 같은 텍스트-이미지 임베딩은 모달리티 간 격차 문제를 겪는데, 이는 시각적 특성과 텍스트 특성이 서로 다른 분포를 따르므로 해석 가능성을 제한합니다. 정준 상관 분석(CCA)은 서로 다른 분포의 특성을 정렬하는 원리 기반 방법을 제공하지만, 다중 모달 개념 수준 분석에 활용되지 않았습니다. 우리는 CCA와 InfoNCE의 목적이 밀접하게 연관되어 있어 CCA를 최적화함으로써 암묵적으로 InfoNCE를 최적화함을 보이며, 사전 훈련된 InfoNCE 목적 함수에 영향을 주지 않으면서 크로스 모달 정렬을 강화하는 간단하고 훈련이 필요 없는 메커니즘을 제시합니다. 이러한 관찰에 동기를 부여하여, 우리는 개념 기반 설명 가능성과 CCA를 결합하여 크로스 모달 임베딩을 정렬하면서 해석 가능한 개념 분해를 가능하게 하는 프레임워크인 Concept CCA(CoCCA)를 소개합니다. 우리는 이를 더욱 확장하여 희소성을 적용하여 더욱 분리되고 판별력 있는 개념을 생성하는 Sparse Concept CCA(SCoCCA)를 제안하며, 이는 향상된 활성화, 절제 및 의미론적 조작을 용이하게 합니다. 우리의 접근 방식은 개념 기반 설명을 다중 모달 임베딩으로 일반화하며, 개념 절제와 같은 재구성 및 조작 작업을 통해 입증된 개념 발견 분야에서 최첨단 성능을 달성합니다.
가상 피팅(VTON)은 단일 의류 시각화 기술이 발전했으나, 실제 패션은 다양한 의류, 액세서리, 세분화된 카테고리, 레이어링, 다양한 스타일링을 포함한 전체 의상 구성에 중점을 두고 있어 현재 VTON 시스템의 범위를 벗어납니다. 기존 데이터셋은 카테고리가 제한적이고 의상 구성 다양성이 부족합니다. 본 연구에서는 아웃핏 수준 VTON을 위한 최초의 대규모 멀티모달 데이터셋인 Garments2Look를 소개합니다. 이 데이터셋은 40개 주요 카테고리와 300개 이상의 세분화된 하위 카테고리에서 80,000개의 다중 의류-단일 룩 쌍으로 구성됩니다. 각 쌍은 3-12개의 참조 의류 이미지(평균 4.48개)로 이루어진 아웃핏, 해당 아웃핏을 입은 모델 이미지, 상세 항목 및 가상 피팅 텍스트 주석을 포함합니다. 실제성과 다양성의 균형을 위해 합성 파이프라인을 제안합니다. 이는 휴리스틱 방식으로 아웃핏 목록을 구성한 후 피팅 결과를 생성하며, 전체 과정은 데이터 품질 보장을 위한 엄격한 자동 필터링과 인간 검증을 거칩니다. 과제 난이도를 탐구하기 위해 SOTA VTON 방법과 범용 이미지 편집 모델을 적용하여 기준선을 설정했습니다. 결과에 따르면 현재 방법들은 완전한 아웃핏의 자연스러운 피팅과 올바른 레이어링 및 스타일링 추론에 어려움을 겪어 정렬 오류와 인공적 결함을 발생시키는 것으로 나타났습니다.
상호작용 시스템을 위한 전체 스트림 텍스트-음성 변환(TTS)은 최소 지연으로 음성 출력을 시작해야 하며, 점진적으로 텍스트가 도착하는 상황에서도 제어 가능성을 유지해야 합니다. 본 논문에서는 발화 중간에 실시간으로 업데이트 가능한 동적 말속도 제어 기능을 갖춘 제로샷 전체 스트림 TTS 모델인 VoXtream2를 제안합니다. VoXtream2는 지속 시간 상태에 대한 분포 매칭 메커니즘과 조건 설정 신호 간의 분류기 없는 유도 방식을 결합하여 제어성과 합성 품질을 향상시킵니다. 프롬프트 텍스트 마스킹 기법을 통해 텍스트 없이 오디오 프롬프팅이 가능하며, 프롬프트 전사 과정이 필요하지 않습니다. 표준 제로샷 벤치마크와 전용 말속도 테스트 세트에서 VoXtream2는 더 작은 모델 크기와 더 적은 학습 데이터에도 불구하고 공개 기준 모델 대비 경쟁력 있는 객관적 및 주관적 결과를 달성했습니다. 전체 스트림 모드에서 소비자용 GPU 기준 실시간 대비 4배 빠른 처리 속도와 74ms의 첫 패킷 지연 시간을 보여줍니다.
최근 이산적 이미지 생성 분야의 발전은 VQ 코드북 크기를 확장함으로써 재구성 정확도를 크게 향상시킬 수 있음을 보여주었습니다. 그러나 대규모 VQ 코드북을 사용한 생성 모델 학습은 여전히 어려운 과제로 남아 있으며, 일반적으로 더 큰 모델 규모와 더 긴 학습 기간을 필요로 합니다. 본 연구에서는 대규모 코드북을 사용하는 이산적 이미지 생성기의 최적화 문제를 해결하기 위해 설계된 새로운 학습 목적 함수인 확률적 이웃 교차 엔트로피 최소화(SNCE)를 제안합니다. SNCE는 하드 원-핫 타겟으로 모델을 지도하는 대신, 인접한 토큰 집합에 대한 연속적인 범주 분포를 구성합니다. 각 토큰에 할당된 확률은 해당 코드 임베딩과 실제 이미지 임베딩 간의 근접도에 비례하여, 모델이 양자화된 임베딩 공간에서 의미론적으로 의미 있는 기하학적 구조를 포착하도록 유도합니다. 우리는 클래스 조건부 ImageNet-256 생성, 대규모 텍스트-이미지 합성, 이미지 편집 작업에 걸쳐 광범위한 실험을 수행했습니다. 결과에 따르면 SNCE는 표준 교차 엔트로피 목적 함수에 비해 수렴 속도와 전체 생성 품질을 크게 향상시키는 것으로 나타났습니다.
전자 건강 기록(EHR)에 대한 임상 질의응답은 임상의와 환자가 관련 의료 정보에 더 효율적으로 접근하는 데 도움을 줄 수 있다. 그러나 최근 많은 접근법은 대규모 클라우드 기반 모델에 의존하는데, 이는 개인정보 보호 제약과 계산 자원 요구 사항으로 인해 임상 환경에 배포하기 어렵다. 본 연구에서는 단일 노트북으로 제한된 환경에서 EHR 기반 질의응답 시스템의 성능을 어디까지 끌어올릴 수 있는지 탐구한다. 우리는 ArchEHR-QA 2026 공유 과제의 네 가지 하위 과제 모두에 참여하고 일반 상용 하드웨어에서 실행되도록 설계된 여러 접근법을 평가한다. 모든 실험은 외부 API나 클라우드 인프라 없이 로컬에서 진행된다. 우리의 결과는 이러한 시스템이 공유 과제 리더보드에서 경쟁력 있는 성능을 달성할 수 있음을 보여준다. 특히, 우리가 제출한 시스템은 두 하위 과제에서 평균 이상의 성능을 보였으며, 적절하게 구성될 경우 더 작은 모델이 훨씬 더 큰 시스템의 성능에 근접할 수 있음을 관찰했다. 이러한 결과는 현재 모델과 일반 상용 하드웨어로 완전히 로컬에서 실행되는 개인정보 보호 EHR 질의응답 시스템의 실현 가능성을 시사한다. 소스 코드는 https://github.com/ibrahimey/ArchEHR-QA-2026에서 확인할 수 있다.