번역이 포함된 일일 선별된 AI 연구 논문
오늘날의 에이전트 스킬은 수작업으로 제작되거나, 원샷(one-shot)으로 생성되거나, 느슨하게 통제된 자체 수정을 통해 진화하는 방식으로 만들어지며, 이 중 어느 것도 스킬에 대한 딥러닝 최적화기처럼 동작하지 않으며, 피드백 하에서 시작점 대비 신뢰할 수 있는 개선을 보장하지 않는다. 우리는 스킬이 대신 고정된 에이전트의 외부 상태로 훈련되어야 하며, 가중치 공간 최적화를 재현 가능하게 만드는 것과 동일한 규율을 적용해야 한다고 주장한다. 본 연구에서 제안하는 SkillOpt는, 저희가 아는 한, 에이전트 스킬을 위한 최초의 체계적이고 통제 가능한 텍스트 공간 최적화기이다. 별도의 최적화 모델이 점수가 매겨진 롤아웃(scored rollouts)을 단일 스킬 문서에 대한 제한된 추가/삭제/대체 편집으로 변환하며, 편집은 보류된 검증 점수(held-out validation score)를 엄격히 개선할 때만 수락된다. 텍스트 학습률 예산(textual learning-rate budget), 거부된 편집 버퍼(rejected-edit buffer), 에폭별 느린/메타 업데이트(epoch-wise slow/meta update)는 배포 시점에 추론 호출을 전혀 추가하지 않으면서 스킬 훈련을 안정적으로 만든다. 6개 벤치마크, 7개 대상 모델, 3개 실행 환경(직접 채팅, Codex, Claude Code)에 걸쳐, SkillOpt는 평가된 52개 모든 (모델, 벤치마크, 환경) 셀에서 최고 성능을 기록하거나 동률을 이루었으며, 인간, 원샷 LLM, Trace2Skill, TextGrad, GEPA, EvoSkill 스킬 중 모든 셀별 경쟁자를 능가했다. GPT-5.5에서는 직접 채팅에서 기본 무스킬 정확도 대비 평균 +23.5포인트, Codex 에이전틱 루프 내에서 +24.8포인트, Claude Code 내에서 +19.1포인트 향상시켰다. 또한 전이 실험은 최적화된 스킬 아티팩트가 모델 규모 간, Codex와 Claude Code 실행 환경 간, 그리고 추가 최적화 없이 유사한 수학 벤치마크로 이동될 때도 가치를 유지함을 보여준다.
확산 트랜스포머(DiTs)는 현대 시각 생성의 사실상의 백본이 되었으며, 토큰화, 어텐션, 조건화, 목적 함수, 잠재 오토인코더 등 설계의 거의 모든 주요 축이 광범위하게 재검토되었다. 그러나 층 간 정보가 축적되는 방식을 결정하는 잔차 스트림은 원래 트랜스포머로부터 직접 계승되었다. 본 논문에서는 DiTs의 층 간 정보 흐름에 대해 깊이와 노이즈 제거 시간 단계를 함께 고려한 체계적인 실증 분석을 수행하고, 전통적인 잔차 덧셈의 세 가지 구체적인 증상, 즉 단조로운 순방향 크기 팽창, 급격한 역방향 기울기 감소, 뚜렷한 블록 단위 중복성을 식별한다. 이러한 진단에 기초하여, 우리는 학습 가능하고 시간 단계에 적응적이며 비증분적인 방식으로 하위층 출력의 이력을 집계하는 드롭인 잔차 대체 기법인 확산 적응형 라우팅(DAR)을 제안한다. 또한 제안된 DAR은 REPA와 같은 많은 현대 트랜스포머 개선 방법과 호환된다. ImageNet 256×256에서 DAR은 SiT-XL/2의 FID를 2.11만큼 개선했으며(7.56 대 9.67), 8.75배 적은 훈련 반복 횟수로 기준 모델의 수렴된 품질에 도달했다. REPA 위에 적용하면 초기 단계에서 2배의 훈련 가속을 제공하며, 이는 확산 모델링에서 층 간 정보 라우팅이 기존의 표현 정렬 목표와 직교적으로 작동하는 아직 충분히 탐구되지 않은 설계 축임을 시사한다. 사전 훈련 외에도 DAR은 대규모 T2I 모델의 미세 조정 단계에서 적용될 수 있으며, 분포 정합 증류 과정에서 고주파 세부 정보를 보존한다.
저자는 3.8B 파라미터 규모의 T2I 모델인 Lens를 소개한다. Lens는 다양한 벤치마크에서 6B 이상의 파라미터를 가진 최첨단 모델과 경쟁력 있는 성능을 보이며, 일부 항목에서는 이를 능가하면서도 훨씬 적은 학습 연산량을 필요로 한다. 예를 들어, Lens는 Z-Image가 사용하는 학습 연산량의 약 19.3%만을 요구한다. Lens의 학습 효율성은 컴팩트한 모델 크기 외에도 두 가지 핵심 전략에서 비롯된다. 첫째, 각 학습 배치 내 데이터 정보 밀도를 최대화한다. 이를 위해 (i) GPT-4.1에 의해 생성된 평균 약 109단어로 구성된 밀집 캡션을 가진 8억 개의 이미지-텍스트 쌍 데이터셋인 Lens-800M에서 학습하여 기존의 짧은 캡션보다 풍부한 의미적 지도(semantic supervision)를 제공하고, (ii) 다양한 해상도와 다양한 종횡비를 가진 이미지로 각 배치를 구성하여 각 최적화 단계의 유효 시각적 범위를 확장한다. 둘째, 더 나은 잠재 표현을 제공하는 의미적 VAE(semantic VAE) 채택과 영문 학습 데이터만으로도 다국어 일반화를 가능하게 하면서 최적화를 가속하는 강력한 언어 인코더 사용을 포함한 신중한 아키텍처 선택을 통해 수렴 속도를 향상시킨다. 사전 학습 후에는 분류체계 기반 프롬프트(taxonomy-driven prompts)와 체계화된 보상 루브릭(reward rubrics)을 활용한 강화학습(Lens-RL-8K)을 적용하여 아티팩트를 억제하고 시각적 품질을 개선하고, 학습 없는 시스템 프롬프트 탐색(training-free system prompt search)이 포함된 추론 모듈(reasoner module)을 통해 사용자 요청과 모델을 더 잘 정렬하며, 증류 기반 가속(distillation-based acceleration)을 통해 4단계 추론을 구현한다. 효율적인 학습과 체계적인 최적화를 통해 Lens는 1:2에서 2:1까지의 다양한 종횡비와 최대 1440² 해상도에 일반화되며, 여러 일반 사용 언어의 프롬프트를 지원한다. 컴팩트한 크기 덕분에 Lens는 단일 NVIDIA H100 GPU에서 1024² 이미지를 3.15초에 생성하며, 증류 터보 버전(distilled turbo version)은 0.84초에 4단계 생성을 수행한다.
전 세계 학술 산출물의 기하급수적 증가는 연구자와 AI 에이전트에게 전례 없는 '정보 폭발'을 초래했으며, 이로 인해 파편화되고 비구조화된 지식 조직이 심층적인 학제 간 통합을 저해하고 있습니다. 현재의 학술 검색 도구는 주로 표면적인 키워드 매칭이나 벡터 공간 의미 검색에 의존하며, 복잡한 논리적 연결을 탐색하는 데 필요한 위상적 추론 능력이 부족합니다. 에이전트 기반 심층 연구 프레임워크는 종종 논리적 환각에 취약하고 높은 추론 비용을 소모합니다. 이러한 격차를 해소하기 위해, 본 보고서에서는 파노라마적 과학 진화 네트워크로 설계된 대규모의 다학제적·이질적 학술 자원 지식 그래프인 SciAtlas를 소개합니다. 26개 학문 분야의 4,300만 개 이상의 논문, 총 1억 5,700만 개의 엔티티와 30억 개의 트리플렛을 통합함으로써 SciAtlas는 학문적 장벽을 허물고 AI 에이전트에게 글로벌 관점을 제공하는 구조화된 위상적 인지 기반을 제공합니다. 또한, 삼중 경로 협력 검색(tri-path collaborative recall)과 그래프 재순위화(graph reranking)를 특징으로 하는 신경-기호 검색 알고리즘을 개발하여 단순 의미 매칭에서 결정론적 연관성 발견으로의 원활한 전환을 달성합니다. 또 문헌 검토, 자동화된 연구 동향 종합, 아이디어 포지셔닝, 학술 궤적 탐색 등 SciAtlas의 주요 응용 방향을 제시함으로써, SciAtlas가 추론 비용을 크게 줄이면서 자동화된 과학 연구의 전체 루프를 강화하는 효과적인 '인지 지도' 역할을 할 수 있음을 입증합니다. 우리는 GitHub 저장소에서 KG 검색 및 다양한 다운스트림 태스크를 위한 인터페이스를 공개했습니다.
통합 오디오-언어 모델링은 현대 음성 시스템의 주요 트렌드로 부상하며, 대규모 언어 모델의 추론 능력을 청각 작업에 접목할 것을 약속한다. 그러나 기존의 통합 기반 모델들은 자동 음성 인식(ASR), 텍스트-음성 합성(TTS), 실시간 음성 상호작용에 걸쳐 특화된 시스템의 수준에 미치지 못하는 경우가 많다. 이러한 격차를 해소하는 것은 여전히 해결되지 않은 과제로 남아 있다. 본 보고서는 세 가지 능력 모두에서 특화 시스템에 필적하거나 능가하는 통합 오디오-언어 기반 모델인 StepAudio 2.5를 제시한다. 우리는 이러한 작업들을 구조적으로 구분된 것으로 간주하지 않고, 텍스트와 오디오가 다중 양식 표현 공간을 공유하게 되면 작업 특화는 데이터 구성, 최적화 목표, 디코딩 제약이라는 운영 체제의 문제가 된다는 전제에서 출발한다. 이 통찰에 기반하여, 우리는 사후 학습 패러다임을 표준 지도 학습에서 작업 맞춤형 인간 피드백 기반 강화 학습(RLHF)으로 발전시키고, 이를 복잡한 최적화 목표를 정의하는 주요 메커니즘으로 사용한다. 우리는 RLHF 중심의 정렬을 특화된 디코딩과 함께 활용하여 공유된 백본을 세 가지 독립적인 운영 모드로 형성한다. 구체적으로, ASR 브랜치는 검증 가능한 다중 토큰 디코딩을 통해 전사 효율성을 향상시키고, TTS 브랜치는 선호 기반 RLHF와 맥락이 풍부한 감독을 통해 제어 가능하고 표현력 있는 합성을 실현하며, 실시간 브랜치는 RLHF 프레임워크 내에서 생성적 보상 모델링을 통해 저지연, 개인 일관성 대화를 구현한다. 표준 벤치마크에서 StepAudio 2.5는 ASR, TTS, 실시간 작업 전반에 걸쳐 최첨단 결과를 달성하며, 단일 오디오-언어 기반 모델이 음성 이해, 생성 및 실시간 상호작용의 서로 다른 배치 목표를 성공적으로 내재화할 수 있음을 입증한다.
우리는 SWIM(See What I Mean)이라는 새로운 훈련 전략을 제시한다. 이 전략은 시각 및 언어 표현을 정렬하여 텍스트 프롬프트만으로 세밀한 객체 이해를 가능하게 한다. 마스크나 포인트와 같은 명시적 시각적 프롬프트를 필요로 하는 기존 접근법과 달리, SWIM은 훈련 중에만 마스크 감독을 활용하여 교차 모달 주의를 유도함으로써, 추론 시 모델이 사용자가 지정한 객체에 자동으로 주의를 기울일 수 있게 한다. 사전 훈련된 다중 모달 대규모 언어 모델(MLLM)의 교차 주의 분석 결과, 체계적인 불일치가 드러났다: 속성 단어는 시각 양식에서 날카롭고 국소화된 활성화를 생성하는 반면, 객체 명사는 의미 참조 편향과 분산된 고수준 표현으로 인해 확산되고 흩어진 패턴을 나타낸다. 이러한 정렬 오류를 해결하기 위해, 각 객체 마스크와 정밀한 자연어 참조 표현이 쌍을 이루는 강화된 데이터셋인 NL-Refer를 구축했다. SWIM은 객체 명사에서 다층 교차 주의 맵을 추출하고, 이를 실제 마스크와 공간적 일관성을 갖도록 강제한다. 실험 결과, SWIM은 텍스트-시각 정렬을 크게 개선하고, 세밀한 객체 이해 벤치마크에서 시각적 프롬프트 기반 방법보다 우수한 성능을 달성함을 보여준다. 코드와 데이터는 https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}에서 확인할 수 있다.
언어 에이전트는 과거 경험에서 정제된 구조화된 절차적 인공물인 기술을 재사용함으로써 점차 개선되고 있다. 특히 도메인 수준 및 모델 생성 기술이 유망하다. 이들은 도메인 특화 반복 절차를 인코딩하여 해당 도메인 내에서 빠른 적응을 가능하게 하며, 노동 집약적인 수작업을 넘어 확장 가능하다. 그러나 추출 방법이 계속해서 증가하는 반면, 이해는 여전히 제한적이며, 경험 생성, 기술 추출, 기술 소비를 아우르는 전체 기술 수명 주기를 포괄하는 종합적인 연구는 부재하여, 이러한 기술이 실제로 작동하는지, 언제 작동하는지, 무엇이 성공 또는 실패를 결정하는지에 대한 질문에 답하지 못하고 있다. 이러한 격차를 해소하기 위해, 우리는 다섯 가지 다양한 에이전트 작업 도메인을 포괄하며 추출기와 대상 에이전트에 걸친 체계적인 실험 결과를 제공하는 유용성 기반 평가 프레임워크를 구축한다. 우리는 모델 생성 기술이 평균적으로 유용하지만 무시할 수 없는 부정적 전이를 나타내며, 추출기와 대상 모두 균일하게 작동하지 않는다는 것을 발견했다. 특정 모델은 강력한 추출기이면서도 약한 소비자가 될 수 있으며, 그 반대의 경우도 가능하며, 기술 유용성은 모델 규모나 기준 작업 성능과 무관하다. 이러한 패턴을 설명하기 위해, 우리는 각 수명 주기 단계를 심층적으로 분석하여 경험 구성이 기술 품질을 어떻게 형성하는지, 유용한 기술의 특성은 무엇인지, 동일한 기술이 다양한 소비자에게 어떻게 전이되는지 살펴본다. 마지막으로, 이러한 발견을 실제 유용성과 연계된 특징을 향해 기술 추출을 안내하는 구체적인 메타 기술로 전환하여, 도메인 전반에서 기술 품질을 일관되게 개선하고 부정적 전이를 상당히 감소시킨다.
대부분의 실용적인 고해상도 텍스트-이미지 시스템(잠재 확산 및 자기회귀 모델 포함)은 압축된 잠재 공간에서 생성을 수행하며, 디코더가 생성된 잠재 변수를 다시 픽셀에 매핑한다. 그러나 잠재-픽셀 디코더는 재구성 지향적이어서, 보다 상세한 정보를 합성하기보다는 인코더를 반전시키는 데 최적화되어 있으며, 메가픽셀 규모에서는 비용이 점점 증가한다. 이러한 단점은 더욱 표현력 있고 효율적인 디코딩 패러다임을 필요로 한다. 확장 가능한 픽셀 공간 확산 분야의 최근 진전에 착안하여, 본 연구에서는 잠재 디코딩을 조건부 픽셀 확산으로 재정립하고, 디코딩과 업스케일링을 하나의 생성 모듈로 통합하는 Pixel Diffusion Decoder(PiD)를 제안한다. 고해상도 픽셀 공간에서 직접 잡음을 제거하는 PiD는 4배, 나아가 8배까지 업스케일링된 이미지를 낮은 지연 시간으로 합성한다. 잠재 조건화를 위해, 가벼운 시그마 적응 어댑터가 잡음에 오염된 잠재 변수를 픽셀 확산 백본에 주입함으로써, PiD가 부분적으로 잡음이 제거된 잠재 변수를 디코딩하고 잠재 확산 과정을 조기에 종료할 수 있게 한다. 효율성을 더욱 개선하기 위해 DMD2를 사용하여 모델을 증류하였고, 추론 단계를 4단계로 줄였다. PiD는 기존 VAE 잠재 변수는 물론, 최근 RAE 기반 모델에서 사용되는 의미적 잠재 변수(SigLIP, DINOv2 등)에도 적용 가능하다. PiD는 512×512 이미지의 잠재 변수를 2048×2048 픽셀로 디코딩하는 데 소비자용 RTX 5090에서 13GB의 최대 메모리를 사용하여 1초 이내에 처리하며, GB200 GPU에서는 최대 210ms로 처리하여, 캐스케이드 확산 기반 초해상도 파이프라인보다 약 6배 빠르면서도 더 나은 시각적 충실도를 제공한다.
가상 사진은 사전 선택된 카메라 포즈나 참조 이미지 없이 준비된 3D 장면에 에이전트가 진입하여, 장면 정보와 언어적 의도로부터 적절한 구도를 추론하고, 실행 가능한 카메라 매개변수를 선택한 후 최종 사진을 렌더링하도록 요구한다. 최근 시각-언어 모델의 발전으로 이러한 유형의 공간 에이전트는 점점 더 실현 가능해지고 있지만, 이 과제는 함께 평가하기 어려운 두 가지 능력, 즉 복잡한 3D 공간 이해와 추상적 미학적 판단을 강조한다. 우리는 폐루프 카메라 탐색을 위한 감독-평가-반영 에이전트인 PhotoFlow를 소개한다. 감독은 소프트 사진 청사진을 구축하고 다양한 후보 카메라를 제안하며, 평가는 규칙 검사, 시각적 비평 및 쌍별 현행 선택을 결합하고, 반영은 실패를 영역 메모리, 사각지대 억제 및 고탐색 재배치로 전환한다. 또한 47개의 오픈 라이선스 Blender 장면과 주제 배치, 관계적 구성 및 분위기/스타일을 포괄하는 141개의 언어 조건부 사진 촬영 임무로 구성된 벤치마크인 VPhotoBench도 소개한다. 격리 실험에서 PhotoFlow는 6회 렌더링 예산 하에서 단일 예측, 단일 체인 반영, 앵커 뱅크 선택 및 무작위 탐색 중 가장 강력한 외부 품질-정렬 복합 지표와 성공률을 달성했다. 우리가 아는 한, 이는 임의의 Blender 장면에서 언어 조건부 가상 사진을 실행 가능한 에이전트 과제로 만든 첫 번째 연구이며, 우리의 결과는 LLM 중심 공간 에이전트가 3D 추론과 미학적 선택 모두에 도전하도록 설계된 환경에서 이미 강력한 사진을 생성할 수 있음을 보여준다.
시공간 추론은 실제 세계에서 작동하는 다중모달 대규모 언어 모델(MLLM)의 핵심 능력이다. 따라서 이를 정확하게 평가하는 것은 필수적인 과제가 되었다. 그러나 기존의 시공간 추론 벤치마크 데이터셋은 주로 정적 이미지 세트나 수동으로 선별된 비디오 데이터에 의존하여 세분화된 추론 능력 평가에 한계가 있다. 본 논문에서는 생성 모델을 사용하여 고도로 통제되고 다양한 평가 시나리오를 능동적으로 합성하는 비디오 벤치마크인 VGenST-Bench를 소개한다. VGenST-Bench를 구축하기 위해 인간 품질 관리 단계를 통합한 다중 에이전트 파이프라인을 제안하여 생성된 모든 비디오와 QA 쌍의 품질을 보장한다. 다양한 시나리오를 포괄하기 위해 공간 규모, 시점 및 장면 역학을 포함하는 포괄적인 3x2x2 비디오 분류 체계를 구축한다. 또한 저수준 시각 지각과 고수준 시공간 추론을 분리하는 계층적 작업 모음을 설계한다. 수동 선별에서 능동 합성으로 패러다임을 전환함으로써 VGenST-Bench는 MLLM의 시공간 이해에 대한 세분화된 진단을 가능하게 한다.
이산 자기회귀(AR) 텍스트-이미지(T2I) 모델은 VQ 토크나이저와 AR 정책을 결합하며, 현재의 사후 훈련 파이프라인은 VQ 디코더를 고정한 채 정책만 최적화한다. 최근 확산 T2I 연구(REPA-E로 대표됨)는 VAE 자체가 주요 정렬 병목 현상을 유발함을 보였으나, 이산 AR 모델에 대한 유사한 분석은 존재하지 않는다. 본 논문은 정책 전용 최적화가 잠재 공변량 이동(Latent Covariate Shift)을 유발함을 보인다. 즉, 정책이 진화함에 따라 생성된 토큰 분포가 디코더가 훈련된 실제 분포와 달라져, 보상 점수는 향상되지만 디코딩된 이미지 품질은 저하된다. 이러한 불일치를 해결하기 위해, 본 논문은 이산 T2I 생성을 위한 최초의 종단간 사후 훈련 프레임워크인 RankE를 제안한다. RankE는 고정된 디코더에 대해 정책을 최적화하는 대신, 교대 최적화를 통해 두 구성 요소를 공동으로 진화시킨다. 각 모듈은 순위 기반 정렬 목표를 최대화하는 동시에, 각각의 파라미터 공간에 적합한 안정성 유지 앵커로 규제된다. 이러한 공동 진화는 고정 디코더 접근법의 문제인 충실도-정렬 트레이드오프를 해소한다. LlamaGen-XL(775M)에서 표준 강화학습은 CLIP을 향상시키지만 FID를 악화시키는 반면, RankE는 두 지표를 동시에 개선한다(MS-COCO 30K에서 FID 15.21, CLIP 33.76). Janus-Pro(1B)에서의 일관된 성능 향상은 디코더 공동 진화가 보상 최적화를 픽셀 공간의 품질 개선으로 안정적으로 변환함을 확인한다.
다중 모달 대규모 언어 모델은 시각적 추론을 발전시켰지만, 세밀한 초점이나 시점 변환이 필요한 질문에는 순수 텍스트 기반 사고 사슬이 여전히 병목 현상으로 작용한다. '이미지로 생각하기' 패러다임이 이러한 격차를 좁히지만, 기존 접근 방식은 고정된 사전 정의 도구 키트에 제약되거나 통합 다중 모달 방법에서 잡음이 있는 중간 이미지를 생성한다. 우리는 세 번째 옵션인 전용 이미지 편집 모델을 사용하고 이를 이해 모델과 분리하는 방식을 추구한다. 그러나 기성 이미지 편집기는 추론 보조 도구로서 두 가지 상호 보완적 격차로 인해 실패한다: 언어 측면의 격차, 즉 수동적 명령 수행자로 훈련된 편집기가 추상적 질문을 적절한 시각적 변환에 매핑하지 못하는 점, 그리고 생성 측면의 격차, 즉 추론 깊이가 깊어짐에 따라 편집 정확성이 저하되는 점이다. 이 분석에 기반하여 우리는 ETCHR(명확화 및 추론 활용을 위한 편집)을 소개한다. 이는 질문 조건화되고 추론을 인식하는 이미지 편집기로서, 하위 이해 모델과 분리되어 있으며, 두 가지 격차를 대상으로 하는 2단계 방법론으로 훈련된다: 편집 궤적에 대한 지도 미세 조정을 통한 추론 모방, 이어서 편집 정확성과 하위 추론 정확성에 대한 VLM 기반 보상을 통한 추론 강화이다. 편집기가 분리되어 있기 때문에 ETCHR은 훈련 없이 다양한 오픈 소스 및 폐쇄 소스 MLLM에 연결될 수 있다. 다섯 가지 작업군(세밀한 지각, 차트 이해, 논리 추론, 직소 복원, 3D 이해)에 걸쳐, ETCHR은 Qwen3-VL-8B에서 평균 Pass@1을 55.95에서 60.77(+4.82)로, Gemini-3.1-Flash-Lite에서 65.08에서 70.55(+5.47)로, 1조 파라미터 MoE 모델 Kimi K2.5에서 76.55에서 81.16(+4.61)으로 향상시킨다.
1인칭 슈팅(FPS) 게임을 위한 인터랙티브 월드 모델은 격자 간격마다 발생하는 고주파 중첩 제어 신호를, 영향을 받지 않는 영역을 방해하지 않으면서 처리해야 한다. 기존 방법은 전역적으로 액션을 주입하고 단일 타이틀에 대해 학습하므로, 고밀도 FPS 입력에서는 제대로 작동하지 않는다. 본 연구에서는 FPS 액션이 공간적으로 선택적이라는 점에 주목한다: 발사나 재장전과 같은 이산적 이벤트는 무기 주변의 국소 영역(조준경 영역)에만 영향을 미치는 반면, 연속적인 카메라 및 이동 신호는 안정적인 주변 환경을 제어한다. 우리는 사전 학습된 비디오 확산 모델의 각 트랜스포머 블록에 조건화 모듈을 삽입하는 SCOPE를 제안한다. 이 모듈은 특징을 픽셀 단위 시계열로 재구성하여, 각 위치가 로컬 시각적 콘텐츠로부터 자체 액션 응답을 계산하도록 한다. 이를 통해 분할 레이블 없이도 조준경 내부 효과와 외부 생성 효과를 분리한다. 또한, 프레임 정렬 액션 원격 측정 데이터를 포함한 최초의 멀티 게임 FPS 데이터셋인 CrossFPS를 소개한다. CrossFPS는 7개 타이틀에서 수집된 69K 개의 클립과 10자유도 컨트롤러 신호로 구성되며, 게임플레이 편향을 제거하도록 선별되었다. 모델은 게임별 패턴이 아닌 일반적인 시각-액션 매핑을 학습하여, 보지 못한 장면에 대한 제로샷 전이를 가능하게 한다. 실험을 통해 강력한 액션 반응성, 정밀한 조준경 영역 분리, 효과적인 크로스 게임 일반화를 확인하였다.
기존의 대규모 언어 모델(LLM)에 대한 스케일링 법칙은 주로 단조 증가하는 멱법칙(power law) 형태를 띠며, 연산량 증가에도 불구하고 성능이 저하되는 파국적 과잉 학습(catastrophic overtraining)이나 양자화로 인한 성능 저하(quantization-induced degradation)와 같은 비단조적 현상을 설명하지 못한다. 본 연구에서는 Shannon-Hartley 정리에 기반하여 LLM 학습을 잡음 채널을 통한 정보 전송으로 모델링하는 통합 이론적 프레임워크인 섀넌 스케일링 법칙(Shannon Scaling Law)을 제안한다. 모델 파라미터를 채널 대역폭에, 훈련 토큰을 신호 전력에 대응시킴으로써, 본 공식은 학습 신호와 내재적 잡음 간의 상호작용을 명시적으로 포착한다. 이러한 관점은 LLM의 근본적인 섀넌 용량(Shannon capacity)을 밝혀낸다: 충분한 신호 대 잡음비(SNR)를 유지하지 않은 채 모델 크기나 데이터를 확장하면 잡음이 필연적으로 증폭되어, 단조적 개선에서 U자형 성능 저하로의 전이가 유발된다. 본 이론은 Gaussian 잡음, 양자화, 그리고 수학, 질의응답, 코드 작업에 대한 지도 미세 조정(supervised fine-tuning) 등의 교란 조건 하에 Pythia와 OLMo2를 대상으로 한 실험을 통해 검증된다. 섀넌 스케일링 법칙은 기존의 스케일링 법칙 및 최근의 교란 인지 법칙(perturbation-aware laws)을 일관되게 능가하며, 높은 R² 점수를 달성하고 이전 접근법이 놓친 손실 곡선의 분지(loss basins)를 정확히 포착한다. 또한 외삽이 가능하여, 180B 토큰 이하로 학습된 6.9B 이하 Pythia 모델에 적합시킨 후, 통합 R²=0.847로 307B 토큰까지의 보지 못한 12B 모델을 예측하는 반면, 단조적 기준 모델(monotonic baselines)은 붕괴된다.
최근 시각-언어 모델(VLM)의 발전은 긴 사고 사슬 추론을 강조하고 있지만, 본 연구에서는 시각적 과제에서의 성능이 추론 자체보다는 시각 지각의 부족에 의해 주로 제한된다는 점을 발견한다. 본 연구에서는 VLM 후속 학습에서 지각과 추론 간의 상호작용을 체계적으로 분석하기 위해, 이들의 능력을 시각 지각, 시각 추론, 텍스트 추론의 세 가지 별도 학습 단계로 분해하고 각각에 특화된 학습 데이터를 도입한다. 우리는 시각 지각이 (a) 특화된 데이터를 통한 목표 지향적 최적화를 필요로 하며, (b) 시각 추론을 정교화하기 전에 단계적 학습을 통해 견고하게 다져야 하는 기본적인 기반 역할을 하고, (c) 캡션 기반 지도 미세 조정보다 강화 학습을 통해 더 효과적으로 학습된다는 것을 입증한다. 여러 VLM에 걸친 실험 결과, 단계적 학습은 병합 학습에 비해 시각 지각과 추론 성능을 일관되게 향상시킨다. 특히, 본 접근법으로 학습된 모델은 20.8% 더 짧은 추론 과정에서 1.5% 더 높은 추론 정확도를 달성하는데, 이는 우수한 지각이 과도한 추론의 필요성을 줄여준다는 것을 시사한다. 또한, 이러한 능력 기반의 단계 구분은 기존의 난이도 기반 교육 과정과는 직교하는 새로운 교육 과정 차원을 나타내며, 두 가지를 결합하면 추가적인 상승 효과를 얻을 수 있음을 보여준다. 본 단계적 학습 모델은 공개 가중치 VLM 중에서 우수한 성능을 달성하며, 기본 모델 대비 여러 시각 수학 및 지각 과제(예: WeMath에서 +5.2%, RealWorldQA에서 +3.7%)에서 향상된 결과를 확립한다.
카메라 제어 기반 비디오 생성은 최근 몇 년간 현저한 진전을 이루었습니다. 그러나 기존의 비디오-투-비디오 재렌더링 방법은 주로 합성 데이터셋을 활용한 지도 미세 조정에 의존하고 있습니다. 현재, 동기화된 다중 시점 실제 세계 비디오 데이터는 극도로 부족한 실정입니다. 결과적으로, 기존 패러다임은 분포 외 실제 세계 비디오를 처리할 때 일반화 능력이 제한적이며, 모델이 물리적 스케일과 카메라 궤적을 정확히 따르는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 카메라 제어 비디오 재렌더링을 위해 특별히 설계된 최초의 강화 학습 프레임워크인 Geo-Align을 제안합니다. 사전 훈련된 모델을 기반으로, 우리는 스케일 인식 지각 보상 메커니즘을 통해 모델을 최적화합니다. 구체적으로, 생성된 비디오에서 정밀한 카메라 궤적을 추출하는 메트릭 3D 추정기를 도입하여 회전 및 병진 운동의 편차를 명시적으로 패널티합니다. 또한, 실제 세계 조건화 비디오와 합성 데이터에서 파생된 목표 카메라 궤적을 기반으로 한 데이터 파이프라인 전략을 세심하게 설계하여, 쌍을 이룬 데이터에 대한 의존성을 제거했습니다. 광범위한 실험 결과는 Geo-Align이 정밀한 카메라 제어 가능성과 시각적 충실도 모두에서 기존의 지도 학습 기준선을 지속적으로 능가함을 보여주며, 이는 우리 방법의 효과성을 나타냅니다.
뮤온(Muon)은 행렬 인식 최적화 기법으로, 뉴턴-슐츠(NS) 반복을 활용하여 운동량 행렬의 모든 특이값을 1로 수렴시킴으로써 스펙트럼 기울기 직교화를 강제한다. 이러한 균일 스펙트럼 백색화(whitening)는 탐색을 향상시키고 LLM 사전학습에서 AdamW보다 우수한 성능을 보이지만, 본 연구는 사전학습을 넘어 두 가지 영역에서 근본적인 한계를 초래할 수 있음을 보여준다: (i) 본질적으로 저랭크인 행동 모듈 기울기가 잡음이 많은 꼬리 방향을 증폭시키는 교차 모달리티 시각-언어-행동(VLA) 훈련, (ii) 낮은 SNR의 기울기와 사전 훈련으로부터의 헤드별 전문화 유지 필요성으로 인해 백색화가 불안정해지는 검증 가능한 보상 기반 강화학습(RLVR). 이러한 문제를 해결하기 위해, 우리는 뮤온의 계산 효율성을 유지하면서 균일 스펙트럼 백색화를 2단계 촉진+억제(Promotion+Suppression) 메커니즘(이를 고역 통과 NS 반복이라 명명)으로 대체한 피온(Pion)을 제안한다. 이 설계는 날카로운 스펙트럼 고역 통과 효과를 유도하여, 지배적인 특이값은 1에 고정시키고 잡음이 많은 꼬리 성분은 0으로 억제하며, 필터 강도를 제어할 수 있게 한다. 사전 훈련된 헤드별 이질성을 보존하기 위해, 피온은 추가 비용 없이 단순한 재구성(reshape)을 통해 주의 헤드 간에 업데이트를 독립적으로 적용하는 헤드별 모드도 지원한다. LIBERO 및 LIBERO-Plus에서의 VLA 훈련에서, 피온은 l1-회귀(VLA-Adapter)와 흐름 매칭(VLANeXt) 아키텍처 모두에서 두 기준선을 일관되게 능가한다. 예를 들어 VLA-Adapter로 LIBERO Object에서 1,500 훈련 스텝 후 100% 성공률에 도달한 반면, 뮤온은 97.0%, AdamW는 32.2%에 불과했다. 피온의 장점은 DROID 설정 하에서 pi_0.5 백본을 사용한 실제 Franka Research 3 로봇의 세 가지 잡기-놓기(grasp-and-place) 작업에서도 확장된다. GRPO와 GMPO를 사용한 Qwen3-1.7B/4B의 RLVR 사후 훈련에서도 피온은 MATH와 GSM8K에서 AdamW를 능가하는 반면, 뮤온은 0으로 붕괴한다.
우리는 다중 뷰 RGB 이미지로부터 고충실도 3D 장면 재구성을 위한 새로운 접근법을 소개하며, 이는 재구성을 강력한 생성적 3D 사전 정보와 밀접하게 결합한다. 장면 재구성을 공간적으로 국소화되고 중첩된 청크 집합에 대한 조건부 3D 생성으로 설정하며, 이 청크들이 함께 장면을 타일링하여 생성을 대규모 장면 범위로 확장한다. 핵심적으로, 우리는 최신 생성적 형태 모델의 충실도와 완전성을 계승한다——예로 Trellis.2를 사용한다——이를 장면 수준으로 일반화한다. 이를 위해, 우리는 투영 기반 조건화 메커니즘을 제안하여, 포즈가 주어진 다중 뷰 이미지 특징을 생성 모델과 정렬된 일관된 3D 표현으로 끌어올리며, 뷰 순서에 독립적이고 공간적으로 장면에 고정되어, 다중 뷰 일관성을 갖춘 고충실도 생성 형상을 산출한다. 이를 통해 Trellis.2의 강력한 객체 수준 사전 정보를 다중 뷰, 장면 규모 생성으로 끌어올려, 실내 환경의 충실하고 편집 가능한 PBR 메시 재구성을 생성한다. 그 결과, 최첨단 재구성 방법보다 16% 향상된 고충실도 결과를 얻는다.
통합 멀티모달 모델(UMM)은 공유 잠재 공간을 학습하여 이해와 생성 모두에서 강력한 성능을 달성하지만, 종종 이 두 능력 간 기능적 불일치를 나타낸다. 우리는 이 문제가 공유 표현의 부족 때문이 아니라, 잠재 공간으로 매핑하고 잠재 공간에서 나오는 변환 간의 명시적 정렬이 없기 때문임을 관찰한다. 결과적으로 생성과 재인코딩이 일관되지 않은 궤적을 따를 수 있으며, 이는 모달리티 전환 하에서 의미적 표류를 초래한다. 본 연구에서는 이러한 변환을 명시적으로 정렬하고 교차 모달 일관성을 개선하기 위해 향상된 공유 잠재 공간을 구축하는 프레임워크인 LatentUMM을 제안한다. LatentUMM은 두 단계로 구성된다. 첫째, 이중 잠재 정렬은 모달리티와 용량 수준 모두에서 일관성을 강제한다. 교차 모달 정렬은 더 강력한 임베딩 모델을 사용하여 구조화된 교차 모달 의미론을 부과하는 반면, 이중 용량 정렬은 생성과 재인코딩 하에서 양방향 일관성을 강제한다. 둘째, 잠재 동역학 안정화는 확률적 잠재 롤아웃과 선호도 최적화를 통해 견고성을 향상시켜 의미적 일관성을 더 잘 보존하는 궤적을 선호한다. 실험 결과, LatentUMM은 다양한 아키텍처에서 멀티모달 일관성을 일관되게 개선함을 보여준다. 코드는 https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM 에서 확인할 수 있다.
비주얼 지오메트리 트랜스포머는 다시점 3D 재구성을 위한 강력한 아키텍처로 자리 잡았으며, 피드포워드 방식으로 여러 3D 속성을 동시에 예측할 수 있게 해준다. 그러나 이러한 모델 내부의 전역 어텐션 레이어로 인해 계산 비용이 입력 시퀀스 길이에 따라 제곱으로 증가한다. 이는 확장성과 효율성을 모두 제한한다. 본 연구에서는 각 쿼리가 전역 어텐션 동안 상호작용하는 키/값 토큰의 수를 제한하는 간단하면서도 일반적인 전략으로 이 문제를 해결한다. 효과적인 토큰 선택을 위해 두 단계 프레임워크를 도입한다. 첫째, 프레임 간 선택 단계는 프레임 수준에서 작동하여 보존해야 할 프레임을 식별한다. 둘째, 프레임 내 선택 단계는 선택된 프레임 내에서 더 많은 중복 토큰을 추가로 제거한다. 본 분석은 프레임 간 선택을 위한 다양성 기반 전략의 이점을 강조하며, 이는 장면의 광범위한 커버리지를 보장한다. 프레임 내 선택의 경우, 전역 어텐션 패턴의 엔트로피에 의해 선택 과정이 안내되는 레이어 인식 희소화가 필요함을 보여준다. 본 접근법은 기존 솔루션 대비 우수한 속도-정확도 트레이드오프를 제공한다. 광범위한 실험을 통해 500개의 이미지가 포함된 장면에서 비주얼 지오메트리 트랜스포머를 85% 이상 가속화하면서도 기준 성능을 유지하거나 개선함을 입증하였으며, 이는 본 토큰 선택 전략이 향후 비주얼 지오메트리 트랜스포머 응용에서 중요한 역할을 할 수 있음을 시사한다. 프로젝트 웹사이트는 https://zsh2000.github.io/good-token-hunting.github.io 에서 확인할 수 있다.
시각-언어 모델(VLM)의 급속한 확산은 종종 통합된 다중모달 지식 발견을 가능하게 하는 것으로 간주되지만, 이는 현재 VLM이 다중모달 데이터를 충실히 종합한다는 충분히 검토되지 않은 가정에 기반한다. 우리는 실제로 그렇지 않은 경우가 많으며, 이러한 격차는 지배적인 시각 인코더-프로젝터-LLM 패러다임에서의 신뢰성 문제를 반영한다고 주장한다. 최신 모델들은 시각 입력에서 근거 있는 지식을 추출하기보다는, 강력한 언어 사전 지식을 활용하여 심각한 시각 표현 병목현상을 우회하는 기능적 맹점을 자주 보인다. 본 연구에서 우리는 데이터 제거 또는 새로운 데이터셋 생성에 의존하여 데이터셋 편향과 구조적 한계를 혼동하는 기존의 다중모달 평가 방법론에 도전한다. 우리는 정보 이론적 접근인 모달리티 변환 프로토콜을 제안하며, 이는 우리가 보기의 비용이라 부르는 것을 정량화하도록 설계되었다. 의미적 페이로드를 제거하는 대신 변환함으로써, 우리는 세 가지 새로운 지표인 보기의 대가, 보기의 저주, 보기의 오류를 정식화하고, 이를 의미 충분성 기준으로 집대성한다. 더 나아가, 우리는 다중모달 스케일링의 발산 법칙을 가설로 제시한다: 기반 언어 엔진이 전례 없는 추론 능력으로 확장됨에 따라, 시각 지식 병목현상의 패널티는 줄어들기보다 오히려 증가할 수 있다. 우리는 학계가 주요 평가 목표로서의 '다중모달 이득'에서 벗어나야 한다고 주장한다. 의미 충분성 기준을 수동적 진단 제약에서 능동적 구조 설계도로 격상시킴으로써, 우리는 차세대 AI 시스템을 진정한 다중모달 추론으로 이끌기 위한 기초를 제공한다.
장기적 LLM 에이전트를 강화 학습으로 훈련하는 것은 어려운데, 이는 희소한 결과 보상이 작업의 성공 여부를 알려주기는 하지만 어떤 중간 행동이 결과를 초래했는지 또는 어떻게 수정해야 하는지는 알려주지 않기 때문이다. 최근 방법들은 턴 수준의 행동-출력 신호로부터 보상이나 텍스트 힌트를 생성하거나, 피드백 조건부 자기 증류를 사용하여 이 문제를 완화한다. 그러나 모든 중간 턴이 이미 성공적이거나 중립적인 경우 매 턴마다 피드백을 생성하는 것은 비효율적이며, 고정되거나 부적절한 턴에 피드백을 적용하면 실패에 기여한 행동을 제대로 감독하지 못하는 경우가 많다. 이러한 격차를 해소하기 위해, 우리는 HINT-SD를 제안한다. 이는 전체 궤적 회고를 사용하여 실패 관련 행동을 선택하고, 선택된 행동 구간에만 피드백 조건부 증류를 적용하는 표적 자기 증류 프레임워크이다. BFCL v3 및 AppWorld에서의 실험 결과, 우리 방법이 밀집된 턴별 피드백 기준선보다 최대 18.80% 성능이 향상되면서 훈련 단계당 시간은 2.26배 감소하여, 증류 위치 선택이 효과적이고 효율적인 장기적 에이전트 훈련의 핵심 요소임을 시사한다.
대규모 언어 모델(LLM)은 다양한 작업에서 인상적인 추론 능력을 입증했지만, 데이터 오염은 이러한 능력에 대한 객관적 평가를 저해한다. 이러한 문제는 기존 탐지 방법을 회피하고 리더보드 성능을 인위적으로 향상시키기 위해 벤치마크 데이터를 의역하는 등 회피적 혹은 간접적 오염 전략을 사용하는 악의적인 모델 게시자에 의해 더욱 악화된다. 현재의 접근 방식은 이러한 은밀한 오염을 신뢰성 있게 탐지하는 데 어려움을 겪는다. 본 연구에서는 모델이 생성한 추론 단계가 기저의 암기(기억)를 적극적으로 은폐한다는 중요한 현상을 밝혀낸다. 이에 영감을 받아, 우리는 사고 사슬(Chain-of-Thought, CoT) 전체 과정을 의도적으로 단절하여 잠재적인 지름길 매핑을 노출시키는 새로운 블랙박스 탐지 방법인 제로-CoT 프로브(Zero-CoT Probe, ZCP)를 제안한다. 또한, ZCP는 암기를 모델의 본질적인 문제 해결 능력으로부터 더욱 분리하기 위해, 원본 벤치마크에 대한 모델의 제로-CoT 성능을 동형으로 교란된 참조 데이터셋과 비교한다. 더 나아가, 단순한 이진 분류를 넘어 오염 가능성과 심각도를 모두 정량화하는 지표인 오염 신뢰도(Contamination Confidence)를 도입한다. 이전에 식별된 오염 모델과 특별히 미세 조정된 오염 모델 모두에 대한 광범위한 실험을 통해, ZCP가 직접적 및 회피적 데이터 오염을 강건하게 탐지함을 입증한다. ZCP 코드는 https://github.com/Yifan-Lan/zero-cot-probe 에서 확인할 수 있다.
잠재 상태를 반복적으로 업데이트하는 방식으로 테스트 시간 연산을 확장하는 것은 추론을 위한 강력한 패러다임으로 부상하고 있다. 그러나 이러한 반복 모델이 암기된 패턴을 넘어 일반화할 수 있게 하는 내부 메커니즘은 여전히 불분명하다. 본 연구에서는 일반화 가능한 추론이 과제 조건부 어트랙터(attractor), 즉 안정적인 고정점이 유효한 해결책에 해당하는 잠재 동역학계를 학습함으로써 발생한다고 가정한다. 우리는 이 과정을 평형 추론기(Equilibrium Reasoner, EqR)를 통해 공식화하며, 이는 외부 검증기나 과제 특화 사전 정보 없이도 테스트 시간 확장을 가능하게 한다. EqR은 내부 동역학을 두 축을 따라 확장한다: 더 많은 반복을 실행함으로써 깊이를, 그리고 여러 초기화로부터의 확률적 궤적을 집계함으로써 폭을 확장한다. 실험적으로, 테스트 시간 확장으로 인한 이득은 해결책 정렬 어트랙터로의 더 강한 수렴과 밀접하게 연관되어 있다. 이러한 어트랙터 관점은 신경망이 과제 난이도에 따라 테스트 시간 연산을 적응적으로 할당할 수 있게 한다. 간단한 경우는 1~5회 반복 단계 내에 수렴하는 반면, 더 어려운 경우는 대규모 테스트 시간 확장의 이점을 얻는다. 최대 40,000개 층에 해당하는 전개를 통해, 확장 가능한 잠재 추론은 순방향 모델의 2.6% 정확도를 Sudoku-Extreme에서 99% 이상으로 향상시킨다. 이러한 결과는 학습된 어트랙터 경관이 반복적 잠재 모델에서의 확장 가능한 추론을 이해하기 위한 유용한 메커니즘적 렌즈를 제공함을 시사한다.
MRI 재구성은 본질적으로 ill-posed 역문제이며, 불완전한 측정으로 인해 많은 가능한 해가 존재한다. 이러한 모호성은 높은 가속도 조건에서 더 심각해지는데, 픽셀 도메인의 연속 예측 변수는 가능한 재구성들을 평균 내고 고주파 해부학적 구조를 억제하는 경향이 있다. 우리는 이러한 한계를 극복하기 위해 재구성을 이산 다중 스케일 잠재 공간으로 이동시키고, 이를 자기회귀적 다음 가속도 스케일 예측으로 설정한다. 시각적 자기회귀 모델링에서 효과적인 것으로 입증된 이산 사전 분포를 활용하여, 우리의 방법은 해를 코드북 토큰의 컴팩트한 시퀀스로 제한함으로써 매우 희소한 측정에서도 선명한 재구성을 가능하게 한다. 이러한 이산 자기회귀 공식은 현대 대형 언어 모델의 사후 훈련 기법과도 자연스럽게 일치한다. 이 관찰을 바탕으로, 우리는 시각적 자기회귀 모델링을 위한 온-정책 특권 정보 증류를 도입한다. 여기서 교사는 추론 시 사용할 수 없는 특권 맥락(우리의 경우 완전 샘플링된 획득)만 제공받아 훈련되고, 학생은 자체 롤아웃에서 훈련되며 이를 통해 일관된 재구성 성능 향상을 이끈다. fastMRI 벤치마크에 대한 광범위한 실험을 통해, 우리의 접근 방식이 극단적인 언더샘플링 조건에서 다양한 샘플링 패턴에 걸쳐 개선된 재구성 성능을 제공함을 보여준다. 프로젝트 웹사이트는 https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{here}입니다.