번역이 포함된 일일 선별된 AI 연구 논문
전문가 혼합(MoE) 모델은 라우터의 결정이 전문가의 역량과 잘 일치하도록 보장하는 명시적 제약이 부족하여 궁극적으로 모델 성능을 제한합니다. 이를 해결하기 위해 우리는 라우터의 결정과 전문가 역량을 긴밀하게 결합하는 경량 보조 손실 함수인 전문가-라우터 결합(ERC) 손실을 제안합니다. 우리의 접근 방식은 각 전문가의 라우터 임베딩을 해당 전문가에 할당된 토큰의 프록시 토큰으로 간주하고, 교란된 라우터 임베딩을 전문가에 통과시켜 내부 활성화를 얻습니다. ERC 손실은 이러한 활성화에 두 가지 제약을 적용합니다: (1) 각 전문가는 다른 전문가의 프록시 토큰보다 자신의 프록시 토큰에 대해 더 높은 활성화를 나타내야 합니다. (2) 각 프록시 토큰은 다른 전문가보다 해당 전문가로부터 더 강한 활성화를 유발해야 합니다. 이러한 제약은 각 라우터 임베딩이 해당 전문가의 역량을 충실히 나타내도록 보장하는 동시에, 각 전문가가 실제로 라우팅된 토큰을 처리하는 데 특화되도록 합니다. ERC 손실은 n개의 전문가 수에 대해 n^2개의 활성화만으로 연산이 이루어져 계산 효율적입니다. 이는 배치 크기와 무관한 고정 비용으로, 토큰 수(보통 배치당 수백만 개)에 따라 확장되는 기존 결합 방법과 대조됩니다. 3B에서 15B 파라미터 규모의 MoE-LLM 사전 학습과 수조 개의 토큰에 대한 광범위한 분석을 통해 ERC 손실의 효과성을 입증했습니다. 더욱이 ERC 손실은 학습 중 전문가 특화 수준에 대한 유연한 제어와 정량적 추적을 가능하게 하여 MoE에 대한 유용한 통찰력을 제공합니다.
확산 모델을 통한 실시간 비디오 생성은 범용 멀티모달 상호작용 AI 시스템 구축에 필수적입니다. 그러나 확산 모델에서 반복적 과정을 통한 양방향 어텐션으로 모든 비디오 프레임을 동시에 노이즈 제거하는 방식은 실시간 상호작용을 방해합니다. 기존 지식 증류 방법은 모델을 자율회귀적으로 만들고 샘플링 단계를 줄여 이 문제를 완화할 수 있지만, 주로 텍스트-비디오 생성에 집중하여 인간-AI 상호작용을 부자연스럽고 비효율적으로 만듭니다. 본 논문은 이러한 격차를 해소하기 위해 텍스트, 이미지, 오디오를 포함한 멀티모달 컨텍스트에 조건화된 실시간 상호작용 비디오 확산을 목표로 합니다. 선도적인 온-폴리시 지식 증류 접근법인 Self Forcing이 멀티모달 조건화에서 깜빡임, 검은 화면, 화질 저하와 같은 시각적 결함과 같은 문제에 직면한다는 관찰을 바탕으로, 우리는 조건 입력의 품질과 온-폴리시 최적화를 위한 초기화 및 스케줄링에 중점을 둔 개선된 증류 방법을 연구합니다. HDTF, AVSpeech, CelebV-HQ를 포함한 멀티모달 조건(오디오, 이미지, 텍스트) 아바타 비디오 생성 벤치마크에서, 우리의 증류 모델은 추론 비용과 지연 시간을 20배 절감하면서 유사하거나 더 큰 규모의 전체 단계 양방향 기준 모델들의 시각적 품질에 필적하는 성능을 보입니다. 더 나아가, 우리는 이 모델을 오디오 언어 모델 및 장편 비디오 추론 기술인 Anchor-Heavy Identity Sinks와 통합하여 실시간 멀티모달 상호작용 아바타 시스템인 LiveTalk를 구축했습니다. 우리가 직접 구성한 다중 턴 상호작용 벤치마크에 대한 시스템 수준 평가 결과, LiveTalk는 최첨단 모델(Sora2, Veo3)보다 다중 턴 비디오 일관성과 콘텐츠 품질에서 우수한 성능을 보였으며, 응답 지연 시간을 1~2분에서 실시간 생성으로 단축하여 원활한 인간-AI 멀티모달 상호작용을 가능하게 합니다.
최근 연구들은 확산 모델을 활용하여 상호작용 및 탐색이 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 방법은 과도하게 큰 매개변수 크기, 긴 추론 단계에 대한 의존성, 급속히 증가하는 역사적 컨텍스트와 같은 중요한 문제에 직면하여 실시간 성능을 심각하게 제한하고 텍스트 기반 생성 기능이 부족합니다. 이러한 문제를 해결하기 위해 우리는 단일 이미지 또는 텍스트 프롬프트부터 현실적이고 상호작용적이며 연속적인 세계를 생성하도록 설계된 새로운 프레임워크인 \method를 제안합니다. \method는 키보드 기반 탐색을 지원하는 정교하게 설계된 프레임워크를 통해 이를 달성합니다. 이 프레임워크는 세 가지 핵심 구성 요소로 이루어집니다: (1) 통합 컨텍스트 압축과 선형 어텐션을 결합한 장영상 생성 프레임워크, (2) 양방향 어텐션 증류와 향상된 텍스트 임베딩 기법으로 구동되는 실시간 스트리밍 가속 전략, (3) 세계 내 사건 생성을 위한 텍스트 제어 방법. 관련 코드베이스는 보충 자료에 제공하였습니다.
에이전트 강화학습(RL)은 복잡한 GUI 작업에서 자율 에이전트 개발에 큰 잠재력을 지니고 있지만, 작업 완료 검증의 어려움으로 인해 확장성이 심각하게 제한되고 있습니다. 기존의 작업 검증은 수동적이고 사후적인 과정으로 취급됩니다. 즉, 검증기(예: 규칙 기반 스코어링 스크립트, 보상/비평 모델, LLM-as-a-Judge)가 에이전트의 전체 상호작용 궤적을 분석하여 성공 여부를 판단합니다. 이러한 관련성 없고 잡음이 많은 장황한 맥락을 처리하는 방식은 검증 프로토콜에 도전 과제를 제기하며, 결국 감당하기 어려운 비용과 낮은 신뢰성으로 이어집니다. 이러한 병목 현상을 극복하기 위해, 우리는 기존의 수동적·사후적 검증에서 에이전트自身이 주도하는 능동적·현장 자기 검증으로의 패러다임 전환을 제안하는 SmartSnap을 제안합니다. 우리는 '자기 검증 에이전트'라는 새로운 유형의 에이전트를 소개합니다. 이 에이전트는 단순히 작업을 완료하는 것뿐만 아니라, 정성들여 선별한 스냅샷 증거를 통해 그 성취를 입증하는 이중 임무를 지닙니다. 우리가 제안하는 3C 원칙(완전성, 간결성, 창의성)의 지도 아래, 에이전트는 온라인 환경에 대한 접근성을 활용하여 최소한의 결정적인 스냅샷 집합에 대해 자기 검증을 수행합니다. 이러한 증거는 일반적인 LLM-as-a-Judge 검증기가 그 타당성과 관련성을 판단할 유일한 자료로 제공됩니다. 다양한 모델 패밀리와 규모의 모바일 작업에 대한 실험 결과, 우리의 SmartSnap 패러다임이 LLM 기반 에이전트를 확장 가능한 방식으로 훈련시키는 것을 가능하게 하며, 8B 및 30B 모델에 각각 최대 26.08%, 16.66%의 성능 향상을 가져온다는 것을 입증했습니다. 해결책 탐색과 증거 수집 사이의 시너지는 DeepSeek V3.1 및 Qwen3-235B-A22B 대비 경쟁력 있는 성능을 지닌 효율적인 자기 검증 에이전트의 육성을 가능하게 합니다.
투명 물체는 인식 시스템에 여전히 매우 어려운 과제로 남아 있습니다: 굴절, 반사 및 투과는 스테레오, ToF 및 순수하게 구별적인 단안 깊이 인식의 기본 가정을 깨뜨려 홀이 생기고 시간적으로 불안정한 추정치를 초래합니다. 우리의 핵심 관찰은 현대 비디오 확산 모델이 이미 설득력 있는 투명 현상을 합성한다는 점으로, 이는 그들이 광학 법칙을 내재화했음을 시사합니다. 우리는 투명/반사 장면의 합성 비디오 코퍼스인 TransPhy3D를 구축했습니다: Blender/Cycles로 렌더링된 11,000개의 시퀀스입니다. 장면은 다양한 범주의 정적 자산과 풍부한 형태의 절차적 자산으로 구성된 큐레이팅된 자산 뱅크를 유리/플라스틱/금속 재질과 결합하여 조립합니다. 우리는 물리 기반 레이 트레이싱과 OptiX 디노이징을 통해 RGB + 깊이 + 법선을 렌더링합니다. 대규모 비디오 확산 모델을 시작점으로, 경량 LoRA 어댑터를 통해 깊이(및 법선)용 비디오-투-비디오 변환기를 학습합니다. 학습 시 DiT 백본에서 RGB와 (노이즈가 있는) 깊이 잠재 변수를 연결하고 TransPhy3D와 기존 프레임 단위 합성 데이터셋에 대해 공동 학습하여 임의 길이 입력 비디오에 대해 시간적으로 일관된 예측을 생성합니다. 결과 모델인 DKT는 투명도가 관련된 실제 및 합성 비디오 벤치마크(ClearPose, DREDS(CatKnown/CatNovel), TransPhy3D-Test)에서 제로-샷 SOTA를 달성합니다. 이는 강력한 이미지/비디오 베이스라인보다 정확도와 시간적 일관성을 향상시키며, 법선 변형은 ClearPose에서 최고의 비디오 법선 추정 결과를 기록합니다. 소규모 1.3B 버전은 약 0.17초/프레임으로 실행됩니다. 그rasping 스택에 통합된 DKT의 깊이 추정은 반투명, 반사 및 난반사 표면 전반에 걸쳐 성공률을 높여 기존 추정기를 능가합니다. 종합적으로, 이러한 결과는 "확산은 투명도를 안다"는 더 넓은 주장을 지지합니다. 생성적 비디오 사전 지식은 효율적이고 레이블 없이도 도전적인 실제 조작을 위한 강력하고 시간적으로 일관된 인식으로 재목적화될 수 있습니다.
확산 기반 비디오 초해상도(VSR) 방법은 높은 인식적 화질을 달성하지만 미래 프레임에 대한 의존성과 고비용의 다단계 잡음 제거로 인해 지연 시간에 민감한 환경에서는 실용적이지 못하다. 본 연구에서는 효율적인 온라인 VSR을 위한 인과적 조건부 확산 프레임워크인 Stream-DiffVSR을 제안한다. 과거 프레임만을 엄격히 활용하는 이 방법은 빠른 추론을 위한 4단계 증류 잡음 제거기, 잠재 공간 잡음 제거 중 운동 정렬 정보를 주입하는 자기회귀 시간 안내(ARTG) 모듈, 그리고 디테일과 시간적 일관성을 향상시키는 경량 시간 인식 디코더(TPM)를 결합했다. Stream-DiffVSR은 RTX4090 GPU에서 720p 프레임을 0.328초에 처리하며 기존 확산 기반 방법을 크게 능가한다. 온라인 SOTA인 TMP 대비 인식적 화질(LPIPS +0.095)을 향상시키면서 지연 시간을 130배 이상 감소시켰다. Stream-DiffVSR은 확산 기반 VSR 중 최저 지연 시간을 기록하며 초기 지연을 4600초 이상에서 0.328초로 단축함으로써 저지연 온라인 배치에 적합한 최초의 확산 VSR 방법이 되었다. 프로젝트 페이지: https://jamichss.github.io/stream-diffvsr-project-page/
자동회귀적 대규모 시각-언어 모델(VLM)이 놀라운 성과를 거두었지만, 순차적 생성 방식은 복잡한 시각 계획 및 동적 로봇 제어에서의 효율성을 제한하는 경우가 많습니다. 본 연구에서는 이러한 한계를 극복하기 위해 확산 기반 대규모 언어 모델(dLLM) 위에 시각-언어 모델을 구축하는 가능성을 탐구합니다. 우리는 기존 dVLMs 중 최고 수준의 성능을 달성하는 오픈 확산 기반 VLM(dVLM)인 Dream-VL을 소개합니다. Dream-VL은 다양한 벤치마크에서 오픈 데이터로 학습된 최상위 AR 기반 VLMs에 필적하는 성능을 보이면서도, 시각 계획 작업에 적용될 때 우수한 잠재력을 보여줍니다. Dream-VL을 기반으로, 우리는 오픈 로봇 데이터셋에 대한 지속적 사전 학습을 통해 개발된 dLLM 기반 시각-언어-행동 모델(dVLA)인 Dream-VLA를 소개합니다. 우리는 이 확산 백본의 본질적 양방향 특성이 VLA 작업을 위한 우수한 기반 역할을 하며, 액션 청킹 및 병렬 생성에 본질적으로 적합하여 하류 작업 미세 조정에서 훨씬 빠른 수렴을 이끈다는 점을 입증합니다. Dream-VLA는 LIBERO에서 97.2%의 평균 성공률, SimplerEnv-Bridge에서 71.4%의 전체 평균, SimplerEnv-Fractal에서 60.5%의 전체 평균이라는 최상위 성능을 달성하여 π_0 및 GR00T-N1과 같은 주요 모델을 능가합니다. 또한 우리는 dVLMs이 다양한 학습 목표에 걸친 하류 작업에서 AR 기준 모델들을 능가함을 검증합니다. 커뮤니티의 추가 연구를 촉진하기 위해 Dream-VL과 Dream-VLA를 모두 공개합니다.
디퓨전 트랜스포머 모델은 조건부 이미지를 인코딩하고 트랜스포머 레이어에 통합함으로써 이미지 편집 기술을 크게 발전시켰습니다. 그러나 대부분의 편집은 작은 영역만 수정하는 반면, 현재의 방법들은 모든 타임스텝에서 모든 토큰을 균일하게 처리하고 노이즈를 제거하여 불필요한 계산을 초래하고 변경되지 않은 영역의 품질을 저하시킬 수 있습니다. 이는 편집 과정에서 정말로 모든 영역을 재생성해야 하는지에 대한 근본적인 의문을 제기합니다. 이를 해결하기 위해 본 연구에서는 수정된 영역만 선택적으로 업데이트하는 학습이 필요 없는 디퓨전 편집 프레임워크인 SpotEdit를 제안합니다. SpotEdit는 두 가지 핵심 구성 요소로 이루어집니다: SpotSelector는 perceptual 유사도를 통해 안정적인 영역을 식별하고 조건부 이미지 특징을 재사용하여 해당 영역의 계산을 생략합니다; SpotFusion은 동적 융합 메커니즘을 통해 이러한 특징을 편집된 토큰과 적응적으로 혼합하여 맥락적 일관성과 편집 품질을 유지합니다. 불필요한 계산을 줄이고 수정되지 않은 영역의 높은 정확도를 유지함으로써 SpotEdit는 효율적이고 정밀한 이미지 편집을 달성합니다.
텍스트 인코더는 텍스트-이미지 및 텍스트-비디오 확산 모델의 핵심 구성 요소로, 생성 콘텐츠의 의미론적 정확도를 근본적으로 결정합니다. 그러나 그 발전은 두 가지 주요 과제로 인해 지연되어 왔습니다: 하류 생성 성능을 신뢰성 있게 예측하는 효율적인 평가 체계의 부재, 그리고 시각적 합성을 위해 사전 학습된 언어 모델을 효과적으로 적용하는 어려움입니다. 이러한 문제를 해결하기 위해 우리는 확산 모델을 위한 강건하고 정렬된, 세밀한 텍스트 임베딩을 생성하는 패러다임인 GRAN-TED를 소개합니다. 우리의 기여는 두 가지입니다. 첫째, 값비싼 end-to-end 모델 학습 없이도 인코더의 표현 품질을 효율적이고 강건하게 평가할 수 있는 새로운 텍스트 전용 벤치마크인 TED-6K를 제안합니다. 우리는 경량의 통합 어댑터를 통해 표준화된 TED-6K의 성능이 하류 생성 작업에서 인코더의 효과성과 강한 상관 관계가 있음을 입증합니다. 주목할 점은, 우리의 실험 설정 하에서 확산 모델을 처음부터 학습하는 것과 비교하여 TED-6K로 평가하는 것이 약 750배 더 빠르다는 것입니다. 둘째, 이 검증된 체계의 지도를 받아 우리는 새로운 2단계 학습 패러다임을 사용하여 우수한 텍스트 인코더를 개발합니다. 이 과정은 더 나은 시각적 표현을 위해 멀티모달 대규모 언어 모델에 대한 초기 미세 조정 단계와, 더 세밀하고 강력한 텍스트 특징을 추출하기 위한 계층별 가중치 부여 방법으로 구성됩니다. 우리의 실험 결과, 최종적인 GRAN-TED 인코더는 TED-6K에서 최첨단 성능을 달성할 뿐만 아니라 텍스트-이미지 및 텍스트-비디오 생성에서도 뚜렷한 성능 향상을 이끌어냅니다. 우리의 TED-6K 데이터셋과 평가 코드는 다음 링크에서 이용 가능합니다: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
로봇 매니퓰레이션 작업을 표현력과 정밀성 모두를 갖춘 방식으로 명세화하는 것은 여전히 핵심적인 과제로 남아 있다. 시각적 목표는 간결하고 명확한 작업 명세를 제공하지만, 기존 목표-조건 정책은 작업 진행을 명시적으로 모델링하지 않은 단일 단계 행동 예측에 의존하기 때문에 장기간 지속되는 매니퓰레이션에서 어려움을 겪는 경우가 많다. 우리는 목표-조건 시각 세계 모델과 다중 시간尺度 제어를 통합한 일반적인 목표-조건 매니퓰레이션 정책인 Act2Goal을 제안한다. 현재 관측값과 목표 시각 목표가 주어지면, 세계 모델은 장기간 구조를 포착하는 중간 시각 상태들의 그럴듯한 연속을 생성한다. 이 시각적 계획을 강인한 실행으로 전환하기 위해, 우리는 다중 시간尺度 시간 해싱(MSTH)을 도입한다. 이는 상상된 궤적을 세분화된 폐루프 제어를 위한 조밀한 근위 프레임과 전역 작업 일관성을 고정하는 희소한 원위 프레임으로 분해한다. 이 정책은 엔드-투-엔드 크로스-어텐션을 통해 이러한 표현을 운동 제어와 결합하여 지역적 방해에 대해 반응성을 유지하면서도 일관된 장기간 행동을 가능하게 한다. Act2Goal은 새로운 객체, 공간 배치 및 환경에 대한 강력한 제로-샷 일반화 성능을 달성한다. 또한 LoRA 기반 미세 조정을 통한 후견적 목표 재설정으로 보상-자유 온라인 적응을 추가로 가능하게 하여 외부 감독 없이 신속한 자율 개선을 허용한다. 실제 로봇 실험 결과, Act2Goal은 분포 외 작업에서 성공률을 30%에서 90%로 향상시키며, 자율 상호작용 시작 후 몇 분 내에 도달함을 보여준다. 이는 다중 시간尺度 제어를 갖춘 목표-조건 세계 모델이 강인한 장기간 매니퓰레이션에 필요한 구조화된 지도를 제공함을 입증한다. 프로젝트 페이지: https://act2goal.github.io/
언어 에이전트는 행동하고 기억하며 학습할 수 있는 지속적인 세계를 점점 더 필요로 하고 있습니다. 기존 접근법은 두 가지 극단에 위치해 있습니다: 기존 웹 프레임워크는 데이터베이스를 기반으로 안정적이지만 고정된 컨텍스트를 제공하는 반면, 완전 생성형 세계 모델은 제어 가능성과 실용적인 엔지니어링 측면을 희생하면서 무제한 환경을 목표로 합니다. 본 연구에서는 중간 지점인 웹 세계 모델(Web World Model, WWM)을 소개합니다. WWM에서는 세계 상태와 '물리 법칙'이 일반적인 웹 코드로 구현되어 논리적 일관성을 보장하며, 대규모 언어 모델이 이 구조화된 잠재 상태 위에서 컨텍스트, 서사, 고수준 의사 결정을 생성합니다. 우리는 현실적인 웹 스택 위에 WWM 제품군을 구축했으며, 여기에는 실제 지리를 기반으로 한 무한 여행 지도, 가상의 은하 탐험가, 웹 규모의 백과사전적 및 서사적 세계, 시뮬레이션 및 게임형 환경이 포함됩니다. 이러한 시스템들을 통해 우리는 WWM을 위한 실용적인 설계 원칙을 도출했습니다: 코드로 정의된 규칙과 모델 주도 상상을 분리하고, 잠재 상태를 타입이 지정된 웹 인터페이스로 표현하며, 결정론적 생성을 활용하여 무제한이지만 구조화된 탐색을 달성하는 것입니다. 우리의 결과는 웹 스택 자체가 세계 모델을 위한 확장 가능한 기반으로 작용하여 제어 가능하면서도 개방형 환경을 가능하게 할 수 있음을 시사합니다. 프로젝트 페이지: https://github.com/Princeton-AI2-Lab/Web-World-Models.
확산 언어 모델(dLLMs)은 자기회귀(AR) 모델에 대한 유망한 대안으로 부상했습니다. 최근 연구를 통해 dLLM의 사전 학습 잠재력이 검증되고 추론 속도가 가속화되었으나, dLLM의 사후 학습 분야는 여전히 미흡한 실정입니다. 기존 방법들은 계산 비효율성과 훈련-추론 간 목표 불일치로 인해 수학과 같은 복잡한 추론 과제에서 성능이 크게 제한됩니다. 이를 해결하기 위해 우리는 FlexAttention으로 가속화된 블록 단위 훈련과 LMDeploy로 최적화된 추론을 긴밀하게 통합한 효율적인 사후 학습 프레임워크인 DiRL을 제안합니다. 이 아키텍처는 간소화된 온라인 모델 업데이트 루프를 가능하게 하여 효율적인 2단계 사후 학습(지도 미세 조정 후 강화 학습)을 용이하게 합니다. 이 프레임워크를 기반으로 우리는 dLLM에 특화된 최초의 편향되지 않은 그룹 상대 정책 최적화(GRPO) 구현체인 DiPO를 제안합니다. 고품질 수학 데이터로 DiRL-8B-Instruct를 훈련하여 우리의 접근 방식을 검증했습니다. 우리 모델은 dLLM 중에서 최고 수준의 수학 성능을 달성했으며, 여러 벤치마크에서 유사한 Qwen2.5 시리즈 모델들을 능가했습니다.
인공지능 공동 과학자(AI co-scientists)는 인간 연구자들이 연구 목표를 달성하는 것을 지원하는 도구로 부상하고 있습니다. 이러한 AI 공동 과학자의 핵심 기능은 주어진 목표와 제약 조건을 바탕으로 연구 계획을 생성하는 능력입니다. 생성된 계획은 연구자들이 브레인스토밍을 하거나 추가 정제를 거쳐 실행에 옮길 수도 있습니다. 그러나 현재 언어 모델은 모든 제약 조건과 암묵적 요구 사항을 따르는 연구 계획을 생성하는 데 어려움을 겪고 있습니다. 본 연구에서는 기존 연구 논문의 방대한 자료를 활용하여 더 나은 연구 계획을 생성하는 언어 모델을 훈련시키는 방법을 탐구합니다. 여러 분야의 논문에서 연구 목표와 목표별 평가 기준(rubrics)을 자동으로 추출하여 확장성 있고 다양한 훈련 말뭉치를 구축합니다. 그런 다음 자기 평가(self-grading)를 통한 강화 학습으로 연구 계획 생성을 위한 모델을 훈련시킵니다. 훈련 과정에서 초기 정책의 고정된 사본이 채점자 역할을 하며, 평가 기준은 외부 인간 감독 없이도 개선을 가능하게 하는 생성기-검증기 간극(generator-verifier gap)을 생성합니다. 이 접근법을 검증하기 위해 기계학습 연구 목표를 대상으로 전문가들을 통한 연구(총 225시간 소요)를 수행했습니다. 전문가들은 연구 목표의 70%에 대해 미세 조정된 Qwen3-30B-A3B 모델이 생성한 계획을 초기 모델의 계획보다 선호했으며, 자동 추출된 목표별 평가 기준의 84%를 승인했습니다. 일반성을 평가하기 위해 의학 논문 및 새로운 arXiv 프리프린트의 연구 목표로 접근법을 확장하고, 프론티어 모델들을 심사 위원단으로 활용하여 평가했습니다. 우리의 미세 조정은 12-22%의 상대적 개선과 의미 있는 교차 도메인 일반화를 이루었으며, 실행 피드백을 얻기 어려운 의학 연구와 같은 문제 설정에서도 효과적임을 입증했습니다. 이러한 결과들은 함께, 확장 가능하고 자동화된 훈련 방법이 일반적인 AI 공동 과학자 개선을 위한 한 걸음으로서의 잠재력을 보여줍니다.
자율 에이전트의 진화는 정보 탐색을 수동적 검색에서 능동적이고 개방형 웹 연구로 전환하며 재정의하고 있습니다. 그러나 텍스트 및 정적 멀티모달 에이전트가 빠르게 발전하는 동안, 웹에서 가장 역동적인 모달리티인 비디오 처리에는 상당한 격차가 남아 있습니다. 기존 비디오 벤치마크는 주로 수동적 인식에 집중하여 외부 검색 없이도 선별된 클립을 모델에 제공합니다. 이들은 비디오 타임라인을 능동적으로 질의하고, 분산된 증거를 상호 참조하며, 열린 웹에서 주장을 검증해야 하는 에이전트적 비디오 연구를 평가하지 못합니다. 이러한 격차를 해소하기 위해 우리는 개방형 웹 에이전트 비디오 추론에 맞춰진 210개의 어려운 질문으로 구성된 도전적인 벤치마크인 Video-BrowseComp를 제시합니다. 기존 벤치마크와 달리 Video-BrowseComp는 시간적 시각 증거에 대한 필수 의존성을 부과하여 텍스트 검색만으로는 답을 도출할 수 없고 외부 주장을 검증하기 위해 비디오 타임라인을 탐색해야 하도록 합니다. 최첨단 모델 평가 결과 중요한 병목 현상이 드러났습니다: GPT-5.1(검색 기능 포함)과 같은 고급 검색 강화 모델도 정확도가 15.24%에 불과했습니다. 우리 분석에 따르면 이러한 모델은 주로 텍스트 대리 요소에 의존하여 메타데이터가 풍부한 영역(예: 줄거리 요약이 있는 TV 프로그램)에서는 뛰어나지만, 시각적 근거가 필수적인 메타데이터가 부족한 역동적 환경(예: 스포츠, 게임 플레이)에서는 완전히 무너집니다. 최초의 개방형 웹 비디오 연구 벤치마크인 Video-BrowseComp는 수동적 인식을 넘어 능동적 비디오 추론으로 분야를 발전시킵니다.
기존 대부분의 구체화된 내비게이션 과제에서 지시문은 지시 따르기나 객체 탐색과 같이 명확하고 모호함이 없는 경우가 많습니다. 이러한 이상화된 설정 하에서 에이전트는 시각 및 언어 입력에 조건화된 효과적인 내비게이션 출력을 생성하는 것만 요구됩니다. 그러나 실제 세계의 내비게이션 지시문은 종종 모호하고 애매하여, 에이전트가 능동적 대화를 통해 불확실성을 해결하고 사용자 의도를 추론해야 합니다. 이러한 격차를 해결하기 위해 우리는 대화 가능 내비게이션 연구를 위한 Vision Language-Language Navigation(VL-LN) 벤치마크를 소개합니다. VL-LN은 에이전트가 내비게이션 중 자연어로 오라클에 자유롭게 문의할 수 있도록 하는 Interactive Instance Object Navigation(IION) 과제를 기반으로 합니다. IION은 에이전트가 내비게이션 행동을 생성할 뿐만 아니라 능동적 대화를 통해 언어 출력을 생성해야 하므로 실제 설정에 더 가깝게 정렬됩니다. 우리는 이 과제를 위해 대규모 자동 생성 데이터셋과 에이전트 질의에 응답 가능한 오라클을 포함한 종합적 평가 프로토콜을 제공합니다. VL-LN은 훈련을 위한 41,000개 이상의 장기간 대화 증강 경로와 에이전트 질문에 답변할 수 있는 오라클을 통한 자동 평가 프로토콜로 구성됩니다. 이 벤치마크를 사용하여 우리는 대화 기능을 갖춘 내비게이션 모델을 훈련시키고, 이 모델이 기준 모델 대비 상당한 성능 향상을 달성함을 보입니다. 광범위한 실험과 분석을 통해 VL-LN이 대화 가능 구체화 내비게이션 연구 발전에 대한 효과성과 신뢰성을 추가로 입증합니다. 코드와 데이터셋: https://0309hws.github.io/VL-LN.github.io/
범모달 대규모 언어 모델은 오디오와 시각 양상을 통합하는 데 큰 진전을 이루었지만, 종종 세밀한 수준의 교차 양상 이해가 부족하고 다중 양상 정렬에 어려움을 겪습니다. 이러한 한계를 해결하기 위해 본 논문에서는 전문화된 도구들을 동적으로 조율하여 더욱 세밀한 오디오-시각 추론을 달성하는 완전 오디오 주도형 능동 인지 에이전트인 OmniAgent를 소개합니다. 경직된 정적 워크플로와 고밀도 프레임 캡션에 의존하는 기존 연구와 달리, 본 논문은 수동적 응답 생성에서 능동적 다중 양상 탐구로의 패러다임 전환을 보여줍니다. OmniAgent는 동적 계획을 통해 주문형 도구 호출을 자율적으로 조율하며, 작업 관련 단서에 인지적 주의를 전략적으로 집중합니다. 우리 접근법의 핵심은 오디오 단서를 활용하여 시간적 사건을 국소화하고 후속 추론을 안내하는 새로운 단계적 오디오 주도 인지 패러다임입니다. 세 가지 오디오-비디오 이해 벤치마크에 대한 포괄적인 실증 평가를 통해 OmniAgent가 최첨단 성능을 달성하며, 주요 오픈소스 및 독점 모델들을 10%~20% 정확도 차이로 크게 능가함을 입증했습니다.
정보 탐색(IS) 에이전트는 광범위하고 심층적인 검색 작업에서 강력한 성능을 보여왔으나, 이들의 도구 사용은 여전히 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 대부분 제한되어 실제 브라우징을 통해 접근 가능한 더 풍부한 정보 활용에 한계가 있습니다. 완전한 브라우저 상호작용은 더 깊은 역량을 발휘할 수 있도록 하지만, 세분화된 제어와 장황한 페이지 콘텐츠 반환은 ReAct 스타일 함수 호출 에이전트에 상당한 복잡성을 초래합니다. 이러한 격차를 해소하기 위해, 우리는 중첩 구조를 통해 상호작용 제어와 페이지 탐색을 분리하는 최소하면서도 완전한 브라우저 액션 프레임워크를 도입하는 Nested Browser-Use Learning (NestBrowse)를 제안합니다. 이 설계는 효과적인 딥웹 정보 획득을 가능하게 하면서 에이전트 추론을 단순화합니다. 까다로운 심층 IS 벤치마크에 대한 경험적 결과는 NestBrowse가 실질적으로 명확한 이점을 제공함을 입증합니다. 추가적인 심층 분석은 그 효율성과 유연성을 부각합니다.
기존 실시간 객체 탐지(RTOD) 방법은 일반적으로 정확도와 속도 간의 유리한 균형을 위해 YOLO 유사 아키텍처를 채택합니다. 그러나 이러한 모델들은 모든 입력에 균일한 처리를 적용하는 정적 밀집 계산에 의존하여, 사소한 장면에는 과도하게 할당하고 복잡한 장면에는 충분히 대응하지 못하는 등 표현 능력과 계산 자원의 비효율적인 할당을 초래합니다. 이러한 불일치는 계산적 중복과 차선책의 탐지 성능을 동시에 야기합니다. 이러한 한계를 극복하기 위해 본 연구에서는 RTOD를 위한 인스턴스 조건부 적응형 계산을 도입한 새로운 YOLO 유사 프레임워크인 YOLO-Master를 제안합니다. 이는 장면 복잡도에 따라 각 입력에 계산 자원을 동적으로 할당하는 효율적 희소 전문가 혼합(ES-MoE) 블록을 통해 구현됩니다. 핵심적으로, 경량 동적 라우팅 네트워크는 다양성 증대 목표를 통해 학습 중 전문가의 전문화를 유도하여 전문가 간 상호 보완적 전문성을 촉진합니다. 추가적으로 라우팅 네트워크는 가장 관련성 높은 전문가만 선택적으로 활성화하는 방법을 적응적으로 학습함으로써, 추론 시 계산 오버헤드를 최소화하면서 탐지 성능을 향상시킵니다. 5가지 대규모 벤치마크에 대한 포괄적 실험을 통해 YOLO-Master의 우수성을 입증했습니다. MS COCO에서 우리 모델은 1.62ms의 지연 시간으로 42.4% AP를 달성하여 YOLOv13-N 대비 +0.8% mAP 향상 및 17.8% 더 빠른 추론 속도를 보였습니다. 특히, 어려운 고밀도 장면에서 성능 향상이 두드러지며, 일반적인 입력에 대해서는 효율성을 유지하고 실시간 추론 속도를 유지합니다. 코드는 공개될 예정입니다.
데이터 부족은 완전 자율 수술 로봇을 실현하는 데 있어 근본적인 장벽으로 남아 있습니다. 대규모 시각-언어-행동(VLA) 모델들은 다양한 영역에서 쌍을 이루는 비디오 행동 데이터를 활용하여 가정 및 산업 환경에서의 조작 작업에서 인상적인 일반화 능력을 보여주었지만, 수술 로봇 공학은 시각 관측 데이터와 정확한 로봇 운동학 데이터를 모두 포함하는 데이터셋의 부족으로 어려움을 겪고 있습니다. 반면, 방대한 양의 수술 비디오 자료가 존재하지만, 이들은 해당 행동 라벨이 부족하여 모방 학습이나 VLA 훈련의 직접적인 적용을 방해합니다. 본 연구에서는 수술 물리 AI를 위해 설계된 세계 모델인 SurgWorld로부터 정책 모델을 학습함으로써 이 문제를 완화하고자 합니다. 우리는 특히 수술 로봇을 위해 상세한 행동 설명을 포함하는 Surgical Action Text Alignment(SATA) 데이터셋을 구축했습니다. 그런 다음 가장 진보된 물리 AI 세계 모델과 SATA를 기반으로 SurgeWorld를 구축하였으며, 이는 다양하고 일반화 가능하며 현실적인 수술 비디오를 생성할 수 있습니다. 또한 우리는 역역학 모델을 사용하여 합성 수술 비디오에서 유사 운동학 데이터를 추론함으로써 합성된 쌍을 이루는 비디오-행동 데이터를 생성한 최초의 사례입니다. 우리는 이러한 증강 데이터로 훈련된 수술 VLA 정책이 실제 수술 로봇 플랫폼에서 오직 실제 시범 데이터만으로 훈련된 모델을 크게 능가함을 입증합니다. 우리의 접근 방식은 레이블이 없는 풍부한 수술 비디오와 생성형 세계 모델링을 활용하여 자율 수술 기술 습득으로 가는 확장 가능한 경로를 제시함으로써, 일반화 가능하고 데이터 효율적인 수술 로봇 정책의 문을 엽니다.
대규모 언어 모델(LLM)의 확산은 복잡한 추론과 도구 사용이 가능한 자율 에이전트로의 전환을 촉진하고 있습니다. 그러나 현재의 에이전트 아키텍처는 종종 명령형의 임시적 패턴으로 구성되어 있습니다. 이로 인해 상태 관리, 오류 처리, 동시성 처리의 어려움으로 인한 취약한 시스템이 발생합니다. 본 논문은 펑터(Functor), 어플리케이티브 펑터(Applicative Functor), 모나드(Monad)의 대수적 구조를 활용하여 에이전트 설계에 형식적인 기반을 제공하는 새로운 아키텍처 패러다임인 모나딕 컨텍스트 엔지니어링(MCE)을 소개합니다. MCE는 에이전트 워크플로우를 상태 전파, 단락 오류 처리, 비동기 실행과 같은 공통 관심사가 추상화의 대수적 속성에 의해 내재적으로 관리되는 계산적 컨텍스트로 취급합니다. 우리는 모나드가 어떻게 강력한 순차적 구성을 가능하게 하는지, 어플리케이티브가 어떻게 병렬 실행을 위한 원칙적인 구조를 제공하는지, 그리고 결정적으로 모나드 트랜스포머(Monad Transformer)가 이러한 기능들의 체계적인 조합을 어떻게 가능하게 하는지 보여줍니다. 이러한 계층적 접근 방식을 통해 개발자는 단순하고 독립적으로 검증 가능한 구성 요소로부터 복잡하고 견고하며 효율적인 AI 에이전트를 구축할 수 있습니다. 우리는 또한 메타프로그래밍을 통해 하위 에이전트 워크플로우를 동적으로 생성하고 관리하는 생성적 오케스트레이션을 위해 MCE를 활용하는 메타 에이전트(Meta-Agent)를 설명하기 위해 이 프레임워크를 확장합니다. 프로젝트 페이지: https://github.com/yifanzhang-pro/monadic-context-engineering.
에이전트 언어 모델(LM) 시스템은 "딥 리서치"와 "클로드 코드"와 같은 현대 애플리케이션의 핵심 동력으로, 다중 LM 아키텍처를 활용하여 컨텍스트 제한을 극복합니다. 겉보기에 다양한 이 시스템들 내부에는 반복되는 패턴이 존재합니다: 더 작은 "압축기" LM(로컬에서도 실행 가능)이 원시 컨텍스트를 간결한 텍스트로 정제하면, 더 큰 "예측기" LM이 이를 소비하는 방식입니다. 이러한 시스템의 인기에도 불구하고, 압축기-예측기 시스템의 설계는 대체로 임시적인 방식에 머물러 있으며, 압축기와 예측기 선택이 하류 작업 성능에 미치는 영향에 대한 체계적인 지침은 부족한 실정입니다. 실제로 성능 향상이 압축 과정에서 비롯된 것인지 예측 과정에서 비롯된 것인지를 규명하려면 비용이 많이 드는 작업별 쌍대 비교 분석이 필요합니다. 우리는 이러한 에이전트 시스템 설계 문제가 근본적으로 정보 이론적 관점에서 접근해야 함을 주장합니다. 압축기 LM을 잡음이 있는 채널로 간주하고, 컨텍스트와 그 압축 결과 간의 상호 정보량을 작업 독립적인 방식으로 압축 품질을 정량화하는 간단한 추정기를 도입했습니다. 우리는 이 상호 정보량이 특정 작업에 관계없이 하류 성능을 강력하게 예측함을 보여줍니다. 정보 이론적 프레임워크를 통해 5개의 데이터셋과 3개의 모델 패밀리에 걸쳐 포괄적인 실증 분석을 수행했습니다. 결과에 따르면, 더 큰 압축기는 정확도가 높을 뿐만 아니라 토큰 효율성도 더 뛰어나, 토큰당 더 많은 정보 비트를 전달합니다. 예를 들어, 7B 규모의 Qwen-2.5 압축기는 1.5B 규모의 동종 모델 대비 1.6배 더 정확하고, 4.6배 더 간결하며, 토큰당 5.5배 더 많은 상호 정보량 비트를 전달합니다. 다양한 데이터셋에서, 예측기의 규모를 키우는 것보다 압축기의 규모를 키우는 것이 성능 향상에 훨씬 더 효과적이며, 이는 더 큰 온디바이스 압축기가 더 작은 클라우드 예측기와 pairing될 수 있도록 합니다. 딥 리서치 시스템에 적용했을 때, 이러한 원칙을 통해 3B 파라미터 규모의 소형 로컬 압축기만으로도 최첨단 LM 정확도의 99%를 API 비용의 26% 수준으로 회복할 수 있었습니다.
컴퓨터 비전의 최근 발전으로 3D Gaussian Splatting(3D-GS)을 활용하여 Open-vocabulary segmentation(OVS)을 3D 영역으로 성공적으로 확장하였다. 이러한 진전에도 불구하고, 오픈 보커블러리 질의에 필요한 고차원 특징을 효율적으로 렌더링하는 것은 중요한 과제로 남아있다. 기존 방법은 코드북이나 특징 압축을 사용하여 정보 손실을 초래하며, 이로 인해 분할 품질이 저하된다. 이러한 한계를 해결하기 위해, 본 논문에서는 고차원 특징을 효율적으로 처리하면서 높은 정확도를 유지하는 새로운 3D 가우시안 렌더링 전략인 Quantile Rendering(Q-Render)을 제안한다. 각 광선과 교차하는 모든 3D 가우시안을 조밀하게 샘플링하는 기존의 볼륨 렌더링과 달리, Q-Render은 광선을 따라 지배적인 영향을 미치는 가우시안만을 희소하게 샘플링한다. Q-Render을 일반화 가능한 3D 신경망에 통합함으로써, 우리는 가우시안 특징을 일반화 가능한 방식으로 예측하는 Gaussian Splatting Network(GS-Net)도 제안한다. ScanNet과 LeRF에 대한 광범위한 실험을 통해 우리의 프레임워크가 최첨단 방법들을 능가하는 동시에 512차원 특징 맵에서 약 ~43.7배의 속도 향상으로 실시간 렌더링을 가능하게 함을 입증한다. 코드는 공개될 예정이다.
강화학습을 실제 로봇 공학에 적용하는 데 있어 주요 장애물은 효과적인 보상 함수 설계입니다. 최근 학습 기반 프로세스 보상 모델(PRM)이 유망한 방향으로 제시되고 있지만, 두 가지 근본적 한계에 직면해 있습니다. 첫째, 보상 모델이 단계 인식 이해 능력이 부족하고 단일 시점 인식에 의존하여 미세 조작 진행 상황에 대한 신뢰할 수 없는 평가를 내놓으며, 둘째, 보상 형성 절차가 이론적으로 타당하지 않아 정책 최적화를 오도하는 의미론적 함정을 유발하는 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 다중 시점 입력으로부터 일반 목적의 단계 인식 프로세스 보상 모델을 학습하는 새로운 보상 모델링 방법인 도파민-보상(Dopamine-Reward)을 소개합니다. 그 핵심에는 3,400시간 이상의 방대한 데이터셋으로 훈련된 우리의 일반 보상 모델(GRM)이 있으며, 이는 구조적 이해를 위한 단계별 보상 이산화와 인지적 한계를 극복하기 위한 다중 관점 보상 융합을 활용합니다. 도파민-보상을 기반으로 우리는 이론적으로 타당한 정책-불변 보상 형성 방법을 사용하는 강력한 정책 학습 프레임워크인 도파민-RL(Dopamine-RL)을 제안합니다. 이 방법은 에이전트가 최적 정책을 변경하지 않고도 효율적인 자기 개선을 위해 조밀한 보상을 활용할 수 있게 하여 의미론적 함정을 근본적으로 회피합니다. 다양한 시뮬레이션 및 실제 과제에 대한 광범위한 실험을 통해 우리의 접근 방식을 검증했습니다. GRM은 보상 평가에서 최첨단 정확도를 달성했으며, GRM을 기반으로 구축된 도파민-RL은 정책 학습 효율성을 크게 향상시켰습니다. 예를 들어, 단일 전문가 궤적으로부터 새로운 과제에 대해 원샷 방식으로 GRM이 적용된 후, 결과적인 보상 모델은 도파민-RL이 단 150회의 온라인 롤아웃(실제 로봇 상호작용 약 1시간)으로 정책을 거의 0%에서 95% 성공률로 향상시키면서도 과제 간 강력한 일반화 능력을 유지할 수 있게 합니다. 프로젝트 웹사이트: https://robo-dopamine.github.io
생성 모델의 급속한 발전은 다중모달 안전 위험의 지속적인 출현을 가져왔으며, 이는 기존 방어 방법의 한계를 드러내고 있습니다. 이러한 과제를 해결하기 위해 우리는 기존 반응형 접근법에서 요구되는 모델 조정 없이 분포 외(out-of-distribution, OOD) 안전 위험을 식별하고 설명하는 시각-언어 능동형 가드인 ProGuard를 제안합니다. 먼저, 이진 안전 라벨과 계층적 다중모달 안전 분류 체계 하의 위험 범주로 주석이 달린 87K 샘플의 모달리티 균형 데이터셋을 구축하여 모달리티 편향을 효과적으로 완화하고 텍스트, 이미지, 텍스트-이미지 입력 간 일관된 조정을 보장합니다. 이 데이터셋을 기반으로 강화 학습(RL)만을 통해 시각-언어 기반 모델을 훈련하여 효율적이고 간결한 추론을 달성합니다. 통제된 환경에서 능동적 안전 시나리오를 근사화하기 위해 OOD 안전 범주 추론 작업을 추가로 도입하고, 모델이 보지 못한 안전하지 않은 범주에 대해 간결한 설명을 생성하도록 유도하는 동의어 기반 유사도 보상으로 RL 목적 함수를 보강합니다. 실험 결과, ProGuard는 이진 안전 분류에서 폐쇄형 대규모 모델에 버금가는 성능을 달성했으며, 안전하지 않은 콘텐츠 범주화에서는 기존 오픈소스 가드 모델을 크게 능가합니다. 가장 주목할 만하게도 ProGuard는 강력한 능동적 조정 능력을 보여주며, OOD 위험 탐지에서 52.6%, OOD 위험 설명에서 64.8%의 성능 향상을 이루었습니다.
기존 AI 기반 영상 생성 시스템은 일반적으로 대본 초안 작성과 키샷 설계를 두 개의 분리된 작업으로 취급합니다. 전자는 대규모 언어 모델에 의존하는 반면, 후자는 이미지 생성 모델에 의존합니다. 우리는 논리적 추론과 상상적 사고가 모두 영화 감독의 기본적인 자질이므로 이 두 작업을 단일 프레임워크 내에서 통합해야 한다고 주장합니다. 본 연구에서는 사용자 프롬프트와 구조화된 대본을 연결하는 통합 감독 모델인 UniMAGE를 제안합니다. 이를 통해 기존 오디오-비디오 생성 모델을 활용하여 비전문가도 장면 전환과 긴 맥락을 가진 영상을 제작할 수 있도록 합니다. 이를 위해 텍스트와 이미지 생성을 통합하는 Mixture-of-Transformers 아키텍처를 채택합니다. 또한 서사적 논리와 키프레임 일관성을 더욱 강화하기 위해 '먼저 인터리빙, 후에 디스탱글링' 훈련 패러다임을 도입합니다. 구체적으로, 먼저 인터리브된 텍스트-이미지 데이터를 활용하여 모델의 대본에 대한 깊은 이해와 상상적 해석 능력을 함양하는 인터리브드 개념 학습을 수행합니다. 그런 다음 대본 작성과 키프레임 생성을 분리하여 스토리텔링에 더 큰 유연성과 창의성을 부여하는 디스탱글드 전문가 학습을 수행합니다. 폭넓은 실험을 통해 UniMAGE가 오픈소스 모델 중 최첨단 성능을 달성하며, 논리적으로 일관된 비디오 대본과 시각적으로 일관성 있는 키프레임 이미지를 생성함을 입증합니다.
실시간 초상화 애니메이션은 가상 어시스턴트 및 라이브 아바타와 같은 인터랙티브 애플리케이션에 필수적이며, 높은 시각적 정확도, 시간적 일관성, 초저지연 및 참조 이미지 및 구동 신호와 같은 동적 입력으로부터의 반응형 제어를 요구합니다. 확산 기반 모델은 높은 품질을 달성하지만 비인과적 특성으로 인해 스트리밍 배포가 제한됩니다. 인과적 자기회귀 비디오 생성 접근법은 효율적인 프레임 단위 생성을 가능하게 하지만 오류 누적, 청크 경계에서의 모션 불연속성, 그리고 장기 일관성 저하 문제가 발생합니다. 본 연구에서는 이러한 문제를 해결하기 위한 세 가지 핵심 설계로 구성된 새로운 스트리밍 프레임워크인 Knot Forcing을 제안합니다: (1) 참조 이미지의 캐시된 KV 상태를 통한 글로벌 정체성 보존 및 슬라이딩 윈도우 어텐션을 이용한 지역적 시간 모델링을 포함한 청크 단위 생성 전략; (2) 인접 청크를 중첩하고 이미지-비디오 조건화를 통해 시공간적 단서를 전파하여 청크 간 모션 전환을 부드럽게 하는 시간적 매듭 모듈; (3) 장기 일관성을 지원하기 위해 추론 중 참조 프레임의 시간적 좌표를 동적으로 업데이트하여 현재 롤아웃 프레임보다 시맨틱 컨텍스트를 앞서가도록 유지하는 "런닝 어헤드" 메커니즘. Knot Forcing은 무한 시퀀스에 걸쳐 높은 정확도, 시간적 일관성 및 인터랙티브한 초상화 애니메이션을 가능하게 하며, 소비자 등급 GPU에서 강력한 시각적 안정성과 함께 실시간 성능을 달성합니다.
트랜스포머, 대규모 언어 모델(LLM), 기타 NLP 시스템과 같은 다양한 모델 아키텍처의 성능을 평가하려면 여러 차원에 걸쳐 성능을 측정하는 포괄적인 벤치마크가 필요합니다. 이 중 자연어 이해(NLU) 평가는 모델 능력 평가의 기본 기준으로 작용하기 때문에 특히 중요합니다. 따라서 다양한 관점에서 NLU 능력을 철저히 평가하고 분석할 수 있는 벤치마크를 구축하는 것이 필수적입니다. GLUE 벤치마크가 영어 NLU 평가의 표준을 제시한 반면, 중국어용 CLUE, 프랑스어용 FLUE, 일본어용 JGLUE와 같은 유사한 벤치마크가 다른 언어들에 대해 개발되었습니다. 그러나 터키어의 경우 현재 이에 상응하는 벤치마크가 존재하지 않습니다. 이러한 격차를 해소하기 위해 본 논문에서는 터키어 NLU 작업을 다양하게 포괄하는 종합 벤치마크인 TrGLUE를 소개합니다. 또한 감성 분석을 위한 전용 벤치마크인 SentiTurca를 제시합니다. 연구자들을 지원하기 위해 트랜스포머 기반 모델의 미세 조정 및 평가 코드도 제공하여 이러한 벤치마크의 효과적인 사용을 용이하게 합니다. TrGLUE는 GLUE 스타일 평가의 영역과 작업 구성을 반영하도록 구성된 터키어 원어 말뭉치로 구성되며, 강력한 LLM 기반 주석 처리, 교차 모델 일관성 검사 및 후속 인간 검증을 결합한 반자동화 파이프라인을 통해 레이블을 획득했습니다. 이 설계는 언어적 자연스러움을 최우선으로 하여 직접 번역에서 비롯된 인공적痕迹을 최소화하고 확장 가능하며 재현 가능한 워크플로를 제공합니다. TrGLUE를 통해 우리의 목표는 터키어 NLU를 위한 강력한 평가 프레임워크를 구축하고, 연구자들에게 가치 있는 자원을 제공하며, 고품질 반자동화 데이터셋 생성에 대한 통찰력을 제공하는 것입니다.
딥러닝 추천 모델(DLRM)의 학습과 추론을 빠르고 효율적으로 만드는 것은 중요합니다. 그러나 이는 세 가지 주요 시스템 과제를 제시합니다. 바로 모델 아키텍처의 다양성, 커널 프리미티브의 다양성, 그리고 하드웨어 세대 및 아키텍처의 이질성입니다. 본 논문은 DLRM을 위한 대규모 이질성 문제를 해결하기 위해 KernelEvolve라는 에이전트 기반 커널 코딩 프레임워크를 제안합니다. KernelEvolve는 커널 명세를 입력으로 받아 이기종 하드웨어 아키텍처 전반에 걸쳐 추천 모델을 위한 커널 생성 및 최적화 과정을 자동화하도록 설계되었습니다. KernelEvolve는 Triton 및 CuTe DSL부터 하위 수준의 하드웨어 독립적 언어에 이르기까지 여러 프로그래밍 추상화 수준에서 작동하여 전체 하드웨어-소프트웨어 최적화 스택을 아우름으로써 이를 실현합니다. 커널 최적화 과정은 선택 정책, 유니버설 연산자, 적합도 함수, 종료 규칙을 갖춘 그래프 기반 탐색으로 설명되며, 검색 증강 프롬프트 합성을 통해 런타임 실행 컨텍스트에 동적으로 적응합니다. 우리는 여러 세대의 NVIDIA 및 AMD GPU와 Meta의 AI 가속기를 아우르는 다양한 프로덕션 추천 모델을 최적화하기 위해 KernelEvolve를 설계, 구현 및 배포했습니다. 공개된 KernelBench suite에서 KernelEvolve를 검증한 결과, 세 가지 난이도에 걸친 250개 문제 전체와 세 가지 이기종 하드웨어 플랫폼의 160개 PyTorch ATen 연산자에 대해 100% 통과율을 달성하여 100% 정확성을 입증했습니다. KernelEvolve는 개발 시간을 수주에서 수시간으로 단축하며, 다양한 프로덕션 사용 사례와 대규모 이기종 AI 시스템에서 PyTorch 기준선 대비 상당한 성능 향상을 달성합니다. 성능 효율성 개선을 넘어, KernelEvolve는 자체 개발 AI 하드웨어를 위한 자동화된 커널 생성을 가능하게 함으로써 새로운 AI 하드웨어에 대한 프로그래밍 가능성 장벽을 크게 완화합니다.
우리는 텍스트-이미지 생성을 위한 단계 제약 없는(any-step) 추론을 지원하는 새로운 순수 학습(from-scratch) 접근법인 자체 평가 모델(Self-E)을 소개한다. Self-E는 Flow Matching 모델과 유사하게 데이터로부터 학습하는 동시에, 현재의 점수 추정치를 사용하여 자신이 생성한 샘플을 평가하는 새로운 자체 평가 메커니즘을 활용한다. 이는 효과적으로 동적 자체 교사(dynamic self-teacher) 역할을 수행한다. 기존의 확산(diffusion) 또는 플로우 모델과 달리, 많은 추론 단계를 필요로 하는 국소적 감독(local supervision)에만 의존하지 않는다. 증류(distillation) 기반 접근법과 달리, 사전 학습된 교사 모델이 필요하지 않다. 이러한 순간적 국소 학습과 자체 주도적 전역 매칭의 결합은 두 패러다임 간의 간극을 메우며, 매우 적은 단계에서도 뛰어난 성능을 발휘하는 고품질 텍스트-이미지 모델의 순수 학습을 가능하게 한다. 대규모 텍스트-이미지 벤치마크에서의 광범위한 실험을 통해 Self-E가 적은 단계 생성에서 뛰어날 뿐만 아니라, 50단계에서 최신 Flow Matching 모델들과도 경쟁력을 갖춘다는 것을 확인했다. 더 나아가 추론 단계가 증가함에 따라 성능이 단조롭게(monotonically) 향상되어, 단일 통합 모델 내에서 초고속 적은 단계 생성과 고품질 장주기(long-trajectory) 샘플링을 모두 가능하게 함을 발견했다. 우리가 아는 한, Self-E는 효율적이고 확장 가능한 생성을 위한 통합 프레임워크를 제공하는 최초의 순수 학습 기반 단계 제약 없는 텍스트-이미지 모델이다.
우리는 언어 모델의 추론 능력이 최종 답변이 틀린 경우에도, 더 우수한 모델에서 생성된 연쇄적 사고(CoT) 추적의 합성 데이터셋으로 학습함으로써 향상될 수 있다는 놀라운 발견을 제시한다. 우리의 실험 결과에 따르면, 이 접근법은 인간이 주석을 단 데이터셋으로 학습하는 것보다 추론 과제에서 더 나은 성능을 낼 수 있다. 우리는 이 현상을 설명하는 두 가지 핵심 요인이 있다고 가정한다. 첫째, 합성 데이터의 분포는 본질적으로 언어 모델 자체의 분포에 더 가까워 학습에 더 용이하다. 둘째, 이러한 '틀린' 추적은 종종 부분적으로만 결함이 있으며 모델이 학습할 수 있는 유효한 추론 단계를 포함한다. 첫 번째 가설을 추가로 검증하기 위해 언어 모델을 사용하여 인간이 주석을 단 추적을 패러프레이징하여(그 분포를 모델 자체의 분포에 더 가깝게 이동시켜) 이 방법이 성능을 향상시킴을 보여준다. 두 번째 가설에 대해서는 점점 더 결함이 있는 CoT 추적을 도입하고 모델이 이러한 결함을 어느 정도까지 허용하는지 연구한다. 우리는 MATH, GSM8K, Countdown, MBPP 데이터셋을 사용하여 수학, 알고리즘 추론, 코드 생성과 같은 다양한 추론 영역과 Qwen, Llama, Gemma 모델군의 15B에서 90B에 이르는 다양한 언어 모델에서 우리의 발견을 입증한다. 우리의 연구는 모델의 분포에 더 가까운 데이터셋을 구성하는 것이 고려해야 할 중요한 측면임을 보여준다. 또한 정확한 최종 답변이 항상 신뢰할 수 있는 추론 과정의 지표가 되는 것은 아님을 보여준다.
최근 텍스트-이미지 확산 모델은 텍스트 프롬프트와 인간 정체성에 조건을 부여하여 사실적인 얼굴 이미지를 생성하는 뛰어난 능력을 보여주며, 개인화된 얼굴 이미지 생성을 가능하게 했습니다. 그러나 정체성 특정 요소를 제거하거나 수정하기 위한 기존의 프롬프트 기반 방법들은 주체가 사전 학습된 모델에 잘 표현되어 있거나 특정 정체성에 대한 모델 미세 조정이 필요하다는 한계가 있습니다. 본 연구에서는 정체성 생성 과정을 분석하고 얼굴 익명화를 위한 역개인화 프레임워크를 소개합니다. 우리의 접근법은 조건부 확산 역변환을 활용하여 텍스트 프롬프트를 사용하지 않고도 이미지를 직접 조작할 수 있도록 합니다. 모델의 훈련 데이터에 포함되지 않은 주체까지 일반화하기 위해 정체성 유도 조건 설정 분기를 추가합니다. 얼굴 속성 제어가 부족한 기존 익명화 방법과 달리, 우리의 프레임워크는 속성 제어가 가능한 익명화를 지원합니다. 우리의 방법이 정체성 제거, 속성 보존, 이미지 품질 간의 최적의 균형을 달성함을 입증합니다. 소스 코드와 데이터는 https://github.com/hanweikung/reverse-personalization 에서 확인할 수 있습니다.