번역이 포함된 일일 선별된 AI 연구 논문
언어 에이전트의 장기적인 목표는 자신의 경험을 통해 학습하고 개선하여 복잡한 실제 세계의 과제에서 인간을 능가하는 것입니다. 그러나 강화 학습을 통해 경험 데이터로 에이전트를 훈련시키는 것은 많은 환경에서 여전히 어려운 과제입니다. 이는 검증 가능한 보상이 부족한 환경(예: 웹사이트)이나 비효율적인 장기 롤아웃이 필요한 환경(예: 다중 턴 도구 사용) 때문입니다. 결과적으로, 현재 대부분의 에이전트는 전문가 데이터에 대한 지도 미세 조정에 의존하고 있으며, 이는 확장하기 어렵고 일반화가 잘 되지 않는 문제가 있습니다. 이러한 한계는 전문가 시연의 특성에서 비롯됩니다: 전문가 시연은 좁은 범위의 시나리오만을 포착하고 에이전트에게 제한된 환경 다양성을 노출시킵니다. 우리는 이러한 한계를 '초기 경험'이라는 중간 지대 패러다임으로 해결합니다. 초기 경험은 에이전트의 자체 행동으로 생성된 상호작용 데이터로, 결과적인 미래 상태가 보상 신호 없이 감독 역할을 합니다. 이 패러다임 내에서 우리는 이러한 데이터를 사용하는 두 가지 전략을 연구합니다: (1) 암묵적 세계 모델링, 이는 수집된 상태를 사용하여 정책을 환경 역학에 기반하게 합니다; (2) 자기 반성, 여기서 에이전트는 최적이 아닌 행동에서 학습하여 추론과 의사 결정을 개선합니다. 우리는 8가지 다양한 환경과 여러 모델 패밀리에 걸쳐 평가를 진행했습니다. 우리의 접근 방식은 효과성과 도메인 외 일반화를 꾸준히 개선하며, 초기 경험의 가치를 강조합니다. 더욱이, 검증 가능한 보상이 있는 환경에서 우리의 결과는 초기 경험이 후속 강화 학습을 위한 강력한 기반을 제공하며, 모방 학습과 완전한 경험 주도 에이전트 사이의 실용적인 다리 역할을 할 수 있음을 시사합니다.
현재의 다중모달 대형 언어 모델(MLLMs)은 수학 및 논리와 같은 추론 과제에서 능숙함을 보여주었지만, 복잡한 현실 세계 문제 해결을 위한 전제 조건인 장기간의 반성적 추론 능력은 여전히 크게 탐구되지 않고 있습니다. 본 연구에서는 먼저 이 능력을 평가하기 위해 광범위한 실증적 조사를 수행합니다. 신중하게 설계된 데이터 합성 엔진을 활용하여, 반복적 사고와 역추적이 필요한 42개의 도전적인 합성 과제로 구성된 1,260개의 샘플을 포함한 다중모달 벤치마크인 MM-HELIX를 구축합니다. 이 벤치마크에 대한 실증적 결과는 기존 MLLMs가 장기간의 반성적 추론에서 상당한 성능 결함을 보인다는 것을 나타냅니다. 이러한 한계를 해결하기 위해, 사후 훈련 데이터를 생성하고 이러한 데이터를 활용하기 위한 학습 패러다임을 추가로 탐구합니다. 먼저, Step-Elicited Response Generation 파이프라인을 개발하여, 지시 튜닝 단계를 위한 100k개의 고품질 반성적 추론 흔적을 포함한 대규모 데이터셋인 MM-HELIX-100K를 생성합니다. 표준 강화 학습이 희소한 보상 신호와 지도 미세 조정 후의 치명적 망각으로 인해 복잡한 과제에서 실패한다는 점을 고려하여, 오프라인 감독과 온라인 최적화를 단일 단계로 동적으로 통합하는 새로운 훈련 전략인 적응형 하이브리드 정책 최적화(AHPO)를 제안합니다. 이 전략은 모델이 보상이 희소할 때 전문가 데이터로부터 학습하고, 숙련되면 독립적인 탐색을 수행할 수 있도록 합니다. Qwen2.5-VL-7B 기준선에 적용했을 때, 우리의 방법은 MM-HELIX 벤치마크에서 +18.6%의 정확도 향상을 달성하고, 일반 수학 및 논리 과제에서 평균 +5.7%의 성능 향상을 보여주며 강력한 일반화 능력을 입증합니다. 본 연구는 MLLMs에서의 반성적 추론이 효과적으로 학습되고 일반화될 수 있음을 보여주며, 더 능력 있는 MLLMs 개발을 위한 길을 열어줍니다.
데이터의 폭발적 증가와 함께, 자연어 처리 및 생물정보학과 같은 작업에서 장기간 시퀀스 모델링의 중요성이 점점 더 커지고 있습니다. 그러나 기존 방법들은 효율성과 메모리 간의 본질적인 트레이드오프에 직면해 있습니다. 순환 신경망(RNN)은 그래디언트 소실 및 폭발 문제로 인해 확장하기 어렵습니다. 트랜스포머는 전역 의존성을 모델링할 수 있지만, 2차 복잡도에 의해 제약을 받습니다. 최근 Mamba와 같은 선택적 상태 공간 모델은 O(n) 시간 복잡도와 O(1) 순차적 추론으로 높은 효율성을 보여주었지만, 장기간 메모리가 지수적으로 감소하는 문제가 있습니다. 본 연구에서는 Mamba의 메모리 감소 메커니즘을 체계적으로 밝히기 위해 수학적 유도와 정보 이론적 분석을 수행하여 근본적인 질문에 답합니다: Mamba의 장기간 메모리의 본질은 무엇이며, 어떻게 정보를 유지하는가? 주요 정보 손실을 정량화하기 위해, 우리는 레이어 내부와 레이어 간의 저하를 포착하는 수평-수직 메모리 충실도 지표를 추가로 도입합니다. 인간이 긴 문서를 읽을 때 중요한 정보를 추출하고 유지하는 방식에서 영감을 받아, 우리는 상태 요약 메커니즘과 크로스-레이어 및 크로스-토큰 어텐션을 통합한 새로운 아키텍처 프레임워크인 MemMamba를 제안합니다. 이는 선형 복잡도를 유지하면서 장기간 망각 문제를 완화합니다. MemMamba는 PG19 및 패스키 검색과 같은 장기간 시퀀스 벤치마크에서 기존 Mamba 변형 및 트랜스포머 대비 상당한 개선을 달성하며, 추론 효율성에서 48%의 속도 향상을 제공합니다. 이론적 분석과 실험 결과 모두 MemMamba가 복잡도-메모리 트레이드오프에서의 돌파구를 달성하며, 초장기 시퀀스 모델링을 위한 새로운 패러다임을 제시함을 보여줍니다.
통합 멀티모달 모델은 멀티모달 콘텐츠 생성 및 편집에서 유망한 결과를 보여왔지만, 여전히 주로 이미지 영역에 국한되어 있습니다. 본 연구에서는 통합 모델링을 비디오 영역으로 확장하는 다목적 프레임워크인 UniVideo를 제시합니다. UniVideo는 명령어 이해를 위한 멀티모달 대형 언어 모델(MLLM)과 비디오 생성을 위한 멀티모달 DiT(MMDiT)를 결합한 이중 스트림 설계를 채택합니다. 이 설계는 복잡한 멀티모달 명령어를 정확하게 해석하면서도 시각적 일관성을 유지할 수 있게 합니다. 이러한 아키텍처를 기반으로, UniVideo는 다양한 비디오 생성 및 편집 작업을 단일 멀티모달 명령어 패러다임 아래 통합하고 이를 공동으로 학습합니다. 광범위한 실험을 통해 UniVideo는 텍스트/이미지-투-비디오 생성, 컨텍스트 내 비디오 생성 및 컨텍스트 내 비디오 편집에서 최신 작업별 베이스라인을 능가하거나 동등한 성능을 보임을 입증했습니다. 특히, UniVideo의 통합 설계는 두 가지 형태의 일반화를 가능하게 합니다. 첫째, UniVideo는 단일 명령어 내에서 여러 기능을 통합하여 스타일 변환과 편집을 결합하는 등의 작업 구성(task composition)을 지원합니다. 둘째, 자유형 비디오 편집에 대한 명시적 학습 없이도 UniVideo는 대규모 이미지 편집 데이터에서 이 설정으로 편집 능력을 전이하여, 비디오 내 캐릭터 그린 스크린 처리나 재질 변경과 같은 보지 못한 명령어를 처리합니다. 이러한 핵심 기능 외에도, UniVideo는 시각적 프롬프트 기반 비디오 생성도 지원하며, 여기서 MLLM은 시각적 프롬프트를 해석하고 MMDiT가 합성 과정을 안내합니다. 향후 연구를 촉진하기 위해, 우리는 모델과 코드를 공개할 예정입니다.
임의의 시공간 비디오 완성 작업을 소개한다. 이 작업에서는 사용자가 지정한 패치를 비디오 캔버스에 그림을 그리듯이 임의의 공간적 위치와 타임스탬프에 배치하여 비디오를 생성한다. 이 유연한 공식은 첫 프레임 이미지-투-비디오, 인페인팅, 확장, 보간 등 기존의 다양한 제어 가능한 비디오 생성 작업을 단일한 통합 패러다임 아래 자연스럽게 통합한다. 그러나 이러한 비전을 실현하기 위해서는 현대의 잠재 비디오 확산 모델에서 근본적인 장애물에 직면하게 된다. 이는 인과적 VAE에 의해 도입된 시간적 모호성으로, 여러 픽셀 프레임이 단일 잠재 표현으로 압축되어 정확한 프레임 수준의 조건 설정이 구조적으로 어렵다는 문제이다. 이를 해결하기 위해 VideoCanvas라는 새로운 프레임워크를 제안한다. 이 프레임워크는 In-Context Conditioning (ICC) 패러다임을 이 세밀한 제어 작업에 적용하며, 새로운 파라미터를 추가하지 않고도 이를 가능하게 한다. 공간적 배치는 제로 패딩을 통해 처리하고, 시간적 정렬은 Temporal RoPE Interpolation을 통해 달성하는 하이브리드 조건 설정 전략을 제안한다. 이는 VAE의 시간적 모호성을 해결하고, 고정된 백본에서 픽셀 프레임 인식 제어를 가능하게 한다. 이 새로운 기능을 평가하기 위해 VideoCanvasBench를 개발했다. 이는 임의의 시공간 비디오 완성을 위한 첫 번째 벤치마크로, 장면 내 충실도와 장면 간 창의성을 모두 다룬다. 실험 결과, VideoCanvas는 기존의 조건 설정 패러다임을 크게 능가하며, 유연하고 통합된 비디오 생성 분야에서 새로운 최첨단 기술을 확립한다.
화학 반응 조건 추천은 화학 반응에 적절한 조건 파라미터를 선택하는 것으로, 화학 과학의 가속화에 있어 핵심적인 역할을 합니다. 대규모 언어 모델(LLMs)의 급속한 발전과 함께, 이러한 모델의 추론 및 계획 능력을 활용하여 반응 조건을 추천하려는 관심이 증가하고 있습니다. 기존 방법들은 성공을 거두었음에도 불구하고, 추천된 반응 조건의 근거를 거의 설명하지 않아, 고위험 과학 워크플로에서의 유용성이 제한적이었습니다. 본 연구에서는 조건 예측을 증거 기반 추론 작업으로 재구성한 다중 에이전트 시스템인 ChemMAS를 제안합니다. ChemMAS는 이 작업을 메커니즘 기반 근거 확립, 다중 채널 정보 회상, 제약 조건 인식 에이전트 토론, 그리고 근거 통합으로 분해합니다. 각 결정은 화학 지식과 검색된 선례에 기반한 해석 가능한 근거로 뒷받침됩니다. 실험 결과, ChemMAS는 도메인 특화 베이스라인 대비 20-35%의 성능 향상을 달성했으며, 범용 LLMs보다 Top-1 정확도에서 10-15% 우수한 성능을 보였습니다. 또한, 반증 가능하고 인간이 신뢰할 수 있는 근거를 제공함으로써, 과학적 발견에서 설명 가능한 AI의 새로운 패러다임을 확립했습니다.
최근의 장문맥 언어 모델(LCLMs)은 단일 프롬프트에서 수십만 개의 토큰을 처리할 수 있어, 대규모 검색 문서 집합을 통합하거나 경우에 따라 필요한 모든 정보를 직접 포함시킴으로써 지식 집약적 다중 단계 추론에 새로운 기회를 제공합니다. 그러나 단순히 더 많은 문서를 문맥 윈도우에 입력하는 것은 증거가 어떻게 연결되어야 하는지를 포착하지 못합니다. 우리는 이 격차를 해결하기 위해 사고 템플릿을 제안합니다. 이 템플릿은 이전 문제 해결 흔적에서 도출된 재사용 가능한 사고 캐시로 추론을 재구성하며, 증거가 어떻게 결합되는지를 구조화하고 사실적 문서를 통해 다중 단계 추론을 안내합니다. 이러한 템플릿의 효과를 유지하기 위해, 우리는 자연어 피드백을 통해 훈련 데이터에서 도출된 템플릿을 반복적으로 개선하는 업데이트 전략을 제안합니다. 다양한 벤치마크와 LCLM 패밀리에서, 우리의 접근 방식은 검색 기반 및 검색 없는 설정 모두에서 강력한 베이스라인 대비 일관된 성능 향상을 제공합니다. 또한, 최적화된 템플릿은 더 작은 오픈소스 모델로 증류될 수 있음을 보여주며, 이는 그 광범위한 적용 가능성과 투명한 추론 재사용을 입증합니다. 우리는 이 프레임워크를 "사고 템플릿 강화 LCLMs(ToTAL)"이라고 부릅니다.
최근 추론 모델에 대한 연구는 언어 모델의 메타 인식, 즉 스스로 사고하는 방법을 아는 능력을 탐구하고 있습니다. 우리는 대규모 추론 모델이 실제 롤아웃과 예측된 메타 정보 간의 심각한 불일치를 증명함으로써 이러한 메타 인식 속성이 부족하다고 주장합니다. 우리는 메타 예측을 실제 롤아웃과 일치시키는 것이 성능의 상당한 향상으로 이어질 것이라고 가정합니다. 이 가설을 검증하기 위해, 우리는 자기 정렬을 통한 메타 인식 강화(MASA) 훈련 파이프라인을 설계하고, 강화된 메타 인식이 정확도 향상으로 직접 이어짐을 입증합니다. 기존의 메타 인지 추론 모델과 달리, 우리의 방법은 외부 훈련 소스를 필요로 하지 않고 자기 생성 신호를 활용하여 메타 인식을 훈련합니다. 또한, 우리의 방법은 i) 사소하거나 해결 불가능한 제로 분산 프롬프트를 필터링하고, ii) 정답으로 이어질 가능성이 낮은 긴 롤아웃을 차단함으로써 효율적인 훈련을 가능하게 합니다. 결과는 고무적입니다: 우리의 전략은 도메인 내 작업에서 정확도와 훈련 효율성 모두에서 상당한 개선을 가져오며, 도메인 외 벤치마크에서도 강력한 일반화 능력을 보여줍니다. 더 구체적으로, 우리의 방법은 동일한 성능에 도달하기 위해 GRPO 훈련을 1.28배 이상 가속화할 수 있으며, AIME25에서 19.3%의 정확도 향상을 달성하고, 6개의 수학 벤치마크에서 평균 6.2%의 정확도 향상을 보입니다. 메타 인지 지도를 통한 훈련은 도메인 외 일반화를 강화하여 GPQA-Diamond에서 3.87%의 향상과 논리, 과학, 코딩 도메인을 아우르는 13개 벤치마크에서 평균 2.08%의 정확도 향상을 제공합니다.
대형 언어 모델(LLM)의 힘을 활용하려면 도움을 주는 것과 해를 끼치지 않는 것 사이의 섬세한 균형을 맞춰야 합니다. 이는 두 가지 상반된 도전 과제 사이의 근본적인 긴장을 야기합니다: 안전하지 않은 콘텐츠를 유도하는 적대적 공격에 대한 취약성과, 민감하지만 무해한 프롬프트에 대해 과도하게 거부하는 경향입니다. 현재의 접근 방식은 안전하지 않은 부분이 포함된 콘텐츠를 완전히 거부하는 안전장치 모델을 통해 이러한 균형을 맞추려고 합니다. 이 방식은 음악을 완전히 끊어버리는 것과 같아서, 과도한 거부를 악화시킬 수 있으며 거부한 쿼리에 대해 세심한 지침을 제공하지 못합니다. 모델에게 더 조화로운 안무를 가르치기 위해, 우리는 WaltzRL이라는 새로운 다중 에이전트 강화 학습 프레임워크를 제안합니다. WaltzRL은 안전 정렬을 협력적이고 상호 이익이 되는 게임으로 공식화합니다. WaltzRL은 대화 에이전트와 피드백 에이전트를 공동으로 훈련시키며, 피드백 에이전트는 대화 에이전트의 응답의 안전성과 도움을 개선하는 유용한 제안을 제공하도록 유도됩니다. WaltzRL의 핵심은 대화 에이전트가 피드백을 얼마나 잘 반영하는지에 따라 시간이 지남에 따라 진화하는 동적 개선 보상(DIR)입니다. 추론 시에는 대화 에이전트의 안전하지 않거나 과도하게 거부하는 응답을 폐기하는 대신 개선합니다. 피드백 에이전트는 대화 에이전트와 함께 배치되며 필요할 때만 적응적으로 참여하여 안전한 쿼리에 대한 도움과 낮은 지연 시간을 유지합니다. 다섯 가지 다양한 데이터셋에서 진행한 실험 결과, WaltzRL은 다양한 기준선에 비해 안전하지 않은 응답(예: WildJailbreak에서 39.0%에서 4.6%로)과 과도한 거부(OR-Bench에서 45.3%에서 9.9%로)를 모두 크게 줄였습니다. 대화 에이전트와 피드백 에이전트가 공동으로 진화하고 피드백을 적응적으로 적용할 수 있게 함으로써, WaltzRL은 일반적인 능력을 저하시키지 않으면서 LLM의 안전성을 향상시켜 도움과 해를 끼치지 않음 사이의 파레토 최적을 발전시킵니다.
최근 지시 기반 이미지 편집 및 주체 중심 생성 분야의 발전이 상당한 주목을 받고 있지만, 두 작업 모두 실제 사용자 요구를 충족하는 데 있어 여전히 한계를 보이고 있습니다. 지시 기반 편집은 언어 지시에만 의존하기 때문에 특정 편집 세부 사항을 포착하는 데 종종 실패하여 참조 이미지가 필요합니다. 한편, 주체 중심 생성은 구체적인 물체나 사람을 결합하는 데 제한되어 있어 더 넓고 추상적인 개념을 간과합니다. 이러한 문제를 해결하기 위해, 우리는 다중모달 지시 기반 편집 및 생성이라는 두 가지 새로운 작업을 제안합니다. 이 작업들은 텍스트와 이미지 지시를 모두 지원하며 구체적 및 추상적 개념을 모두 포함하도록 범위를 확장하여 실용적 응용성을 크게 향상시킵니다. 우리는 DreamOmni2를 소개하며, 데이터 생성과 모델 프레임워크 설계라는 두 가지 주요 과제를 해결합니다. 우리의 데이터 합성 파이프라인은 세 단계로 구성됩니다: (1) 추상적 및 구체적 개념을 위한 추출 데이터를 생성하기 위해 특징 혼합 방법을 사용, (2) 편집 및 추출 모델을 사용하여 다중모달 지시 기반 편집 훈련 데이터를 생성, (3) 추출 모델을 추가로 적용하여 다중모달 지시 기반 편집을 위한 훈련 데이터를 생성. 프레임워크 측면에서, 다중 이미지 입력을 처리하기 위해 인덱스 인코딩 및 위치 인코딩 시프트 방식을 제안하여 모델이 이미지를 구별하고 픽셀 혼란을 피할 수 있도록 합니다. 또한, 복잡한 지시를 더 잘 처리하기 위해 VLM과 우리의 생성/편집 모델을 결합한 공동 훈련 방식을 도입했습니다. 또한, 이 두 새로운 작업의 발전을 촉진하기 위해 포괄적인 벤치마크를 제안했습니다. 실험 결과, DreamOmni2는 인상적인 성과를 달성했습니다. 모델과 코드는 공개될 예정입니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 복잡한 추론 능력을 향상시켰지만, 정책 엔트로피가 붕괴되면서 성능이 정체되는 훈련 병목 현상으로 인해 확장성이 제한되는 경우가 많습니다. 기존 방법들은 일반적으로 높은 정책 엔트로피를 유지함으로써 이를 해결하려 했지만, 의미 있는 탐색을 조절하는 정확한 메커니즘은 충분히 연구되지 않았습니다. 우리의 분석에 따르면, 엔트로피에 대한 무분별한 초점은 관련 없는 토큰을 증폭시키고 훈련을 불안정하게 만들 위험이 있습니다. 본 논문은 RLVR 내의 탐색 동역학을 조사하고, 중요한 문제를 식별합니다: 바로 가치 있는 낮은 확률의 탐색 토큰이 점진적으로 제거되는 현상으로, 우리는 이를 \textit{추론 스파크}라고 명명합니다. 사전 훈련된 모델에서는 이러한 스파크가 풍부하지만, RLVR 과정에서 과도한 페널티로 인해 체계적으로 소멸되며, 이는 탐색의 퇴화로 이어집니다. 이를 해결하기 위해 우리는 낮은 확률 정규화(Lp-Reg)를 도입합니다. 이 방법의 핵심 메커니즘은 정책을 휴리스틱 프록시 분포로 정규화하는 것입니다. 이 프록시는 잡음으로 간주되는 토큰을 필터링하고 남은 후보들에 대해 분포를 재정규화함으로써 구성됩니다. 그 결과, 추론 스파크의 확률이 증폭된 덜 잡음이 있는 프록시가 생성되며, 이는 KL 발산을 통해 이러한 가치 있는 토큰이 제거되지 않도록 보호하는 부드러운 정규화 목표로 작용합니다. 실험 결과, Lp-Reg는 약 1,000단계 동안 안정적인 온-정책 훈련을 가능하게 하며, 이는 기존 엔트로피 제어 방법들이 붕괴되는 영역입니다. 이러한 지속적인 탐색은 최신 성능을 달성하며, 다섯 개의 수학 벤치마크에서 평균 60.17%의 정확도를 기록하여 기존 방법 대비 2.66%의 향상을 보입니다. 코드는 https://github.com/CarlanLark/Lp-Reg에서 확인할 수 있습니다.
대형 언어 모델은 AI 기반 과학의 근본적인 도전 과제인 과학 법칙 발견을 위한 강력한 도구로 부상하고 있습니다. 그러나 이 작업을 위한 기존 벤치마크는 과학적 관련성, 확장성, 암기 저항성 사이의 트레이드오프를 강요하는 근본적인 방법론적 딜레마에 직면해 있습니다. 더욱이, 이들은 발견을 정적 함수 피팅으로 지나치게 단순화하여 복잡한 모델 시스템의 상호작용적 탐색을 통해 내재된 법칙을 밝혀내는 진정한 과학적 과정을 포착하지 못하고 있습니다. 이러한 중요한 격차를 해결하기 위해, 우리는 12개의 물리학 영역에 걸친 324개의 과학 법칙 발견 과제로 구성된 NewtonBench 벤치마크를 소개합니다. 우리의 설계는 형이상학적 변화(기존 법칙의 체계적 수정)를 사용하여 확장 가능하고 과학적으로 관련성이 높으며 암기에 강력한 다양한 문제 세트를 생성함으로써 평가 딜레마를 완화합니다. 더 나아가, 우리는 정적 함수 피팅에서 상호작용적 모델 발견으로 평가를 고도화하여, 에이전트가 시뮬레이션된 복잡 시스템을 실험적으로 탐구하여 숨겨진 원리를 발견하도록 요구합니다. 우리의 광범위한 실험은 최첨단 대형 언어 모델의 발견 능력이 명확하지만 취약함을 보여줍니다: 이 능력은 시스템 복잡성이 증가함에 따라 급격히 저하되며 관측 노이즈에 극도로 민감합니다. 특히, 도구 지원의 역설적인 효과를 발견했습니다: 코드 인터프리터를 제공하는 것이 더 능력 있는 모델에게 탐색에서 착취로의 조기 전환을 유도하여 최적이 아닌 해결책에 만족하도록 할 수 있습니다. 이러한 결과는 복잡하고 상호작용적인 환경에서의 견고하고 일반화 가능한 발견이 여전히 핵심 과제임을 보여줍니다. 확장 가능하고 견고하며 과학적으로 진정성 있는 테스트베드를 제공함으로써, NewtonBench은 진정한 진전을 측정하고 진정한 과학적 발견이 가능한 차세대 AI 에이전트 개발을 안내하는 중요한 도구를 제공합니다.
최근 대규모 언어 모델(LLM) 에이전트의 발전은 이들의 유망한 일반적 능력을 입증해 왔습니다. 그러나 특화된 실제 도메인에서의 성능은 외부 도구와 특정 프롬프트 전략을 효과적으로 통합하는 데 어려움을 겪으면서 종종 저하됩니다. 이를 해결하기 위해 에이전트 강화 학습과 같은 방법들이 제안되었지만, 이들은 일반적으로 비용이 많이 드는 파라미터 업데이트에 의존합니다. 예를 들어, 지도 미세 조정(SFT)을 거친 후 그룹 상대 정책 최적화(GRPO)를 사용한 강화 학습(RL) 단계를 통해 출력 분포를 변경하는 방식입니다. 그러나 우리는 LLM이 토큰 사전으로서 경험적 지식을 학습함으로써 출력 분포에 유사한 효과를 달성할 수 있다고 주장합니다. 이는 훨씬 더 가벼운 접근 방식으로, 실질적인 데이터 부족 문제를 해결할 뿐만 아니라 과적합이라는 일반적인 문제를 피할 수 있습니다. 이를 위해 우리는 파라미터 업데이트 없이도 LLM 에이전트 성능을 향상시키는 비용 효율적인 솔루션인 Training-Free Group Relative Policy Optimization(Training-Free GRPO)을 제안합니다. 우리의 방법은 각 롤아웃 그룹 내에서 수치적 이점 대신 그룹 상대적 의미적 이점을 활용하여, 최소한의 실측 데이터에 대한 다중 에포크 학습 동안 고품질의 경험적 지식을 반복적으로 추출합니다. 이러한 지식은 학습된 토큰 사전으로서 작용하며, LLM API 호출 동안 원활하게 통합되어 모델 행동을 안내합니다. 수학적 추론 및 웹 검색 작업에 대한 실험은 Training-Free GRPO가 DeepSeek-V3.1-Terminus에 적용될 때 도메인 외 성능을 크게 향상시킴을 보여줍니다. 단 몇십 개의 훈련 샘플만으로도 Training-Free GRPO는 미세 조정된 소형 LLM을 훈련 데이터와 비용 측면에서 능가합니다.
대규모 언어 모델(LLM)의 추론을 위한 사후 훈련은 점차 검증 가능한 보상, 즉 0-1 정확도 신호를 제공하는 결정론적 검사기에 의존하고 있다. 이러한 이진 피드백은 신뢰할 수 있지만 취약한데, 많은 과제가 부분적으로 정답이거나 대체 답안을 허용하는 반면 검증기는 이를 과소평가하며, 결과적으로 전부 아니면 전무(all-or-nothing) 방식의 감독은 학습을 제한한다. 보상 모델은 더 풍부하고 연속적인 피드백을 제공하며, 이는 검증기에 대한 보완적인 감독 신호로 활용될 수 있다. 본 연구에서는 검증기 신호와 보상 모델 점수를 구조화된 방식으로 통합한 강화 학습 프레임워크인 HERO(Hybrid Ensemble Reward Optimization)를 소개한다. HERO는 검증기 정의 그룹 내에서 보상 모델 점수를 제한하는 계층적 정규화를 사용하여 정확성을 유지하면서 품질 차이를 세밀하게 조정하고, 밀집 신호가 가장 중요한 어려운 프롬프트를 강조하기 위해 분산 인식 가중치를 적용한다. 다양한 수학적 추론 벤치마크에서 HERO는 보상 모델만 사용하거나 검증기만 사용하는 기준선을 일관되게 능가하며, 검증 가능한 과제와 검증하기 어려운 과제 모두에서 강력한 성과를 보인다. 본 연구 결과는 하이브리드 보상 설계가 검증기의 안정성을 유지하면서 보상 모델의 미묘한 차이를 활용하여 추론을 발전시킬 수 있음을 보여준다.
단안 카메라 이미지 시퀀스에서의 실시간 3D 재구성은 컴퓨터 비전 분야에서 오랜 기간 동안 해결되지 않은 과제로, 실세계-시뮬레이션 변환, AR/VR, 로보틱스와 같은 응용 분야에서 중요한 역할을 합니다. 기존 방법들은 주요한 트레이드오프에 직면해 있습니다: 장면별 최적화는 높은 정확도를 제공하지만 계산 비용이 크며, 피드포워드 기반 모델은 실시간 추론이 가능하지만 정확성과 견고성에서 어려움을 겪습니다. 본 연구에서는 이러한 문제를 해결하기 위해 ARTDECO를 제안합니다. ARTDECO는 피드포워드 모델의 효율성과 SLAM 기반 파이프라인의 신뢰성을 결합한 통합 프레임워크입니다. ARTDECO는 3D 기반 모델을 사용하여 포즈 추정과 점 예측을 수행하며, 다중 스케일 특징을 구조화된 3D 가우시안으로 변환하는 가우시안 디코더를 활용합니다. 대규모에서도 충실도와 효율성을 유지하기 위해, 계층적 가우시안 표현과 LoD(Level of Detail) 인식 렌더링 전략을 설계하여 렌더링 품질을 향상시키고 중복성을 줄였습니다. 8가지 다양한 실내 및 실외 벤치마크에서의 실험 결과, ARTDECO는 SLAM에 필적하는 상호작용 성능, 피드포워드 시스템과 유사한 견고성, 그리고 장면별 최적화에 근접한 재구성 품질을 보여주며, 정확한 기하학적 구조와 높은 시각적 충실도를 동시에 갖춘 실세계 환경의 실시간 디지털화를 위한 실용적인 접근 방식을 제공합니다. 더 많은 데모는 프로젝트 페이지(https://city-super.github.io/artdeco/)에서 확인할 수 있습니다.
병렬 스케일링은 다수의 사고 연쇄(Chain-of-Thought, CoT) 추적을 동시에 생성함으로써 대규모 언어 모델(LLMs)의 추론 능력을 향상시키는 강력한 패러다임으로 부상했다. 그러나 이 접근법은 추적 간 중복으로 인해 상당한 계산 비효율성을 초래한다. 우리의 분석에 따르면, 병렬 추론 추적의 80% 이상이 동일한 최종 답변을 생성하며, 이는 상당한 계산 낭비를 나타낸다. 이러한 중요한 효율성 병목 현상을 해결하기 위해, 우리는 동적 가지치기를 통해 효율적인 병렬 스케일링을 가능하게 하는 새로운 프레임워크인 DeepPrune을 제안한다. 우리의 방법은 부분 추론 추적로부터 답변 동등성을 정확하게 예측하기 위해 포커스 손실(focal loss)과 오버샘플링 기법으로 훈련된 전문 판단 모델을 특징으로 하며, 이는 동등성 예측에서 0.87 AUROC를 달성한다. 또한, 온라인 탐욕적 클러스터링 알고리즘을 결합하여 답변 다양성을 유지하면서 중복 경로를 동적으로 제거한다. 세 가지 도전적인 벤치마크(AIME 2024, AIME 2025, GPQA)와 다중 추론 모델에 대한 포괄적인 평가를 통해 DeepPrune은 대부분의 경우 기존의 합의 샘플링(consensus sampling) 대비 80% 이상의 토큰 감소를 달성하면서도 3% 포인트 이내의 경쟁력 있는 정확도를 유지함을 입증했다. 우리의 연구는 고성능 추론을 더 효율적으로 만드는 효율적인 병렬 추론의 새로운 기준을 확립한다. 우리의 코드와 데이터는 여기에서 확인할 수 있다: https://deepprune.github.io/
최근 대규모 언어 모델은 사고의 연쇄를 더 길게 생성하고 반성적 추론을 수행할 수 있는 능력 덕분에 추론 능력에서 상당한 향상을 보여주고 있습니다. 그러나 이러한 반성이 성능 개선에 기여하는 정도는 여전히 불분명합니다. 본 논문에서는 5개의 수학 데이터셋에 대해 8개의 추론 모델의 롤아웃을 체계적으로 분석합니다. 우리는 모델이 이미 답을 생성한 후에도 출력을 최종 결정하기 전에 계속 반성하는 행동에 초점을 맞춥니다. 분석 결과, 반성은 주로 확인적이며 모델의 초기 답을 변경하는 경우는 드물었으며, 이 패턴은 모델과 데이터셋 전반에 걸쳐 일관되게 나타났습니다. 훈련에서 반성의 역할을 이해하기 위해, 우리는 다양한 반성 단계를 포함한 지도 미세 조정(SFT) 데이터셋을 구성했습니다. 더 많은 반성 단계가 포함된 롤아웃으로 모델을 훈련시키면, 초기 잘못된 답을 반성을 통해 수정하는 능력보다는 첫 답변의 정확성이 주로 향상되는 것을 관찰했습니다. 이는 추론 과정에서 몇 가지 가능성이 높은 후보 답변이 생성되면 더 이상의 불필요한 반성 단계를 줄이기 위해 조기 중단하는 질문 인식형 조기 중단 방법을 제안하는 동기가 되었습니다. 이를 바탕으로, 우리는 후보 답변이 생성된 후 반성을 동적으로 중단하는 방법을 추가로 제안합니다. 이 방법은 5개의 수학 데이터셋에서 정확도 하락을 2.9% 이내로 유지하면서 추론 토큰을 24.5% 줄일 수 있었습니다.
이전 연구에 따르면, 특정 영역(예: 보안 취약 코드나 잘못된 의학적 조언)에서 악의적이거나 잘못된 완성 데이터로 미세 조정된 대형 언어 모델(LLM)은 유해한 행동을 보이는 광범위한 오정렬(emergent misalignment) 현상을 보일 수 있습니다. 본 연구에서는 이러한 현상이 안전성 문제를 넘어 고위험 시나리오(예: 압박 상황에서의 거짓말과 기만적 행동)에서의 부정직과 기만 행위로까지 확장될 수 있는지 조사합니다. 이를 위해, 다양한 영역에서 오정렬된 완성 데이터를 사용해 오픈소스 LLM을 미세 조정했습니다. 실험 결과, LLM이 부정직한 행동에서 광범위한 오정렬을 보이는 것으로 나타났습니다. 또한, 하위 작업에서의 결합 미세 조정 환경에서 이 현상을 추가로 탐구한 결과, 표준 하위 작업에 오정렬 데이터를 단 1%만 추가해도 정직한 행동이 20% 이상 감소하는 것을 확인했습니다. 더 나아가, 실제 인간-AI 상호작용 환경을 시뮬레이션하여 선의적 사용자와 편향된 사용자가 보조 LLM과 상호작용하는 상황을 고려했습니다. 특히, 편향된 사용자 비율이 10%에 불과할 때도 보조 LLM이 의도치 않게 오정렬되어 부정직성이 악화될 수 있음을 발견했습니다. 요약하면, 본 연구는 고위험 시나리오에서의 부정직과 기만 영역으로 오정렬 연구를 확장하고, 이러한 위험이 직접적인 미세 조정뿐만 아니라 하위 혼합 작업과 실제 인간-AI 상호작용에서도 발생할 수 있음을 입증했습니다.
캐스케이드 비디오 초해상도는 대형 기반 모델을 사용하여 고해상도 비디오를 생성하는 데 따른 계산 부담을 분리하기 위한 유망한 기술로 부상했습니다. 그러나 기존 연구는 주로 텍스트-투-비디오 작업에 국한되어 있으며, 텍스트 외의 추가적인 생성 조건을 활용하지 못하고 있습니다. 이러한 조건은 다중 모달 비디오 생성에서 충실도를 보장하기 위해 중요합니다. 우리는 이러한 한계를 해결하기 위해 텍스트, 이미지, 비디오를 포함한 하이브리드 모달 조건을 통합한 최초의 통합 생성 비디오 초해상도 프레임워크인 UniMMVSR을 제시합니다. 우리는 잠재 비디오 확산 모델 내에서 조건 주입 전략, 훈련 방식, 데이터 혼합 기술에 대한 포괄적인 탐구를 수행했습니다. 주요 과제는 목표 비디오와의 다양한 상관 관계를 고려하여 모델이 모든 조건 유형을 정확하게 활용할 수 있도록 별도의 데이터 구성 및 조건 활용 방법을 설계하는 것이었습니다. 우리의 실험은 UniMMVSR이 기존 방법을 크게 능가하며, 우수한 디테일과 다중 모달 조건에 대한 높은 준수도를 가진 비디오를 생성한다는 것을 보여줍니다. 또한 우리는 UniMMVSR을 기본 모델과 결합하여 기존 기술로는 달성할 수 없었던 다중 모달 가이드 4K 비디오 생성을 달성할 수 있는 가능성을 검증했습니다.
기존의 다중모달 대형 언어 모델(MLLM)에서는 컴포지셔널 트레이닝이 사실상의 표준 패러다임으로 자리 잡아 왔습니다. 이 접근법에서는 사전 학습된 비전 인코더와 사전 학습된 대형 언어 모델(LLM)을 연속적인 다중모달 사전 학습을 통해 연결합니다. 그러나 이러한 분리된 학습 방식으로 인해 이 패러다임의 다중모달 스케일링 특성을 탐구하기는 어려웠습니다. 본 논문에서는 종단 간(end-to-end) 방식으로 MLLM을 네이티브하게 학습하는 데 초점을 맞추고, 데이터 제약이라는 실용적인 설정 하에서 그 설계 공간과 스케일링 특성을 체계적으로 연구합니다. MLLM의 다양한 선택 사항을 신중히 연구한 결과, 성능과 학습 비용을 최적으로 균형 잡는 최적의 메타 아키텍처를 도출했습니다. 이후, 네이티브 MLLM의 스케일링 특성을 추가로 탐구하며 비전 인코더와 LLM 간의 양의 상관관계를 확인했습니다. 이러한 발견을 바탕으로, 간단하고 비용 효율적인 레시피와 결합된 NaViL이라는 네이티브 MLLM을 제안합니다. 14개의 다중모달 벤치마크에서의 실험 결과는 NaViL이 기존 MLLM 대비 경쟁력 있는 성능을 보임을 확인시켜 줍니다. 또한, 본 연구의 발견과 결과는 향후 네이티브 MLLM 연구에 대한 심층적인 통찰을 제공합니다.
자기 진화는 대규모 언어 모델(LLM) 기반 에이전트가 사전 학습 이후에도 지속적으로 능력을 향상시킬 수 있도록 하는 핵심 연구 주제입니다. 최근 연구는 강화 학습(RL)을 사용하지 않는 방법에서 RL 기반 방법으로의 전환을 목격했습니다. 현재의 RL 기반 방법은 외부에서 제공되는 밀집된 보상 신호에 의존하거나 LLM 자체에서 내재적 보상 신호를 추출합니다. 그러나 이러한 접근 방식은 인간 지능에서 관찰되는 자기 진화 메커니즘과는 차이가 있습니다. 인간은 상호 토론과 협업을 통해 학습하고 능력을 향상시킵니다. 본 연구에서는 외부 감독 없이 에이전트 간 상호작용을 통해 학습함으로써 자율적으로 개선할 수 있는 새로운 프레임워크인 Co-Evolving Multi-Agent Systems(CoMAS)를 소개합니다. CoMAS는 풍부한 토론 역학에서 내재적 보상을 생성하고, LLM-as-a-judge 메커니즘을 통해 이러한 보상을 공식화하며, RL을 통해 각 에이전트의 정책을 최적화함으로써 분산적이고 확장 가능한 공동 진화를 가능하게 합니다. 실험 결과는 CoMAS가 훈련되지 않은 에이전트를 지속적으로 능가하며 대부분의 평가 설정에서 최첨단 성능을 달성함을 보여줍니다. 추가 연구는 상호작용 기반 보상 신호의 필요성을 확인하고 에이전트의 수와 다양성이 증가함에 따라 유망한 확장성을 보여줍니다. 이러한 발견들은 CoMAS를 LLM 기반 에이전트의 자기 진화를 위한 새롭고 효과적인 패러다임으로 확립합니다.
우리는 디퓨전 모델을 활용한 비디오 스타일 변환 작업을 다루며, 입력 비디오의 콘텍스트를 보존하면서 텍스트 프롬프트로 지정된 타겟 스타일로 렌더링하는 것을 목표로 합니다. 주요 과제는 감독을 위한 짝지어진 비디오 데이터의 부족입니다. 우리는 PickStyle을 제안하는데, 이는 사전 학습된 비디오 디퓨전 백본에 스타일 어댑터를 추가하고, 소스-스타일 대응 관계가 있는 짝지어진 정지 이미지 데이터를 활용하여 학습하는 비디오-투-비디오 스타일 변환 프레임워크입니다. PickStyle은 조건부 모듈의 self-attention 레이어에 저랭크 어댑터를 삽입하여, 비디오 콘텐츠와 스타일 간의 강력한 정렬을 유지하면서도 모션-스타일 변환을 위한 효율적인 특수화를 가능하게 합니다. 정적 이미지 감독과 동적 비디오 간의 격차를 해소하기 위해, 우리는 카메라 모션을 시뮬레이션하는 공유 증강을 적용하여 짝지어진 이미지로부터 합성 훈련 클립을 구성함으로써 시간적 사전 정보가 보존되도록 합니다. 또한, 우리는 Context-Style Classifier-Free Guidance(CS-CFG)를 소개하는데, 이는 classifier-free guidance를 독립적인 텍스트(스타일)와 비디오(콘텍스트) 방향으로 분해하는 새로운 방법입니다. CS-CFG는 생성된 비디오에서 콘텍스트가 보존되면서도 스타일이 효과적으로 전달되도록 보장합니다. 벤치마크를 통한 실험 결과, 우리의 접근 방식은 시간적으로 일관되고 스타일이 충실하며 콘텐츠를 보존하는 비디오 변환을 달성하여, 기존 베이스라인을 정성적 및 정량적으로 능가함을 보여줍니다.
최근 멀티모달 대형 언어 모델(MLLM)의 발전으로 강력한 시각 이해와 추론 능력이 입증되면서, 이를 확산 모델(diffusion model)의 편집 성능 향상에 활용하려는 관심이 높아지고 있습니다. 그러나 급속한 발전에도 불구하고, 대부분의 연구는 MLLM 설계 선택에 대한 심층적인 분석이 부족합니다. 또한, MLLM과 확산 모델의 통합은 비디오 편집과 같은 일부 어려운 작업에서 여전히 해결해야 할 과제로 남아 있습니다. 본 논문에서는 이미지 및 비디오 편집을 위한 통합 프레임워크인 InstructX를 제안합니다. 구체적으로, 다양한 작업에 걸쳐 지시 기반 편집을 위해 MLLM과 확산 모델을 통합하는 방법에 대한 포괄적인 연구를 수행합니다. 이를 바탕으로, 통합 모델링에서 이미지와 비디오 간의 협력과 차이를 분석합니다. (1) 이미지 데이터에 대한 학습이 명시적인 감독 없이도 비디오 편집 능력을 자연스럽게 발현시킬 수 있음을 보여주어, 부족한 비디오 학습 데이터로 인한 제약을 완화합니다. (2) 모달리티별 MLLM 특징을 통합함으로써, 우리의 접근 방식은 단일 모델 내에서 이미지와 비디오 편집 작업을 효과적으로 통일합니다. 광범위한 실험을 통해 우리의 방법이 다양한 이미지 및 비디오 편집 작업을 처리할 수 있으며 최첨단 성능을 달성함을 입증합니다.
보상 모델(Reward Model, RM)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 핵심적인 역할을 합니다. 실제 애플리케이션에서는 LLM 에이전트와 같이 긴 이력 궤적이 점점 더 많이 포함되면서, 모델의 응답이 고품질일 뿐만 아니라 제공된 맥락에 기반하고 일관성을 유지하는지 평가하는 것이 필수적입니다. 그러나 현재의 RM은 주로 짧은 맥락 설정에 국한되어 있으며, 응답 수준의 속성(예: 안전성 또는 유용성)에 초점을 맞추는 반면, 긴 맥락-응답 일관성이라는 중요한 차원을 크게 간과하고 있습니다. 본 연구에서는 긴 맥락 RM 평가를 위해 특별히 설계된 벤치마크인 Long-RewardBench를 소개합니다. 이 벤치마크는 Pairwise Comparison과 Best-of-N 작업을 모두 포함하고 있습니다. 우리의 예비 연구는 최첨단 생성형 RM조차도 긴 맥락 시나리오에서 상당히 취약하며, 맥락을 인지한 선호도 판단을 유지하지 못한다는 것을 보여줍니다. 모델 출력에서 관찰된 실패 패턴 분석에 동기를 부여받아, 우리는 임의의 모델을 강력한 긴 맥락 RM(LongRM)으로 효과적으로 확장할 수 있는 일반적인 다단계 훈련 전략을 제안합니다. 실험 결과, 우리의 접근 방식은 긴 맥락 평가에서의 성능을 크게 향상시킬 뿐만 아니라 강력한 짧은 맥락 능력도 유지하는 것으로 나타났습니다. 특히, 우리의 8B LongRM은 훨씬 더 큰 70B 규모의 베이스라인을 능가하며, 독점적인 Gemini 2.5 Pro 모델의 성능과도 맞먹습니다.
멀티모달 검색 증강 생성(MM-RAG)은 대규모 언어 모델(LLMs)과 에이전트를 실제 지식 기반에 적용하기 위한 핵심 접근법이지만, 현재의 평가는 텍스트나 이미지를 개별적으로 다루거나, 문서 중심의 멀티모달 사용 사례를 충분히 반영하지 못하는 단순화된 멀티모달 설정에 초점을 맞추고 있어 단편적입니다. 본 논문에서는 8개 도메인에 걸친 70,000개의 실제 PDF 페이지로부터 구축된 첫 번째 대규모 현실적 벤치마크인 UniDoc-Bench를 소개합니다. 우리의 파이프라인은 텍스트, 표, 그림으로부터 증거를 추출하고 연결한 후, 사실 검색, 비교, 요약, 논리적 추론 질문을 아우르는 1,600개의 멀티모달 QA 쌍을 생성합니다. 신뢰성을 보장하기 위해 QA 쌍의 20%는 다중 주석자와 전문가 중재를 통해 검증되었습니다. UniDoc-Bench는 (1) 텍스트 전용, (2) 이미지 전용, (3) 멀티모달 텍스트-이미지 융합, (4) 멀티모달 공동 검색이라는 네 가지 패러다임을 표준화된 후보 풀, 프롬프트, 평가 지표를 통해 동일한 조건에서 비교할 수 있도록 지원합니다. 우리의 실험 결과, 멀티모달 텍스트-이미지 융합 RAG 시스템은 단일 모달 및 공동 멀티모달 임베딩 기반 검색을 지속적으로 능가하며, 텍스트나 이미지 단독으로는 충분하지 않고 현재의 멀티모달 임베딩도 여전히 부족함을 보여줍니다. 벤치마킹을 넘어, 우리의 분석은 시각적 맥락이 텍스트 증거를 보완하는 시점과 방법을 밝히고, 체계적인 실패 모드를 발견하며, 더 견고한 MM-RAG 파이프라인 개발을 위한 실행 가능한 지침을 제공합니다.
대규모 언어 모델(LLM)은 다양한 영역에서 뛰어난 능력을 보여주었지만, 이를 실세계의 장기적 과제를 위한 AI 에이전트로 배포할 때는 여전히 상당한 과제가 남아 있습니다. 기존의 LLM 에이전트는 결정적인 한계를 가지고 있습니다: 이들은 테스트 시점에서 정적이며 경험으로부터 학습할 수 없어, 지식을 축적하고 업무 중 지속적으로 개선할 수 있는 능력이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 계층적 메모리 모듈을 중심으로 한 경험 주도적, 자기 진화 시스템을 도입한 새로운 에이전트 프레임워크인 MUSE를 제안합니다. MUSE는 다양한 수준의 경험을 조직화하고 이를 활용하여 여러 애플리케이션에서 장기적 과제를 계획하고 실행합니다. 각 하위 과제 실행 후, 에이전트는 자율적으로 자신의 궤적을 반추하며, 원시 궤적을 구조화된 경험으로 변환하여 메모리 모듈에 통합합니다. 이 메커니즘은 에이전트가 정적으로 사전 학습된 매개변수를 넘어서 지속적인 학습과 자기 진화를 가능하게 합니다. 우리는 MUSE를 장기적 생산성 벤치마크인 TAC에서 평가했습니다. MUSE는 경량의 Gemini-2.5 Flash 모델만을 사용하여 상당한 차이로 새로운 SOTA 성능을 달성했습니다. 충분한 실험을 통해, 에이전트가 자율적으로 경험을 축적함에 따라 점점 더 우수한 과제 완수 능력과 강력한 지속적 학습 및 자기 진화 능력을 보여준다는 것을 입증했습니다. 더욱이, MUSE에서 축적된 경험은 강력한 일반화 특성을 보여주어, 새로운 과제에서의 제로샷 개선을 가능하게 합니다. MUSE는 실세계 생산성 과제 자동화가 가능한 AI 에이전트를 위한 새로운 패러다임을 정립합니다.
본 연구는 텍스트 조건에서 동기화된 오디오를 포함한 비디오를 생성하면서 두 모달리티가 텍스트와 일치하도록 하는 텍스트-소리-비디오(T2SV) 생성이라는 도전적이면서도 유망한 과제에 초점을 맞춥니다. 오디오와 비디오의 공동 학습에서의 진전에도 불구하고, 두 가지 중요한 과제가 여전히 해결되지 않고 있습니다: (1) 비디오와 오디오에 대한 텍스트가 동일한 단일 공유 텍스트 캡션은 종종 모달 간섭을 일으켜 사전 학습된 백본을 혼란스럽게 만들고, (2) 교차 모달 특징 상호작용을 위한 최적의 메커니즘이 여전히 불분명합니다. 이러한 과제를 해결하기 위해, 우리는 먼저 계층적 시각 기반 캡션 생성(HVGC) 프레임워크를 제안합니다. 이 프레임워크는 비디오 캡션과 오디오 캡션으로 구성된 분리된 캡션 쌍을 생성하여 조건 설정 단계에서의 간섭을 제거합니다. HVGC를 기반으로, 우리는 더 나아가 BridgeDiT라는 새로운 듀얼 타워 확산 트랜스포머를 소개합니다. 이 모델은 Dual CrossAttention(DCA) 메커니즘을 사용하여 강력한 "다리" 역할을 하며, 대칭적이고 양방향의 정보 교환을 가능하게 하여 의미적 및 시간적 동기화를 달성합니다. 세 가지 벤치마크 데이터셋에서의 광범위한 실험과 인간 평가를 통해, 우리의 방법이 대부분의 지표에서 최첨단 결과를 달성함을 입증했습니다. 포괄적인 절제 연구는 우리의 기여의 효과를 추가로 검증하며, 향후 T2SV 과제를 위한 중요한 통찰을 제공합니다. 모든 코드와 체크포인트는 공개될 예정입니다.
Group Relative Preference Optimization(GRPO)와 같은 강화학습 방법론이 대규모 언어 모델(LLM)을 크게 개선시켰음에도 불구하고, 이를 확산 모델(diffusion model)에 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 특히, GRPO는 확률적 정책(stochastic policy)을 요구하지만, 가장 비용 효율적인 확산 샘플러(diffusion sampler)는 결정론적 ODE(Ordinary Differential Equation)에 기반하고 있습니다. 최근 연구에서는 확률성을 유도하기 위해 비효율적인 SDE(Stochastic Differential Equation) 기반 샘플러를 사용함으로써 이 문제를 해결하려고 시도했지만, 모델에 구애받지 않는 가우시안 노이즈(Gaussian noise)에 의존하기 때문에 수렴 속도가 느리다는 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 정책 경사(policy-gradient) 프레임워크를 완전히 배제한 새로운 온라인 강화학습 알고리즘인 Direct Group Preference Optimization(DGPO)을 제안합니다. DGPO는 그룹 내 샘플들의 상대적 정보를 활용하는 그룹 수준의 선호도(group-level preference)로부터 직접 학습합니다. 이러한 설계는 비효율적인 확률적 정책의 필요성을 제거함으로써, 효율적인 결정론적 ODE 샘플러의 사용과 더 빠른 학습을 가능하게 합니다. 광범위한 실험 결과에 따르면, DGPO는 기존의 최첨단 방법론보다 약 20배 빠르게 학습하며, 도메인 내(in-domain) 및 도메인 외(out-of-domain) 보상 지표에서 모두 우수한 성능을 달성합니다. 코드는 https://github.com/Luo-Yihong/DGPO에서 확인할 수 있습니다.
대규모 멀티모달 모델(LMMs)은 다양한 능력에서 놀라운 진전을 이루었으나, 과학 영역에서의 복잡한 비디오 추론은 여전히 중요한 도전 과제로 남아 있습니다. 현재의 비디오 벤치마크는 주로 일반적인 시나리오를 대상으로 하여 인식/재인에 크게 의존하고 비교적 단순한 추론 과제를 포함하고 있어, 포화 상태에 이르러 고급 멀티모달 인지 능력을 효과적으로 평가하지 못하고 있습니다. 이러한 중요한 격차를 해결하기 위해, 우리는 과학적 맥락에서의 고급 비디오 추론 능력을 평가하기 위해 특별히 설계된 엄격한 벤치마크인 SciVideoBench를 소개합니다. SciVideoBench는 25개 이상의 전문 학문 분야를 아우르는 최첨단 과학 실험 비디오에서 도출된 1,000개의 신중하게 구성된 객관식 문제로 구성되어 있으며, 반자동 시스템을 통해 검증되었습니다. 각 문제는 정교한 도메인 특화 지식, 정확한 시공간적 인식, 복잡한 논리적 추론을 요구하여 모델의 고차원적 인지 능력을 효과적으로 도전합니다. 우리의 평가는 Gemini 2.5 Pro와 Qwen2.5-VL을 포함한 최신의 독점 및 오픈소스 LMMs에서 상당한 성능 부족을 보여주며, 비디오 추론 능력의 발전을 위한 상당한 여지가 있음을 나타냅니다. 추론 복잡성과 시각적 근거와 같은 중요한 요소에 대한 상세한 분석은 LMMs의 미래 발전을 위한 귀중한 통찰과 명확한 방향을 제공하며, 진정으로 능력 있는 멀티모달 AI 공동 과학자의 진화를 이끌어줄 것입니다. 우리는 SciVideoBench가 커뮤니티의 관심에 부합하고, 최첨단 AI의 경계를 넓혀 더 넓은 과학 분야로 나아가는 데 도움이 되기를 바랍니다.
본 연구는 연속 시간 일관성 증류(continuous-time consistency distillation)를 일반적인 애플리케이션 수준의 이미지 및 비디오 확산 모델로 확장하는 첫 번째 시도를 나타냅니다. 연속 시간 일관성 모델(sCM)은 학문적 규모의 확산 모델 가속화에 있어 이론적으로 타당하고 실험적으로 강력하지만, 야코비안-벡터 곱(JVP) 계산의 인프라적 어려움과 표준 평가 벤치마크의 한계로 인해 대규모 텍스트-이미지 및 비디오 작업에의 적용 가능성은 여전히 불분명합니다. 우리는 먼저 병렬 처리와 호환되는 FlashAttention-2 JVP 커널을 개발하여 100억 개 이상의 파라미터를 가진 모델과 고차원 비디오 작업에서 sCM 학습을 가능하게 했습니다. 우리의 연구는 sCM이 세부적인 디테일 생성에서 근본적인 품질 한계를 보인다는 것을 밝혔으며, 이는 오류 누적과 전방 발산 목표의 "모드 커버링" 특성에 기인한다고 판단했습니다. 이를 해결하기 위해, 우리는 점수 정규화 연속 시간 일관성 모델(rCM)을 제안합니다. 이 모델은 점수 증류를 장거리 정규화 도구로 통합하여, sCM에 "모드 탐색" 역 발산을 보완함으로써 시각적 품질을 효과적으로 개선하면서도 높은 생성 다양성을 유지합니다. 140억 개의 파라미터와 5초 길이의 비디오를 포함한 대규모 모델(Cosmos-Predict2, Wan2.1)에서 검증된 rCM은 품질 지표에서 최신 증류 방법인 DMD2를 능가하거나 동등한 성능을 보이며, 다양성 측면에서도 뛰어난 장점을 제공합니다. 이 모든 것이 GAN 튜닝이나 광범위한 하이퍼파라미터 탐색 없이 이루어졌습니다. 증류된 모델은 단 1~4 단계만으로 고품질 샘플을 생성하며, 확산 샘플링 속도를 15~50배 가속화합니다. 이러한 결과는 rCM을 대규모 확산 증류를 발전시키기 위한 실용적이고 이론적으로 근거 있는 프레임워크로 자리매김합니다.
최근 추론 모델의 발전은 강화 학습을 통해 인지적 행동을 보여주었지만, 기존 접근 방식은 장기적 상호작용이 필요한 다중 턴 에이전트에서 깊은 추론 능력을 발휘하는 데 어려움을 겪고 있습니다. 우리는 이러한 능력을 이끌어내기 위해 고난이도 훈련 작업과 동적 컨텍스트 창을 도입한 새로운 프레임워크인 DeepMiner를 제안합니다. DeepMiner는 실제 웹 소스에서 복잡하지만 검증 가능한 질문-답변 쌍을 생성하기 위한 역구성 방법을 제시하여, 훈련 데이터의 도전성과 신뢰성을 보장하면서 다중 턴 추론 시나리오에 인지 능력을 주입합니다. 또한, 우리는 훈련과 추론 모두를 위한 우아하면서도 효과적인 동적 컨텍스트 관리 전략을 설계하여, 슬라이딩 윈도우 메커니즘을 활용하면서 외부 요약 모델에 대한 의존성을 제거함으로써, 모델이 지속적으로 확장되는 장기적 컨텍스트를 효율적으로 처리할 수 있도록 합니다. Qwen3-32B에 대한 강화 학습을 통해 DeepMiner-32B를 개발하였으며, 이는 여러 검색 에이전트 벤치마크에서 상당한 성능 향상을 달성했습니다. DeepMiner는 BrowseComp-en에서 33.5%의 정확도를 달성하여 이전 최고의 오픈소스 에이전트를 거의 20% 포인트 앞섰으며, BrowseComp-zh, XBench-DeepSearch, GAIA에서도 일관된 개선을 보여주었습니다. 특히, 우리의 동적 컨텍스트 관리는 표준 32k 컨텍스트 길이 내에서 거의 100턴에 이르는 지속적인 상호작용을 가능하게 하여, 기존 다중 턴 상호작용 시스템을 제한하는 컨텍스트 한계를 효과적으로 해결합니다.
보상 모델링은 인간 피드백을 통한 강화 학습(RLHF)의 핵심에 있지만, 기존의 대부분의 보상 모델은 인간 선호의 다면적 특성을 포착하지 못하는 스칼라 또는 쌍별 판단에 의존합니다. 최근 연구에서는 응답 품질의 여러 차원을 포착하는 구조화된 자연어 기준을 사용하는 루브릭-에즈-리워드(RaR)를 탐구했습니다. 그러나 신뢰할 수 있고 확장 가능한 루브릭을 생성하는 것은 여전히 주요 과제로 남아 있습니다. 본 연구에서는 루브릭 생성 및 루브릭 기반 보상 모델을 훈련하기 위한 다양한 대규모 (프롬프트, 루브릭) 쌍 컬렉션인 OpenRubrics를 소개합니다. 차별적이고 포괄적인 평가 신호를 유도하기 위해, 우리는 선호된 응답과 거부된 응답을 대조하여 명시적 제약 조건(하드 규칙)과 암묵적 품질(원칙)을 도출하는 대조적 루브릭 생성(CRG)을 도입했습니다. 또한, 노이즈가 있는 루브릭을 제거하기 위해 거부 샘플링을 통해 선호 레이블 일관성을 강화하여 신뢰성을 더욱 개선했습니다. 여러 보상 모델링 벤치마크에서, 우리의 루브릭 기반 보상 모델인 Rubric-RM은 강력한 크기 대조 기준을 6.8% 능가했습니다. 이러한 성과는 명령어 수행 및 생물의학 벤치마크에서 정책 모델로 이전됩니다. 우리의 결과는 루브릭이 비용이 많이 드는 인간 평가와 자동화된 보상 모델링 사이의 격차를 좁히는 확장 가능한 정렬 신호를 제공하며, LLM 정렬을 위한 새로운 원칙 기반 패러다임을 가능하게 함을 보여줍니다.
우리는 ERA라는 새로운 패러다임을 제안합니다. 이는 모델 출력에 특별히 설계된 활성화 함수를 적용하여 샘플링 엔트로피를 주어진 임계값 이상으로 제약합니다. 우리의 접근 방식은 다양한 도메인에서 광범위한 효과를 입증했습니다: 1) 대형 언어 모델(LLM)의 경우, Qwen2.5-Math-7B의 AIME 2025 점수를 37.4% 향상시켰고, 2) 연속 제어 강화 학습 에이전트의 경우, SAC와 같은 강력한 베이스라인 대비 도전적인 HumanoidBench에서 30% 이상의 성능 향상을 보였으며, 3) 이미지 분류의 경우, ResNet-50의 ImageNet top-1 정확도를 0.69% 개선했습니다. 이러한 성과는 7% 미만의 계산 오버헤드로 달성되었습니다. 우리의 연구는 출력 활성화 함수가 엔트로피 제어를 위한 강력한 도구임을 검증하며, 더 간단하고 강력한 알고리즘 설계를 위한 새로운 방향을 제시합니다.
대규모 언어 모델(LLM)의 놀라운 성공은 사전 학습 과정에서 방대한 양의 지식을 메모리에 통합하고, 추론 과정에서 이를 메모리에서 검색할 수 있는 능력에서 비롯됩니다. 이는 지식 기억, 명령 수행, 추론과 같은 고급 기능을 가능하게 합니다. 그러나 LLM에서의 메모리 검색 및 통합 메커니즘은 여전히 잘 이해되지 않고 있습니다. 본 논문에서는 LLM의 작동 방식을 설명하기 위해 함수 토큰 가설을 제안합니다: 추론 과정에서 함수 토큰은 문맥에서 가장 예측 가능한 특징을 활성화하고 다음 토큰 예측(메모리 검색)을 주도합니다. 사전 학습 과정에서는 함수 토큰 뒤에 오는 다음 토큰(일반적으로 내용 토큰)을 예측함으로써 LLM이 학습하는 특징의 수가 증가하고 모델 파라미터가 업데이트됩니다(메모리 통합). 여기서 함수 토큰은 언어학에서의 기능어와 대략적으로 일치하며, 구두점, 관사, 전치사, 접속사 등을 포함합니다. 이는 내용 토큰과 대조됩니다. 우리는 이 가설을 지지하는 광범위한 실험적 증거를 제시합니다. 이분 그래프 분석을 통해 소수의 함수 토큰이 대부분의 특징을 활성화한다는 것을 보여줍니다. 사례 연구는 함수 토큰이 문맥에서 가장 예측 가능한 특징을 어떻게 활성화하여 다음 토큰 예측을 이끌어내는지를 추가로 밝힙니다. 또한 사전 학습 과정에서 함수 토큰 뒤에 오는 내용 토큰을 예측하는 것이 학습 손실을 지배하며, 이는 함수 토큰이 문맥에서 가장 예측 가능한 특징을 선택하도록 강제한다는 것을 발견했습니다.
대규모 언어 모델(Large Language Model)의 사전 학습에 필요한 계산 비용이 급격히 증가함에 따라 더 효율적인 접근 방식이 요구되고 있습니다. 기존에 잘 학습된 체크포인트에 상당한 계산 비용이 투입되었음에도 불구하고, 엔지니어링적 제약이나 모델 용량의 한계로 인해 많은 체크포인트가 제대로 활용되지 못하고 있습니다. 이러한 "매몰 비용"을 효율적으로 재활용하기 위해, 우리는 사전 학습된 체크포인트의 매개변수 수를 확장하고 추가 학습을 진행하는 방식의 재활용을 제안합니다. 특히, 수렴된 Mixture-of-Experts 모델에 적합한 직교적 성장 방법을 제안합니다: 깊이 성장을 위한 계층 간 복사와, 너비 성장을 위한 노이즈 주입을 통한 전문가 복제입니다. 체크포인트 시퀀스에서 이러한 성장의 최적 시점을 결정하기 위해, 우리는 포괄적인 스케일링 실험을 수행하였고, 최종 정확도가 매몰 비용의 양과 강한 양의 상관관계를 보인다는 것을 발견했습니다. 이는 더 많은 선행 투자가 더 나은 성능으로 이어진다는 것을 나타냅니다. 우리는 이 접근 방식을 700억 개의 매개변수와 1조 개 이상의 학습 토큰을 가진 모델로 확장하여, 동일한 추가 계산 예산 하에서 처음부터 학습하는 것보다 10.66%의 정확도 향상을 달성했습니다. 우리의 체크포인트 재활용 접근법은 경제적으로 효율적인 대규모 언어 모델 사전 학습의 기반을 마련합니다.
우리는 극도로 제약 없는 실제 환경의 2D 사진에서 고품질 3D 의상 인물 복원을 위한 최초의 튜닝 프리 솔루션인 UP2You를 소개합니다. 기존 접근법들이 "깔끔한" 입력(예: 최소한의 가림이 있는 전신 이미지 또는 잘 보정된 교차 뷰 캡처)을 요구하는 것과 달리, UP2You는 포즈, 시점, 크롭핑, 가림 등이 크게 달라질 수 있는 원시적이고 구조화되지 않은 사진을 직접 처리합니다. 데이터를 토큰으로 압축하여 느린 온라인 텍스트-3D 최적화를 수행하는 대신, 우리는 제약 없는 입력을 깔끔한 직교 다중 뷰 이미지로 효율적으로 변환하는 데이터 정류기 패러다임을 도입하여, 단일 순방향 전달로 몇 초 만에 3D 복원을 단순화합니다. UP2You의 핵심은 포즈 상관 특징 집계 모듈(PCFA)로, 이는 다수의 참조 이미지로부터 타겟 포즈에 대한 정보를 선택적으로 융합하여 더 나은 신원 보존과 거의 일정한 메모리 사용량을 가능하게 하며, 더 많은 관찰을 제공합니다. 또한, 우리는 사전 캡처된 신체 템플릿이 필요 없는 퍼시버 기반 다중 참조 형상 예측기를 도입했습니다. 4D-Dress, PuzzleIOI 및 실제 환경 캡처에 대한 광범위한 실험을 통해 UP2You가 기하학적 정확도(PuzzleIOI에서 Chamfer-15%, P2S-18%)와 텍스처 충실도(4D-Dress에서 PSNR-21%, LPIPS-46%) 모두에서 이전 방법들을 일관되게 능가함을 입증했습니다. UP2You는 효율적(1인당 1.5분)이며 다용도(임의의 포즈 제어 및 훈련 없이 다중 의상 3D 가상 피팅 지원)로, 인간이 캐주얼하게 캡처된 실제 시나리오에 실용적입니다. 모델과 코드는 이 미개척 분야의 향후 연구를 촉진하기 위해 공개될 예정입니다. 프로젝트 페이지: https://zcai0612.github.io/UP2You
일반화된 손 내부 물체 회전을 달성하는 것은 로봇공학에서 여전히 큰 도전 과제로 남아 있으며, 이는 주로 시뮬레이션에서 실제 세계로의 정책 전달의 어려움에서 기인한다. 정교한 조작의 복잡하고 접촉이 많은 역학은 "현실 간극"을 만들어냈으며, 이는 기존 연구를 단순한 기하학, 제한된 물체 크기 및 종횡비, 제한된 손목 자세, 또는 맞춤형 손을 포함한 제한된 시나리오로 한정시켰다. 우리는 이러한 시뮬레이션-실제 간극 문제를 해결하기 위해 시뮬레이션에서 훈련된 단일 정책이 실제 세계의 다양한 물체와 조건에 일반화할 수 있도록 하는 새로운 프레임워크를 제안한다. 우리 방법의 핵심은 제한된 양의 실제 세계 데이터를 효과적으로 맞추고 시뮬레이션 정책의 동작을 그에 따라 조정함으로써 현실 간극을 해소하는 관절별 역학 모델이다. 이 모델은 관절 간 역학을 분해하고 시스템 전체의 영향을 저차원 변수로 압축하며 각 관절의 진화를 자체 동적 프로파일에서 학습함으로써 이러한 순 효과를 암묵적으로 포착함으로써 데이터 효율성이 높고 다양한 전체 손 상호작용 분포에 걸쳐 일반화 가능하다. 우리는 이를 최소한의 인간 개입으로 다양한 실제 세계 상호작용 데이터를 수집하는 완전 자율 데이터 수집 전략과 결합한다. 우리의 완전한 파이프라인은 전례 없는 일반성을 보여준다: 단일 정책이 복잡한 형태(예: 동물), 높은 종횡비(최대 5.33), 그리고 작은 크기의 도전적인 물체를 성공적으로 회전시키며 다양한 손목 방향과 회전 축을 처리한다. 포괄적인 실제 세계 평가와 복잡한 작업을 위한 원격 조작 애플리케이션은 우리 접근법의 효과성과 견고성을 검증한다. 웹사이트: https://meowuu7.github.io/DexNDM/
대규모 언어 모델(LLMs)과 강화 학습(RL)의 최근 발전으로 인해 개방형 질문 응답(QA) 분야에서 강력한 성능이 나타나고 있습니다. 그러나 기존 모델들은 여전히 여러 유효한 답변이 가능한 질문에 어려움을 겪고 있습니다. 일반적으로 단일 정답을 가정하는 표준 QA 벤치마크는 이러한 현실을 간과하여 부적절한 학습 신호를 생성합니다. 모호성을 처리하기 위한 기존의 시도들은 대부분 비용이 많이 드는 수동 주석에 의존하며, HotpotQA 및 MuSiQue와 같은 다중 홉 데이터셋으로 확장하기 어렵습니다. 본 논문에서는 모호성을 인식하고 처리하기 위한 주석이 필요 없는 종단 간 학습 프레임워크인 A^2Search를 제안합니다. 이 프레임워크의 핵심은 모호한 질문을 자동으로 감지하고 궤적 샘플링 및 증거 검증을 통해 대체 답변을 수집하는 자동화된 파이프라인입니다. 그런 다음, 다중 답변을 자연스럽게 수용하도록 설계된 AnsF1 보상을 사용하여 RL로 모델을 최적화합니다. 8개의 개방형 QA 벤치마크에서의 실험 결과, A^2Search는 새로운 최첨단 성능을 달성했습니다. 단일 롤아웃만으로도 A^2Search-7B는 4개의 다중 홉 벤치마크에서 평균 AnsF1@1 점수 48.4%를 기록하며, ReSearch-32B(46.2%)를 포함한 모든 강력한 베이스라인을 능가했습니다. 광범위한 분석은 A^2Search가 모호성을 해결하고 벤치마크 간 일반화를 잘 수행함을 보여주며, 더 신뢰할 수 있는 QA 시스템을 구축하기 위해서는 모호성을 수용하는 것이 필수적임을 강조합니다. 우리의 코드, 데이터 및 모델 가중치는 https://github.com/zfj1998/A2Search에서 확인할 수 있습니다.
강화 학습은 대규모 언어 모델의 추론 능력을 향상시키기 위해 널리 적용되어 왔습니다. 더 작은 모델의 추론 한계를 확장하는 것은 두드러진 연구 주제로 부상했습니다. 그러나 Group Relative Policy Optimization(GRPO)과 같은 알고리즘은 명확한 단점을 가지고 있습니다: 모델의 롤아웃 응답 상한은 전적으로 모델 자체에 의해 결정되며, 모든 샘플이 잘못되었거나 모두 정확한 경우 지식을 획득할 수 없습니다. 본 논문에서는 외부 기준 참조 답변을 통합한 Group Contrastive Policy Optimization(GCPO) 방법을 소개합니다. 모델이 문제를 해결할 수 없을 때, 참조 답변은 정확한 응답을 제공하여 모델이 명확한 업데이트 방향으로 나아가도록 유도합니다. 이 접근 방식은 두 가지 주요 이점을 제공합니다: (1) 모든 샘플을 완전히 활용하여 훈련 효율성을 향상시키고, (2) 훈련 중에 참조 답변의 문제 해결 전략을 모방할 수 있게 하여 추론에서의 일반화 능력을 강화합니다. GCPO는 여러 벤치마크 데이터셋에서 우수한 결과를 달성하며, 기준 모델 대비 상당한 개선을 보여줍니다. 우리의 코드는 https://github.com/AchoWu/GCPO에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 효율적인 사용은 대규모 배포에 있어 핵심적입니다: 적응형 라우팅이 없다면 시스템은 강력한 모델에 과도한 비용을 지불하거나 약한 모델로 인해 낮은 성능을 감수해야 합니다. 각 쿼리에 적합한 LLM을 선택하는 것은 근본적으로 온라인 의사결정 문제입니다: 모델마다 강점이 다르고, 가격은 변동하며, 사용자들은 정확도와 비용을 다르게 평가합니다. 그러나 대부분의 라우터는 모든 후보 모델에 대한 레이블을 사용해 오프라인으로 학습되며, 이는 배포 환경에서 선택된 모델의 결과만 관찰된다는 가정과 상충됩니다. 우리는 이러한 격차를 BaRP(Bandit-feedback Routing with Preferences) 접근법으로 해결합니다. 이 방법은 배포와 동일한 부분 피드백 제약 하에서 학습하면서도, 성능/비용 트레이드오프를 테스트 시점에서 조정할 수 있는 선호 조정 가능 추론을 지원합니다. 프롬프트 특징과 사용자 선호 벡터에 대한 컨텍스트얼 밴딧으로 프레임된 우리의 방법은 학습 중 온라인 피드백 설정을 시뮬레이션하고, 각 새로운 프롬프트에 맞춰 라우팅 결정을 조정하며, 완전 정보 오프라인 감독에 의존하지 않습니다. 포괄적인 실험 결과, 우리의 방법은 강력한 오프라인 라우터를 최소 12.46%, 가장 큰 LLM을 최소 2.45% 이상 능가하며, 보이지 않는 작업에 대해 강건하게 일반화합니다.
인간형 로봇에게 복잡한 기술을 가르치기 위한 주요 패러다임은 인간의 동작을 운동학적 참조로 재타겟팅하여 강화 학습(RL) 정책을 훈련시키는 것입니다. 그러나 기존의 재타겟팅 파이프라인은 인간과 로봇 간의 상당한 구현 차이로 인해 발 미끄러짐이나 관통과 같은 물리적으로 비현실적인 아티팩트를 생성하는 경우가 많습니다. 더 중요한 것은, 일반적인 재타겟팅 방법은 표현력 있는 이동 및 이동-조작에 필수적인 풍부한 인간-객체 및 인간-환경 상호작용을 간과한다는 점입니다. 이를 해결하기 위해, 우리는 상호작용 메시를 기반으로 한 상호작용 보존 데이터 생성 엔진인 OmniRetarget을 소개합니다. 이 엔진은 에이전트, 지형, 조작된 객체 간의 중요한 공간적 및 접촉 관계를 명시적으로 모델링하고 보존합니다. 인간과 로봇 메시 간의 라플라시안 변형을 최소화하면서 운동학적 제약을 강제함으로써, OmniRetarget은 운동학적으로 실현 가능한 궤적을 생성합니다. 또한, 작업 관련 상호작용을 보존함으로써 단일 데모에서 다양한 로봇 구현, 지형, 객체 구성으로의 효율적인 데이터 증강이 가능합니다. 우리는 OMOMO, LAFAN1, 그리고 자체 제작한 MoCap 데이터셋에서 동작을 재타겟팅하여 8시간 이상의 궤적을 생성하며, 널리 사용되는 베이스라인보다 더 나은 운동학적 제약 충족 및 접촉 보존을 달성함으로써 OmniRetarget을 종합적으로 평가합니다. 이러한 고품질 데이터는 Unitree G1 인간형 로봇에서 장기간(최대 30초)의 파쿠르 및 이동-조작 기술을 성공적으로 실행할 수 있는 고유수용성 RL 정책을 가능하게 합니다. 이 정책은 모든 작업에 공유되는 단순한 도메인 랜덤화와 5개의 보상 항목만으로 훈련되었으며, 어떠한 학습 커리큘럼도 필요로 하지 않습니다.
일반화된 로봇 조작을 목표로, 공간 일반화는 객체, 환경 및 에이전트 자체의 다양한 공간 분포 하에서도 정책이 견고하게 작동할 수 있는 가장 기본적인 능력이다. 이를 달성하기 위해서는 모방 학습을 통해 일반화된 시각운동 정책을 훈련시키기 위해 다양한 공간 구성을 커버할 수 있는 상당한 양의 인간 시연 데이터를 수집해야 한다. 선행 연구들은 최소한의 원본 시연 데이터로부터 공간적으로 다양한 데이터를 획득하기 위해 데이터 생성 기술을 활용하는 유망한 방향을 탐구해왔다. 그러나 대부분의 접근법은 시뮬레이션과 현실 간의 큰 격차에 직면하며, 고정된 기반 시나리오와 사전 정의된 카메라 시점과 같은 제한된 설정에 국한되는 경우가 많다. 본 논문에서는 포인트 클라우드 관측-행동 쌍을 직접 증강하여 현실 세계 데이터를 생성하는 실시간-실시간 3D 데이터 생성 프레임워크(R2RGen)를 제안한다. R2RGen은 시뮬레이터와 렌더링이 필요 없어 효율적이고 플러그 앤 플레이 방식이다. 구체적으로, 단일 원본 시연 데이터가 주어졌을 때, 장면과 궤적의 세밀한 파싱을 위한 주석 메커니즘을 도입한다. 복잡한 다중 객체 구성과 다양한 작업 제약을 처리하기 위해 그룹 단위 증강 전략을 제안한다. 또한, 생성된 데이터의 분포를 현실 세계의 3D 센서와 일치시키기 위해 카메라 인식 처리를 제시한다. 실험적으로, R2RGen은 광범위한 실험에서 데이터 효율성을 크게 향상시키며, 모바일 조작에서의 확장성과 응용 가능성을 강력하게 보여준다.
자연어 이해 능력이 뛰어남에도 불구하고, 대형 언어 모델(LLMs)은 검색 작업에 있어서 제대로 활용되지 못해 왔습니다. 우리는 이러한 한계를 극복하기 위해 LLMs가 추론 과정의 직접적인 결과물로 검색 임베딩을 생성하도록 적응시키는 새로운 프레임워크인 Search-R3를 제안합니다. 우리의 접근 방식은 LLMs의 사고의 연쇄(chain-of-thought) 능력을 활용하여, 복잡한 의미 분석을 단계별로 추론함으로써 더 효과적인 임베딩을 생성할 수 있도록 합니다. 이를 위해 세 가지 상호 보완적인 메커니즘을 구현했습니다. (1) 지도 학습 단계를 통해 모델이 고품질 임베딩을 생성할 수 있는 능력을 갖추도록 하고, (2) 강화 학습(RL) 방법론을 통해 추론과 함께 임베딩 생성을 최적화하며, (3) 각 훈련 반복마다 전체 코퍼스를 재인코딩할 필요 없이 진화하는 임베딩 표현을 효율적으로 처리할 수 있는 전용 RL 환경을 구축했습니다. 다양한 벤치마크에 대한 광범위한 평가를 통해 Search-R3가 추론과 임베딩 생성 과정을 통합함으로써 기존 방법들을 크게 능가함을 입증했습니다. 이 통합 사후 훈련 접근법은 정교한 추론과 효과적인 정보 검색이 모두 요구되는 복잡한 지식 집약적 작업을 처리하는 데 있어 상당한 진전을 나타냅니다. 프로젝트 페이지: https://github.com/ytgui/Search-R3
최근 생성 모델의 발전은 자율주행 차량 분야에서 새로운 가능성을 열어주고 있습니다. 특히, 비디오 생성 모델이 제어 가능한 가상 테스트 환경으로서 탐구되고 있습니다. 동시에, 종단 간(End-to-End, E2E) 주행 모델은 기존의 모듈식 자율주행 시스템에 비해 단순성과 확장성으로 인해 주목받고 있습니다. 그러나 이러한 기술을 시뮬레이션 및 계획에 적용하는 데에는 중요한 질문들이 제기됩니다. 첫째, 비디오 생성 모델이 점점 더 사실적인 비디오를 생성할 수 있지만, 이러한 비디오가 지정된 조건을 충실히 따르며 E2E 자율 계획 평가에 충분히 현실적일 수 있는가? 둘째, 데이터가 E2E 계획을 이해하고 제어하는 데 중요하다면, 어떻게 이들의 편향을 더 깊이 이해하고 분포 외(out-of-distribution) 시나리오에 대한 일반화 능력을 향상시킬 수 있는가? 본 연구에서는 이러한 질문들을 해결하기 위해 주행 모델과 생성적 세계 모델(Drive&Gen) 간의 간극을 메웁니다. 우리는 E2E 주행 모델을 활용하여 생성된 비디오의 현실성을 평가하는 새로운 통계적 측정 방법을 제안합니다. 비디오 생성 모델의 제어 가능성을 활용하여, E2E 계획 성능에 영향을 미치는 분포 간극을 조사하기 위한 표적 실험을 수행합니다. 마지막으로, 비디오 생성 모델이 생성한 합성 데이터가 실제 데이터 수집에 비해 비용 효율적인 대안이 될 수 있음을 보여줍니다. 이 합성 데이터는 기존 운용 설계 영역(Operational Design Domains)을 넘어 E2E 모델의 일반화를 효과적으로 개선하여, 자율주행 차량 서비스를 새로운 운용 환경으로 확장하는 데 기여합니다.
새로운 최적화 기법들이 주목받고 모델 양자화가 효율적인 배포를 위한 표준으로 자리 잡으면서, 한 가지 핵심적인 질문이 제기됩니다: 양자화가 적용된 상황에서 최적화 기법의 선택이 모델 성능에 어떤 영향을 미치는가? 두 분야 모두에서 진전이 있었음에도 불구하고, 최적화 기법과 양자화 간의 상호작용에 대한 체계적인 증거는 여전히 제한적입니다. 이러한 공백을 메우기 위해, 우리는 양자화 하에서의 모델 견고성에 대한 최적화 기법 선택의 영향을 연구하며, 학습 후 양자화(PTQ)와 양자화 인지 학습(QAT) 모두를 고려합니다. 먼저, 50M에서 1.5B 파라미터에 이르는 정밀도 모델을 여섯 가지 최적화 기법으로 학습시켜 하이퍼파라미터 공간을 탐색하고 잘 조정된 기준선을 확립합니다. 그런 다음 PTQ를 적용하여 다양한 최적화 기법으로 학습된 모델의 성능 저하를 평가합니다. 우리는 최대-대-평균 비율(MMR)과 첨도와 같은 이상치 관련 메트릭들이 서로 다른 최적화 기법들 간의 PTQ 성능을 예측하는 데 실패한다는 것을 발견했습니다. 이를 분석적으로 보여주며, MMR이 단순히 고립된 계층의 오류만을 포착하고 양자화 오류가 네트워크를 통해 누적되고 전파되는 방식을 무시하기 때문임을 밝힙니다. QAT 성능 저하를 연구하기 위해, 양자화된 모델을 처음부터 학습시키고 이를 원래 정밀도의 기준선과 비교합니다. 우리는 원래의 사전 학습 설정에서 잘 수행되었던 최적화 기법들이 QAT 하에서도 최적을 유지하지 못할 수 있으며, Shampoo로 학습된 모델이 가장 낮은 정확도 저하를 보인다는 것을 발견했습니다. 마지막으로, 다양한 최적화 기법 하에서의 양자화 인지 학습에 대한 스케일링 법칙을 도출하며, Shampoo가 테스트된 모든 최적화 기법 중 가장 높은 파라미터 효율성을 달성함을 보여줍니다.
우리는 단일 이미지를 입력으로 받아 다중 뷰 일관성을 갖는 물리 기반 렌더링(PBR) 재질을 예측하는 프레임워크인 Stable Video Materials 3D(SViM3D)를 제안합니다. 최근 비디오 확산 모델(diffusion model)을 사용하여 단일 이미지로부터 3D 객체를 효율적으로 재구성하는 데 성공했지만, 반사율은 여전히 단순한 재질 모델로 표현되거나 재조명 및 외관 제어 편집을 가능하게 하기 위해 추가 단계에서 추정되어야 합니다. 우리는 잠재 비디오 확산 모델을 확장하여 명시적 카메라 제어를 기반으로 생성된 각 뷰와 함께 공간적으로 변화하는 PBR 매개변수와 표면 법선을 동시에 출력하도록 합니다. 이 독특한 설정은 우리의 모델을 신경망 사전(neural prior)으로 사용하여 3D 자산을 생성하고 재조명할 수 있게 합니다. 우리는 이 잘 정의되지 않은 설정에서 품질을 향상시키는 다양한 메커니즘을 이 파이프라인에 도입합니다. 여러 객체 중심 데이터셋에서 최첨단 재조명 및 새로운 뷰 합성 성능을 보여줍니다. 우리의 방법은 다양한 입력에 일반화되어 AR/VR, 영화, 게임 및 기타 시각 매체에서 유용한 재조명 가능한 3D 자산을 생성할 수 있습니다.
핵융합은 신뢰할 수 있고 지속 가능한 에너지 생산을 위한 탐구에서 핵심적인 역할을 합니다. 실현 가능한 핵융합 발전의 주요 장애물은 플라즈마 난류를 이해하는 것인데, 이는 플라즈마 가둠을 크게 저해하며 차세대 원자로 설계에 필수적입니다. 플라즈마 난류는 비선형 자이로키네틱 방정식에 의해 지배되며, 이는 5차원 분포 함수를 시간에 따라 변화시킵니다. 높은 계산 비용으로 인해, 실제로는 에너지의 난류적 수송을 근사하기 위해 축소 모델이 종종 사용됩니다. 그러나 이러한 모델은 완전한 5차원 역학에서만 나타나는 비선형 효과를 생략합니다. 이를 해결하기 위해, 우리는 5차원 비선형 자이로키네틱 시뮬레이션을 모델링할 수 있는 최초의 확장 가능한 5차원 신경망 대리 모델인 GyroSwin을 소개합니다. 이를 통해 축소 모델이 간과한 물리적 현상을 포착하면서도 난류적 열 수송의 정확한 추정치를 제공합니다. GyroSwin은 (i) 계층적 비전 트랜스포머를 5차원으로 확장하고, (ii) 정전기 포텐셜 필드와 분포 함수 간의 잠재적 3D↔5D 상호작용을 위한 교차 주의 및 통합 모듈을 도입하며, (iii) 비선형 물리학에서 영감을 받은 채널별 모드 분리를 수행합니다. 우리는 GyroSwin이 열 플럭스 예측에서 널리 사용되는 축소 수치 기법을 능가하고, 난류적 에너지 캐스케이드를 포착하며, 완전히 해결된 비선형 자이로키네틱의 비용을 3배 이상 줄이면서도 물리적으로 검증 가능함을 보여줍니다. GyroSwin은 10억 개의 파라미터까지 테스트된 유망한 스케일링 법칙을 보여주며, 플라즈마 난류의 자이로키네틱 시뮬레이션을 위한 확장 가능한 신경망 대리 모델의 길을 열어줍니다.
3D 편집 - 3D 자산의 기하학적 구조나 외관을 지역적으로 수정하는 작업 - 은 몰입형 콘텐츠 제작, 디지털 엔터테인먼트, AR/VR 등 다양한 분야에서 폭넓게 활용됩니다. 그러나 2D 편집과 달리, 3D 편집은 시각 간 일관성, 구조적 충실도, 세밀한 제어 가능성 등의 요구로 인해 여전히 어려운 과제로 남아 있습니다. 기존의 접근 방식들은 종종 느리거나 기하학적 왜곡이 발생하기 쉬우며, 오류가 발생하기 쉽고 비실용적인 수동적이고 정확한 3D 마스크에 의존합니다. 이러한 문제를 해결하기 위해 우리는 데이터와 모델 두 가지 측면에서 발전을 이루었습니다. 데이터 측면에서는, 현재까지 가장 큰 규모의 3D 편집 벤치마크인 3DEditVerse를 소개합니다. 이는 116,309개의 고품질 학습 쌍과 1,500개의 선별된 테스트 쌍으로 구성되어 있습니다. 포즈 기반 기하학적 편집과 파운데이션 모델 기반 외관 편집의 상호 보완적인 파이프라인을 통해 구축된 3DEditVerse는 편집의 지역성, 다중 시각 일관성, 그리고 의미론적 정렬을 보장합니다. 모델 측면에서는, 3D 구조를 보존하는 조건부 트랜스포머인 3DEditFormer를 제안합니다. 듀얼-가이던스 어텐션과 시간 적응형 게이팅을 통해 이미지-3D 생성을 강화함으로써, 3DEditFormer는 보존된 구조에서 편집 가능한 영역을 분리하여, 보조 3D 마스크 없이도 정확하고 일관된 편집을 가능하게 합니다. 광범위한 실험을 통해 우리의 프레임워크가 양적 및 질적으로 최신 기술을 능가하며, 실용적이고 확장 가능한 3D 편집의 새로운 표준을 수립함을 입증했습니다. 데이터셋과 코드는 공개될 예정입니다. 프로젝트: https://www.lv-lab.org/3DEditFormer/
타겟 네트워크의 사용은 딥 강화학습(RL)에서 가치 함수를 추정하기 위한 널리 사용되는 접근법입니다. 효과적이기는 하지만, 타겟 네트워크는 안정성을 유지하는 대신 느리게 움직이는 타겟을 사용함으로써 학습 속도를 지연시키는 절충안으로 남아 있습니다. 반면, 온라인 네트워크를 부트스트랩 타겟으로 사용하는 것은 직관적으로 매력적이지만, 학습의 불안정성을 초래한다는 것이 잘 알려져 있습니다. 본 연구에서는 타겟 네트워크와 온라인 네트워크 간의 최소값(MINimum) 추정치를 사용하여 타겟을 계산하는 새로운 업데이트 규칙을 도입함으로써 두 가지 접근법의 장점을 모두 취하고자 합니다. 이를 통해 우리의 방법론인 MINTO를 제안합니다. 이 간단하지만 효과적인 수정을 통해, MINTO는 온라인 네트워크를 부트스트랩에 사용함으로써 발생할 수 있는 과대추정 편향을 완화하여 더 빠르고 안정적인 가치 함수 학습을 가능하게 합니다. 특히, MINTO는 다양한 가치 기반 및 액터-크리틱 알고리즘에 거의 비용 없이 원활하게 통합될 수 있습니다. 우리는 MINTO를 온라인 및 오프라인 RL, 그리고 이산 및 연속적인 행동 공간에 걸친 다양한 벤치마크에서 광범위하게 평가합니다. 모든 벤치마크에서 MINTO는 일관되게 성능을 향상시키며, 그 광범위한 적용 가능성과 효과성을 입증합니다.
대규모의 시각적으로 동질적인 데이터셋으로 훈련된 범용 로봇 정책은 단축 학습(shortcut learning)에 취약할 수 있으며, 이는 분포 외(out-of-distribution, OOD) 일반화를 저해합니다. 생성적 데이터 증강은 다양성을 도입하는 일반적인 접근 방식이지만, 이는 미묘한 과제를 제기합니다: 데이터 구성(data composition) 문제입니다. 실제 데이터와 합성 데이터를 단순히 혼합하는 것은 시각적 다양성을 우선시함으로써 정보 충실도(information fidelity)를 희생시킬 수 있으며, 이는 학습 신호를 손상시킬 수 있습니다. 본 논문은 강력한 일반화가 원칙적이고 충실도 인식 데이터 구성에 달려 있다고 제안합니다. 우리는 데이터 구성을 최적화 문제로 다루는 Coherent Information Fidelity Tuning(CIFT) 프레임워크를 소개합니다. CIFT는 데이터셋의 특징 공간 기하학(feature-space geometry)을 기반으로 정보 충실도의 실용적인 대리 지표를 사용합니다. 이를 통해 훈련 안정성이 저하되는 Decoherence Point(비간섭 점)라는 상전이(phase transition)를 식별할 수 있습니다. 이 프레임워크는 이 조정 과정을 위해 인과적으로 분리된(causally disentangled) 데이터 스펙트럼을 합성하기 위한 생성 엔진인 Multi-View Video Augmentation(MVAug)을 포함합니다. CIFT를 pi_0 및 Diffusion Policy와 같은 정책 아키텍처에 적용한 결과, OOD 성공률이 54% 이상 향상되었습니다. 이러한 결과는 데이터 합성 그 이상의 충실도 인식 구성이 강력한 범용 로봇 개발을 위한 중요한 요소임을 시사합니다.