번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 4D 재구성, 새로운 궤적 비디오 생성, 다양한 다운스트림 응용이 가능한 다목적 4D 월드 모델인 NeoVerse를 제안한다. 우리는 먼저 고비용의 전문적인 다중 뷰 4D 데이터나 복잡한 학습 전처리로 인해 발생하는 현재 4D 월드 모델링 방법의 확장성 한계를 지적한다. 이와 대조적으로 우리의 NeoVerse는 다양한 실제 단안 비디오에 대해 전체 파이프라인의 확장성을 보장하는 핵심 철학에 기반한다. 구체적으로 NeoVerse는 포즈 추정 없이 순전파 방식으로 진행되는 4D 재구성, 온라인 단안 열화 패턴 시뮬레이션 및 이와 잘 정렬된 기법들을 특징으로 한다. 이러한 설계로 NeoVerse는 다양한 도메인에 걸쳐 다용도성과 일반화 성능을 갖춘다. 동시에 NeoVerse는 표준 재구성 및 생성 벤치마크에서 최첨단 성능을 달성한다. 프로젝트 페이지는 https://neoverse-4d.github.io에서 확인할 수 있다.
기존 대규모 언어 모델(LLM) 에이전트 프레임워크는 높은 구성 비용과 정적 능력이라는 두 가지 주요 과제에 직면해 있습니다. 고품질 에이전트 구축에는 도구 통합 및 프롬프트 엔지니어링에 대한 방대한 수동 작업이 필요하며, 배포된 에이전트는 고비용의 미세 조정 없이는 동적 환경에 적응하기 어렵습니다. 이러한 문제를 해결하기 위해 우리는 LLM 에이전트의 자동 생성과 지속적 진화를 위해 설계된 모듈식 프레임워크인 Youtu-Agent를 제안합니다. Youtu-Agent는 실행 환경, 도구 키트, 컨텍스트 관리를 분리하여 유연한 재사용과 자동화된 합성을 가능하게 하는 구조화된 구성 시스템을 특징으로 합니다. 우리는 표준 작업을 위한 Workflow 모드와 복잡한 비표준 요구 사항을 위해 도구 코드, 프롬프트, 구성을 자동으로 생성할 수 있는 Meta-Agent 모드라는 두 가지 생성 패러다임을 도입합니다. 더 나아가 Youtu-Agent는 하이브리드 정책 최적화 시스템을 구축합니다: (1) 에이전트가 매개변수 업데이트 없이 컨텍스트 내 최적화를 통해 경험을 축적하고 성능을 향상시킬 수 있는 Agent Practice 모듈; (2) 분산 훈련 프레임워크와 통합되어 모든 Youtu-Agent의 확장 가능하고 안정적인 엔드투엔드 대규모 강화 학습을 가능하게 하는 Agent RL 모듈. 실험 결과, Youtu-Agent는 오픈 가중치 모델을 사용하여 WebWalkerQA(71.47%)와 GAIA(72.8%)에서 최첨단 성능을 달성함을 보여줍니다. 우리의 자동 생성 파이프라인은 81% 이상의 도구 합성 성공률을 달성한 반면, Practice 모듈은 AIME 2024/2025에서 각각 +2.7%, +5.4%의 성능 향상을 보였습니다. 또한 우리의 Agent RL 훈련은 7B LLM에서 안정적인 성능 향상과 함께 40%의 속도 향상을 달성했으며, 수학 및 일반/다중 홉 QA 벤치마크에서 각각 코딩/추론 및 검색 능력을 최대 35% 및 21% 향상시켰습니다.
토킹 헤드 생성 기술은 정적 초상화로부터 생동감 있는 아바타를 생성하여 가상 커뮤니케이션과 콘텐츠 제작에 활용됩니다. 그러나 현재 모델들은 진정한 상호작용적 소통의 느낌을 전달하지 못하며, 종종 정서적 몰입감이 부족한 일방적인 응답을 생성합니다. 우리는 진정으로 상호작용적인 아바타를 구현하기 위한 두 가지 핵심 과제를 확인했습니다: 인과적 제약 하에서 실시간으로 모션을 생성하는 것과 추가적인 레이블 데이터 없이도 표현력 있고 생동감 있는 반응을 학습하는 것입니다. 이러한 과제를 해결하기 위해 우리는 확산 강제(forcing)를 통해 실시간 사용자-아바타 상호작용을 모델링하는 새로운 상호작용형 헤드 아바타 생성 프레임워크인 Avatar Forcing을 제안합니다. 이 설계를 통해 아바타는 사용자의 음성 및 모션을 포함한 실시간 멀티모달 입력을 낮은 지연 시간으로 처리하여 발화, 끄덕임, 웃음과 같은 언어적 및 비언어적 단서에 즉각적으로 반응할 수 있습니다. 더 나아가, 우리는 사용자 조건을 제거하여 구성된 합성 손실 샘플을 활용하는 직접 선호도 최적화 방법을 도입하여 레이블 없이도 표현력 있는 상호작용을 학습할 수 있도록 합니다. 실험 결과, 우리의 프레임워크는 낮은 지연 시간(약 500ms)으로 실시간 상호작용을 가능하게 하며 기준 모델 대비 6.8배의 속도 향상을 달성했고, 반응적이고 표현력 있는 아바타 모션을 생성하여 기준 모델 대비 80% 이상의 선호도를 얻었습니다.
비전-언어 모델(VLM)은 에이전트 기반 추론을 통해 복잡한 작업을 해결할 수 있지만, 그 능력은 여전히 텍스트 중심의 사고 연쇄 또는 단일 도구 호출에 크게 제한됩니다. 특히 검색 및 이미지 크롭과 같은 조정된 외부 도구가 필요한 지식 집약적이고 시각적으로 복잡한 시나리오에서, 동적인 도구 조작과 지속적인 추론을 인간처럼 원활하게 결합하는 능숙함을 보여주지 못합니다. 본 연구에서는 강화 학습(RL)을 통해 VLM에 인터리빙된 시각 추론 및 도구 사용 능력을 부여하는 새로운 멀티모달 에이전트 추론 및 검색 프레임워크인 SenseNova-MARS를 소개합니다. 구체적으로, SenseNova-MARS는 이미지 검색, 텍스트 검색, 이미지 크롭 도구를 동적으로 통합하여 세분화되고 지식 집약적인 시각 이해 과제를 해결합니다. RL 단계에서는 훈련 안정성을 향상시키고 모델의 도구 호출 및 효과적 추론 능력을 발전시키기 위해 Batch-Normalized Group Sequence Policy Optimization(BN-GSPO) 알고리즘을 제안합니다. 복잡한 시각 작업에 대한 에이전트 VLM을 종합적으로 평가하기 위해, 고해상도 이미지와 지식 집약적이며 검색 중심의 질문으로 구성된 최초의 검색 지향 벤치마크인 HR-MMSearch 벤치마크를 도입했습니다. 실험 결과, SenseNova-MARS는 오픈소스 검색 및 세분화된 이미지 이해 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 구체적으로, 검색 지향 벤치마크에서 SenseNova-MARS-8B는 MMSearch에서 67.84점, HR-MMSearch에서 41.64점을 기록하여 Gemini-3-Flash 및 GPT-5와 같은 독점 모델을 능가했습니다. SenseNova-MARS는 효과적이고 강력한 도구 사용 능력을 제공함으로써 에이전트 VLM 발전을 위한 유망한 단계를 나타냅니다. 해당 분야의 추가 연구를 촉진하기 위해 모든 코드, 모델 및 데이터셋을 공개할 예정입니다.
멀티모달 대규모 언어 모델(MLLMs)은 비디오 이해 분야에서 놀라운 발전을 이루었습니다. 그러나 이러한 모델은 중요한 취약점을 안고 있습니다: 언어 선행 지식에 대한 과도한 의존으로 인해, 특히 상식을 벗어나는 반실제적(counterfactual) 비디오를 처리할 때 시각적 근거가 희박한 환각 현상이 발생할 수 있습니다. 텍스트와 비디오 데이터 간의 본질적인 불균형에서 비롯된 이러한 한계는 반실제적 데이터 수집 및 주석 작업의 상당한 비용 때문에 해결하기 어렵습니다. 이를 해결하기 위해 우리는 통제 가능한 확산 기반 비디오 편집을 통해 실제 비디오를 반실제적 시나리오로 변환하는 새로운 반실제적 데이터 합성 프레임워크인 DualityForge를 소개합니다. 이 프레임워크는 구조화된 맥락 정보를 비디오 편집 및 질의응답 생성 과정에 내재시켜 대조 학습을 위한 원본-편집 비디오 쌍과 함께 고품질의 질의응답 쌍을 자동으로 생성합니다. 이를 바탕으로 MLLM 환각 현상을 줄이기 위해 설계된 대규모 비디오 데이터셋인 DualityVidQA를 구축했습니다. 또한, 우리가 생성한 쌍(pair) 데이터의 대조적 특성을 최대한 활용하기 위해 2단계 SFT-RL 훈련 방식인 Duality-Normalized Advantage Training(DNA-Train)을 제안합니다. 여기서 강화학습 단계는 쌍별(pair-wise) ell_1 이점 정규화를 적용하여 더 안정적이고 효율적인 정책 최적화를 가능하게 합니다. DualityVidQA-Test에 대한 실험 결과, 우리의 방법이 반실제적 비디오에 대한 모델 환각 현상을 상당히 줄여 Qwen2.5-VL-7B 기준선 대비 24.0%의 상대적 개선을 달성함을 보여줍니다. 더 나아가, 우리의 접근 방식은 환각 및 일반 목적 벤치마크 모두에서 유의미한 성능 향상을 이루어 뛰어난 일반화 능력을 입증했습니다. 우리는 데이터셋과 코드를 공개할 예정입니다.
단안 비디오로부터 동적 3D 장면을 재구성하려면 고주파 외관 세부 사항과 시간적 연속 운동을 동시에 포착해야 합니다. 단일 가우시안 프리미티브를 사용하는 기존 방법은 저역통과 필터링 특성에 의해 제한되는 반면, 표준 가버 함수는 에너지 불안정성을 초래합니다. 또한 시간적 연속성 제약의 부재는 보간 시 운동 아티팩트를 유발하는 경우가 많습니다. 우리는 명시적 동적 장면 모델링에서 주파수 적응성과 시간적 연속성 모두를 해결하는 통합 프레임워크인 AdaGaR을 제안합니다. 세부 포착과 안정성의 균형을 위해 학습 가능한 주파수 가중치와 적응형 에너지 보상을 통해 가우시안을 확장하는 Adaptive Gabor Representation을 도입했습니다. 시간적 연속성을 위해 우리는 부드러운 운동 진화를 보장하기 위해 Temporal Curvature Regularization이 적용된 Cubic Hermite Splines을 활용합니다. 깊이 추정, 포인트 추적, 전경 마스크를 결합한 Adaptive Initialization 메커니즘은 초기 학습에서 안정적인 포인트 클라우드 분포를 설정합니다. Tap-Vid DAVIS에서의 실험은 최첨단 성능(PSNR 35.49, SSIM 0.9433, LPIPS 0.0723)과 프레임 보간, 깊이 일관성, 비디오 편집, 스테레오 뷰 합성 전반의 강력한 일반화 능력을 입증했습니다. 프로젝트 페이지: https://jiewenchan.github.io/AdaGaR/
최근 언어 모델 개발을 비롯한 여러 진전이 있었음에도 불구하고, 이러한 모델이 어떻게 지속적으로 학습/기억하고, 자기 개선하며, 효과적인 해결책을 찾아낼 수 있는지에 관한 근본적인 과제와 미해결 질문들이 남아 있습니다. 본 논문에서는 Nested Learning(NL)이라는 새로운 학습 패러다임을 제시합니다. NL은 기계 학습 모델을 각각 고유의 컨텍스트 흐름을 갖는 일련의 중첩된, 다중 수준의, 그리고/또는 병렬 최적화 문제들로 응집력 있게 표현합니다. NL의 관점에서 보면, 기존의 딥러닝 방법들은 자체 컨텍스트 흐름을 압축하며 데이터로부터 학습하며, 대규모 모델에서는 인-컨텍스트 학습이 자연스럽게 나타납니다. NL은 더 많은 수준을 갖춘, 더 표현력이 풍부한 학습 알고리즘을 설계하는 철학을 제안하며, 이는 고차원 인-컨텍스트 학습을 초래하고 효과적인 지속 학습 능력을 잠재적으로 해제할 수 있습니다. 우리는 NL의 타당성을 입증하기 위해 세 가지 핵심 기여를 제시합니다: (1) 표현력丰富的 최적화 도구: Adam, Momentum SGD 등 알려진 경사하강법 기반 최적화 도구들이 사실은 경사하강법을 통해 경사도 정보를 압축하려는 연관 메모리 모듈임을 보여줍니다. 이 통찰을 바탕으로 심층 메모리 및/또는 더 강력한 학습 규칙을 가진 다른 표현력丰富的 최적화 도구들을 제시합니다. (2) 자기 수정 학습 모듈: 학습 알고리즘에 대한 NL의 통찰을 활용하여, 자신의 업데이트 알고리즘을 학습함으로써 스스로를 수정하는 방법을 학습하는 시퀀스 모델을 제시합니다. (3) 연속체 메모리 시스템: 기존의 장기/단기 기억 관점을 일반화하는 새로운 메모리 시스템 공식을 제시합니다. 우리의 자기 수정 시퀀스 모델과 연속체 메모리 시스템을 결합하여 Hope라는 지속 학습 모듈을 선보이며, 언어 모델링, 지식 통합, few-shot 일반화 과제, 지속 학습, 그리고 장문 컨텍스트 추론 과제에서 유망한 결과를 보여줍니다.
딥 잔여 네트워크의 효용성은 본질적으로 항등 숏컷 연결에 기반한다. 이 메커니즘은 기울기 소실 문제를 효과적으로 완화하지만, 특징 변환에 엄격하게 가법적인 귀납적 편향을 부과함으로써 복잡한 상태 전이를 모델링하는 네트워크의 능력을 제한한다. 본 논문에서는 항등 숏컷 연결을 학습 가능하고 데이터에 종속적인 기하학적 변환으로 조절하여 표준 잔여 연결을 일반화하는 새로운 아키텍처인 Deep Delta Learning(DDL)을 소개한다. 델타 연산자라 명명된 이 변환은 반사 방향 벡터 k(X)와 게이트 스칼라 β(X)로 매개변수화된 항등 행렬의 랭크-1 섭동으로 구성된다. 본 연구는 이 연산자에 대한 스펙트럼 분석을 제시하며, 게이트 β(X)가 항등 매핑, 직교 투영, 기하학적 반사 사이의 동적 보간을 가능하게 함을 입증한다. 더 나아가 잔여 업데이트를 동기적 랭크-1 주입으로 재구성하여, 게이트가 기존 정보의 삭제와 새로운 특징의 기록을 모두 제어하는 동적 스텝 크기 역할을 하도록 한다. 이러한 통일화는 네트워크가 계층별 전이 연산자의 스펙트럼을 명시적으로 제어할 수 있게 하여, 게이트 잔여 아키텍처의 안정적인 학습 특성을 보존하면서 복잡한 비단조 동역학을 모델링할 수 있는 능력을 부여한다.
최신 대규모 언어 모델(LLM) 파이프라인은 부트스트랩 방식의 추론 루프에 의존합니다. 즉, 다양한 사고 사슬을 샘플링하고 가장 높은 점수를 받은 사슬을 강화하는 방식으로 주로 정확성 최적화에 중점을 둡니다. 본 연구는 이러한 설계 선택이 어떻게 추론 경로에 대한 모델의 분포 붕괴에 취약한지, 이로 인해 의미론적 엔트로피가 급감하고 창의적 문제 해결이 약화되는지를 분석합니다. 이러한 실패를 분석하기 위해 우리는 분포적 창의적 추론(DCR)을 제안합니다. DCR은 훈련을 해석 추적에 대한 확률 측정값의 경사 흐름으로 전환하는 통일된 변분 목적 함수로, STaR, GRPO, DPO, 엔트로피 보너스 및 기타 방법들이 모두 동일한 손실 함수의 특수한 경우에 해당합니다. 이 프레임워크는 세 가지 핵심 결과를 제공합니다: (i) STaR, GRPO, DPO에 따라 정확성 기반 목적 함수가 각각 다른 방식으로 다양성 감소를 초래하는 것을 설명하는 다양성 감소 정리, (ii) 붕괴를 효과적으로 방지하며 안정적이고 다양한 정책으로의 수렴을 보장하는 설계, (iii) 이를 실질적으로 달성하기 위한 간단하고 실행 가능한 방법론. 따라서 DCR은 정확성과 창의성을 모두 유지하는 LLM을 위한 최초의 원칙적인 방법론을 제시합니다.
최근 연구에 따르면 강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시킬 수 있음이 입증되었습니다. 그러나 이러한 RL 훈련의 효과는 사전 훈련된 모델의 토큰 출력 분포로 정의된 탐색 공간에 크게 의존합니다. 본 논문에서는 표준 교차 엔트로피 손실을 단일 단계 에피소드 내에서 적용된 정책 경사 최적화의 특수한 사례로 해석하여 재조명합니다. 사전 훈련된 분포가 이후 RL을 위한 탐색 가능성을 어떻게 형성하는지 체계적으로 연구하기 위해, 온-정책 RL 원리를 지도 학습에 적용하는 일반화된 사전 훈련 목표를 제안합니다. 다음 토큰 예측을 확률적 결정 과정으로 구성하고, 다양성과 정밀도를 명시적으로 균형 잡는 보상 형성 전략을 도입합니다. 우리의 방법은 실제 정답 토큰에 대한 확률 집중을 제어하는 양의 보상 스케일링 인자와 상위 순위 및 하위 순위 부정적 토큰을 비대칭적으로 처리하는 순위 인식 메커니즘을 사용합니다. 이를 통해 사전 훈련된 토큰 출력 분포를 재구성하고, 어떻게 하면 RL에 더 유리한 탐색 공간을 제공하여 궁극적으로 종단간 추론 성능을 향상시킬 수 있는지 조사합니다. 높은 분포 엔트로피가 효과적인 탐색을 용이하게 한다는 직관과는 반대로, 정밀도 지향 사전 분포를 부과하는 것이 RL에 더 우수한 탐색 공간을 제공한다는 사실을 발견했습니다.
현대 언어 모델의 시퀀스 모델링 계층은 일반적으로 저장 용량과 계산 효율성 사이의 트레이드오프에 직면합니다. Softmax 어텐션은 엄청난 2차 비용으로 무제한 저장 능력을 제공하는 반면, 선형 변형은 효율성을 제공하지만 제한된 고정 크기 저장 용량이라는 한계를 지닙니다. 본 연구에서는 이러한 긴장 관계를 해결하는 새로운 아키텍처인 Fast-weight Product Key Memory(FwPKM)를 제안합니다. FwPKM은 희소 Product Key Memory(PKM)를 정적 모듈에서 동적인 "패스트 웨이트(fast-weight)" 에피소드 메모리로 변환합니다. PKM과 달리, FwPKM은 훈련 및 추론 시점에 로컬 청크 수준 경사 하강법을 통해 매개변수를 동적으로 업데이트하여, 모델이 입력 시퀀스에서 새로운 키-값 쌍을 빠르게 기억하고 검색할 수 있도록 합니다. 실험 결과, FwPKM은 표준 모듈의 의미 메모리를 보완하는 효과적인 에피소드 메모리로 기능하여 장문 컨텍스트 데이터셋에서 현저한 복잡도(perplexity) 감소를 가져옵니다. 특히, Needle in a Haystack 평가에서 FwPKM은 4K-토큰 시퀀스로만 훈련되었음에도 불구하고 128K-토큰 컨텍스트로 일반화되었습니다.
대규모 언어 모델(LLM)은 추론 및 코드 생성 분야에서 상당한 발전을 보여주고 있습니다. 그러나 이러한 능력을 평가하기 위한 새로운 벤치마크를 효율적으로 구축하는 것은 여전히 과제로 남아 있습니다. 기존 벤치마크 구축은 비용과 시간이 많이 소요되는 수동 인간 노력에 의존합니다. 더욱이 기존 벤치마크는 LLM 학습 데이터를 오염시키는 경우가 많아, 모델의 진정한 능력을 정확히 평가하기 위해 새롭고 다양한 벤치마크가 필요합니다. 본 연구에서는 정보 이론 원칙에 기반하여 추론 벤치마크를 자동으로 생성하고 평가하는 새로운 프레임워크인 InfoSynth를 소개합니다. 우리는 비용이 많이 드는 모델 평가에 의존하지 않고 벤치마크의 참신성과 다양성을 정량화하기 위해 KL-발산과 엔트로피를 기반으로 한 메트릭을 제안합니다. 이 프레임워크를 기반으로 유전자 알고리즘과 반복적인 코드 피드백을 사용하여 시드 데이터셋으로부터 강력한 Python 코딩 문제를 합성하는 종단간 파이프라인을 개발합니다. 우리의 방법은 새로운 문제에 대해 97%의 정확도로 정확한 테스트 케이스와 해결책을 생성하며, 합성된 벤치마크는 시드 데이터셋과 비교하여 지속적으로 더 높은 참신성과 다양성을 나타냅니다. 또한 우리의 알고리즘은 생성된 문제의 참신성/다양성과 난이도를 제어하는 방법을 제공합니다. InfoSynth는 LLM을 위한 고품질의 참신하고 다양한 벤치마크를 구축하기 위한 확장 가능하고 자체 검증 가능한 파이프라인을 제공합니다. 프로젝트 페이지: https://ishirgarg.github.io/infosynth_web/
3D 모핑은 특히 범주 간 변형에서 의미론적으로 일관되고 시간적으로 부드러운 변형을 생성하는 어려움으로 인해 여전히 과제로 남아 있습니다. 본 논문에서는 고품질 3D 모핑을 위해 구조화된 잠재 표현(SLAT)을 활용하는 학습 불필요 프레임워크인 MorphAny3D를 제안합니다. 우리의 핵심 통찰은 3D 생성기의 어텐션 메커니즘 내에서 소스와 타겟 SLAT 특징을 지능적으로 혼합하면 자연스러운 모핑 시퀀스가 생성된다는 것입니다. 이를 위해 구조적 일관성을 위해 소스와 타겟 정보를 융합하는 Morphing Cross-Attention(MCA)과 이전 프레임의 특징을 통합하여 시간적 일관성을 향상시키는 Temporal-Fused Self-Attention(TFSA)을 도입했습니다. 또한 방향 보정 전략을 통해 모핑 단계 내 포즈 모호성을 추가적으로 완화합니다. 폭넓은 실험을 통해 본 방법이 까다로운 범주 간 변형 사례에서도 최첨단 모핑 시퀀스를 생성함을 입증했습니다. MorphAny3D는 분리 모핑 및 3D 스타일 변환과 같은 고급 응용을 추가로 지원하며, 다른 SLAT 기반 생성 모델로도 일반화 가능합니다. 프로젝트 페이지: https://xiaokunsun.github.io/MorphAny3D.github.io/.