번역이 포함된 일일 선별된 AI 연구 논문
비디오 파운데이션 모델은 시각적으로 사실적이고 시간적으로 일관된 콘텐츠를 생성하지만, 세계 시뮬레이터로서의 신뢰도는 물리적, 논리적, 공간적 제약 조건을 포착하는지에 달려 있습니다. 프레셰 비디오 거리(FVD)와 같은 기존 지표는 지각적 품질을 강조하지만 인과관계, 물리 법칙, 전역 일관성 위반을 포함한 추론 실패를 간과합니다. 본 연구는 물리, 논리, 3D 공간, 2D 공간, 시간이라는 다섯 가지 추론 능력을 기반으로 한 원칙적인 평가 프레임워크인 MMGR(Multi-Modal Generative Reasoning Evaluation and Benchmark)을 소개합니다. MMGR은 추상 추론(ARC-AGI, 스도쿠), 구현된 내비게이션(실세계 3D 내비게이션 및 위치 추정), 물리적 상식(스포츠 및 구성적 상호작용)이라는 세 가지 영역에 걸쳐 생성적 추론을 평가합니다. MMGR은 비디오와 이미지 생성 모두에 걸친 전체론적 정확성을 요구하는 세분화된 지표를 적용합니다. 우리는 주요 비디오 모델(Veo-3, Sora-2, Wan-2.2)과 이미지 모델(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)을 벤치마크하여 영역별로 현저한 성능 격차를 확인했습니다. 모델들은 물리적 상식 작업에서는 어느 정도 성공을 보였지만, 추상 추론(ARC-AGI 정확도 10% 미만)에서는 낮은 성능을 보였으며 구현된 환경에서 장기간의 공간 계획에는 어려움을 겪었습니다. 우리의 분석은 지각 데이터에 대한 과도한 의존, 약한 전역 상태 일관성, 인과적 정확성보다 시각적 타당성을 보상하는 목적 함수 등 현재 모델의 주요 한계를 부각합니다. MMGR은 통합 진단 벤치마크이자 추론을 고려한 생성적 세계 모델로 나아가는 길을 제시합니다.
본 논문은 실시간 인터랙티브 월드 모델링과 장기 기하학적 일관성을 가능하게 하는 스트리밍 비디오 확산 모델인 WorldPlay를 제안한다. 이는 기존 방법론을 제한하던 속도와 메모리 간의 트레이드오프를 해결한다. WorldPlay는 세 가지 핵심 혁신에서 그 힘을 얻는다. 1) 사용자의 키보드 및 마우스 입력에 대한 강력한 액션 제어를 가능하게 하는 이중 액션 표현(Dual Action Representation)을 사용한다. 2) 장기 일관성을 확보하기 위해, 재구성 컨텍스트 메모리(Reconstituted Context Memory)가 과거 프레임으로부터 컨텍스트를 동적으로 재구축하고, 시간적 리프레이밍(temporal reframing)을 통해 기하학적으로 중요하지만 오래전의 프레임에 접근할 수 있게 하여 메모리 감쇠를 효과적으로 완화한다. 3) 또한 메모리 인식 모델을 위해 설계된 새로운 지식 증류 방법인 컨텍스트 강제(Context Forcing)를 제안한다. 교사 모델과 학생 모델 간의 메모리 컨텍스트를 정렬함으로써 학생 모델이 장거리 정보를 활용하는 능력을 보존하여, 실시간 속도를 달성하면서도 오류 드리프트(error drift)를 방지한다. 종합적으로, WorldPlay는 우수한 일관성으로 24 FPS의 720p 장기간 스트리밍 비디오를 생성하며, 이는 기존 기술과 비교하여 유리하고 다양한 장면에서 강력한 일반화 능력을 보여준다. 프로젝트 페이지와 온라인 데모는 https://3d-models.hunyuan.tencent.com/world/ 및 https://3d.hunyuan.tencent.com/sceneTo3D에서 확인할 수 있다.
최근 비디오 생성 기술의 발전으로 실사와 구분하기 어려운 생생한 콘텐츠가 등장하면서, AI 생성 비디오 탐지는 새로운 사회적 과제로 대두되고 있습니다. 기존 AIGC 탐지 벤치마크는 대체로 오디오가 없는 비디오를 평가하고, 광범위한 서사 영역을 대상으로 하며, 단순 분류에 집중해 왔습니다. 그러나 최첨단 비디오 생성 모델이 인간과 시각언어모델(VLM)을 안정적으로 속일 수 있는 몰입감 있는 오디오 결합 비디오를 생성할 수 있는지 여부는 여전히 불분명합니다. 이를 위해 우리는 긴밀한 시청각 결합 하에서 지각적 현실감을 테스트하기 위한 ASMR 기반 비디오 벤치마크 제품군인 Video Reality Test를 소개합니다. 이는 다음과 같은 특징을 가집니다: (i) 몰입형 ASMR 비디오-오디오 소스. 신중하게 선별된 실제 ASMR 비디오를 기반으로 하는 이 벤치마크는 객체, 동작, 배경에 걸쳐 다양성을 갖춘 세분화된 행동-객체 상호작용을 대상으로 합니다. (ii) 동료 평가(Peer-Review). 비디오 생성 모델은 검토자를 속이려는 생성자 역할을 하고, VLM은 위조를 식별하려는 검토자 역할을 하는 적대적 생성자-검토자 프로토콜입니다. 우리의 실험 결과는 다음과 같습니다: 가장 우수한 생성자인 Veo3.1-Fast는 대부분의 VLM을 속일 정도이며, 가장 강력한 검토자(Gemini 2.5-Pro)는 56%의 정확도(무작위 50%)에 그쳐 인간 전문가(81.25%)의 성능보다 훨씬 낮습니다. 오디오를 추가하면 진위 판별이 개선되지만, 워터마크와 같은 피상적 단서는 여전히 모델을 크게 오도할 수 있습니다. 이러한 결과는 비디오 생성 현실감의 현재 한계를 규명하고, VLM의 지각적 정확도와 시청각 일관성 측면의 한계를 드러냅니다. 우리의 코드는 https://github.com/video-reality-test/video-reality-test에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 급속한 발전은 사후 훈련 데이터셋의 품질과 다양성에 기반합니다. 그러나 중요한 이분법이 지속되고 있습니다: 모델은 엄격하게 벤치마킹되는 반면, 이를 추동하는 데이터는 불투명한 구성, 불확실한 출처, 체계적 평가의 부재로 특징지어지는 블랙박스 상태로 남아 있습니다. 이러한 불투명성은 재현성을 저해하고 데이터 특성과 모델 동작 간의 인과 관계를 흐리게 합니다. 이러한 격차를 해소하기 위해 우리는 사후 훈련 데이터의 본질적 가치를 벤치마킹하기 위한 종합적이고 개방형 플랫폼인 OpenDataArena(ODA)를 소개합니다. ODA는 네 가지 핵심 요소로 구성된 포괄적인 생태계를 구축합니다: (i) 다양한 모델(예: Llama, Qwen)과 도메인 간의 공정하고 개방된 비교를 보장하는 통합 훈련-평가 파이프라인; (ii) 수십 개의 독립적인 축을 따라 데이터 품질을 프로파일링하는 다차원 점수 체계; (iii) 데이터셋 계보를 시각화하고 구성 요소 출처를 분석하는 인터랙티브 데이터 계보 탐색기; (iv) 데이터 연구를 촉진하기 위한 훈련, 평가, 점수 부여용 완전 오픈소스 툴킷. ODA에서 수행한 광범위한 실험(22개 벤치마크에서 여러 도메인에 걸친 120개 이상의 훈련 데이터셋을 포함하며, 600회 이상의 훈련 실행과 4천만 개 이상의 처리된 데이터 포인트로 검증됨)은 중대한 통찰력을 보여줍니다. 우리의 분석은 데이터 복잡성과 과제 성과 간의 내재적 트레이드오프를 발견하고, 계보 추적을 통해 인기 벤치마크의 중복성을 확인하며, 데이터셋 간의 계보적 관계를 매핑합니다. 우리는 모든 결과, 도구 및 구성을 공개하여 고품질 데이터 평가에 대한 접근을 민주화합니다. ODA는 단순히 리더보드를 확장하는 것을 넘어, 시행착오식 데이터 큐레이션에서 원칙 기반의 데이터 중심 AI 과학으로의 전환을 지향하며, 데이터 혼합 법칙과 기초 모델의 전략적 구성에 대한 엄격한 연구의 길을 열어갑니다.
주체 기반 이미지 생성은 단일 주체 구성에서 다중 주체 구성으로 발전해왔지만, 입력에 여러 후보가 포함될 때 정확한 주체를 식별하고 생성하는 능력인 구별성을 간과해왔습니다. 이러한 한계는 복잡하고 현실적인 시각 환경에서의 효과성을 제약합니다. 우리는 구성과 구별성을 통합한 통합 이해-생성 방법론인 Scone을 제안합니다. Scone은 이해 전문가가 의미론적 교량 역할을 수행하여 의미 정보를 전달하고, 생성 전문가가 주체 정체성을 보존하면서 간섭을 최소화하도록 안내합니다. 2단계 학습 방식을 통해 먼저 구성을 학습한 다음, 의미 정렬과 주의 기반 마스킹을 통해 구별성을 향상시킵니다. 또한 다양한 시나리오에서 구성과 구별성을 모두 평가하기 위한 벤치마크 SconeEval을 소개합니다. 실험 결과 Scone은 두 벤치마크에서 구성 및 구별성 작업에서 기존 오픈소스 모델들을 능가하는 성능을 보였습니다. 우리의 모델, 벤치마크 및 학습 데이터는 https://github.com/Ryann-Ran/Scone에서 이용 가능합니다.
공간 추적은 로봇의 기본적인 구체화 상호작용 능력으로, 다단계 미터법 기반 추론과 복잡한 공간 참조 및 실제 세계 미터법 측정이 결합되어야 하기 때문에 본질적으로 어려운 과제입니다. 그러나 기존 방법론들은 이러한 구성적 과제에 효과적으로 대응하지 못하고 있습니다. 이를 위해 우리는 RoboTracer를 제안합니다. RoboTracer는 지도 미세 조정(SFT) 과정에서 규모 인식을 향상시키기 위해 범용 공간 인코더와 회귀 지도 디코더를 통해 3D 공간 참조와 측정을 동시에 달성하는 최초의 3D 인식 VLM(Vision-Language Model)입니다. 더 나아가 RoboTracer는 미터법 민감도 과정 보상을 통한 강화 미세 조정(RFT)을 통해 다단계 미터법 기반 추론을 발전시켜, 핵심 중간 지각 단서를 지도하여 정확한 공간 궤적을 생성하도록 합니다. SFT와 RFT 학습을 지원하기 위해 우리는 실외/실내/탁상 장면을 아우르고 최대 9단계에 이르는 복잡한 추론 과정을 지원하는 30M QA 쌍으로 구성된 대규모 데이터셋 TraceSpatial를 소개합니다. 또한 공간 추적 평가의 공백을 메우는 도전적인 벤치마크 TraceSpatial-Bench를 제시합니다. 실험 결과, RoboTracer는 공간 이해, 측정, 참조에 있어 기준 모델들을 능가하며 평균 성공률 79.1%를 기록했고, TraceSpatial-Bench에서도 Gemini-2.5-Pro를 36% 정확도로 크게 앞선 SOTA 성능을 달성했습니다. 특히 RoboTracer는 다양한 제어 정책과 통합되어 복잡한 실제 세계 장면에서 다양한 로봇(UR5, G1 휴머노이드)에 걸친 장기적이고 동적인 작업을 수행할 수 있습니다.
강화 학습(RL)을 통한 범용 추론 모델 구축은 추론 시 응답 길이와 검증 지연 시간의 큰 변동을 포함하여 상당한 영역 간 이질성을 수반합니다. 이러한 변동성은 RL 인프라를 복잡하게 만들고 훈련 속도를 저하시키며, 훈련 커리큘럼(예: 응답 길이 확장)과 하이퍼파라미터 선택을 어렵게 합니다. 본 연구에서는 지시 및 심층 사고 모드 모두에서 작동 가능한 범용 추론 모델 Nemotron-Cascade를 개발하기 위해 계단식 영역별 강화 학습(Cascade RL)을 제안합니다. 서로 다른 영역의 이질적인 프롬프트를 혼합하는 기존 접근법과 달리, Cascade RL은 순차적이고 영역별 RL을 조정하여 엔지니어링 복잡성을 줄이고 다양한 벤치마크에서 최첨단 성능을 제공합니다. 특히, 정렬을 위한 RLHF는 선행 단계로 사용될 때 모델의 추론 능력을 단순한 선호도 최적화를 훨씬 넘어서 향상시키며, 이후의 영역별 RLVR 단계는 이전 영역에서 달성한 벤치마크 성능을 거의 저하시키지 않으며 오히려 개선할 수도 있습니다(그림 1 참조). RL을 거친 우리의 14B 모델은 LiveCodeBench v5/v6/Pro에서 SFT 교사 모델인 DeepSeek-R1-0528을 능가하며 2025년 국제 정보 올림피아드(IOI)에서 은메달 수준의 성능을 달성했습니다. 우리는 훈련 및 데이터 레시피를 투명하게 공유합니다.
확장 가능 벡터 그래픽스(SVG)는 현대 웹 디자인의 핵심 요소이며, 웹 환경이 점점 더 동적으로 변함에 따라 이를 애니메이션화하려는 수요도 지속적으로 증가하고 있습니다. 그러나 코드 생성 및 모션 계획 분야의 최근 발전에도 불구하고, 벡터 그래픽스 애니메이션 자동화는 비전-언어 모델(VLM)에게 여전히 어려운 과제로 남아 있습니다. VLM은 시각적으로 일관된 부분들이 종종 낮은 수준의 도형으로 분할되어 어떤 요소들이 함께 움직여야 하는지에 대한 지침을 거의 제공하지 않기 때문에 SVG를 정기적으로 잘못 처리합니다. 본 논문에서는 신뢰할 수 있는 SVG 애니메이션에 필요한 의미론적 구조를 복원하고 현재 VLM 시스템이 간과하고 있는 누락된 계층을 밝히는 프레임워크를 소개합니다. 이는 여러 약한 부분 예측들의 통계적 집합을 통해 달성되며, 시스템이 노이즈가 있는 예측에서 안정적으로 의미를 추론할 수 있게 합니다. SVG를 의미론적 그룹으로 재구성함으로써, 우리의 접근 방식은 VLM이 훨씬 더 일관성 있는 애니메이션을 생성할 수 있도록 합니다. 우리의 실험은 기존 접근법 대비 상당한 향상을 입증하며, 의미론적 복원이 강력한 SVG 애니메이션을 가능하게 하고 VLM과 벡터 그래픽스 간의 더 해석 가능한 상호작용을 지원하는 핵심 단계임을 시사합니다.
스트리밍 비디오 생성의 핵심 과제는 장문 콘텍스트에서 내용 일관성을 유지하는 것으로, 이는 메모리 설계에 높은 요구 사항을 제기합니다. 기존 대부분의 솔루션은 미리 정의된 전략으로 과거 프레임을 압축하여 메모리를 유지합니다. 그러나 생성 대상 비디오 청크마다 참조해야 할 과거 단서가 다르기 때문에 고정된 전략으로는 이를 충족하기 어렵습니다. 본 연구에서는 이 문제를 해결하기 위해 MemFlow를 제안합니다. 구체적으로, 다음 청크를 생성하기 전에 해당 청크의 텍스트 프롬프트와 가장 관련성 높은 과거 프레임을 검색하여 메모리 뱅크를 동적으로 업데이트합니다. 이 설계는 향후 프레임에서 새로운 이벤트가 발생하거나 장면이 전환되더라도 내러티브의 일관성을 가능하게 합니다. 또한 생성 과정에서 어텐션 레이어의 각 쿼리마다 메모리 뱅크에서 가장 관련된 토큰만 활성화하여 생성 효율성을 효과적으로 보장합니다. 이를 통해 MemFlow는 미미한 계산 부담(메모리 없는 기준 대비 7.9% 속도 저하)으로 우수한 장문 콘텍스트 일관성을 달성하며, KV 캐시를 사용하는 모든 스트리밍 비디오 생성 모델과의 호환성을 유지합니다.
우리는 70억 개와 320억 개의 매개변수 규모를 가진 최첨단 완전 오픈 언어 모델 패밀리인 Olmo 3을 소개합니다. Olmo 3 모델은 장문 컨텍스트 추론, 함수 호출, 코딩, 지시 따르기, 일반 채팅, 지식 회상 등을 목표로 설계되었습니다. 이번 출시에는 모델 구축에 사용된 모든 단계, 체크포인트, 데이터 포인트, 종속성을 포함한 모델 패밀리의 전체 수명주기, 즉 모델 흐름 전체가 포함됩니다. 우리의 주력 모델인 Olmo 3 Think 32B는 현재까지 공개된 완전 오픈 사고 모델 중 가장 강력한 성능을 자랑합니다.
고차원 공간에서의 벡터 유사도 검색(VSS)은 대규모 언어 모델의 임베딩 조회부터 의미 기반 정보 검색 및 추천 엔진에 이르기까지 수많은 데이터 집약적 서비스에서 차세대 데이터베이스 시스템의 핵심 기능으로 빠르게 부상하고 있습니다. 그러나 현재 벡터 유사도 검색 벤치마크는 주로 거리 메트릭만으로 정의된 기준값에 대한 재현율-지연 시간 트레이드오프 위주로 평가되어, 검색 품질이 최종적으로 다운스트림 작업에 미치는 영향을 간과하고 있습니다. 이러한 괴리는 학술 연구와 산업 현장 모두를 오도할 수 있습니다. 본 논문에서는 현실적인 애플리케이션 맥락에서 벡터 유사도 검색 방법을 종단 간 평가하기 위한 종합 벤치마크 제품군인 Iceberg를 소개합니다. Iceberg는 작업 중심 관점에서 종단 간 성능 저하의 세 가지 주요 원인, 즉 (1) 특징 추출 과정의 임베딩 손실, (2) 거리 메트릭이 작업 관련성을 제대로 반영하지 못하는 메트릭 오용, (3) 데이터 분포 왜곡 및 다양한 모달리티에서 인덱스 견고성을 강조하는 데이터 분포 민감도를 규명하는 정보 손실 깔대기를 제시합니다. 보다 포괄적인 평가를 위해 Iceberg는 이미지 분류, 얼굴 인식, 텍스트 검색, 추천 시스템 등 주요 영역에서 8가지 다양한 데이터셋을 아우릅니다. 100만에서 1억 개에 이르는 벡터로 구성된 각 데이터셋은 풍부한 작업 특화 레이블과 평가 메트릭을 포함하여 검색 알고리즘을 분리된 상태가 아닌 전체 애플리케이션 파이프라인 내에서 평가할 수 있게 합니다. Iceberg는 13가지 최신 벡터 유사도 검색 방법을 벤치마크하고 애플리케이션 수준 메트릭을 기준으로 재순위화하며, 기존의 재현율-지연 시간 평가만으로 도출된 순위와 현저한 차이가 있음을 보여줍니다. 이러한 통찰을 바탕으로 작업 중심 메타 특징 세트를 정의하고 해석 가능한 의사 결정 트리를 도출하여 실무자가 특정 워크로드에 맞게 벡터 유사도 검색 방법을 선택하고 튜닝하는 데 도움을 주고자 합니다.
효과적인 보상 함수 설계는 복잡한 추론 작업을 수행하는 자율 에이전트 개발 시 특히, 강화 학습(RL)에서 핵심적이면서도 흔히 어려운 과제로 남아있다. 자동화된 보상 최적화 방법이 존재하지만, 이들은 일반적으로 보상 함수를 블랙박스로 취급하는 유전적 휴리스틱 같은 도함수 없는 방식을 사용하여 보상 구조와 작업 성능 간의 인과관계를 포착하지 못한다. 이러한 간극을 해소하기 위해 우리는 최적의 보상 신호를 자율적으로 발견할 수 있는 이중 수준 프레임워크인 DERL(Differentiable Evolutionary Reinforcement Learning)을 제안한다. DERL에서는 메타 최적화기가 구조화된 원자적 기본 요소들을 조합하여 보상 함수(즉, 메타 보상)를 진화시키며, 내부 루플 정책의 학습을 안내한다. 중요한 점은 기존 진화 방식과 달리, DERL의 메타 최적화 과정은 미분 가능하다는 것이다. 이는 내부 루플 검증 성능을 신호로 삼아 메타 최적화기를 강화 학습을 통해 업데이트한다. 이를 통해 DERL은 작업 성공에 대한 "메타 기울기"를 근사화하여, 점차적으로 더 밀집되고 실행 가능한 피드백을 생성하는 법을 학습한다. 우리는 DERL을 로봇 에이전트(ALFWorld), 과학 시뮬레이션(ScienceWorld), 수학적 추론(GSM8k, MATH)이라는 세 가지 상이한 영역에서 검증하였다. 실험 결과, DERL은 ALFWorld와 ScienceWorld에서 최첨단 성능을 달성했으며, 특히 분포 외 시나리오에서 휴리스틱 보상에 의존하는 방법들을 크게 능가하는 것으로 나타났다. 진화 궤적에 대한 분석은 DERL이 작업의 내재적 구조를 성공적으로 포착하여 인간의 개입 없이 자기 개선적인 에이전트 정렬을 가능하게 함을 보여준다.
본 논문은 새로운 방법론을 제안하기보다 비디오 이해의 핵심 능력인 비디오 시간적 근방화(VTG)를 위한 직관적이고 점진적이지만 필수적인 기준선을 확립한다. 다중모드 대형 언어 모델(MLLM)이 다양한 비디오 이해 과제에서 뛰어난 성능을 보이지만, VTG에 특화된 최적화 방법론은 아직 충분히 연구되지 않았다. 본 연구에서는 데이터 품질과 알고리즘 설계라는 두 가지 주요 차원에서 강력한 VTG 능력을 갖춘 MLLM 구축을 체계적으로 탐구한 TimeLens를 제시한다. 먼저 기존 VTG 벤치마크의 심각한 품질 문제를 지적하고, 엄격한 품질 기준으로 세 가지 인기 벤치마크를 신중하게 재주석한 TimeLens-Bench를 소개한다. 분석 결과, 기존 벤치마크 대비 모델 순위가 극적으로 변동하여 과거 평가 기준의 신뢰성 부족을 확인했다. 또한 자동화된 재주석 파이프라인을 통해 노이즈가 많은 학습 데이터를 개선하여 대규모 고품질 학습 데이터셋인 TimeLens-100K를 구축했다. 이러한 데이터 기반 위에 알고리즘 설계 원칙에 대한 심층 탐구를 진행하여 일련의 의미 있는 통찰과 효과적이면서 효율적인 실천 방안을 도출했다. 여기에는 시간 표현을 위한 교차 텍스트 인코딩, 검증 가능한 보상 기반 강화 학습(RLVR)을 훈련 패러다임으로 한 사고-무관 접근법, RLVR 훈련을 위한 신중하게 설계된 방법론 등이 포함된다. 이러한 노력의 결과로 오픈소스 모델 중 최첨단 VTG 성능을 보유하며 GPT-5 및 Gemini-2.5-Flash와 같은 독점 모델을 능가하는 TimeLens 모델군을 개발했다. 향후 연구를 지원하기 위해 모든 코드, 데이터 및 모델을 공개할 예정이다.
기존 생성 모델과 통합 모델은 일반적인 이미지 생성에서는 뛰어난 성능을 보이지만, 일반적인 시나리오를 넘어서는 심층 추론, 계획 수립, 정밀한 데이터-시각적 매핑 능력을 요구하는 과제에서는 한계를 보입니다. 이러한 기존 한계를 극복하기 위해 우리는 새로운 도전 과제인 창의적 테이블 시각화를 제안합니다. 이는 주어진 테이블의 데이터를 정확하고 미학적으로 시각화한 인포그래픽을 생성해야 하는 과제입니다. 이 문제를 해결하기 위해 우리는 MLLM과 확산 모델을 점진적 자체 수정 과정을 통해 협력하는 ShowTable 파이프라인을 제안합니다. MLLM은 시각적 계획을 추론하고 시각적 오류를 판단하여 정제된 지시를 제공하는 중앙 조정자 역할을 하며, 확산 모델은 MLLM의 명령을 실행하여 높은 정확도의 결과를 달성합니다. 이 과제와 우리 파이프라인을 지원하기 위해 서로 다른 모듈 훈련을 위한 세 가지 자동화된 데이터 구축 파이프라인을 도입했습니다. 더 나아가 이 과제의 성능을 평가하기 위해 5가지 평가 차원과 800개의 도전적인 인스턴스로 구성된 새로운 벤치마크인 TableVisBench를 소개합니다. 실험 결과, 서로 다른 모델로 구현된 우리의 파이프라인이 기준선을 크게 능가하며, 효과적인 다중 모달 추론, 생성 및 오류 수정 능력을 입증했습니다.
대규모 언어 모델(LLM)은 추천 시스템을 암묵적 행동 패턴 매칭에서 명시적 의도 추론으로 전환하는 데 있어 놀라운 잠재력을 보여주고 있습니다. RecGPT-V1이 LLM 기반 추론을 사용자 관심사 발굴 및 아이템 태그 예측에 통합함으로써 이 패러다임을 성공적으로 선도했지만, 다음과 같은 네 가지 근본적인 한계가 존재합니다: (1) 다중 추론 경로 간의 계산 비효율성 및 인지 중복성; (2) 고정 템플릿 생성으로 인한 설명 다양성 부족; (3) 지도 학습 패러다임 하에서의 제한된 일반화 성능; (4) 인간 수준에 미치지 못하는 결과 중심의 단순한 평가 방식. 이러한 과제를 해결하기 위해 네 가지 핵심 혁신을 담은 RecGPT-V2를 제안합니다. 첫째, 계층적 다중 에이전트 시스템은 조정된 협력을 통해 의도 추론 구조를 재구성하여 인지적 중복을 제거하면서도 다양한 의도 범위를Coverage 가능하게 합니다. 사용자 행동 컨텍스트를 압축하는 하이브리드 표현 추론과 결합된 우리의 프레임워크는 GPU 소비를 60% 절감하고 독점 재현율을 9.39%에서 10.99%로 향상시켰습니다. 둘째, 메타 프롬프팅 프레임워크는 컨텍스트에 적응적으로 동작하는 프롬프트를 생성하여 설명 다양성을 +7.3% 개선합니다. 셋째, 제약 조건이 있는 강화 학습은 다중 보상 간 충돌을 완화하여 태그 예측에서 +24.1%, 설명 수용도에서 +13.0%의 향상을 달성했습니다. 넷째, 에이전트 기반 평가 프레임워크는 평가를 다단계 추론으로 분해하여 인간 선호도와의 일치도를 높입니다. 타오바오에서 진행된 온라인 A/B 테스트는 유의미한 개선을 입증했습니다: +2.98% CTR, +3.71% IPV, +2.19% TV, +11.46% NER. RecGPT-V2는 대규모 LLM 기반 의도 추론 시스템의 기술적 실현 가능성과 상업적 타당성을 모두 입증하며 인지적 탐색과 산업적 효용 간의 간극을 메웁니다.
확산 언어 모델(dLM)은 병렬 비자회귀적 생성을 가능하게 하는 유망한 패러다임으로 부상했지만, 처음부터 훈련시켰을 때의 학습 효율성은 자회귀적(AR) 언어 모델에 뒤처집니다. 이를 위해 우리는 사전 훈련된 AR 모델을 AR 모델의 과제 정확도를 유지하면서 속도 면에서 뛰어난 효율적인 dLM으로 변환하는 AR-to-dLM 변환을 연구합니다. 우리는 기존 AR-to-dLM 방법들의 어텐션 패턴과 목적 함수의 한계를 규명한 후, 보다 효과적인 AR-to-dLM 변환을 위한 원칙과 방법론을 제안하여 이를 달성합니다. 구체적으로, 우리는 먼저 다양한 어텐션 패턴을 체계적으로 비교하고 사전 훈련된 AR 가중치 분포를 유지하는 것이 효과적인 AR-to-dLM 변환에 중요함을 발견했습니다. 이에 따라 우리는 블록 내에서는 양방향 모델링을 가능하게 하면서도 블록 간에는 인과적 관계를 유지하는 블록 단위 어텐션 패턴과 함께 지속적 사전 훈련 방식을 도입합니다. 우리는 이 접근법이 알려진 KV 캐싱 가능성이라는 장점에 더해, 완전한 양방향 모델링보다 사전 훈련된 AR 모델의 가중치 분포를 더 잘 보존하며 정확도와 효율성에서 상생 효과를 가져옴을 확인했습니다. 둘째, 마스크 토큰 분포(훈련 시 균일 vs. 추론 시 높은 좌-우 방향성)의 훈련-추론 간격을 완화하기 위해, 훈련 시 후반부 토큰에 더 높은 마스킹 확률을 할당하여 추론 시 행동을 더 잘 모방하는 위치 의존적 토큰 마스킹 전략을 제안합니다. 이 프레임워크를 활용하여 우리는 dLM의 어텐션 패턴, 훈련 동역학 및 기타 설계 선택 사항에 대한 광범위한 연구를 수행하여 확장 가능한 AR-to-dLM 변환에 대한 실질적인 통찰을 제공합니다. 이러한 연구를 통해 확립된 Efficient-DLM 패밀리는 최첨단 AR 모델 및 dLM을 능가하며, 예를 들어 우리의 Efficient-DLM 8B는 Dream 7B 및 Qwen3 4B 대비 각각 4.5배/2.7배 높은 처리량으로 +5.4%/+2.7% 더 높은 정확도를 달성합니다.
이미지-3D 변환 기술의 최근 발전은 디자인, AR/VR, 로보틱스 분야에 막대한 가능성을 열었습니다. 그러나 AI 생성 3D 자산을 실제 응용 프로그램에 사용하기 위해서는 이를 쉽게 편집할 수 있는 능력이 핵심 요구사항입니다. 본 연구에서는 이미지-3D 모델에 텍스트 제어 기능을 추가하여 생성된 3D 자산을 언어로 편집할 수 있게 하는 순전파(Feedforward) 방식의 Steer3D를 제안합니다. 우리의 접근법은 ControlNet에서 영감을 받아 이미지-3D 생성에 적용하여 순전파 과정에서 직접 텍스트 제어를 가능하게 합니다. 자동 데이터 생성을 위한 확장 가능한 데이터 엔진을 구축하고, 흐름 일치(Flow-Matching) 학습과 직접 선호도 최적화(DPO)를 기반으로 한 2단계 학습 방법을 개발했습니다. 경쟁 방법과 비교했을 때 Steer3D는 언어 명령을 더 충실히 따르고 원본 3D 자산과의 일관성을 더 잘 유지하며, 2.4배에서 28.5배 더 빠른 성능을 보입니다. Steer3D는 10만 개의 데이터로 사전 학습된 이미지-3D 생성 모델의 생성을 제어하기 위한 새로운 양식(텍스트)을 추가할 수 있음을 입증합니다. 프로젝트 웹사이트: https://glab-caltech.github.io/steer3d/
SS4D는 단안 비디오에서 동적인 3D 객체를 직접 합성하는 네이티브 4D 생성 모델을 제안합니다. 3D 또는 비디오 생성 모델을 최적화하여 4D 표현을 구성하는 기존 접근법과 달리, 우리는 4D 데이터에 대해 생성기를 직접 학습시켜 높은 정확도, 시간적 일관성 및 구조적 일관성을 달성합니다. 우리 방법의 핵심은 압축된 구조화된 시공간 잠재 공간 집합입니다. 구체적으로, (1) 4D 학습 데이터의 부족 문제를 해결하기 위해 사전 학습된 단일 이미지-3D 변환 모델을 기반으로 하여 강력한 공간 일관성을 유지합니다. (2) 프레임 간 관계를 추론하는 전용 시간 계층을 도입하여 시간적 일관성을 강화합니다. (3) 긴 비디오 시퀀스에 대한 효율적인 학습과 추론을 지원하기 위해 인수분해된 4D 합성곱과 시간적 다운샘플링 블록을 사용해 시간 축을 따라 잠재 시퀀스를 압축합니다. 또한, 폐색에 대한 강건성을 향상시키기 위해 신중하게 설계된 학습 전략을 사용합니다.
대규모 언어 모델(LLM)의 급속한 확장은 놀라운 성능을 달성했지만, 이로 인해 메모리 비용이 급증하는 문제도 발생시켰습니다. 기존의 매개변수 효율적 접근법(예: 가지치기, 양자화)은 주로 사전 학습된 모델을 압축하는 데 그쳐 기본 모델의 표현 능력 상한선에 한계를 보입니다. 본 연구에서는 고정된 매개변수 예산 내에서 폭과 깊이 차원 모두에서 매개변수의 유연한 재사용을 가능하게 하는 새로운 피드포워드 네트워크(FFN)인 VersatileFFN을 제안합니다. 인지의 이중 과정 이론에서 영감을 받은 VersatileFFN은 두 가지 적응형 경로로 구성됩니다: 첫째, 매개변수 증가 없이 희소 전문가 라우팅을 모방하여 단일 공유 FFN에서 하위 전문가 혼합을 생성하는 폭 가변 경로, 둘째, 복잡한 토큰에 대해 더 깊은 처리를 모방하기 위해 동일한 FFN을 재귀적으로 적용하는 깊이 가변 경로입니다. 난이도 인식 게이팅은 두 경로를 동적으로 균형 잡아, "쉬운" 토큰은 효율적인 폭 방향 경로로 유도하고 "어려운" 토큰에는 더 깊은 반복적 정교화를 할당합니다. 중요한 것은 두 경로 모두 동일한 매개변수를 재사용하므로 모든 추가 능력은 메모리가 아닌 계산에서 비롯된다는 점입니다. 다양한 벤치마크와 모델 규모에서의 실험을 통해 이 방법의 효과성을 입증하였습니다. 코드는 https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN에서 공개될 예정입니다.
어포던스 예측은 언어 지시에 기반하여 객체 상호작용 영역을 식별하는 기술로, 구현형 AI에서 중요한 역할을 합니다. 기존의 종단간(end-to-end) 모델들은 고수준 추론과 저수준 접지(grounding)를 단일 파이프라인으로 결합하고 주석 처리된 데이터셋에 의존한 학습을 통해 접근함으로써, 새로운 객체나 보지 않은 환경에서의 일반화 성능이 낮은 한계를 보였습니다. 본 논문에서는 이러한 패러다임을 넘어 어포던스 예측을 3단계 파이프라인으로 분리하는 학습 불필요형 에이전트 프레임워크인 A4-Agent를 제안합니다. 우리의 프레임워크는 테스트 단계에서 특화된 파운데이션 모델들을 조율합니다: (1) 생성 모델을 활용하여 상호작용 결과를 시각화하는 '드리머(Dreamer)', (2) 대규모 시각-언어 모델을 이용해 어떤 객체 부위와 상호작용할지 결정하는 '씽커(Thinker)', (3) 시각 파운데이션 모델을 조정하여 상호작용 영역의 정확한 위치를 파악하는 '스포터(Spotter)'. 사전 학습된 모델들의 상호 보완적 강점을 과제 특화 미세 조정 없이 활용함으로써, 우리의 제로샷 프레임워크는 여러 벤치마크에서 최첨단 지도 학습 방법들을 크게 능가하며 실제 환경으로의 강건한 일반화 성능을 입증합니다.
인컨텍스트 러닝은 현대 대규모 언어 모델(LLM)의 핵심 요소이지만, 기존 아키텍처는 선형적이거나 고정된 위치 인덱스를 부여함으로써 경직되고 고정된 컨텍스트 구조를 강요합니다. 인지 부하 이론(CLT)에 기반하여, 우리는 이러한 정보성이 낮은 구조가 외인성 인지 부하를 증가시켜 깊은 추론과 주의 할당에 사용되어야 할 한정된 작업 기억 용량을 소모한다고 주장합니다. 이를 해결하기 위해 우리는 컨텍스트 재배치를 통해 외인성 부하를 줄이는 새로운 메커니즘인 RePo를 제안합니다. 기존 접근법과 달리 RePo는 미리 정의된 정수 범위에 의존하는 대신, 미분 가능 모듈 f_φ를 활용하여 컨텍스트적 의존성을 포착하는 토큰 위치를 할당합니다. OLMo-2 1B 백본에 대한 지속적 사전 학습을 통해, RePo가 일반적인 단기 컨텍스트 과제에서도 경쟁력 있는 성능을 유지하면서 노이즈가 있는 컨텍스트, 구조화된 데이터, 더 긴 컨텍스트 길이를 포함하는 과제에서 성능을 크게 향상시킴을 입증합니다. 상세 분석 결과, RePo는 멀리 떨어졌지만 관련성 높은 정보에 더 높은 주의를 할당하고, 조밀하고 비선형적인 공간에 위치를 배정하며, 입력 컨텍스트의 내재적 구조를 효과적으로 포착하는 것으로 나타났습니다. 우리의 코드는 https://github.com/SakanaAI/repo에서 확인할 수 있습니다.
마스킹 이산 확산 모델(MDM)은 이미지 이해, 생성, 편집 등 다양한 멀티모달 작업에서 뛰어난 성능을 입증했습니다. 그러나 모든 샘플링 단계에서 중복된 마스킹 토큰을 반복적으로 처리해야 하므로 추론 속도는 여전히 최적화되지 않은 상태입니다. 본 연구에서는 MDM 샘플링 가속화를 위해 각 추론 단계에서 불필요한 마스킹 토큰을 동적으로 제거하는 새로운 모델링 프레임워크인 Sparse-LaViDa를 제안합니다. 생성 품질을 유지하기 위해 잘린 토큰의 간결한 표현 역할을 하는 전용 레지스터 토큰을 도입합니다. 또한 훈련과 추론 간의 일관성을 보장하기 위해 훈련 중에 제거된 샘플링 절차를 정확히 모방한 전용 어텐션 마스크를 설계합니다. 최첨단 통합 MDM인 LaViDa-O를 기반으로 구축된 Sparse-LaViDa는 텍스트-이미지 생성, 이미지 편집, 수학적 추론 등 다양한 작업에서 생성 품질을 유지하면서 최대 2배의 속도 향상을 달성합니다.
진정으로 적응형 구현 지능을 달성하기 위해서는 에이전트가 단순히 정적인 데모를 모방하는 것을 넘어 환경과의 상호작용을 통해 지속적으로 개선하는 방식을 학습해야 하며, 이는 인간이 연습을 통해 기술을 숙달하는 방식과 유사합니다. Vision-Language-Action (VLA) 모델은 대규모 언어 모델을 활용하여 로봇 매니퓰레이션 분야를 발전시켰으나, 근본적으로 지도 미세 조정(SFT)의 한계에 직면해 있습니다: 작업당 수백 개의 데모가 필요하고, 궤적을 경직되게 암기하며, 실제 배포 조건이 훈련 시와 달라질 경우 적응에 실패합니다. 본 연구에서는 VLA 모델이 최소한의 작업별 데모 또는 심지어 제로샷으로 환경 상호작용을 통해 지속적으로 적응할 수 있는 테스트 타임 훈련 프레임워크인 EVOLVE-VLA를 소개합니다. 핵심 기술적 과제는 테스트 시점에 이용 불가능한 오라클 보상 신호를 자율적인 피드백으로 대체하는 것입니다. 우리는 조밀한 피드백을 제공하는 학습된 진행도 추정기를 통해 이 문제를 해결하며, 특히 두 가지 메커니즘을 통해 본질적으로 잡음이 많은 이 신호를 "제어"하도록 프레임워크를 설계했습니다: (1) 잡음이 있는 점별 추정치를 평활화하는 누적 진행도 추정 메커니즘, (2) 점진적인 정책 진화를 가능하게 하는 점진적 계획 확장 전략. EVOLVE-VLA는 상당한 성능 향상을 달성했습니다: 장기계 작업에서 +8.6%, 1샷 학습에서 +22.0%의 성능 향상을 보였으며, 작업 간 일반화 능력을 발휘하여 작업별 데모 훈련 없이도 보지 않은 작업에서 20.8%의 성공률을 달성했습니다(순수 SFT 대비 0%). 정성적 분석은 데모에는 없던 오류 복구 및 새로운 전략을 포함한 창발적 능력을 보여줍니다. 이 작업은 정적인 모방을 넘어 지속적인 자기 개선을 향해 나아가는, 진정으로 학습하고 적응하는 VLA로 가는 중요한 단계를 나타냅니다.
접근적 비디오 질의응답(GVQA)은 비디오 내 관련 시간적 세그먼트를 지역화하고 주어진 질문에 정확한 답변을 생성하는 것을 목표로 하지만, 대규모 비디오-언어 모델(LVLM)은 제한된 시간 인식력을 보입니다. 그룹 상대 정책 최적화(GRPO) 기반 기존 접근법들이 시간적 접근성을 향상시키려 시도하지만, 여전히 답변을 관련 비디오 증거에 충실하게 근거시키는 데 어려움을 겪어 시간적 오지역화와 허구적 응답이 발생합니다. 본 연구에서는 질의 관련 세그먼트를 먼저 지역화한 후 가장 salient한 프레임으로 시간적 확대를 수행하여 세밀한 시각적 검증을 가능하게 하는 coarse-to-fine 프레임워크인 Zoom-Zero를 제시합니다. 우리의 방법은 GVQA 작업에서 GRPO의 한계를 두 가지 핵심 혁신으로 해결합니다: (i) 시간적 접근 예측의 정확도를 검증하고 접근된 프레임에 대한 세밀한 시각적 검증을 용이하게 하는 확대 정확도 보상; (ii) 시간적 지역화 또는 답변 생성에 기여한 토큰에 보상을 귀속시켜 GRPO의 다면적 보상 신호 처리 문제를 완화하는 토큰 선택적 기여도 할당. 제안된 방법은 접근적 비디오 질의응답을 발전시켜 NExT-GQA에서 시간적 접근성을 5.2%, ReXTime에서 4.6% 향상시키며 평균 답변 정확도도 2.4% 개선했습니다. 또한 추론 과정의 coarse-to-fine 확대 단계는 글로벌 콘텍스트를 훼손하지 않으면서 중요한 시각적 세부 사항을 보존함으로써 장형 비디오 이해에 추가적으로 기여하여 장형 비디오 벤치마크에서 평균 6.4%의 성능 향상을 달성했습니다.
단일 영상에서 시뮬레이션 가능한 인간 동작과 장면 기하구조를 복원하는 CRISP 방법을 소개한다. 인간-장면 통합 복원에 관한 기존 연구는 데이터 기반 사전 지식에 의존하거나 물리 법칙을 고려하지 않은 연동 최적화를 수행하며, 결함이 있는 노이즈가 많은 기하구조를 복원하여 장면 상호작용을 포함한 동작 추적 정책이 실패하게 만든다. 이와 대조적으로, 우리의 핵심 통찰은 깊이, 법선, 광류 정보에 대한 간단한 클러스터링 파이프라인을 통해 장면의 포인트 클라우드 복원에 평면 프리미티브를 피팅함으로써 볼록하고 깨끗하며 시뮬레이션에 바로 사용 가능한 기하구조를 복원하는 것이다. 상호작용 중 가려질 수 있는 장면 기하구조를 복원하기 위해 인간-장면 접촉 모델링(예: 인간 자세를 활용하여 가려진 의자 좌석 복원)을 활용한다. 마지막으로, 복원된 인간과 장면 정보를 강화학습을 통한 휴머노이드 컨트롤러 구동에 사용하여 물리적으로 타당한 결과를 보장한다. 우리의 접근법은 인간 중심 영상 벤치마크(EMDB, PROX)에서 동작 추적 실패율을 55.2%에서 6.9%로 줄이는 동시에 RL 시뮬레이션 처리량을 43% 향상시킨다. 일상적으로 촬영된 영상, 인터넷 영상, Sora 생성 영상을 포함한 실제 환경 영상에서 추가 검증을 수행하여 CRISP가 대규모로 물리적으로 유효한 인간 동작과 상호작용 환경을 생성할 수 있음을 입증함으로써 로보틱스와 AR/VR을 위한 실제-시뮬레이션 응용 분야를 크게 발전시킨다.
비모수적 양자화는 매개변수 효율성과 대규모 코드북으로의 확장성으로 인해 많은 관심을 받아왔다. 본 논문에서는 격자 부호화 관점에서 다양한 비모수적 양자화 방법들을 통합적으로 정식화한다. 격자 코드의 기하학적 구조는 BSQ와 같은 기존의 조회 없는 양자화 변형 기법으로 자동 인코더를 훈련할 때 보조 손실 항이 필요한 이유를 설명한다. 이를 발전시켜 무작위 격자, 일반화된 피보나치 격자, 최밀 구 채우기 격자 등 몇 가지 가능한 후보들을 탐구한다. 그중에서 높은 대칭성과 초구 상의 균일한 분포 특성 덕분에 단순화된 훈련 방법과 개선된 재구성-압축 트레이드오프를 보여주는 Leech 격자 기반 양자화 방법(Spherical Leech Quantization, Λ_{24}-SQ)을 발견했다. 이미지 토큰화 및 압축 작업에서 이 양자화 접근법은 기존 최신 기술인 BSQ보다 모든 메트릭에서 더 나은 재구성 품질을 달성하면서 동시에 약간 더 적은 비트를 사용한다. 이러한 개선 효과는 최첨단 자기회귀적 이미지 생성 프레임워크에서도 확인된다.
의료 영상 복원(MedIR)은 저품질 의료 영상을 고품질로 복원하는 것을 목표로 합니다. 최근 MedIR 분야의 발전은 여러 가지 다른 MedIR 작업을 동시에 처리할 수 있는 All-in-One 모델에 집중되고 있습니다. 그러나 모달리티와 열화 유형 모두에서 상당한 차이가 존재하기 때문에, 이러한 다양한 작업에 공유 모델을 사용하려면 두 가지 중요한 작업 간 관계를 신중하게 고려해야 합니다. 첫째, 동일한 매개변수에 대한 여러 작업 간에 충돌하는 그래디언트 업데이트 방향이 발생하는 작업 간섭(task interference)과, 둘째, 각 작업固有的 학습 난이도 차이로 인한 불균형한 최적화인 작업 불균형(task imbalance)이 그것입니다. 이러한 과제를 해결하기 위해 우리는 두 가지 핵심 혁신을 통해 다양한 작업에 동적으로 적응하는 새로운 프레임워크인 작업 적응형 트랜스포머(TAT)를 제안합니다. 첫째, 작업 간섭을 완화하기 위해 각 작업별로 특화된 가중치 매개변수를 생성하여 공유 가중치 매개변수에 대한 잠재적 그래디언트 충돌을 제거하는 작업 적응형 가중치 생성 전략을 도입했습니다. 둘째, 작업별 학습 난이도를 기반으로 손실 가중치를 동적으로 조정하여 특정 작업이 지배되거나 학습이 부족해지는 것을 방지하는 작업 적응형 손실 균형 조정 전략을 도입했습니다. 폭넓은 실험을 통해 제안된 TAT가 PET 합성, CT 노이즈 제거, MRI 초해상화라는 세 가지 MedIR 작업에서 작업별 및 All-in-One 설정 모두에서 최첨단 성능을 달성함을 입증했습니다. 코드는 https://github.com/Yaziwel/TAT에서 확인할 수 있습니다.
대규모 전문가 혼합(MoE) 모델 추론은 높은 자원 요구량과 동적 워크로드로 인해 어려운 과제입니다. 기존 솔루션은 주로 모델 전체를 단일 모놀리식 단위로 배포하며, 서로 다른 요구 사항을 가진 어텐션 모듈과 전문가 모듈에 동일한 자원 구성을 적용하여 확장성과 자원 효율이 제한됩니다. 본 논문에서는 어텐션과 전문가를 별도의 GPU 서브 클러스터로 분리하여 각 모듈을 독립적으로 관리 및 확장 가능하게 하는 확장형 MoE 추론 시스템 Janus를 제안합니다. Janus는 효율적인 분리형 MoE 추론을 위해 세 가지 핵심 설계를 포함합니다. 첫째, 노드 내 및 노드 간 대역폭 계층 구조를 활용한 낮은 지연 데이터 교환을 위한 적응형 2단계 통신 방식을 제안합니다. 둘째, MoE 모듈의 메모리 제한적 특성에 기반하여 Janus는 경량 스케줄러를 도입하고 GPU 커널로 구현하여 최소 오버헤드로 GPU 간 활성화 전문가 수를 균형 있게 조정하여 추론 지연 시간을 단축합니다. 셋째, Janus는 세분화된 자원 관리를 수행하여 전문가 배치를 동적으로 조정하고 어텐션 및 MoE 자원을 독립적으로 확장하여 전반적인 효율성을 향상시킵니다. 평가 결과 Janus는 토큰 당 지연 시간 요구사항을 충족하면서 기존 최신 시스템 대비 GPU 당 처리량을 최대 3.9배까지 향상시켰습니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 답변 검증 신호를 활용해 정책 최적화를 안내하는 방식으로 대규모 추론 모델(LRM) 훈련에 효과적인 것으로 입증되었으나, 높은 주석 비용이 문제로 지적되어 왔다. 이를 완화하기 위해 최근 연구에서는 엔트로피나 다수결과 같은 모델의 내적 일관성만으로 보상을 도출하는 비지도 RLVR 방법을 탐구하고 있다. 이러한 방법들은 유망해 보이지만, 외부 감독이 없는 상태에서 잘못된 추론 패턴이 강화되며 훈련 후반부에 모델 붕괴가 발생하는 경우가 많다. 본 연구에서는 소량의 레이블된 데이터셋을 활용하여 비레이블 표본에 대한 RLVR 훈련을 안내하는 새로운 준지도 RLVR 패러다임을 탐구한다. 우리의 핵심 통찰은 지도 보상이 비레이블 표본에 대한 일관성 기반 훈련을 안정화하는 데 필수적이며, 레이블된 인스턴스에서 검증된 추론 패턴만이 RL 훈련에 통합되도록 보장한다는 점이다. 기술적으로는 학습 궤적 유사성을 레이블된 표본과 비교하여 신뢰할 수 있는 비레이블 표본을 식별하는 효과적인 정책 최적화 알고리즘인 TraPO를 제안한다. 이를 바탕으로 TraPO는 6개의 널리 사용되는 수학 추론 벤치마크(AIME24/25, AMC, MATH-500, Minerva, Olympiad)와 3개의 분포 외 작업(ARC-c, GPQA-diamond, MMLU-pro)에서 뛰어난 데이터 효율성과 강력한 일반화 성능을 달성했다. 레이블된 표본 1,000개와 비레이블 표본 3,000개만 사용하여 TraPO는 평균 정확도 42.6%를 기록했으며, 비레이블 표본 45,000개로 훈련한 최고의 비지도 방법(38.3%)을 능가했다. 특히 레이블된 표본 4,000개와 비레이블 표본 12,000개를 사용했을 때, TraPO는 전체 레이블된 표본 45,000개로 훈련한 완전 지도 모델을 모든 벤치마크에서 능가하는 동시에 레이블 데이터의 10%만 사용하는 성과를 보였다. 코드는 https://github.com/ShenzhiYang2000/TRAPO에서 확인할 수 있다.
대규모 언어 모델의 안전 조정 메커니즘은 학습된 거부 행동을 통해 유해 질의에 대한 응답을 방지하지만, 이러한 동일한 메커니즘은 인지 모델링, 적대적 테스트, 보안 분석을 포함한 합법적인 연구 응용을 저해합니다. 무효화 기술이 방향 직교화를 통해 거부 표현을 수술적으로 제거할 수 있음에도 불구하고, 기존 구현체들의 상대적 효과는 아직 규명되지 않았습니다. 본 연구는 4가지 무효화 도구(Heretic, DECCP, ErisForge, FailSpy)를 16개의 지시어 최적화 모델(7B-14B 매개변수)에 걸쳐 평가하며, 모든 16개 모델에 대한 도구 호환성과 도구 지원에 따라 결정된 하위 집단에 대한 정량적 지표를 보고합니다. 단일 패스 방법은 벤치마크된 하위 집단에서 우수한 능력 보존을 보였으며(세 모델 평균 GSM8K 변화: ErisForge -0.28pp; DECCP -0.13pp), 베이지안 최적화 무효화는 모델에 의존적인 능력 영향과 함께 다양한 분포 변화(KL 발산: 0.043-1.646)를 생성했습니다. 이러한 결과는 연구자들에게 다양한 모델 아키텍처에 걸친 무효화 도구 배포를 위한 근거 기반 선택 기준을 제공합니다. 주요 발견은 수학적 추론 능력이 무효화 중재에 가장 높은 민감도를 보이며, 도구 선택 및 모델 아키텍처에 따라 GSM8K 변화가 +1.51pp에서 -18.81pp(-26.5% 상대적)까지 범위를 가진다는 것을 나타냅니다.
월드 모델은 구현 에이전트의 작업 성능 향상에 큰 효과를 입증해 왔습니다. 기존 연구는 주로 픽셀 공간 월드 모델에 집중했으나, 이러한 접근법은 미래 상태에서 복잡한 시각 요소를 예측하기 어려운 GUI 환경에서 실용적인 한계에 직면합니다. 본 연구에서는 GUI 에이전트를 위한 월드 모델링의 대안적 형식을 탐구하며, 상태 전이를 원시 픽셀 예측이 아닌 자연어로 기술합니다. 첫째, 비전-언어 모델(VLM)이 모바일 GUI 에이전트의 월드 모델로 기능하는 능력을 평가하는 벤치마크인 MobileWorldBench을 소개합니다. 둘째, VLM의 월드 모델링 능력을 크게 향상시키는 140만 개 샘플로 구성된 대규모 데이터셋 MobileWorld를 공개합니다. 마지막으로, VLM 월드 모델을 모바일 에이전트의 계획 프레임워크에 통합하는 새로운 프레임워크를 제안하며, 의미론적 월드 모델이 작업 성공률 향상을 통해 모바일 에이전트에 직접적으로 기여할 수 있음을 입증합니다. 코드와 데이터셋은 https://github.com/jacklishufan/MobileWorld에서 이용 가능합니다.
원격 감지 영상에서 건물 추출은 건물 구조의 복잡한 변동성으로 인해 어려운 과제입니다. 기존 방법은 분할 모델에서 다중 스케일 특징을 포착하기 위해 합성곱 또는 자기 주의 블록을 사용하지만, 특징 피라미드의 본질적 차이와 전역-지역 특징 통합의 부족으로 인해 부정확하고 모호한 추출 결과를 초래합니다. 이러한 문제를 해결하기 위해 본 논문에서는 불확실성 모델링 지도 하에 고품질의 전역-지역 시각 의미를 활용할 수 있는 불확실성 집계 전역-지역 융합 네트워크(UAGLNet)를 제안합니다. 구체적으로, 서로 다른 단계에서 하이브리드 CNN과 트랜스포머 계층을 채택하여 각각 지역적 및 전역적 시각 의미를 포착하는 새로운 협력형 인코더를 제안합니다. 네트워크가 깊어질 때 지역적 특징과 전역적 특징 간의 차이를 줄이기 위해 중간 협력 상호 작용 블록(CIB)을 설계했습니다. 이후 전역적 표현과 지역적 표현을 상호 보완적으로 융합하기 위한 전역-지역 융합(GLF) 모듈을 제안합니다. 더 나아가 불확실한 영역에서의 분할 모호성을 완화하기 위해 픽셀 단위 불확실성을 명시적으로 추정하여 분할 정확도를 향상시키는 불확실성 집계 디코더(UAD)를 제안합니다. 광범위한 실험을 통해 제안 방법이 다른 최신 방법보다 우수한 성능을 달성함을 입증했습니다. 코드는 https://github.com/Dstate/UAGLNet에서 확인할 수 있습니다.
현대 기계 학습의 성공은 고품질 학습 데이터에 대한 접근성에 달려 있습니다. 공공 저장소에서 데이터를 획득하거나 기관 간 공유하는 등 많은 실제 시나리오에서 데이터는 관련성, 품질, 유용성 측면에서 차이를 보이는 개별 데이터셋으로 자연스럽게 구성됩니다. 따라서 유용한 데이터셋을 검색할 저장소나 기관을 선택하고, 모델 학습에 통합할 데이터셋을 선정하는 것은 매우 중요한 결정입니다. 그러나 기존 방법 대부분은 개별 샘플을 선택하며 모든 데이터를 동등하게 관련된 것으로 취급하여 데이터셋 간 차이와 해당 출처의 다양성을 간과합니다. 본 연구에서는 자원 제약 조건 하에서 하류 작업 성능을 향상시키기 위해 이질적인 대규모 풀에서 전체 데이터셋을 선정하는 작업을 체계적으로 정립합니다. 우리는 데이터셋 및 그룹(예: 컬렉션, 기관) 수준에서 유용성을 모델링하여 제한된 관찰만으로도 효율적인 일반화를 가능하게 하는 계층적 데이터셋 선택(DaSH) 방법을 제안합니다. 두 개의 공개 벤치마크(Digit-Five 및 DomainNet)에서 DaSH는 정확도 측면에서 최고 수준의 데이터 선택 기준선을 최대 26.2% 능가하는 동시에 상당히 적은 탐색 단계만을 필요로 합니다. ablation 연구를 통해 DaSH는 낮은 자원 환경 및 관련 데이터셋 부족 상황에서도 강건하게 작동하여 실제 다중 출처 학습 워크플로우에서 확장성과 적응성을 갖춘 데이터셋 선택에 적합함을 입증합니다.
본 논문에서는 이미지 기반 일본어 다학제 멀티모달 이해 벤치마크인 JMMMU-Pro와 확장 가능한 구축 방법론인 Vibe Benchmark Construction을 소개한다. MMMU에서 MMMU-Pro로의 진화를 따라, JMMMU-Pro는 JMMMU를 확장하여 질문 이미지와 질문 텍스트를 단일 이미지로 구성함으로써 시각적 인식을 통한 통합적인 시각-텍스트 이해를 요구하는 벤치마크를 생성한다. JMMMU-Pro를 구축하기 위해 우리는 이미지 생성 모델(예: Nano Banana Pro)이 후보 시각 질문을 생성하고, 인간이 출력을 검증하며 필요시 수정된 프롬프트로 재생성하여 품질을 보장하는 방법론인 Vibe Benchmark Construction을 제안한다. Nano Banana Pro의 높은 현실감 있는 이미지 생성 능력과 깔끔한 일본어 텍스트 임베딩 능력을 활용하여, 다양한 배경과 레이아웃 디자인을 포괄하는 고품질 벤치마크를 저비용으로 구축한다. 실험 결과, 모든 오픈소스 LMM이 JMMMU-Pro에 상당히 어려움을 겪는 것으로 나타나, JMMMU-Pro가 오픈소스 커뮤니티의 미래 노력을 안내하는 중요한 벤치마크임을 강조한다. 우리는 JMMMU-Pro가 LMM의 일본어 능력을 평가하는 더 엄격한 평가 도구를 제공하며, 우리의 Vibe Benchmark Construction이 향후 이미지 기반 VQA 벤치마크 개발을 위한 효율적인 지침을 제공할 것이라고 믿는다.
텍스트-비디오(T2V) 생성 기술은 빠르게 발전했으나, 다양한 장면에서 일관된 캐릭터 정체성을 유지하는 것은 여전히 큰 과제로 남아 있습니다. 기존의 개인화 방법은 주로 얼굴 정체성에 초점을 맞추지만, 시각적 일관성에 중요한 헤어스타일, 의상, 체형과 같은 포괄적인 맥락 정보를 보존하지 못하는 경우가 많습니다. 본 연구에서는 단일 참조 이미지와 텍스트로부터 캐릭터 일관성이 유지된 비디오 생성을 달성하는 맥락 인식 확산 프레임워크인 ContextAnyone를 제안합니다. 우리의 방법은 참조 이미지를 재구성함과 동시에 새로운 비디오 프레임을 생성하여 모델이 참조 정보를 완전히 인지하고 활용할 수 있도록 합니다. 참조 정보는 DiT 기반 확산 백본에 새로운 Emphasize-Attention 모듈을 통해 효과적으로 통합되며, 이 모듈은 참조 인식 특징을 선택적으로 강화하고 프레임 간 정체성 변이를 방지합니다. 확산 및 참조 재구성 목표를 결합한 이중 지도 손실은 외형 충실도를 향상시키는 한편, 제안된 Gap-RoPE 위치 임베딩은 참조 토큰과 비디오 토큰을 분리하여 시간적 모델링을 안정화합니다. 실험 결과, ContextAnyone는 기존 참조-비디오 방법들보다 정체성 일관성과 시각적 품질에서 우수한 성능을 보이며, 다양한 동작과 장면에서 일관되고 맥락이 보존된 캐릭터 비디오를 생성함을 입증했습니다. 프로젝트 페이지: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
최근 무비디오 인스턴스 분할 분야의 최첨단 기술은 ImageNet과 같은 객체 중심 이미지 데이터셋에서 생성된 합성 비디오 데이터에 크게 의존해 왔습니다. 그러나 이미지 인스턴스 마스크를 인위적으로 이동 및 스케일링하여 비디오를 합성하는 방식은 원근 변화, 단일 또는 다중 인스턴스의 일부 부위 운동, 카메라 운동 등 실제 비디오의 현실적인 움직임을 정확하게 모델링하지 못합니다. 이 문제를 해결하기 위해 우리는 실제 비디오 데이터만으로 훈련된 무감독 비디오 인스턴스 분할 모델을 제안합니다. 우리는 개별 비디오 프레임에 대한 무감독 인스턴스 분할 마스크를 시작점으로 삼습니다. 그러나 이러한 단일 프레임 분할 결과는 시간적 노이즈를 나타내며 비디오 전반에 걸쳐 그 품질이 변동합니다. 따라서 우리는 심층 운동 사전 지식을 활용하여 비디오 내에서 고품질 키마스크를 식별함으로써 시간적 일관성을 확립합니다. 이 희소 키마스크 의사 주해는 암묵적 마스크 전파를 위한 분할 모델 훈련에 사용되며, 여기서 우리는 Temporal DropLoss를 보조 도구로 활용하는 Sparse-To-Dense Distillation 접근법을 제안합니다. 생성된 조밀 레이블셋으로 최종 모델을 훈련한 후, 우리의 접근법은 다양한 벤치마크에서 현재 최첨단 기술을 능가하는 성능을 보여줍니다.
생성형 인공지능의 교육 분야 급속한 통합은 e-교수의 디지털 전환을 주도하고 있으나, AI 교육 애플리케이션에 대한 사용자 인식은 아직 충분히 연구되지 않고 있다. 본 연구는 효용성, 과제 및 교육학적 함의를 평가하기 위해 Google Play 스토어의 주요 AI 교육 앱 사용자 리뷰에 대한 감정 분석 기반 평가를 수행한다. 연구 파이프라인에는 앱 데이터 및 리뷰 스크래핑, 이중 감정 분류를 위한 RoBERTa, 핵심 포인트 추출을 위한 GPT-4o, 주요 긍정/부정 주제 종합을 위한 GPT-5가 활용되었다. 앱은 과제 도우미, 수학 문제 해결사, 언어 도구 등 7가지 유형으로 분류되었으며, 중복되는 기능은 다기능 설계를 반영한다. 결과는 주로 긍정적인 감정을 나타냈으며, Edu AI(95.9% 긍정) 및 Answer.AI(92.7% 긍정)와 같은 과제 앱이 정확성, 속도, 개인화 측면에서 선두를 차지한 반면, 언어/LMS 앱(예: Teacher AI, 21.8% 긍정)은 불안정성과 제한된 기능으로 인해 뒤처졌다. 긍정적 평가는 아이디어 창출, 문제 해결, 참여도 향상의 효율성에 주목한 반면, 부정적 평가는 유료 결제 장벽, 부정확성, 광고 및 오류에 집중되었다. 트렌드 분석 결과, 전문 도구보다 과제 도우미 앱의 성능이 우수하여 의존성 및 불평등 위험 속에서 AI의 민주화 잠재력이 부각된다. 논의에서는 하이브리드 AI-인간 협력 모델, 몰입형 학습을 위한 VR/AR을 포함한 미래 교육 생태계를 제안하고, 개발자(적응형 개인화)와 정책 입안자(포용성을 위한 수익화 규제)를 위한 로드맵을 제시한다. 이는 형평성 있고 혁신적인 환경을 조성하는 윤리적 개선을 통해 e-교수 발전에 있어 생성형 AI의 역할을 강조한다. 전체 데이터셋은 여기(https://github.com/erfan-nourbakhsh/GenAI-EdSent)에서 이용 가능하다.
본 논문은 객체의 운동에 대한 언어적 설명을 기반으로 비디오 내 대상 객체를 분할 및 추적하는 것을 목표로 하는, 참조 운동 표현 비디오 분할을 위한 대규모 다중 모달 데이터셋을 제안한다. 기존 참조 비디오 분할 데이터셋은 두드러진 객체에 집중하고 단일 프레임에서도 대상 객체 식별이 가능한 정적 속성이 풍부한 언어 표현을 사용하는 경향이 있어, 비디오와 언어 양측에서 운동의 역할을 충분히 강조하지 못한다. 운동 표현과 운동 추론 단서를 활용한 픽셀 수준 비디오 이해의 가능성을 탐구하기 위해, 우리는 복잡한 시나리오의 2,006개 비디오에 포함된 8,171개 객체를 텍스트 및 오디오 형태의 33,072개 인간 주석 운동 표현으로 포괄하는 MeViS 데이터셋을 소개한다. 우리는 MeViS가 지원하는 4개 과제(참조 비디오 객체 분할(RVOS) 방법 6종, 오디오 유도 비디오 객체 분할(AVOS) 방법 3종, 참조 다중 객체 추적(RMOT) 방법 2종, 새로 도입된 참조 운동 표현 생성(RMEG) 과제를 위한 비디오 캡셔닝 방법 4종)에 대해 기존 15개 방법의 성능을 벤치마크하였다. 결과는 운동 표현 유도 비디오 이해를 다루는 기존 방법들의 취약점과 한계를 보여준다. 우리는 이러한 과제를 추가로 분석하고 RVOS/AVOS/RMOT를 위한 LMPM++ 접근법을 제안하며, 이는 새로운 최첨단 성과를 달성했다. 본 데이터셋은 복잡한 비디오 장면에서 운동 표현 유도 비디오 이해 알고리즘 개발을 촉진하는 플랫폼을 제공한다. 제안된 MeViS 데이터셋과 방법의 소스 코드는 https://henghuiding.com/MeViS/에서 공개된다.
대규모 시각-언어 모델(VLM)은 인상적인 복잡한 추론 능력을 보여주지만, 목표를 향한 다단계 행동 실행인 시각적 순차 계획 분야에서는 여전히 크게 미개척된 상태입니다. 또한 실용적인 순차 계획에는 비최적(오류) 단계가 포함되는 경우가 많아, VLM이 그러한 단계를 탐지하고 수정하는 데 어려움을 겪습니다. 우리는 미로 탐색, 블록 재배치, 이미지 재구성, 객체 재구성이라는 4가지 영역에 걸쳐 오류가 발생하기 쉬운 시각 기반 순차 계획 과제에서 VLM의 성능을 평가하기 위해 Corrective Sequential Planning Benchmark(CoSPlan)를 제안합니다. CoSPlan은 오류 탐지(비최적 행동 식별)와 단계 완성(목표 달성을 위해 행동 순서를 수정 및 완료)이라는 두 가지 핵심 능력을 평가합니다. 체인 오브 사고(Chain-of-Thought) 및 장면 그래프(Scene Graph)와 같은 최첨단 추론 기술을 사용함에도 불구하고, Intern-VLM 및 Qwen2와 같은 VLM은 CoSPlan에서 컨텍스트 단서를 활용하여 목표에 도달하지 못하는 어려움을 보였습니다. 이를 해결하기 위해 우리는 초기 상태와 목표 상태 사이에 중간 추론 단계를 도입하는 새로운 비훈련(non-training) 방식인 Scene Graph Incremental updates(SGI)를 제안합니다. SGI는 VLM이 시퀀스에 대해 추론하도록 돕고, 평균 5.2%의 성능 향상을 가져옵니다. 수정적 순차 계획의 신뢰성을 향상시키는 것 외에도, SGI는 Plan-Bench 및 VQA와 같은 전통적인 계획 과제로도 일반화됩니다.