번역이 포함된 일일 선별된 AI 연구 논문
T-pro 2.0은 하이브리드 추론과 효율적 추론을 위한 오픈 웨이트 러시아어 대규모 언어 모델(LLM)을 소개합니다. 본 모델은 키릴 문자 밀집 토크나이저와 지연 시간을 줄이기 위해 개선된 EAGLE 예측 디코딩 파이프라인을 사용하여 직접 답변 생성과 추론 과정 생성 기능을 지원합니다. 재현 가능하고 확장 가능한 연구를 위해 Hugging Face에 모델 가중치, T-Wix 500k 명령어 코퍼스, T-Math 추론 벤치마크, EAGLE 가중치를 공개합니다. 이러한 자원을 통해 사용자들은 러시아어 추론 능력을 연구하고 모델 및 추론 파이프라인을 확장하거나 적용할 수 있습니다. 공개 웹 데모는 추론 모드와 비추론 모드를 제공하며, 다양한 분야에서 우리의 추론 스택이 달성한 속도 향상을 보여줍니다. 따라서 T-pro 2.0은 효율적이고 실용적인 러시아어 LLM 애플리케이션을 구축하고 평가하기 위한 접근성 높은 오픈 시스템 역할을 합니다.
대규모 언어 모델(LLM)은 검증 가능한 보상 강화 학습(RLVR)을 통해 복잡한 추론 과제 해결에 있어 상당한 진전을 이루었습니다. 이러한 발전은 신뢰할 수 있는 검증기로 자동화된 감독과도 분리할 수 없습니다. 그러나 현재의 결과 기반 검증기(OV)는 긴 사고 연쇄(CoT) 내 신뢰할 수 없는 중간 단계를 검증하지 못합니다. 한편, 현재의 과정 기반 검증기(PV)는 인간 주해의 막대한 비용으로 인한 고품질 주해 데이터의 부족으로 제한되어 복잡한 장문 CoT의 오류를 신뢰성 있게 탐지하는 데 어려움을 겪습니다. 따라서 본 연구에서는 장문 CoT에서 도출된 결과의 근거 과정을 검증하여 정확하고 효율적인 검증과 대규모 주해를 가능하게 하는 결과 기반 과정 검증기(OPV)를 제안합니다. 제안된 검증기의 성능을 높이기 위해 전문가 주해와 함께 반복적 능동 학습 프레임워크를 도입하여 더 적은 주해 비용으로 OPV의 검증 능력을 점진적으로 향상시킵니다. 구체적으로, 각 반복에서 현재 최고 OPV의 가장 불확실한 사례에 주해를 수행한 후, 이를 거부 미세 조정(RFT) 및 RLVR을 통해 다음 라운드를 위한 새로운 OPV를 학습하는 데 사용합니다. 다양한 실험을 통해 OPV의 우수한 성능과 광범위한 적용 가능성을 입증했습니다. OPV는 보유한 \thisbench에서 F1 점수 76.3점을 기록한 Qwen3-Max-Preview 등 훨씬 더 큰 오픈소스 모델을 능가하는 83.1점의 F1 점수로 새로운 최첨단 결과를 달성했습니다. 더 나아가 OPV는 합성 데이터셋 내 오탐지를 효과적으로 감지하며 전문가 평가와 밀접하게 일치했습니다. 정책 모델과 협력할 때 OPV는 일관된 성능 향상을 가져왔으며, 예를 들어 계산 예산이 확장됨에 따라 AIME2025에서 DeepSeek-R1-Distill-Qwen-32B의 정확도를 55.2%에서 73.3%로 향상시켰습니다.
강화 학습(RL)은 대규모 언어 및 멀티모달 모델에서 효과적임이 이미 입증된 바 있으며, 최근에는 2D 이미지 생성 향상에도 성공적으로 확장 적용되었습니다. 그러나 3D 생성에 RL을 적용하는 것은 전역적으로 일관된 형상과 세밀한 지역 텍스처를 요구하는 3D 객체의 높은 공간적 복잡성으로 인해 아직 크게 탐구되지 않았습니다. 이는 3D 생성이 보상 설계와 RL 알고리즘에 상당히 민감하게 만드는 요인입니다. 이러한 과제를 해결하기 위해 우리는 여러 차원에 걸쳐 텍스트-3D 자동회귀 생성에 대한 RL의 첫 체계적인 연구를 수행합니다. (1) 보상 설계: 우리는 보상 차원과 모델 선택을 평가하며 인간 선호도와의 정합성이 중요하고, 일반적인 멀티모달 모델이 3D 속성에 대한 강력한 신호를 제공함을 보여줍니다. (2) RL 알고리즘: 우리는 GRPO 변형을 연구하여 토큰 수준 최적화의 효과를 강조하고, 훈련 데이터와 반복의 확장성을 추가로 조사합니다. (3) 텍스트-3D 벤치마크: 기존 벤치마크가 3D 생성 모델의 암묵적 추론 능력을 측정하지 못하므로 MME-3DR을 도입합니다. (4) 고급 RL 패러다임: 3D 생성의 자연스러운 계층 구조에 착안하여, 전용 보상 앙상블을 통해 전역-지역 계층적 3D 생성을 최적화하는 Hi-GRPO를 제안합니다. 이러한 통찰을 바탕으로 우리는 거친 형상부터 텍스처 정제까지 전문적인 최초의 RL 강화 텍스트-3D 모델인 AR3D-R1을 개발합니다. 본 연구가 3D 생성을 위한 RL 기반 추론에 대한 통찰을 제공하기를 바랍니다. 코드는 https://github.com/Ivan-Tang-3D/3DGen-R1에서 공개됩니다.
대규모 언어 모델(LLM)은 검증 가능한 보상 강화 학습(RLVR)을 통해 복잡한 추론 과제 해결에 있어 상당한 진전을 이루었습니다. 이러한 발전은 신뢰할 수 있는 검증자의 자동화된 감독과도 떼려야 뗄 수 없는 관계에 있습니다. 그러나 현재의 결과 기반 검증자(OV)는 긴 사고 연쇄(CoT) 내에서 신뢰할 수 없는 중간 단계들을 검증하지 못합니다. 한편, 현재의 과정 기반 검증자(PV)는 인간 주석의 막대한 비용으로 인한 고품질 주석의 부족으로 제한되어, 복잡한 장문 CoT에서 오류를 신뢰성 있게 탐지하는 데 어려움을 겪고 있습니다. 따라서 우리는 장문 CoT에서 도출된 결과를 요약하여 그 근거 과정을 검증함으로써 정확하고 효율적인 검증과 대규모 주석 생성을 동시에 달성하는 결과 기반 과정 검증자(OPV)를 제안합니다. 제안된 검증자의 성능을 높이기 위해, 우리는 전문가 주석을 활용한 반복적 능동 학습 프레임워크를 도입하여 더 적은 주석 비용으로 OPV의 검증 능력을 점진적으로 향상시킵니다. 구체적으로, 각 반복 단계에서 현재 최고 성능의 OPV가 가장 불확실하게 판단한 사례에 주석을 달고, 이를 이후 거부 미세 조정(RFT)과 RLVR을 통해 다음 라운드용 새로운 OPV를 학습하는 데 사용합니다. 폭넓은 실험을 통해 OPV의 우수한 성능과广泛的 적용 가능성이 입증되었습니다. OPV는 우리의 보유 데이터셋 OPV-Bench에서 새로운 최첨단 결과를 달성했으며, F1 점수 기준 Qwen3-Max-Preview와 같은 훨씬 더 큰 오픈소스 모델의 76.3에 비해 83.1의 성능으로 앞섰습니다. 더 나아가, OPV는 합성 데이터셋 내에서 오탐지를 효과적으로 걸러내어 전문가 평가와 밀접하게 일치했습니다. 정책 모델과 협업할 때, OPV는 일관되게 성능 향상을 가져왔으며, 예를 들어 계산 예산이 증가함에 따라 AIME2025에서 DeepSeek-R1-Distill-Qwen-32B의 정확도를 55.2%에서 73.3%로 높였습니다.
대규모 언어 모델(LLM) 에이전트는 강력한 수학 문제 해결 능력을 보여주며, 형식적 증명 시스템의 지원을 통해 국제 수학 올림피아드(IMO) 수준의 문제까지 해결할 수 있습니다. 그러나 기하학 문제 해결을 위한 보조 구성 발견에 대한 휴리스틱이 약하기 때문에, AI 기반 기하학 문제 해결 분야는 여전히 AlphaGeometry 2와 같은 전문 모델이 지배적이며, 이들은 훈련과 평가 모두에서 대규모 데이터 합성 및 탐색에 크게 의존합니다. 본 연구에서는 기하학 분야에서 금메달 수준의 LLM 에이전트를 구축하는 첫 번째 시도로 InternGeometry를 제안합니다. InternGeometry는 명제와 보조 구성을 반복적으로 제안하고, 기호 엔진으로 검증하며, 엔진의 피드백을 반영하여 후속 제안을 안내함으로써 기하학에서의 휴리스틱 한계를 극복합니다. 동적 메모리 메커니즘을 통해 InternGeometry는 문제당 기호 엔진과 200회 이상의 상호작용을 수행할 수 있습니다. 학습 속도를 더욱 높이기 위해, 훈련 단계별로 합성된 문제의 복잡성을 점진적으로 증가시키는 복잡성 강화 강화 학습(CBRL)을 도입했습니다. InternThinker-32B를 기반으로 구축된 InternGeometry는 2000-2024년 IMO 기하학 문제 50개 중 44개를 해결하여 평균 금메달리스트 점수(40.9)를 넘어섰으며, AlphaGeometry 2가 사용한 데이터의 약 0.004%에 불과한 13K개의 훈련 예시만을 사용하여 전문가 수준 기하학 과제에서 LLM 에이전트의 잠재력을 입증했습니다. 또한 InternGeometry는 인간의 해법에는 등장하지 않는 IMO 문제에 대한 새로운 보조 구성을 제안할 수도 있습니다. 향후 연구를 지원하기 위해 모델, 데이터 및 기호 엔진을 공개할 예정입니다.
모션 캡처는 이제 디지털 휴먼을 넘어 콘텐츠 제작의 기반 기술이 되었으나, 대부분의 기존 파이프라인은 특정 종(species)이나 템플릿에 국한되어 있습니다. 우리는 이러한 격차를 '범주 불문 모션 캡처(Category-Agnostic Motion Capture, CAMoCap)'로 정형화합니다. CAMoCap의 목표는 단안 비디오와 프롬프트로 제공된 임의의 리깅된 3D 애셋이 주어졌을 때, 해당 애셋을 직접 구동할 수 있는 BVH와 같은 회전 기반 애니메이션을 복원하는 것입니다. 우리는 참조 지도 방식의 분할 프레임워크인 MoCapAnything를 제안합니다. 이 프레임워크는 먼저 3D 관절 궤적을 예측한 후, 제약 조건을 인지한 역기구학(Inverse Kinematics)을 통해 애셋 특화 회전값을 복구합니다. 본 시스템은 세 개의 학습 가능 모듈과 경량 IK 단계로 구성됩니다: (1) 애셋의 스켈레톤, 메시, 렌더링 이미지로부터 관절별 질의(query)를 추출하는 참조 프롬프트 인코더, (2) 밀집한 시각적 특징을 계산하고 비디오와 관절 공간 간의 격차를 메우기 위한 coarse한 4D 변형 메시를 복원하는 비디오 특징 추출기, (3) 이러한 정보를 융합하여 시간적으로 일관된 궤적을 생성하는 통합 모션 디코더입니다. 또한 1,038개의 모션 클립으로 구성된 Truebones Zoo를 구축했으며, 각 클립은 표준화된 스켈레톤-메시-렌더 삼중체(triad)를 제공합니다. 도메인 내 벤치마크와 실제 환경 비디오에 대한 실험 결과, MoCapAnything는 높은 품질의 스켈레톤 애니메이션을 제공하고 이종 리그 간 의미 있는 교차 종 재타겟팅을 수행하여 임의의 애셋에 대한 확장 가능한 프롬프트 기반 3D 모션 캡처를 가능하게 함을 보여줍니다. 프로젝트 페이지: https://animotionlab.github.io/MoCapAnything/
대규모 언어 모델(LLM)이 연구용 프로토타입에서 실제 운영 시스템으로 전환됨에 따라, 실무자들은 모델 출력이 요구되는 제약 조건을 만족하는지 검증할 신뢰할 수 있는 방법이 필요합니다. 표본 추출 기반 추정치는 모델 동작에 대한 직관을 제공하지만, 엄밀한 보장을 제공하지는 않습니다. 본 논문에서는 LLM의 제약 조건 만족에 대한 결정론적이고 엄밀한 확률적 경계를 계산하는 최초의 실용적 프레임워크인 BEAVER를 제시합니다. 접두사-폐쇄적 의미론적 제약 조건이 주어지면, BEAVER는 새로운 토큰 트라이(trie) 및 프론티어 데이터 구조를 활용하여 생성 공간을 체계적으로 탐색하며 매 반복마다 이론적으로 엄밀하게 보장된 경계를 유지합니다. 우리는 검증 문제를 공식화하고 접근법의 엄밀성을 증명하며, 최신 LLM들을 대상으로 정확성 검증, 개인정보 보호 검증 및 안전한 코드 생성 과제에 대해 BEAVER를 평가합니다. 동일한 계산 예산 하에서 BEAVER는 기준 방법 대비 6~8배 좁은 확률 경계를 달성하고 3~4배 많은 고위험 사례를 식별하여, 느슨한 경계나 경험적 평가로는 제공할 수 없는 정밀한 특성 분석 및 위험 평가를 가능하게 합니다.
본 논문은 과학적 발견의 기초가 되는 보이지 않는 미시적 개체들의 공간 관계를 인지하고 추론하는 능력인 미시적 공간 지능(Microscopic Spatial Intelligence, MiSI) 개념을 소개한다. 이 영역에서 비전-언어 모델(Vision-Language Models, VLMs)의 잠재력을 평가하기 위해 체계적인 벤치마크 프레임워크인 MiSI-Bench를 제안한다. 이 프레임워크는 약 4,000개의 분자 구조에서 도출된 587,000개의 이미지와 163,000개 이상의 질문-답변 쌍으로 구성되며, 기본적인 공간 변환부터 복잡한 관계 식별에 이르는 능력을 평가하는 9개의 상호 보완적인 작업을 포함한다. 실험 결과에 따르면, 현재 최첨단 VLM들은 이 벤치마크에서 인간 수준에 크게 미치지 못하는 성능을 보인다. 그러나 미세 조정된 7B 모델은 상당한 잠재력을 보여주며, 공간 변환 작업에서는 인간을 능가하기도 한다. 반면, 수소 결합 인식과 같은 과학적 근거가 필요한 작업에서의 낮은 성능은 과학적 인공 일반 지능(AGI)을 향한 진전을 위해 명시적인 도메인 지식 통합의 필요성을 강조한다. 데이터셋은 https://huggingface.co/datasets/zongzhao/MiSI-bench에서 이용 가능하다.
단일 토크나이저 내에서 다중 모드 이해, 생성 및 재구성 표현을 통합하는 것은 통합 모델 구축의 핵심 과제로 남아 있습니다. 기존 연구는 주로 이중 인코더 패러다임에서 이 문제를 해결하려 시도해왔으며, 예를 들어 이해와 생성을 위해 각각 별도의 인코더를 활용하거나 대조 손실을 통해 의미 표현과 저수준 특징의 균형을 맞추는 방식이었습니다. 본 논문에서는 VQRAE(Vector Quantization version of Representation AutoEncoders)를 제안하며, 이는 통합 토크나이저 내에서 이미지 이해를 위한 연속적 의미 특징과 시각 생성을 위한 이산 토큰을 생성하는 통합 표현에 대한 최초의 탐구를 선도합니다. 구체적으로, 우리는 사전 학습된 비전 기초 모델을 기반으로 대칭적 ViT 디코더를 구성하고 2단계 학습 전략을 채택합니다: 첫째, 인코더를 고정하고 픽셀 재구성 목표로 고차원 의미 VQ 코드북을 학습하며; 둘째, 자기蒸馏 제약 조건과 함께 인코더를 공동 최적화합니다. 이 설계는 다중 모드 이해 능력 유지를 위해 의미 정보 손실을 무시할 수 있을 정도로 작게 하면서, 생성에 호환되는 이산 토큰과 세밀한 재구성을 가능하게 합니다. 또한, 우리는 이미지 재구성에서 일반적인 저차원 코드북 관행과 대조적으로, 의미 인코더 양자화에서 고차원 코드북에 의존해야 하는 흥미로운 특성을 확인했습니다. 1536 차원에서 의미 VQ 코드북은 100% 활용률을 달성할 수 있습니다. VQRAE는 시각 이해, 생성 및 재구성에 대한 여러 벤치마크에서 경쟁력 있는 성능을 보여주며, 이산적 장점으로 인해 자기회귀 패러다임에서 확장 가능성을 보입니다.
이미지 사고 패러다임은 시각 정보를 동적 요소로써 사고 연쇄(CoT)에 통합함으로써 뛰어난 시각 추론 능력을 보여주었다. 그러나 고품질 추론 데이터의 부족으로 인해, 강화 학습을 통해 교차 양식 CoT(iMCoT)를 최적화하는 것은 여전히 어려운 과제로 남아 있다. 본 연구에서는 iMCoT를 자기 호출(self-calling)이 가능한 언어 전용 CoT로 재구성하는 새로운 시각 추론 패러다임인 자기 호출 사고 연쇄(sCoT)를 제안한다. 구체적으로, 주 에이전트가 복잡한 시각 추론 과업을 원자적 하위 과업으로 분해하고, 매개변수를 공유하는 하위 에이전트인 가상 복제본을 호출하여 격리된 맥락에서 이를 해결한다. sCoT는 양식 간의 명시적인 교차를 요구하지 않기 때문에 상당한 훈련 효과성과 효율성을 누린다. 또한 sCoT는 그룹 상대 정책 최적화를 통해 효과적인 추론 행동을 강화하여 최적화를 개선한다. HR-Bench 4K에서의 실험 결과, sCoT는 강력한 베이스라인 접근법 대비 최대 1.9%의 전반적인 추론 성능 향상과 함께 GPU 사용 시간을 약 75% 절감하는 것으로 나타났다. 코드는 https://github.com/YWenxi/think-with-images-through-self-calling에서 확인할 수 있다.
생성적 세계 모델은 다양한 환경에서 시각운동 정책과의 상호작용을 시뮬레이션하는 데 상당한 잠재력을 지닙니다. 최첨단 비디오 모델은 확장성 있고 일반적인 방식으로 현실적인 관측치와 환경 상호작용을 생성할 수 있게 합니다. 그러나 로봇공학에서 비디오 모델의 사용은 주로 분포 내 평가, 즉 정책을 훈련하거나 기본 비디오 모델을 미세 조정하는 데 사용된 시나리오와 유사한 상황으로 제한되어 왔습니다. 본 보고서에서는 비디오 모델이 로봇공학의 정책 평가 사용 사례 전반에 걸쳐 활용될 수 있음을 입증합니다: 정상 성능 평가부터 분포 외 일반화, 물리적 및 의미론적 안전성 탐지에 이르기까지. 우리는 최첨단 비디오 기초 모델(Veo)을 기반으로 구축된 생성적 평가 시스템을 소개합니다. 이 시스템은 로봇 행동 조건 지정 및 다중 뷰 일관성을 지원하도록 최적화되었으며, 생성적 이미지 편집 및 다중 뷰 완성을 통합하여 여러 일반화 축을 따라 현실 세계 장면의 현실적인 변형을 합성합니다. 우리는 이 시스템이 비디오 모델의 기본 능력을 보존하여 새로운 상호작용 객체, 새로운 시각적 배경, 새로운 방해 객체를 포함하도록 편집된 장면의 정확한 시뮬레이션을 가능하게 함을 입증합니다. 이러한 정확도는 정상 및 분포 외 조건에서 서로 다른 정책들의 상대적 성능을 정확히 예측하고, 다양한 일반화 축이 정책 성능에 미치는 상대적 영향을 결정하며, 물리적 또는 의미론적 안전 제약을 위반하는 행동을 드러내기 위한 정책 레드 팀링을 수행하는 것을 가능하게 합니다. 우리는 양손 조작 로봇을 위한 5가지 작업과 8개의 Gemini Robotics 정책 체크포인트에 대한 1600회 이상의 실제 평가를 통해 이러한 능력을 검증합니다.
스테레오스페이스(StereoSpace)는 명시적인 깊이 정보나 워핑 없이 순수한 시점 조건화를 통해 기하학을 모델링하는 단안-입체 합성을 위한 확산 기반 프레임워크입니다. 정규화된 정렬 공간과 조건화는 생성기가 대응 관계를 추론하고 폐색 영역을 종단간으로 채우도록 안내합니다. 공정하고 정보 누출이 없는 평가를 위해, 우리는 테스트 시점에 실제 지면 정보나 대리 기하학 추정치를 완전히 배제한 종단간 평가 프로토콜을 제안합니다. 이 프로토콜은 하류 작업 관련성을 반영하는 지표, 즉 지각적 안락도를 위한 iSQoE와 기하학적 일관성을 위한 MEt3R에 중점을 둡니다. 스테레오스페이스는 워프 및 인페인팅, 잠재 공간 워핑, 워프 조건화 범주의 다른 방법들을 능가하며, 계층적 및 비람버시안 장면에서 선명한 시차와 강력한 견고성을 달성합니다. 이를 통해 시점 조건화 확산 모델이 확장 가능한 무-깊이 스테레오 생성의 실현 가능한 해법으로 입증되었습니다.
정규화 계층이 오랫동안 딥러닝 아키텍처의 필수 구성 요소로 여겨져 왔지만, 최근 도입된 Dynamic Tanh(DyT)는 대안이 가능함을 입증했습니다. 점별 함수인 DyT는 안정적인 수렴을 위해 극단값을 제한하며 정규화 수준의 성능을 달성하는데, 본 연구는 이를 능가할 수 있는 함수 설계를 더욱 탐구합니다. 우리는 먼저 점별 함수의 내재적 특성이 학습과 성능에 어떻게 영향을 미치는지 연구합니다. 이러한 발견을 바탕으로 보다 효과적인 함수 설계를 위한 대규모 탐색을 수행합니다. 이 탐색 과정을 통해 우리는 Derf(x) = erf(αx + s)를 소개합니다. 여기서 erf(x)는 재조정된 가우시안 누적 분포 함수이며, 이를 가장 우수한 성능을 보이는 설계로 확인했습니다. Derf는 시각(이미지 인식 및 생성), 음성 표현, DNA 시퀀스 모델링 등 다양한 영역에서 LayerNorm, RMSNorm, DyT를 능가하는 성능을 보입니다. 우리의 연구 결과는 Derf의 성능 향상이 더 강력한 적합 능력보다는 향상된 일반화 능력에서 비롯된다는 것을 시사합니다. 그 간결함과 우수한 성능으로 인해 Derf는 정규화가 불필요한 Transformer 아키텍처를 위한 실용적인 선택지가 됩니다.
비디오 질의응답(VideoQA) 과제는 기초 모델이 동적인 현실 세계 시나리오를 효과적으로 인지, 이해, 추론할 수 있는지 평가하는 중요한 장으로 작용합니다. 그러나 기존의 다중모달 대규모 언어 모델(MLLM)은 복잡하고 추론 집중적인 VideoQA 과제에서 비디오 프레임 내 공간 관계를 모델링하는 동시에 시간적 변화의 인과적 역학을 이해하는 데 어려움을 겪습니다. 본 연구에서는 MLLM의 시공간적 추론 능력을 향상시키고 도구의 양과 다양성 간 조화를 보장하기 위해 포괄적이고 확장 가능한 비디오 툴킷을 MLLM에 장착합니다. 도구 호출 순서를 더 효과적으로 제어하고 도구 체인 단축 문제를 피하기 위해, 우리는 시간적 및 공간적 도구를 전략적으로 스케줄링하여 점진적으로 비디오 내 핵심 영역을 국소화하는 시공간 추론 프레임워크(STAR)를 제안합니다. 우리의 STAR 프레임워크는 경량 도구를 사용해 GPT-4o의 성능을 향상시켜 VideoMME에서 8.2%, LongVideoBench에서 4.6%의 성능 향상을 달성했습니다. 우리가 제안한 비디오 툴킷과 STAR 프레임워크가 자율적이고 지능적인 비디오 분석 어시스턴트 구축을 위한 중요한 진전을 이뤘다고 믿습니다. 코드는 https://github.com/fansunqi/VideoTool에서 공개되어 있습니다.
일상적인 인간 동영상으로부터 조작 기술을 배우는 로봇은 지루한 로봇 데이터 수집 없이도 광범위한 능력을 습득할 수 있을 것입니다. 우리는 일반적인 인간-객체 상호작용 동영상을 움직임이 일관되고 현실적이며 물리적으로 타당한 상호작용을 담은 로봇 조작 동영상으로 변환하는 비디오-투-비디오 변환 프레임워크를 제안합니다. 우리의 접근 방식은 훈련을 위해 짝을 이룬 인간-로봇 동영상이 필요하지 않으며, 짝을 이루지 않은 로봇 동영상 세트만으로도 시스템 확장이 용이합니다. 우리는 구현체 간 격차를 해소하는 전이 가능한 표현을 도입합니다: 훈련 비디오에서 로봇 팔을 인페인팅하여 깔끔한 배경을 얻고, 간단한 시각적 단서(그리퍼의 위치와 방향을 나타내는 마커와 화살표)를 중첩함으로써, 생성 모델이 장면에 로봇 팔을 다시 삽입하도록 조건을 부여할 수 있습니다. 테스트 시에는 인간 동영상에 동일한 과정(사람 인페인팅 및 인간 자세 단서 중첩)을 적용하여 인간의 행동을 모방한 고품질 로봇 비디오를 생성합니다. 우리는 SOTA 비디오 확산 모델(Wan 2.2)을 인-컨텍스트 러닝 방식으로 미세 조정하여 시간적 일관성을 보장하고 그 풍부한 사전 지식을 활용합니다. 실험 결과는 우리의 접근 방식이 기준 방법들에 비해 현저히 더 현실적이고 타당한 로봇 동작을 달성함을 보여주며, 레이블이 없는 인간 동영상으로부터 로봇 학습을 확장하는 유망한 방향을 제시합니다. 프로젝트 페이지: https://showlab.github.io/H2R-Grounder/
FACTS 리더보드를 소개합니다. 이는 온라인 리더보드 제품군 및 관련 벤치마크 세트로, 다양한 시나리오에서 언어 모델이 사실적으로 정확한 텍스트를 생성하는 능력을 종합적으로 평가합니다. 본 제품군은 모델의 성능을 네 가지 별도 하위 리더보드에서 종합하여 사실성에 대한 전체적인 측정치를 제공합니다: (1) 이미지 기반 질문에 대한 응답의 사실성을 측정하는 FACTS 멀티모달, (2) 내부 매개변수에서 폐쇄형 사실 정보 질문에 답함으로써 모델의 세계 지식을 평가하는 FACTS 파라메트릭, (3) 모델이 검색 API를 사용해야 하는 정보 탐색 시나리오에서의 사실성을 평가하는 FACTS 검색, (4) 장문 응답이 제공된 문서에 기반을 두는지 평가하며 판단 모델이 크게 개선된 FACTS 기반(v2). 각 하위 리더보드는 자동화된 판단 모델을 사용하여 모델 응답을 채점하며, 최종 제품군 점수는 모델의 전체적인 사실성을 강력하고 균형 있게 평가하도록 설계된 네 구성 요소의 평균입니다. FACTS 리더보드 제품군은 지속적으로 관리되며, 외부 참여를 허용하면서도 무결성을 보호하기 위해 공개 및 비공개 분할 세트를 모두 포함합니다. https://www.kaggle.com/benchmarks/google/facts 에서 확인하실 수 있습니다.
4D 가우시안 스플래팅(4DGS)의 최근 발전은 3D 가우시안 스플래팅(3DGS)의 고속 렌더링 능력을 시간 영역으로 확장하여 동적 장면의 실시간 렌더링을 가능하게 했습니다. 그러나 여전히 남아 있는 주요 과제 중 하나는 장기간(long-range) 모션을 포함한 동적 비디오를 모델링하는 데 있으며, 기존 방법을 단순히 확장할 경우 심각한 메모리 폭증, 시간적 깜빡임, 그리고 시간에 따른 출현 또는 소실 occlusion 처리 실패로 이어집니다. 이러한 문제들을 해결하기 위해, 우리는 Anchor Relay 기반 양방향 혼합(ARBB) 메커니즘을 특징으로 하는 새로운 4DGS 프레임워크인 MoRel을 제안합니다. 이는 장기간 동적 장면의 시간적 일관성과 메모리 효율적인 모델링을 가능하게 합니다. 우리의 방법은 키 프레임 시간 인덱스에서 지역적 표준(canonical) 앵커 공간을 점진적으로 구축하고 앵커 수준에서 프레임 간 변형을 모델링하여 시간적 일관성을 향상시킵니다. KfA 간의 양방향 변형을 학습하고 학습 가능한 불투명도 제어를 통해 이를 적응적으로 혼합함으로써, 우리의 접근 방식은 시간적 불연속성과 깜빡임 아티팩트를 완화합니다. 우리는 또한 특징 분산(FV)에 기반하여 렌더링 품질을 유지하면서 KfA를 효과적으로 조밀화(densify)하는 특징-분산-가이드 계층적 조밀화(FHD) 기법을 추가로 도입합니다. 실제 세계의 장기간 4D 모션 처리 능력을 효과적으로 평가하기 위해, 우리는 SelfCap_{LR}라는 장기간 4D 모션 포함 데이터셋을 새롭게 구성했습니다. 이 데이터셋은 기존 동적 비디오 데이터셋에 비해 더 큰 평균 동적 모션 크기와 공간적으로 더 넓은 영역에서 캡처되었습니다. 전반적으로, 우리의 MoRel은 제한된 메모리 사용량을 유지하면서 시간적으로 일관되고 깜빡임이 없는 장기간 4D 재구성을 달성하여, 동적 가우시안 기반 표현에서 확장성과 효율성을 모두 입증합니다.
비디오 통합 모델은 이해와 생성 측면에서 강력한 성능을 보이지만, 내부에 강력한 시각-언어 모델(VLM)을 탑재하고 있음에도 이유 기반 시각 편집에는 어려움을 겪습니다. 우리는 이러한 격차가 두 가지 요인에 기인한다고 분석합니다. 1) 기존 데이터셋이 추론 인지 비디오 편집을 훈련하고 평가하기에 부적절하며, 2) 모델의 추론 능력과 편집 능력 간의 본질적 괴리로 인해 풍부한 이해가 편집 과정을 효과적으로 지시하지 못한다는 점입니다. 이 격차를 해소하려면 추론과 시각적 변환을 연결하는 통합 프레임워크가 필요합니다. 이를 해결하기 위해 우리는 편집 과정에서 물리적 타당성과 인과적 역학에 대한 추론을 요구하는 이유 기반 비디오 편집(RVE) 과제를 소개합니다. 체계적인 평가를 지원하기 위해 두 가지 상호 보완적인 하위 집합, 즉 '추론 기반 비디오 편집'과 '맥락 내 비디오 생성'으로 구성된 포괄적 벤치마크 RVE-Bench를 구축했습니다. 이러한 하위 집합은 다양한 추론 차원과 실제 편집 시나리오를 다룹니다. 이러한 기반 위에 우리는 생성과 평가를 단일 아키텍처 내에 통합하는 자체 반성적 추론(SRF) 프레임워크인 ReViSE를 제안합니다. 모델의 내부 VLM은 편집된 비디오가 주어진 지시를 논리적으로 충족하는지 평가함으로써 내재적 피드백을 제공합니다. 이 차등 피드백은 훈련 동안 생성기의 추론 행동을 개선합니다. RVE-Bench에서 진행한 폭넓은 실험을 통해 ReViSE가 편집 정확도와 시각적 정확도를 크게 향상시키며, 추론 기반 비디오 편집 하위 집합에서 최첨단 방법 대비 Overall 점수를 32% 개선함을 입증했습니다.
시각 개념 개인화는 신원, 표정, 조명, 스타일 등과 같은 특정 이미지 속성만을 새로운 상황으로 전달하는 것을 목표로 합니다. 그러나 기존 방법들은 여러 시각적 요소가 얽혀 단일 속성을 분리하기 어려운 범용 이미지 인코더의 전체적 임베딩에 의존합니다. 이로 인해 정보 누출과 비일관적인 합성이 자주 발생합니다. 이러한 한계를 해결하기 위해 우리는 높은 충실도의 속성별 표현을 학습하도록 설계된 최초의 개방형 어휘 이미지 속성 인코더인 Omni-Attribute를 소개합니다. 우리의 접근 방식은 데이터와 모델을 함께 설계합니다: (i) 보존하거나 억제해야 할 대상을 인코더에 명시적으로 가르치기 위해 긍정 및 부정 속성으로 주석이 달린 의미론적으로 연결된 이미지 쌍을 정제하고, (ii) 생성적 충실도와 대조적 분리를 균형 있게 조절하는 이중 목표 훈련 패러다임을 채택합니다. 그 결과 생성된 임베딩은 개방형 어휘 속성 검색, 개인화 및 조합 생성에 효과적인 것으로 입증되었으며, 여러 벤치마크에서 최첨단 성능을 달성합니다.
실제 AI 소프트웨어 엔지니어링에는 방대한 저장소를 추론하고, 긴 세션 간 및 세션 내에서 지속적인 메모리를 유지하며, 테스트 시점에 복잡한 툴체인을 강력하게 조정할 수 있는 코딩 에이전트가 필요합니다. 기존의 오픈소스 코딩 에이전트는 투명성을 제공하지만 이러한 산업 규모의 워크로드로 확장하기에는 종종 부족한 성능을 보입니다. 반면, 독점 코딩 에이전트는 강력한 실용적 성능을 제공하지만 확장성, 해석 가능성, 제어 가능성이 제한적입니다. 본 논문에서는 산업 규모로 운영될 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent(CCA)를 제시합니다. CCA는 상호 보완적인 세 가지 관점인 에이전트 경험(AX), 사용자 경험(UX), 개발자 경험(DX)을 중심으로 설계된 오픈소스 에이전트 개발 플랫폼인 Confucius SDK를 기반으로 구축되었습니다. 이 SDK는 장문맥 추론을 위한 계층적 작업 메모리를 갖춘 통합 오케스트레이터, 세션 간 지속 학습을 위한 영구 노트 작성 시스템, 강력한 도구 사용을 위한 모듈식 확장 모듈을 도입합니다. 더 나아가, 메타 에이전트는 빌드-테스트-개선 루프를 통해 에이전트 구성의 합성, 평가, 개선을 자동화하여 새로운 작업, 환경, 툴 스택에 대한 신속한 에이전트 개발을 가능하게 합니다. 이러한 메커니즘을 갖춘 Confucius SDK를 통해 구현된 CCA는 실제 소프트웨어 엔지니어링 작업에서 강력한 성능을 제공합니다. SWE-Bench-Pro에서 CCA는 54.3%의 최첨단 Resolve@1 성능을 달성하여 기존 코딩 에이전트 대비 크게 향상된 결과를 보여줍니다. Confucius SDK와 CCA는 함께 AI 에이전트를 위한 투명하고 확장 가능하며 재현 가능한 기반을 제공하며, 연구용 프로토타입과 상용급 시스템 간의 격차를 해소하고 산업 규모의 에이전트 개발 및 배포를 지원합니다.
LLM 에이전트는 복잡한 상호작용 작업에 널리 배포되지만, 개인정보 보호 제약으로 인해 동적 환경에서의 중앙집중식 최적화 및 공동 진화가 어려운 경우가 많습니다. 연합학습(Federated Learning, FL)은 정적 데이터셋에서 효과적임이 입증되었으나, 에이전트의 개방형 자기 진화(self-evolution)로의 확장은 아직 충분히 연구되지 않았습니다. 표준 FL을 직접 적용하는 것은 여러 가지 도전 과제를 안고 있습니다. 이기종 작업과 희소하며 궤적 수준의 보상은 심각한 그래디언트 충돌을 초래하여 전역 최적화 과정을 불안정하게 만듭니다. 이러한 차이를 해결하기 위해 우리는 LLM 에이전트를 위한 연합 자기 진화 프레임워크인 Fed-SE를 제안합니다. Fed-SE는 지역적 진화-전역적 집약 패러다임을 확립합니다. 지역적으로는 에이전트가 필터링된 높은 보상 궤적에 대해 매개변수 효율적 미세 조정을 사용하여 안정적인 그래디언트 업데이트를 달성합니다. 전역적으로는 Fed-SE가 환경 특이적 동역학을 분리하는 저차원 부분공간 내에서 업데이트를 집약하여 클라이언트 간 부정적 전이를 효과적으로 감소시킵니다. 5가지 이기종 환경에서의 실험 결과, Fed-SE가 연합 학습 기준선 대비 평균 작업 성공률을 약 18% 향상시켜, 개인정보 보호가 제약된 배포 환경에서도 강건한 교차 환경 지식 전달의 효과성을 입증했습니다.
역할 수행 에이전트(RPA)는 상호 충돌하는 여러 기술을 동시에 숙달해야 합니다. 여기에는 다중 턴 지시 따르기, 도메인 지식 발휘, 일관된 언어 스타일 채택 등이 포함됩니다. 기존 연구는 표면적 단서에 과적합되어 다양성이 낮은 지도 미세 조정(SFT)에 의존하거나, 포괄적인 RPA 최적화를 위한 다차원 학습에 실패하는 강화 학습(RL)을 적용했습니다. 본 논문은 일반적인 RPA를 위한 다차원적이고 세분화된 루브릭 최적화를 가능하게 하는 강화 학습 프레임워크인 MOA(다중 목표 정렬)를 제안합니다. MOA는 최적화 성능을 향상시키기 위해 여러 세분화된 루브릭을 동시에 학습하는 새로운 다중 목표 최적화 전략을 도입합니다. 또한 모델 출력의 다양성과 품질 문제를 해결하기 위해 오프-폴리시 가이드라인을 통한 사고 증강 롤아웃을 활용했습니다. PersonaGym 및 RoleMRC와 같은 도전적인 벤치마크에서의 광범위한 실험을 통해 MOA가 8B 규모의 모델로 하여금 GPT-4o 및 Claude와 같은 강력한 기준 모델들을 여러 차원에서 맞서거나 심지어 능가할 수 있게 함을 확인했습니다. 이는 MOA가 역할 지식, 페르소나 스타일, 다양한 시나리오, 복잡한 다중 턴 대화의 요구 사항을 동시에 충족할 수 있는 RPA 구축에 큰 잠재력을 가지고 있음을 입증합니다.
구현된 AI의 발전으로 지능형 휴머노이드 로봇의 상당한 잠재력이 열렸습니다. 그러나 Vision-Language-Action(VLA) 모델과 월드 모델 모두의 발전은 대규모 다양성 훈련 데이터의 부족으로 심각하게 저해되고 있습니다. 유망한 해결책은 웹 규모의 인간 동영상을 '로봇화'하는 것으로, 이는 정책 훈련에 효과적인 것으로 입증되었습니다. 그러나 이러한 솔루션은 주로 로봇 팔을 1인칭 동영상에 '덧씌우는' 방식으로, 3인칭 동영상의 복잡한 전신 동작과 장면 폐색을 처리할 수 없어 인간을 로봇화하는 데 부적합합니다. 이러한 격차를 해결하기 위해 우리는 강력한 Wan 2.2 모델을 비디오-투-비디오 구조로 적용하고 인간-휴머노이드 변환 작업을 위해 미세 조정하는 생성형 비디오 편집 접근법인 X-Humanoid를 소개합니다. 이 미세 조정에는 짝을 이룬 인간-휴머노이드 동영상이 필요하므로, 우리는 확장 가능한 데이터 생성 파이프라인을 설계하여 언리얼 엔진을 사용하여 커뮤니티 자산을 17시간 이상의 짝을 이룬 합성 동영상으로 전환했습니다. 그런 다음 훈련된 모델을 Ego-Exo4D 동영상 60시간 분량에 적용하여 360만 프레임 이상의 새로운 대규모 '로봇화'된 휴머노이드 비디오 데이터 세트를 생성하고 공개했습니다. 정량적 분석과 사용자 조사는 우리 방법이 기존 기준선보다 우월함을 확인합니다: 사용자의 69%가 모션 일관성에서, 62.1%가 구현 정확성에서 우리 방법을 최고로 평가했습니다.
최근 비전-언어 모델(VLM) 기반 접근법들이 SVG 생성에서 인상적인 결과를 달성했습니다. 그러나 이러한 방법들은 디코딩 과정에서 텍스트만 생성하고 시각적 신호가 부족하기 때문에 복잡한 의미 구조를 처리하는 데 어려움을 겪으며, 시각적으로 매력적이거나 기하학적으로 일관된 SVG를 생성하지 못하는 경우가 많습니다. 본 연구에서는 이미지 토큰과 해당 SVG 토큰을 종단간 방식으로 동시에 생성하는 통합 멀티모달 모델인 DuetSVG를 소개합니다. DuetSVG는 이미지와 SVG 데이터셋을 모두 활용하여 학습됩니다. 추론 단계에서는 모델의 고유 시각 예측 결과를 SVG 디코딩 품질 향상을 위한 가이드로 활용하는 새로운 테스트 타임 스케일링 전략을 적용합니다. 광범위한 실험을 통해 우리 방법이 기존 방법들을 능가하며, 다양한 응용 분야에서 시각적으로 정확하고 의미론적으로 일관되며 구문적으로 깔끔한 SVG를 생성함을 입증했습니다.