번역이 포함된 일일 선별된 AI 연구 논문
그래픽 사용자 인터페이스(GUI) 기반화는 자연어 명령을 자율적 상호작용을 위한 정확한 인터페이스 위치로 매핑한다. 현재의 강화 학습 접근법은 요소를 명중 또는 실패 대상으로 취급하는 이진 보상을 사용하며, 이는 공간적 상호작용의 연속적인 특성을 무시하는 희소 신호를 생성한다. 인간의 클릭 행동이 목표 요소를 중심으로 자연스럽게 가우시안 분포를 형성한다는 점에 착안하여, 우리는 GUI 요소를 인터페이스 평면 전체에 걸친 연속적인 가우시안 분포로 모델링하는 원칙적인 보상 프레임워크인 GUI 가우시안 기반화 보상(GUI-G^2)을 소개한다. GUI-G^2는 두 가지 상호 보완적인 메커니즘을 통합한다: 가우시안 점 보상은 요소 중심을 중심으로 지수적으로 감소하는 분포를 통해 정확한 위치 지정을 모델링하고, 커버리지 보상은 예측된 가우시안 분포와 목표 영역 간의 겹침을 측정하여 공간적 정렬을 평가한다. 다양한 요소 크기를 처리하기 위해, 우리는 요소 크기에 기반하여 보상 분포를 조정하는 적응형 분산 메커니즘을 개발했다. 이 프레임워크는 GUI 기반화를 희소한 이진 분류에서 조밀한 연속 최적화로 전환하며, 가우시안 분포는 최적의 상호작용 위치로 모델을 안내하는 풍부한 기울기 신호를 생성한다. ScreenSpot, ScreenSpot-v2, ScreenSpot-Pro 벤치마크에 걸친 광범위한 실험을 통해 GUI-G^2가 최신 기술인 UI-TARS-72B를 크게 능가하며, ScreenSpot-Pro에서 가장 큰 24.7%의 개선을 보여준다는 것을 입증했다. 우리의 분석은 연속 모델링이 인터페이스 변동에 대한 우수한 견고성과 보이지 않는 레이아웃에 대한 향상된 일반화를 제공하여 GUI 상호작용 작업에서 공간 추론의 새로운 패러다임을 확립한다는 것을 보여준다.
대규모 언어 모델은 최근 유창한 텍스트 생성에서 다양한 도메인에 걸친 고급 추론 능력으로 진화하며, 추론 언어 모델(Reasoning Language Models, RLMs)로 발전했습니다. 이러한 도메인 중 수학적 추론은 정밀한 다단계 논리와 추상적 사고를 요구하며, 이는 다른 작업으로 일반화될 수 있기 때문에 대표적인 벤치마크로 작용합니다. GPT-3와 같은 폐쇄형 RLMs는 인상적인 추론 능력을 보여주지만, 그들의 독점적 성격은 투명성과 재현성을 제한합니다. 많은 오픈소스 프로젝트가 이러한 격차를 해소하려고 노력하고 있지만, 대부분 데이터셋과 상세한 학습 설정과 같은 중요한 리소스를 누락함으로써 충분한 개방성을 제공하지 못하고 있어 재현성을 저해합니다. RLM 개발의 투명성을 높이기 위해, 우리는 Qwen-2.5 백본을 기반으로 기존 오픈소스 RLMs의 성능을 능가하거나 동등한 성능을 보이는 완전한 오픈소스 RLMs인 MiroMind-M1 시리즈를 소개합니다. 구체적으로, 우리의 모델은 검증된 CoT(Chain-of-Thought) 궤적을 포함한 719K개의 수학적 추론 문제로 구성된 신중하게 선별된 코퍼스에 대한 SFT(Supervised Fine-Tuning)와 62K개의 도전적이고 검증 가능한 문제에 대한 RLVR(Reinforcement Learning with Verifiable Reasoning) 두 단계로 학습됩니다. RLVR 프로세스의 견고성과 효율성을 향상시키기 위해, 우리는 길이 점진적 학습(length-progressive training)과 적응형 반복 패널티(adaptive repetition penalty)를 통합하여 컨텍스트 인식 RL 학습을 촉진하는 Context-Aware Multi-Stage Policy Optimization 알고리즘을 도입했습니다. 우리의 모델은 AIME24, AIME25, MATH 벤치마크에서 Qwen-2.5 기반 오픈소스 7B 및 32B 모델 중 최신 기술 수준 또는 경쟁력 있는 성능과 우수한 토큰 효율성을 달성했습니다. 재현성을 촉진하기 위해, 우리는 전체 스택을 공개합니다: 모델(MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); 데이터셋(MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); 그리고 모든 학습 및 평가 설정. 이러한 리소스가 추가 연구를 지원하고 커뮤니티의 발전을 촉진하기를 바랍니다.
최근 대규모 추론 모델의 발전은 검증 가능한 보상을 활용한 강화 학습(RLVR)이 복잡한 논리적 과제 해결을 포함한 AI의 능력 향상을 위한 유망한 방법으로 주목받고 있음을 보여줍니다. 그러나 RLVR이 모델의 추론 경계를 진정으로 확장하는지, 아니면 단순히 기본 모델이 이미 알고 있는 높은 보상 출력을 정밀도 향상을 위해 증폭시키는지 여부는 여전히 명확하지 않습니다. 본 연구는 RLVR의 잠재적 한계에 대한 새로운 통찰을 제공하는 이론적 및 실증적 조사를 제시합니다. 먼저, RLVR이 기본 모델의 지원 범위에 의해 제약을 받는다는 새로운 이론적 관점을 제시합니다. 즉, 초기 확률이 0인 해결책을 샘플링할 수 없으며, 완전히 독창적인 해결책의 발견을 제한할 수 있는 보수적인 재가중 메커니즘으로 작동한다는 것입니다. 또한 엔트로피-보상 트레이드오프를 확인했습니다. RLVR이 정밀도를 안정적으로 향상시키는 반면, 탐색을 점차 좁히고 올바르지만 소수로 표현된 해결책을 간과할 가능성이 있습니다. 광범위한 실험을 통해 RLVR이 pass@1을 지속적으로 개선하지만, 더 큰 샘플링 예산 하에서 경험적 지원의 축소가 일반적으로 경험적 지원의 확장을 능가하며, 기본 모델이 이전에 접근 가능했던 정답을 회복하지 못한다는 것을 검증했습니다. 흥미롭게도, RLVR이 때때로 토큰 수준의 엔트로피를 증가시켜 각 생성 단계에서 더 큰 불확실성을 초래하지만, 답변 수준의 엔트로피는 감소하여 이러한 겉보기에 더 불확실한 경로가 궁극적으로 더 작은 집합의 독특한 답변으로 수렴한다는 것을 관찰했습니다. 종합적으로, 이러한 발견들은 RLVR이 추론 지평을 확장하는 데 있어 잠재적 한계를 드러냅니다. 이 보이지 않는 제약을 극복하기 위해서는 명시적인 탐색 메커니즘이나 소수로 표현된 해결 영역에 확률 질량을 부여하는 하이브리드 전략과 같은 미래의 알고리즘 혁신이 필요할 수 있습니다.
최근 생성 모델링의 발전으로 추가적인 사용자 입력 없이 자연어 지시를 따르는 이미지 편집 도우미가 가능해졌다. 이러한 도우미의 지도 학습에는 수백만 개의 삼중항(원본 이미지, 지시문, 편집된 이미지)이 필요하다. 그러나 픽셀 단위로 정확한 예시를 채굴하는 것은 어려운 작업이다. 각 편집은 프롬프트로 지정된 영역에만 영향을 미치고, 스타일 일관성을 유지하며, 물리적 타당성을 존중하고, 시각적 매력을 유지해야 한다. 강력한 자동화된 편집 품질 측정 기준의 부재는 대규모로 신뢰할 수 있는 자동화를 방해한다. 본 연구에서는 도메인, 해상도, 지시문 복잡성, 스타일을 아우르는 고품질 삼중항을 채굴하는 자동화된 모듈식 파이프라인을 제시한다. 공개된 생성 모델을 기반으로 인간의 개입 없이 실행되는 이 시스템은 작업에 맞게 조정된 Gemini 검증기를 사용하여 지시문 준수도와 미적 요소를 직접 평가함으로써 세분화 또는 기반 모델의 필요성을 제거한다. 인버전과 구성적 부트스트래핑을 통해 채굴된 데이터 세트를 약 2.2배 확장하여 대규모 고품질 학습 데이터를 가능하게 한다. 가장 반복적인 주석 단계를 자동화함으로써, 이 접근법은 인간의 라벨링 노력 없이도 새로운 규모의 학습을 가능하게 한다. 이 자원 집약적인 분야의 연구를 민주화하기 위해, 우리는 358,000개의 고품질 삼중항으로 구성된 공개 데이터셋인 NHR-Edit를 공개한다. 가장 큰 규모의 교차 데이터셋 평가에서 이 데이터셋은 모든 공개 대안을 능가한다. 또한, 우리는 공개 소스로 조정된 Bagel 모델인 Bagel-NHR-Edit를 공개하며, 이는 우리의 실험에서 최첨단 지표를 달성한다.
대규모 언어 모델(LLM) 기반 에이전트의 등장은 웹 기반 정보 탐색(IS) 기능을 통해 복잡하고 개방형 작업에 대한 해결책을 가능하게 함으로써 인공지능 분야에 혁신을 가져왔습니다. 그러나 고품질 훈련 데이터의 부족은 IS 에이전트의 개발을 제한해 왔습니다. 기존 접근 방식은 일반적으로 정보 중심 패러다임을 채택하여 먼저 웹 데이터를 수집한 후 검색 결과를 기반으로 질문을 생성합니다. 그러나 이는 정보 구조와 추론 구조, 질문과 답변 간의 불일치를 초래할 수 있습니다. 이를 완화하기 위해 우리는 데이터셋을 구축하기 위한 형식화 중심 IS 데이터 합성 프레임워크인 WebShaper를 제안합니다. WebShaper는 집합 이론을 통해 IS 작업을 체계적으로 형식화합니다. 이 형식화의 핵심은 지식 투영(KP) 개념으로, KP 연산 조합을 통해 추론 구조를 정밀하게 제어할 수 있습니다. 합성 과정에서는 먼저 시드 작업을 생성한 후, 다단계 확장 프로세스를 사용합니다. 각 단계에서 에이전트적 확장기(Expander)는 우리의 형식화를 기반으로 검색 및 검증 도구를 사용하여 현재의 형식적 질문을 더 복잡하게 확장합니다. 우리는 합성된 데이터셋으로 모델을 훈련시켰습니다. 실험 결과, WebShaper는 GAIA 및 WebWalkerQA 벤치마크에서 오픈소스 IS 에이전트 중 최첨단 성능을 달성함을 보여줍니다.
우리는 범용 로봇 정책 구축을 위한 최근 연구 성과인 GR-3의 개발을 보고한다. GR-3은 대규모 시각-언어-행동(VLA) 모델로, 새로운 객체, 환경 및 추상 개념을 포함한 지시에 대한 탁월한 일반화 능력을 보여준다. 또한, 최소한의 인간 궤적 데이터로 효율적으로 미세 조정이 가능하여 새로운 환경에 빠르고 경제적으로 적응할 수 있다. GR-3은 양손 조작 및 이동이 필요한 장기적이고 정교한 작업에서도 뛰어난 성능을 발휘하며, 견고하고 신뢰할 수 있는 성능을 보여준다. 이러한 능력은 웹 규모의 시각-언어 데이터와의 공동 학습, VR 장치를 통해 수집된 인간 궤적 데이터를 이용한 효율적인 미세 조정, 로봇 궤적 데이터를 활용한 효과적인 모방 학습을 포함한 다각적인 학습 방법을 통해 달성되었다. 또한, GR-3과 통합 시 다양한 작업을 수행할 수 있는 탁월한 유연성과 신뢰성을 갖춘 다목적 양손 이동 로봇인 ByteMini를 소개한다. 광범위한 실험을 통해 GR-3이 다양한 도전적인 작업에서 최신 기준 방법인 pi_0을 능가함을 보여준다. 우리는 GR-3이 일상 생활에서 인간을 지원할 수 있는 범용 로봇 구축을 위한 한 걸음이 되기를 기대한다.
비디오 객체 분할(Video Object Segmentation, VOS)은 컴퓨터 비전의 핵심 과제로, 모델이 비디오 프레임 간에 대상 객체를 추적하고 분할할 것을 요구합니다. 최근의 노력으로 인해 상당한 진전이 있었음에도 불구하고, 현재의 기술은 급격한 시각적 변화, 가려짐, 복잡한 장면 변화를 다루는 데 있어 여전히 인간의 능력에 미치지 못합니다. 이러한 한계는 외형 매칭에 의존함으로써 발생하며, 시간적 동역학에 걸쳐 강력한 식별을 가능하게 하는 인간과 같은 객체에 대한 개념적 이해를 소홀히 합니다. 이러한 격차를 동기로, 우리는 기존의 특징 매칭에서 벗어나 고차원적이고 객체 중심의 표현을 점진적으로 구축하고 활용하는 개념 주도 분할 프레임워크인 Segment Concept(SeC)를 제안합니다. SeC는 대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)을 활용하여 다양한 프레임 간의 시각적 단서를 통합하고, 강력한 개념적 사전 정보를 구축합니다. 추론 과정에서 SeC는 처리된 프레임을 기반으로 대상에 대한 포괄적인 의미 표현을 형성함으로써 후속 프레임의 강력한 분할을 실현합니다. 더 나아가, SeC는 LVLM 기반의 의미 추론과 향상된 특징 매칭을 적응적으로 균형 잡으며, 장면 복잡도에 따라 계산 노력을 동적으로 조정합니다. 고차원적 개념 추론과 강력한 의미 이해를 요구하는 시나리오에서 VOS 방법을 엄격히 평가하기 위해, 우리는 의미적 복합 시나리오 비디오 객체 분할 벤치마크(Semantic Complex Scenarios Video Object Segmentation benchmark, SeCVOS)를 도입했습니다. SeCVOS는 상당한 외형 변화와 동적 장면 변환을 통해 모델에 도전하도록 설계된 160개의 수동 주석이 달린 다중 시나리오 비디오로 구성됩니다. 특히, SeC는 SeCVOS에서 SAM 2.1 대비 11.8점의 향상을 달성하며, 개념 인식 비디오 객체 분할 분야에서 새로운 최첨단 기술을 확립했습니다.
3D 신경 표현 및 인스턴스 수준 편집 모델의 최근 발전으로 고품질 3D 콘텐츠의 효율적인 생성이 가능해졌습니다. 그러나, 특히 Gaussian Splatting의 경우, 일관되지 않은 다중 뷰 2D 부분 분할과 Score Distillation Sampling (SDS) 손실의 본질적으로 모호한 특성으로 인해 정밀한 로컬 3D 편집을 달성하는 것은 여전히 어려운 과제입니다. 이러한 한계를 해결하기 위해, 우리는 정밀하고 극적인 부분 수준 수정을 가능하게 하는 새로운 로컬 3D Gaussian 편집 프레임워크인 RoMaP를 제안합니다. 먼저, 우리는 3D-Geometry Aware Label Prediction (3D-GALP)을 통해 강력한 3D 마스크 생성 모듈을 소개합니다. 이 모듈은 구면 조화 함수(SH) 계수를 사용하여 뷰 의존적 레이블 변동과 소프트 레이블 속성을 모델링하여 다양한 시점에서 정확하고 일관된 부분 분할을 제공합니다. 둘째, 우리는 표준 SDS 손실과 추가 정규화자를 결합한 정규화된 SDS 손실을 제안합니다. 특히, Scheduled Latent Mixing and Part (SLaMP) 편집 방법을 통해 L1 앵커 손실을 도입하여 고품질의 부분 편집된 2D 이미지를 생성하고, 컨텍스트 일관성을 유지하면서 수정을 대상 영역으로만 제한합니다. Gaussian 사전 제거와 같은 추가 정규화자는 기존 컨텍스트를 넘어서는 변경을 허용하여 유연성을 더욱 향상시키고, 강력한 3D 마스킹은 의도하지 않은 편집을 방지합니다. 실험 결과는 우리의 RoMaP가 재구성 및 생성된 Gaussian 장면과 객체에서 정성적 및 정량적으로 최첨단 로컬 3D 편집을 달성함을 보여주며, 더 강력하고 유연한 부분 수준 3D Gaussian 편집을 가능하게 합니다. 코드는 https://janeyeon.github.io/romap에서 확인할 수 있습니다.
우리는 대규모 인간 동영상 데이터로 학습된 고도로 정교한 시각-언어-행동 모델(VLA)인 Being-H0를 소개한다. 기존 VLA 모델들은 높은 정교함을 요구하는 복잡한 조작 작업에 어려움을 겪으며, 새로운 시나리오와 작업으로의 일반화가 부족한데, 이는 주로 시뮬레이션 데이터의 현실 간극(sim-to-real gap)이나 규모와 다양성이 부족한 원격 조작 데모에 의존하기 때문이다. 이러한 데이터 병목 현상을 해결하기 위해, 우리는 웹 데이터에 풍부하게 존재하는 정교성과 확장성을 활용하여 인간의 손을 기초 조작자로 삼는 접근법을 제안한다. 우리의 접근법은 물리적 명령 튜닝(physical instruction tuning)을 중심으로 하는데, 이는 대규모 VLA 사전 학습, 3D 추론을 위한 물리적 공간 정렬, 로봇 작업을 위한 사후 학습 적응을 결합한 새로운 훈련 패러다임이다. 또한, 정확한 손 동작 궤적을 모델링하기 위해 밀리미터 수준의 재구성 정확도를 달성하는 부위별 동작 토큰화(part-level motion tokenization) 방법을 도입했다. 제안된 패러다임을 지원하기 위해, 우리는 모션 캡처, VR, RGB 단독 동영상 등 다양한 소스를 통합하여 수백만 개의 동작 기반 명령 인스턴스로 구성된 대규모 데이터셋을 구축하는 포괄적인 데이터 큐레이션 파이프라인을 개발했다. 실험적으로 Being-H0가 손 동작 생성과 명령 수행에서 탁월한 성능을 보이며, 모델 및 데이터 크기에 따라 잘 확장됨을 입증했다. 특히, 물리적 명령 튜닝이 적용됨에 따라 Being-H0가 실제 로봇 조작에서 기대되는 성능 향상을 보이는 것을 관찰했다. 더 자세한 내용은 https://beingbeyond.github.io/Being-H0에서 확인할 수 있다.
음성 언어 모델(SLMs)은 음성 입력을 받아 음성 응답을 생성하도록 설계되었습니다. 그러나 현재의 SLM은 응답하기 전에 내부적으로 말하지 않는 사고 과정을 수행할 수 있는 능력이 부족합니다. 이와 대조적으로, 인간은 일반적으로 복잡한 정신적 추론을 내부적으로 수행함으로써 아이디어를 명확하고 간결하게 전달할 수 있습니다. 따라서 SLM에 말하지 않는 사고 과정을 통합하는 것은 매우 바람직합니다. 말을 시작하기 전에 완전한 사고의 연쇄(CoT) 추론을 순진하게 생성하는 것은 SLM이 사고할 수 있게 할 수 있지만, 이는 CoT 추론이 임의로 길어질 수 있기 때문에 음성 응답에 추가적인 지연을 유발합니다. 이 문제를 해결하기 위해, 우리는 말하지 않는 추론 청크와 음성 응답 청크를 번갈아 생성하는 새로운 생성 방법인 Stitch를 제안합니다. 음성 응답 청크의 오디오 지속 시간이 음성 응답 청크의 토큰을 생성하는 시간보다 훨씬 길기 때문에, 남은 자유 시간을 말하지 않는 추론 토큰을 생성하는 데 사용합니다. 오디오 청크가 사용자에게 재생되는 동안, 모델은 다음 말하지 않는 추론 청크를 계속 생성하여 동시에 사고하고 말하는 것을 달성합니다. 놀랍게도, Stitch는 설계상 말하지 않는 CoT를 생성할 수 없는 기준선의 지연 시간과 일치하면서 수학 추론 데이터셋에서 기준선보다 15% 더 우수한 성능을 보입니다; Stitch는 또한 비추론 데이터셋에서 기준선 모델과 동등하게 잘 수행합니다. 일부 애니메이션과 데모는 프로젝트 페이지(https://d223302.github.io/STITCH)에서 확인할 수 있습니다.
우리는 대형 추론 모델(Large Reasoning Models, LRMs)의 추론 길이를 연장할 때 성능이 저하되는 평가 과제를 구성하여, 테스트 시점 계산량과 정확도 간의 역비례 관계를 보여준다. 우리의 평가 과제는 네 가지 범주로 구성된다: 방해 요소가 포함된 단순 계수 과제, 잡음 특성이 포함된 회귀 과제, 제약 조건 추적이 필요한 연역 과제, 그리고 고급 AI 위험 과제. 모델이 더 오래 추론할 때 발생하는 다섯 가지 고유한 실패 모드를 확인하였다: 1) Claude 모델은 관련 없는 정보에 점점 더 주의가 분산된다; 2) OpenAI o-시리즈 모델은 방해 요소에 저항하지만 문제 프레이밍에 과적합된다; 3) 모델은 합리적인 사전 지식에서 잡음 상관관계로 전환된다; 4) 모든 모델은 복잡한 연역 과제에 집중하는 데 어려움을 보인다; 5) 연장된 추론은 우려스러운 행동을 증폭시킬 수 있으며, Claude Sonnet 4는 자기 보존 표현이 증가한다. 이러한 결과는 테스트 시점 계산량 확장이 모델 능력 향상에 유망하지만, 문제가 있는 추론 패턴을 의도치 않게 강화할 수 있음을 시사한다. 우리의 결과는 다양한 추론 길이에 걸쳐 모델을 평가하여 LRMs의 이러한 실패 모드를 식별하고 해결하는 것의 중요성을 입증한다.
3D 가우시안 스플래팅(3DGS)은 새로운 시점 합성(NVS) 작업에서 세밀한 표현 능력과 높은 렌더링 속도를 보여주었다. 그러나 역렌더링에의 적용은 여전히 여러 도전 과제에 직면해 있는데, 이는 가우시안 프리미티브의 이산적 특성으로 인해 기하학적 제약을 적용하기 어렵기 때문이다. 최근 연구들은 부호 거리 필드(SDF)를 추가적인 연속적 표현으로 도입하여 가우시안 프리미티브로 정의된 기하학을 정규화하고 있다. 이는 분해 품질을 향상시키지만, 메모리 사용량을 증가시키고 훈련 과정을 복잡하게 만드는 단점이 있다. 본 연구에서는 이러한 접근과 달리, 각 가우시안 내에서 샘플링된 값을 통해 연속적인 SDF를 이산적으로 표현하는 이산화된 SDF를 제안한다. 이 방법은 SDF를 가우시안 불투명도와 SDF-to-불투명도 변환을 통해 연결함으로써, 스플래팅을 통해 SDF를 렌더링하고 레이 마칭의 계산 비용을 피할 수 있게 한다. 주요 도전 과제는 이산화된 샘플들이 기저 SDF와 일관되도록 정규화하는 것인데, 이산적 표현은 기울기 기반 제약(예: Eikonal 손실)을 적용하기 어렵기 때문이다. 이를 위해, 우리는 가우시안을 SDF의 제로 레벨 집합에 투영하고 스플래팅으로부터 얻은 표면과의 정렬을 강제하는, 즉 투영 기반 일관성 손실을 적용한다. 이산화된 SDF 덕분에, 우리의 방법은 GS 이상의 추가 메모리를 요구하지 않으면서도 복잡한 수동 설계 최적화를 피하고 더 높은 재조명 품질을 달성한다. 실험 결과는 우리의 방법이 기존의 가우시안 기반 역렌더링 방법들을 능가함을 보여준다. 우리의 코드는 https://github.com/NK-CS-ZZL/DiscretizedSDF에서 확인할 수 있다.
인간의 지능은 정확성과 견고성을 요구하며, 전자는 후자의 기반이 됩니다. 비디오 이해에서 정확성은 시각적 콘텐츠의 정확한 해석을 보장하고, 견고성은 어려운 조건에서도 일관된 성능을 유지합니다. 비디오 대형 언어 모델(video LLMs)의 발전에도 불구하고, 기존 벤치마크는 비디오 해석에서 이러한 모델과 인간 지능 간의 정확성과 견고성 유지 차이를 충분히 반영하지 못합니다. 우리는 비디오 LLM이 실제 비디오를 인간만큼 효과적으로 해석할 수 있는지 평가하기 위해 비디오 사고 테스트(Video-TT)를 소개합니다. Video-TT는 복잡한 시각적 내러티브 이해에서의 진정한 격차를 반영하며, 자연스러운 적대적 질문에 대한 견고성을 평가합니다. Video-TT는 1,000개의 YouTube Shorts 비디오로 구성되어 있으며, 각 비디오에는 하나의 개방형 질문과 시각적 및 내러티브 복잡성을 탐구하는 네 개의 적대적 질문이 포함됩니다. 우리의 평가는 비디오 LLM과 인간 성능 간에 상당한 격차가 있음을 보여줍니다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키기 위한 효과적인 사후 훈련 방법으로 자리 잡았으며, 주로 반성 및 계획과 같은 고차원적 행동을 형성하는 데 중점을 둡니다. 그러나 기존의 RLVR 알고리즘은 종종 모든 토큰에 동일한 훈련 신호를 적용하여, 낮은 엔트로피를 가지는 지식 관련 토큰과 높은 엔트로피를 가지는 추론 관련 토큰의 서로 다른 역할을 고려하지 않았습니다. 최근 일부 방법은 그래디언트 마스킹 또는 비동기적 업데이트를 통해 이러한 토큰 유형을 분리하려고 시도했지만, 이러한 접근 방식은 모델 출력에서의 의미적 의존성을 깨뜨리고 효과적인 학습을 방해할 수 있습니다. 본 연구에서는 이중 토큰 제약과 동기적 업데이트를 통해 엔트로피를 고려한 RLVR 접근 방식인 Archer를 제안합니다. 구체적으로, 우리의 방법은 추론 토큰에 대해 더 약한 KL 정규화와 더 높은 클리핑 임계값을 적용하여 탐색을 촉진하는 한편, 지식 토큰에 대해 더 강한 제약을 사용하여 사실적 지식을 유지합니다. 여러 수학적 추론 및 코드 생성 벤치마크에서의 실험 결과는 우리의 접근 방식이 이전의 RLVR 방법들을 크게 능가하며, 비슷한 규모의 모델 중에서 최첨단 성능에 도달하거나 이를 초과함을 보여줍니다. 코드는 https://github.com/wizard-III/ArcherCodeR에서 확인할 수 있습니다.
대규모 언어 모델(LLM) 기반 지능형 에이전트의 급속한 부상은 견고하고 확장 가능한 평가 프레임워크의 필요성을 강조한다. 기존 방법은 정적 벤치마크와 노동 집약적인 데이터 수집에 의존하여 실질적인 평가를 제한한다. 우리는 \oursystemname을 소개한다. 이는 오픈소스 모델 컨텍스트 프로토콜(MCP) 기반 프레임워크로, 다양한 도메인에서 LLM 에이전트의 종단 간 작업 생성과 심층 평가를 자동화한다. MCPEval은 메트릭을 표준화하고, 네이티브 에이전트 도구와 원활하게 통합하며, 평가 파이프라인 구축에서 수작업을 제거한다. 다섯 가지 실제 도메인에서의 실험 결과는 MCPEval이 세밀하고 도메인 특화된 성능을 드러내는 데 효과적임을 보여준다. 우리는 재현 가능하고 표준화된 LLM 에이전트 평가를 촉진하기 위해 MCPEval을 공개한다(https://github.com/SalesforceAIResearch/MCPEval).
비디오 생성 모델은 고품질의 사실적인 콘텐츠를 생성하는 데 있어서 놀라운 진전을 이루어냈습니다. 그러나 물리적 현상을 정확하게 시뮬레이션하는 능력은 여전히 중요한 해결 과제로 남아 있습니다. 본 논문은 물리 법칙에 대한 준수 여부를 기준으로 비디오 생성 모델을 평가하기 위해 설계된 포괄적인 벤치마크인 PhyWorldBench를 소개합니다. 이 벤치마크는 물체의 운동과 에너지 보존과 같은 기본 원리부터 강체 상호작용 및 인간 또는 동물의 움직임과 같은 더 복잡한 시나리오에 이르기까지 다양한 수준의 물리적 현상을 다룹니다. 또한, "반물리학(Anti-Physics)"이라는 새로운 카테고리를 도입하여, 실제 세계의 물리학을 의도적으로 위반하는 프롬프트를 통해 모델이 이러한 지시를 따르면서도 논리적 일관성을 유지할 수 있는지를 평가할 수 있도록 했습니다. 대규모 인간 평가 외에도, 현재의 다중언어 모델(MLLM)을 활용하여 제로샷 방식으로 물리학적 사실성을 평가할 수 있는 간단하면서도 효과적인 방법을 설계했습니다. 우리는 12개의 최첨단 텍스트-투-비디오 생성 모델을 평가했으며, 이 중 5개의 오픈소스 모델과 5개의 독점 모델을 포함하여 상세한 비교와 분석을 수행했습니다. 1,050개의 선별된 프롬프트를 통해 기본, 복합 및 반물리학 시나리오에 걸쳐 모델의 출력을 체계적으로 테스트함으로써, 이러한 모델들이 실제 세계의 물리학을 준수하는 데 직면한 주요 과제를 확인했습니다. 그런 다음 다양한 프롬프트 유형에 따른 다양한 물리적 현상에 대한 성능을 엄격히 검토하여, 물리적 원칙에 대한 충실도를 높이기 위한 프롬프트 작성에 대한 타겟팅된 권장 사항을 도출했습니다.
비디오에서 4차원 시공간 기하학을 인지하고 재구성하는 것은 근본적이면서도 도전적인 컴퓨터 비전 과제입니다. 상호작용적이고 실시간 애플리케이션을 가능하게 하기 위해, 우리는 자동회귀적 대규모 언어 모델과 유사한 철학을 공유하는 스트리밍 4차원 시각 기하학 트랜스포머를 제안합니다. 우리는 간단하고 효율적인 설계를 탐구하고, 입력 시퀀스를 온라인 방식으로 처리하기 위해 인과적 트랜스포머 아키텍처를 사용합니다. 시간적 인과적 어텐션을 활용하고, 역사적 키와 값을 암묵적 메모리로 캐싱하여 효율적인 스트리밍 장기 4차원 재구성을 가능하게 합니다. 이 설계는 고품질의 공간적 일관성을 유지하면서 역사적 정보를 점진적으로 통합하여 실시간 4차원 재구성을 처리할 수 있습니다. 효율적인 학습을 위해, 우리는 밀집 양방향 시각 기하학 기반 트랜스포머(VGGT)에서 지식을 추출하여 우리의 인과적 모델로 전달하는 방법을 제안합니다. 추론 시, 우리의 모델은 대규모 언어 모델 분야에서 최적화된 효율적 어텐션 연산자(예: FlashAttention)의 이전을 지원합니다. 다양한 4차원 기하학 인지 벤치마크에서의 광범위한 실험은 우리의 모델이 온라인 시나리오에서 추론 속도를 증가시키면서도 경쟁력 있는 성능을 유지함을 보여주며, 확장 가능하고 상호작용적인 4차원 시각 시스템의 길을 열어줍니다. 코드는 https://github.com/wzzheng/StreamVGGT에서 확인할 수 있습니다.
다중 턴 문제 해결은 대규모 추론 모델(Large Reasoning Models, LRMs)이 자신의 추론을 반영하고 피드백을 통해 수정하는 데 있어 중요하면서도 어려운 과제이다. 기존의 강화 학습(Reinforcement Learning, RL) 방법은 검증 가능한 보상을 통해 대규모 추론 모델을 단일 턴 패러다임으로 훈련시킨다. 그러나 기존 RL 패러다임으로 훈련된 모델은 종종 다중 턴에 걸쳐 문제를 해결하는 능력을 상실하고, 문맥적 피드백을 기반으로 답변을 수정하는 데 어려움을 겪어 반복적인 응답을 생성하는 것으로 관찰되었다. 이에 우리는 다음과 같은 질문을 제기한다: LRMs가 다중 턴 문맥에서 자신의 답변을 반영하도록 학습할 수 있는가? 본 연구에서는 잘못된 답변 후에 단순한 피드백(예: "다시 시도해 보자")만을 사용하여 다중 턴 RL로 모델을 훈련시키는 것이 단일 턴 성능과 다중 턴 추론 능력을 모두 향상시킬 수 있음을 발견하였다. 우리는 반복적 문제 해결 과정에서 최소한이면서도 일반적인 단일 피드백을 사용하는 '단일 피드백 관찰(Unary Feedback as Observation, UFO)'을 강화 학습에 도입하였다. 이 방법은 기존의 단일 턴 RL 훈련 설정에 쉽게 적용할 수 있다. 실험 결과, UFO를 사용한 RL 훈련은 단일 턴 성능을 유지하면서 다중 턴 추론 정확도를 최대 14%까지 향상시켜, 언어 모델이 다중 턴 문제 해결에서 피드백에 더 잘 반응할 수 있도록 했다. 또한, 올바른 답변을 얻기 위해 필요한 턴 수를 최소화하면서 실수가 발생했을 때 다양한 추론을 유도하기 위해, 각 턴에서 신중하고 의도적인 답변을 생성하도록 모델을 유도하는 보상 구조를 설계하였다. 코드: https://github.com/lichengliu03/unary-feedback
그들의 근본적인 역할에도 불구하고, 어떤 속성이 생성 모델링을 위해 시각적 토크나이저를 더 효과적으로 만들 수 있는지는 여전히 명확하지 않습니다. 우리는 현대 생성 모델들이 개념적으로 유사한 훈련 목표를 공유한다는 것을 관찰했습니다. 이 목표는 가우시안 노이즈나 마스킹과 같은 손상된 입력으로부터 깨끗한 신호를 재구성하는 것으로, 우리는 이 과정을 디노이징(denoising)이라고 명명합니다. 이러한 통찰에 동기를 받아, 우리는 토크나이저 임베딩을 직접 하류 디노이징 목표와 정렬하여, 심하게 손상된 경우에도 잠재 임베딩이 더 쉽게 재구성되도록 장려하는 방법을 제안합니다. 이를 달성하기 위해, 우리는 보간 노이즈와 랜덤 마스킹으로 손상된 잠재 임베딩으로부터 깨끗한 이미지를 재구성하도록 훈련된 간단하지만 효과적인 토크나이저인 Latent Denoising Tokenizer(l-DeTok)를 소개합니다. ImageNet 256x256에 대한 광범위한 실험은 우리의 토크나이저가 6개의 대표적인 생성 모델에서 표준 토크나이저들을 일관되게 능가한다는 것을 보여줍니다. 우리의 연구 결과는 디노이징이 토크나이저 개발을 위한 근본적인 설계 원칙임을 강조하며, 이는 향후 토크나이저 설계에 대한 새로운 관점을 고무할 수 있기를 바랍니다.
머신러닝이 대규모 병렬화를 통해 발전해 왔음에도, 우리는 중요한 맹점을 발견했다: 일부 문제는 근본적으로 순차적이라는 점이다. 수학적 추론부터 물리적 시뮬레이션, 순차적 의사결정에 이르는 이러한 "본질적으로 직렬적인" 문제들은 병렬화할 수 없는 종속적인 계산 단계를 필요로 한다. 복잡성 이론을 바탕으로, 우리는 이러한 차이를 공식화하고 현재의 병렬 중심 아키텍처가 이러한 작업에서 근본적인 한계에 직면해 있음을 보여준다. 우리는 계산의 직렬적 특성을 인식하는 것이 머신러닝, 모델 설계, 하드웨어 개발에 깊은 함의를 지닌다고 주장한다. AI가 점점 더 복잡한 추론에 도전함에 따라, 단순히 병렬 계산뿐만 아니라 직렬 계산을 의도적으로 확장하는 것이 지속적인 진보를 위해 필수적임을 강조한다.
우리는 계층적 의사결정이 이루어지는 전략적 환경에서 경제 정책을 설계하고 평가하기 위해 에이전트 기반 모델링을 활용한 새로운 프레임워크인 LLM Economist를 제안한다. 하위 수준에서는 미국 인구조사에 기반한 소득 및 인구통계학적 통계에서 샘플링된 개인 맞춤형 프롬프트로 구현된 제한적 합리성을 가진 근로자 에이전트들이 맥락 내에서 학습된 텍스트 기반 효용 함수를 극대화하기 위해 노동 공급을 선택한다. 상위 수준에서는 플래너 에이전트가 맥락 내 강화 학습을 활용하여 현재 미국 연방 세율 구간에 기반한 조각별 선형 한계세율 체계를 제안한다. 이러한 구조는 경제 시뮬레이션에 신뢰할 수 있는 재정 실험을 위해 필수적인 세 가지 능력을 부여한다: (i) 이질적 효용의 최적화, (ii) 인구통계학적으로 현실적인 대규모 에이전트 집단의 원칙적 생성, (iii) 자연어로 완전히 표현된 메커니즘 설계 — 궁극적인 넛지 문제. 최대 100개의 상호작용 에이전트 집단을 대상으로 한 실험에서 플래너는 Saez 솔루션에 비해 총체적 사회 복지를 개선하는 Stackelberg 균형 근처로 수렴하며, 주기적인 개인 수준 투표 절차는 분산된 거버넌스 하에서 이러한 이익을 더욱 증진시킨다. 이러한 결과는 대규모 언어 모델 기반 에이전트들이 복잡한 경제 시스템을 공동으로 모델링, 시뮬레이션, 통치할 수 있음을 보여주며, 더 나은 문명을 구축하기 위해 사회적 규모에서 정책 평가를 위한 실용적인 테스트베드를 제공한다.
일관성 있는 긴 동영상 생성은 복잡한 과제입니다: 확산 기반 생성 모델이 시각적으로 인상적인 짧은 클립을 생성하지만, 이를 더 긴 지속 시간으로 확장하면 메모리 병목 현상과 장기적 불일치가 발생하는 경우가 많습니다. 본 논문에서는 이러한 문제를 해결하기 위해 압축된 토큰을 활용한 새로운 2단계 프레임워크인 TokensGen을 제안합니다. 우리의 방법은 긴 동영상 생성을 세 가지 핵심 작업으로 분해합니다: (1) 클립 내부 의미 제어, (2) 장기적 일관성 제어, (3) 클립 간 부드러운 전환. 먼저, 짧은 클립을 의미적으로 풍부한 토큰으로 압축하는 비디오 토크나이저(Video Tokenizer)와 함께 텍스트 및 비디오 토큰으로 안내되는 짧은 비디오 확산 모델인 To2V(Token-to-Video)를 학습합니다. 둘째, 모든 토큰을 한 번에 생성하여 클립 간 전역적 일관성을 보장하는 비디오 토큰 확산 트랜스포머인 T2To(Text-to-Token)를 소개합니다. 마지막으로, 추론 과정에서 적응형 FIFO-Diffusion 전략을 통해 인접한 클립을 원활하게 연결하여 경계 아티팩트를 줄이고 부드러운 전환을 강화합니다. 실험 결과는 우리의 접근 방식이 과도한 계산 오버헤드 없이 장기적 시간적 및 내용적 일관성을 크게 향상시킴을 보여줍니다. 압축된 토큰과 사전 학습된 짧은 비디오 모델을 활용함으로써, 우리의 방법은 스토리텔링, 영화 제작, 몰입형 시뮬레이션을 위한 새로운 가능성을 열며, 확장 가능하고 모듈화된 긴 동영상 생성 솔루션을 제공합니다. 자세한 내용은 프로젝트 페이지(https://vicky0522.github.io/tokensgen-webpage/)를 참조하십시오.
소규모 작업별 데이터에 대한 지속적 사전 학습은 대규모 언어 모델을 새로운 대상 분야에서 개선하는 효과적인 방법이지만, 원래의 능력을 심각하게 잃어버릴 위험이 있습니다. 일반적인 해결책은 소스 분야와 대상 분야의 훈련 데이터 혼합을 도메인 공간에서 재조정하여 균형 잡힌 성능을 달성하는 것입니다. 이전의 도메인 재조정 전략은 인간의 직관이나 경험적 결과에 기반한 특정 휴리스틱을 수동으로 지정하는 데 의존했습니다. 본 연구에서는 더 일반적인 휴리스틱을 매개변수화할 수 있음을 증명하고, 도메인 재조정을 학습하는 최초의 모델 기반 종단 간 프레임워크인 Data Mixing Agent를 제안합니다. 이 에이전트는 평가 환경에서의 피드백과 함께 대량의 데이터 혼합 궤적에 대해 강화 학습을 통해 일반화 가능한 휴리스틱을 학습합니다. 수학적 추론에 대한 지속적 사전 학습 실험에서 Data Mixing Agent는 소스 및 대상 분야 벤치마크에서 균형 잡힌 성능을 달성하는 데 강력한 베이스라인을 능가함을 보여줍니다. 또한, 재훈련 없이도 보이지 않는 소스 분야, 대상 모델, 도메인 공간에서 잘 일반화됩니다. 코드 생성 분야에 직접 적용한 결과는 대상 도메인 간의 적응성도 나타냅니다. 추가 분석은 에이전트의 휴리스틱이 인간의 직관과 잘 맞아떨어지며, 더 적은 소스 분야 데이터로도 우수한 모델 성능을 달성하는 효율성을 보여줍니다.
대규모 언어 모델 기반 에이전트의 과학적 발견 능력, 특히 다양한 환경 복잡성에 대처하고 사전 지식을 활용하는 방식을 평가하기 위해서는 현재 부족한 전용 벤치마크가 필요합니다. 이러한 격차를 해결하기 위해, 우리는 상호작용 물리 환경에서 LLM 기반 과학적 추론을 엄격하게 평가하기 위한 새로운 벤치마크 제품군 및 시뮬레이션 플랫폼인 PhysGym을 소개합니다. PhysGym의 주요 기여는 에이전트에게 제공되는 사전 지식 수준에 대한 정교한 제어에 있습니다. 이를 통해 연구자들은 문제의 복잡성과 사전 지식 수준을 포함한 축을 따라 에이전트 성능을 분석할 수 있습니다. 이 벤치마크는 에이전트가 환경을 능동적으로 탐색하고, 제약 하에서 순차적으로 데이터를 수집하며, 기본 물리 법칙에 대한 가설을 수립해야 하는 일련의 상호작용 시뮬레이션으로 구성됩니다. PhysGym은 가설 정확도와 모델 충실도를 평가하기 위한 표준화된 평가 프로토콜과 메트릭을 제공합니다. 우리는 베이스라인 LLM의 결과를 제시함으로써 벤치마크의 유용성을 입증하고, 다양한 사전 지식과 작업 복잡성에 기반한 능력을 구분할 수 있는 능력을 보여줍니다.
교차 시점 위치 추정(Cross-view localization)은 지상 수준 이미지와 위성 이미지를 정렬하여 카메라의 3자유도(3-DoF) 포즈를 추정하는 작업으로, 자율 주행 및 증강 현실과 같은 대규모 야외 애플리케이션에 있어 매우 중요합니다. 기존 방법들은 종종 비용이 많이 드는 정확한 포즈 주석이 필요한 완전 지도 학습에 의존합니다. 본 연구에서는 GeoDistill이라는 기하학적 지도를 활용한 약한 지도 자기 학습 프레임워크를 제안합니다. 이 프레임워크는 교사-학생 학습과 시야각(Field-of-View, FoV) 기반 마스킹을 사용하여 강력한 교차 시점 위치 추정을 위한 지역 특징 학습을 강화합니다. GeoDistill에서 교사 모델은 파노라마 이미지의 위치를 추정하고, 학생 모델은 FoV 기반 마스킹으로 생성된 제한된 시야각 이미지에서 위치를 예측합니다. 학생의 예측을 교사의 예측과 정렬함으로써, 학생 모델은 차선과 같은 주요 특징에 집중하고 도로와 같은 텍스처가 없는 영역을 무시합니다. 이는 쿼리 이미지가 파노라마인지 제한된 시야각 이미지인지에 관계없이 더 정확한 예측과 불확실성 감소를 가져옵니다. 우리의 실험 결과, GeoDistill은 다양한 프레임워크에서 위치 추정 성능을 크게 향상시킵니다. 또한, 정확한 평면 위치의 정답 데이터 없이도 상대적 방향을 예측하는 새로운 방향 추정 네트워크를 소개합니다. GeoDistill은 실제 세계의 교차 시점 위치 추정 문제에 대한 확장 가능하고 효율적인 솔루션을 제공합니다. 코드와 모델은 https://github.com/tongshw/GeoDistill에서 확인할 수 있습니다.
컴퓨터 단층촬영(CT) 영상의 정확한 분류는 진단 및 치료 계획 수립에 필수적이지만, 기존 방법들은 병리학적 특징의 미묘하고 공간적으로 다양한 특성을 다루는 데 어려움을 겪는 경우가 많다. 현재의 접근 방식은 일반적으로 영상을 균일하게 처리하여, 집중적인 분석이 필요한 국소적 이상을 탐지하는 능력이 제한적이다. 본 연구에서는 UGPL(Uncertainty-Guided Progressive Learning) 프레임워크를 소개한다. 이 프레임워크는 전역적 분석에서 시작하여 진단적 모호성이 있는 영역을 식별한 후, 이러한 중요한 영역에 대한 상세한 검사를 수행하는 방식으로 전역에서 국소로의 분석을 수행한다. 우리의 접근법은 예측 불확실성을 정량화하기 위해 증거 기반 딥러닝을 활용하며, 공간적 다양성을 유지하는 비최대 억제 메커니즘을 통해 정보가 풍부한 패치를 추출하도록 안내한다. 이러한 점진적 정제 전략은 적응형 융합 메커니즘과 결합되어 UGPL이 맥락 정보와 세부 사항을 모두 통합할 수 있게 한다. 세 가지 CT 데이터셋에 대한 실험 결과, UGPL은 신장 이상, 폐암, COVID-19 탐지에서 각각 3.29%, 2.46%, 8.08%의 정확도 향상을 달성하며, 최신 방법들을 지속적으로 능가하는 것으로 나타났다. 우리의 분석은 불확실성 안내 구성 요소가 상당한 이점을 제공하며, 전체 점진적 학습 파이프라인이 구현될 때 성능이 크게 향상됨을 보여준다. 우리의 코드는 https://github.com/shravan-18/UGPL에서 확인할 수 있다.
대형 언어 모델(LLMs)은 프로그래밍 작업에서 강력한 성능을 보여주지만, 실제 학생들처럼 불완전하고 반복적이며 스타일적으로 다양한 코드를 생성할 수 있을까? 본 연구에서는 초급 프로그래밍 과정 설정에서 LLM 기반의 "학생 같은" 코드 생성을 체계적으로 연구한 ParaStudent를 소개한다. 여러 학기에 걸친 타임스탬프가 기록된 학생 제출물 데이터셋을 사용하여, 학생의 진행 상황을 모델링하고 코드 출력을 의미론적, 기능적, 스타일적 차원에서 평가하기 위한 저해상도 및 고해상도 실험을 설계하였다. 연구 결과, 미세 조정(fine-tuning)은 실제 학생의 학습 궤적과의 일치도를 크게 향상시키며, 오류 패턴, 점진적인 개선, 스타일적 변이를 더 충실히 포착하는 것으로 나타났다. 이 연구는 현실적인 학생 코드 모델링을 위해서는 상황 인식 생성, 시간적 모델링, 다차원 평가를 통해 학습 역학을 포착해야 함을 보여준다. 실험 및 평가를 위한 코드는 https://github.com/mmiroyan/ParaStudent에서 확인할 수 있다.