번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 단순한 사실 확인 질의를 넘어, 질문을 하위 문제로 분해하고 다단계 추론을 조율하며 다양한 출처의 증거를 종합해야 하는 심층 연구(Deep Research) 작업을 수행할 것으로 점점 더 기대받고 있습니다. 우리는 검증 가능한 답변을 요구하는 심층 연구 작업을 계층적 제약 만족 문제(Hierarchical Constraint Satisfaction Problems, HCSPs)로 공식화하며, 이는 단일 제약, 다중 홉 또는 평면적인 CSP 공식과 근본적으로 다릅니다. 그러나 기존 벤치마크(예: Natural Questions, HotpotQA)는 이러한 복잡성을 포착하지 못하며, 최근의 합성 데이터셋은 단축 추론, 지식 누출 또는 충분한 구조적 깊이 부족 등의 문제를 도입하는 경우가 많습니다. 이러한 격차를 해결하기 위해, 우리는 복잡한 심층 연구 작업을 합성하기 위한 확장 가능한 프레임워크인 InfoSeek을 소개합니다. InfoSeek은 이중 에이전트 시스템을 사용하여 대규모 웹페이지로부터 연구 트리(Research Tree)를 재귀적으로 구축하고, 중간 노드를 유효한 하위 문제로 흐리게 처리하며, 이러한 트리를 전체 계층을 탐색해야 하는 자연어 질문으로 변환합니다. 또한 InfoSeek은 빠른 확장을 가능하게 하여 50,000개 이상의 훈련 예제, 정제된 테스트 세트, 그리고 거부 샘플링을 통해 생성된 추론 궤적을 제공합니다. 실험 결과, InfoSeek으로 훈련된 모델은 강력한 베이스라인을 지속적으로 능가하는 것으로 나타났습니다. 도전적인 벤치마크인 BrowseComp-Plus에서, InfoSeek으로 최적화된 3B LLMs는 훨씬 더 큰 32B 모델과 경량 상용 API(예: Gemini2.5-Flash)를 능가하며, 더 강력한 API(예: Gemini2.5-Pro)와 비슷한 성능을 달성했습니다. 중간 단계 및 검색 레이블과 같은 메타 정보를 보존함으로써, InfoSeek은 복합 보상 설계 및 궤적 수준 탐색을 포함한 고급 최적화 전략을 추가로 지원합니다. 우리는 코드와 데이터셋을 https://github.com/VectorSpaceLab/InfoSeek{이 저장소}에서 제공합니다.
우리는 로봇 추론, 작업 계획, 자연어 상호작용을 단일 비전-언어 아키텍처 내에 통합한 통합 모델인 Robix를 소개합니다. Robix는 계층적 로봇 시스템의 고수준 인지 계층으로 작동하며, 저수준 제어기를 위한 원자적 명령과 인간 상호작용을 위한 언어적 응답을 동적으로 생성함으로써, 로봇이 복잡한 지시를 따르고, 장기적인 작업을 계획하며, 인간과 자연스럽게 상호작용할 수 있도록 하는 엔드투엔드 프레임워크를 제공합니다. Robix는 또한 작업 실행 중 사전적 대화, 실시간 중단 처리, 상황 인식 상식 추론과 같은 새로운 기능을 도입합니다. Robix의 핵심은 사고의 연쇄(chain-of-thought) 추론을 활용하며, 3단계 훈련 전략을 채택합니다: (1) 3D 공간 이해, 시각적 접지, 작업 중심 추론을 포함한 기본적인 구현체 추론 능력을 강화하기 위한 지속적 사전 훈련; (2) 인간-로봇 상호작용과 작업 계획을 통합된 추론-행동 시퀀스로 모델링하기 위한 지도 미세 조정; (3) 추론-행동 일관성과 장기 작업 일관성을 개선하기 위한 강화 학습. 광범위한 실험을 통해 Robix는 상호작용 작업 실행에서 오픈소스 및 상용 베이스라인(예: GPT-4o 및 Gemini 2.5 Pro)을 능가하며, 다양한 지시 유형(예: 개방형, 다단계, 제약적, 무효, 중단)과 테이블 정리, 식료품 쇼핑, 식이 필터링과 같은 다양한 사용자 참여 작업에서 강력한 일반화 능력을 보여줍니다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 수학적 추론 작업을 위한 주요 패러다임으로 자리 잡으며, 추론 능력의 안정적인 향상을 제공해 왔습니다. 그러나 RLVR의 결과 보상 모델(ORMs)은 너무 거칠어서 정답 내의 결함 있는 추론이나 오답 내의 유효한 추론을 구분하지 못합니다. 이러한 세분성의 부재는 상당한 수준의 노이즈와 오해의 소지가 있는 그래디언트를 초래하며, 추론 과정의 품질 향상을 저해합니다. 반면, 과정 보상 모델(PRMs)은 중간 단계에 대한 세밀한 지침을 제공하지만, 종종 부정확성을 겪고 보장 해킹에 취약합니다. 이 딜레마를 해결하기 위해, 우리는 PRocess cOnsistency Filter(PROF)를 소개합니다. PROF는 노이즈가 있는 세밀한 과정 보상과 정확한 거친 결과 보상을 조화시키는 효과적인 데이터 처리 정제 방법입니다. PRM과 ORM을 목적 함수에 단순히 혼합하는 방식(arXiv:archive/2506.18896) 대신, PROF는 일관성 기반 샘플 선택을 통해 이들의 상호 보완적 강점을 활용합니다. 우리의 접근 방식은 더 높은 평균 과정 값을 가진 정답과 더 낮은 평균 과정 값을 가진 오답을 유지하면서, 양성/음성 훈련 샘플의 균형을 유지합니다. 광범위한 실험을 통해 우리의 방법이 혼합 접근법에 비해 최종 정확도를 4% 이상 일관적으로 향상시킬 뿐만 아니라, 중간 추론 단계의 품질도 강화한다는 것을 입증했습니다. 코드와 훈련 레시피는 https://github.com/Chenluye99/PROF에서 확인할 수 있습니다.
언어 모델(LMs)은 세계 지식을 요구하는 실제 응용 프로그램을 점점 더 주도하고 있다. 그러나 모델이 데이터를 세계에 대한 지식과 믿음의 표현으로 전환하는 내부 과정은 잘 이해되지 않고 있다. 이러한 과정에 대한 통찰은 더 일관적이고 견고하며 완전한 지식 표현을 가진 언어 모델을 개발하는 길을 열어줄 수 있다. 이러한 질문을 연구하기 위해, 우리는 사전 학습 중 언어 모델의 지식 습득을 분석하기 위한 도구인 LMEnt를 제시한다. LMEnt는 다음을 도입한다: (1) 위키백과를 기반으로 엔티티 언급이 완전히 주석 처리된 지식이 풍부한 사전 학습 코퍼스, (2) 이전 접근법보다 최대 80.4% 우수한 성능을 보이는 사전 학습 데이터에 대한 엔티티 기반 검색 방법, 그리고 (3) 지식 벤치마크에서 인기 있는 오픈소스 모델과 비슷한 성능을 보이는 최대 10억 개의 파라미터와 4,000개의 중간 체크포인트를 가진 12개의 사전 학습 모델. 이러한 자원들은 사전 학습에서의 엔티티 언급과 다운스트림 성능 간의 연결, 그리고 사전 학습 데이터에서의 인과적 개입의 효과를 분석하기 위한 통제된 환경을 제공한다. 우리는 체크포인트 간 지식 습득을 연구함으로써 LMEnt의 유용성을 보여주며, 사실의 빈도가 중요하지만 학습 추세를 완전히 설명하지는 않는다는 것을 발견했다. 우리는 LMEnt를 공개하여 지식 표현, 가소성, 편집, 귀속, 학습 역학을 포함한 언어 모델의 지식 연구를 지원한다.
효과적인 계획 수립은 강력한 세계 모델을 필요로 하지만, 의미적 및 시간적 추상화를 통해 행동을 이해하고 추론할 수 있는 고수준의 세계 모델은 여전히 크게 미흡한 상태입니다. 우리는 자연 영상 기반의 언어적 세계 모델링을 위해 훈련된 기초 모델인 Vision Language World Model(VLWM)을 소개합니다. 시각적 관측이 주어지면, VLWM은 먼저 전반적인 목표 달성 여부를 추론한 다음, 교차된 행동과 세계 상태 변화로 구성된 궤적을 예측합니다. 이러한 목표는 Tree of Captions로 표현된 압축된 미래 관측을 조건으로 하는 반복적인 LLM Self-Refine을 통해 추출됩니다. VLWM은 반응적인 시스템-1 계획 디코딩과 반성적인 시스템-2 계획 수립을 각각 용이하게 하는 행동 정책과 역학 모델을 모두 학습합니다. 비용은 VLWM 롤아웃에 의해 주어진 가상의 미래 상태와 기대 목표 상태 간의 의미적 거리를 평가하며, 이는 우리가 자기 지도 방식으로 훈련한 비평 모델에 의해 측정됩니다. VLWM은 벤치마크 평가와 우리가 제안한 PlannerArena 인간 평가 모두에서 최첨단 Visual Planning for Assistance(VPA) 성능을 달성하며, 시스템-2는 시스템-1 대비 Elo 점수를 +27% 향상시킵니다. 또한 VLWM 모델은 RoboVQA 및 WorldPrediction 벤치마크에서 강력한 VLM 베이스라인을 능가합니다.
제어 가능한 얼굴 생성은 의미론적 제어성과 사실성 사이의 미묘한 균형이 요구되기 때문에 생성 모델링에서 중요한 도전 과제로 대두되고 있습니다. 기존 접근법들은 생성 파이프라인에서 의미론적 제어 요소를 분리하는 데 어려움을 겪는 반면, 본 연구는 전문가 전문화의 관점에서 Diffusion Transformers(DiTs)의 구조적 잠재력을 재조명합니다. 이 논문은 Face-MoGLE라는 새로운 프레임워크를 소개하며, 이는 다음과 같은 특징을 갖습니다: (1) 마스크 조건 공간 분해를 통한 의미론적 분리 잠재 모델링으로 정밀한 속성 조작 가능; (2) 전체적 구조와 지역적 의미를 포착하는 전역 및 지역 전문가 혼합체를 통해 세밀한 제어성 확보; (3) 확산 단계와 공간 위치에 따라 진화하는 시간 의존적 계수를 생성하는 동적 게이팅 네트워크. Face-MoGLE는 고품질의 제어 가능한 얼굴 생성을 위한 강력하고 유연한 솔루션을 제공하며, 생성 모델링 및 보안 응용 분야에서 강력한 잠재력을 지닙니다. 다양한 실험을 통해 다중 모드 및 단일 모드 얼굴 생성 설정에서의 효과성과 강력한 제로샷 일반화 능력을 입증하였습니다. 프로젝트 페이지는 https://github.com/XavierJiezou/Face-MoGLE에서 확인할 수 있습니다.
다중 주체 개인화 생성은 여러 참조 주체를 조건으로 이미지를 합성할 때 정체성 충실도와 의미적 일관성을 유지하는 데 있어 독특한 과제를 제시합니다. 기존 방법들은 공유 표현 공간 내에서 서로 다른 주체들이 어떻게 상호작용해야 하는지에 대한 부적절한 모델링으로 인해 정체성 혼합 및 속성 누출 문제를 겪는 경우가 많습니다. 본 연구에서는 명시적인 의미적 대응과 직교적 특징 분리를 통해 다중 주체 생성을 재고하는 표현 중심 프레임워크인 MOSAIC을 제안합니다. 우리의 핵심 통찰은 다중 주체 생성이 표현 수준에서 정밀한 의미적 정렬을 필요로 한다는 것입니다. 즉, 생성된 이미지의 어떤 영역이 각 참조의 어떤 부분에 주목해야 하는지를 정확히 아는 것이 중요합니다. 이를 위해, 이 분야에서 이전에는 제공되지 않았던 다중 참조 주체와 대상 이미지 간의 세밀한 의미적 대응을 제공하는 SemAlign-MS 데이터셋을 도입했습니다. 이를 기반으로, 정확한 점대점 의미적 정렬을 강제하여 각 참조에서 지정된 영역까지의 높은 일관성을 보장하기 위한 의미적 대응 주의 손실을 제안합니다. 또한, 개별 정체성 특성을 보존하면서 특징 간 간섭을 방지하기 위해 서로 다른 주체들을 직교적 주의 부분공간으로 밀어내는 다중 참조 분리 손실을 개발했습니다. 광범위한 실험을 통해 MOSAIC이 여러 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 특히, 기존 방법들이 일반적으로 3개 이상의 주체에서는 성능이 저하되는 반면, MOSAIC은 4개 이상의 참조 주체에서도 높은 충실도를 유지하며 복잡한 다중 주체 합성 응용에 새로운 가능성을 열었습니다.
현대 로봇 매니퓰레이션은 주로 2D 컬러 공간의 시각적 관찰에 의존하여 기술을 학습하지만, 일반화 능력이 부족한 문제를 안고 있습니다. 반면, 3D 세계에서 살아가는 인간은 물체와 상호작용할 때 질감보다는 거리, 크기, 형태와 같은 물리적 속성에 더 의존합니다. 이러한 3D 기하학적 정보는 널리 사용 가능한 깊이 카메라로부터 획득할 수 있기 때문에, 로봇에 유사한 지각 능력을 부여하는 것이 가능해 보입니다. 우리의 파일럿 연구는 깊이 카메라를 매니퓰레이션에 사용하는 것이 주로 정확도가 제한적이고 다양한 종류의 노이즈에 취약하기 때문에 어렵다는 것을 발견했습니다. 본 연구에서는 일상적으로 사용되는 깊이 카메라에 간단히 추가할 수 있는 Camera Depth Models (CDMs)를 제안합니다. 이 모델은 RGB 이미지와 원시 깊이 신호를 입력으로 받아 노이즈가 제거된 정확한 미터법 깊이를 출력합니다. 이를 위해, 우리는 깊이 카메라의 노이즈 패턴을 모델링하여 시뮬레이션에서 고품질의 짝지어진 데이터를 생성하는 신경망 데이터 엔진을 개발했습니다. 우리의 결과는 CDMs가 깊이 예측에서 거의 시뮬레이션 수준의 정확도를 달성하여 매니퓰레이션 작업을 위한 시뮬레이션-실제 간격을 효과적으로 좁힌다는 것을 보여줍니다. 특히, 우리의 실험은 노이즈를 추가하거나 실제 세계에서 미세 조정 없이 원시 시뮬레이션 깊이로 훈련된 정책이 관절, 반사, 그리고 가느다란 물체를 포함한 두 가지 도전적인 장기 작업에서 실제 로봇으로 원활하게 일반화되며 성능 저하가 거의 없음을 처음으로 입증했습니다. 우리의 연구 결과가 시뮬레이션 데이터와 3D 정보를 일반 로봇 정책에 활용하는 미래 연구에 영감을 줄 수 있기를 바랍니다.
최근 대규모 언어 모델(LLM)의 발전은 놀라운 일반 추론 능력을 보여주고 있습니다. 그러나 이러한 추론 능력을 체계적으로 평가하고 향상시키는 것은 세밀한 분석을 위한 통제 가능하고 확장 가능한 도구의 부족으로 인해 어려운 과제입니다. 기존의 벤치마크와 데이터셋은 다차원적이고 체계적인 분석 및 훈련을 위한 필요한 변수 통제가 부족하거나, 문제 유형과 형식이 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 CNF(Conjunctive Normal Form) 인스턴스에서 직접 다양한 만족 가능성 기반 논리 추론 문제를 생성하여 LLM의 논리 추론을 평가하고 향상시키기 위한 체계적인 검증 도구인 SATQuest를 소개합니다. SATQuest는 인스턴스 규모, 문제 유형, 질문 형식이라는 세 가지 직교 차원을 따라 이러한 문제를 구조화하며, 무작위화된 SAT 기반 문제 생성과 PySAT를 통한 객관적 답변 검증을 사용합니다. 이 설계는 암기 문제를 완화하고, 추론 성능에 대한 미묘한 통찰을 제공하며, 효과적인 강화 미세 조정을 가능하게 합니다. SATQuest를 사용한 다양한 LLM에 대한 광범위한 평가는 특히 익숙한 수학적 형식을 넘어 일반화하는 데 있어서의 심각한 한계를 확인했습니다. 더 나아가, SATQuest 보상을 통한 강화 미세 조정이 특정 작업 성능을 크게 개선하고 더 복잡한 인스턴스로 일반화하는 동시에, 형식 간 적응에서의 남은 과제를 강조한다는 것을 보여줍니다. 이러한 시연을 통해, 우리는 SATQuest가 LLM 논리 추론을 발전시키기 위한 기초 도구로서의 잠재력과 가치 있는 출발점임을 입증합니다.