번역이 포함된 일일 선별된 AI 연구 논문
추론은 지능의 핵심에 자리 잡고 있으며, 의사결정을 내리고 결론을 도출하며 다양한 영역에서 일반화할 수 있는 능력을 형성합니다. 인공지능 분야에서 시스템이 점점 더 개방적이고 불확실하며 다중 모달 환경에서 작동함에 따라, 추론은 강력하고 적응적인 행동을 가능하게 하는 데 필수적이 되었습니다. 대규모 다중 모달 추론 모델(Large Multimodal Reasoning Models, LMRMs)은 텍스트, 이미지, 오디오, 비디오와 같은 다양한 모달리티를 통합하여 복잡한 추론 능력을 지원하고 포괄적인 인지, 정확한 이해, 깊은 추론을 달성하기 위한 유망한 패러다임으로 등장했습니다. 연구가 진전됨에 따라, 다중 모달 추론은 모듈화된 인지 중심 파이프라인에서 통합된 언어 중심 프레임워크로 빠르게 진화하며 더 일관된 교차 모달 이해를 제공하고 있습니다. 명령어 튜닝과 강화 학습이 모델의 추론 능력을 개선했지만, 전모달 일반화, 추론 깊이, 그리고 에이전트 행동 측면에서 여전히 상당한 과제가 남아 있습니다. 이러한 문제를 해결하기 위해, 우리는 다중 모달 추론 연구를 체계적이고 구조적으로 조사하며, 이 분야의 변화하는 설계 철학과 새롭게 부상하는 능력을 반영한 4단계 발전 로드맵을 중심으로 조직했습니다. 먼저, 표현, 정렬, 융합 단계에 걸쳐 추론이 암묵적으로 내재된 작업별 모듈 기반의 초기 연구를 검토합니다. 다음으로, 다중 모달 체인 오브 사고(Multimodal Chain-of-Thought, MCoT) 및 다중 모달 강화 학습과 같은 발전을 통해 추론을 다중 모달 대형 언어 모델(LLMs)로 통합한 최근 접근 방식을 살펴봅니다. 마지막으로, OpenAI O3 및 O4-mini의 도전적인 벤치마크와 실험 사례에서 얻은 경험적 통찰을 바탕으로, 복잡한 현실 세계 환경에서 확장 가능하고 에이전트적이며 적응적인 추론과 계획을 지원하기 위한 네이티브 대규모 다중 모달 추론 모델(Native Large Multimodal Reasoning Models, N-LMRMs)의 개념적 방향에 대해 논의합니다.
우리는 플로우 매칭 모델에 온라인 강화 학습(RL)을 통합한 최초의 방법인 Flow-GRPO를 제안한다. 우리의 접근 방식은 두 가지 핵심 전략을 사용한다: (1) 결정론적 상미분방정식(ODE)을 원래 모델의 주변 분포를 모든 시간 단계에서 일치시키는 확률적 미분방정식(SDE)으로 변환하는 ODE-to-SDE 변환을 통해 RL 탐색을 위한 통계적 샘플링을 가능하게 하고, (2) 원래 추론 시간 단계 수를 유지하면서 학습 디노이징 단계를 줄이는 Denoising Reduction 전략을 통해 성능 저하 없이 샘플링 효율성을 크게 향상시킨다. 실험적으로, Flow-GRPO는 여러 텍스트-이미지 작업에서 효과적임을 보여준다. 복잡한 구성을 위해 RL로 튜닝된 SD3.5는 거의 완벽한 객체 수, 공간 관계 및 세부 속성을 생성하여 GenEval 정확도를 63%에서 95%로 향상시킨다. 시각적 텍스트 렌더링에서는 정확도가 59%에서 92%로 개선되어 텍스트 생성 능력을 크게 강화한다. 또한 Flow-GRPO는 인간 선호도 정렬에서도 상당한 향상을 달성한다. 특히, 보상 해킹이 거의 발생하지 않아 보상이 이미지 품질이나 다양성을 희생시키지 않고 증가했으며, 두 가지 모두 실험에서 안정적으로 유지되었다.
우리는 텍스트 프롬프트로부터 물리적으로 안정적인 LEGO 브릭 모델을 생성하는 첫 번째 접근법인 LegoGPT를 소개합니다. 이를 위해 우리는 대규모의 물리적으로 안정적인 LEGO 디자인 데이터셋과 그에 연관된 캡션을 구축하고, 다음 토큰 예측을 통해 추가할 다음 브릭을 예측하도록 자동회귀적 대형 언어 모델을 학습시켰습니다. 결과 디자인의 안정성을 향상시키기 위해, 우리는 자동회귀 추론 과정에서 효율적인 유효성 검사와 물리학을 고려한 롤백을 사용하여 물리 법칙과 조립 제약 조건에 따라 불가능한 토큰 예측을 제거합니다. 우리의 실험 결과, LegoGPT는 입력 텍스트 프롬프트와 밀접하게 일치하는 안정적이고 다양하며 미적으로 만족스러운 LEGO 디자인을 생성합니다. 또한, 우리는 텍스트 기반 LEGO 텍스처링 방법을 개발하여 색상과 질감이 적용된 디자인을 생성합니다. 우리의 디자인은 인간에 의해 수동으로, 그리고 로봇 팔에 의해 자동으로 조립될 수 있음을 보여줍니다. 또한, 우리는 28,000개 이상의 고유한 3D 객체에 대한 47,000개 이상의 LEGO 구조와 상세한 캡션을 포함한 새로운 데이터셋인 StableText2Lego를 프로젝트 웹사이트(https://avalovelace1.github.io/LegoGPT/)에 코드 및 모델과 함께 공개합니다.
대형 언어 모델(LLM)이 단순히 텍스트가 아닌 인간을 얼마나 잘 이해하는지 평가하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 LLM의 고차원적 사회적 인지를 측정하는 자동화된 평가 프레임워크인 'Sentient Agent as a Judge(SAGE)'를 소개합니다. SAGE는 인간과 유사한 감정 변화와 내적 사고를 시뮬레이션하는 감각적 에이전트(Sentient Agent)를 구현하여, 다중 턴 대화에서 테스트된 모델을 보다 현실적으로 평가합니다. 매 턴마다 이 에이전트는 (i) 자신의 감정이 어떻게 변화하는지, (ii) 어떤 느낌을 받는지, (iii) 어떻게 응답해야 하는지를 추론하며, 이를 통해 수치화된 감정 궤적과 해석 가능한 내적 사고를 생성합니다. 100개의 지원적 대화 시나리오를 대상으로 한 실험 결과, 최종 Sentient 감정 점수는 Barrett-Lennard 관계 인벤토리(BLRI) 평가 및 발화 수준 공감 지표와 강한 상관관계를 보여 심리적 충실도를 검증했습니다. 또한, 우리는 18개의 상용 및 오픈소스 모델을 포함한 공개 Sentient 리더보드를 구축하여, 최첨단 시스템(GPT-4o-Latest, Gemini2.5-Pro)과 초기 기준 모델 간의 상당한 격차(최대 4배)를 발견했습니다. 이러한 격차는 기존 리더보드(예: Arena)에서는 반영되지 않았습니다. 따라서 SAGE는 진정으로 공감적이고 사회적으로 능숙한 언어 에이전트를 향한 진전을 추적하기 위한 원칙적이고 확장 가능하며 해석 가능한 도구를 제공합니다.
대규모 추론 모델(LRMs)은 확장된 사고 사슬(CoT)을 생성함으로써 복잡한 과제에서 놀라운 진전을 이루었습니다. 그러나 이들의 제어되지 않은 출력 길이는 실제 배포 환경에서 심각한 문제를 야기합니다. 특히 토큰, 지연 시간, 또는 컴퓨팅 자원에 대한 엄격한 제약이 있는 상황에서 더욱 그러합니다. 우리는 확장 가능한 사고 사슬을 위한 새로운 프레임워크인 Elastic Reasoning을 제안합니다. 이 프레임워크는 추론을 '사고'와 '해결' 두 단계로 명시적으로 분리하고, 각 단계에 독립적으로 예산을 할당합니다. 테스트 시 Elastic Reasoning은 해결 부분의 완전성을 우선시하여, 엄격한 자원 제약 하에서도 신뢰성을 크게 향상시킵니다. 사고 과정이 중단되었을 때도 모델이 적응적으로 추론하도록 가르치기 위해, 우리는 GRPO에 통합된 경량의 예산 제약 롤아웃 전략을 도입했습니다. 이 전략은 추가 훈련 없이도 보이지 않는 예산 제약에 효과적으로 일반화됩니다. 수학(AIME, MATH500) 및 프로그래밍(LiveCodeBench, Codeforces) 벤치마크에서의 실험 결과는 Elastic Reasoning이 엄격한 예산 제약 하에서도 견고하게 수행되며, 기존 방법보다 훨씬 낮은 훈련 비용을 발생시킨다는 것을 보여줍니다. 특히, 이 접근법은 제약이 없는 환경에서도 더 간결하고 효율적인 추론을 생성합니다. Elastic Reasoning은 대규모로 제어 가능한 추론이라는 시급한 과제에 대한 원칙적이고 실용적인 해결책을 제공합니다.
3D 장면 생성은 몰입형 미디어, 로보틱스, 자율 주행, 그리고 구현된 AI와 같은 응용 분야를 위해 공간적으로 구조화되고 의미론적으로 의미 있으며 사실적인 환경을 합성하는 것을 목표로 합니다. 초기 방법들은 절차적 규칙에 기반하여 확장성을 제공했지만 다양성은 제한적이었습니다. 최근의 딥 생성 모델(예: GANs, 확산 모델)과 3D 표현(예: NeRF, 3D 가우시안)의 발전으로 실세계 장면 분포를 학습할 수 있게 되었으며, 이는 충실도, 다양성, 그리고 시점 일관성을 개선했습니다. 확산 모델과 같은 최신 기술은 생성 문제를 이미지 또는 비디오 합성 문제로 재구성함으로써 3D 장면 합성과 사실성을 연결합니다. 이 조사 논문은 최신 접근법을 체계적으로 개관하며, 이를 절차적 생성, 신경망 기반 3D 생성, 이미지 기반 생성, 그리고 비디오 기반 생성의 네 가지 패러다임으로 분류합니다. 우리는 이들의 기술적 기반, 트레이드오프, 그리고 대표적인 결과를 분석하고, 일반적으로 사용되는 데이터셋, 평가 프로토콜, 그리고 하위 응용 분야를 검토합니다. 마지막으로, 생성 능력, 3D 표현, 데이터와 주석, 그리고 평가에서의 주요 과제를 논의하고, 더 높은 충실도, 물리학을 고려한 상호작용 생성, 그리고 통합된 인지-생성 모델을 포함한 유망한 방향을 제시합니다. 이 리뷰는 3D 장면 생성의 최신 발전을 정리하고, 생성 AI, 3D 비전, 그리고 구현된 지능의 교차점에서의 유망한 방향을 강조합니다. 지속적인 발전을 추적하기 위해, 우리는 최신 프로젝트 페이지를 유지합니다: https://github.com/hzxie/Awesome-3D-Scene-Generation.
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 이미지-텍스트 검색 및 제로샷 분류와 같은 다중모달 작업에서 뛰어난 성능을 보이지만, 거친 수준의 짧은 캡션에 초점을 맞추기 때문에 세밀한 이해에는 한계가 있습니다. 이를 해결하기 위해, 우리는 세 가지 주요 혁신을 통해 세밀한 이해를 강화한 Fine-Grained CLIP(FG-CLIP)을 제안합니다. 첫째, 대규모 다중모달 모델을 활용하여 전역 수준의 의미론적 세부 사항을 포착하기 위해 16억 개의 긴 캡션-이미지 쌍을 생성합니다. 둘째, 1,200만 개의 이미지와 4,000만 개의 영역별 바운딩 박스로 구성된 고품질 데이터셋을 구축하여 정확하고 맥락이 풍부한 표현을 보장합니다. 셋째, 1,000만 개의 어려운 세밀한 부정 샘플을 포함시켜 모델이 미묘한 의미론적 차이를 구별하는 능력을 향상시킵니다. 이러한 데이터에 맞춰 세심하게 설계된 훈련 방법을 적용합니다. 광범위한 실험을 통해 FG-CLIP이 세밀한 이해, 개방형 어휘 객체 탐지, 이미지-텍스트 검색 및 일반 다중모달 벤치마크를 포함한 다양한 하위 작업에서 원본 CLIP 및 기타 최신 방법을 능가함을 입증했습니다. 이러한 결과는 FG-CLIP이 세밀한 이미지 세부 사항을 포착하고 전반적인 모델 성능을 개선하는 데 효과적임을 보여줍니다. 관련 데이터, 코드 및 모델은 https://github.com/360CVGroup/FG-CLIP에서 확인할 수 있습니다.
최근의 독점 모델들(예: o3)은 강력한 다중모달 추론 능력을 보이기 시작했습니다. 그러나 대부분의 기존 오픈소스 연구는 텍스트 전용 추론 모델 훈련에 집중하고 있으며, 평가도 주로 수학 및 일반 도메인 작업에 국한되어 있습니다. 따라서 텍스트 입력과 일반 도메인을 넘어서는 추론 능력을 효과적으로 확장하는 방법은 여전히 명확하지 않습니다. 본 논문은 다음과 같은 근본적인 연구 질문을 탐구합니다: 추론은 모달리티와 도메인 간에 일반화 가능한가? 우리의 연구 결과는 긍정적인 답을 지지합니다: 일반 도메인 텍스트 기반 사후 훈련은 이러한 강력한 일반화 가능한 추론을 가능하게 할 수 있습니다. 이 발견을 바탕으로, 우리는 X-Reasoner를 소개합니다. 이는 일반화 가능한 추론을 위해 일반 도메인 텍스트만으로 사후 훈련된 시각-언어 모델로, 두 단계 접근법을 사용합니다: 첫 번째 단계는 증류된 긴 사고 사슬을 사용한 지도 미세 조정 단계이고, 두 번째 단계는 검증 가능한 보상을 사용한 강화 학습 단계입니다. 실험 결과, X-Reasoner는 다중모달 및 도메인 외 설정에서 추론 능력을 성공적으로 전이하며, 다양한 일반 및 의료 벤치마크에서 도메인 내 및 다중모달 데이터로 훈련된 기존의 최첨단 모델들을 능가합니다(그림 1). 또한, X-Reasoner의 특수 도메인 성능은 도메인 특화 텍스트 전용 데이터에 대한 지속적인 훈련을 통해 더욱 향상될 수 있음을 발견했습니다. 이를 바탕으로, 우리는 X-Reasoner-Med를 소개합니다. 이는 의료 특화 변형 모델로, 수많은 텍스트 전용 및 다중모달 의료 벤치마크에서 새로운 최첨단 성능을 달성합니다.
우리는 오프라인 Video-LLM을 스트리밍 가능한 모델로 원활하게 변환하는 간단하지만 효과적인 프레임워크인 StreamBridge를 소개합니다. StreamBridge는 기존 모델을 온라인 시나리오에 적용하는 데 있어 두 가지 근본적인 문제를 해결합니다: (1) 다중 턴 실시간 이해 능력의 한계, 그리고 (2) 능동적인 응답 메커니즘의 부재. 구체적으로, StreamBridge는 (1) 장기 컨텍스트 다중 턴 상호작용을 지원하는 메모리 버퍼와 라운드 감소 압축 전략을 통합하고, (2) 기존 Video-LLM에 손쉽게 통합할 수 있는 분리된 경량 활성화 모델을 포함하여 지속적인 능동적 응답을 가능하게 합니다. StreamBridge를 더욱 지원하기 위해, 우리는 인터리브된 비디오-텍스트 시퀀스와 다양한 지시 형식을 특징으로 하는 스트리밍 비디오 이해를 위한 대규모 데이터셋인 Stream-IT를 구축했습니다. 광범위한 실험을 통해 StreamBridge가 다양한 작업에서 오프라인 Video-LLM의 스트리밍 이해 능력을 크게 향상시키며, GPT-4o 및 Gemini 1.5 Pro와 같은 독점 모델을 능가하는 것으로 나타났습니다. 동시에, 표준 비디오 이해 벤치마크에서도 경쟁력 있거나 우수한 성능을 달성합니다.
우리는 실제 3D 장면에서의 언어-지시 객체 배치라는 새로운 과제를 소개합니다. 우리의 모델은 3D 장면의 포인트 클라우드, 3D 에셋, 그리고 3D 에셋이 배치되어야 할 위치를 대략적으로 설명하는 텍스트 프롬프트를 입력으로 받습니다. 여기서의 과제는 프롬프트를 준수하는 유효한 3D 에셋 배치 위치를 찾는 것입니다. 3D 장면에서의 언어-지시 위치 파악 과제(예: 그라운딩)와 비교했을 때, 이 과제는 몇 가지 특정한 도전 과제를 가지고 있습니다: 이 과제는 여러 유효한 해결책이 존재하기 때문에 모호하며, 3D 기하학적 관계와 자유 공간에 대한 추론이 필요합니다. 우리는 이 과제를 시작하기 위해 새로운 벤치마크와 평가 프로토콜을 제안합니다. 또한 이 과제를 위해 3D LLM을 훈련시키기 위한 새로운 데이터셋과, 비-사소한 기준선으로서의 첫 번째 방법을 소개합니다. 우리는 이 도전적인 과제와 새로운 벤치마크가 일반적인 3D LLM 모델을 평가하고 비교하는 데 사용되는 벤치마크 세트의 일부가 될 수 있다고 믿습니다.
LLM 추론기 미세 조정을 위해 널리 사용되는 강화 학습(RL) 방법들, 예를 들어 GRPO나 Leave-one-out PPO 등은 학습된 가치 함수를 버리고 경험적으로 추정된 반환값을 선호합니다. 이는 검증을 위해 가치 함수를 사용하는 테스트 시간 계산 확장을 방해합니다. 본 연구에서는 RL^V를 제안합니다. RL^V는 "가치 없는" RL 방법을 보강하여, RL 생성 데이터를 사용해 LLM을 추론기와 생성 검증기로 공동 학습시킴으로써, 상당한 오버헤드 없이 검증 기능을 추가합니다. 실험적으로, RL^V는 병렬 샘플링을 통해 MATH 정확도를 20% 이상 향상시키고, 기본 RL 방법에 비해 8-32배 효율적인 테스트 시간 계산 확장을 가능하게 합니다. 또한 RL^V는 쉬운 작업에서 어려운 작업으로의 전이 및 도메인 외 작업에 대한 강력한 일반화 능력을 보여줍니다. 더 나아가, RL^V는 긴 추론 R1 모델과 함께 병렬 및 순차적 테스트 시간 계산을 공동으로 확장할 때 1.2-1.6배 더 높은 성능을 달성합니다.
명령어 튜닝을 위한 데이터 선택은 대규모 언어 모델(LLM)의 성능 향상과 훈련 비용 절감에 필수적입니다. 그러나 기존의 자동화된 선택 방법은 계산 비용이 높은 그래디언트 기반 측정법이나 수동으로 설계된 휴리스틱에 의존하며, 이는 데이터의 내재적 속성을 충분히 활용하지 못할 수 있습니다. 본 논문에서는 그래디언트 계산이나 수동 지표 설계 없이 샘플 기여도를 측정하기 위해, 인-컨텍스트 학습(ICL)의 암묵적 미세 조정 특성을 활용한 새로운 그래디언트 프리 방법인 In-context Learning for Contribution Measurement(ICon)을 제안합니다. ICon은 그래디언트 기반 방법에 비해 계산 효율적이며, 휴리스틱 기반 접근법에 내재된 인간의 귀납적 편향을 줄여줍니다. ICon은 세 가지 구성 요소로 이루어져 있으며, ICL을 통한 암묵적 학습 하에서의 성능 변화를 평가하여 고기여도 데이터를 식별합니다. 3개의 LLM과 12개의 벤치마크, 5개의 쌍별 평가 세트에 대한 광범위한 실험을 통해 ICon의 효과를 입증했습니다. 특히, LLaMA3.1-8B에서 ICon으로 선택된 데이터의 15%로 훈련된 모델은 전체 데이터셋을 사용한 경우보다 5.42% 포인트 더 높은 성능을 보였으며, 널리 사용되는 선택 방법 중 최고 성능보다도 2.06% 포인트 더 우수했습니다. 또한 ICon이 선택한 고기여도 샘플을 분석한 결과, 단순히 가장 어려운 샘플뿐만 아니라 다양한 작업과 적절한 난이도를 가진 샘플이 포함되어 있음을 확인했습니다.
대규모 언어 모델의 추론 능력은 주로 영어를 중심으로 연구되며, 이는 사전 학습된 모델이 다국어를 지원하는 경우에도 마찬가지입니다. 본 연구에서는 영어로 진행된 긴 사고의 연쇄(CoT)를 통한 추론 미세 조정이 다른 언어로 얼마나 일반화될 수 있는지 조사합니다. 첫째, 영어 중심의 추론 언어 모델(RLM)에 대한 추론 계산 자원을 확장하면, 저자원 언어를 포함한 다양한 언어에서의 수학적 추론 능력이 향상되어, 모델 크기가 두 배인 모델을 능가하는 수준에 이르는 것을 발견했습니다. 둘째, 영어 중심 RLM의 CoT가 자연스럽게 주로 영어로 이루어지지만, 인용된 비영어 입력에 대해 추론할 때 일관적으로 "인용하고 사고하는" 패턴을 따르는 것을 확인했습니다. 셋째, 긴 CoT 추론의 언어를 효과적으로 제어하는 전략을 발견했으며, 모델이 고자원 언어에서 더 효율적이고 잘 추론하는 것을 관찰했습니다. 마지막으로, 특히 STEM(과학, 기술, 공학, 수학)에서 문화적 상식 지식으로의 도메인 외 추론 일반화가 부족한 것을 관찰했으며, 이는 영어에서도 마찬가지였습니다. 전반적으로, 우리는 영어 추론 테스트 시간 확장의 다국어 일반화 가능성을 입증하고, 그 메커니즘을 연구하며, 한계를 제시합니다. 실무자들은 영어 중심 RLM이 고자원 언어에서 추론하도록 하는 것이 바람직하며, 저자원 언어와 도메인 외 맥락에서의 추론 능력을 개선하기 위한 추가 연구가 필요하다고 결론지었습니다.
대형 언어 모델(LLM)의 언러닝은 실제 응용 프로그램에서 특정 사용자의 개인 정보, 저작권이 있는 데이터 또는 유해한 데이터의 영향을 효율적으로 제거해야 하는 경우에 매우 중요합니다. 그러나 기존의 유틸리티 중심 언러닝 메트릭(모델 유틸리티 기반)은 다음과 같은 현실적인 설정에서 언러닝의 정도를 정확히 평가하지 못할 수 있습니다: (a) 잊어야 할 데이터와 유지해야 할 데이터가 의미적으로 유사한 내용을 포함하는 경우, (b) 유지 데이터 세트를 기반으로 모델을 처음부터 재훈련하는 것이 비현실적인 경우, (c) 모델 소유자가 LLM에 직접 언러닝을 수행하지 않고도 언러닝 메트릭을 개선할 수 있는 경우 등입니다. 본 논문은 이러한 한계를 극복하기 위해 강력한 텍스트 워터마킹을 활용한 최초의 데이터 중심 언러닝 메트릭인 WaterDrum을 제안합니다. 또한, 다양한 수준의 유사 데이터 포인트를 포함하며 WaterDrum을 사용하여 언러닝 알고리즘을 엄격히 평가할 수 있는 새로운 벤치마크 데이터 세트를 소개합니다. 우리의 코드는 https://github.com/lululu008/WaterDrum에서 확인할 수 있으며, 새로운 벤치마크 데이터 세트는 https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax에서 공개되었습니다.
사고의 연쇄(Chain-of-Thoughts, CoT)는 대형 언어 모델(LLMs)이 최종 답변에 도달하기 전에 중간 단계를 생성하도록 요구하며, 복잡한 추론 과제를 해결하는 데 효과적임이 입증되었습니다. 그러나 CoT의 내부 메커니즘은 여전히 대부분 명확하지 않습니다. 본 논문에서는 두 가지 구성적 과제인 다중 자릿수 곱셈과 동적 프로그래밍에서 CoT 토큰의 역할을 실증적으로 연구합니다. CoT는 이러한 문제를 해결하는 데 필수적이지만, 중간 결과를 저장하는 토큰만 보존해도 비슷한 성능을 달성할 수 있음을 발견했습니다. 또한, 중간 결과를 대체 잠재 형태로 저장해도 모델 성능에 영향을 미치지 않음을 관찰했습니다. CoT의 일부 값을 무작위로 개입시켜 보았을 때, 후속 CoT 토큰과 최종 답변이 그에 따라 변경되는 것을 확인했습니다. 이러한 발견들은 CoT 토큰이 컴퓨터 프로그램의 변수와 유사한 기능을 할 수 있지만, 의도하지 않은 단축 경로와 토큰 간의 계산 복잡성 한계와 같은 잠재적인 단점이 있을 수 있음을 시사합니다. 코드와 데이터는 https://github.com/solitaryzero/CoTs_are_Variables에서 확인할 수 있습니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 인공지능 분야에서 지각, 자연어 이해, 그리고 구체화된 행동을 단일 계산 프레임워크 내에서 통합하려는 혁신적인 발전을 상징합니다. 이 기초 리뷰는 빠르게 진화하는 이 분야의 지형을 구조화하는 다섯 가지 주제 기둥을 통해 최근 VLA 모델의 발전을 종합적으로 정리합니다. 우리는 먼저 VLA 시스템의 개념적 기초를 확립하고, 크로스 모달 학습 아키텍처에서 비전-언어 모델(VLMs), 행동 계획자, 그리고 계층적 제어기를 긴밀히 통합한 일반화 에이전트로의 진화를 추적합니다. 우리의 방법론은 지난 3년간 발표된 80개 이상의 VLA 모델을 포괄하는 엄격한 문헌 리뷰 프레임워크를 채택합니다. 주요 진보 영역으로는 아키텍처 혁신, 파라미터 효율적인 학습 전략, 그리고 실시간 추론 가속화가 포함됩니다. 우리는 휴머노이드 로봇, 자율 주행 차량, 의료 및 산업용 로봇, 정밀 농업, 그리고 증강 현실 내비게이션과 같은 다양한 응용 분야를 탐구합니다. 이 리뷰는 더 나아가 실시간 제어, 다중 모달 행동 표현, 시스템 확장성, 보이지 않는 작업에 대한 일반화, 그리고 윤리적 배포 위험과 같은 주요 과제를 다룹니다. 최신 기술을 바탕으로, 우리는 에이전트 AI 적응, 크로스-구체화 일반화, 그리고 통합 신경-기호적 계획을 포함한 표적 해결책을 제안합니다. 미래를 조망하는 논의에서, 우리는 VLA 모델, VLMs, 그리고 에이전트 AI가 사회적으로 조율되고 적응적이며 일반 목적의 구체화 에이전트를 구동하는 미래 로드맵을 제시합니다. 이 작업은 지능적인 실세계 로봇공학과 인공 일반 지능을 발전시키기 위한 기초 참고 자료로 기능합니다. >비전-언어-행동, 에이전트 AI, AI 에이전트, 비전-언어 모델
강력하고 효율적인 지역 특징 매칭은 SLAM 및 로봇의 시각적 위치 추정과 같은 응용 분야에서 중요한 역할을 합니다. 큰 진전이 있었음에도 불구하고, 급격한 조명 변화, 저조도 텍스처 영역, 또는 반복적인 패턴이 있는 시나리오에서 강력하고 식별 가능한 시각적 특징을 추출하는 것은 여전히 매우 어려운 과제입니다. 본 논문에서는 3D 기하학적 특징을 통합하여 원시 디스크립터의 강건성을 향상시키는 새로운 경량 네트워크인 LiftFeat을 제안합니다. 구체적으로, 우리는 먼저 사전 훈련된 단안 깊이 추정 모델을 채택하여 가짜 표면 법선 레이블을 생성하고, 예측된 표면 법선 측면에서 3D 기하학적 특징 추출을 지도합니다. 그런 다음, 표면 법선 특징과 원시 2D 디스크립터 특징을 융합하기 위한 3D 기하학적 특징 강화 모듈을 설계합니다. 이러한 3D 기하학적 특징을 통합함으로써 극한 조건에서 2D 특징 기술의 식별 능력이 향상됩니다. 상대적 포즈 추정, 호모그래피 추정, 그리고 시각적 위치 추정 작업에 대한 광범위한 실험 결과는 우리의 LiftFeat이 일부 경량 최신 방법들을 능가함을 보여줍니다. 코드는 https://github.com/lyp-deeplearning/LiftFeat에서 공개될 예정입니다.
언어 모델을 인간의 선호도에 맞추는 작업은 쌍별 선호도 데이터셋에 의존한다. 일부 연구에서는 선호도 학습을 위해 온-정책 데이터가 오프-정책 데이터보다 지속적으로 더 우수한 성능을 보인다고 주장하는 반면, 다른 연구들은 온-정책 데이터의 장점이 과제에 따라 달라질 수 있음을 지적하며, 이 둘의 상호작용에 대한 체계적인 탐구가 필요함을 강조한다. 본 연구에서는 온-정책 데이터와 오프-정책 데이터가 선호도 최적화에서 상호 보완적인 강점을 제공함을 보인다: 온-정책 데이터는 수학 및 코딩과 같은 추론 과제에서 특히 효과적인 반면, 오프-정책 데이터는 창의적 글쓰기 및 개인 맞춤 추천과 같은 개방형 과제에서 더 나은 성능을 보인다. 이러한 발견을 바탕으로, 우리는 SIMPLEMIX를 제안한다. SIMPLEMIX는 온-정책 데이터와 오프-정책 데이터의 상호 보완적인 강점을 단순히 혼합함으로써 선호도 학습을 결합하는 접근법이다. 다양한 과제와 벤치마크에서의 실험 결과는 SIMPLEMIX가 언어 모델 정렬을 크게 개선함을 보여준다. 구체적으로, SIMPLEMIX는 온-정책 DPO와 오프-정책 DPO 대비 Alpaca Eval 2.0에서 평균 6.03%의 성능 향상을 달성했다. 또한, HyPO 및 DPO-Mix-P와 같이 온-정책과 오프-정책 데이터를 결합하는 더 복잡한 기존 접근법들보다 평균 3.05% 더 우수한 성능을 보였다.
대규모 언어 모델(LLM)이 도구 사용 에이전트로 진화함에 따라, 실시간 웹 탐색 능력은 이들의 추론 및 정보 검색 역량을 측정하는 중요한 척도가 되었습니다. 기존의 BrowseComp와 같은 벤치마크는 영어에 집중되어 있으며, 중국어를 비롯한 주요 정보 생태계의 언어적, 인프라적, 검열 관련 복잡성을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 중국어 웹에서 LLM 에이전트를 종합적으로 평가하기 위해 특별히 설계된 고난이도 벤치마크인 BrowseComp-ZH를 소개합니다. BrowseComp-ZH는 11개의 다양한 도메인에 걸친 289개의 다중 홉 질문으로 구성되어 있습니다. 각 질문은 짧고 객관적이며 쉽게 검증 가능한 답변(예: 날짜, 숫자, 고유 명사)으로부터 역설계되었습니다. 높은 질문 난이도와 답변의 유일성을 보장하기 위해 두 단계의 품질 관리 프로토콜이 적용되었습니다. 우리는 제안된 BrowseComp-ZH에서 20개 이상의 최첨단 언어 모델과 에이전트 검색 시스템을 벤치마크했습니다. 강력한 대화 및 검색 능력에도 불구하고, 대부분의 모델은 심각한 어려움을 겪었습니다: 많은 모델이 10% 미만의 정확도를 보였으며, 극소수만이 20%를 넘었습니다. 가장 성능이 뛰어난 시스템인 OpenAI의 DeepResearch조차도 42.9%에 그쳤습니다. 이러한 결과는 BrowseComp-ZH의 상당한 난이도를 보여주며, 성공을 위해서는 효과적인 검색 전략뿐만 아니라 정교한 추론과 정보 조정 능력이 필요함을 시사합니다. 이러한 역량은 현재의 모델들이 여전히 숙달하지 못한 부분입니다. 우리의 데이터셋, 구성 지침 및 벤치마크 결과는 https://github.com/PALIN2018/BrowseComp-ZH에서 공개되었습니다.