번역이 포함된 일일 선별된 AI 연구 논문
'텍스트 기반 사고'와 '이미지 기반 사고' 패러다임은 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)의 추론 능력을 크게 향상시킵니다. 그러나 이러한 패러다임에는 본질적인 한계가 존재합니다. (1) 이미지는 단순히 단일 순간만을 포착하여 동적 과정이나 연속적인 변화를 표현하지 못하며, (2) 텍스트와 시각을 별개의 양태로 분리함으로써 통합된 다중양식 이해와 생성을 저해합니다. 이러한 한계를 극복하기 위해 우리는 Sora-2와 같은 비디오 생성 모델을 활용하여 시각적 추론과 텍스트 추론을 통일된 시간적 프레임워크 내에서 연결하는 새로운 패러다임인 '비디오 기반 사고(Thinking with Video)'를 소개합니다. 이러한 탐구를 지원하기 위해 우리는 비디오 사고 벤치마크(VideoThinkBench)를 개발했습니다. VideoThinkBench는 (1) 시각 중심 과제(예: 눈대중 추측 퍼즐)와 (2) 텍스트 중심 과제(예: GSM8K, MMMU의 하위 집합)라는 두 가지 과제 범주를 포괄합니다. 우리의 평가 결과, Sora-2는 능력 있는 추론자로 확인되었습니다. 시각 중심 과제에서는 일반적으로 최첨단(SOTA) VLM과 비슷한 성능을 보였으며, 눈대중 게임과 같은 몇몇 과제에서는 VLM을 능가하기도 했습니다. 텍스트 중심 과제에서는 MATH에서 92%, MMMU에서 75.53%의 정확도를 달성했습니다. 더 나아가 우리는 이러한 능력의 근원을 체계적으로 분석했습니다. 또한 자기 일관성과 문맥 학습이 Sora-2의 성능을 향상시킬 수 있음을 발견했습니다. 요약하면, 우리의 연구 결과는 비디오 생성 모델이 잠재적인 통합 다중양식 이해 및 생성 모델이며, '비디오 기반 사고'를 통합된 다중양식 추론 패러다임으로 위치시킵니다.
대규모 멀티모달 모델(LMM)이 이미지 상호작용과 장기적 추론 능력을 깊이 있게 통합하도록 하는 것은 이 분야의 오랜 과제로 남아있습니다. 최근 시각 중심 추론 분야의 발전은 LMM을 위한 "이미지와 함께 사고하기(Thinking with Images)" 패러다임이라는 유망한 방향을 탐구하며, 이미지 보조 추론에서 이미지 상호작용 사고로의 전환을 나타내고 있습니다. 이러한 이정표가 모델이 세밀한 이미지 영역에 집중할 수 있게 했지만, 제한된 시각 도구 공간과 과제 특화적 워크플로 설계로 인해 발전은 여전히 제한되고 있습니다. 이러한 격차를 해소하기 위해 우리는 종단간 강화 학습을 통해 상호작용적이고 시각 중심의 사고를 가능하게 하는 범용 멀티모달 추론 보조 도구인 V-Thinker를 제시합니다. V-Thinker는 두 가지 핵심 구성 요소로 이루어집니다: (1) 다양성, 품질, 난이도라는 세 차원에 걸쳐 상호작용 추론 데이터셋을 자동으로 합성, 발전, 검증하는 데이터 진화 플라이휠(Data Evolution Flywheel)과 (2) 포인트 수준 감독을 통해 인식을 먼저 정렬한 후, 두 단계의 강화 학습 프레임워크를 통해 상호작용 추론을 통합하는 시각적 점진적 훈련 커리큘럼(Visual Progressive Training Curriculum)입니다. 더 나아가, 우리는 시각 중심 상호작용 추론 과제를 대상으로 하는 전문가 검증 벤치마크인 VTBench를 소개합니다. 광범위한 실험을 통해 V-Thinker가 일반적 및 상호작용적 추론 시나리오 모두에서 강력한 LMM 기반 기준 모델들을 꾸준히 능가하며, 이미지 상호작용 추론 응용 프로그램의 발전을 위한 가치 있는 통찰력을 제공함을 입증합니다.
강화학습(RL)은 상호작용을 통한 자기 개선을 가능하게 하여 대규모 언어 모델(LLM) 에이전트의 역량을 강화할 수 있지만, 비용이 많이 드는 롤아웃, 제한된 작업 다양성, 신뢰할 수 없는 보상 신호, 인프라 복잡성 등으로 인해 실제 적용에는 여전히 어려움이 따릅니다. 이러한 문제들은 모두 확장 가능한 경험 데이터 수집을 방해합니다. 이러한 과제를 해결하기 위해 우리는 자율 에이전트의 효과적인 온라인 RL 훈련을 가능하게 하기 위해 확장성을 고려하여 다양한 경험을 합성하는 최초의 통합 프레임워크인 DreamGym을 소개합니다. 비용이 많이 드는 실제 환경 롤아웃에 의존하는 대신, DreamGym은 환경 역학을 단계별 추론을 통해 일관된 상태 전이와 피드백 신호를 도출하는 추론 기반 경험 모델로 정제하여 RL을 위한 확장 가능한 에이전트 롤아웃 수집을 가능하게 합니다. 전이의 안정성과 품질을 향상시키기 위해 DreamGym은 오프라인 실제 데이터로 초기화되고 새로운 상호작용으로 지속적으로 풍부해지는 경험 재생 버퍼를 활용하여 에이전트 훈련을 능동적으로 지원합니다. 지식 습득을 개선하기 위해 DreamGym은 현재 에이전트 정책에 도전하는 새로운 작업을 적응적으로 생성하여 보다 효과적인 온라인 커리큘럼 학습을 가능하게 합니다. 다양한 환경과 에이전트 백본에서의 실험을 통해 DreamGym이 완전 합성 설정과 시뮬레이션-실제 전이 시나리오 모두에서 RL 훈련을 크게 향상시킴을 입증했습니다. WebArena과 같은 비 RL 최적화 작업에서 DreamGym은 모든 기준선을 30% 이상 능가했습니다. 그리고 RL 최적화되었지만 비용이 많이 드는 설정에서는 합성 상호작용만으로 GRPO 및 PPO 성능을 일치시켰습니다. 순수히 합성 경험으로 훈련된 정책을 실제 환경 RL로 전이할 때, DreamGym은 훨씬 더 적은 실제 상호작용만으로도 상당한 추가 성능 이득을 제공하여 범용 RL을 위한 확장 가능한 웜 스타트 전략을 제공합니다.
우리는 진정한 다중모달 인텔리전스의 발전을 위해서는 반응형 과업 중심 시스템과 무차별적 장문맥 접근에서 벗어나 초감각(supersensing)이라는 더 넓은 패러다임으로의 전환이 필요하다고 주장한다. 우리는 공간적 초감각을 언어 중심 이해를 넘어선 네 단계로 정의한다: 의미적 지각(보이는 대상의 명명), 연속적 사건 인식(지속적 경험에 걸친 기억 유지), 암묵적 3차원 공간 인식(픽셀 너머 세계 추론), 예측적 세계 모델링(정보를 선별하고 체계화하는 내부 모델 생성). 현재 벤치마크는 주로 초기 단계만을 테스트하여 공간 인식의 포괄적 검증이 부족하고, 진정한 세계 모델링을 요구하는 방식으로 모델을 도전시키지 못한다. 공간적 초감각의 발전을 촉진하기 위해 우리는 이중 구성의 VSI-SUPER 벤치마크를 제시한다: VSR(장기간 시공간 기억)과 VSC(지속적 시공간 계수). 이러한 과업들은 무제한 장영상 입력을 요구하지만 무차별적 맥락 확장에는 취약하지 않다. 이후 우리는 VSI-590K 데이터를 구축하고 Cambrian-S 모델을 학습하여 일반 능력을 희생하지 않으면서 VSI-Bench에서 30% 절대적 성능 향상을 달성한다. 그러나 VSI-SUPER에서의 성능은 여전히 제한적이며, 이는 규모 확장만으로는 공간적 초감각이 충분히 달성되지 않음을 시사한다. 우리는 예측적 감지(predictive sensing)를 대안으로 제시하며, 자기지도 학습 기반 다음-잠재-프레임 예측기가 놀라움(예측 오차)을 통해 기억과 사건 분할을 주도하는 개념 검증 모델을 선보인다. 이 접근법은 VSI-SUPER에서 주요 상용 기준선을 크게 능가하며, 공간적 초감각이 단순한 인식이 아닌 경험의 예측, 선별, 체계화 능력을 필요로 함을 입증한다.
우리는 강력한 실제 문서 이해, 장편 비디오 이해 및 추론 과제를 위해 설계된 Nemotron 비전-언어 시리즈의 최신 모델인 Nemotron Nano V2 VL을 소개합니다. Nemotron Nano V2 VL은 모델 아키텍처, 데이터셋 및 학습 방법론의 주요 개선을 통해 모든 비전 및 텍스트 영역에서 이전 모델인 Llama-3.1-Nemotron-Nano-VL-8B 대비 상당한 향상을 제공합니다. Nemotron Nano V2 VL은 하이브리드 Mamba-Transformer LLM인 Nemotron Nano V2와 혁신적인 토큰 축소 기술을 기반으로 하여 장문 문서 및 비디오 시나리오에서 더 높은 추론 처리량을 달성합니다. BF16, FP8 및 FP4 형식의 모델 체크포인트와 데이터셋, 방법론 및 학습 코드의 상당 부분을 공개합니다.
강력한 복권 추첨 가설(SLTH)은 무작위로 초기화된 신경망 내에 강력한 복권 추첨 티켓(SLT)이라 불리는 고성능 서브네트워크가 숨겨져 있다고 추측합니다. 최근 이론 연구들을 통해 다양한 신경망 구조에서 SLTH가 입증되었으나, 트랜스포머 구조에 대한 SLTH는 아직 이론적 이해가 부족한 상황입니다. 특히, 현재의 SLTH 이론은 트랜스포머의 핵심 구성 요소인 다중 헤드 어텐션(MHA) 메커니즘을 아직 설명하지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 MHA 내에 SLT가 존재한다는 것에 대한 이론적 분석을 소개합니다. 우리는 H개의 헤드와 입력 차원 d를 가진 무작위 초기화 MHA의 키와 값에 대한 은닉 차원이 O(dlog(Hd^{3/2}))일 경우, 해당 MHA가 높은 확률로 동일한 입력 차원을 가진 임의의 MHA를 근사하는 SLT를 포함함을 증명합니다. 나아가, MHA에 대한 이 이론을 활용하여 우리는 정규화 계층이 없는 트랜스포머로 SLTH를 확장합니다. 우리는 소스 모델(MHA 및 트랜스포머) 내 SLT와 근사적인 타겟 모델 사이의 근사 오차가 소스 모델의 은닉 차원을 증가시킴에 따라 기하급수적으로 감소한다는 것을 보여주며 우리의 이론적 결과를 실증적으로 검증합니다.
GUI-360^circ는 컴퓨터 사용 에이전트(CUAs)의 발전을 위해 설계된 대규모 종합 데이터셋 및 벤치마크 제품군을 소개합니다. CUAs는 고유한 과제를 제시하며 세 가지 지속적인 격차에 의해 제약을 받습니다: 실제 CUA 작업의 부족, 다중 모드 트랙토리(궤적)에 대한 자동화된 수집 및 주석 처리 파이프라인의 부재, 그리고 GUI 기반 이해(GUI grounding), 화면 구문 분석(screen parsing), 행동 예측(action prediction)을 종합적으로 평가하는 통합 벤치마크의 부재가 그것입니다. GUI-360^circ는 LLM(대형 언어 모델)을 활용한, 대부분 자동화된 파이프라인(질의 출처 확보, 환경 템플릿 구축, 작업 인스턴스화, 일괄 실행, LLM 기반 품질 필터링)으로 이러한 격차를 해소합니다. 공개된 코퍼스에는 인기 있는 Windows 오피스 애플리케이션 내 수천 개의 트랙토리에서 실행된 120만 개 이상의 행동 단계가 포함되어 있으며, 전체 해상도 스크린샷, 가능한 경우 접근성 메타데이터, 구체화된 목표, 중간 추론 과정, 그리고 성공 및 실패한 행동 트랙토리를 담고 있습니다. 본 데이터셋은 GUI 기반 이해, 화면 구문 분석, 행동 예측이라는 세 가지 표준 작업과 현대적 에이전트 설계를 반영하는 하이브리드 GUI+API 행동 공간을 지원합니다. GUI-360^circ에서 최첨단 비전-언어 모델을 벤치마킹한 결과, 기반 이해와 행동 예측 분야에서 현저한 즉시 사용 수준의 단점이 드러났습니다; 지도 미세 조정(Supervised Fine-Tuning)과 강화 학습은 상당한 성능 향상을 가져왔지만 인간 수준의 신뢰도에는 미치지 못했습니다. 우리는 재현 가능한 연구와 강력한 데스크톱 CUA 개발 가속화를 위해 GUI-360^circ 및 관련 코드를 공개합니다. 전체 데이터셋은 https://huggingface.co/datasets/vyokky/GUI-360에서 공개되었습니다.
비전-언어 모델(VLM)의 최근 발전은 수많은 벤치마크 과제에서 최첨단 성능을 달성해왔습니다. 그러나 인터넷 규모의, 종종 독점적인 사전 학습 코퍼스 사용은 실무자와 사용자 모두에게 시험 세트 유출로 인한 성능 과대 평가라는 중요한 우려를 제기합니다. 선행 연구에서는 LLM을 위한 사전 학습 데이터 정제 및 벤치마크 재설계와 같은 완화 전략을 제안했지만, 오염된 VLM을 탐지하는 방법 개발이라는 상호 보완적인 방향은 아직 충분히 연구되지 않았습니다. 이러한 격차를 해결하기 위해 우리는 인기 벤치마크에 대해 오픈소스 VLM을 의도적으로 오염시킨 후, 기존 탐지 방법들이 완전히 실패하거나 일관되지 않은 동작을 보인다는 점을 입증합니다. 이어서 우리는 다중 모달 의미론적 섭동에 기반한 새롭고 간단하지만 효과적인 탐지 방법을 제안하며, 오염된 모델들이 통제된 섭동 하에서는 일반화에 실패함을 보여줍니다. 마지막으로, 여러 현실적인 오염 전략에 걸쳐 우리 접근법을 검증하여 그 강건성과 효과성을 확인합니다. 코드와 섭동이 가해진 데이터세트는 공개될 예정입니다.
강력한 벤치마크는 멀티모달 대규모 언어 모델(MLLM) 평가에 필수적입니다. 그러나 우리는 모델이 강력한 시각 이해 능력 없이도 편향, 언어적 사전 지식, 피상적 패턴을 활용하여 많은 멀티모달 벤치마크에서 높은 성적을 낼 수 있음을 발견했습니다. 이는 시각 입력이 필요하다고 설계된 시각 중심 벤치마크에서 특히 문제가 됩니다. 우리는 벤치마크 설계를 위한 진단 원칙을 채택합니다: 벤치마크가 조작될 수 있다면, 결국 조작될 것이다. 따라서 설계자는 진단 및 편향 제거 절차를 사용하여 체계적으로 비시각적 편향을 식별하고 완화하기 위해 먼저 자신의 벤치마크를 '조작'하려고 시도해야 합니다. 효과적인 진단은 "시험 세트에 대한 훈련"을 직접 수행하는 것, 즉 공개된 시험 세트의 내재적이고 활용 가능한 패턴을 탐색하는 것을 요구합니다. 우리는 이 기준을 두 가지 구성 요소로 구체화합니다. 첫째, "시험 세트 스트레스 테스트"(TsT) 방법론을 사용하여 벤치마크 취약성을 진단합니다. 우리의 주요 진단 도구는 강력한 대규모 언어 모델을 시험 세트의 비시각적 텍스트 입력만으로 k-폴드 교차 검증을 통해 미세 조정하여 숏컷 성능을 드러내고 각 샘플에 편향 점수 s(x)를 할당하는 것입니다. 이를 보완하기 위해 수작업으로 추출한 특징에 기반한 경량 Random Forest 진단법을 통해 빠르고 해석 가능한 감사를 수행합니다. 둘째, "반복적 편향 제거"(IBP) 절차를 사용하여 고편향 샘플을 필터링하여 벤치마크의 편향을 제거합니다. 이 프레임워크를 네 가지 벤치마크(VSI-Bench, CV-Bench, MMMU, VideoMME)에 적용하여 만연한 비시각적 편향을 발견했습니다. 사례 연구로 우리의 전체 프레임워크를 적용하여 VSI-Bench-Debiased를 생성했으며, 원본보다 비시각적 해결 가능성이 감소하고 시각 정보 차단 성능 격차가 더 커짐을 입증했습니다.
분할 추론, 전문가 혼합(MoE) 라우팅, 비동기 강화 학습 미세 조정 등과 같은 대규모 언어 모델(LLM) 시스템의 새로운 패턴들은 단순한 집합 통신을 넘어선 유연한 지점 간(point-to-point) 통신을 요구합니다. 기존 구현체들은 특정 네트워크 인터페이스 컨트롤러(NIC)에 종속되어 있어 추론 엔진으로의 통합과 하드웨어 공급자 간 이식성을 저해하고 있습니다. 본 논문에서는 일반적인 NIC들의 기능을 연결하여 균일한 인터페이스를 제공하는 TransferEngine을 제안합니다. TransferEngine은 네트워크 전송의 순서 가정 없이 완료 알림을 위한 ImmCounter 프리미티브를 갖춘 일방향 쓰기(WriteImm) 연산을 제공하며, GPU당 여러 NIC를 투명하게 관리합니다. NVIDIA ConnectX-7과 AWS EFA(Elastic Fabric Adapter) 양측에서 400Gbps의 최대 처리량을 입증했습니다. 우리는 TransferEngine의 효용을 세 가지 프로덕션 시스템을 통해 보여줍니다: (1) 동적 확장을 통한 분할 추론을 위한 KvCache 전송, (2) 조개 파라미터 모델 기준 1.3초에 달하는 RL 가중치 업데이트, (3) ConnectX-7에서 DeepEP 디코딩 지연 시간을 능가하고 EFA에서 최초로 실용적인 지연 시간을 달성한 MoE 디스패치/결합 구현. 우리는 이식 가능한 지점 간 통신이 벤더 종속성을 피하면서 집합 통신을 보완함을 입증합니다.
본 논문에서는 참조 이미지를 활용하여 착용 정확도를 높이면서도 대상 의상을 사람 이미지에 직접 맞추는 End-to-End 방식의 가상 피팅 모델인 EVTAR(End-to-End Virtual Try-on with Additional Reference)을 제안한다. 기존 대부분의 가상 피팅 접근법은 불특정 인물 이미지, 인간 포즈, DensePose, 신체 키포인트 등 복잡한 입력에 의존하여 실제 적용 시 노동 집약적이고 비실용적이라는 한계가 있다. 이에 반해 EVTAR는 2단계 학습 전략을 채택하여 소스 이미지와 대상 의상만으로도 간단한 추론이 가능하다. 본 모델은 마스크, DensePose, 분할 맵 없이도 피팅 결과를 생성한다. 나아가 EVTAR는 동일한 의상을 입은 다른 인물의 추가 참조 이미지를 활용하여 의상 텍스처와 미세한 디테일을 더욱 효과적으로 보존한다. 이 메커니즘은 인간이 의상을 선택할 때 참조 모델을 고려하는 방식과 유사하여 보다 현실적이고 고품질의 착용 효과를 구현한다. 이러한 기능을 지원하기 위해 학습 데이터에 보조 참조 이미지와 비페어링된 인물 이미지를 추가로 확보하였다. 두 가지 널리 사용되는 벤치마크와 다양한 태스크를 통해 EVTAR를 평가한 결과, 본 접근법의 효과가 지속적으로 입증되었다.
고수준의 동영상 이해 능력이 인상적임에도 불구하고, 멀티모달 언어 모델은 시간과 공간에 걸친 공간 추론에 어려움을 겪습니다. 현재의 공간 훈련 접근법은 실제 세계의 동영상 데이터에 의존하지만, 정밀한 공간 주석이 달린 다양한 영상 확보는 여전히 병목 현상으로 남아 있습니다. 이러한 병목 현상을 완화하기 위해, 우리는 3D 시뮬레이터의 특권 정보를 활용하여 멀티모달 언어 모델을 위한 공간적으로 풍부한 동영상 훈련 데이터를 생성하는 체계적인 데이터 생성 프레임워크인 SIMS-V를 제시합니다. 이 프레임워크를 사용하여 질문 유형, 조합 및 규모에 대한 체계적인 애블레이션을 통해 시뮬레이션 데이터의 어떤 속성이 효과적인 실제 세계 전이를 주도하는지 조사합니다. 우리는 더 적은 질문 유형을 사용함에도 불구하고 포괄적인 커버리지보다 성능이 우수하며, 전이 가능한 공간 지능 개발에 가장 효과적인 세 가지 질문 범주(계량적 측정, 시점 의존적 추론, 시간적 추적)의 최소 집합을 확인했습니다. 이러한 통찰은 매우 효율적인 훈련을 가능하게 합니다: 단 25,000개의 시뮬레이션 예제로 미세 조정된 우리의 70억 파라미터 동영상 LLM은 더 큰 720억 파라미터 기준 모델을 능가하며, 엄격한 실제 세계 공간 추론 벤치마크에서 독점 모델들과 경쟁력 있는 성능을 달성합니다. 우리의 접근 방식은 일반적인 동영상 이해 작업에서의 성능을 유지하면서 구현 및 실제 세계 공간 작업에서 상당한 향상을 보여주며 강력한 일반화 능력을 입증합니다.
음성-텍스트 번역(ST) 시스템의 자동 평가는 일반적으로 번역 가설을 하나 이상의 참조 번역과 비교하여 수행됩니다. 어느 정도 효과적이지만, 이 접근 방식은 원천 입력의 가치 있는 정보를 무시하는 참조 기반 평가의 한계를 그대로 물려받습니다. 기계 번역(MT)에서는 원천 텍스트를 통합한 신경망 기반 평가 척도가 인간 판단과 더 강한 상관 관계를 달성한다는 최근의 진전이 있었습니다. 그러나 이러한 아이디어를 ST로 확장하는 것은 원천이 텍스트가 아닌 오디오이며, 원천과 참조 간의 신뢰할 수 있는 기록이나 정렬이 종종 불가능하기 때문에 간단하지 않습니다. 본 연구에서는 원천 기록을 사용할 수 없는 실제 운영 조건에 특히 초점을 맞춰 ST를 위한 원천 인식 평가 척도의 첫 번째 체계적인 연구를 수행합니다. 우리는 입력 오디오의 텍스트적 대용물을 생성하기 위해 상호 보완적인 두 가지 전략, 즉 자동 음성 인식(ASR) 기록과 참조 번역의 역번역을 탐구하고, 합성 원천과 참조 번역 간의 정렬 불일치를 해결하기 위한 새로운 2단계 교차 언어 재분할 알고리즘을 소개합니다. 79개 언어 쌍을 아우르는 두 개의 ST 벤치마크와 다양한 아키텍처 및 성능 수준을 가진 6개의 ST 시스템에서 수행된 우리의 실험 결과, 단어 오류율이 20% 미만일 때 역번역보다 ASR 기록이 더 신뢰할 수 있는 합성 원천으로 구성되며, 역번역은 항상 계산 비용이 더 저렴하면서도 여전히 효과적인 대안임을 보여줍니다. 더 나아가, 우리의 교차 언어 재분할 알고리즘은 ST 평가에서 원천 인식 MT 평가 척도의 강건한 사용을 가능하게 하여 음성 번역을 위한 더 정확하고 체계적인 평가 방법론으로 가는 길을 열어줍니다.
휴머노이드 축구는 구현된 지능의 대표적인 과제로, 로봇이 긴밀하게 결합된 인지-행동 루프 내에서 작동해야 합니다. 그러나 기존 시스템은 일반적으로 분리된 모듈에 의존하여 동적 환경에서 지연된 응답과 비일관적인 행동을 초래하며, 실제 세계의 인지적 한계는 이러한 문제를 더욱 악화시킵니다. 본 연구에서는 시각적 인지와 운동 제어의 직접적 통합을 통해 휴머노이드 로봇이 반응형 축구 기술을 습득할 수 있도록 하는 통합 강화 학습 기반 제어기를 제시합니다. 우리의 접근 방식은 Adversarial Motion Priors를 실제 동적 환경의 인지 설정으로 확장하여 운동 모방과 시각에 기반한 동적 제어를 연결합니다. 실제 세계의 시각적 특성을 모델링하는 가상 인지 시스템과 결합된 인코더-디코더 아키텍처를 도입하여 정책이 불완전한 관측으로부터 권한 상태를 복구하고 인지와 행동 간의 능동적 조정을 확립할 수 있도록 합니다. 결과적인 제어기는 강력한 반응성을 보여주며, 실제 로보컵 경기를 포함한 다양한 시나리오에서 일관되고 견고한 축구 행동을 꾸준히 실행합니다.
SAIL-RL은 다중모드 대규모 언어 모델(MLLM)의 추론 능력을 향상시키기 위해, 모델에게 '언제 생각해야 하는지'와 '어떻게 생각해야 하는지'를 가르치는 강화학습(RL) 사후 학습 프레임워크입니다. 기존 접근법은 정답만을 보상하는 결과 기반 감독으로 인해 건전한 추론 과정을 보장하지 못하며, 균일한 사고 전략으로 인해 단순 작업에서는 지나친 사고를, 복잡한 작업에서는 충분하지 않은 사고를 초래하는 한계가 있었습니다. SAIL-RL은 이중 보상 시스템을 통해 이러한 문제를 해결합니다: 사실 근거성, 논리적 일관성, 답변 일관성을 통해 추론의 질을 평가하는 '사고 보상'과, 심층 추론과 직접 답변 중 어떤 방식이 적절한지를 상황에 맞게 판단하는 '판단 보상'으로 구성됩니다. 최신 모델인 SAIL-VL2를 대상으로 한 실험에서 SAIL-RL은 4B와 8B 규모 모두에서 추론 및 다중모드 이해 벤치마크를 개선했으며, GPT-4o와 같은 상용 폐쇄형 모델 대비 경쟁력 있는 성능을 달성하고 환각 현상을 현저히 줄여, 더 신뢰할 수 있고 적응적인 MLLM 구축을 위한 체계적인 프레임워크임을 입증했습니다. 코드는 https://github.com/BytedanceDouyinContent/SAIL-RL에서 공개될 예정입니다.