번역이 포함된 일일 선별된 AI 연구 논문
대규모 멀티모달 모델(LMM)이 상당한 발전을 이루었음에도 불구하고, 여전히 언어를 핵심 추론 양식으로 삼는 텍스트 중심적 특성을 크게 벗어나지 못하고 있습니다. 그 결과 시각 정보가 주를 이루는 추론 작업을 처리하는 능력에 한계를 보입니다. 최근 연구에서는 도움 영상, 깊이 지도, 이미지 일부 확대 등을 통해 중간 시각 단계를 지도하는 방식으로 이 문제를 해결하려는 시도가 이루어졌습니다. 그러나 이러한 전략은 '유용한' 시각적 추상화의 형태에 제한적인 선행 지식을 부과하고, 막대한 주석 비용을 수반하며, 다양한 작업 간 일반화에 어려움을 겪습니다. 이러한 근본적인 한계를 해결하기 위해 우리는 명시적 지도 없이 LMM이 시각 추론 토큰을 발견하고 활용하도록 훈련하는 작업 불특정(task-agnostic) 메커니즘을 제안합니다. 이러한 토큰은 전역적으로 주의를 기울이며 이미지를 작업 적응형 방식으로 재인코딩함으로써, 수작업으로 설계된 지도 없이도 관련 시각 정보를 추출할 수 있게 합니다. 우리의 접근 방식은 직접 미세 조정을 능가하며, 중간 추상화를 명시하기 어려운 작업을 포함한 다양한 시각 중심 작업에서 최첨단 성과를 달성했을 뿐만 아니라, 다중 작업 지침 튜닝으로도 일반화됩니다.
다음 토큰 예측으로 사전 학습되고 강화 학습(RL)으로 미세 조정된 대규모 자기회귀 모델은 많은 문제 영역에서 전례 없는 성공을 거두었습니다. RL 과정에서 이러한 모델은 새로운 출력을 토큰 단위로 생성하며 탐색을 수행합니다. 그러나 토큰 단위로 행동을 샘플링하는 것은 보상이 희소한 경우 특히 매우 비효율적인 학습을 초래할 수 있습니다. 본 연구에서는 자기회귀 모델의 내부 표현 내에서 행동하고 탐색함으로써 이 문제를 극복할 수 있음을 보여줍니다. 구체적으로, 시간적으로 추상화된 행동(temporally-abstract actions)을 발견하기 위해, 기본 자기회귀 모델의 잔차 스트림 활성화(residual stream activations)를 제어하는 출력을 갖는 고차원 비인과적(non-causal) 시퀀스 모델을 도입합니다. 계층적 구조를 가진 그리드 월드 및 MuJoCo 기반 작업에서, 고차원 모델은 긴 활성화 시퀀스 청크를 내부 제어기(controllers)에 압축하는 방법을 학습하는 것으로 나타났습니다. 중요한 것은, 각 제어기가 장기간에 걸쳐 펼쳐지는 행동적으로 의미 있는 일련의 행동을 실행하고 학습된 종료 조건과 함께 제공되어, 시간에 따라 여러 제어기를 구성하면 새로운 작업에서 효율적인 탐색이 가능해진다는 점입니다. 우리는 "내부 RL(internal RL)"이라 명명한 과정인 직접적인 내부 제어기 강화(direct internal controller reinforcement)가 표준 RL 미세 조정이 실패하는 경우 희소 보상으로부터의 학습을 가능하게 함을 보여줍니다. 우리의 결과는 자기회귀 모델에서 잠재 행동 생성 및 강화의 이점을 입증하며, 내부 RL이 파운데이션 모델 내에서 계층적 RL을 실현하기 위한 유망한 방향임을 시사합니다.
기존 비디오 생성 모델은 비디오 신호의 밀집하고 고차원적인 특성으로 인해 장기간의 공간적 및 시간적 일관성을 유지하는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해 본 연구에서는 지속적인 공간 메모리로 3D 장면 포인트 클라우드를 명시적으로 보존하는 공간 메모리 인식 비디오 생성 프레임워크인 Spatia를 제안합니다. Spatia는 이 공간 메모리를 조건으로 비디오 클립을 반복적으로 생성하고 시각적 SLAM을 통해 지속적으로 업데이트합니다. 이러한 동적-정적 분리 설계는 현실적인 동적 개체 생성 능력을 보존하면서 생성 과정 전반에 걸친 공간 일관성을 향상시킵니다. 더 나아가 Spatia는 명시적 카메라 제어 및 3D 인식 대화형 편집과 같은 응용을 가능하게 하여 확장 가능한 메모리 주도 비디오 생성을 위한 기하학적 토대를 제공합니다.
대규모 언어 모델은 점점 더 추론 흔적을 노출하고 있지만, 그 근본적인 인지 구조와 단계들은 표면적 통계를 넘어서 확인하고 분석하기 어렵습니다. 우리는 쇤펠드의 에피소드 이론을 귀납적 중간 규모 렌즈로 채택하고, 추론 흔적을 분석, 탐색, 실행, 검증 등의 기능적 추론 단계로 명시적으로 추상화하는 확장 가능한 프레임워크인 ThinkARM(모델 내 추론 해부학)을 소개합니다. 다양한 모델의 수학적 문제 해결에 적용했을 때, 이 추상화는 토큰 수준 관점에서는 드러나지 않는 재현 가능한 사고 역학과 추론 모델/비추론 모델 간의 구조적 차이를 보여줍니다. 또한 두 가지 진단 사례 연구를 통해 탐색이 정확도와 관련된 중요한 분기 단계로 기능하며, 효율성 중심 방법이 응답을 균일하게 단축하기보다 평가적 피드백 단계를 선택적으로 억제한다는 점을 제시합니다. 종합적으로, 우리의 결과는 에피소드 수준 표현이 추론 단계를 명시화함으로써 현대 언어 모델에서 추론이 어떻게 구조화, 안정화, 변형되는지에 대한 체계적 분석을 가능하게 함을 입증합니다.
동영상은 3D 세계의 연속적인 2D 투영입니다. 대규모 동영상 데이터로 학습한 후, 전역적인 3D 이해가 자연스럽게 나타날까요? 우리는 방대한 동영상 데이터로 사전 학습된 기존 비디오 파운데이션 모델(VidFMs)의 3D 이해 수준을 정량화하여 이를 연구합니다. 우리는 얕은 읽기(read-outs)를 통해 다양한 VidFMs의 특징에서 여러 3D 속성을 추정함으로써 해당 모델들의 3D 인식을 측정하는 최초의 모델-불가지론적 프레임워크를 제안합니다. 우리의 연구는 여러 축에서 VidFMs의 3D 인식에 관한 의미 있는 발견을 제시합니다. 특히, 최첨단 비디오 생성 모델들이 어떠한 3D 데이터로도 학습되지 않았음에도 불구하고 3D 객체와 장면에 대한 강력한 이해를 보여준다는 점을 입증합니다. 이러한 이해는 3D 작업을 위해 특별히 훈련된 대규모 전문 모델의 성능을 능가할 수도 있습니다. 주요 VidFMs의 3D 벤치마킹과 함께한 우리의 발견은 확장 가능한 3D 모델 구축을 위한 가치 있는 관찰 결과를 제공합니다.
비전-언어 모델(VLM) 기반 다중 모달 에이전트를 위한 다중 턴 강화 학습(RL)은 희소한 보상과 장기간 크레딧 할당 문제로 어려움을 겪고 있습니다. 최근 연구들은 교사 모델을 활용해 단계별 피드백을 제공함으로써 보상을 밀도 있게 만드는 방법(예: Guided Thought Reinforcement(GTR) 및 On-Policy Distillation)을 제안했지만, 비용이 많이 들고 종종 특권을 가진 모델을 교사로 필요로 하여 실용성과 재현성이 제한됩니다. 우리는 GTR의 고효율 업그레이드 버전인 GTR-Turbo를 소개합니다. GTR-Turbo는 값비싼 교사 모델을 훈련하거나 질의하지 않으면서도 동등한 성능을 달성합니다. 구체적으로, GTR-Turbo는 진행 중인 RL 훈련 과정에서 생성된 체크포인트들의 가중치를 병합한 후, 이 병합된 모델을 "무료" 교사로 사용하여 지도 미세 조정 또는 소프트 로짓 디스틸레이션을 통해 후속 RL을 안내합니다. 이러한 설계는 GPT나 Gemini와 같은 특권 VLM에 대한 의존성을 제거하고, 기존 연구에서 관찰된 "엔트로피 붕괴"를 완화하며, 훈련 안정성을 유지합니다. 다양한 시각 에이전트 작업에서 GTR-Turbo는 기준 모델의 정확도를 10-30% 향상시키면서도 GTR 대비 실제 훈련 시간을 50%, 컴퓨팅 비용을 60% 절감합니다.
자기회귀(AR) 시각 생성 모델은 이미지를 이산 시퀀스로 매핑하고 복원하기 위해 토크나이저에 의존합니다. 그러나 토크나이저는 실제 정답 토큰으로부터 깨끗한 이미지를 복원하도록 훈련되는 반면, AR 생성기는 토큰 가능도만을 최적화합니다. 이러한 불일치로 인해 생성된 토큰 시퀀스가 픽셀 공간의 직접적인 감독 없이 저품질 이미지로 디코딩될 수 있습니다. 우리는 AR 모델을 원리 기반의 픽셀 공간 목표 함수로 직접 최적화하는 경량 사후 훈련 프레임워크인 VA-π를 제안합니다. VA-π는 생성기-토크나이저 정렬 문제를 변분 최적화로 공식화하여 픽셀 재구성과 자기회귀 모델링을 통합하는 증거 하한(ELBO)을 유도합니다. 이산 토큰 공간에서 최적화하기 위해 VA-π는 AR 생성기를 정책으로 간주하고, 픽셀 공간 재구성 품질을 내재적 보상으로 사용하는 강화 학습 기반 정렬 전략을 도입합니다. 보상은 교사 강요 하에서 예측된 토큰 시퀀스가 원본 이미지를 얼마나 잘 재구성하는지로 측정되며, 이는 계산량이 많은 자유 추론 샘플링 없이 모델에 직접적인 픽셀 수준 지도를 제공합니다. ELBO의 정규화 항은 토큰의 분포 일관성을 유지하는 자연스러운 정규화자 역할을 합니다. VA-π는 토크나이저 재훈련이나 외부 보상 모델 없이 기존 AR 생성기의 신속한 적응을 가능하게 합니다. ImageNet-1K 데이터의 1%와 25분의 미세 조정만으로 LlamaGen-XXL에서 FID를 14.36에서 7.65로 낮추고 IS를 86.55에서 116.70로 향상시키며, GenEval의 텍스트-이미지 작업에서도 시각 생성 모델(LlamaGen: 0.306에서 0.339로)과 통합 멀티모달 모델(Janus-Pro: 0.725에서 0.744로) 모두에서 뚜렷한 성능 향상을 보여줍니다. 코드는 https://github.com/Lil-Shake/VA-Pi에서 확인할 수 있습니다.