번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델은 인터넷 규모의 텍스트 데이터를 활용하지만, 물리적 궤적 수집의 과도한 비용으로 인해 구체화된 AI는 여전히 제약을 받고 있습니다. 데스크톱 환경, 특히 게임은 이러한 문제에 대한 매력적인 대안을 제공합니다: 이들은 구조화된 관찰-행동 결합을 유지하면서도 대규모의 풍부한 감각운동 상호작용을 제공합니다. 우리는 D2E(Desktop to Embodied AI) 프레임워크를 제시하며, 데스크톱 상호작용이 로봇 공학의 구체화된 AI 작업을 위한 효과적인 사전 학습 기반으로 사용될 수 있음을 입증합니다. 이전 연구들이 특정 도메인에 국한되거나(예: Minecraft용 VPT) 데이터를 독점적으로 유지한 것(예: SIMA)과 달리, D2E는 확장 가능한 데스크톱 데이터 수집부터 구체화된 도메인에서의 검증된 전이까지 완전한 파이프라인을 구축합니다. 우리의 프레임워크는 세 가지 구성 요소로 이루어져 있습니다: (1) 다양한 데스크톱 상호작용을 표준화된 형식으로 통합하고 152배 압축을 제공하는 OWA 툴킷, (2) 타임스탬프 기반 이벤트 예측을 통해 보지 못한 게임들에서도 강력한 제로샷 일반화를 달성하고 인터넷 규모의 가짜 라벨링을 가능하게 하는 Generalist-IDM, 그리고 (3) 데스크톱 사전 학습된 표현을 물리적 조작 및 탐색으로 전이하는 VAPT. 1,300시간 이상의 데이터(259시간의 인간 데모, 1,000시간 이상의 가짜 라벨링된 게임플레이)를 사용하여, 우리는 LIBERO 조작에서 96.6%, CANVAS 탐색 벤치마크에서 83.3%의 성공률을 달성했습니다. 이는 디지털 상호작용의 감각운동 기본 요소들이 물리적 구체화된 작업으로 의미 있게 전이될 만큼 충분한 불변성을 보인다는 것을 검증하며, 데스크톱 사전 학습을 로봇 공학을 위한 실용적인 패러다임으로 확립합니다. 우리는 OWA 툴킷, 인간이 수집한 데이터셋, 가짜 라벨링된 데이터셋, 그리고 VAPT로 학습된 모델을 포함한 모든 작업을 공개할 예정이며, 이는 https://worv-ai.github.io/d2e/에서 확인할 수 있습니다.
카메라 중심의 이해와 생성은 공간 지능의 두 기둥이지만, 일반적으로 별개로 연구된다. 본 연구에서는 카메라 차원을 따라 공간 인식을 확장하는 통합형 카메라 중심 다중모달 모델인 Puffin을 제안한다. Puffin은 언어 회귀와 확산 기반 생성을 통합하여 임의의 시점에서 장면을 해석하고 생성한다. 카메라와 시각-언어 간의 모달리티 격차를 해소하기 위해, 카메라를 언어로 취급하여 카메라를 통해 사고할 수 있게 하는 새로운 패러다임을 도입한다. 이를 통해 모델은 기하학적 맥락을 추론하면서 공간적으로 근거한 시각적 단서를 사진술 용어와 정렬하도록 유도된다. Puffin은 400만 개의 시각-언어-카메라 삼중항으로 구성된 대규모 데이터셋인 Puffin-4M에서 학습된다. 전역 카메라 매개변수와 픽셀 단위 카메라 맵을 모두 통합하여 유연하고 신뢰할 수 있는 공간 생성을 가능하게 한다. 실험 결과, Puffin은 카메라 중심 생성 및 이해를 위한 특화된 모델들을 능가하는 성능을 보여준다. 명령어 튜닝을 통해 Puffin은 공간 상상, 세계 탐험, 사진 촬영 안내 등 다양한 교차 시점 작업으로 일반화된다. 본 연구는 코드, 모델, 데이터셋 파이프라인 및 벤치마크를 공개하여 다중모달 공간 지능 연구를 발전시키고자 한다.
본 연구는 비영어권 언어, 특히 한국어를 대상으로 주로 합성 데이터를 사용하여 완전히 오픈된 양국어 대규모 언어 모델(LLM)을 구축한 첫 번째 대규모 연구를 소개합니다. 우리는 한국어-영어 코퍼스에서 처음부터 학습된 10.8B 파라미터 모델인 KORMo-10B를 제안하며, 이 모델의 한국어 데이터 중 68.74%가 합성 데이터로 구성되었습니다. 체계적인 실험을 통해, 언어적 범위가 균형 잡히고 다양한 명령 스타일로 신중하게 선별된 합성 데이터는 대규모 사전 학습 중 불안정성이나 성능 저하를 유발하지 않음을 입증했습니다. 더 나아가, 이 모델은 추론, 지식, 명령 수행 등 다양한 벤치마크에서 현대의 오픈 가중치 다국어 기준 모델과 비슷한 성능을 달성했습니다. 우리의 실험은 두 가지 주요 발견을 보여줍니다: (1) 합성 데이터는 모델 붕괴 없이 장기간의 사전 학습을 안정적으로 유지할 수 있으며, (2) 양국어 명령 튜닝은 한국어에서 거의 원어민 수준의 추론과 담화 일관성을 가능하게 합니다. 데이터, 코드, 학습 레시피, 로그를 포함한 모든 구성 요소를 완전히 공개함으로써, 본 연구는 저자원 환경에서 합성 데이터 기반의 완전히 오픈된 모델(FOM)을 개발하기 위한 투명한 프레임워크를 확립하고, 향후 다국어 LLM 연구에 재현 가능한 선례를 제시합니다.
동료 평가 연구의 양이 급증함에 따라 학자들은 점점 더 연구 발견을 위해 소셜 플랫폼에 의존하고 있으며, 저자들은 자신의 연구가 주목받고 인용되도록 하기 위해 상당한 노력을 기울이고 있습니다. 이러한 과정을 간소화하고 인간의 노력에 대한 의존도를 줄이기 위해, 우리는 연구 논문을 정확하고 흥미롭며 시의적절한 공개 콘텐츠로 변환하는 새로운 작업인 자동 홍보(AutoPR)를 소개합니다. 엄격한 평가를 가능하게 하기 위해, 우리는 512편의 동료 평가 논문을 고품질 홍보 게시물과 연결한 다중 모드 벤치마크인 PRBench를 공개합니다. 이 벤치마크는 시스템을 세 가지 축(충실도: 정확성과 톤, 참여도: 대상 독자와 매력, 정렬: 시기와 채널 최적화)에 따라 평가합니다. 또한, 우리는 AutoPR을 세 단계(다중 모드 준비를 통한 콘텐츠 추출, 협업적 합성을 통한 세련된 출력 생성, 플랫폼별 적응을 통한 규범, 톤, 태그 최적화)로 자동화하는 다중 에이전트 프레임워크인 PRAgent를 소개합니다. PRBench에서 직접적인 LLM 파이프라인과 비교했을 때, PRAgent는 총 시청 시간 604% 증가, 좋아요 438% 증가, 전체 참여도 최소 2.9배 향상 등 상당한 개선을 보여줍니다. 제거 연구(ablation study)는 플랫폼 모델링과 타겟팅된 홍보가 이러한 성과에 가장 큰 기여를 한다는 것을 보여줍니다. 우리의 결과는 AutoPR을 실현 가능하고 측정 가능한 연구 문제로 자리매김하며, 확장 가능하고 영향력 있는 자동화된 학술 커뮤니케이션을 위한 로드맵을 제공합니다.
비전-언어 모델(VLMs)은 실시간 어시스턴트와 자율 에이전트를 구동할 수 있지만, 무한에 가까운 비디오 스트림을 이해하면서도 지연 시간과 메모리 사용량을 증가시키지 않는 것이 중요한 과제로 남아 있습니다. 전체 비디오를 완전한 주의(attention)로 처리하면 이차 계산 비용이 발생하고 긴 비디오에서 성능이 저하됩니다. 한편, 단순한 슬라이딩 윈도우 방법도 결함이 있는데, 이는 일관성을 깨거나 중복 재계산으로 인해 높은 지연 시간을 초래합니다. 본 논문에서는 무한한 시각적 입력을 실시간으로 안정적으로 이해하기 위해 설계된 모델인 StreamingVLM을 소개합니다. 우리의 접근 방식은 스트리밍 추론과 훈련을 일치시키는 통합 프레임워크입니다. 추론 과정에서 우리는 주의 싱크(attention sinks)의 상태, 최근 비전 토큰의 짧은 윈도우, 그리고 최근 텍스트 토큰의 긴 윈도우를 재사용하여 컴팩트한 KV 캐시를 유지합니다. 이 스트리밍 능력은 짧고 겹치는 비디오 청크에 대해 완전한 주의를 적용하는 간단한 지도 미세 조정(SFT) 전략을 통해 주입되며, 이는 과도하게 긴 컨텍스트를 훈련하지 않고도 추론 시의 주의 패턴을 효과적으로 모방합니다. 평가를 위해 우리는 평균 2시간 이상의 비디오로 구성된 새로운 벤치마크인 Inf-Streams-Eval을 구축했으며, 이는 프레임과 텍스트 간의 밀집한 초 단위 정렬을 요구합니다. Inf-Streams-Eval에서 StreamingVLM은 GPT-4O mini 대비 66.18%의 승률을 달성했으며, 단일 NVIDIA H100에서 최대 8 FPS의 안정적인 실시간 성능을 유지합니다. 특히, 우리의 SFT 전략은 VQA 특화 미세 조정 없이도 일반적인 VQA 능력을 향상시켜, LongVideoBench에서 +4.30, OVOBench Realtime에서 +5.96의 성능 향상을 이뤘습니다. 코드는 https://github.com/mit-han-lab/streaming-vlm에서 확인할 수 있습니다.
최근의 디퓨전 모델들은 이미지 생성 분야에서 최첨단 성능을 달성하고 있지만, 종종 의미론적 불일치나 환각 현상으로 어려움을 겪습니다. 다양한 추론 시점 가이던스 방법들이 생성 품질을 향상시킬 수 있지만, 이들은 외부 신호나 아키텍처 수정에 간접적으로 의존하는 경우가 많아 추가적인 계산 오버헤드를 초래합니다. 본 논문에서는 기저 디퓨전 모델을 수정하지 않고도 궤적 신호만을 활용하여 더 효율적이고 직접적인 가이던스 방법인 접선 증폭 가이던스(Tangential Amplifying Guidance, TAG)를 제안합니다. TAG는 중간 샘플을 투영 기반으로 활용하고, 이 기반에 대한 추정 점수의 접선 성분을 증폭하여 샘플링 궤적을 수정합니다. 우리는 1차 테일러 전개를 활용하여 이 가이던스 과정을 공식화함으로써, 접선 성분을 증폭하는 것이 상태를 더 높은 확률 영역으로 이끌어 불일치를 줄이고 샘플 품질을 향상시킨다는 것을 보여줍니다. TAG는 플러그 앤 플레이 방식으로, 아키텍처에 독립적인 모듈로서 최소한의 계산 추가만으로 디퓨전 샘플링의 정확도를 개선하며, 디퓨전 가이던스에 대한 새로운 관점을 제시합니다.
대규모 언어 모델(LLMs)은 놀라운 성공을 거두었으며, 이들의 다중모달 확장(MLLMs)은 텍스트를 넘어 이미지, 비디오 등 다양한 모달리티에 걸친 능력을 더욱 개방하고 있습니다. 그러나 이러한 변화에도 불구하고, 수동 프롬프트 작성의 부담을 줄이고 성능을 극대화하기 위해 설계된 프롬프트 최적화 접근법은 여전히 텍스트에 국한되어 있어 MLLMs의 전체 잠재력을 제한하고 있습니다. 이러한 격차를 해소하고자, 우리는 텍스트와 비텍스트 프롬프트 쌍으로 정의된 다중모달 공간으로 프롬프트 최적화의 정의를 확장한 새로운 문제인 다중모달 프롬프트 최적화를 소개합니다. 이 문제를 해결하기 위해, 우리는 다중모달 프롬프트 최적화기(MPO)를 제안합니다. MPO는 정렬 보존 업데이트를 통해 다중모달 프롬프트의 공동 최적화를 수행할 뿐만 아니라, 베이지안 기반 선택 전략에서 이전 평가를 사전 정보로 활용하여 후보 프롬프트의 선택 과정을 안내하는 통합 프레임워크입니다. 텍스트를 넘어 이미지, 비디오, 심지어 분자와 같은 다양한 모달리티에 걸친 광범위한 실험을 통해, 우리는 MPO가 선도적인 텍스트 전용 최적화 방법들을 능가함을 입증하며, 다중모달 프롬프트 최적화가 MLLMs의 잠재력을 실현하기 위한 중요한 단계임을 확립합니다.
구체화된 능력(Embodied capabilities)은 에이전트가 물리적 세계를 지각하고, 이해하며, 상호작용하기 위한 일련의 기본 능력을 의미합니다. 다중 모드 대형 언어 모델(MLLMs)이 구체화된 에이전트로서의 잠재력을 보여주고 있지만, 기존 벤치마크가 주로 계획이나 공간 이해와 같은 특정 도메인에 초점을 맞추고 있어, 이들의 구체화된 능력에 대한 철저하고 체계적인 평가는 아직 미흡한 상태입니다. 이러한 격차를 해소하기 위해, 우리는 MLLMs의 원자적 구체화 능력을 평가하는 포괄적이고 세분화된 벤치마크인 BEAR를 소개합니다. BEAR는 6개 범주에 걸쳐 14개 도메인에서 4,469개의 이미지-비디오-텍스트 항목으로 구성되어 있으며, 저수준의 포인팅, 궤적 이해, 공간 추론부터 고수준의 계획에 이르는 다양한 과제를 포함합니다. 20개의 대표적인 MLLMs에 대한 광범위한 평가 결과는 모든 구체화 능력 도메인에서 이들의 지속적인 한계를 드러냈습니다. 이러한 부족함을 해결하기 위해, 우리는 사전 훈련된 비전 모델을 통합하여 MLLM의 지각, 3D 이해, 계획 능력을 강화한 다중 모드 대화형 에이전트인 BEAR-Agent를 제안합니다. 이는 BEAR에서 다양한 구체화 능력에 걸쳐 MLLM 성능을 크게 향상시키며, GPT-5 기준으로 9.12%의 절대적 이득과 17.5%의 상대적 개선을 달성했습니다. 또한, 우리의 실험은 MLLM의 구체화 능력 개선이 시뮬레이션 환경에서의 구체화 작업에 도움이 될 수 있음을 보여줍니다. 프로젝트 웹사이트: https://bear-official66.github.io/
대규모 언어 모델(LLMs)은 방대한 텍스트 코퍼스에 대한 모방 학습을 통해 놀라운 성과를 거두었지만, 이러한 패러다임은 학습-생성 간의 격차를 만들고 견고한 추론을 제한합니다. 강화 학습(RL)은 이 격차를 해결할 수 있는 더 데이터 효율적인 솔루션을 제공하지만, 그 적용은 중요한 데이터 병목 현상으로 인해 제한되어 왔습니다: 기존 RL 데이터셋은 웹 규모의 사전 학습 코퍼스에 비해 크기와 다양성 면에서 수십 배나 작습니다. 이를 해결하기 위해, 우리는 Webscale-RL 파이프라인을 소개합니다. 이는 대규모 사전 학습 문서를 체계적으로 수백만 개의 다양한, 검증 가능한 질문-답변 쌍으로 변환하여 RL에 활용할 수 있는 확장 가능한 데이터 엔진입니다. 이 파이프라인을 사용하여, 우리는 9개 이상의 도메인에 걸쳐 120만 개의 예시를 포함하는 Webscale-RL 데이터셋을 구축했습니다. 우리의 실험은 이 데이터셋으로 훈련된 모델이 일련의 벤치마크에서 지속적인 사전 학습과 강력한 데이터 정제 기준선을 크게 능가함을 보여줍니다. 특히, 우리의 데이터셋을 사용한 RL 훈련은 상당히 더 효율적이며, 최대 100배 적은 토큰으로 지속적인 사전 학습의 성능을 달성합니다. 우리의 작업은 RL을 사전 학습 수준으로 확장하는 실현 가능한 길을 제시하며, 더 능력 있고 효율적인 언어 모델을 가능하게 합니다.
Chatbot Arena와 같은 크라우드소싱 모델 평가 플랫폼은 인간의 관점에서 실시간으로 모델 응답의 품질을 평가할 수 있게 합니다. 코딩 영역에서는 LLM(대형 언어 모델)이 생성한 콘텐츠의 품질을 수동으로 검토하는 것이 매우 어려운데, 이는 긴 원시 코드를 이해하고 의도적으로 코드 실행을 시뮬레이션해야 하기 때문입니다. 이를 위해 우리는 포괄적이고 즉시 실행 가능한 환경을 기반으로 한 코드 생성을 위한 오픈형 인간 평가 플랫폼인 BigCodeArena를 소개합니다. Chatbot Arena를 기반으로 구축된 BigCodeArena는 LLM이 생성한 코드를 실행하고 인간이 실행 과정 및 결과와 상호작용할 수 있게 합니다. 우리는 10개의 널리 사용되는 LLM에 걸쳐 10개 언어와 8가지 유형의 실행 환경에서 14,000개 이상의 원시 코드 중심 대화 세션을 수집했습니다. 이 대화들 중에서 우리는 4,700개 이상의 다중 턴 샘플을 식별하고 인간의 쌍별 선호도를 기록했습니다. 추가 분석을 통해 우리는 작업, 언어, 프레임워크로 특징지어지는 세분화된 영역에서 LLM의 미탐구 선호도를 발견했습니다. 최첨단 LLM의 코드 이해 및 생성 능력을 체계적으로 검토하기 위해, 우리는 수집된 데이터를 기반으로 BigCodeReward와 AutoCodeArena라는 두 가지 벤치마크를 구성했습니다. BigCodeReward의 경우, 우리는 4,700개 대화를 후처리하고 보상 모델과 인간 선호도 간의 일관성을 평가했습니다. 평가 결과, 실행 결과가 제공될 때 대부분의 LLM이 코딩 선호도를 판단하는 데 우수한 성능을 보이는 것으로 나타났습니다. 이러한 발견에 영감을 받아, 우리는 인간의 개입 없이 LLM의 코딩 품질을 평가하기 위해 설계된 자동 Elo 등급 벤치마크인 AutoCodeArena를 제안합니다. 우리는 GPT-5, Claude-Sonnet-4, Claude-Opus-4와 같은 독점 LLM이 최근 등장한 모델들 중에서 여전히 코드 생성 성능에서 선두를 차지하고 있음을 발견했습니다.
최근 추론 모델(예: OpenAI o1, DeepSeek-R1)의 테스트 시간 스케일링 트렌드는 긴 사고 사슬(Chain-of-Thought, CoT)을 통해 놀라운 개선을 이끌어냈습니다. 그러나 기존 벤치마크는 주로 즉각적이고 단일 수평선(single-horizon) 작업에 초점을 맞추고 있어, 복잡하고 장기적인 시나리오를 이해하고 응답하는 모델의 능력을 충분히 평가하지 못하고 있습니다. 이러한 대규모 추론 모델(Large Reasoning Models, LRMs)의 불완전한 평가를 해결하기 위해, 우리는 쿼리 구성(query composition)을 통해 LRMs의 장기적 추론 행동을 자극하는 방법인 R-HORIZON을 제안합니다. R-HORIZON을 기반으로, 우리는 상호 의존적인 문제들로 구성된 복잡한 다단계 추론 작업을 포함하는 장기적 추론 벤치마크를 구축했습니다. R-HORIZON 벤치마크를 사용한 LRMs의 종합적 평가를 통해, 가장 진보된 LRMs조차도 상당한 성능 저하를 겪는 것을 발견했습니다. 우리의 분석은 LRMs가 효과적인 추론 길이에 제한이 있으며, 여러 문제에 걸쳐 사고 예산을 적절히 할당하는 데 어려움을 겪는다는 것을 보여줍니다. 이러한 한계를 인식하고, 우리는 검증된 보상(reward)을 통한 강화 학습(Reinforcement Learning with Verified Rewards, RLVR)을 위한 장기적 추론 데이터를 구축하기 위해 R-HORIZON을 사용했습니다. 단일 수평선 데이터로 학습한 경우와 비교했을 때, R-HORIZON을 사용한 RLVR은 다중 수평선 추론 작업에서의 성능을 크게 향상시킬 뿐만 아니라, 표준 추론 작업에서의 정확도도 7.5(AIME2024 기준) 증가시켰습니다. 이러한 결과는 R-HORIZON이 LRMs의 장기적 추론 능력을 향상하고 평가하기 위한 확장 가능하고, 제어 가능하며, 저비용의 패러다임으로 자리매김할 수 있음을 보여줍니다.
추론 능력을 갖춘 대형 언어 모델은 확장된 사고 사슬(chain-of-thought) 생성을 통해 복잡한 추론 행동을 보이며, 디코딩 단계에서 전례 없는 키-값(Key-Value, KV) 캐시 오버헤드를 발생시킵니다. 기존의 KV 캐시 압축 방법들은 추론 모델에서 제대로 작동하지 않습니다: 토큰 드롭핑 방법은 중요한 정보를 제거함으로써 추론의 무결성을 깨뜨리고, 헤드 재할당 방법은 검색 작업을 위해 설계되었기 때문에 추론에 중요한 헤드를 잘못 압축하여 압축률이 증가함에 따라 성능이 크게 저하됩니다. 우리는 KV 헤드가 추론 모델에서 기능적 이질성을 보인다는 가설을 세웁니다—일부 헤드는 사고 사슬의 일관성을 위해 중요하지만, 다른 헤드는 압축 가능합니다. 이 통찰을 검증하고 활용하기 위해, 우리는 RLKV라는 새로운 추론-중요 헤드 식별 프레임워크를 제안합니다. 이 프레임워크는 강화 학습을 사용하여 각 헤드의 캐시 사용과 추론 품질 간의 관계를 직접 최적화합니다. RLKV는 훈련 중 실제 생성된 샘플로부터 보상을 생성하므로, 추론 행동과 관련된 헤드를 자연스럽게 식별합니다. 그런 다음, 이러한 헤드에는 전체 KV 캐시를 할당하고, 다른 헤드에는 압축된 상수 KV 캐시를 적용하여 효율적인 추론을 가능하게 합니다. 우리의 실험 결과, 추론에 필수적인 주의(attention) 헤드는 극히 일부에 불과하며, 이를 통해 우리의 KV 압축 접근법은 기준 방법들을 능가하면서도 20-50%의 캐시 감소를 달성하고 압축되지 않은 결과와 거의 손실 없는 성능을 보여줍니다.
공간 추론 탐구가 급증하는 가운데, 연구자들은 실내 장면 이해에 있어 상당한 진전을 이루었지만, 로보틱스와 자율 주행과 같은 다양한 응용 분야에서는 여전히 어려움을 겪고 있습니다. 본 논문은 두 가지 주요 과제를 해결함으로써 다양한 시나리오에서의 전 스케일 공간 추론을 발전시키는 것을 목표로 합니다: 1) 데이터셋 구축에 있어 실내 3D 스캔과 노동 집약적인 수동 주석에 대한 과도한 의존성; 2) 효과적인 전 스케일 장면 모델링의 부재로 인해 개별 장면에 과적합되는 문제. 본 논문에서는 구조화된 공간 추론 지식 시스템, 스케일 인식 모델링, 그리고 점진적 훈련 패러다임을 통합한 종합적인 솔루션을 소개하며, 이는 우리가 아는 한 MLLM(Multimodal Large Language Model)의 전 스케일 공간 지능을 확장하기 위한 첫 번째 시도입니다. 작업 특화적이고 전문가 주도의 자동화 파이프라인을 사용하여, 우리는 5가지 공간 스케일에 걸쳐 38,000개 이상의 비디오 장면을 수집하여 약 100만 개의 공간 질의응답 쌍으로 구성된 SpaceVista-1M 데이터셋을 구축했습니다. 전문가 모델은 유용한 도메인 지식을 주입할 수 있지만, 평가에는 신뢰할 수 없습니다. 따라서 우리는 비디오 기반 데이터를 수동으로 기록, 검색, 조립하여 정확한 주석이 포함된 전 스케일 벤치마크를 구축했습니다. 그러나 SpaceVista-1M을 사용한 단순 훈련은 잠재적인 지식 충돌로 인해 종종 최적의 결과를 내지 못합니다. 이에 따라, 우리는 의미를 넘어선 밀집 입력을 받아들이고 스케일을 스케일 인식 전문가와 점진적 보상의 기준으로 사용하는 공간 추론 모델인 SpaceVista-7B를 소개합니다. 마지막으로, 우리의 SpaceVista-Bench를 포함한 5가지 벤치마크에 걸친 광범위한 평가는 모든 스케일과 시나리오에서 강력한 일반화 능력을 보여주며 경쟁력 있는 성능을 입증합니다. 우리의 데이터셋, 모델, 벤치마크는 https://peiwensun2000.github.io/mm2km 에 공개될 예정입니다.
현대 머신러닝 모델을 평가하는 것은 매우 비용이 많이 드는 작업이 되었습니다. LMMs-Eval 및 HELM과 같은 벤치마크는 모델당 수천 GPU 시간을 요구합니다. 이러한 고비용 평가는 포용성을 감소시키고, 혁신 주기를 늦추며, 환경적 영향을 악화시킵니다. 일반적인 접근 방식은 두 단계로 이루어집니다. 첫째, 데이터의 앵커 부분집합을 선택합니다. 둘째, 이 부분집합에서의 정확도를 최종 테스트 결과에 매핑하는 모델을 학습시킵니다. 이 방식의 단점은 앵커 선택이 클러스터링에 의존하며, 이는 복잡하고 설계 선택에 민감할 수 있다는 점입니다. 우리는 샘플 간 다양성을 촉진하는 것이 필수적이지 않다고 주장합니다. 중요한 것은 모델 응답에서 최대한의 다양성을 보이는 샘플을 선택하는 것입니다. 우리의 방법인 Diversifying Sample Condensation (DISCO)는 모델 간 불일치가 가장 큰 상위 k개의 샘플을 선택합니다. 이는 전역적 클러스터링이 아닌 탐욕적, 샘플 단위 통계를 사용합니다. 이 접근 방식은 개념적으로 더 단순합니다. 이론적 관점에서, 모델 간 불일치는 이러한 탐욕적 선택을 위한 정보 이론적으로 최적의 규칙을 제공합니다. DISCO는 이전 방법들보다 실험적으로 우수한 성과를 보이며, MMLU, Hellaswag, Winogrande, ARC에서 최첨단 성능 예측 결과를 달성했습니다. 코드는 여기에서 확인할 수 있습니다: https://github.com/arubique/disco-public.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 과제 개선을 위한 표준 방법론으로 자리 잡았으며, 그룹 상대 정책 최적화(GRPO)가 실제로 널리 사용되고 있습니다. 그러나 GRPO는 부정적 그룹(negative groups)에서 상당한 계산 자원을 낭비합니다: 어떤 샘플 응답도 정답이 아닌 그룹은 이점이 없어 그래디언트가 발생하지 않습니다. 우리는 추가 감독 없이도 이러한 부정적 그룹을 활용할 수 있는지 질문합니다. 보상 모델링에서 최대 가능도(MLE) 목적함수로부터 시작하여, MLE 그래디언트가 수정된 가치 함수에 대한 정책 그래디언트와 동일함을 보입니다. 이 가치 함수는 잘못된 응답에 대해 신뢰도 가중치를 적용한 패널티를 추가하며, 더 확신에 찬 오류에 더 큰 패널티를 부과합니다. 이를 부정적 샘플을 활용한 가능도 추정(LENS)이라고 명명합니다. LENS는 GRPO를 수정하여 잘못된 생성물에 대해 신뢰도에 의존하는 0이 아닌 보상을 할당함으로써, 부정적 그룹을 정보적으로 만들고 이전에 낭비되던 샘플을 유용한 그래디언트 업데이트로 전환합니다. Llama-3.1-8B와 Qwen-2.5-3B 모델을 사용한 MATH 벤치마크에서, 제안된 변형은 GRPO 기준선을 꾸준히 능가하며, 특히 더 어려운 항목에서 상당한 성능 향상을 보였습니다. 이러한 결과는 부정적 그룹을 "구제"하는 원칙적이고 실용적인 방법을 보여주며, RLVR의 효율성과 성능을 개선합니다.
최근 멀티모달 대규모 추론 모델(MLRMs)의 발전으로 복잡한 텍스트 및 시각적 과제 해결 능력이 크게 향상되었습니다. 그러나 이러한 모델들은 단순한 문제에 대해 과도하게 사고하여 불필요하게 긴 추론 과정을 생성하는 반면, 어려운 문제에서는 충분히 탐색하지 못해 해결책을 놓치는 경향이 있습니다. 이러한 불균형을 해결하기 위해, 우리는 과제 난이도에 따라 탐색 노력을 동적으로 할당하는 적응형 추론을 위한 통합 오픈소스 프레임워크인 ARES를 제안합니다. 우리의 접근 방식은 두 가지 주요 실험적 발견에 기반합니다: (i) 단일 토큰 엔트로피는 노이즈가 많지만, 고윈도우 엔트로피(HWE) 토큰(슬라이딩 윈도우 하에서 평균화된 토큰 수준 엔트로피)은 추론의 중요한 순간을 신뢰성 있게 포착할 수 있으며, (ii) HWE 사용을 줄이는 것은 쉬운 문제에 유리한 반면, 이를 증가시키는 것은 어려운 문제를 해결하는 데 필수적입니다. 이러한 통찰을 바탕으로, ARES는 두 단계의 학습 파이프라인을 도입합니다. 적응형 콜드 스타트 단계에서는 문제 난이도에 비례하는 길이의 추론 과정과 함께 멀티모달 및 텍스트 데이터를 선별하여 모델에 초기 난이도 인식을 부여합니다. 두 번째 단계에서는 HWE 토큰을 탐색 트리거로 사용하여 탐색 시점을 결정하고, 동적 KL 제어를 포함한 계층적 엔트로피 보상을 통해 탐색 정도를 결정하는 적응형 엔트로피 정책 최적화(AEPO)를 개발합니다. 광범위한 실험을 통해 ARES가 다양한 수학적, 논리적, 멀티모달 벤치마크에서 우수한 성능과 추론 효율성을 달성하며, 상당히 낮은 추론 비용으로 선도적인 상용 시스템과의 격차를 줄이는 것을 입증했습니다.
도구를 사용하고, 이해하며, 창조하는 능력은 인간 지능의 특징으로, 물리적 세계와의 정교한 상호작용을 가능하게 합니다. 진정한 다재다능성을 갖춘 일반 지능 에이전트는 이러한 기본적인 기술들도 숙달해야 합니다. 현대의 다중모달 대형 언어 모델(MLLMs)은 구체화된 AI와 다운스트림 시각-언어-행동(VLA) 모델에서 고차원적인 계획을 위해 방대한 상식 지식을 활용하지만, 물리적 도구에 대한 진정한 이해의 정도는 아직 정량화되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 MLLMs의 물리적 도구 이해를 평가하는 최초의 벤치마크인 PhysToolBench를 제안합니다. 우리의 벤치마크는 1,000개 이상의 이미지-텍스트 쌍으로 구성된 시각 질의응답(VQA) 데이터셋으로 구조화되어 있으며, 세 가지 난이도 수준에서 능력을 평가합니다: (1) 도구 인식: 도구의 주요 기능을 인식하는 능력 요구. (2) 도구 이해: 도구의 작동 원리를 파악하는 능력 테스트. (3) 도구 창조: 기존의 도구가 없을 때 주변 물체로부터 새로운 도구를 만들어내는 능력 도전. 우리는 32개의 MLLMs(사유, 오픈소스, 특화된 구체화, VLA의 백본 포함)에 대한 포괄적인 평가를 통해 도구 이해에서의 상당한 결함을 밝혀냈습니다. 또한, 심층 분석과 함께 예비 해결책을 제안합니다. 코드와 데이터셋은 공개적으로 제공됩니다.
최근의 발전은 AI의 전선을 패턴 인식 작업에서 단계별, System2 스타일의 추론이 필요한 문제로, 특히 대형 언어 모델을 통해 확장시켰다. 그러나 일반화와 분포 외(OoD) 평가 개념이 잘 정립된 학습과 달리, 추론 능력에 대한 명확하고 일관된 정의나 지표는 없다. 우리는 복잡성 분포 외(Complexity OoD) 일반화를 추론을 정의하고 측정하기 위한 프레임워크 및 문제 설정으로 제안한다. 모델은 최소 요구 솔루션 복잡도(표현적: 더 풍부한 솔루션 구조, 계산적: 더 많은 추론 단계/프로그램 길이)가 모든 훈련 예제를 초과하는 테스트 인스턴스에서 성능을 유지할 때 Complexity OoD 일반화를 보인다. 우리는 솔루션 설명 콜모고로프 복잡도와 객체/관계 수, 추론 단계 수와 같은 실질적 대리 지표를 통해 복잡도를 공식화하여 Complexity OoD가 길이 및 구성적 OoD와 어떻게 다른지 명확히 한다. 이 렌즈는 학습과 추론을 통합한다: 낮은 복잡도에서 System1과 같은 처리로 해결 가능한 많은 경우가 복잡도 압력 하에서 System2와 같이 되며, System2는 솔루션 구조에 대한 일반화로 볼 수 있다. 우리는 이 관점을 실천에 옮기기 위해 Complexity OoD를 스택 전반에 걸쳐 운영화하기 위한 권장 사항을 제시한다: 벤치마크 및 평가 지표 설계에 복잡도를 통합, 솔루션 흔적을 목표로 하는 감독 방식 재고, Complexity OoD 일반화를 위한 귀납적 편향 탐색 및 설계, 허위 단축, 의미론적 견고성, 파국적 망각, 단계별 보정과 같은 추론 학습의 부작용 해결. Complexity OoD는 데이터 확장만으로 해결될 수 없기 때문에, 견고한 추론을 향한 진전은 복잡도에 대해 계산을 명시적으로 모델링하고 할당하는 아키텍처와 훈련 체계를 필요로 할 것이다.
3D 점유 예측(occupancy prediction) 작업은 최근 몇 년 동안 눈부신 발전을 이루며, 비전 기반 자율 주행 시스템에서 중요한 역할을 하고 있습니다. 기존의 전통적인 방법들은 고정된 의미론적 범주(semantic categories)에 국한되어 있었지만, 최근 접근법들은 실제 장면에서 개방형 어휘(open-vocabulary) 텍스트 쿼리를 가능하게 하기 위해 텍스트 정렬 특성(text-aligned features)을 예측하는 방향으로 나아가고 있습니다. 그러나 텍스트 정렬 장면 모델링에는 트레이드오프가 존재합니다: 희소 가우시안 표현(sparse Gaussian representation)은 장면 내 작은 객체를 포착하는 데 어려움을 겪는 반면, 밀집 표현(dense representation)은 상당한 계산 오버헤드를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 개방형 어휘 3D 점유 예측을 가능하게 하는 혁신적인 PG-Occ(Progressive Gaussian Transformer Framework)를 제안합니다. 우리의 프레임워크는 점진적 온라인 밀집화(progressive online densification)를 사용하여, 3D 가우시안 표현을 점차적으로 향상시켜 미세한 장면 세부 사항을 포착합니다. 반복적으로 표현을 강화함으로써, 프레임워크는 점점 더 정밀하고 상세한 장면 이해를 달성합니다. 또 다른 주요 기여는 시공간 융합(spatio-temporal fusion)을 통한 이방성 인식 샘플링 전략(anisotropy-aware sampling strategy)의 도입입니다. 이 전략은 다양한 스케일과 단계에서 가우시안에 적응적으로 수용 필드(receptive fields)를 할당하여, 더 효과적인 특성 집계와 더 풍부한 장면 정보 포착을 가능하게 합니다. 광범위한 평가를 통해, PG-Occ가 이전 최고 성능 방법 대비 14.3%의 상대적 mIoU 개선을 달성하며 최첨단 성능을 보임을 입증합니다. 코드와 사전 학습된 모델은 프로젝트 페이지(https://yanchi-3dv.github.io/PG-Occ)에 게시 시 공개될 예정입니다.
대형 언어 모델(LLMs)은 지도 미세 조정(SFT)을 통해 추론 능력에서 놀라운 진전을 보여왔습니다. 그러나 SFT는 대규모로 정제된 데이터셋, 거부 샘플링된 데모, 그리고 모든 토큰에 걸친 균일한 최적화에 의존하는 등 자원 집약적인 과정입니다. 이는 비록 일부 토큰만이 의미 있는 학습 가치를 지니고 있음에도 불구하고 그러한 방식으로 진행됩니다. 본 연구에서는 직관에 반대되는 아이디어를 탐구합니다: 더 작은 언어 모델(SLMs)이 더 큰 언어 모델(LLMs)에게 고가치 추론 순간을 드러내어 후자의 독특한 강점을 반영함으로써 가르칠 수 있을까요? 우리는 강력한 전문가 모델(LLM)과 약한 아마추어 모델(SLM) 간의 행동적 차이를 활용하는 새로운 프레임워크인 LightReasoner를 제안합니다. LightReasoner는 두 단계로 작동합니다: (1) 전문가와 아마추어의 대비를 통해 전문가의 우위를 포착한 감독 예제를 구성하며, 중요한 추론 순간을 정확히 찾아내는 샘플링 단계, 그리고 (2) 이러한 정제된 예제에 맞춰 전문가 모델을 조정하여 그 추론 강점을 증폭시키는 미세 조정 단계입니다. 일곱 개의 수학 벤치마크에서 LightReasoner는 정확도를 최대 28.1%까지 향상시키면서도 시간 소모를 90%, 샘플링된 문제를 80%, 조정된 토큰 사용량을 99%까지 줄였습니다. 이 모든 것이 지상 진실 레이블에 의존하지 않고 이루어졌습니다. 더 약한 SLM을 효과적인 교수 신호로 전환함으로써, LightReasoner는 LLM 추론을 발전시키기 위한 확장 가능하고 자원 효율적인 접근 방식을 제공합니다. 코드는 https://github.com/HKUDS/LightReasoner에서 확인할 수 있습니다.
현재의 제어 가능한 확산 모델은 일반적으로 새로운 모달리티에 따라 조건화된 지침을 주입하기 위해 중간 활성화를 수정하는 고정된 아키텍처에 의존합니다. 이 접근 방식은 동적이고 다단계의 노이즈 제거 과정에 대해 정적인 조건화 전략을 사용함으로써, 생성이 거친 구조에서 세부적인 디테일로 진화함에 따라 모델의 응답을 적응시키는 능력을 제한합니다. 우리는 TC-LoRA(Temporally Modulated Conditional LoRA)라는 새로운 패러다임을 소개합니다. 이는 모델의 가중치를 직접 조건화함으로써 동적이고 상황 인식 가능한 제어를 가능하게 합니다. 우리의 프레임워크는 하이퍼네트워크를 사용하여 LoRA 어댑터를 실시간으로 생성하며, 각 확산 단계에서 시간과 사용자의 조건에 따라 고정된 백본에 대한 가중치 수정을 맞춤화합니다. 이 메커니즘은 모델이 전체 생성 과정에 걸쳐 조건화된 지침을 적용하기 위한 명시적이고 적응적인 전략을 학습하고 실행할 수 있게 합니다. 다양한 데이터 도메인에 대한 실험을 통해, 이 동적이고 파라미터화된 제어가 정적이고 활성화 기반의 방법에 비해 생성 충실도와 공간 조건 준수를 크게 향상시킴을 입증했습니다. TC-LoRA는 모델의 조건화 전략이 가중치의 더 깊은 기능적 적응을 통해 수정되는 대안적 접근 방식을 확립하며, 제어가 작업과 생성 단계의 동적 요구에 맞춰질 수 있게 합니다.
우리는 집중적인 추론을 요구하는 최초의 전문가 수준 다학제적 멀티모달 검색 벤치마크인 MRMR을 소개한다. MRMR은 23개 도메인에 걸친 1,502개의 쿼리로 구성되어 있으며, 긍정적인 문서는 인간 전문가들이 신중하게 검증하였다. 기존 벤치마크와 비교하여 MRMR은 세 가지 주요 발전을 도입했다. 첫째, 다양한 전문 분야에 걸쳐 검색 시스템에 도전함으로써 도메인 간 세밀한 모델 비교를 가능하게 한다. 둘째, 쿼리는 현미경 슬라이드 진단과 같은 깊은 해석을 요구하는 이미지를 포함하여 추론 집약적이다. 또한, 모델이 상충하는 개념을 식별해야 하는 새로운 과제인 모순 검색(Contradiction Retrieval)을 도입했다. 마지막으로, 쿼리와 문서는 이미지-텍스트가 교차된 시퀀스로 구성된다. 단일 이미지나 단일 모달 문서로 제한되었던 이전 벤치마크와 달리, MRMR은 다중 이미지 쿼리와 혼합 모달리티 코퍼스 문서를 포함한 현실적인 설정을 제공한다. 우리는 MRMR에서 4개 범주의 멀티모달 검색 시스템과 14개의 최신 모델에 대한 광범위한 평가를 수행했다. LLM 생성 이미지 캡션을 활용한 텍스트 임베딩 모델 Qwen3-Embedding이 가장 높은 성능을 달성하며, 멀티모달 검색 모델의 개선을 위한 상당한 여지를 보여주었다. Ops-MM-Embedding과 같은 최신 멀티모달 모델들은 전문 도메인 쿼리에서는 경쟁력 있는 성능을 보이지만, 추론 집약적 과제에서는 부족함을 드러냈다. 우리는 MRMR이 더 현실적이고 도전적인 시나리오에서 멀티모달 검색을 발전시키는 길을 열어줄 것이라 믿는다.
추론 모델들은 최근 수학 및 코딩과 같은 분야에서 놀라운 진전을 보여왔습니다. 그러나 수학과 코딩에서의 전문가 수준 능력은 웹 탐색 및 컴퓨터/휴대폰 사용과 같은 장기적이고 상호작용적인 작업에서의 성능과는 극명한 대조를 이룹니다. 인간 인지에 관한 문헌에서 영감을 받아, 우리는 현재의 AI 에이전트들이 복잡한 상호작용 환경에서의 이해와 성능을 향상시키기 위해 '대리적 시행착오(vicarious trial and error)' - 행동하기 전에 대안적인 미래를 정신적으로 시뮬레이션하는 능력 - 가 필요하다고 주장합니다. 우리는 이러한 시뮬레이션을 추론에 통합하도록 (V)LM 에이전트를 명시적으로 가르치는 두 단계의 훈련 프레임워크인 Dyna-Mind를 소개합니다. 첫 번째 단계에서는, 환경 상호작을 통해 수집된 실제 경험으로부터 구축된 확장된 탐색 트리에서 구조화된 추론 흔적을 생성하도록 에이전트를 훈련시키는 Reasoning with Simulations (ReSim)을 도입합니다. ReSim은 에이전트의 추론을 신뢰할 수 있는 세계 역학에 기반을 두고, 추론에서 미래 상태를 예측할 수 있는 능력을 갖추도록 합니다. 두 번째 단계에서는, 실제 롤아웃에서의 결과 보상과 중간 상태를 피드백으로 사용하여 에이전트의 시뮬레이션 및 의사결정 능력을 더욱 강화하는 온라인 강화 학습 방법인 Dyna-GRPO를 제안합니다. 두 개의 합성 벤치마크(Sokoban 및 ALFWorld)와 하나의 현실적 벤치마크(AndroidWorld)에서의 실험은 (1) ReSim이 AI 에이전트에 시뮬레이션 능력을 효과적으로 주입하고, (2) Dyna-GRPO가 결과 및 상호작용 수준의 신호를 활용하여 장기적이고 계획 집약적인 작업에 대한 더 나은 정책을 학습한다는 것을 보여줍니다. 이러한 결과들은 점점 더 도전적인 환경에서 AI 에이전트가 더 효과적으로 추론, 계획 및 행동할 수 있도록 하는 데 시뮬레이션의 중심적인 역할을 강조합니다.
동적 뷰 합성 기술은 상당한 발전을 이루었지만, 캘리브레이션되지 않은 캐주얼 비디오로부터 장면을 재구성하는 것은 느린 최적화와 복잡한 파라미터 추정으로 인해 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 캘리브레이션된 카메라나 깊이 센서 없이도 캐주얼 비디오 시퀀스를 몇 분 내에 효율적으로 처리할 수 있는 네이티브 4D 표현을 활용한 모노큘러 재구성 시스템인 Instant4D를 제안합니다. 우리의 방법은 딥 비주얼 SLAM을 통한 기하학적 복구로 시작하여, 장면 표현을 최적화하기 위한 그리드 프루닝을 수행합니다. 이 설계는 기하학적 무결성을 유지하면서 중복성을 크게 줄여 모델 크기를 원래 크기의 10% 미만으로 줄입니다. 시간적 동역학을 효율적으로 처리하기 위해 간소화된 4D 가우시안 표현을 도입하여 30배의 속도 향상을 달성하고, 여러 벤치마크에서 경쟁력 있는 성능을 유지하면서 학습 시간을 2분 이내로 단축했습니다. 우리의 방법은 Dycheck 데이터셋에서 단일 비디오를 10분 이내에 재구성하거나 일반적인 200프레임 비디오에 대해 재구성합니다. 또한, 우리는 이 모델을 실제 환경의 비디오에 적용하여 일반화 가능성을 입증했습니다. 우리의 프로젝트 웹사이트는 https://instant4d.github.io/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 수학적 및 논리적 추론에서 놀라운 진전을 보여왔지만, 통계학은 독자적이고 통합적인 학문으로서 벤치마킹 노력에서 아직 충분히 탐구되지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 통계학에 전념한 첫 번째 포괄적인 벤치마크인 StatEval을 소개합니다. StatEval은 난이도에 걸쳐 폭넓고 깊이 있는 문제를 포함하며, 학부 및 대학원 커리큘럼을 아우르는 13,817개의 기초 문제와 주요 저널에서 추출한 2,374개의 연구 수준 증명 과제로 구성됩니다. 이 벤치마크를 구축하기 위해, 우리는 대규모 문제 추출, 재작성 및 품질 관리를 자동화하면서 학문적 엄격성을 보장하는 확장 가능한 다중 에이전트 파이프라인을 설계했습니다. 또한, 계산 기반 및 증명 기반 과제 모두에 맞춤화된 강력한 평가 프레임워크를 제안하여 추론 능력을 세밀하게 평가할 수 있도록 했습니다. 실험 결과, GPT5-mini와 같은 폐쇄형 모델은 연구 수준 문제에서 57% 미만의 성적을 기록했으며, 오픈소스 모델은 훨씬 낮은 성능을 보였습니다. 이러한 결과는 통계적 추론의 독특한 도전과 현재 LLM의 한계를 강조합니다. 우리는 StatEval이 대규모 언어 모델의 통계적 지능을 발전시키기 위한 엄격한 벤치마크로 활용되기를 기대합니다. 모든 데이터와 코드는 우리의 웹 플랫폼에서 확인할 수 있습니다: https://stateval.github.io/.
도메인 변화 상황에서 강인한 자동 음성 인식(ASR)은 실세계 시스템이 제한된 레이블 데이터와 함께 보지 못한 억양 및 도메인을 마주하기 때문에 매우 중요합니다. 의사 레이블링은 실용적인 해결책을 제공하지만, 종종 필터링으로 해결할 수 없는 체계적이고 억양 특화된 오류를 유발합니다. 우리는 다음과 같은 질문을 던집니다: 타겟 실측 데이터 없이 이러한 반복적인 편향을 어떻게 교정할 수 있을까? 우리는 간단한 파라미터 공간 교정 방법을 제안합니다: 실제 데이터와 의사 레이블 데이터를 모두 포함하는 소스 도메인에서, 동일한 초기화로부터 두 개의 ASR 모델을 미세 조정합니다. 하나는 실측 레이블을 사용하고, 다른 하나는 의사 레이블을 사용하며, 이들의 가중치 차이는 의사 레이블 편향을 포착하는 교정 벡터를 형성합니다. 이 벡터를 의사 레이블된 타겟 모델에 적용하면, Whisper tiny 모델을 사용하여 10개의 아프리카 억양에 걸쳐 AfriSpeech-200에서 최대 35%의 상대적 단어 오류율(WER) 감소를 달성하며 인식 성능을 향상시킵니다.
기존의 다중모달 학습자들은 시각 질의응답과 같은 작업을 위해 통합된 표현을 찾지만, 이는 주로 짝지어진 데이터셋에 크게 의존합니다. 그러나 간과되었지만 잠재적으로 강력한 질문은 다음과 같습니다: 보조적인 짝지어지지 않은 다중모달 데이터를 활용하여 대상 모달리티에서의 표현 학습을 직접적으로 향상시킬 수 있을까요? 우리는 UML(Unpaired Multimodal Learner)을 소개합니다. 이는 단일 모델이 서로 다른 모달리티의 입력을 번갈아 처리하면서 파라미터를 공유하는 모달리티-불가지론적 학습 패러다임입니다. 이 설계는 서로 다른 모달리티들이 공유된 기저 현실의 투영이라는 가정을 활용하여, 명시적인 짝을 요구하지 않고도 교차 모달 구조로부터 이점을 얻을 수 있도록 합니다. 이론적으로, 선형 데이터 생성 가정 하에서, 짝지어지지 않은 보조 데이터가 단일 모달 학습보다 데이터 생성 과정에 대해 엄밀히 더 많은 정보를 제공하는 표현을 산출할 수 있음을 보입니다. 실험적으로, 텍스트, 오디오, 이미지와 같은 보조 모달리티의 짝지어지지 않은 데이터를 사용하는 것이 이미지와 오디오와 같은 다양한 단일 모달 대상에서 하위 작업 성능을 지속적으로 향상시킴을 보여줍니다. 프로젝트 페이지: https://unpaired-multimodal.github.io/
DeepResearch 에이전트는 정교한 추론과 다중 도구 통합을 통해 전문가 수준의 연구를 수행하는 혁신적인 AI 패러다임을 대표합니다. 그러나 이러한 시스템을 평가하는 것은 개방형 연구 시나리오와 단편적인 능력에 초점을 맞춘 기존 벤치마크로 인해 여전히 심각한 도전 과제로 남아 있습니다. 전통적인 LLM 작업과 달리, DeepResearch 시스템은 다양한 소스를 종합하고 통찰을 생성하며 일관된 연구 결과를 제시해야 하는데, 이러한 능력들은 단순한 검증을 거부합니다. 이러한 격차를 해결하기 위해, 우리는 DeepResearch 시스템을 가장 대표적인 출력물인 연구 보고서를 통해 평가하기 위한 포괄적인 프레임워크인 DeepResearch-ReportEval을 소개합니다. 우리의 접근 방식은 품질, 중복성, 사실성이라는 세 가지 차원을 체계적으로 측정하며, 혁신적인 LLM-as-a-Judge 방법론을 통해 강력한 전문가 일치도를 달성합니다. 우리는 12개의 실제 세계 카테고리에 걸쳐 100개의 선별된 쿼리로 구성된 표준 벤치마크를 제공함으로써 체계적인 능력 비교를 가능하게 합니다. 4개의 주요 상용 시스템에 대한 평가를 통해 뚜렷한 설계 철학과 성능 트레이드오프를 밝혀냈으며, 이는 DeepResearch가 정보 보조 도구에서 지능형 연구 파트너로 진화함에 있어 기초적인 통찰을 확립합니다. 소스 코드와 데이터는 https://github.com/HKUDS/DeepResearch-Eval에서 확인할 수 있습니다.
AI 제어 프로토콜은 신뢰할 수 없는 LLM 에이전트가 자율 환경에서 피해를 입히는 것을 방지하기 위한 방어 메커니즘으로 작용합니다. 기존 연구에서는 이를 보안 문제로 간주하며, 배포 컨텍스트를 활용해 유해한 부수 작업(예: 백도어 삽입)을 은밀히 완수하는 익스플로잇을 통해 스트레스 테스트를 수행했습니다. 실제로 대부분의 AI 제어 프로토콜은 근본적으로 LLM 모니터에 기반을 두고 있으며, 이는 주요 실패 지점이 될 수 있습니다. 우리는 프로토콜과 모니터 모델을 알고 있는 신뢰할 수 없는 모델의 적응형 공격을 연구합니다. 이는 신뢰할 수 없는 모델이 더 나중의 지식 컷오프로 훈련되었거나 이 정보를 자율적으로 검색할 수 있는 경우에 가능성이 높습니다. 우리는 공격자가 모델 출력에 공개적으로 알려진 또는 제로샷 프롬프트 인젝션을 삽입하는 간단한 적응형 공격 벡터를 구체화합니다. 이 전술을 사용하면 최첨단 모델이 다양한 모니터를 지속적으로 회피하고 두 가지 주요 AI 제어 벤치마크에서 악의적인 작업을 완수합니다. 이 공격은 모니터에 의존하는 현재의 모든 프로토콜에 대해 보편적으로 작동합니다. 더욱이 최근의 Defer-to-Resample 프로토콜은 오히려 역효과를 내며, 리샘플링이 프롬프트 인젝션을 증폭시켜 이를 사실상 best-of-n 공격으로 재구성합니다. 일반적으로 모니터 모델에 대한 적응형 공격은 현재 제어 프로토콜의 주요 맹점을 나타내며, 향후 AI 제어 메커니즘 평가의 표준 구성 요소가 되어야 합니다.
병렬 테스트 타임 스케일링(TTS)은 대규모 언어 모델(LLM)의 성능을 향상시키는 핵심적인 접근 방식으로, 일반적으로 다중 토큰 기반 사고 연쇄(Chain-of-Thought)를 병렬로 샘플링하고 투표 또는 탐색을 통해 결과를 집계하는 방식으로 이루어집니다. 최근 중간 추론이 연속 벡터 공간에서 전개되는 잠재 추론(latent reasoning) 분야의 발전은 명시적 사고 연쇄보다 더 효율적인 대안을 제공하지만, 이러한 잠재 모델이 병렬 TTS로부터 유사한 이점을 얻을 수 있는지는 여전히 미해결 문제로 남아 있습니다. 이는 주로 연속 공간에서의 샘플링 메커니즘이 부족하고, 고급 궤적 집계를 위한 확률적 신호가 없기 때문입니다. \ 본 연구는 이러한 문제를 해결함으로써 잠재 추론 모델에 대한 병렬 TTS를 가능하게 합니다. 샘플링을 위해 몬테카를로 드롭아웃(Monte Carlo Dropout)과 가우시안 노이즈 추가(Additive Gaussian Noise)라는 두 가지 불확실성 기반 확률적 전략을 도입합니다. 집계를 위해 단계별 대조 목적(step-wise contrastive objective)으로 훈련된 잠재 보상 모델(Latent Reward Model, LatentRM)을 설계하여 잠재 추론을 점수화하고 안내합니다. 광범위한 실험과 시각화 분석을 통해 두 샘플링 전략이 계산 자원에 효과적으로 스케일링되며 독특한 탐색 역학을 보여주는 반면, LatentRM은 효과적인 궤적 선택을 가능하게 함을 확인했습니다. 이를 통해 우리의 탐구는 연속 공간에서의 확장 가능한 추론을 위한 새로운 방향을 열었습니다. 코드는 https://github.com/YRYangang/LatentTTS에서 공개되었습니다.
제로샷 캡셔너(Zero-shot captioner)는 최근 제안된 모델로, 이미지-텍스트 쌍 데이터에 의존하지 않고 공통 공간의 시각-언어 표현을 활용하여 이미지에 캡션을 생성합니다. 이미지에 캡션을 생성하기 위해, 이 모델들은 텍스트 정렬된 이미지 특징을 텍스트로 디코딩하는 방식을 사용하지만, 전역 표현과 전체 이미지 캡션에만 국한됩니다. 우리는 이미지 중심에서 패치 중심으로 패러다임을 전환하여, 영역 수준의 지도 없이도 임의의 영역에 캡션을 생성할 수 있는 통합된 제로샷 캡셔닝 프레임워크를 제시합니다. 전역 이미지 표현에 의존하는 대신, 개별 패치를 원자적 캡셔닝 단위로 취급하고 이를 집계하여 단일 패치부터 비연속 영역, 전체 이미지에 이르기까지 임의의 영역을 설명합니다. 우리는 현재의 잠재 캡셔너가 우리가 제안한 새로운 프레임워크에서 작동할 수 있도록 하는 핵심 요소를 분석합니다. 실험 결과, DINO와 같이 의미 있는 밀집 시각 특징을 생성하는 백본이 여러 영역 기반 캡셔닝 작업에서 최첨단 성능을 달성하는 데 핵심적임을 보여줍니다. 다른 베이스라인 및 최첨단 경쟁 모델과 비교했을 때, 우리의 모델은 제로샷 밀집 캡셔닝, 영역 집합 캡셔닝, 그리고 새로 도입된 트레이스 캡셔닝 작업에서 더 나은 성능을 달성하며, 확장 가능한 캡션 생성을 위한 패치 단위의 의미 표현의 효과를 강조합니다. 프로젝트 페이지는 https://paciosoft.com/Patch-ioner/ 에서 확인할 수 있습니다.
동료 평가는 과학 출판의 초석이지만, 불일치, 평가자의 주관성, 확장성 문제로 인해 어려움을 겪고 있습니다. 우리는 ReviewerToo를 소개합니다. 이는 체계적이고 일관된 평가를 통해 인간의 판단을 보완하는 AI 지원 동료 평가를 연구하고 배포하기 위한 모듈식 프레임워크입니다. ReviewerToo는 특화된 평가자 페르소나와 구조화된 평가 기준을 사용한 체계적인 실험을 지원하며, 실제 컨퍼런스 워크플로우에 부분적 또는 완전히 통합될 수 있습니다. 우리는 ICLR 2025에서 엄선된 1,963편의 논문 제출 데이터셋을 통해 ReviewerToo를 검증했으며, gpt-oss-120b 모델을 사용한 실험에서 논문을 수락/거절로 분류하는 작업에서 81.8%의 정확도를 달성했습니다. 이는 평균 인간 평가자의 83.9%에 근접한 수치입니다. 또한, ReviewerToo가 생성한 평가는 LLM 판단자에 의해 인간 평균보다 더 높은 품질로 평가되었지만, 여전히 최고의 전문가 기여에는 미치지 못했습니다. 우리의 분석은 AI 평가자가 우수한 영역(예: 사실 확인, 문헌 커버리지)과 어려움을 겪는 영역(예: 방법론적 참신성 및 이론적 기여 평가)을 강조하며, 여전히 인간 전문 지식이 필요함을 보여줍니다. 이러한 결과를 바탕으로, 우리는 AI를 동료 평가 프로세스에 통합하기 위한 가이드라인을 제안하며, AI가 일관성, 커버리지, 공정성을 향상시키는 동시에 복잡한 평가적 판단은 도메인 전문가에게 맡기는 방법을 보여줍니다. 우리의 작업은 과학 출판의 성장에 맞춰 확장 가능한 체계적 하이브리드 동료 평가 시스템의 기반을 제공합니다.
검증자 보상 강화 학습(RLVR)으로 강화된 대형 추론 모델(LRMs)은 문제 해결에서 강력한 성능을 보여주지만, 종종 과도한 사고(overthinking)를 유발합니다. 이는 불필요하게 길고 산만한 추론으로 인해 계산 비용이 증가하는 현상입니다. 기존의 RLVR 패널티 설계는 토큰 소비를 줄이는 데는 성공했지만, 모델 성능을 저하시키는 경우가 많았는데, 이는 토큰 수준의 지도(supervision)가 지나치게 단순했기 때문입니다. 본 논문에서는 지도의 세분화(granularity)가 효율성과 정확성의 균형을 맞추는 데 중요한 역할을 한다고 주장하며, 추론을 규제하기 위한 단계별 방법인 그룹 상대 세그먼트 패널티(GRSP)를 제안합니다. 예비 분석 결과, 추론 세그먼트는 토큰 소비와 모델 성능과 강한 상관관계가 있음이 확인되었기 때문에, 우리는 세그먼트 클러스터 간의 길이 인식 가중치 메커니즘을 설계했습니다. 광범위한 실험을 통해 GRSP가 정확성을 크게 저하시키지 않으면서도 우수한 토큰 효율성을 달성하며, 특히 더 어려운 문제에서 그 장점이 두드러짐을 입증했습니다. 또한, GRSP는 RL 훈련을 안정화하고 모델 크기에 효과적으로 확장됩니다.
실시간 음성 언어 모델(SLMs)은 전체 사고 과정을 순차적으로 생성해야 하는 과도한 지연 시간으로 인해 사고의 연쇄(Chain-of-Thought, CoT) 추론을 활용하는 데 어려움을 겪고 있습니다. 인간처럼 말을 하면서 동시에 사고할 수 있는 SLMs의 가능성은 점점 더 주목받고 있습니다. 우리는 이번 연구에서 처음으로, 인간의 뇌를 모방한 고품질 실시간 추론을 가능하게 하는 Mind-Paced Speaking(MPS) 프레임워크를 제안합니다. 인간이 사고와 반응을 위해 서로 다른 뇌 영역을 활용하는 방식과 유사하게, 우리는 고수준의 추론을 담당하는 "Formulation Brain"과 유창한 음성 생성을 담당하는 "Articulation Brain"이라는 이중 뇌 접근법을 제안합니다. 이러한 역할 분담은 모드 전환을 제거함으로써 추론 과정의 무결성을 보존합니다. 실험 결과, MPS는 기존의 말하면서 사고하는 방법들을 크게 능가하며, 말하기 전에 전체 CoT를 미리 계산하는 모델들과 비슷한 수준의 추론 성능을 달성하면서도 지연 시간을 크게 줄였습니다. 제로 지연 시간 설정에서, 제안된 방법은 수학적 추론 과제인 Spoken-MQA에서 92.8%의 정확도를 달성했으며, 음성 대화 과제인 URO-Bench에서는 82.5점을 기록했습니다. 우리의 연구는 고품질 추론과 실시간 상호작용 간의 간극을 효과적으로 메웠습니다.
대규모 언어 모델(LLM) 기반 에이전트는 장기적 과제에서 전역 계획의 부족으로 인해 무분별한 시행착오와 환각적 행동을 생성하는 데 어려움을 겪습니다. 본 논문에서는 계획-실행 프레임워크를 소개하고, 인간의 노력 없이 실행자 에이전트의 계획 능력을 향상시키기 위한 효율적이고 효과적인 계획자 훈련 방법인 EAGLET을 제안합니다. 구체적으로, 우리는 플러그 앤 플레이 방식의 전역 계획자를 두 단계 과정을 통해 훈련합니다: 먼저, 제안된 동종 합의 필터링 전략을 사용하여 고급 LLM에서 고품질 계획을 합성하고, 이를 미세 조정을 통해 콜드 스타트로 적용합니다. 또한, 새로운 실행자 능력 획득 보상을 사용한 규칙 기반 강화 학습 단계를 통해 계획자를 더욱 개선하여 다양한 난이도의 작업 지시를 처리할 수 있도록 합니다. 세 가지 장기적 에이전트 과제에 대한 실험 결과, 우리의 계획자를 장착한 실행자 에이전트는 기존 방법들을 능가하며 새로운 최첨단 성능을 달성했습니다. 동시에, EAGLET은 강화 학습 기반 베이스라인 대비 훈련 비용을 8배 절감하며, 수동 노력이나 추가 훈련 데이터가 필요하지 않아 효율적이고 효과적인 솔루션을 제공합니다.
시각적 콘텐츠 생성의 새로운 패러다임으로서, 자동회귀적 텍스트-이미지 모델은 순차적인 토큰 단위 디코딩 프로세스로 인해 느린 추론 속도를 겪으며, 단일 이미지를 생성하기 위해 수천 번의 모델 순전파가 필요한 경우가 많습니다. 이러한 비효율성을 해결하기 위해, 우리는 Speculative Jacobi-Denoising Decoding(SJD2) 프레임워크를 제안합니다. 이 프레임워크는 자동회귀 모델에서 병렬 토큰 생성을 가능하게 하기 위해 제노이징 프로세스를 야코비 반복에 통합합니다. 우리의 방법은 사전 훈련된 자동회귀 모델이 노이즈가 섞인 토큰 임베딩을 수용하고 저비용 미세 조정을 통해 다음 클린 토큰을 예측할 수 있도록 하는 next-clean-token 예측 패러다임을 도입합니다. 이 제노이징 패러다임은 모델이 더 안정적인 야코비 궤적을 따르도록 유도합니다. 추론 과정에서, 우리의 방법은 토큰 시퀀스를 가우시안 노이즈로 초기화하고 임베딩 공간에서 반복적인 next-clean-token 예측을 수행합니다. 우리는 확률적 기준을 사용하여 여러 토큰을 병렬로 검증 및 수락하고, 제노이징 궤적을 통해 수락되지 않은 토큰을 다음 반복을 위해 개선합니다. 실험 결과, 우리의 방법은 모델 순전파 횟수를 줄이면서도 생성된 이미지의 시각적 품질을 유지하며 생성 속도를 가속화할 수 있음을 보여줍니다.
비디오 객체 참조 분할(Referring Video Object Segmentation, RVOS)은 쿼리 문장이 참조하는 객체를 비디오에서 분할하는 것을 목표로 합니다. 대부분의 기존 방법은 조밀한 마스크 주석과 함께 종단 간 학습을 요구하며, 이는 계산 비용이 많이 들고 확장성이 떨어질 수 있습니다. 본 연구에서는 RVOS 문제를 재고하고 이 작업의 핵심을 탐구하고자 합니다. 기존의 기반 분할 모델을 바탕으로, RVOS 작업을 참조, 비디오, 분할 요소로 분해하고, 참조 및 비디오 요소를 해결하기 위해 Temporal Prompt Generation and Selection(Tenet) 프레임워크를 제안하며, 분할 문제는 기반 모델에 맡깁니다. 이미지 기반 기반 분할 모델을 참조 비디오 객체 분할에 효율적으로 적용하기 위해, 기존의 객체 감지기와 추적기를 활용하여 참조 문장과 연관된 시간적 프롬프트를 생성합니다. 고품질의 시간적 프롬프트가 생성될 수 있지만, 신뢰도 점수로부터 이를 쉽게 식별할 수 없습니다. 이 문제를 해결하기 위해, 생성된 시간적 프롬프트의 품질을 평가하기 위한 Prompt Preference Learning을 제안합니다. 이러한 프롬프트를 사용하여 이미지 기반 기반 분할 모델을 지시함으로써, 참조된 객체에 대한 고품질 마스크를 생성할 수 있으며, 이를 통해 참조 비디오 객체 분할에 대한 모델 적응을 효율적으로 가능하게 합니다. RVOS 벤치마크에서의 실험은 Tenet 프레임워크의 효과를 입증합니다.
대형 언어 모델(LLMs)과 새롭게 부상하는 에이전트 프레임워크는 자연어 추론, 생성적 주석, 그리고 다중 모드 데이터 통합을 가능하게 함으로써 단일 세포 생물학을 변화시키기 시작하고 있습니다. 그러나 데이터 모달리티, 아키텍처, 평가 표준에 걸쳐 진전은 여전히 단편적으로 이루어지고 있습니다. LLM4Cell은 RNA, ATAC, 다중 오믹스, 공간 모달리티를 아우르는 단일 세포 연구를 위해 개발된 58개의 기초 및 에이전트 모델을 통합적으로 조사한 첫 번째 연구입니다. 우리는 이러한 방법들을 기초, 텍스트-브리지, 공간, 다중 모드, 에피지노믹, 그리고 에이전트의 다섯 가지 패밀리로 분류하고, 주석, 궤적 및 교란 모델링, 약물 반응 예측을 포함한 여덟 가지 주요 분석 작업에 매핑합니다. 40개 이상의 공개 데이터셋을 바탕으로, 벤치마크 적합성, 데이터 다양성, 윤리적 또는 확장성 제약을 분석하고, 생물학적 근거, 다중 오믹스 정렬, 공정성, 프라이버시, 설명 가능성을 포함한 10가지 도메인 차원에서 모델을 평가합니다. 데이터셋, 모델, 평가 도메인을 연결함으로써, LLM4Cell은 언어 기반 단일 세포 지능에 대한 첫 번째 통합적 관점을 제공하고, 해석 가능성, 표준화, 신뢰할 수 있는 모델 개발에서의 열린 과제를 제시합니다.
대규모 언어 모델(LLMs)은 엄청난 계산 및 메모리 요구 사항으로 인해 배포에 상당한 어려움을 겪고 있습니다. 특히 2:4 희소성과 같은 반구조적 가지치기(semi-structured pruning)는 실질적인 하드웨어 가속을 위한 길을 제시하지만, 기존 방법들은 종종 상당한 성능 저하를 초래합니다. 이러한 격차를 해소하기 위해, 우리는 ARMOR(Adaptive Representation with Matrix-factORization)라는 새로운 원샷 사후 훈련 가지치기 알고리즘을 소개합니다. ARMOR는 가중치를 직접 가지치기하는 대신, 각 가중치 행렬을 두 개의 저오버헤드 블록 대각 행렬로 둘러싸인 2:4 희소 코어로 분해합니다. 이 래퍼(wrapper)는 효율적인 사전 및 사후 변형 오류 보정기 역할을 하여, 기존의 2:4 가지치기 기술에 비해 모델 품질을 보존하는 데 더 큰 유연성을 제공합니다. 희소 코어와 블록 대각 래퍼는 계층별 프록시 손실(proxy loss)을 최소화하는 블록 좌표 하강법(block coordinate descent) 알고리즘을 통해 선택됩니다. 우리는 이 최적화가 최신 가지치기 알고리즘보다 작거나 같은 프록시 손실을 가진 해로 수렴함을 이론적으로 증명합니다. Llama(Touvron 외, 2023; Dubey 외, 2024) 및 Qwen(Yang 외, 2025) 모델 패밀리에 대한 실험에서 ARMOR는 다양한 다운스트림 작업과 복잡도 평가에서 최신 2:4 가지치기 방법을 일관되게 크게 능가하는 성능을 보여줍니다. ARMOR는 이러한 우수한 성능을 달성하면서도 2:4 가지치기의 추론 속도 향상과 상당한 메모리 사용량 감소를 유지하여, 모델 압축과 작업 정확도 사이의 더 효과적인 균형을 확립합니다.
실제 환경에서 작동하는 로봇 에이전트는 부분 관측 가능성과 긴 시간 범위 하에서 행동해야 하며, 중요한 단서가 의사결정에 영향을 미치기 훨씬 전에 나타날 수 있습니다. 그러나 대부분의 현대적 접근법은 과거의 통찰력을 통합하지 않고 순간적인 정보에만 의존합니다. 표준 순환 신경망(RNN)이나 트랜스포머 모델은 장기 의존성을 유지하고 활용하는 데 어려움을 겪습니다: 컨텍스트 윈도우는 역사를 단절시키고, 단순한 메모리 확장은 규모와 희소성 문제로 실패합니다. 우리는 구조화된 외부 메모리를 갖춘 트랜스포머 아키텍처인 ELMUR(External Layer Memory with Update/Rewrite)를 제안합니다. 각 계층은 메모리 임베딩을 유지하고, 양방향 교차 주의를 통해 상호작용하며, 최근 사용(LRU) 메모리 모듈을 통해 교체 또는 볼록 혼합을 사용하여 이를 업데이트합니다. ELMUR는 주의 윈도우를 넘어 최대 100,000배까지 효과적인 시간 범위를 확장하고, 최대 백만 단계의 복도가 있는 합성 T-미로 작업에서 100% 성공률을 달성합니다. POPGym에서는 과반수 이상의 작업에서 베이스라인을 능가합니다. 시각적 관측이 포함된 MIKASA-Robo 희소 보상 조작 작업에서는 강력한 베이스라인의 성능을 거의 두 배로 향상시킵니다. 이러한 결과는 구조화된 계층별 외부 메모리가 부분 관측 가능성 하에서의 의사결정을 위한 간단하고 확장 가능한 접근 방식을 제공함을 보여줍니다.
기존 능력을 잃지 않으면서 대규모 다중모달 모델(LMMs)에 새로운 기술을 어떻게 가르칠 수 있을까? 우리는 세 가지 모델 패밀리에서 8개의 보류된 벤치마크에 대한 일반적인 능력을 모니터링하며, 5가지 목표 기술에 대한 순차적 미세조정을 연구했다. 좁은 범위의 미세조정 후 보류된 작업에서 나타나는 "망각" 현상이 후기 단계에서 부분적으로 회복될 수 있음을 관찰했다. 우리는 이러한 행동을 출력 토큰 분포의 측정 가능한 변화로 추적했으며, 이는 망각과 공변하는 간단한 카운팅 편향 프로브를 통해 나타났다. 이 그림을 바탕으로, 우리는 드리프트를 제한하면서 강력하게 학습할 수 있는 두 가지 간단하고 견고한 튜닝 레시피를 식별했다: (i) 셀프-어텐션 투영 레이어만 업데이트하는 것, 그리고 (ii) MLP Gate&Up만 업데이트하고 Down 투영을 고정하는 것. 모델과 작업 전반에 걸쳐, 이러한 선택은 강력한 목표 성과를 제공하면서도 보류된 성능을 크게 보존한다. 코드는 https://github.com/jessemelpolio/LMM_CL에서 확인할 수 있다.
대규모 언어 모델(LLM)은 추론 분야에서 놀라운 진전을 이루었지만, 글쓰기, 정보 탐색, 실질적인 지침 제공과 같은 작업에서 사용자에게 최적이 아닌 응답을 생성하는 경우가 있습니다. 기존의 정렬(alignment) 방식은 일반적으로 모델의 보상을 극대화하는 것이 사용자의 복지도 극대화한다고 가정하지만, 이 가정은 실제로 자주 실패합니다: 사용자가 간결한 답변을 선호할 때 모델이 지나치게 설명하거나 장황한 추론을 생성할 수 있습니다. 이러한 행동은 개별적으로는 합리적인 선택이 사회적으로는 최적이 아닌 결과를 초래하는 죄수의 딜레마와 유사합니다. 근본적인 문제는 LLM과 사용자 모두에게 이익이 되는 원칙적인 의사결정 메커니즘이 부족하다는 것입니다. 우리는 게임 이론적 의사결정을 추론과 훈련에 통합한 정렬 프레임워크인 게임 이론적 정렬(GTAlign)을 제안합니다. 추론 과정에서 모델은 사용자-LLM 상호작용을 명시적으로 전략적 게임으로 취급합니다: 모델은 추론 체인 내에서 보상 행렬을 구성하여 자신과 사용자 모두의 복지를 추정한 후 상호 이익이 되는 행동을 선택합니다. 훈련 과정에서는 협력적인 응답을 강화하는 상호 복지 보상을 도입하여 모델의 행동을 사회적으로 효율적인 결과와 일치시킵니다. 또한, LLM 서비스의 가격 정책이 변경될 때 게임 이론적 추론을 활용하여 LLM의 응답을 동적으로 조정하는 추론 기법을 소개합니다. 다양한 작업에 걸친 광범위한 실험을 통해 GTAlign이 기준 모델 대비 추론 효율성, 답변 품질, 상호 복지를 크게 개선함을 입증했습니다. 코드는 https://github.com/ulab-uiuc/GTAlign에서 확인할 수 있습니다.
개인 서사는 작가들이 자신의 경험에 의미를 부여하기 위해 구성한 이야기입니다. 스타일, 즉 작가들이 자신을 표현하기 위해 언어를 사용하는 독특한 방식은 이러한 서사가 주관적 경험을 전달하는 데 있어 근본적인 역할을 합니다. 그러나 이러한 스타일적 선택을 체계적으로 분석하기 위한 공식적인 틀은 아직 부족한 실정입니다. 우리는 주관적 경험을 전달할 때 작가들이 선택하는 언어적 패턴으로서의 스타일을 공식화하는 새로운 접근 방식을 제시합니다. 우리의 프레임워크는 세 가지 영역을 통합합니다: 기능 언어학은 언어를 의미 있는 선택의 체계로 확립하고, 컴퓨터 과학은 순차적 패턴을 자동으로 추출하고 분석하는 방법을 제공하며, 이러한 패턴은 심리학적 관찰과 연결됩니다. 언어 모델을 사용하여 우리는 과정, 참여자, 상황과 같은 언어적 특징을 자동으로 추출합니다. 우리는 이 프레임워크를 수백 개의 꿈 이야기에 적용하며, 외상 후 스트레스 장애를 가진 전쟁 참전 용사의 사례 연구를 포함합니다. 그의 서사 분석은 특히 언어적 선택과 심리적 상태 간의 관계를 보여주는, 정신적 과정보다 언어적 과정이 지배하는 독특한 패턴을 밝혀냅니다.
현재의 자기 지도 단안 깊이 추정(MDE) 접근법들은 충분하지 않은 의미론적-공간적 지식 추출로 인해 성능 한계에 직면하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 시각적 사전 지식을 추출하고 MDE를 위한 충분한 문맥 정보를 획득하기 위해 기초 모델들(예: CLIP 및 DINO)을 체계적으로 통합한 새로운 프레임워크인 Hybrid-depth를 제안합니다. 우리의 접근법은 거친 단계에서 세밀한 단계로의 점진적 학습 프레임워크를 도입합니다: 1) 먼저, CLIP(전역 의미론)과 DINO(지역 공간 세부 사항)로부터 다중 수준의 특징들을 대조적 언어 지도 하에 통합합니다. 텍스트 프롬프트를 사용하여 깊이 인식 특징 정렬을 강제하기 위해 가까운-먼 이미지 패치 비교 프록시 작업을 설계합니다; 2) 다음으로, 거친 특징들을 기반으로 카메라 포즈 정보와 픽셀 단위 언어 정렬을 통합하여 깊이 예측을 개선합니다. 이 모듈은 기존의 자기 지도 MDE 파이프라인(예: Monodepth2, ManyDepth)과 플러그 앤 플레이 깊이 인코더로 원활하게 통합되어 연속적인 깊이 추정을 향상시킵니다. 언어 지도를 통해 CLIP의 의미론적 문맥과 DINO의 공간적 세부 사항을 통합함으로써, 우리의 방법은 특징 세분화 불일치 문제를 효과적으로 해결합니다. KITTI 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 모든 지표에서 SOTA 방법들을 크게 능가하며, BEV 인식과 같은 하위 작업에도 실제로 이점을 제공함을 입증했습니다. 코드는 https://github.com/Zhangwenyao1/Hybrid-depth에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 사실 정보를 업데이트하기 위해 효율적인 지식 편집(KE)이 필요하지만, 기존 방법들은 다중 홉 사실 회상에서 상당한 성능 저하를 보입니다. 이러한 실패는 특히 추론 체인 내 중간 암묵적 주체와 관련된 편집에서 더욱 두드러집니다. 인과 분석을 통해, 우리는 이러한 한계가 체인화된 지식이 뉴런 수준에서 어떻게 동적으로 표현되고 활용되는지에 대한 간과에서 비롯됨을 밝혔습니다. 우리는 다중 홉 추론 과정에서 암묵적 주체들이 쿼리 뉴런으로 기능하며, 이들이 트랜스포머 레이어를 가로질러 해당 값 뉴런들을 순차적으로 활성화시켜 최종 답변을 향해 정보를 축적한다는 것을 발견했습니다. 이는 기존 KE 연구가 간과한 동적 특성입니다. 이러한 통찰을 바탕으로, 우리는 ACE: 다중 홉 사실 회상을 위한 속성 제어 지식 편징(Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall)이라는 프레임워크를 제안합니다. ACE는 뉴런 수준의 속성을 활용하여 이러한 중요한 쿼리-값(Q-V) 경로를 식별하고 편집합니다. ACE는 다중 홉 KE를 위한 기계론적으로 근거된 솔루션을 제공하며, GPT-J에서는 9.44%, Qwen3-8B에서는 37.46%로 최신 방법들을 경험적으로 능가합니다. 우리의 분석은 Qwen3에서 더 세분화된 활성화 패턴을 밝혀내고, 값 뉴런들의 의미론적 해석 가능성이 쿼리 주도적 축적에 의해 조율된다는 것을 보여줍니다. 이러한 발견들은 내부 추론 메커니즘에 대한 원칙적 이해를 바탕으로 KE 능력을 발전시키는 새로운 경로를 제시합니다.
개인화된 확산 모델을 사용하면 사용자가 주어진 주제를 포함한 새로운 이미지를 생성할 수 있어, 텍스트 프롬프트보다 더 많은 제어가 가능합니다. 이러한 모델들은 종종 주제 이미지를 단순히 재현하고 텍스트 프롬프트를 무시하는 경우 성능이 저하되는 문제가 있습니다. 우리는 개인화를 위한 인기 있는 방법 중 하나인 IP-Adapter가 추론 과정에서 주제를 배경과 명확히 분리하는 마스크를 자동으로 생성한다는 점을 관찰했습니다. 우리는 이 자동 생성된 마스크를 두 번째 패스에서 이미지 토큰에 적용하여 배경이 아닌 주제에만 제한함으로써, 텍스트 프롬프트가 이미지의 나머지 부분에 주목할 수 있도록 제안합니다. 장소와 위치를 설명하는 텍스트 프롬프트의 경우, 이 방법은 주제를 정확히 묘사하면서도 프롬프트와 완벽히 일치하는 이미지를 생성합니다. 우리는 이 방법을 다른 몇 가지 테스트 시점 개인화 방법과 비교했을 때, 높은 프롬프트 및 소스 이미지 정렬을 보이는 것을 확인했습니다.