번역이 포함된 일일 선별된 AI 연구 논문
MCP는 대형 언어 모델(LLM)이 외부 시스템과 상호작용하는 방식을 표준화하여 일반 에이전트의 기반을 형성합니다. 그러나 기존 MCP 벤치마크는 범위가 제한적입니다: 읽기 위주의 작업이나 상호작용 깊이가 제한된 작업에 초점을 맞추며, 실제 워크플로우의 복잡성과 현실성을 충분히 반영하지 못합니다. 이러한 격차를 해결하기 위해, 우리는 MCP 사용을 보다 현실적이고 포괄적으로 평가하기 위한 벤치마크인 MCPMark를 제안합니다. MCPMark는 도메인 전문가와 AI 에이전트가 협력하여 만든 127개의 고품질 작업으로 구성됩니다. 각 작업은 선별된 초기 상태로 시작하며 자동 검증을 위한 프로그래밍 스크립트를 포함합니다. 이러한 작업은 환경과의 더 풍부하고 다양한 상호작용을 요구하며, 생성, 읽기, 업데이트, 삭제(CRUD) 작업을 광범위하게 포함합니다. 우리는 도구 호출 루프에서 작동하는 최소한의 에이전트 프레임워크를 사용하여 최첨단 LLM에 대한 포괄적인 평가를 수행했습니다. 실험 결과, 최고 성능을 보인 모델인 gpt-5-medium은 pass@1에서 52.56%, pass^4에서 33.86%에 그쳤으며, claude-sonnet-4와 o3를 포함한 다른 강력한 모델들은 pass@1에서 30%, pass^4에서 15% 미만의 성적을 기록했습니다. 평균적으로, LLM은 작업당 16.2회의 실행 턴과 17.4회의 도구 호출을 필요로 하며, 이는 이전 MCP 벤치마크를 크게 초과하여 MCPMark의 스트레스 테스트 특성을 강조합니다.
컴퓨팅 시스템과 뇌 간의 관계는 존 폰 노이만과 앨런 튜링 이후로 선구적인 이론가들에게 동기 부여의 원천이 되어왔다. 뇌와 같은 균일하고 스케일 프리(scale-free)한 생물학적 네트워크는 시간에 걸쳐 일반화하는 강력한 특성을 지니고 있으며, 이는 기계 학습이 보편적 추론 모델(Universal Reasoning Models)로 나아가는 데 있어 주요 장벽으로 작용한다. 우리는 `Dragon Hatchling'(BDH)이라는 새로운 대규모 언어 모델(Large Language Model) 아키텍처를 소개한다. BDH는 스케일 프리 생물학적 네트워크를 기반으로 하며, 지역적으로 상호작용하는 뉴런 입자들로 구성된다. BDH는 강력한 이론적 기반과 내재적 해석 가능성을 결합하면서도 트랜스포머(Transformer)와 유사한 성능을 유지한다. BDH는 실용적이고 최신 기술 수준의(state-of-the-art) 어텐션 기반 상태 공간 시퀀스 학습 아키텍처이다. 그래프 모델일 뿐만 아니라, BDH는 GPU 친화적인 형태로 구현될 수 있다. BDH는 트랜스포머와 유사한 스케일링 법칙을 보여주며, 실험적으로 동일한 파라미터 수(10M에서 1B)와 동일한 학습 데이터를 사용할 때 GPT2와 비슷한 언어 및 번역 작업 성능을 보인다. BDH는 뇌 모델로 표현될 수 있다. BDH의 추론 과정에서의 작업 메모리는 스파이크 뉴런을 사용한 헤비안 학습(Hebbian learning)을 통한 시냅스 가소성에 전적으로 의존한다. 우리는 BDH가 언어 입력을 처리하면서 특정 개념을 듣거나 추론할 때마다 특정 개별 시냅스가 연결을 강화한다는 것을 실험적으로 확인했다. BDH의 뉴런 상호작용 네트워크는 높은 모듈성과 두꺼운 꼬리(heavy-tailed) 분포를 가진 그래프이다. BDH 모델은 생물학적으로 타당하며, 인간 뉴런이 언어를 달성하기 위해 사용할 수 있는 한 가지 가능한 메커니즘을 설명한다. BDH는 해석 가능성을 위해 설계되었다. BDH의 활성화 벡터는 희소하고 양수이다. 우리는 BDH가 언어 작업에서 단일 의미성(monosemanticity)을 보임을 입증했다. 뉴런과 모델 파라미터의 해석 가능성을 넘어서는 상태의 해석 가능성은 BDH 아키텍처의 내재적 특성이다.
강화 학습(RL)은 시각-언어 모델(VLMs)의 추론 능력을 효과적으로 향상시킬 수 있지만, 현재의 방법들은 여전히 수작업으로 구성하고 검증해야 하는 노동 집약적인 데이터셋에 크게 의존하고 있어 훈련 비용이 매우 높으며, 이로 인해 VLMs의 실제 배포가 제한되고 있습니다. 이러한 문제를 해결하기 위해, 우리는 임의의 이미지 쌍에서 생성된 경쟁적인 시각 게임을 통해 VLM의 자기 개선을 가능하게 하는 도메인에 구애받지 않는 프레임워크인 Vision-Zero를 제안합니다. 구체적으로, Vision-Zero는 세 가지 주요 특성을 포함합니다: (1) 전략적 자기 플레이 프레임워크: Vision-Zero는 "Who Is the Spy" 스타일의 게임에서 VLMs를 훈련시켜, 모델이 여러 역할 간에 전략적 추론과 행동을 수행하도록 합니다. 상호작용적인 게임 플레이를 통해 모델은 인간의 주석 없이도 자율적으로 훈련 데이터를 생성합니다. (2) 임의의 이미지에서의 게임 플레이: 기존의 게임화된 프레임워크와 달리, Vision-Zero는 임의의 이미지에서 게임을 생성할 수 있어, 다양한 도메인에서 모델의 추론 능력을 향상시키고 다양한 작업에 대한 강력한 일반화 능력을 보여줍니다. 우리는 CLEVR 기반의 합성 장면, 차트, 그리고 실제 세계의 이미지라는 세 가지 유형의 이미지 데이터셋을 사용하여 이러한 다용성을 입증합니다. (3) 지속 가능한 성능 향상: 우리는 자기 플레이와 검증 가능한 보상을 통한 강화 학습(RLVR)을 번갈아가며 수행하는 새로운 훈련 알고리즘인 Iterative Self-Play Policy Optimization(Iterative-SPO)을 도입하여, 자기 플레이만으로는 종종 발생하는 성능 정체를 완화하고 지속적인 장기적 개선을 달성합니다. 라벨 없는 데이터를 사용함에도 불구하고, Vision-Zero는 추론, 차트 질문 응답, 그리고 시각 중심 이해 작업에서 최첨단 성능을 달성하며, 다른 주석 기반 방법들을 능가합니다. 모델과 코드는 https://github.com/wangqinsi1/Vision-Zero에서 공개되었습니다.
지도 미세 조정(SFT)이 경량의 사후 학습 단계에서 중간 규모의 학습 단계에 필적하는 계산 집약적인 단계로 진화함에 따라, 제한된 예산 하에서 대규모 언어 모델(LLM)을 정렬하기 위한 데이터 효율성이 중요해졌습니다. 기존의 데이터 정제 방법은 단편적인 설계로 인해 샘플 수준이나 토큰 수준에서만 독립적으로 작동하여 두 차원을 동시에 최적화하지 못합니다. 이러한 단절은 상당한 비효율성을 초래합니다—고가치 샘플에는 여전히 중복 토큰이 포함될 수 있으며, 토큰 수준 정제는 종종 개별 예제에 내재된 중요한 지시 또는 교정 신호를 제거합니다. 이러한 병목 현상을 해결하기 위해, 우리는 훈련 데이터의 이질적 유용성을 샘플과 토큰 차원에서 공동으로 특성화하는 진단 프레임워크인 오류-불확실성(EU) 평면을 소개합니다. 이러한 통찰을 바탕으로, 우리는 샘플 정제와 토큰 정제를 전략적으로 조율하는 통합 프레임워크인 사분면 기반 튜닝(Q-Tuning)을 제안합니다. Q-Tuning은 두 단계 전략을 사용합니다: 먼저, 정보가 풍부한 오해 또는 교정 신호가 포함된 예제를 보존하기 위해 샘플 수준의 분류를 수행합니다; 둘째, 비대칭 토큰 정제 정책을 적용하여, 오해 샘플에서만 덜 중요한 토큰을 제거하는 반면 교정 샘플은 전체적으로 보존하는 컨텍스트 인식 점수 메커니즘을 사용합니다. 우리의 방법은 다섯 가지 다양한 벤치마크에서 새로운 최첨단 기술을 설정합니다. 특히, SmolLM2-1.7B에서 Q-Tuning은 원본 훈련 데이터의 12.5%만 사용하여 전체 데이터 SFT 기준선 대비 평균 +38%의 개선을 달성했습니다. 전체 데이터 훈련을 일관되게 능가하는 첫 번째 동적 정제 접근법으로서, Q-Tuning은 예산이 제한된 LLM SFT에서 데이터 활용을 극대화하기 위한 실용적이고 확장 가능한 청사진을 제공합니다.
대규모 언어 모델(LLM)은 사실 기반 질문 응답에서 강력한 성능을 보여주지만, 특히 모델의 파라미터적 지식을 벗어나는 정보를 요구하는 작업에서 환각(hallucination)과 부정확한 응답을 생성하는 경향이 있습니다. 사실, 진실성(truthfulness)은 정확성(accuracy) 이상을 요구합니다. 모델은 불확실성을 인지하고 확신이 없을 때는 응답을 자제함으로써 환각을 피해야 합니다. 이는 기존 방법론에 근본적인 도전을 제기합니다: 정확성을 최적화하는 접근법은 환각을 증폭시키는 반면, 응답 자제를 장려하는 방법은 지나치게 보수적이 되어 정답을 놓칠 수 있습니다. 두 극단 모두 궁극적으로 진실성을 훼손합니다. 본 연구에서는 LLM의 진실성을 직접 최적화하는 일반적인 강화 학습(RL) 프레임워크인 TruthRL을 제안합니다. 구체적으로, 우리는 GRPO를 사용하여 정답, 환각, 응답 자제를 구분하는 간단하지만 효과적인 삼항 보상 체계로 TruthRL을 구현했습니다. 이는 모델이 정확한 응답을 제공할 뿐만 아니라 불확실할 때 응답을 자제하도록 유도함으로써 환각을 줄이고 진실성을 향상시킵니다. 네 가지 지식 집약적 벤치마크에서 진행된 광범위한 실험 결과, TruthRL은 일반 RL 대비 환각을 28.9% 감소시키고 진실성을 21.1% 향상시켰으며, 다양한 백본 모델(Qwen, Llama 등)에서 검색 및 비검색 설정 모두에서 일관된 성능 향상을 보였습니다. 심층적인 절제 연구(ablation study)는 지도 학습 미세 조정(supervised fine-tuning)이나 이진 보상을 사용한 RL과 같은 정확성 중심의 방법론이 사실적 정확성과 불확실성의 균형을 맞추는 데 어려움을 겪는 반면, 우리가 제안한 진실성 중심의 TruthRL은 정확성과 진실성 모두에서 강력한 성능을 달성함을 보여줍니다. 이는 진실한 LLM 개발을 위한 학습 목표 설계의 중요성을 강조합니다.
우리는 가장 까다로운 실세계 환경 중 하나인 해양 수중에서의 인공지능 발전을 위해 설계된, 최초의 포괄적인 해양 수중 구현 에이전트 벤치마크인 OceanGym을 소개합니다. 육상이나 항공 도메인과 달리, 수중 환경은 낮은 가시성과 역동적인 해류를 포함한 극단적인 인지 및 의사결정 과제를 제시하며, 이로 인해 효과적인 에이전트 배치가 특히 어렵습니다. OceanGym은 8개의 현실적인 작업 도메인과 다중 모드 대형 언어 모델(MLLM)에 기반한 통합 에이전트 프레임워크를 포함하며, 이는 인지, 메모리, 순차적 의사결정을 통합합니다. 에이전트는 광학 및 소나 데이터를 이해하고, 복잡한 환경을 자율적으로 탐색하며, 이러한 가혹한 조건 하에서 장기적인 목표를 달성해야 합니다. 광범위한 실험을 통해 최신 MLLM 기반 에이전트와 인간 전문가 간의 상당한 격차가 드러났으며, 이는 해양 수중 환경에서의 인지, 계획, 적응력의 지속적인 어려움을 강조합니다. 고해상도로 엄격하게 설계된 플랫폼을 제공함으로써, OceanGym은 강력한 구현 AI를 개발하고 이러한 역량을 실세계 자율 해양 수중 차량으로 전이하기 위한 테스트베드를 구축하며, 지구상 마지막 미개척 영역에서 작동할 수 있는 지능형 에이전트를 향한 결정적인 한 걸음을 내딛습니다. 코드와 데이터는 https://github.com/OceanGPT/OceanGym에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 텍스트만으로 훈련되었음에도 불구하고, 놀랍게도 풍부한 시각적 사전 지식을 발전시킵니다. 이러한 사전 지식은 상대적으로 적은 양의 다중 모달 데이터로도 시각 작업을 위한 잠재적 시각 능력을 해제할 수 있게 하며, 어떤 경우에는 이미지를 본 적 없이도 시각 작업을 수행할 수 있게 합니다. 체계적인 분석을 통해, 우리는 언어 사전 훈련 중 획득된 시각 세계에 대한 암묵적이고 창발적인 지식인 시각적 사전 지식이 독특한 확장 경향과 기원을 가진 분리 가능한 지각 및 추론 사전 지식으로 구성되어 있음을 밝혔습니다. 우리는 LLM의 잠재적 시각 추론 능력이 주로 추론 중심 데이터(예: 코드, 수학, 학문)에 대한 사전 훈련에 의해 발전하며 점진적으로 확장됨을 보여줍니다. 언어 사전 훈련에서 획득된 이 추론 사전 지식은 전이 가능하며 시각적 추론에 보편적으로 적용될 수 있습니다. 반면, 지각 사전 지식은 광범위한 코퍼스에서 더 확산적으로 나타나며, 지각 능력은 시각 인코더와 시각적 지시 튜닝 데이터에 더 민감합니다. 동시에, 시각 세계를 설명하는 텍스트는 중요하지만 그 성능 영향은 빠르게 포화됩니다. 이러한 통찰을 활용하여, 우리는 시각 인식 LLM을 사전 훈련하기 위한 데이터 중심의 레시피를 제안하고 이를 1조 토큰 규모의 사전 훈련에서 검증합니다. 우리의 발견은 500,000 GPU-시간을 소비한 100개 이상의 통제된 실험에 기반하며, LLM 사전 훈련부터 시각 정렬 및 지도 다중 모달 미세 조정에 이르는 전체 MLLM 구축 파이프라인을 아우르며, 다섯 가지 모델 규모, 다양한 데이터 범주 및 혼합, 그리고 여러 적응 설정을 포함합니다. 주요 발견과 함께, 우리는 여러 가설을 제안하고 검증하며, 다단계 존재 벤치(MLE-Bench)를 소개합니다. 이 작업은 언어 사전 훈련에서 시각적 사전 지식을 의도적으로 육성하는 새로운 방법을 제공함으로써, 차세대 다중 모달 LLM의 길을 열어줍니다.
추론 능력은 대형 언어 모델(LLMs)의 핵심 역량으로 부상했습니다. 강화 학습(Reinforcement Learning, RL), 특히 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 통해 이러한 모델들은 수학 및 코드 생성과 같은 복잡한 과제를 해결할 수 있습니다. 이러한 발전을 바탕으로, 최근 연구는 시각-언어 모델(Vision-Language Models, VLMs)로 추론 능력을 확장하려는 시도를 이어가며 다양한 시각적 과제에서 유망한 결과를 보여주고 있습니다. 그러나 이러한 진전에도 불구하고, 우리의 연구는 다중 모달 추론의 이중적 특성을 발견했습니다: 추론은 논리적 추론을 크게 향상시키고 어려운 문제 해결을 용이하게 하지만, 점차적으로 지각적 근거(perceptual grounding)를 약화시켜 기본적인 시각적 질문에서 인식 실패를 초래할 수 있습니다. 추가 분석을 통해, 우리는 이러한 현상을 시각적 망각(visual forgetting)으로 규명했습니다. 이는 장기간의 추론 과정에서 모델이 점차 시각적 입력을 무시하게 되는 현상을 의미합니다. 이를 해결하기 위해, 우리는 시각적 근거에 기반한 궤적을 명시적으로 유도하는 간단하지만 효과적인 방법인 시각 고정 정책 최적화(Vision-Anchored Policy Optimization, VAPO)를 제안합니다. 우리의 결과 모델인 VAPO-Thinker-7B는 모델의 시각 정보 의존성을 크게 강화하며, 다양한 기존 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 프로젝트 페이지: https://xytian1008.github.io/VAPO/
검증 가능한 보상을 활용한 강화 학습(RLVR)은 복잡한 작업을 효과적으로 해결하지만, 훈련 중에 매우 긴 컨텍스트 길이를 요구하여 상당한 계산 비용을 초래합니다. 다단계 훈련이 이를 부분적으로 완화할 수 있지만, 지나치게 짧은 컨텍스트로 시작하면 종종 되돌릴 수 없는 성능 저하를 일으켜 전체 훈련 계산량을 크게 줄이지 못합니다. 본 논문에서는 **T**hinking-**F**ree **P**olicy **I**nitialization(**TFPI**)을 소개합니다. 이는 긴 사고 연쇄(CoT) 증류와 표준 RLVR을 연결하는 간단하면서도 효과적인 RLVR 적응 방법입니다. TFPI는 간단한 *ThinkFree* 연산을 사용하여 사고 내용을 명시적으로 버리고 직접적인 *</think>* 추가를 통해 추론 중 토큰 사용량을 줄입니다. *ThinkFree*로 적응된 입력으로 훈련하면 성능이 향상되고 토큰 소비가 줄어들며, 원래의 느린 사고 모드에서도 이러한 이점이 유지됩니다. 다양한 벤치마크에서의 광범위한 실험을 통해 TFPI가 RL 수렴을 가속화하고 더 높은 성능 한계를 달성하며, 특수한 보상이나 복잡한 훈련 설계 없이도 토큰 효율적인 추론 모델을 생성함을 보여주었습니다. TFPI만을 사용하여 4B 모델을 훈련시켜 AIME24에서 89.0%, LiveCodeBench에서 65.5%의 정확도를 달성했으며, 이는 4K H20 시간 미만으로 이루어졌습니다.
우리는 효율적인 비디오 생성을 위한 사후 학습 가속 프레임워크인 DC-VideoGen을 소개한다. DC-VideoGen은 사전 학습된 모든 비디오 확산 모델에 적용 가능하며, 경량 미세 조정을 통해 깊은 압축 잠재 공간에 적응시켜 효율성을 향상시킨다. 이 프레임워크는 두 가지 핵심 혁신을 기반으로 한다: (i) 새로운 청크-인과적 시간 설계를 갖춘 Deep Compression Video Autoencoder로, 32x/64x 공간 압축과 4x 시간 압축을 달성하면서도 재구성 품질과 더 긴 비디오에 대한 일반화를 유지한다; 그리고 (ii) 사전 학습된 모델을 새로운 잠재 공간으로 빠르고 안정적으로 전이할 수 있는 AE-Adapt-V라는 강력한 적응 전략이다. DC-VideoGen을 사용하여 사전 학습된 Wan-2.1-14B 모델을 적응시키는 데는 NVIDIA H100 GPU에서 단 10 GPU 일이 소요된다. 가속화된 모델은 품질 저하 없이 기본 모델 대비 최대 14.8배 낮은 추론 지연 시간을 달성하며, 단일 GPU에서 2160x3840 해상도의 비디오 생성을 가능하게 한다. 코드: https://github.com/dc-ai-projects/DC-VideoGen.
대형 언어 모델(LLM) 기반 평가는 강력한 LLM을 활용하여 후보 콘텐츠를 효율적으로 평가하고 점수를 제공합니다. 그러나 LLM이 생성한 평가의 내재적 편향과 취약성은 우려를 불러일으키며, 특히 학술 동료 검토와 같은 민감한 시나리오에서 이를 구별할 필요성을 강조합니다. 본 연구에서는 평가 탐지 작업을 제안하고 공식화하며, LLM이 생성한 평가의 탐지 가능성을 체계적으로 조사합니다. LLM이 생성한 텍스트 탐지와 달리, 평가 탐지는 평가 점수와 후보 콘텐츠에만 의존하며, 이는 탐지 과정에서 텍스트 피드백이 종종 제공되지 않는 실제 시나리오를 반영합니다. 예비 분석 결과, 기존의 LLM 생성 텍스트 탐지 방법은 평가 점수와 후보 콘텐츠 간의 상호작용을 포착하지 못해 효과적인 평가 탐지에 있어 부진한 성능을 보였습니다. 이를 바탕으로, 우리는 J-Detector를 소개합니다. 이는 경량화되고 투명한 신경망 탐지기로, 명시적으로 추출된 언어적 특성과 LLM 강화 특성을 통해 LLM 평가자의 편향과 후보의 속성을 연결하여 정확한 탐지를 가능하게 합니다. 다양한 데이터셋에서의 실험을 통해 J-Detector의 효과성을 입증하고, 그 해석 가능성이 LLM 평가자의 편향을 정량화하는 데 어떻게 기여하는지 보여줍니다. 마지막으로, LLM 생성 평가의 탐지 가능성에 영향을 미치는 주요 요인을 분석하고, 실제 시나리오에서 평가 탐지의 실용적 유용성을 검증합니다.
현대의 대규모 추론 모델이 보여주는 놀라운 능력은 주로 지도 미세 조정(supervised fine-tuning)과 강화 학습(reinforcement learning)과 같은 사후 훈련(post-training) 기법을 통해 발휘됩니다. 그러나 이러한 개선을 가능하게 하는 아키텍처적 메커니즘은 여전히 대부분 불투명합니다. 본 연구에서는 회로 분석(circuit analysis)을 사용하여 복잡한 추론을 위한 사후 훈련이 기능적으로 특화된 새로운 주의 헤드(attention head)의 출현을 촉발한다는 것을 입증합니다. 이러한 헤드들은 구조화된 추론과 계산을 집단적으로 지원합니다. Qwen 계열 모델과 DeepSeek-증류 모델에 대한 비교 분석을 통해, 이러한 출현 헤드들이 서로 다른 훈련 체계 하에서 다르게 진화함을 확인했습니다. 증류(distillation)와 지도 미세 조정(SFT)은 안정적인 추론 헤드의 누적적 추가를 촉진합니다. 반면, 그룹 상대 정책 최적화(group relative policy optimization)는 동적 탐색 모드로 작동합니다: 상대적으로 적은 수의 주의 헤드가 반복적으로 활성화, 평가, 제거되며, 이들의 생존은 작업 보상 신호의 변동과 밀접하게 연관됩니다. 또한, 제어 가능한 사고 켜기/끄기(think on/off) 모델은 전용 사고 헤드를 갖추고 있지 않다는 것을 발견했습니다. 대신, 명시적 추론을 끄면 더 넓지만 덜 효율적인 보상 헤드 세트가 활성화됩니다. 절제(ablation) 및 질적 분석을 통해, 이러한 회로 수준의 동적 특성을 중요한 성능 트레이드오프와 연결지었습니다: 강화된 헤드는 어려운 문제에 대한 정교한 문제 해결 전략을 가능하게 하지만, 더 간단한 작업에서 계산 오류나 논리적 루프와 같은 과도한 사고 실패 모드를 유발할 수도 있습니다. 이러한 발견은 회로 수준의 동적 특성을 거시적 성능과 연결짓고, 복잡한 추론이 기본적인 계산의 비용을 치르게 되는 본질적인 긴장을 식별합니다. 더 넓은 관점에서, 본 연구는 효과적인 추론 전략의 개발과 신뢰할 수 있고 완벽한 실행의 보장 사이의 균형을 맞추는 훈련 정책 설계의 미래 방향을 제시합니다.
확산 기반 대형 언어 모델(dLLMs)은 최근 연구 커뮤니티에서 상당한 주목을 받고 있으며, 이는 병렬 토큰 예측과 더 낮은 추론 지연 시간을 제공함으로써 자기회귀 생성 방식의 유망한 대안으로 여겨지고 있습니다. 그러나 이러한 병렬 디코딩 잠재력은 아직 크게 탐구되지 않았는데, 기존의 오픈소스 모델들은 여전히 성능을 보장하기 위해 거의 토큰 길이에 가까운 디코딩 단계를 필요로 합니다. 이를 해결하기 위해, 우리는 dParallel이라는 간단하면서도 효과적인 방법을 소개합니다. 이 방법은 dLLMs의 내재된 병렬성을 활용하여 빠른 샘플링을 가능하게 합니다. 우리는 병렬 디코딩의 주요 병목 현상이 마스킹된 토큰에 대한 순차적인 확실성 수렴에서 비롯된다는 것을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 핵심 접근 방식인 확실성 강제 증류(certainty-forcing distillation)를 도입했습니다. 이는 모델이 원래의 샘플링 궤적을 따르도록 하면서도 마스킹된 토큰에 대해 더 빠르고 병렬적으로 높은 확실성을 달성하도록 강제하는 새로운 훈련 전략입니다. 다양한 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 성능을 유지하면서도 디코딩 단계 수를 극적으로 줄일 수 있음을 입증했습니다. LLaDA-8B-Instruct 모델에 적용했을 때, dParallel은 GSM8K에서 디코딩 단계를 256에서 30으로 줄여 8.5배의 속도 향상을 달성했으며 성능 저하 없이 이를 유지했습니다. MBPP 벤치마크에서는 디코딩 단계를 256에서 24로 줄여 10.5배의 속도 향상을 이루었고 정확도를 유지했습니다. 우리의 코드는 https://github.com/czg1225/dParallel에서 확인할 수 있습니다.
LLM 기반 에이전트가 실제 생활 시나리오에 점점 더 많이 배포됨에 따라, 기존 벤치마크는 방대한 정보 처리, 다양한 자원 활용, 그리고 동적인 사용자 상호작용 관리와 같은 본질적인 복잡성을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 VitaBench을 소개합니다. VitaBench은 실제 세계 설정에 기반한 다양한 상호작용 작업에서 에이전트를 평가하는 도전적인 벤치마크입니다. 음식 배달, 매장 내 소비, 온라인 여행 서비스와 같은 일상적인 애플리케이션에서 영감을 받아, VitaBench은 66개의 도구로 구성된 지금까지 가장 복잡한 생활 서비스 시뮬레이션 환경을 에이전트에게 제공합니다. 도메인 특정 정책을 제거한 프레임워크를 통해, 이러한 시나리오와 도구의 유연한 구성을 가능하게 하여 100개의 교차 시나리오 작업(주요 결과)과 300개의 단일 시나리오 작업을 생성합니다. 각 작업은 여러 실제 사용자 요청에서 파생되며, 에이전트가 시간적 및 공간적 차원을 넘어 추론하고, 복잡한 도구 세트를 활용하며, 모호한 지시를 적극적으로 명확히 하고, 다중 턴 대화 전반에 걸쳐 변화하는 사용자 의도를 추적할 것을 요구합니다. 또한, 우리는 루브릭 기반 슬라이딩 윈도우 평가자를 제안하여, 복잡한 환경과 확률적 상호작용에서 다양한 해결 경로를 강력하게 평가할 수 있도록 합니다. 우리의 포괄적인 평가는 가장 진보된 모델조차 교차 시나리오 작업에서 30%의 성공률을, 다른 작업에서는 50% 미만의 성공률을 달성한다는 것을 보여줍니다. 전반적으로, 우리는 VitaBench이 실제 세계 애플리케이션에서 AI 에이전트 개발을 진보시키는 데 유용한 자원으로 기능할 것이라고 믿습니다. 코드, 데이터셋, 리더보드는 https://vitabench.github.io/에서 확인할 수 있습니다.
인간은 AI 생성(가짜) 동영상을 식별하고 근거를 제시할 수 있을까? 동영상 생성 모델이 빠르게 발전하고 있지만, 생성된 동영상 내에서 딥페이크 흔적, 즉 기계 생성임을 드러내는 시공간적 근거가 시각적 결함을 인간이 탐지할 수 있는지에 대한 중요한 차원은 크게 간과되어 왔다. 우리는 인간이 인지한 가짜 흔적을 동영상 생성 보상에 주석으로 달기 위해 공간적 및 시간적 인식을 갖춘 최초의 세밀한 벤치마크인 DeeptraceReward를 소개한다. 이 데이터셋은 3.3K개의 고품질 생성 동영상에 걸쳐 4.3K개의 상세한 주석으로 구성된다. 각 주석은 자연어 설명을 제공하고, 인지된 흔적을 포함하는 경계 상자 영역을 특정하며, 정확한 시작 및 종료 타임스탬프를 표시한다. 우리는 이러한 주석을 인간이 동영상을 AI 생성으로 식별하게 만드는 9가지 주요 딥페이크 흔적 범주로 통합하고, 인간의 판단과 위치 지정을 모방하기 위해 다중 모달 언어 모델(LM)을 보상 모델로 훈련시켰다. DeeptraceReward에서 우리의 7B 보상 모델은 가짜 단서 식별, 근거 제시 및 설명에서 GPT-5를 평균 34.7% 앞섰다. 흥미롭게도, 우리는 일관된 난이도 경사를 관찰했다: 이진 가짜 대 진짜 분류는 세밀한 딥페이크 흔적 탐지보다 상당히 쉬웠으며, 후자 내에서는 자연어 설명(가장 쉬움)에서 공간적 근거 제시, 시간적 라벨링(가장 어려움)으로 성능이 저하되었다. 인간이 인지한 딥페이크 흔적을 전면에 내세움으로써, DeeptraceReward는 사회적으로 인식되고 신뢰할 수 있는 동영상 생성을 위한 엄격한 테스트베드와 훈련 신호를 제공한다.
확산 모델로 생성된 이미지와 입력 프롬프트 간의 정확한 다중모달 정렬을 보장하는 것은 오랜 기간 동안 해결되지 않은 과제였습니다. 기존 연구들은 고품질 선호도 데이터를 사용해 확산 모델의 가중치를 미세 조정하는 방식을 채택했으나, 이러한 데이터는 제한적이고 확장하기 어려운 단점이 있었습니다. 최근 편집 기반 방법들은 생성된 이미지의 특정 영역을 추가로 개선하지만, 전체 이미지 품질을 저하시킬 가능성이 있습니다. 본 연구에서는 추가 데이터나 편집 작업 없이도 다중모달 정렬을 가능하게 하는 새로운 재생성 기반 프레임워크인 Implicit Multimodal Guidance(IMG)를 제안합니다. 구체적으로, IMG는 생성된 이미지와 해당 프롬프트가 주어졌을 때 a) 다중모달 대형 언어 모델(MLLM)을 활용해 정렬 오류를 식별하고, b) 확산 조건화 특징을 조작하여 정렬 오류를 줄이고 재생성을 가능하게 하는 Implicit Aligner를 도입하며, c) 재정렬 목표를 Iteratively Updated Preference Objective라는 학습 가능한 목적 함수로 공식화합니다. SDXL, SDXL-DPO, FLUX에 대한 광범위한 정성적 및 정량적 평가를 통해 IMG가 기존 정렬 방법들을 능가함을 입증했습니다. 또한 IMG는 유연한 플러그앤플레이 어댑터로 작동하여, 기존 미세 조정 기반 정렬 방법들을 원활하게 향상시킬 수 있습니다. 본 연구의 코드는 https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment에서 공개될 예정입니다.
기존의 AI 과학자 시스템들은 새로운 발견을 생성할 수 있지만, 종종 인간이 정의한 시급한 문제를 해결할 만큼 과학적으로 가치 있는 기여를 집중적으로 생산하지 못하는 경우가 많습니다. 우리는 이러한 한계를 극복하기 위해 목표 지향적이고 완전히 자율적인 과학적 발견을 장기간에 걸쳐 수행하는 DeepScientist 시스템을 소개합니다. 이 시스템은 발견을 베이지안 최적화 문제로 공식화하며, "가설 설정, 검증, 분석"으로 구성된 계층적 평가 프로세스를 통해 이를 실행합니다. 누적된 발견 메모리를 활용하여 이 루프는 새로운 가설 탐색과 기존 발견 활용을 지능적으로 균형 있게 조절하며, 가장 유망한 발견을 더 높은 정확도의 검증 단계로 선택적으로 승격시킵니다. 20,000 GPU 시간 이상을 소비한 이 시스템은 약 5,000개의 독창적인 과학적 아이디어를 생성하고 그 중 약 1,100개를 실험적으로 검증했으며, 결국 세 가지 첨단 AI 작업에서 인간이 설계한 최신 기술(SOTA) 방법을 각각 183.7%, 1.9%, 7.9% 능가했습니다. 이 연구는 AI가 과학적 작업에서 인간의 최신 기술을 점진적으로 능가하는 발견을 달성했다는 첫 번째 대규모 증거를 제공하며, 과학적 발견의 최전선을 진정으로 앞당기는 가치 있는 발견을 생산했습니다. 이 과정에 대한 추가 연구를 촉진하기 위해 모든 실험 로그와 시스템 코드를 https://github.com/ResearAI/DeepScientist/에서 오픈소스로 공개할 예정입니다.
이미지-비디오 생성은 확산 모델의 발전으로 인해 상당한 진전을 이루었으나, 사실적인 움직임을 가진 비디오를 생성하는 것은 여전히 매우 어려운 과제로 남아 있습니다. 이러한 어려움은 움직임을 정확하게 모델링하는 데 있어 물리적 제약, 객체 간 상호작용, 그리고 다양한 시나리오에 걸쳐 일반화하기 어려운 도메인 특정 역학을 포착해야 하는 복잡성에서 비롯됩니다. 이를 해결하기 위해, 우리는 MotionRAG를 제안합니다. 이는 Context-Aware Motion Adaptation (CAMA)을 통해 관련 참조 비디오로부터 움직임 사전 지식을 적응시켜 움직임의 사실성을 향상시키는 검색 강화 프레임워크입니다. 주요 기술 혁신은 다음과 같습니다: (i) 비디오 인코더와 전용 리샘플러를 사용하여 고수준 움직임 특징을 추출하고 의미적 움직임 표현을 정제하는 검색 기반 파이프라인; (ii) 인-컨텍스트 학습 접근법을 통해 구현된 움직임 적응을 위한 인과적 트랜스포머 아키텍처; (iii) 전이된 움직임 특징을 사전 학습된 비디오 확산 모델에 원활하게 통합하는 어텐션 기반 움직임 주입 어댑터. 광범위한 실험을 통해 우리의 방법이 다양한 도메인과 여러 기본 모델에 걸쳐 상당한 개선을 달성하며, 추론 과정에서의 계산 오버헤드는 무시할 수준임을 입증했습니다. 또한, 우리의 모듈식 설계는 검색 데이터베이스를 업데이트함으로써 어떠한 컴포넌트도 재학습 없이 새로운 도메인에 대한 제로샷 일반화를 가능하게 합니다. 이 연구는 움직임 사전 지식의 효과적인 검색과 전이를 가능하게 함으로써 비디오 생성 시스템의 핵심 역량을 강화하고, 사실적인 움직임 역학의 합성을 용이하게 합니다.
오디오-비주얼 음성 분리(AVSS) 방법은 시각적 단서를 활용하여 대상 음성을 추출하며, 잡음이 많은 음향 환경에서 강력한 분리 품질을 입증했습니다. 그러나 이러한 방법은 일반적으로 많은 수의 매개변수를 포함하고 높은 계산 비용을 요구하며, 이는 음성 분리가 추가 음성 처리를 위한 전처리 단계로만 사용되는 많은 응용 프로그램에서 받아들일 수 없습니다. 이 문제를 해결하기 위해 우리는 Dolphin이라는 효율적인 AVSS 방법을 제안합니다. 시각적 특징 추출을 위해, 우리는 입술 움직임을 이산적인 오디오 정렬 의미 토큰으로 변환하는 이중 경로 경량 비디오 인코더인 DP-LipCoder를 개발했습니다. 오디오 분리를 위해, 우리는 각 레이어가 다중 스케일 의존성을 효율적으로 포착하기 위해 글로벌-로컬 어텐션(GLA) 블록을 통합한 경량 인코더-디코더 분리기를 구성했습니다. 세 가지 벤치마크 데이터셋에서의 실험 결과, Dolphin은 분리 품질에서 현재 최첨단(SOTA) 모델을 능가했을 뿐만 아니라 효율성에서도 놀라운 개선을 달성했습니다: 50% 이상 적은 매개변수, 2.4배 이상의 MACs 감소, 그리고 6배 이상 빠른 GPU 추론 속도를 보였습니다. 이러한 결과는 Dolphin이 실제 시나리오에서 고성능 AVSS를 위한 실용적이고 배포 가능한 솔루션을 제공함을 나타냅니다. 우리의 코드와 데모 페이지는 http://cslikai.cn/Dolphin/에서 공개적으로 이용 가능합니다.
Panorama는 완전한 시야각(360^circ×180^circ)을 가지며, 이는 원근 이미지보다 더 완전한 시각적 묘사를 제공합니다. 이러한 특성 덕분에 파노라마 깊이 추정은 3D 비전 분야에서 점점 더 주목받고 있습니다. 그러나 파노라마 데이터의 부족으로 인해 기존 방법들은 주로 도메인 내 설정에 제한되어 있어 제로샷 일반화 성능이 떨어지는 문제가 있었습니다. 또한, 파노라마에 내재된 구형 왜곡으로 인해 많은 접근법들이 큐브맵과 같은 원근 분할에 의존하며, 이는 효율성을 저하시키는 원인이 되었습니다. 이러한 문제를 해결하기 위해, 우리는 DA^{2}: Depth Anything in Any Direction를 제안합니다. 이는 정확하고 제로샷 일반화가 가능하며 완전한 엔드투엔드 파노라마 깊이 추정기입니다. 구체적으로, 파노라마 데이터를 확장하기 위해 원근 이미지에서 고품질 파노라마 깊이 데이터를 생성하는 데이터 큐레이션 엔진을 도입하고, sim543K개의 파노라마 RGB-깊이 쌍을 생성하여 총 sim607K개의 데이터를 확보했습니다. 또한, 구형 왜곡을 더욱 완화하기 위해 SphereViT를 제안합니다. 이는 구형 좌표를 명시적으로 활용하여 파노라마 이미지 특징에서 구형 기하학적 일관성을 강화함으로써 성능을 향상시킵니다. 여러 데이터셋에 대한 포괄적인 벤치마크는 DA^{2}의 최첨단 성능을 명확히 보여주며, 가장 강력한 제로샷 기준선 대비 AbsRel에서 평균 38%의 개선을 달성했습니다. 놀랍게도, DA^{2}는 기존 도메인 내 방법들까지도 능가하며, 그 우수한 제로샷 일반화 능력을 입증했습니다. 또한, 엔드투엔드 솔루션으로서 DA^{2}는 퓨전 기반 접근법보다 훨씬 더 높은 효율성을 보여줍니다. 코드와 큐레이션된 파노라마 데이터는 공개될 예정입니다. 프로젝트 페이지: https://depth-any-in-any-dir.github.io/.
대규모 언어 모델(LLM) 에이전트는 제한된 컨텍스트 윈도우로 인해 장기적인 정보 이해를 위해 외부 메모리 시스템이 필요합니다. 현재 메모리 강화 에이전트는 일반적으로 미리 정의된 지침과 도구에 의존하여 메모리를 업데이트합니다. 그러나 언어 모델은 어떤 정보를 저장할지, 어떻게 구조화할지, 언제 업데이트할지 결정하는 능력이 부족할 수 있으며, 특히 메모리 시스템이 복잡해질수록 이러한 문제가 더욱 두드러집니다. 이로 인해 최적이 아닌 메모리 구성과 정보 손실이 발생합니다. 이를 해결하기 위해 우리는 상호작용과 피드백을 통해 복잡한 메모리 시스템을 효과적으로 관리하도록 에이전트를 훈련시키는 강화 학습 프레임워크인 Mem-alpha를 제안합니다. 또한, 효과적인 메모리 관리를 가르치기 위해 다양한 다중 턴 상호작용 패턴과 포괄적인 평가 질문으로 구성된 특수화된 훈련 데이터셋을 구축했습니다. 훈련 중에 에이전트는 순차적인 정보 청크를 처리하고, 관련 콘텐츠를 추출 및 저장한 후 메모리 시스템을 업데이트하는 방법을 학습합니다. 보상 신호는 전체 상호작용 이력에 대한 하류 질문-응답 정확도에서 도출되며, 이는 메모리 구성을 직접 최적화합니다. 우리의 훈련 프레임워크의 효과를 입증하기 위해, 코어, 에피소드, 의미론적 구성 요소로 이루어진 메모리 아키텍처를 설계하고, 메모리 작업을 위한 여러 도구를 갖추었습니다. 실험적 평가 결과, Mem-alpha는 기존의 메모리 강화 에이전트 기준선에 비해 상당한 개선을 달성했습니다. 최대 30k 토큰 길이의 인스턴스로만 훈련되었음에도 불구하고, 우리의 에이전트는 훈련 길이의 13배가 넘는 400k 토큰 이상의 시퀀스에서도 놀라운 일반화 능력을 보여주며, Mem-alpha의 견고성을 입증했습니다.
대규모 언어 모델(LLM) 안전성은 광범위한 배포를 가능하게 하는 데 있어 가장 시급한 과제 중 하나입니다. 대부분의 연구와 글로벌 논의는 모델이 사용자가 자신이나 타인을 해치는 데 도움을 주는 것과 같은 일반적인 위험에 초점을 맞추고 있지만, 기업들은 보다 근본적인 문제에 직면해 있습니다: LLM 기반 에이전트가 의도된 사용 사례에 대해 안전한지 여부입니다. 이를 해결하기 위해, 우리는 운영 안전성(operational safety)을 도입합니다. 이는 LLM이 특정 목적을 위해 사용자 쿼리를 적절히 수락하거나 거부할 수 있는 능력으로 정의됩니다. 또한, 우리는 일반적인 상황과 특정 에이전트 사용 사례 내에서 운영 안전성을 측정하기 위한 평가 도구 및 벤치마크인 OffTopicEval을 제안합니다. 20개의 오픈 웨이트 LLM으로 구성된 6개 모델 패밀리에 대한 평가 결과, 모델 간 성능 차이는 있지만 모든 모델이 여전히 높은 수준의 운영 안전성 부족을 보였습니다. 가장 강력한 모델인 Qwen-3 (235B)과 Mistral (24B)도 각각 77.77%와 79.96%로 신뢰할 만한 운영 안전성에 훨씬 미치지 못했으며, GPT 모델은 62~73% 범위에서 정체되었고, Phi는 중간 수준의 점수(48~70%)를 기록했으며, Gemma와 Llama-3는 각각 39.53%와 23.84%로 크게 하락했습니다. 운영 안전성은 모델 정렬의 핵심 문제이지만, 이러한 실패를 억제하기 위해 우리는 프롬프트 기반 조정 방법인 쿼리 그라운딩(Q-ground)과 시스템 프롬프트 그라운딩(P-ground)을 제안합니다. 이 방법들은 OOD 거부를 크게 개선했습니다. Q-ground는 최대 23%의 일관된 성능 향상을 제공했으며, P-ground는 더 큰 향상을 이끌어 Llama-3.3 (70B)을 41%, Qwen-3 (30B)을 27% 향상시켰습니다. 이러한 결과는 운영 안전성 개입의 시급한 필요성과 더 신뢰할 수 있는 LLM 기반 에이전트를 위한 첫 단계로서 프롬프트 기반 조정의 가능성을 강조합니다.
Muon 최적화기는 대규모 언어 모델(LLM) 훈련에서 Adam보다 지속적으로 빠른 성능을 보이지만, 그 성공의 메커니즘은 여전히 명확하지 않다. 본 논문은 연관 메모리(associative memory)의 관점을 통해 이 메커니즘을 해명한다. Muon이 최적화하는 트랜스포머 구성 요소를 제거(ablation)함으로써, LLM의 연관 메모리 파라미터, 즉 Value 및 Output(VO) 어텐션 가중치와 피드포워드 네트워크(FFN)가 Muon의 우수성에 주요 기여자임을 밝힌다. 이 연관 메모리 관점에 동기를 받아, 본 논문은 본질적으로 heavy-tailed(꼬리가 긴) 특성을 가진 실제 데이터셋에서 Muon의 우수성을 설명한다. 이러한 데이터셋에서는 소수의 클래스(꼬리 클래스)가 다른 클래스보다 훨씬 적게 나타난다. Muon의 우수성은 두 가지 주요 특성으로 설명된다: (i) Muon의 업데이트 규칙은 Adam보다 더 등방성(isotropic) 특성을 가진 특이값 스펙트럼을 일관적으로 생성하며, (ii) heavy-tailed 데이터에서 꼬리 클래스를 Adam보다 더 효과적으로 최적화한다. 실증적 증거를 넘어, 본 논문은 클래스 불균형 데이터 하에서의 1층 연관 메모리 모델을 분석하여 이러한 발견을 이론적으로 확인한다. Muon은 특징 임베딩에 관계없이 클래스 간 균형 잡힌 학습을 일관적으로 달성하는 반면, Adam은 임베딩 특성에 따라 학습 오차에서 큰 차이를 유발할 수 있음을 증명한다. 요약하면, 본 논문의 실증적 관찰과 이론적 분석은 Muon의 핵심 이점을 밝힌다: Muon의 업데이트 규칙은 선형 연관 메모리의 외적 곱(outer-product) 구조와 일치하여, heavy-tailed 분포에서 꼬리 클래스의 더 균형 잡히고 효과적인 학습을 가능하게 한다.
외부 도구와 상호작용하여 능력을 확장하는 대형 언어 모델 에이전트를 구축하는 것은 AI 연구와 응용 분야에서 새로운 전선을 열고 있습니다. 본 논문에서는 혁신적인 데이터 합성 파이프라인과 조율된 웹 검색 도구로 구동되는 심층 연구 에이전트인 InfoAgent를 소개합니다. 도전적이고 찾기 어려운 쿼리를 구성하기 위해, 우리는 엔티티 트리를 구축하고 엔티티 퍼지화를 적용한 서브트리 샘플링을 통해 질문의 난이도를 체계적으로 높입니다. 상용 검색 도구에 크게 의존하는 기존 연구와 달리, 우리는 전용 자체 호스팅 검색 인프라를 개발하여 에이전트 환경의 투명성을 높이고 에이전트 능력의 추가 발전을 촉진합니다. 우리는 데이터 파이프라인의 효과를 평가하기 위해 질문에 올바르게 답변하기 위해 필요한 평균 도구 호출 횟수를 측정하고, 또한 우리의 도구를 장착했을 때 에이전트의 성능이 더 우수함을 보여줍니다. 우리의 InfoAgent는 Qwen3-14B를 기반으로 두 단계의 레시피를 통해 사후 학습됩니다: 장기적인 검색 행동을 심어주기 위한 콜드 스타트 지도 미세 조정과, 추론 기반 도구 사용을 크게 개선하는 강화 학습입니다. 우리의 방법을 통해 InfoAgent는 BrowseComp에서 15.3%, BrowseComp-ZH에서 29.2%, Xbench-DS에서 40.4%의 정확도를 달성하며, WebSailor-72B 및 DeepDive-32B와 같은 기존의 오픈소스 심층 연구 에이전트를 능가합니다.
온라인 정렬(예: GRPO)은 일반적으로 오프라인 정렬(예: DPO)보다 더 나은 성능을 보입니다. 하지만 그 이유는 무엇일까요? 우리는 행동경제학의 전망 이론(prospect theory)을 바탕으로 인간 중심의 설명을 제안합니다. 우리는 온라인 온-정책 샘플링이 모델이 생성할 수 있는 내용에 대한 인간의 인지 분포를 더 잘 근사하며, PPO/GRPO 스타일의 클리핑(clipping) -- 원래는 훈련 안정화를 위해 도입된 기법 -- 이 인간이 확률을 인지하는 방식에서의 인지 편향을 복원한다는 것을 증명합니다. 이러한 의미에서 PPO/GRPO는 이미 인지적 손실 함수(perceptual loss)로 작용합니다. 우리의 이론은 더 나아가 온라인/오프라인 이분법 자체가 인간의 효용을 극대화하는 데 부수적인 요소임을 시사합니다. 왜냐하면 온라인 온-정책 데이터에 국한되지 않고, 인간의 인지 방식을 모방하는 방식으로 어떤 데이터를 선택적으로 훈련하더라도 동일한 효과를 얻을 수 있기 때문입니다. 이를 통해 성능 저하 없이 더 빠르고, 저렴하며, 유연하게 사후 훈련(post-training)을 수행할 수 있습니다. 이를 위해 우리는 확률에 대한 인지적 왜곡을 DPO/KTO/GRPO와 같은 목적 함수에 명시적으로 통합하는 설계 패턴을 제안하며, 이들의 '휴먼라인(humanline)' 변형을 생성합니다. 놀랍게도, 이러한 휴먼라인 변형은 오프라인 오프-정책 데이터로 훈련되었을지라도 검증 가능 및 검증 불가능한 작업 모두에서 온라인 대응 모델과 동등한 성능을 보일 수 있음을 발견했습니다.
강화 학습(Reinforcement Learning, RL)은 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 있어서 놀라운 성과를 보여주고 있습니다. 그 중에서도 과정 지도 강화 학습(Process-Supervised RL, PSRL)은 결과 기반 RL에 비해 더 효과적인 패러다임으로 부상하고 있습니다. 그러나 기존의 PSRL 접근법은 분기 위치와 샘플링 측면에서 탐색 효율성이 제한적이라는 문제를 안고 있습니다. 본 논문에서는 추론 모델을 위한 효율적인 탐색을 가능하게 하는 새로운 PSRL 프레임워크(AttnRL)를 소개합니다. 높은 어텐션 점수를 보이는 단계가 추론 행동과 상관관계가 있다는 예비 관찰에 기반하여, 우리는 높은 값을 가진 위치에서 분기하는 방식을 제안합니다. 또한, 문제의 난이도와 이전 배치 크기를 고려한 적응형 샘플링 전략을 개발하여 전체 훈련 배치가 0이 아닌 이점 값을 유지하도록 합니다. 샘플링 효율성을 더욱 개선하기 위해, PSRL을 위한 1단계 오프-폴리시 훈련 파이프라인을 설계했습니다. 여러 도전적인 수학적 추론 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 성능과 샘플링 및 훈련 효율성 측면에서 기존 접근법을 일관되게 능가함을 입증했습니다.
우리는 실시간 대화 제약 하에서 음성 상호작용 시스템의 추론 능력을 평가하기 위한 벤치마크인 Voice Evaluation of Reasoning Ability(VERA)를 소개한다. VERA는 기존 텍스트 벤치마크에서 도출된 2,931개의 음성 중심 에피소드로 구성되며, 수학(Math), 웹(Web), 과학(Science), 장문맥(Long-Context), 사실(Factual)의 다섯 가지 트랙으로 조직된다. 각 항목은 추론 난이도를 유지하면서 음성 상호작용에 맞게 조정되었다. VERA는 모델 패밀리 내에서 텍스트와 음성 간의 직접적인 비교를 가능하게 하며, 아키텍처 선택이 신뢰성에 미치는 영향을 분석할 수 있도록 지원한다. 우리는 12개의 현대 음성 시스템을 강력한 텍스트 기준선과 함께 평가했으며, 큰 일관된 양식 간 격차를 관찰했다: 경쟁 수학 문제에서 선두 텍스트 모델은 74.8%의 정확도를 달성한 반면, 해당 음성 모델은 6.1%에 그쳤다; 모든 트랙을 매크로 평균했을 때 최고의 텍스트 모델은 54.0%를 달성한 반면, 음성 모델은 11.3%에 그쳤다. 지연시간-정확도 분석은 저지연 플래토를 보여주는데, 빠른 음성 시스템은 약 10% 정확도 주변에 모여 있는 반면, 텍스트 성능에 접근하려면 실시간 상호작용을 희생해야 한다. 진단 실험은 일반적인 완화 조치들이 불충분함을 나타낸다. "생각 시간"을 늘리는 것은 미미한 이득만을 가져오며, 추론과 내레이션을 분리한 디커플드 캐스케이드는 정확도를 향상시키지만 여전히 텍스트에 크게 못 미치고 특징적인 접지/일관성 오류를 도입한다. 실패 분석은 더 나아가 네이티브 스트리밍, 엔드투엔드, 캐스케이드 설계 간에 뚜렷한 오류 패턴을 보여준다. VERA는 생각과 말하기를 분리하는 아키텍처를 위한 재현 가능한 테스트베드와 표적 진단을 제공함으로써, 유창하고 신뢰할 수 있는 추론을 수행하는 실시간 음성 어시스턴트를 향한 진전을 측정하는 원칙적인 방법을 제시한다.
오픈 대형 언어 모델(LLM)의 확산은 인공지능(AI) 분야에서 활발한 연구와 혁신의 생태계를 조성하고 있습니다. 그러나 오픈 LLM의 개발 과정에서 공개 전후로 사용된 협업 방식에 대한 포괄적인 연구가 아직 이루어지지 않아, 오픈 LLM 프로젝트가 어떻게 시작되고 조직되며 관리되는지, 그리고 이 생태계를 더욱 발전시킬 수 있는 기회가 무엇인지에 대한 이해가 제한적입니다. 우리는 북미, 유럽, 아프리카, 아시아의 지역 기반 프로젝트, 연구 기관, 스타트업, 대형 기술 기업에서 개발된 14개의 오픈 LLM 개발자들과의 반구조화된 인터뷰를 바탕으로, 오픈 LLM의 개발과 재사용 생명주기 전반에 걸친 오픈 협업에 대한 탐색적 분석을 통해 이 격차를 해소하고자 합니다. 우리는 연구와 실무에 세 가지 주요 기여를 합니다. 첫째, 오픈 LLM 프로젝트에서의 협업은 LLM 자체를 넘어 데이터셋, 벤치마크, 오픈소스 프레임워크, 리더보드, 지식 공유 및 토론 포럼, 컴퓨팅 파트너십 등 다양한 요소를 포함합니다. 둘째, 오픈 LLM 개발자들은 AI 접근의 민주화와 오픈 과학의 촉진부터 지역 생태계 구축 및 언어 표현 확장에 이르기까지 다양한 사회적, 경제적, 기술적 동기를 가지고 있습니다. 셋째, 샘플링된 오픈 LLM 프로젝트는 단일 기업 프로젝트부터 비영리 단체가 후원하는 지역 기반 프로젝트에 이르기까지 다섯 가지 독특한 조직 모델을 보여주며, 이는 오픈 LLM 생명주기 전반에 걸친 통제의 중앙집중화와 커뮤니티 참여 전략에서 차이를 보입니다. 우리는 AI의 더 개방적인 미래를 위해 글로벌 커뮤니티를 지원하려는 이해관계자들을 위한 실질적인 권고사항으로 결론을 맺습니다.
최첨단 시각-언어 모델(VLM)이 정말로 기본적인 시각 이해를 해결했을까? 우리는 2,720개의 질문-답변 쌍으로 구성된 약간 다른 시각 질의응답(VQA) 벤치마크인 VisualOverload를 소개한다. 이 벤치마크는 비공개로 보관된 정답을 포함하고 있다. 일반적으로 전체적인 이미지 이해에 초점을 맞추는 기존의 VQA 데이터셋과 달리, VisualOverload는 모델이 복잡하게 채워진(또는 과부하된) 장면에서 간단하고 지식이 필요 없는 시각 작업을 수행하도록 요구한다. 우리의 데이터셋은 공개 도메인 회화 작품의 고해상도 스캔으로 구성되어 있으며, 이 작품들은 다수의 인물, 행동, 그리고 정교하게 디테일이 묘사된 배경 속에서 펼쳐지는 하위 플롯들로 가득 차 있다. 우리는 이러한 이미지들을 수동으로 주석 처리하여 장면에 대한 철저한 이해를 탐구하기 위해 6가지 작업 범주에 걸친 질문들을 추가했다. 우리는 현재의 벤치마크가 VLM의 성능을 과대평가하고 있으며, 세부 사항을 인코딩하고 추론하는 것은 여전히 어려운 과제라고 가정한다. 특히 복잡하게 채워진 장면을 마주할 때 더욱 그렇다. 실제로, 우리는 테스트한 37개 모델 중 최고의 모델(o3)도 가장 어려운 테스트 분할에서 단 19.6%의 정확도를, 모든 질문에 대해 전체적으로 69.5%의 정확도를 달성하는 것을 관찰했다. 철저한 평가를 넘어, 우리는 벤치마크를 오류 분석으로 보완하여, 숫자 세기 능력의 부족, OCR 실패, 복잡한 작업에서의 놀라운 논리적 불일치를 포함한 여러 실패 모드를 밝혀냈다. 전반적으로, VisualOverload는 현재의 시각 모델에서 중요한 격차를 드러내고, 더 나은 모델을 개발하기 위한 커뮤니티에 중요한 자원을 제공한다. 벤치마크: http://paulgavrikov.github.io/visualoverload
최근 강화 학습(RL) 방법들은 대규모 언어 모델(LLMs)의 계획 능력을 크게 향상시켰지만, 그 효과에 대한 이론적 근거는 여전히 명확하지 않습니다. 본 연구에서는 그래프 기반의 추상화를 통해 RL의 이점과 한계를 조사하며, 특히 정책 경사(PG)와 Q-학습 방법에 초점을 맞춥니다. 우리의 이론적 분석은 지도 미세 조정(SFT)이 공기반의 허위 해결책을 도입할 수 있는 반면, RL은 주로 탐색을 통해 올바른 계획을 달성하며, 이는 더 나은 일반화를 가능하게 하는 탐색의 역할을 강조합니다. 그러나 PG는 다양성 붕괴 문제를 겪는데, 이는 훈련 중 출력 다양성이 감소하고 완벽한 정확도 달성 후에도 지속되는 현상입니다. 반면, Q-학습은 오프-폴리시 학습과 수렴 시 다양성 보존이라는 두 가지 주요 이점을 제공합니다. 또한, Q-학습에서 보상 해킹을 방지하기 위해서는 신중한 보상 설계가 필요함을 보여줍니다. 마지막으로, 실제 계획 벤치마크인 Blocksworld에 우리의 프레임워크를 적용하여 이러한 행동들이 실제로 나타남을 확인합니다.
우리는 코드 실행의 수치적 결과를 예측하는 코드-메트릭 회귀(Code-to-Metric Regression)를 연구합니다. 이는 프로그래밍 언어의 개방성으로 인해 어려운 과제입니다. 기존 방법들은 복잡하고 도메인 특화된 특징 공학에 의존해왔지만, 우리는 단일 통합 회귀 언어 모델(Regression Language Model, RLM)이 텍스트에서 직접 (i) Python 및 C++과 같은 여러 고수준 언어의 코드 메모리 사용량, (ii) Triton GPU 커널의 지연 시간, 그리고 (iii) ONNX로 표현된 훈련된 신경망의 정확도와 속도를 동시에 예측할 수 있음을 보여줍니다. 특히, T5Gemma로 초기화된 비교적 작은 300M 파라미터의 RLM은 APPS의 경쟁 프로그래밍 제출물에서 0.9 이상의 스피어만 순위 상관계수를 달성했으며, 단일 통합 모델은 CodeNet의 17개 별도 언어에서 평균 0.5 이상의 스피어만 순위 상관계수를 달성했습니다. 더 나아가, RLM은 그래프 신경망에 의해 주도되었던 5개의 고전적인 NAS 설계 공간에서 0.46의 최고 평균 켄달 타우를 달성할 수 있으며, 동시에 다양한 하드웨어 플랫폼에서의 아키텍처 지연 시간을 예측할 수 있습니다.
현대 순환 신경망(RNN)은 선형 시간 복잡도 덕분에 3D 재구성을 위한 경쟁력 있는 아키텍처로 자리 잡았습니다. 그러나 이러한 모델은 훈련 컨텍스트 길이를 넘어서면 성능이 크게 저하되며, 길이 일반화 능력이 제한적임이 드러납니다. 본 연구에서는 테스트 타임 학습(Test-Time Training) 관점에서 3D 재구성 기반 모델을 재검토하며, 그 설계를 온라인 학습 문제로 재구성합니다. 이러한 관점을 바탕으로, 메모리 상태와 새로 들어오는 관측치 간의 정렬 신뢰도를 활용하여 메모리 업데이트를 위한 폐쇄형 학습률을 도출함으로써, 과거 정보를 유지하는 것과 새로운 관측치에 적응하는 것 사이의 균형을 맞춥니다. 이 훈련이 필요 없는 개입 방법, 즉 TTT3R은 길이 일반화를 크게 개선하여 전역 포즈 추정에서 기준선 대비 2배의 성능 향상을 달성하며, 수천 장의 이미지를 처리하는 데 단 6GB의 GPU 메모리로 20 FPS의 속도를 유지합니다. 코드는 https://rover-xingyu.github.io/TTT3R에서 확인할 수 있습니다.
그래픽 사용자 인터페이스(GUI)와 효과적으로 상호작용하는 자율 에이전트를 개발하는 것은 여전히 해결해야 할 어려운 과제이며, 특히 소형 온디바이스 모델의 경우 더욱 그렇습니다. 본 논문에서는 모바일, 웹, 데스크톱 등 다양한 플랫폼에서 작동하는 소형의 종단 간(end-to-end) GUI 에이전트인 Ferret-UI Lite를 소개합니다. 소형 모델 개발에 최적화된 기술을 활용하여, 실제와 합성 소스로부터 다양한 GUI 데이터를 선별하고, 사고의 연쇄(chain-of-thought) 추론과 시각적 도구 사용을 통해 추론 시 성능을 강화하며, 설계된 보상을 통한 강화 학습을 통해 3B 규모의 Ferret-UI Lite 에이전트를 구축했습니다. Ferret-UI Lite는 다른 소규모 GUI 에이전트들과 비교하여 경쟁력 있는 성능을 보여줍니다. GUI 기반 작업에서 Ferret-UI Lite는 ScreenSpot-V2, ScreenSpot-Pro, OSWorld-G 벤치마크에서 각각 91.6%, 53.3%, 61.2%의 점수를 달성했습니다. GUI 탐색 작업에서는 AndroidWorld에서 28.0%, OSWorld에서 19.8%의 성공률을 기록했습니다. 본 논문에서는 소형 온디바이스 GUI 에이전트 개발 과정에서 얻은 방법론과 교훈을 공유합니다.
대형 언어 모델(LLMs)은 복잡한 작업을 완수하기 위한 기본 패러다임으로 다중 턴 상호작용을 활용합니다. 그러나 이러한 모델들은 일반적으로 정적이고 단일 턴 데이터로 훈련되기 때문에, 실시간 사용자 피드백에 적응하는 능력이 제한되어 확장된 상호작용에서 성능이 저하되는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 먼저 새로운 패러다임인 다중 턴 상호작용을 위한 테스트 타임 정책 적응(T2PAM)을 제안합니다. T2PAM은 진행 중인 상호작용에서의 사용자 피드백을 보상 신호로 활용하여 사용자 선호도와 일치하는 잠재적 최적 정책을 추정한 후, 모델을 이 정책으로 유도하기 위해 소수의 매개변수를 업데이트함으로써 대화 중 자가 수정을 효율적으로 가능하게 합니다. 이어서, 우리는 T2PAM을 구현하는 경량 알고리즘인 최적 참조 일회 적응(ROSA)을 소개합니다. ROSA는 이론적 최적 정책을 향해 모델 매개변수를 단일, 효율적인 업데이트 단계로 유도하며, 비용이 많이 드는 반복적 경사 기반 최적화를 피하고 계산 오버헤드를 최소화합니다. 우리는 ROSA의 정책이 상호작용 횟수가 증가함에 따라 사용자의 선호도로 수렴함을 보장하는 엄밀한 이론적 분석을 제공합니다. 도전적인 벤치마크에서의 광범위한 실험을 통해 ROSA가 작업 효과성과 효율성 모두에서 상당한 개선을 달성함을 입증합니다.
현재의 검색 기술은 표준 RAG 질의-문서 응용에 국한되어 있다. 본 논문에서는 필요한 API를 예측하기 위해 코드와 인덱스를 확장하는 새로운 기술을 제안하며, 이를 통해 자동 완성 및 에이전트 AI 응용을 위한 고품질의 종단 간 코드 생성을 직접 가능하게 한다. 우리는 실제 ServiceNow Script Includes에서 구축된 새로운 데이터셋을 도입하여 현재의 코드-대-코드 벤치마크 데이터셋에서 발생하는 API 누출 문제를 해결하고, 코드 내에서 불분명한 API 사용 의도를 포착하는 데 초점을 맞춘다. 평가 지표에 따르면, 이 방법은 87.86%의 상위 40개 검색 정확도를 달성하여, 성공적인 다운스트림 코드 생성에 필요한 API와 함께 중요한 컨텍스트를 제공한다. 실시간 예측을 가능하게 하기 위해, 우리는 합성 데이터셋 생성, 지도 미세 조정, 강화 학습을 통해 컴팩트한 0.6B 리랭커를 최적화하는 포괄적인 사후 학습 파이프라인을 개발한다. 이 접근법은 더 큰 8B 모델을 능가하면서도 2.5배 감소된 지연 시간을 유지하도록 하여, 더 큰 모델의 계산 오버헤드 없이도 기업 특화 코드의 미묘한 차이를 효과적으로 해결한다.
대형 오디오-언어 모델이 빠르게 발전하고 있지만, 대부분의 평가는 음성이나 전 세계적으로 수집된 소리에 초점을 맞추며 문화적으로 독특한 단서를 간과하고 있습니다. 이러한 격차는 중요한 질문을 제기합니다: 현재의 모델이 지역화된, 비의미적 오디오에 대해 일반화할 수 있을까요? 이러한 오디오는 지역 사회에서는 즉시 인식되지만 외부인들은 알아차리지 못하는 것들입니다. 이를 해결하기 위해 우리는 TAU(Taiwan Audio Understanding)를 제시합니다. TAU는 일상적인 대만의 "사운드마크"를 기반으로 한 벤치마크로, 큐레이션된 소스, 인간 편집, 그리고 LLM(대형 언어 모델) 지원 질문 생성을 결합한 파이프라인을 통해 구축되었습니다. 이는 702개의 클립과 1,794개의 객관식 항목을 생성하며, 이는 텍스트만으로는 해결할 수 없는 문제들입니다. 실험 결과, Gemini 2.5와 Qwen2-Audio를 포함한 최첨단 LALM(대형 오디오-언어 모델)들은 지역 인간의 성능에 훨씬 미치지 못하는 것으로 나타났습니다. TAU는 지역화된 벤치마크의 필요성을 보여주며, 문화적 맹점을 드러내고, 더 공평한 다중모드 평가를 이끌며, 모델이 글로벌 주류를 넘어 지역 사회에 서비스할 수 있도록 보장합니다.
Transformer 기반 모델은 시계열 예측 분야에서 큰 진전을 이루었으며, 패치 기반 입력 전략은 효율성과 장기 예측 모델링의 개선을 제공합니다. 그러나 기존 접근 방식은 시간적 맥락을 고려하지 않은 패치 구성을 사용하여, 임의의 시작 위치와 고정된 길이가 자연스러운 전이를 경계에서 분리함으로써 시간적 일관성을 깨뜨립니다. 이러한 단순한 분할은 종종 단기 의존성을 방해하고 표현 학습을 약화시킵니다. 이에 대응하여, 우리는 조건부 엔트로피를 통해 전이 지점을 동적으로 감지하고 패치 경계를 동적으로 설정하는 새로운 시간적 정보 기반 프레임워크인 EntroPE(Entropy-Guided Dynamic Patch Encoder)를 제안합니다. 이는 패칭의 계산적 이점을 유지하면서 시간적 구조를 보존합니다. EntroPE는 두 가지 주요 모듈로 구성됩니다: 정보 이론적 기준을 적용하여 자연스러운 시간적 전이를 찾고 패치 경계를 결정하는 엔트로피 기반 동적 패처(EDP), 그리고 풀링과 교차 주의력을 사용하여 패치 내 의존성을 포착하고 고정 크기의 잠재 표현을 생성하는 적응형 패치 인코더(APE). 이러한 임베딩은 전역 Transformer에 의해 처리되어 패치 간 동적 관계를 모델링합니다. 장기 예측 벤치마크에서의 실험 결과, EntroPE는 정확도와 효율성 모두를 개선하며, 엔트로피 기반 동적 패칭이 시계열 모델링을 위한 유망한 새로운 패러다임임을 입증합니다. 코드는 https://github.com/Sachithx/EntroPE에서 확인할 수 있습니다.
jina-reranker-v3는 0.6B 파라미터를 가진 다국어 문서 리랭커로, 새로운 '늦지 않은 마지막 상호작용' 방식을 도입했습니다. ColBERT와 같은 후기 상호작용 모델이 별도의 인코딩 후 다중 벡터 매칭을 수행하는 것과 달리, 이 접근 방식은 동일한 컨텍스트 창 내에서 쿼리와 문서 간의 인과적 자기 주의(causal self-attention)를 수행하여, 각 문서의 마지막 토큰에서 컨텍스트 임베딩을 추출하기 전에 풍부한 문서 간 상호작용을 가능하게 합니다. 이 컴팩트한 아키텍처는 생성적 리스트와이즈 리랭커보다 10배 작으면서도 61.94 nDCG@10로 최신 BEIR 성능을 달성합니다.
대규모 언어 모델(LLMs)은 질문 응답 및 사실 확인과 같은 지식 집약적 애플리케이션을 지원하기 위한 신경 지식 기반으로 점점 더 많이 연구되고 있습니다. 그러나 이들의 지식 구조적 조직은 아직 탐구되지 않았습니다. 인지 신경과학 연구 결과, 예를 들어 의미론적 클러스터링 및 프라이밍(priming)과 같이 하나의 사실을 알면 관련된 사실을 회상할 가능성이 높아지는 현상에서 영감을 받아, 우리는 LLMs에서 유사한 지식 동질성 패턴을 조사합니다. 이를 위해, 우리는 트리플릿(triplet) 및 엔티티(entity) 수준에서의 지식 확인을 통해 LLM 지식을 그래프 표현으로 매핑합니다. 이후, 우리는 엔티티와 그 이웃 간의 지식성(knowledgeability) 관계를 분석하여, 그래프에서 더 가까이 위치한 엔티티에 대해 LLMs가 유사한 수준의 지식을 보유하는 경향이 있음을 발견했습니다. 이러한 동질성 원리에 동기를 받아, 우리는 그래프 신경망(GNN) 회귀 모델을 제안하여 이웃 점수를 활용하여 트리플릿에 대한 엔티티 수준의 지식성 점수를 추정합니다. 예측된 지식성을 통해 우리는 잘 알려지지 않은 트리플릿을 우선적으로 확인하여 동일한 라벨링 예산 하에서 지식 커버리지를 극대화할 수 있습니다. 이는 LLMs에 지식을 주입하기 위한 미세 조정(fine-tuning)을 위한 능동적 라벨링의 효율성을 향상시킬 뿐만 아니라, 추론 집약적 질문 응답에서의 다중 홉 경로 검색을 강화합니다.
확산 기반 대규모 언어 모델(dLLMs)은 우수한 성능을 보이지만 여전히 추론 효율성 측면에서 한계를 보입니다. 이는 dLLMs가 양방향 주의 메커니즘에 의존하며, 자기회귀 모델(ARMs)과 달리 표준 키-값(KV) 캐시를 직접 활용할 수 없기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 dLLM 추론 가속화를 위한 학습이 필요 없는 근사 KV 캐시 프레임워크인 Dual Adaptive Cache(d^2Cache)를 제안합니다. d^2Cache는 각 디코딩 단계에서 토큰을 식별하고 그들의 KV 상태를 적응적으로 업데이트하는 두 단계의 세밀한 선택 전략을 특징으로 하며, 나머지 토큰의 KV 상태는 재사용을 위해 캐싱합니다. 더 나아가, d^2Cache는 더 신뢰할 수 있는 디코딩 대안을 자연스럽게 제공함으로써, 준 좌-우 생성(quasi left-to-right generation)을 가능하게 하고 시퀀스 끝 부분의 토큰에 대한 조기 과신을 완화합니다. 두 가지 대표적인 dLLM(LLaDA와 Dream)에 대한 광범위한 실험 결과는 d^2Cache가 추론 속도를 크게 향상시킬 뿐만 아니라 생성 품질에서도 일관된 개선을 보여줍니다. 코드는 https://github.com/Kamichanw/d2Cache에서 확인할 수 있습니다.
오픈소스 소프트웨어(OSS) 프로젝트를 자동으로 컴파일하는 작업은 중요하면서도 노동 집약적이고 복잡한 과제로, 이는 LLM 에이전트에게 적합한 도전 과제가 됩니다. 기존의 방법들은 수동으로 정리된 규칙과 워크플로우에 의존하는데, 이는 맞춤형 설정이나 환경 구축이 필요한 OSS에 적응할 수 없습니다. 최근 대형 언어 모델(LLM)을 사용한 시도들은 높은 평가를 받은 OSS의 일부에 대해 선택적 평가를 수행했는데, 이는 OSS 컴파일의 실제적인 도전 과제를 과소평가하는 방식입니다. 실제로, 컴파일 지침이 누락된 경우가 많고, 의존성이 문서화되지 않았으며, 성공적인 빌드를 위해 소스 파일을 패치하거나 빌드 스크립트를 수정해야 하는 경우도 있습니다. 우리는 더 다양하고 품질, 규모, 특성이 다양한 OSS로 구성된 더 도전적이고 현실적인 벤치마크인 BUILD-BENCH를 제안합니다. 또한, BUILD-BENCH에서 최신 기술을 달성하고 다양한 OSS 특성에 적응할 수 있는 향상된 빌드 지침 검색 모듈을 갖춘 강력한 LLM 기반 에이전트인 OSS-BUILD-AGENT를 제안합니다. 우리는 또한 다양한 컴파일 방법 설계 선택과 이들이 전체 작업에 미치는 영향에 대한 상세한 분석을 제공하여, 향후 발전을 이끌 수 있는 통찰력을 제공합니다. 우리는 BUILD-BENCH에서의 성능이 복잡한 소프트웨어 엔지니어링 작업으로서의 컴파일 능력을 충실히 반영할 수 있다고 믿으며, 이 벤치마크가 소프트웨어 개발 및 소프트웨어 보안 분야의 다운스트림 애플리케이션에 상당한 영향을 미치는 혁신을 촉진할 것이라고 기대합니다.
대형 언어 모델(LLM) 제공업체들은 최대 컨텍스트 윈도우 크기에 대해 큰 수치를 자랑합니다. 컨텍스트 윈도우의 실제 사용을 테스트하기 위해, 우리는 1) 최대 유효 컨텍스트 윈도우 개념을 정의하고, 2) 다양한 크기와 문제 유형에 걸쳐 컨텍스트 윈도우의 효과를 테스트하는 방법을 공식화하며, 3) 점점 더 큰 컨텍스트 윈도우 크기에 대한 모델 효능을 비교하기 위한 표준화된 방법을 만들어 실패 지점을 찾았습니다. 우리는 여러 모델에 걸쳐 수십만 개의 데이터 포인트를 수집했고, 보고된 최대 컨텍스트 윈도우(MCW) 크기와 최대 유효 컨텍스트 윈도우(MECW) 크기 사이에 상당한 차이가 있음을 발견했습니다. 우리의 연구 결과는 MECW가 MCW와 크게 다를 뿐만 아니라 문제 유형에 따라 변한다는 것을 보여줍니다. 테스트 그룹의 몇 가지 최고 수준 모델은 컨텍스트에 100개의 토큰만 있어도 실패했으며, 대부분은 컨텍스트에 1000개의 토큰이 있을 때 정확도가 심각하게 저하되었습니다. 모든 모델은 최대 컨텍스트 윈도우에 비해 최대 99%까지 미치지 못했습니다. 우리의 데이터는 제공된 문제 유형에 따라 최대 유효 컨텍스트 윈도우가 변한다는 것을 보여주며, 모델 정확도를 향상시키고 모델 환각률을 줄이는 방법에 대한 명확하고 실행 가능한 통찰을 제공합니다.
기존의 다중 모드 오디오 생성 모델은 정확한 사용자 제어가 부족하여 전문적인 폴리 작업 흐름에서의 적용 가능성이 제한적입니다. 특히, 이러한 모델은 전체 비디오에 초점을 맞추고 특정 장면 내 객체를 우선적으로 처리하거나 불필요한 배경 소음을 생성하거나 잘못된 객체에 집중하는 정확한 방법을 제공하지 않습니다. 이러한 격차를 해결하기 위해, 우리는 객체 수준의 분할 맵에 명시적으로 조건을 부여한 비디오 객체 분할 인식 오디오 생성이라는 새로운 작업을 소개합니다. 우리는 시각적 분할 마스크와 비디오 및 텍스트 단서를 활용하여 제어 가능한 오디오 생성을 가능하게 하는 새로운 다중 모드 생성 모델인 SAGANet을 제시합니다. 우리의 모델은 사용자에게 오디오 생성에 대한 세밀하고 시각적으로 지역화된 제어를 제공합니다. 이 작업과 분할 인식 폴리에 대한 추가 연구를 지원하기 위해, 우리는 분할 정보가 포함된 악기 연주 비디오의 벤치마크 데이터셋인 Segmented Music Solos를 제안합니다. 우리의 방법은 현재의 최첨단 방법들에 비해 상당한 개선을 보여주며, 제어 가능하고 고충실도의 폴리 합성을 위한 새로운 기준을 설정합니다. 코드, 샘플 및 Segmented Music Solos는 https://saganet.notion.site에서 확인할 수 있습니다.
고등학교 수학 경시대회와 코딩 분야에서 추론 능력을 갖춘 대형 언어 모델(LLM)이 빠르게 발전하고 있지만, 이들이 첨단 물리학 연구에서 발견되는 복잡하고 개방형 도전 과제를 효과적으로 추론할 수 있을까? 그리고 무엇보다, 물리학자들은 LLM이 어떤 종류의 추론 작업을 지원하기를 원할까? 이러한 질문에 답하기 위해, 우리는 CritPt(Complex Research using Integrated Thinking - Physics Test, "크리티컬 포인트"로 발음)를 제시한다. 이는 출판되지 않은 연구 수준의 추론 과제를 테스트하기 위해 설계된 첫 번째 벤치마크로, 응집 물질, 양자 물리학, 원자·분자·광학 물리학, 천체 물리학, 고에너지 물리학, 수리 물리학, 통계 물리학, 핵 물리학, 비선형 동역학, 유체 역학 및 생물 물리학 등 현대 물리학 연구 분야를 광범위하게 다룬다. CritPt는 초급 수준의 전체 규모 연구 프로젝트를 시뮬레이션하기 위해 설계된 71개의 복합 연구 과제로 구성되어 있으며, 이를 더 세분화한 190개의 간단한 체크포인트 작업으로 분해하여 더 세밀한 통찰을 제공한다. 모든 문제는 50명 이상의 현직 물리학 연구자들이 자신의 연구를 바탕으로 새로 작성했다. 각 문제는 추측에 강하고 기계적으로 검증 가능한 답을 허용하도록 수작업으로 선별되었으며, 고급 물리학 특화 출력 형식에 맞춰 크게 커스터마이징된 자동 채점 파이프라인으로 평가된다. 우리는 현재 최첨단 LLM이 개별 체크포인트에서는 초기 가능성을 보이지만, 전체 연구 규모의 도전 과제를 안정적으로 해결하기에는 여전히 멀었다는 것을 발견했다: 기본 모델 중 가장 높은 평균 정확도는 GPT-5(고급)가 달성한 4.0%에 불과하며, 코딩 도구를 장착했을 때 약 10%로 적당히 상승한다. CritPt가 제공하는 현실적이면서도 표준화된 평가를 통해, 우리는 현재 모델의 능력과 실제 물리학 연구 요구 사이의 큰 격차를 강조하며, 과학적으로 근거 있는 AI 도구 개발을 안내할 기반을 마련한다.
현재 GRPO와 같은 온라인 강화 학습(RL) 알고리즘은 LLM 추론에서 중요한 한계를 공유합니다: 모델이 "해결 불가능"한 문제로부터 학습할 수 없다는 점입니다. 즉, 모델이 정답을 탐색할 수 있는 문제에 대해서만 성능을 개선할 수 있습니다. 결과적으로, RL 훈련 후에도 모델의 "상한선"은 변하지 않으며, 단지 해결 가능한 쉬운 문제를 풀 가능성만 높아질 뿐입니다. 이러한 어려운 샘플들은 훈련에 기여할 수 없는데, 어떤 롤아웃도 보상을 생성하지 않아 그래디언트가 발생하지 않기 때문입니다. 이러한 어려운 샘플로부터 학습을 가능하게 하기 위해, 우리는 NuRL이라는 "넛징(nudging)" 방법을 제안합니다. 이 방법은 자체 생성 힌트, 즉 모델이 문제 난이도를 줄이는 데 도움이 되는 추상적인 단서를 사용하여 LLM 추론의 상한선을 높이는 것을 목표로 합니다. 질문과 그에 대한 정답이 주어지면, 모델은 CoT(Chain-of-Thought)를 생성한 후 문제를 해결하는 데 필요한 핵심 지식을 포함한 힌트를 생성합니다. 훈련 중에는 기본 정책에서 G개의 롤아웃을 생성하고, 통과율을 기준으로 힌트를 주입할지 여부를 결정합니다. 통과율이 0%인 어려운 샘플의 경우, 힌트를 주입하고 새로운 배치의 궤적을 재생성합니다. 이는 두 가지 이점을 제공합니다: (1) 힌트가 통과율을 높여(0%에서 0이 아닌 값으로) 이전에 해결 불가능했던 샘플에 대한 훈련 신호를 도입하고, (2) 힌트가 자체 생성되어 분포 변화를 피하며 외부 모델에 의존하지 않습니다. NuRL은 6개의 벤치마크와 3개의 모델에서 일관된 개선을 달성하면서도 테스트 시 스케일링과 상호 보완적으로 작동합니다. 특히, NuRL은 모델의 상한선을 높일 수 있는 반면, GRPO는 기본 모델과 비교해 pass@1024를 변경하지 않습니다. 또한, 우리는 효과적인 힌트의 조건과 힌트가 가장 유용한 시점에 대한 체계적인 연구를 제시합니다. 흥미롭게도, 가장 효과적인 힌트는 추상적이고 높은 수준의 것이며, GRPO가 수렴한 후에 필요할 때 적용될 때 가장 유용합니다.
디자이너들은 그래픽 디자인을 레이어 표현으로 제작하고 편집하지만, 레이어 기반 편집은 래스터 이미지로 합성된 후에는 불가능해집니다. 본 연구에서는 래스터 그래픽 디자인을 재편집 가능한 창작 워크플로우를 위해 레이어로 분해하는 LayerD 방법을 제안합니다. LayerD는 가려지지 않은 전경 레이어를 반복적으로 추출하여 분해 작업을 수행합니다. 그래픽 디자인에서 레이어가 종종 균일한 외관을 보인다는 가정을 활용한 간단하지만 효과적인 정제 접근법을 제안합니다. 분해 작업은 잘 정의되지 않은 문제이며, 실제 레이어 구조가 신뢰할 수 없을 수 있으므로, 이러한 어려움을 해결하기 위한 품질 지표를 개발했습니다. 실험에서 LayerD가 고품질 분해를 성공적으로 달성하고 기준선을 능가함을 보여줍니다. 또한 최신 이미지 생성기 및 레이어 기반 편집과 함께 LayerD의 활용을 시연합니다.
확산 모델을 활용한 적대적 정제(Adversarial Purification)는 유망한 방어 전략으로 부상했지만, 기존 방법들은 일반적으로 모든 주파수에 무차별적으로 영향을 미치는 균일한 노이즈 주입에 의존하여 의미 구조를 손상시키고 견고성을 약화시켰습니다. 우리의 실험 연구는 적대적 섭동이 균일하게 분포되어 있지 않음을 보여줍니다: 이들은 주로 고주파수 영역에 집중되어 있으며, 주파수와 공격 유형에 따라 다양한 크기 강도 패턴을 보입니다. 이러한 관찰에 기반하여, 우리는 입력의 크기 스펙트럼을 활용하여 정제 과정을 안내하는 크기 적응형 정제 프레임워크인 MANI-Pure를 소개합니다. MANI-Pure는 균일한 노이즈를 주입하는 대신, 이질적이고 주파수 대상화된 노이즈를 적응적으로 적용하여, 취약한 고주파수 및 낮은 크기 대역에서의 적대적 섭동을 효과적으로 억제하면서 의미적으로 중요한 저주파수 내용을 보존합니다. CIFAR-10과 ImageNet-1K에 대한 광범위한 실험을 통해 MANI-Pure의 효과성을 검증했습니다. 이는 원래 분류기의 정확도 차이를 0.59 이내로 좁히면서 견고한 정확도를 2.15 향상시켰으며, RobustBench 리더보드에서 최고의 견고한 정확도를 달성하여 이전의 최첨단 방법을 능가했습니다.
현대 인공지능(AI)은 심층 인공 신경망(NNs)을 기반으로 한다. 2025년 기준으로 21세기 가장 많이 인용된 과학 논문은 잔차 연결을 활용한 심층 잔차 학습에 관한 신경망 논문이다. 이를 누가 발명했는가? 본 논문에서는 심층 잔차 학습의 진화 과정을 연대기적으로 제시한다.
다중 에이전트 시스템(MAS)은 복잡한 현실 세계의 과제를 해결하는 데 점점 더 능숙해지고 있지만, 에이전트 간의 협력, 도구 사용, 그리고 장기적인 추론에 대한 의존도가 높아 오류 인식이 특히 어려운 문제로 대두되고 있습니다. 사소한 오류가 에이전트들 사이에서 전파되면서 과제 실패로 이어질 수 있으며, 이는 길고 복잡한 실행 궤적을 생성하여 인간 개발자와 자동화 시스템 모두에게 디버깅과 분석을 위한 상당한 비용을 초래합니다. 우리의 핵심 통찰은, 실패 궤적(예: 로그)의 표면적인 차이에도 불구하고 MAS 오류가 종종 유사한 구조적 패턴으로 반복된다는 것입니다. 본 논문은 CORRECT를 소개합니다. 이는 증류된 오류 스키마의 온라인 캐시를 활용하여 새로운 요청 간에 실패 구조에 대한 지식을 인식하고 전달하는 첫 번째 경량화된, 훈련이 필요 없는 프레임워크입니다. 이 캐시 기반 재사용은 LLM이 추론 시간에 표적 오류 위치를 수행할 수 있게 하여, 비용이 많이 드는 재훈련 없이도 동적 MAS 배포에 적응할 수 있도록 합니다. 이 분야에서 엄격한 연구를 지원하기 위해, 우리는 또한 CORRECT-Error를 소개합니다. 이는 현실 세계의 분포를 기반으로 한 새로운 오류 주입 파이프라인을 통해 수집된 2,000개 이상의 주석이 달린 궤적으로 구성된 대규모 데이터셋이며, 자연스러운 실패 패턴과의 일치를 보장하기 위해 인간 평가를 통해 추가 검증되었습니다. 7가지 다양한 MAS 애플리케이션에서의 실험 결과, CORRECT는 기존의 최신 기술 대비 단계별 오류 위치 인식에서 최대 19.8%의 향상을 보였으며, 거의 제로에 가까운 오버헤드로 자동화된 오류 인식과 인간 수준의 오류 인식 간의 격차를 크게 좁혔습니다.
시계열 기반 모델(TSFMs)은 대규모 사전 학습을 통해 강력한 제로샷 예측 능력을 제공하지만, 공개 데이터가 제한된 도메인에서 성능을 향상시키기 위해서는 여전히 미세 조정이 중요합니다. TSFMs의 수가 증가함에 따라, 다운스트림 미세 조정을 위한 최적의 모델을 효율적으로 식별하는 것이 점점 더 어려워지고 있습니다. 본 연구에서는 모델 선택을 컨텍스트 내 학습 문제로 재구성하는 전이 가능성 추정 프레임워크인 TimeTic을 소개합니다: TimeTic은 알려진(소스) 데이터셋에 대한 관찰을 기반으로, TSFM이 다운스트림(타겟) 데이터셋에서 미세 조정 후 어떻게 수행될지 예측합니다. TimeTic은 관찰된 모델-데이터 관계를 컨텍스트 정보로 유연하게 조직하여 다양한 테스트 시나리오에 원활하게 적응할 수 있습니다. 데이터셋 메타 특성, 모델 특성, 미세 조정 성능으로 형성된 자연스러운 테이블 구조를 활용하여, 테이블 기반 모델을 컨텍스트 내 학습자로 사용합니다. 또한, 모델 레이어 간 엔트로피 진화를 기반으로 한 새로운 모델 특성화를 도입하여, 임베딩 공간의 차이를 포착하고 TimeTic이 임의의 모델 세트에 걸쳐 일반화할 수 있도록 합니다. 우리는 10개의 데이터셋, 10개의 기반 모델, 3개의 예측 작업을 포함한 전이 가능성 추정을 위한 포괄적인 벤치마크를 구축했습니다. 이 벤치마크에서 TimeTic의 추정은 이전에 보지 못한 데이터셋에 대한 실제 미세 조정 성능과 강력한 일치를 보여주며, 평균 순위 상관관계 약 0.6과 제로샷 성능을 전이 가능성 점수로 사용했을 때보다 30%의 성능 향상을 달성했습니다.
대규모 언어 모델(LLM)을 위한 워터마킹은 생성 과정에서 통계적 신호를 내장하여 모델이 생성한 텍스트의 탐지를 가능하게 한다. 워터마킹은 순조로운 환경에서는 효과적임이 입증되었으나, 적대적 회피 상황에서의 견고성은 여전히 논쟁의 여지가 있다. 이러한 취약점에 대한 엄밀한 이해와 평가를 진전시키기 위해, 우리는 이론적으로 동기를 부여받고 모델에 구애받지 않는 편향 역전 재작성 공격(Bias-Inversion Rewriting Attack, BIRA)을 제안한다. BIRA는 기저의 워터마킹 방식을 알지 못한 상태에서도 LLM 기반 재작성 과정에서 워터마크가 있을 가능성이 높은 토큰의 로짓을 억제함으로써 워터마크 신호를 약화시킨다. 최근의 워터마킹 방법들에 걸쳐, BIRA는 원본 텍스트의 의미적 내용을 보존하면서 99% 이상의 회피율을 달성한다. 단순히 공격을 시연하는 것을 넘어, 우리의 결과는 체계적인 취약점을 드러내며, 스트레스 테스트와 견고한 방어의 필요성을 강조한다.
우리는 임의의 크기를 가진 이미지 집합을 처리하기 위해 설계된 새로운 신경망 아키텍처인 Convolutional Set Transformer(CST)를 소개한다. 이러한 이미지 집합은 시각적으로 이질적이지만 공통 카테고리, 장면 또는 개념과 같은 고차원적인 의미를 공유한다. 기존의 집합 입력 네트워크(예: Deep Sets 및 Set Transformer)는 벡터 입력에 제한되어 있으며 3D 이미지 텐서를 직접 처리할 수 없다. 결과적으로, 이러한 네트워크는 일반적으로 CNN과 같은 특징 추출기와 결합되어 이미지를 임베딩으로 인코딩한 후에야 이미지 간의 관계를 모델링할 수 있다. 반면, CST는 3D 이미지 텐서를 직접 처리하며 특징 추출과 문맥 모델링을 동시에 수행함으로써 두 프로세스 간의 시너지를 가능하게 한다. 이 설계는 집합 분류(Set Classification) 및 집합 이상 탐지(Set Anomaly Detection)와 같은 작업에서 우수한 성능을 보이며, Grad-CAM과 같은 CNN 설명 가능성 방법과의 자연스러운 호환성을 제공한다. 이는 불투명한 상태로 남아 있는 경쟁 접근법과는 대조적이다. 마지막으로, CST는 대규모 데이터셋에서 사전 학습될 수 있으며 표준 전이 학습(Transfer Learning) 방식을 통해 새로운 도메인과 작업에 적응할 수 있음을 보여준다. 추가 연구를 지원하기 위해, 우리는 ImageNet에서 사전 학습된 CST 백본인 CST-15를 공개한다(https://github.com/chinefed/convolutional-set-transformer).
최근 비디오 생성 기술의 발전으로 사용자가 제공한 프롬프트를 기반으로 고품질의 비디오를 합성할 수 있게 되었습니다. 그러나 기존 모델과 벤치마크는 전문적인 비디오 생성의 복잡성과 요구사항을 충분히 반영하지 못하고 있습니다. 이를 해결하기 위해 우리는 Stable Cinemetrics를 소개합니다. 이는 영화 제작 컨트롤을 네 가지 분리된 계층적 분류 체계(Setup, Event, Lighting, Camera)로 정형화한 구조화된 평가 프레임워크입니다. 이러한 분류 체계는 산업 관행에 기반한 76개의 세분화된 컨트롤 노드를 정의합니다. 이 분류 체계를 사용하여 전문가 사용 사례에 맞춘 프롬프트 벤치마크를 구성하고, 프롬프트 분류 및 질문 생성을 위한 자동화된 파이프라인을 개발하여 각 컨트롤 차원의 독립적인 평가를 가능하게 합니다. 우리는 10개 이상의 모델과 20,000개 이상의 비디오를 대상으로 80명 이상의 영화 전문가가 참여한 대규모 인간 평가를 진행했습니다. 우리의 분석, 특히 대략적 및 세부적인 분석은 현재 가장 강력한 모델들도 이벤트 및 카메라 관련 컨트롤에서 상당한 격차를 보인다는 것을 밝혀냈습니다. 확장 가능한 평가를 위해, 우리는 전문가 주석과 일치하는 비전-언어 모델인 자동 평가기를 훈련시켰으며, 이는 기존의 제로샷 베이스라인을 능가하는 성능을 보였습니다. SCINE은 전문적인 비디오 생성을 비디오 생성 모델의 맥락에 위치시키는 첫 번째 접근법으로, 영화적 컨트롤을 중심으로 한 분류 체계를 도입하고 이를 구조화된 평가 파이프라인과 상세한 분석으로 지원하여 향후 연구를 안내합니다.
기존의 기술 숙련도 추정 접근법은 종종 블랙박스 비디오 분류기에 의존하며, 다중 시점 컨텍스트를 무시하고 설명 가능성이 부족합니다. 우리는 이 작업을 생성적 추론으로 재구성한 컴팩트한 비전-언어 모델인 ProfVLM을 제안합니다. 이 모델은 자기 중심적 및 타자 중심적 비디오에서 기술 수준을 예측하고 전문가 같은 피드백을 생성합니다. 우리 방법의 핵심은 고정된 TimeSformer 백본에서 언어 모델로 투영된 다중 시점 특징을 동적으로 융합하는 AttentiveGatedProjector입니다. 전문가 코멘터리가 포함된 EgoExo4D 데이터셋으로 학습된 ProfVLM은 최대 20배 적은 매개변수를 사용하고 학습 시간을 최대 60% 단축하면서도 최첨단 방법을 능가합니다. 우리의 접근법은 다양한 활동에서 우수한 정확도를 달성할 뿐만 아니라, 성능과 일치하는 자연어 비평을 출력하여 투명한 추론을 제공합니다. 이러한 결과는 기술 평가를 위한 강력한 새로운 방향으로서 생성적 비전-언어 모델링의 잠재력을 강조합니다.
대규모 언어 모델은 강화 학습(Reinforcement Learning, RL)에서 뛰어난 성능을 보이지만, 이러한 잠재력을 완전히 발휘하기 위해서는 중간 학습 단계가 필요합니다. 효과적인 중간 학습 단계는 유용한 행동들의 간결한 집합을 식별하고, 이를 통해 온라인 RL을 통해 빠르게 선택할 수 있도록 해야 합니다. 우리는 이러한 직관을 이론적으로 정형화하여 중간 학습이 사후 학습에 미치는 영향을 최초로 규명했습니다: 이는 가지치기(pruning)로 인한 가치 근사 오차와 이후 계획 단계에서의 RL 오차를 모두 최소화하는 행동 부분공간을 특성화합니다. 우리의 분석은 중간 학습의 효과성을 결정하는 두 가지 핵심 요소를 밝혀냈습니다: 가지치기 효율성은 초기 RL 정책의 사전 분포를 형성하며, RL 수렴에 미치는 영향은 온라인 상호작용을 통해 해당 정책을 얼마나 개선할 수 있는지를 결정합니다. 이러한 결과는 의사결정 공간이 간결하고 유효한 지평선이 짧을 때 중간 학습이 가장 효과적임을 시사하며, 원시 행동이 아닌 행동 추상화의 공간에서 작동하는 것의 중요성을 강조합니다. 이러한 통찰을 바탕으로, 우리는 확장 가능한 중간 학습 알고리즘인 '추론을 통한 행동 추상화(Reasoning as Action Abstractions, RA3)'를 제안합니다. 구체적으로, 우리는 순차적 변분 하한을 도출하고, RL을 통해 시간적으로 일관된 잠재 구조를 반복적으로 발견한 후, 부트스트랩된 데이터에 대한 미세 조정을 통해 이를 최적화합니다. 코드 생성 작업에 대한 실험은 우리의 접근법의 효과성을 입증합니다. 여러 기본 모델에 걸쳐, RA3는 HumanEval과 MBPP에서 기본 모델 및 다음 토큰 예측 기준선 대비 평균 성능을 각각 8점과 4점 향상시켰습니다. 또한, RA3는 HumanEval+, MBPP+, LiveCodeBench, Codeforces에서 RLVR에서 더 빠른 수렴과 더 높은 점근적 성능을 달성했습니다.
최근의 실증 연구들은 주어진 작업에 대해 테스트 시간 동안 모델을 계속 훈련시키는 아이디어, 즉 테스트 시간 훈련(Test-Time Training, TTT)을 탐구하였으며, 이를 통해 상당한 성능 향상을 이끌어냈다는 것을 발견했습니다. 그러나 TTT가 왜 그리고 언제 효과적인지에 대한 이해는 여전히 제한적입니다. 이전의 설명들은 주로 TTT가 분포 외 적응(out-of-distribution adaptation)에 적용되거나 특권 데이터(privileged data)와 함께 사용될 때 도움이 될 수 있다는 관찰에 초점을 맞추었습니다. 그러나 대부분의 테스트 데이터가 분포 내(in-distribution)에 있는 기초 모델(foundation models)의 규모가 커짐에 따라 이러한 설명들은 의문시되고 있습니다. 우리는 대신 기초 모델이 전역적으로 과소 매개변수화(underparameterized)되어 있으며, TTT가 일반화 이후에 특수화를 위한 메커니즘을 제공하여 테스트 작업과 관련된 개념에 능력을 집중시킨다는 가설을 제시합니다. 특히, 선형 표현 가설(linear representation hypothesis) 하에서, 우리는 TTT가 전역 훈련(global training)보다 훨씬 작은 분포 내 테스트 오류를 달성하는 모델을 제안합니다. 우리는 ImageNet에서 희소 오토인코더(sparse autoencoder)를 훈련시켜 의미적으로 관련된 데이터 포인트들이 단 몇 개의 공유 개념으로 설명된다는 모델의 주요 가정을 실증적으로 검증합니다. 마지막으로, 이미지 및 언어 작업에 걸쳐 스케일링 연구를 수행하여 특수화가 가장 효과적인 영역을 확인함으로써 우리 모델의 실질적인 함의를 입증합니다.
지능형 이미지 편집을 위해서는 대상 객체뿐만 아니라 그로 인한 시각적 부산물, 즉 그림자와 반사 등도 제거해야 합니다. 그러나 기존의 이미지 외관 기반 방법들은 엄격하게 마스크에 맞춰 학습을 진행하여 명시적으로 마스크되지 않은 이러한 인과적 효과를 제거하지 못하거나, 느슨하게 마스크에 맞춘 전략을 채택하여 제어 가능성이 부족하고 다른 객체를 의도치 않게 과도하게 지우는 문제가 있습니다. 우리는 이러한 한계가 객체의 기하학적 존재와 그 시각적 효과 간의 인과 관계를 무시한 데서 비롯된다고 파악했습니다. 이 한계를 해결하기 위해, 우리는 기하학을 고려한 두 단계 프레임워크를 제안합니다. 이 프레임워크는 객체 제거를 (1) 기하학적 제거와 (2) 외관 렌더링으로 분리합니다. 첫 번째 단계에서는 엄격하게 마스크에 맞춘 감독을 통해 객체를 기하학(예: 깊이)에서 직접 제거함으로써 강력한 기하학적 제약 하에서 구조를 고려한 편집이 가능하도록 합니다. 두 번째 단계에서는 수정된 3D 기하학을 조건으로 하여 사실적인 RGB 이미지를 렌더링하며, 이 과정에서 수정된 3D 기하학의 결과로 인과적 시각적 효과가 암묵적으로 고려됩니다. 기하학적 제거 단계에서 학습을 안내하기 위해, 우리는 긍정적 및 부정적 샘플 쌍을 기반으로 한 선호도 주도 목적 함수를 도입하여, 새로운 구조적 삽입을 피하면서 객체와 그 인과적 시각적 부산물을 제거하도록 모델을 유도합니다. 광범위한 실험을 통해 우리의 방법이 두 가지 인기 벤치마크에서 객체와 관련된 부산물을 모두 제거하는 데 있어 최첨단 성능을 달성함을 입증했습니다. 코드는 https://github.com/buxiangzhiren/GeoRemover에서 확인할 수 있습니다.