번역이 포함된 일일 선별된 AI 연구 논문
환각(hallucination) 탐지는 대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위한 근본적인 과제로, 특히 사실적 정확성이 요구되는 응용 분야에서 중요합니다. 기존의 환각 벤치마크는 주로 시퀀스 수준에서 작동하며 영어에 국한되어 있어, 포괄적인 평가를 위한 세분화된 다국어 감독이 부족합니다. 본 연구에서는 14개 언어에 걸쳐 스팬(span) 수준의 환각이 주석 처리된 대규모 다국어 데이터셋인 PsiloQA를 소개합니다. PsiloQA는 자동화된 3단계 파이프라인을 통해 구축되었습니다: GPT-4o를 사용하여 위키백사에서 질문-답변 쌍을 생성하고, 컨텍스트가 없는 설정에서 다양한 LLM으로부터 잠재적으로 환각된 답변을 유도하며, GPT-4o를 사용하여 골든 답변과 검색된 컨텍스트를 비교하여 환각된 스팬을 자동으로 주석 처리합니다. 우리는 불확실성 정량화, LLM 기반 태깅, 미세 조정된 인코더 모델 등 다양한 환각 탐지 방법을 평가하고, 인코더 기반 모델이 모든 언어에서 가장 강력한 성능을 보임을 입증합니다. 또한, PsiloQA는 효과적인 교차 언어 일반화를 보여주며 다른 벤치마크로의 견고한 지식 전이를 지원하는 동시에, 인간 주석 데이터셋보다 훨씬 더 비용 효율적입니다. 우리의 데이터셋과 결과는 다국어 환경에서 확장 가능한 세분화된 환각 탐지 기술의 발전에 기여합니다.
최근, 에이전트 강화 학습(Agentic RL)은 웹 에이전트의 다중 턴, 장기적 도구 사용 능력을 촉진하는 데 있어 상당한 진전을 이루었습니다. 주류 에이전트 RL 알고리즘은 엔트로피의 지도 하에 높은 불확실성을 가진 도구 호출 단계를 자율적으로 탐색하지만, 엔트로피 신호에 대한 과도한 의존은 추가적인 제약을 초래하여 학습 붕괴를 유발할 수 있습니다. 본 논문에서는 엔트로피로 인한 문제점을 심층적으로 분석하고, 롤아웃 및 정책 업데이트 단계에서 엔트로피를 균형 있게 조절하기 위해 설계된 에이전트 RL 알고리즘인 Agentic Entropy-Balanced Policy Optimization(AEPO)을 제안합니다. AEPO는 두 가지 핵심 구성 요소로 이루어져 있습니다: (1) 엔트로피 사전 모니터링을 통해 전역 및 분기 샘플링 예산을 적응적으로 할당하고, 연속적인 높은 엔트로피 도구 호출 단계에 분기 패널티를 부과하여 과도한 분기 문제를 방지하는 동적 엔트로피 균형 롤아웃 메커니즘; (2) 높은 엔트로피 클리핑 항목에 스탑 그래디언트 연산을 삽입하여 높은 엔트로피 토큰에 대한 그래디언트를 보존하고 적절히 재조정하며, 높은 불확실성 토큰에 대한 학습을 우선시하기 위해 엔트로피 인식 이점 추정을 통합하는 엔트로피 균형 정책 최적화. 14개의 도전적인 데이터셋에 대한 실험 결과, AEPO는 7개의 주류 RL 알고리즘을 꾸준히 능가하는 성능을 보였습니다. 단 1K RL 샘플로, AEPO를 적용한 Qwen3-14B는 GAIA에서 47.6%, Humanity's Last Exam에서 11.2%, WebWalker에서 43.0%의 Pass@1 성적을 기록했으며, GAIA에서 65.0%, Humanity's Last Exam에서 26.0%, WebWalker에서 70.0%의 Pass@5 성적을 달성했습니다. 추가 분석 결과, AEPO는 안정적인 정책 엔트로피를 유지하면서 롤아웃 샘플링 다양성을 개선하여 확장 가능한 웹 에이전트 학습을 촉진하는 것으로 나타났습니다.
동일성 일관성 생성(identity-consistent generation)은 텍스트-이미지 연구에서 중요한 초점으로 자리 잡았으며, 최근 모델들은 참조 동일성과 일치하는 이미지를 생성하는 데 있어 주목할 만한 성과를 거두고 있습니다. 그러나 동일 인물의 다중 이미지를 포함하는 대규모 짝지어진 데이터셋의 부족으로 인해 대부분의 접근 방식은 재구성 기반 훈련을 채택할 수밖에 없습니다. 이러한 의존성은 종종 '복사-붙여넣기(copy-paste)'라는 실패 모드로 이어지는데, 이는 모델이 포즈, 표정, 조명 등 자연스러운 변화 속에서 동일성을 유지하기보다는 참조 얼굴을 직접 복제하는 현상을 말합니다. 이러한 과도한 유사성은 제어 가능성을 저해하고 생성의 표현력을 제한합니다. 이러한 한계를 해결하기 위해 우리는 (1) 다중 인물 시나리오에 맞춰 각 동일성에 대해 다양한 참조를 제공하는 대규모 짝지어진 데이터셋인 MultiID-2M을 구축하고, (2) 복사-붙여넣기 아티팩트와 동일성 충실도 및 변화 간의 균형을 정량화하는 벤치마크를 도입하며, (3) 짝지어진 데이터를 활용하여 충실도와 다양성 간의 균형을 맞추는 대조적 동일성 손실(contrastive identity loss)을 포함한 새로운 훈련 패러다임을 제안합니다. 이러한 기여를 통해 우리는 확산 기반 모델인 WithAnyone를 개발했으며, 이 모델은 복사-붙여넣기를 효과적으로 완화하면서도 높은 동일성 유사성을 유지합니다. 광범위한 정성적 및 정량적 실험을 통해 WithAnyone가 복사-붙여넣기 아티팩트를 크게 줄이고, 포즈와 표정에 대한 제어 가능성을 향상시키며, 강력한 지각적 품질을 유지함을 입증했습니다. 사용자 연구는 또한 우리의 방법이 높은 동일성 충실도를 달성하면서도 표현력 있는 제어 가능한 생성을 가능하게 함을 검증했습니다.
AI가 수동적인 도구에서 능동적이고 적응적인 동반자로 진화하는 시대에, 우리는 일상 생활에서 선제적이고 실시간으로 지원을 제공할 수 있는 새로운 패러다임인 AI for Service(AI4Service)를 소개합니다. 기존의 AI 서비스는 대부분 반응적이며, 사용자의 명시적인 명령에만 응답합니다. 우리는 진정으로 지능적이고 유용한 어시스턴트는 사용자의 필요를 예측하고 적절한 시기에 능동적으로 행동할 수 있어야 한다고 주장합니다. 이러한 비전을 실현하기 위해, 우리는 두 가지 근본적인 과제를 해결하는 통합 프레임워크인 Alpha-Service를 제안합니다: 첫째, 자기 중심적 비디오 스트림에서 서비스 기회를 감지하여 '언제 개입할지'를 아는 것, 둘째, 일반화된 서비스와 개인화된 서비스를 모두 제공하는 '방법을 아는 것'입니다. 폰 노이만 컴퓨터 아키텍처에서 영감을 받고 AI 안경을 기반으로 한 Alpha-Service는 다섯 가지 핵심 구성 요소로 이루어져 있습니다: 인지를 위한 입력 장치, 작업 스케줄링을 위한 중앙 처리 장치, 도구 활용을 위한 산술 논리 장치, 장기적인 개인화를 위한 메모리 장치, 그리고 자연스러운 인간 상호작용을 위한 출력 장치입니다. 초기 탐구로서, 우리는 AI 안경에 배포된 다중 에이전트 시스템을 통해 Alpha-Service를 구현합니다. 실시간 블랙잭 어드바이저, 박물관 투어 가이드, 쇼핑 피팅 어시스턴트를 포함한 사례 연구는 이 시스템이 환경을 원활하게 인지하고, 사용자의 의도를 추론하며, 명시적인 프롬프트 없이도 적시에 유용한 지원을 제공할 수 있는 능력을 입증합니다.
기존의 모듈형 Vision-Language Models(VLMs)에 대한 대안으로서, 네이티브 VLMs의 구조는 진화하는 모델 아키텍처와 훈련 패러다임에 의해 형성되며 부상하는 경쟁자로 등장했다. 그러나 두 가지 지속적인 문제가 그 광범위한 탐구와 보급에 그림자를 드리우고 있다: (-) 네이티브 VLMs를 모듈형 VLMs와 구분짓는 근본적인 제약은 무엇이며, 이러한 장벽을 어느 정도까지 극복할 수 있는가? (-) 네이티브 VLMs 연구를 더 접근 가능하고 민주화하여 해당 분야의 진전을 가속화할 수 있는 방법은 무엇인가? 본 논문에서는 이러한 도전 과제를 명확히 하고, 네이티브 VLMs 구축을 위한 지침 원칙을 제시한다. 구체적으로, 하나의 네이티브 VLM 기본 요소는 다음을 충족해야 한다: (i) 픽셀과 단어 표현을 공유된 의미 공간 내에서 효과적으로 정렬할 것, (ii) 이전에 분리된 시각 및 언어 모듈의 강점을 원활하게 통합할 것, (iii) 통합된 시각-언어 인코딩, 정렬 및 추론을 지원하는 다양한 교차 모달 특성을 내재적으로 구현할 것. 이에 따라, 우리는 첫 번째 원칙에서 출발하여 구축된 새로운 네이티브 VLMs 패밀리인 NEO를 출시한다. NEO는 다양한 실제 시나리오에서 최고 수준의 모듈형 VLMs와 경쟁할 수 있는 능력을 갖추고 있다. 단 3억 9천만 개의 이미지-텍스트 예제만으로도, NEO는 우리의 정교한 기본 요소로부터 제작된 밀집된 단일 모델 내에서 시각-언어 충돌을 완화하면서 처음부터 시각적 인식을 효율적으로 개발한다. 우리는 NEO를 확장 가능하고 강력한 네이티브 VLMs의 초석으로 위치시키며, 비용 효율적이고 확장 가능한 생태계를 조성하는 풍부한 재사용 가능한 구성 요소 세트와 함께 제공한다. 우리의 코드와 모델은 https://github.com/EvolvingLMMs-Lab/NEO에서 공개적으로 이용 가능하다.
본 보고서에서는 문서 파싱에 특화된 SOTA(State-of-the-Art)이자 자원 효율적인 모델인 PaddleOCR-VL을 제안합니다. 이 모델의 핵심 구성 요소는 PaddleOCR-VL-0.9B로, NaViT 스타일의 동적 해상도 비전 인코더와 ERNIE-4.5-0.3B 언어 모델을 통합한 컴팩트하면서도 강력한 비전-언어 모델(VLM)입니다. 이 혁신적인 모델은 109개 언어를 효율적으로 지원하며 텍스트, 표, 수식, 차트와 같은 복잡한 요소를 정확하게 인식하는 동시에 최소한의 자원을 소비합니다. 널리 사용되는 공개 벤치마크와 내부 벤치마크에 대한 포괄적인 평가를 통해 PaddleOCR-VL은 페이지 수준의 문서 파싱과 요소 수준의 인식 모두에서 SOTA 성능을 달성했습니다. 이 모델은 기존 솔루션을 크게 능가하며, 최상위 VLM과의 강력한 경쟁력을 보여주고 빠른 추론 속도를 제공합니다. 이러한 장점으로 인해 실제 현장에서의 실용적인 배포에 매우 적합합니다.
비디오 생성 모델은 특히 현실적인 시나리오에서 뛰어난 성과를 거두었지만, 상상적인 시나리오에서는 성능이 현저히 저하됩니다. 이러한 프롬프트는 일반적으로 드물게 동시 발생하는 개념과 장거리 의미 관계를 포함하며, 이는 훈련 분포를 벗어나는 경우가 많습니다. 기존 방법들은 주로 비디오 품질을 개선하기 위해 테스트 시간 스케일링을 적용하지만, 고정된 탐색 공간과 정적 보상 설계로 인해 상상적인 시나리오에 대한 적응성이 제한됩니다. 이러한 격차를 메우기 위해, 우리는 프롬프트 기반 적응형 테스트 시간 탐색 전략인 ImagerySearch를 제안합니다. 이 전략은 프롬프트의 의미 관계에 따라 추론 탐색 공간과 보상 함수를 동적으로 조정하여, 도전적인 상상적 설정에서 더 일관되고 시각적으로 그럴듯한 비디오를 생성할 수 있도록 합니다. 이러한 방향으로의 진전을 평가하기 위해, 우리는 장거리 의미 프롬프트를 위한 첫 번째 전용 벤치마크인 LDT-Bench를 소개합니다. 이 벤치마크는 2,839개의 다양한 개념 쌍과 창의적 생성 능력을 평가하기 위한 자동화된 프로토콜로 구성되어 있습니다. 광범위한 실험을 통해 ImagerySearch가 LDT-Bench에서 강력한 비디오 생성 베이스라인과 기존 테스트 시간 스케일링 접근법을 지속적으로 능가하며, VBench에서도 경쟁력 있는 개선을 달성함으로써 다양한 프롬프트 유형에 걸쳐 효과적임을 입증했습니다. 우리는 LDT-Bench와 코드를 공개하여 상상적 비디오 생성에 대한 미래 연구를 촉진할 계획입니다.
본 논문에서는 특정 하위 작업을 위해 기성의 완전 정밀도 대형 언어 모델(LLM, 예: Qwen)을 1.58비트 정밀도(즉, 삼항 가중치 {-1, 0, 1})로 미세 조정하는 경량 파이프라인인 BitNet Distillation(BitDistill)을 제안한다. 이를 통해 최소한의 계산 비용으로 강력한 작업별 성능을 달성한다. 구체적으로, BitDistill은 BitNet에서 소개된 SubLN 모듈, MiniLM을 기반으로 한 다중 헤드 어텐션 디스틸레이션, 그리고 특정 작업에서 미세 조정된 완전 정밀도와 1.58비트 LLM 간의 성능 격차 확장성 문제를 완화하기 위한 중요한 준비 단계로 작용하는 지속적 사전 학습이라는 세 가지 핵심 기술을 통합한다. 실험 결과, BitDistill은 모델 크기에 걸쳐 완전 정밀도 대응 모델과 비슷한 성능을 달성하면서도 최대 10배의 메모리 절약과 CPU에서 2.65배 더 빠른 추론을 가능하게 한다. 코드는 https://github.com/microsoft/BitNet에서 확인할 수 있다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키기 위한 핵심 패러다임으로 부상했습니다. 테스트 시점에서 검증 신호가 부족한 문제를 해결하기 위해, 기존 연구들은 모델의 자체 검증 능력 훈련을 표준 RLVR 프로세스에 통합함으로써 단일 LLM 내에서 추론과 검증 능력을 통합했습니다. 그러나 기존 방식은 두 개의 별도 프롬프트 템플릿을 사용해 해결책과 자체 검증을 순차적으로 생성하도록 요구함으로써 효율성을 크게 저하시켰습니다. 본 연구에서는 자체 검증의 RL 목적 함수에 대한 폐쇄형 해가 놀랍도록 간단한 형태로 축소될 수 있음을 이론적으로 밝혔습니다: 해결책의 진정한 추론 보상은 해당 해결책의 마지막 토큰에서의 자체 보상 점수와 동일하며, 이는 정책 모델이 해결책의 마지막 토큰에서 미리 지정된 토큰에 할당한 다음 토큰 로그 확률과 사전 계산된 상수 간의 차이를 KL 계수로 스케일링한 값으로 계산됩니다. 이러한 통찰을 바탕으로, 우리는 LaSeR(Reinforcement Learning with Last-Token Self-Rewarding) 알고리즘을 제안합니다. 이 알고리즘은 원래의 RLVR 손실에 마지막 토큰 자체 보상 점수와 검증 기반 추론 보상을 정렬하는 MSE 손실을 단순히 추가함으로써 LLM의 추론 및 자체 보상 능력을 공동으로 최적화합니다. 최적화된 자체 보상 점수는 훈련 및 테스트 모두에서 모델 성능을 향상시키는 데 활용될 수 있습니다. 특히, 우리의 알고리즘은 이러한 점수를 생성 직후 마지막 토큰의 예측된 다음 토큰 확률 분포에서 도출함으로써 단 하나의 추가 토큰 추론이라는 최소한의 추가 비용만을 발생시킵니다. 실험 결과, 우리의 방법은 모델의 추론 성능을 향상시킬 뿐만 아니라 놀라운 자체 보상 능력을 부여함으로써 추론 시점의 스케일링 성능을 크게 향상시킴을 보여줍니다.
본 연구는 디퓨전 대형 언어 모델(DLMs)의 키-값(KV) 캐시를 적응적으로 재계산하여 예측 정확도를 극대화하고 디코딩 지연 시간을 최소화하는 방법을 탐구합니다. 기존 방법들의 디코더는 모든 디노이징 단계와 레이어에서 모든 토큰에 대해 QKV를 재계산하지만, 특히 얕은 레이어에서는 KV 상태가 대부분의 단계에서 거의 변하지 않아 상당한 중복이 발생합니다. 우리는 세 가지 관찰을 통해 다음과 같은 사실을 발견했습니다: (1) 멀리 떨어진 {bf MASK} 토큰은 주로 길이 편향으로 작용하며, 활성 예측 창을 넘어 블록 단위로 캐싱할 수 있다; (2) KV 동적성은 깊이에 따라 증가하므로, 더 깊은 레이어부터 선택적으로 갱신하는 것이 충분하다; (3) 가장 많이 주목받는 토큰은 가장 작은 KV 드리프트를 보이며, 이는 다른 토큰에 대한 캐시 변경의 보수적인 하한을 제공한다. 이를 바탕으로, 우리는 {bf Elastic-Cache}를 제안합니다. 이는 학습이 필요 없고 아키텍처에 구애받지 않는 전략으로, {언제} 갱신할지(가장 많이 주목받는 토큰에 대한 주의 기반 드리프트 테스트를 통해)와 {어디서} 갱신할지(선택된 레이어부터 재계산하면서 얕은 레이어 캐시와 창 밖의 MASK 캐시를 재사용하는 깊이 인식 스케줄을 통해)를 공동으로 결정합니다. 고정 주기 방식과 달리, Elastic-Cache는 디퓨전 LLMs를 위해 적응적이고 레이어 인식 캐시 업데이트를 수행하여 중복 계산을 줄이고 디코딩을 가속화하며 생성 품질의 손실을 무시할 수준으로 유지합니다. LLaDA-Instruct, LLaDA-1.5, LLaDA-V에서 수학적 추론 및 코드 생성 작업에 대한 실험은 일관된 속도 향상을 보여줍니다: GSM8K(256 토큰)에서 8.7배, 더 긴 시퀀스에서 45.1배, HumanEval에서 4.8배의 속도 향상을 달성하면서도 기준선보다 더 높은 정확도를 유지합니다. 우리의 방법은 기존의 신뢰도 기반 접근법보다 훨씬 높은 처리량(GSM8K에서 6.8배)을 달성하면서도 생성 품질을 보존하여, 디퓨전 LLMs의 실용적인 배포를 가능하게 합니다.
대형 언어 모델(LLM) 기반 에이전트는 도구 사용을 통해 외부 환경과 상호작용하는 능력을 향상시키기 위해 강화 학습(RL)을 점점 더 많이 훈련받고 있으며, 특히 다중 턴 추론과 지식 습득이 필요한 검색 기반 환경에서 그러하다. 그러나 기존 접근 방식은 일반적으로 최종 답변에서만 제공되는 결과 기반 보상에 의존한다. 이러한 보상 희소성은 긴 궤적으로 인해 두 가지 중요한 문제를 악화시키는 다중 턴 환경에서 특히 문제가 된다: (i) 모든 롤아웃이 동일한 보상을 받아 유용한 학습 신호를 제공하지 않는 이점 붕괴(advantage collapse), 그리고 (ii) 턴 간의 의존성이 모호해지는 세밀한 신용 할당의 부재, 특히 장기적인 작업에서 그러하다. 본 논문에서는 다중 턴 에이전트 훈련을 위한 밀집하고 내재적인 감독을 제공하는 간단하지만 효과적인 RL 프레임워크인 정보 획득 기반 정책 최적화(Information Gain-based Policy Optimization, IGPO)를 제안한다. IGPO는 각 상호작용 턴을 실제 정답에 대한 정보를 점진적으로 획득하는 과정으로 모델링하고, 턴 수준 보상을 정책이 정답을 생성할 확률의 한계 증가로 정의한다. 외부 보상 모델이나 비용이 많이 드는 몬테카를로 추정에 의존하는 기존의 프로세스 수준 보상 접근 방식과 달리, IGPO는 모델 자체의 신념 업데이트에서 직접 내재적 보상을 도출한다. 이러한 내재적 턴 수준 보상은 결과 수준 감독과 결합되어 밀집된 보상 궤적을 형성한다. 도메인 내 및 도메인 외 벤치마크에서의 광범위한 실험을 통해 IGPO가 다중 턴 시나리오에서 강력한 베이스라인을 일관되게 능가하며, 더 높은 정확도와 개선된 샘플 효율성을 달성함을 입증하였다.
코드를 위한 대형 언어 모델(LLMs)은 자연어 텍스트와 프로그래밍 언어 코드가 혼합된 데이터로부터 학습된 바이트 페어 인코딩(BPE)과 같은 서브워드 토크나이저에 의존하지만, 이는 문법보다는 통계에 의해 주도된다. 그 결과, 의미적으로 동일한 코드 조각도 공백이나 식별자 명명과 같은 표면적인 요소에 따라 다르게 토큰화될 수 있다. 이러한 불일치의 영향을 측정하기 위해, 우리는 토큰화만 다른 코드 변형을 생성하기 위해 의미를 보존하는 재작성 규칙을 적용하는 TokDrift 프레임워크를 소개한다. 30B 이상의 매개변수를 가진 대형 모델을 포함한 9개의 코드 LLM에서, 사소한 형식 변경조차도 모델 동작에 상당한 변화를 일으킬 수 있음을 확인했다. 계층별 분석은 이 문제가 초기 임베딩 단계에서 발생하며, 서브워드 분할이 문법 토큰 경계를 제대로 포착하지 못함을 보여준다. 우리의 연구 결과는 신뢰할 수 있는 코드 이해 및 생성을 위한 숨겨진 장애물로 토큰화의 불일치를 지적하며, 향후 코드 LLM을 위한 문법 인식 토큰화의 필요성을 강조한다.
대규모 언어 모델(LLMs)은 텍스트 기반 추론에서 뛰어난 성과를 보여왔지만, 시각적 도움에 본질적으로 의존하는 기하학과 같은 수학적 영역에서는 어려움을 겪습니다. 기존의 시각적 사고 연쇄(VCoT) 접근 방식은 경직된 외부 도구에 제한되거나 복잡한 문제 해결에 필요한 고품질의 전략적 시점의 다이어그램을 생성하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 통합 대규모 다중모달 모델(LMMs)에 본질적인 VCoT 능력을 부여하기 위한 포괄적인 프레임워크인 MathCanvas를 소개합니다. 우리의 접근 방식은 두 단계로 구성됩니다. 첫째, 시각적 조작 단계에서 모델을 새로운 15.2M 쌍의 코퍼스(10M 캡션-다이어그램 쌍(MathCanvas-Imagen)과 5.2M 단계별 편집 트레이젝토리(MathCanvas-Edit))로 사전 학습시켜 다이어그램 생성 및 편집을 숙달하도록 합니다. 둘째, 전략적 시각 보조 추론 단계에서 모델을 219K 예제로 구성된 새로운 데이터셋(MathCanvas-Instruct)으로 미세 조정하여 시각적 도움을 언제 어떻게 활용할지 가르칩니다. 엄격한 평가를 위해, 우리는 모델이 시각-텍스트 혼합 솔루션을 생성해야 하는 3K 문제로 구성된 도전적인 벤치마크인 MathCanvas-Bench를 도입했습니다. 이 프레임워크 하에서 훈련된 우리의 모델, BAGEL-Canvas는 MathCanvas-Bench에서 강력한 LMM 기준선 대비 86%의 상대적 개선을 달성하며, 다른 공개 수학 벤치마크에서도 우수한 일반화 능력을 보여줍니다. 우리의 작업은 LMMs에서 복잡하고 인간과 같은 시각 보조 추론을 가능하게 하는 완전한 툴킷(프레임워크, 데이터셋, 벤치마크)을 제공합니다. 프로젝트 페이지: https://mathcanvas.github.io/
우리는 LLM 브레인 로트 가설(LLM Brain Rot Hypothesis)을 제안하고 검증한다: 지속적인 저질 웹 텍스트 노출이 대형 언어 모델(LLMs)에 지속적인 인지 능력 저하를 유발한다는 가설이다. 데이터 품질의 인과 관계를 분리하기 위해, 실제 트위터/X 코퍼스에 대해 통제된 실험을 실행하며, M1(참여도)과 M2(의미적 품질)라는 두 가지 직교적 조작을 통해 저질 데이터셋과 역통제 데이터셋을 구성하고, 모든 조건에서 토큰 규모와 학습 작업을 일치시켰다. 통제 그룹과 달리, 4개의 LLM을 저질 데이터셋에 대해 지속적으로 사전 학습시키면 추론, 장문 맥락 이해, 안전성에서 비중이 무시할 수 없는 수준의 저하(Hedges' g>0.3)가 발생하며, "어두운 특성"(예: 사이코패스, 나르시시즘)이 증가한다. 저질과 통제 데이터셋의 점진적 혼합도 용량-반응 인지 능력 감소를 초래한다: 예를 들어, M1 하에서 ARC-Challenge with Chain Of Thoughts는 74.9에서 57.2로, RULER-CWE는 84.4에서 52.3으로 저하되며, 이는 저질 비율이 0%에서 100%로 증가함에 따른 것이다. 오류 분석은 몇 가지 중요한 통찰을 제공한다. 첫째, 사고 건너뛰기(thought-skipping)가 주요 손상 요인임을 확인했다: 모델이 점점 더 추론 체인을 생략하거나 건너뛰며, 이는 오류 증가의 대부분을 설명한다. 둘째, 부분적이지만 불완전한 회복이 관찰되었다: 지시 튜닝과 깨끗한 데이터 사전 학습을 확장하면 저하된 인지 능력이 개선되지만, 기준선 능력은 회복되지 않아, 형식 불일치보다는 지속적인 표현적 변화를 시사한다. 마지막으로, 비의미적 지표인 트윗의 인기도가 M1에서 길이보다 브레인 로트 효과를 더 잘 나타내는 지표임을 발견했다. 종합적으로, 이 결과는 데이터 품질이 LLM 능력 저하의 인과적 원인임을 다각적으로 입증하며, 지속적 사전 학습을 위한 큐레이션을 학습 시점의 안전 문제로 재조명하고, 배포된 LLM에 대한 정기적인 "인지 건강 검진"의 필요성을 제기한다.
최근 멀티모달 보상 모델(RMs)의 발전으로 시각적 생성 모델의 사후 훈련이 크게 개선되었습니다. 그러나 현재의 RMs는 본질적인 한계에 직면해 있습니다: (1) 시각적 입력이 큰 컨텍스트 예산을 소모하여 더 적은 프레임을 강제하고 세부적인 디테일의 손실을 초래하며; (2) 모든 시각적 정보가 초기 프롬프트에 집약되어 사고 연쇄 추론 과정에서 환각과 망각을 악화시킵니다. 이러한 문제를 극복하기 위해, 우리는 VideoReward Thinker(VR-Thinker)를 소개합니다. 이는 RM에 시각적 추론 작업(예: 프레임 선택)과 구성 가능한 시각적 메모리 창을 제공하는 이미지와 함께 사고하는 프레임워크입니다. 이를 통해 RM은 컨텍스트 한계 내에서 능동적으로 시각적 증거를 획득하고 업데이트하여 추론의 정확성과 신뢰성을 향상시킵니다. 우리는 강화 학습 미세 조정 파이프라인을 통해 시각적 추론을 활성화합니다: (i) 기본 추론 기술과 작업 형식을 증류하기 위해 선별된 시각적 사고 연쇄 데이터로 콜드 스타트를 수행하고; (ii) 각 차원 및 전체 판단이 모두 정확한 샘플을 선택한 후, 이러한 고품질 추적에 대해 거부 샘플링 미세 조정을 수행하여 추론을 더욱 강화하며; (iii) 그룹 상대 정책 최적화(GRPO)를 적용하여 추론을 강화합니다. 우리의 접근 방식은 비디오 선호 벤치마크에서 오픈소스 모델 중 최첨단 정확도를 제공하며, 특히 더 긴 비디오에서: 7B VR-Thinker는 VideoGen Reward에서 80.5%, GenAI-Bench에서 82.3%, MJ-Bench-Video에서 75.6%를 달성했습니다. 이러한 결과는 이미지와 함께 사고하는 멀티모달 보상 모델링의 효과성과 가능성을 검증합니다.
최근 연구에 따르면, 대규모 언어 모델(LLM)은 은닉 상태(hidden states), 어텐션 가중치(attention weights), 토큰 확률(token probabilities)과 같은 내부 표현에 사실성 신호를 인코딩하고 있으며, 이는 LLM이 "자신이 모르는 것을 알고 있을" 가능성을 시사합니다. 그러나 LLM은 단축 경로(shortcuts)나 허위 연관(spurious associations)에 의존하여 사실 오류를 생성할 수도 있습니다. 이러한 오류는 정확한 예측을 장려하는 동일한 훈련 목표에 의해 발생하며, 내부 계산이 사실과 환각(hallucinated) 출력을 신뢰할 수 있게 구별할 수 있는지에 대한 의문을 제기합니다. 본 연구에서는 주제 정보에 대한 의존도를 기반으로 두 가지 유형의 환각을 비교하여 LLM이 사실적 질의를 내부적으로 어떻게 처리하는지에 대한 기계적 분석을 수행합니다. 우리는 환각이 주제 지식과 연관될 때, LLM이 정답과 동일한 내부 회상 과정을 사용하여 겹치고 구별할 수 없는 은닉 상태 기하학을 생성한다는 것을 발견했습니다. 반면, 주제 지식과 분리된 환각은 구별 가능한 군집화된 표현을 생성하여 이를 탐지할 수 있게 합니다. 이러한 발견은 근본적인 한계를 드러냅니다: LLM은 내부 상태에 진실성을 인코딩하지 않고 단지 지식 회상의 패턴만을 인코딩하며, 이는 "LLM이 자신이 모르는 것을 진정으로 알지 못한다"는 것을 보여줍니다.
현대 정보 검색(IR) 시스템은 단순한 키워드 또는 의미론적 매칭이 아닌 깊은 추론을 요구하는 복잡하고 다면적인 질의에 응답하는 역할을 점점 더 많이 맡고 있다. LLM(Large Language Model) 기반 IR은 큰 잠재력을 보여주고 있지만, 현재 널리 사용되는 검색 후 재순위화(retrieve-then-rerank) 패러다임은 임베딩 기반 검색의 한계를 그대로 물려받고 있다. 또한, 파라미터 기반 생성 접근법은 새로운 정보로 업데이트하기 어렵고, 전체 코퍼스를 컨텍스트에 포함시키는 장문 컨텍스트 방법은 대규모 문서 집합에 대해 계산적으로 실현 불가능하다. 이러한 문제를 해결하기 위해, 우리는 LATTICE를 소개한다. 이는 계층적 검색 프레임워크로, LLM이 대수적 검색 복잡도로 대규모 코퍼스를 추론하고 탐색할 수 있도록 코퍼스에 의미론적 트리 구조를 부여한다. 우리의 접근 방식은 두 단계로 구성된다: (1) 오프라인 단계에서 다단계 요약을 통해 코퍼스를 하향식 분할 전략 또는 상향식 병합 전략을 사용해 의미론적 계층 구조로 조직화하고, (2) 온라인 탐색 단계에서 검색 LLM이 이 트리를 탐색한다. 이러한 LLM 주도 검색에서의 주요 과제는 모델의 관련성 판단이 노이즈가 많고, 컨텍스트에 의존적이며, 계층 구조를 인식하지 못해 다른 분기 및 수준 간 비교가 어렵다는 점이다. 이를 극복하기 위해, 우리는 로컬 LLM 출력에서 보정된 잠재 관련성 점수를 추정하고 이를 전역 경로 관련성 지표로 집계하는 탐색 알고리즘을 제안한다. 우리의 학습이 필요 없는 프레임워크는 추론 집약적인 BRIGHT 벤치마크에서 최신의 제로샷 성능을 달성하며, Recall@100에서 9%, nDCG@10에서 5%의 향상을 보여준다. 또한, 미세 조정된 최신 방법인 DIVER-v2와 비교했을 때, LATTICE는 평가를 위해 정적 코퍼스를 사용하는 BRIGHT 하위 집합에서 비슷한 결과를 얻는다.
대규모 로봇 데이터로 사전 학습된 현재의 시각-언어-행동(VLA) 모델은 강력한 다중 작업 능력을 보여주며, 시각적 및 언어적 조작 지침의 변화에 잘 일반화됩니다. 그러나 이러한 모델은 학습 데이터에 포함되지 않은 객체 개념(예: 데이터셋에서 보지 못한 객체 설명 및 질감)에 직면할 경우 성공률이 크게 떨어집니다. 이를 해결하기 위해, 우리는 OpenVLA를 실행 백본으로 활용하고 웹 검색 및 객체 감지와 같은 외부 모듈을 효과적으로 활용하여 VLA에 대상 객체에 대한 시각적 및 텍스트 지식을 제공하는 새로운 에이전트 프레임워크인 VLA^2를 제안합니다. 이 접근 방식은 분포 외 객체를 처리할 때 발생하는 일반화 실패를 완화합니다. LIBERO 시뮬레이션 환경을 기반으로, 우리는 새로운 객체와 객체 설명을 도입하여 세 가지 난이도로 구성된 새로운 평가 벤치마크를 구축하여 우리 방법의 효과를 테스트했습니다. 우리의 프레임워크는 설계한 하드 레벨 일반화 벤치마크에서 현재 최첨단 모델을 성공적으로 능가했습니다. 독립형 OpenVLA 기준선과 비교하여, VLA^2는 하드 레벨 벤치마크에서 성공률이 44.2% 향상되었으며, 모든 맞춤형 환경에서 평균 20.2%의 개선을 달성했고, 도메인 내 작업에서 성능 저하 없이 이를 실현했습니다. 프로젝트 웹사이트: https://vla-2.github.io.
대규모 언어 모델(LLM)이 점점 더 강력해지고 널리 사용됨에 따라, 그 출력물의 안전성을 보장하는 것이 점점 더 중요해지고 있습니다. 기존의 가드레일 모델은 정적 평가 환경에서는 유용하지만, 실제 응용에서는 두 가지 주요 한계에 직면합니다: (1) 일반적으로 이진 "안전/위험" 레이블만 출력하여 다양한 안전 정책 간에 일관되지 않게 해석될 수 있어, 도메인 간 다양한 안전 허용치를 수용할 수 없으며; (2) 안전 검사를 수행하기 전에 완전한 모델 출력이 필요하므로, 스트리밍 LLM 추론과 근본적으로 호환되지 않아 생성 중에 적시에 개입할 수 없고, 유해한 부분 출력에 대한 노출을 증가시킵니다. 이러한 문제를 해결하기 위해, 우리는 Qwen3Guard를 제안합니다. 이는 두 가지 특화된 변종을 가진 다국어 안전 가드레일 모델 시리즈입니다: 생성형 Qwen3Guard는 안전 분류를 명령 수행 작업으로 변환하여 세분화된 삼중 분류(안전, 논란, 위험)를 가능하게 하며; 스트림 Qwen3Guard는 점진적 텍스트 생성 중 실시간 안전 모니터링을 위한 토큰 수준 분류 헤드를 도입합니다. 두 변종 모두 세 가지 크기(0.6B, 4B, 8B 파라미터)로 제공되며 최대 119개 언어와 방언을 지원하여, 글로벌 LLM 배포를 위한 포괄적이고 확장 가능하며 저지연의 안전 조정을 제공합니다. 영어, 중국어 및 다국어 벤치마크에서 평가된 Qwen3Guard는 프롬프트 및 응답 안전 분류에서 최첨단 성능을 달성합니다. 모든 모델은 Apache 2.0 라이선스 하에 공개되어 누구나 사용할 수 있습니다.
대형 언어 모델은 창의적 글쓰기에서 체계적인 결함을 보이며, 특히 훈련 데이터가 부족하고 프로세스 수준의 감독이 없는 비영어권 환경에서 이러한 문제가 두드러진다. 본 연구에서는 고품질 텍스트를 체계적으로 역공학하여 다양한 출력물과 그에 따른 사고 과정을 포착한 새로운 중국어 창의적 글쓰기 데이터셋인 COIG-Writer를 제안한다. 기존의 입력-출력 쌍만 제공하는 데이터셋과 달리, COIG-Writer는 51개 장르에 걸쳐 1,665개의 세심하게 선별된 삼중항으로 구성되며, 각 삼중항은 (1) 역공학된 프롬프트, (2) 의사결정 과정을 상세히 기록한 창의적 추론, (3) 최종 텍스트를 포함한다. 포괄적인 실험을 통해 창의적 글쓰기의 두 가지 구성 요소를 확인하였다: 서사적 논리(프로세스 감독에 의해 제공됨)와 언어적 표현(일반 목적 데이터에 의해 유지됨). 연구 결과는 세 가지 중요한 통찰을 제공한다: (1) 프로세스 감독은 매우 효과적이지만 일반 데이터와의 안정화가 필요하다. 최적의 성능을 달성하기 위해서는 최소 하나의 창의적 샘플에 대해 열두 개의 일반 샘플이 필요하며, 이 임계값 미만에서는 승률이 점진적으로 감소한다(62.75%에서 35.78%로). (2) 창의적 능력은 문화에 종속되어 있으며 언어 간 전이가 없다(중국어와 영어 성능 간 89.26pp 차이). (3) 어휘 다양성은 창의적 품질과 반비례한다(TTR 역설), 이는 높은 다양성이 논리적 결함에 대한 보상 행동을 나타낸다는 것을 시사한다. 이러한 발견들은 창의적 탁월성이 논리적 구조와 언어적 기반의 상호작용에서 비롯됨을 입증하며, 이는 기초 모델에서 수학적 추론이 언어 능력을 강화하지만 대체할 수 없는 것과 유사하다.
본 연구에서는 두 가지 다른 파라미터 수(17M과 32M)를 가진 mxbai-edge-colbert-v0 모델을 소개한다. 우리는 검색 및 후기 상호작용 모델을 개선하기 위해 다양한 실험을 수행하였으며, 이를 개념 증명을 위한 더 작은 모델로 정제하는 것을 목표로 한다. 우리의 궁극적인 목표는 클라우드에서 운영되는 대규모 검색부터 모든 기기에서 로컬로 실행 가능한 모델에 이르기까지 모든 규모에서의 검색을 지원하는 것이다. mxbai-edge-colbert-v0는 향후 모든 실험을 위한 견고한 기반이 될 것으로 기대되는 모델로, 일련의 소규모 개념 증명의 첫 번째 버전을 대표한다. mxbai-edge-colbert-v0 개발 과정에서 우리는 여러 가지 제거 연구를 수행하였으며, 그 결과를 보고한다. 다운스트림 성능 측면에서 mxbai-edge-colbert-v0는 특히 우수한 소형 모델로, 일반적인 짧은 텍스트 벤치마크(BEIR)에서 ColBERTv2를 능가하며, 장문 맥락 작업에서 전례 없는 효율성으로 큰 진전을 이루었다.
심층 연구(Deep research) -- 수백 개의 실시간 웹 소스에서 정보를 검색하고 종합하여 포괄적이고 인용 기반 보고서를 생성하는 작업 --은 에이전트 시스템의 중요한 전선을 나타냅니다. 이 능력을 엄격하게 평가하기 위해 네 가지 원칙이 필수적입니다: 과제는 (1) 사용자 중심적이어야 하며, 현실적인 정보 요구를 반영해야 하고, (2) 동적이어야 하며, 파라메트릭 지식을 넘어 최신 정보를 요구해야 하며, (3) 명확해야 하며, 사용자 간 일관된 해석을 보장해야 하고, (4) 다면적이고 검색 집중적이어야 하며, 수많은 웹 소스에 대한 검색과 심층 분석을 요구해야 합니다. 기존 벤치마크는 이러한 원칙을 충족하지 못하며, 종종 좁은 도메인에 초점을 맞추거나 모호한 질문을 제시하여 공정한 비교를 방해합니다. 이러한 원칙을 바탕으로, 우리는 LiveResearchBench를 소개합니다. 이는 일상 생활, 기업, 학계를 아우르는 100개의 전문가가 선별한 과제로 구성된 벤치마크로, 각 과제는 광범위하고 동적이며 실시간 웹 검색과 종합을 요구합니다. 1,500시간 이상의 인간 노동을 통해 구축된 LiveResearchBench는 체계적인 평가를 위한 엄격한 기반을 제공합니다. 인용 기반 장문 보고서를 평가하기 위해, 우리는 DeepEval을 도입했습니다. 이는 내용 및 보고서 수준의 품질을 모두 포괄하는 포괄적인 평가 도구로, 커버리지, 프레젠테이션, 인용 정확성 및 연관성, 일관성 및 분석 깊이를 포함합니다. DeepEval은 안정적인 평가와 인간 판단과의 높은 일치를 보장하기 위해 설계된 네 가지 상호 보완적인 평가 프로토콜을 통합합니다. LiveResearchBench와 DeepEval을 사용하여, 우리는 단일 에이전트 웹 검색, 단일 에이전트 심층 연구, 다중 에이전트 시스템을 포함한 17개의 최첨단 심층 연구 시스템에 대한 포괄적인 평가를 수행했습니다. 우리의 분석은 현재의 강점, 반복되는 실패 모드, 그리고 신뢰할 수 있고 통찰력 있는 심층 연구를 발전시키기 위해 필요한 핵심 시스템 구성 요소를 밝혀냈습니다.
현재의 선호도 학습 방법들은 표준 벤치마크에서 높은 정확도를 달성하지만, 객관적 품질 신호가 제거되면 성능이 크게 저하되는 것으로 나타났습니다. 본 연구에서는 8가지 창의적 글쓰기 장르에 걸쳐 1,800개의 인간 주석이 달린 선호도 쌍(영어 1,200개, 중국어 600개)으로 구성된 WritingPreferenceBench 데이터셋을 소개합니다. 이 데이터셋에서는 응답들이 객관적 정확성, 사실적 정확성, 그리고 길이에 맞춰 매칭되었습니다. 이 벤치마크에서 RLHF(Reinforcement Learning from Human Feedback)의 표준 아키텍처인 시퀀스 기반 보상 모델은 평균 52.7%의 정확도를 보였으며, 제로샷 언어 모델 판단자는 53.9%의 성능을 나타냈습니다. 반면, 명시적 추론 체인을 생성하는 생성적 보상 모델은 81.8%의 정확도를 달성했습니다. 우리는 장르 간 모델 내에서 높은 분산을 관찰했는데, 개별 모델들은 다양한 글쓰기 카테고리에서 18.2%에서 81.8%까지의 정확도를 보였으며, 표준 편차는 평균 10.1%였습니다. 이 분산은 모델 규모와 관계없이 지속되었으며, 270억 개 파라미터 모델이 80억 개 파라미터 변형보다 일관된 개선을 보이지 않았습니다. 우리의 결과는 현재의 RLHF 방법들이 주로 객관적 오류를 탐지하는 데 초점을 맞추고 있으며, 주관적 품질 선호도(예: 창의성, 스타일리시한 표현, 감정적 공감)를 포착하는 데는 한계가 있음을 시사합니다. 또한, 성공적인 선호도 모델링은 직접적인 분류보다는 중간 추론 표현이 필요할 수 있음을 보여줍니다.
우리는 인코더별 특수 훈련 없이도 모든 해상도의 비전 특징에 적용 가능한 특징 업샘플링 방법인 AnyUp을 소개한다. DINO나 CLIP과 같은 특징을 위한 기존의 학습 기반 업샘플러들은 각 특징 추출기마다 재훈련이 필요하며, 이로 인해 추론 시 다양한 특징 유형으로 일반화되지 못한다. 본 연구에서는 이러한 한계를 완화하고 업샘플링 품질을 개선하기 위해 추론 시 특징에 구애받지 않는 업샘플링 아키텍처를 제안한다. 실험 결과, AnyUp은 업샘플링된 특징에 대해 새로운 최첨단 기술을 제시하며, 다양한 특징 유형으로 일반화되고, 특징 의미를 보존하면서도 효율적이고 광범위한 다운스트림 작업에 쉽게 적용할 수 있음을 보여준다.
복잡한 기계의 설계는 인간 지능의 표지이자 공학 실무의 기초로 자리 잡고 있습니다. 최근 대규모 언어 모델(LLM)의 발전을 고려할 때, 이들도 창조를 배울 수 있는지에 대한 질문을 제기합니다. 우리는 이 질문을 구성적 기계 설계의 관점에서 접근합니다: 이는 표준화된 부품들을 조립하여 시뮬레이션된 물리적 환경에서 이동이나 조작과 같은 기능적 요구를 충족시키는 기계를 만드는 작업입니다. 이를 지원하기 위해, 우리는 부품 기반 구성, 물리적 시뮬레이션, 그리고 보상 기반 평가를 가능하게 하는 기계 제작 게임 Besiege를 기반으로 한 테스트베드인 BesiegeField를 소개합니다. BesiegeField를 사용하여, 우리는 에이전트 워크플로우를 통해 최신 LLM을 벤치마킹하고, 공간 추론, 전략적 조립, 지시 따르기와 같은 성공에 필요한 핵심 능력을 식별합니다. 현재의 오픈소스 모델들이 부족한 점을 고려하여, 우리는 강화 학습(RL)을 개선의 경로로 탐구합니다: 콜드 스타트 데이터셋을 정제하고, RL 미세 조정 실험을 수행하며, 언어, 기계 설계, 물리적 추론의 교차점에서의 열린 과제들을 강조합니다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시켜 왔습니다. 그러나 현재의 RLVR 방법론은 탐색보다는 활용에 체계적인 편향을 보이며, 이는 pass@1 성능은 개선되지만 pass@K(K>1) 성능은 감소하는 것으로 나타났습니다. 이 문제를 이해하기 위해, 우리는 RLVR 방법론의 학습 동역학을 어휘 후보군에 대한 토큰 수준의 확률 분포를 추적하여 분석했습니다. 우리의 분석은 상위 1위 후보가 점점 더 많은 확률 질량을 축적하고 다른 후보들의 확률을 억제하는 일관된 확률 집중 효과를 보여주었습니다. 더 중요한 것은, 이러한 과도한 집중이 pass@K 성능 저하와 상관관계가 있다는 점입니다. 이러한 발견에 영감을 받아, 우리는 과도한 집중 문제를 완화하고 탐색을 촉진하기 위한 Simple Pass@K Optimization(SimKO) 방법을 제안합니다. SimKO는 비대칭적인 방식으로 작동합니다. 검증된 정답 응답에 대해서는 상위 K개 후보의 확률을 높이고, 검증된 오답 응답에 대해서는 상위 1위 후보에 더 강한 패널티를 적용합니다. 우리는 이러한 비대칭 설계가 특히 높은 엔트로피를 가진 토큰에 적용될 때 과도한 집중을 완화하는 데 효과적임을 관찰했습니다. 다양한 수학 및 논리 추론 벤치마크에서 SimKO는 넓은 범위의 K에 대해 일관되게 더 높은 pass@K 성능을 제공하며, RLVR의 탐색을 개선하는 간단한 방법을 제시합니다.
비전-언어-행동(Vision-Language-Action, VLA) 모델은 빠르게 발전하고 있으며 로봇 조작 작업에서 유망한 능력을 보여주고 있다. 그러나 VLA 모델의 규모 확장에는 몇 가지 중요한 과제가 존재한다: (1) 새로운 VLA 모델을 처음부터 학습시키기 위해서는 상당한 계산 자원과 방대한 데이터셋이 필요하다. 현재 로봇 데이터가 부족한 상황에서, 규모 확장 과정에서 사전 학습된 VLA 모델의 가중치를 완전히 활용하는 것이 특히 중요하다. (2) 실시간 제어를 위해서는 모델의 용량과 계산 효율성을 신중하게 균형 잡아야 한다. 이러한 과제를 해결하기 위해, 우리는 사전 학습된 밀집 VLA 모델의 가중치를 상속하고, 피드포워드 레이어를 희소 활성화된 MoE(Mixture-of-Experts) 레이어로 대체하여 행동 전문가를 확장하는 AdaMoE라는 MoE 아키텍처를 제안한다. AdaMoE는 기존의 라우터와 함께 독립적인 스케일 어댑터를 통해 전문가 선택과 전문가 가중치를 분리하는 디커플링 기법을 사용한다. 이를 통해 작업 관련성을 기반으로 전문가를 선택하면서도 독립적으로 조절된 가중치로 기여할 수 있게 하여, 승자 독식 방식이 아닌 협력적인 전문가 활용을 가능하게 한다. 우리의 접근 방식은 전문성이 독점될 필요가 없음을 보여준다. 대신, 협력적인 전문가 활용을 통해 계산 효율성을 유지하면서도 우수한 성능을 달성할 수 있다. AdaMoE는 주요 벤치마크에서 기준 모델을 지속적으로 능가하며, LIBERO에서 1.8%, RoboTwin에서 9.3%의 성능 향상을 보여준다. 무엇보다도, 실제 실험에서 21.5%의 상당한 개선은 로봇 조작 작업에서의 실질적인 효과를 입증한다.
비전-언어-행동 모델(VLAs)은 범용 로봇 조작을 가능하게 하는 데 있어 엄청난 잠재력을 가지고 있습니다. 그러나 이를 구축하는 최선의 방법은 여전히 미해결된 문제로 남아 있습니다. 현재의 접근 방식들은 종종 복잡성을 더하는데, 예를 들어 비전-언어 모델(VLM)의 기존 어휘에 행동 토큰을 추가하거나 특수한 행동 헤드를 도입하는 방식이 있습니다. 흥미롭게도, 행동을 직접 텍스트로 표현하는 가장 단순한 전략은 크게 탐구되지 않았습니다. 본 연구는 이러한 아이디어를 탐구하기 위해 VLA-0을 소개합니다. 우리는 VLA-0이 효과적일 뿐만 아니라 놀라울 정도로 강력하다는 사실을 발견했습니다. 적절한 설계를 통해 VLA-0은 더 복잡한 모델들을 능가합니다. VLAs를 평가하는 데 널리 사용되는 벤치마크인 LIBERO에서, VLA-0은 동일한 로봇 데이터로 훈련된 모든 기존 방법들, 즉 pi_0.5-KI, OpenVLA-OFT 및 SmolVLA을 능가했습니다. 더 나아가, 대규모 로봇 특화 훈련 없이도, VLA-0은 대규모 로봇 데이터로 훈련된 pi_0.5-KI, pi_0, GR00T-N1 및 MolmoAct와 같은 방법들을 능가했습니다. 이러한 결과는 실제 세계에서도 적용되며, VLA-0은 대규모 실제 데이터로 사전 훈련된 VLA 모델인 SmolVLA을 능가합니다. 본 논문은 이러한 예상치 못한 발견을 요약하고, 이 단순하지만 강력한 VLA 설계의 고성능을 발휘하기 위해 필요한 구체적인 기술들을 설명합니다. 시각적 결과, 코드 및 훈련된 모델은 다음 링크에서 제공됩니다: https://vla0.github.io/.
대형 언어 모델(LLMs)은 자동화된 머신러닝 연구 에이전트에 대한 관심을 크게 불러일으켰습니다. 특히, 아이디어를 자율적으로 제안하고 머신러닝 실험을 수행할 수 있는 에이전트는 연구 자동화를 극대화하고 실험 결과를 바탕으로 아이디어를 반복적으로 개선함으로써 과학적 진전을 가속화할 수 있어 매우 유망합니다. 그러나 이러한 에이전트를 포괄적으로 평가하는 것은 여전히 어려운 과제입니다. 기존 벤치마크는 엔지니어링 측면을 과도하게 강조하는 반면 학문적 엄격성을 소홀히 하여, 머신러닝 연구에서 에이전트의 과학적 역량을 명확히 평가하는 데 장벽이 되고 있습니다. 또한, 제한된 작업 다양성, 근본적인 연구 문제보다 응용 지향적 작업에 대한 과도한 강조, 그리고 현실적인 연구 환경으로의 확장성 부족 등의 문제를 안고 있습니다. 이러한 한계를 해결하기 위해, 우리는 8가지 다양한 근본적인 머신러닝 연구 문제에 대해 자동화된 머신러닝 연구 에이전트를 평가하기 위해 설계된 벤치마크인 FML-bench를 소개합니다. 이 벤치마크는 코딩 부담을 줄이고, 특정 사용 사례보다 근본적인 문제를 강조하며, 높은 작업 다양성을 제공하며, 실제 머신러닝 GitHub 저장소로 확장 가능합니다. 또한, 우리는 벤치마크에서 에이전트 성능을 포괄적으로 평가하기 위해 설계된 5가지 상호 보완적인 지표를 포함한 통합 평가 프레임워크를 제시합니다. 우리는 FML-bench에서 최신 자동화 연구 에이전트를 평가했으며, 광범위한 연구 탐색 전략을 사용하는 에이전트가 좁지만 깊은 탐색에 초점을 맞추는 에이전트보다 더 우수한 성능을 보인다는 것을 발견했습니다. 이러한 결과는 점진적인 개선에만 초점을 맞추는 것보다 탐색의 폭을 강조하는 것이 더 효과적인 연구 결과를 이끌어낼 수 있음을 시사합니다. 우리의 벤치마크는 https://github.com/qrzou/FML-bench에서 확인할 수 있습니다.
몇 단계 확산 또는 흐름 기반 생성 모델은 일반적으로 속도를 예측하는 교사 모델을 노이즈 제거된 데이터로의 지름길을 예측하는 학생 모델로 증류합니다. 이러한 형식 불일치로 인해 복잡한 증류 절차가 필요하며, 이는 종종 품질과 다양성 간의 트레이드오프를 겪게 됩니다. 이를 해결하기 위해, 우리는 정책 기반 흐름 모델(pi-Flow)을 제안합니다. pi-Flow는 학생 흐름 모델의 출력 계층을 수정하여 한 타임스텝에서 네트워크 없는 정책을 예측하도록 합니다. 이 정책은 미래의 하위 단계에서 동적 흐름 속도를 생성하며, 이는 추가 네트워크 평가 없이도 빠르고 정확한 ODE 통합을 가능하게 합니다. 정책의 ODE 궤적을 교사의 궤적과 일치시키기 위해, 우리는 새로운 모방 증류 접근법을 도입했습니다. 이 접근법은 정책의 궤적을 따라 정책의 속도를 교사의 속도와 일치시키기 위해 표준 ell_2 흐름 매칭 손실을 사용합니다. 단순히 교사의 행동을 모방함으로써, pi-Flow는 안정적이고 확장 가능한 훈련을 가능하게 하며 품질과 다양성 간의 트레이드오프를 피합니다. ImageNet 256^2에서, pi-Flow는 1-NFE FID 2.85를 달성하여 동일한 DiT 아키텍처의 MeanFlow를 능가합니다. FLUX.1-12B와 Qwen-Image-20B에서 4 NFEs로, pi-Flow는 최신 몇 단계 방법들보다 훨씬 더 나은 다양성을 달성하면서도 교사 수준의 품질을 유지합니다.
다단계 추론은 복잡한 문제를 순차적인 하위 단계로 분해함으로써 소규모 언어 모델의 추론 능력을 향상시키는 효과적인 전략으로 부상했다. 그러나 이는 지연 시간 증가라는 비용을 수반한다. 우리는 기존의 적응형 가속 기술들, 예를 들어 레이어 생략이 두 가지 주요 문제로 인해 이 설정에서 효율성과 정확성의 균형을 맞추는 데 어려움을 겪고 있음을 관찰했다: (1) 단계별 생략 민감도의 변동성, 그리고 (2) 불필요한 출력 토큰의 생성. 이를 해결하기 위해, 우리는 다단계 추론을 위한 지연 시간 인식 레이어 생략 프레임워크인 LiteStage를 제안한다. LiteStage는 최적의 레이어 예산을 할당하는 단계별 오프라인 탐색과 불필요한 디코딩을 억제하기 위한 온라인 신뢰도 기반 조기 종료를 결합한다. OBQA, CSQA, StrategyQA 등 세 가지 벤치마크에서의 실험 결과, LiteStage는 4.0% 미만의 정확도 손실로 최대 1.70배의 속도 향상을 달성하며, 기존의 학습 없이 적용 가능한 레이어 생략 방법들을 능가하는 성능을 보였다.
시각적 콘텐츠 생성과 3D 재구성을 위한 대규모 사전 학습 모델의 급속한 발전은 텍스트-3D 생성에 새로운 가능성을 열어주고 있다. 직관적으로, 현대적인 잠재적 텍스트-비디오 모델을 "생성기"로, 최신 (순방향) 3D 재구성 시스템의 기하학적 능력을 "디코더"로 결합할 수 있다면 강력한 3D 장면 생성기를 얻을 수 있을 것이다. 우리는 이러한 작업을 수행하며 두 가지 주요 과제를 해결하는 일반적인 프레임워크인 VIST3A를 소개한다. 첫째, 두 구성 요소는 각각의 가중치에 인코딩된 풍부한 지식을 보존하는 방식으로 결합되어야 한다. 우리는 모델 스티칭을 재검토하여, 텍스트-비디오 생성기가 생성한 잠재 표현과 가장 잘 일치하는 3D 디코더의 레이어를 식별하고 두 부분을 스티칭한다. 이 작업은 소규모 데이터셋만 필요하며 레이블이 필요하지 않다. 둘째, 텍스트-비디오 생성기는 스티칭된 3D 디코더와 정렬되어야 하며, 생성된 잠재 표현이 일관되고 지각적으로 설득력 있는 3D 장면 기하학으로 디코딩될 수 있도록 해야 한다. 이를 위해, 인간 선호도 정렬에 널리 사용되는 직접 보정 미세 조정 기법을 적용한다. 우리는 제안된 VIST3A 접근법을 다양한 비디오 생성기와 3D 재구성 모델로 평가한다. 테스트된 모든 조합은 가우시안 스플랫을 출력하는 기존의 텍스트-3D 모델보다 현저히 개선된 성능을 보인다. 또한, 적절한 3D 기본 모델을 선택함으로써 VIST3A는 고품질의 텍스트-포인트맵 생성도 가능하게 한다.
최근 이미지 편집 모델들은 자연어 편집 지시를 따르며 인상적인 결과를 달성했지만, 이는 대규모 입력-대상 쌍 데이터셋을 활용한 지도 학습 미세 조정에 의존합니다. 이는 자연적으로 발생하는 이러한 쌍을 대규모로 구축하기 어렵다는 점에서 중요한 병목 현상으로 작용합니다. 현재의 해결책은 기존 모델의 제로샷 능력을 활용한 합성 학습 쌍을 사용하지만, 이는 사전 학습된 모델의 아티팩트를 최종 학습 모델로 전파하고 증폭시킬 수 있습니다. 본 연구에서는 쌍 데이터의 필요성을 완전히 제거한 새로운 학습 패러다임을 제시합니다. 우리의 접근 방식은 학습 중에 몇 단계의 확산 모델을 펼쳐 시각-언어 모델(VLM)의 피드백을 활용하여 직접 최적화합니다. 각 입력과 편집 지시에 대해 VLM은 편집이 지시를 따르고 변경되지 않은 콘텐츠를 보존하는지 평가하며, 이를 통해 엔드투엔드 최적화를 위한 직접적인 그래디언트를 제공합니다. 시각적 충실도를 보장하기 위해, 사전 학습된 모델이 학습한 이미지 매니폴드 내에 생성된 이미지가 유지되도록 분포 매칭 손실(DMD)을 통합합니다. 우리는 표준 벤치마크에서 이 방법을 평가하고 광범위한 절제 연구를 포함합니다. 쌍 데이터 없이도, 우리의 방법은 대규모 지도 학습 쌍 데이터로 학습된 다양한 이미지 편집 확산 모델과 몇 단계 설정에서 동등한 성능을 보입니다. 동일한 VLM을 보상 모델로 사용할 때, 우리는 Flow-GRPO와 같은 RL 기반 기술도 능가합니다.
비디오 생성 모델은 최근 합성 품질 측면에서 주목할 만한 발전을 이루었습니다. 그러나 복잡한 동작을 생성하는 것은 여전히 중요한 과제로 남아 있으며, 기존 모델들은 자연스럽고 부드럽며 문맥적으로 일관된 움직임을 생성하는 데 어려움을 겪고 있습니다. 생성된 동작과 실제 동작 간의 이러한 격차는 모델의 실용적 적용 가능성을 제한합니다. 이 문제를 해결하기 위해, 우리는 실제 데이터를 선호 학습의 긍정적 샘플로 활용하여 보다 정확한 동작 합성을 가능하게 하는 새로운 정렬 패러다임인 RealDPO를 소개합니다. 제한된 수정 피드백만 제공하는 전통적인 지도 미세 조정(SFT)과 달리, RealDPO는 맞춤형 손실 함수를 사용한 직접 선호 최적화(DPO)를 통해 동작의 현실감을 향상시킵니다. 실제 비디오와 모델의 오류 출력을 대조함으로써, RealDPO는 반복적인 자기 수정을 가능하게 하여 동작 품질을 점진적으로 개선합니다. 복잡한 동작 합성을 위한 사후 학습을 지원하기 위해, 우리는 인간의 일상 활동을 풍부하고 정밀한 동작 세부 사항과 함께 담은 고품질 비디오 데이터셋인 RealAction-5K를 제안합니다. 광범위한 실험을 통해 RealDPO가 최첨단 모델 및 기존 선호 최적화 기술에 비해 비디오 품질, 텍스트 정렬, 동작 현실감을 크게 향상시킨다는 것을 입증했습니다.
대규모 언어 모델 개발은 대규모 훈련 코퍼스에 의존하지만, 대부분의 데이터는 라이선스 상태가 명확하지 않아 진정한 오픈 모델의 개발을 제한하고 있습니다. 이 문제는 비영어권 언어에서 더욱 심각한데, 공개적으로 라이선스된 텍스트가 여전히 극도로 부족하기 때문입니다. 본 연구에서는 지금까지 가장 큰 규모의 공개 라이선스 독일어 텍스트 컬렉션인 'German Commons'를 소개합니다. 이 컬렉션은 법률, 과학, 문화, 정치, 뉴스, 경제, 웹 텍스트 등 7개 도메인에 걸쳐 41개의 출처에서 데이터를 수집하였습니다. 검증 가능한 라이선스를 가진 기존 데이터 제공자로부터 체계적으로 수집함으로써, 언어 모델 훈련을 위한 고품질의 텍스트 1545억 6천만 토큰을 확보하였습니다. 우리의 처리 파이프라인은 포괄적인 품질 필터링, 중복 제거, 텍스트 포맷 수정을 구현하여 이질적인 텍스트 출처 간의 일관된 품질을 보장합니다. 모든 도메인 하위 집합은 최소 CC-BY-SA 4.0 또는 이에 상응하는 라이선스를 갖추고 있어, 모델 훈련 및 재배포에 대한 법적 준수를 보장합니다. 따라서 'German Commons'는 공개 라이선스 독일어 사전 훈련 데이터의 중요한 공백을 해소하고, 진정한 오픈 독일어 언어 모델의 개발을 가능하게 합니다. 또한, 독일어 텍스트에 맞춰진 코퍼스 구축 및 데이터 필터링 코드를 공개하여 'German Commons'를 완전히 재현 가능하고 확장 가능하도록 하였습니다.
순환 깊이(Recurrent Depth)를 가진 언어 모델, 특히 트랜스포머(Transformer)의 경우 루프(Looped) 또는 유니버설(Universal)로도 불리며, 이는 레이어의 반복을 통해 계산량을 증가시킬 수 있는 능력으로 정의됩니다. 최근의 사전 학습 연구에서 이러한 아키텍처가 현대 언어 모델링 작업에 확장 가능하며, 특히 추론 작업에서 장점을 보인다는 것이 입증되었습니다. 본 연구에서는 순환 깊이 모델과 확산 언어 모델(Diffusion Language Model) 간의 관계를 탐구합니다. 이들의 유사성을 바탕으로, 이러한 모델을 위한 새로운 확산 강제 샘플러(Diffusion Forcing Sampler)를 개발하여 생성 속도를 가속화합니다. 이 샘플러는 모델의 순방향 전달(Forward Pass)마다 새로운 토큰을 디코딩하면서, 이러한 토큰의 잠재 상태(Latent State)를 순환을 통해 병렬적으로 추가적으로 개선할 수 있습니다. 이론적으로, 우리의 샘플러를 사용한 생성은 동일한 시간 예산 내에서 기존의 자기회귀(Autoregressive) 생성 방식보다 엄밀히 더 표현력이 뛰어납니다. 또한, 이 샘플러는 확산 이론(Diffusion Literature)의 원칙에 기반하여 기존의 3.5B 규모 순환 깊이 트랜스포머에 별도의 튜닝 없이 바로 적용할 수 있으며, 최대 5배의 속도 향상을 이끌어냅니다. 결과적으로, 우리의 연구 결과는 순환 깊이 모델에서 추가적인 계산을 추론 시 병렬화하는 효율적인 메커니즘을 제공할 뿐만 아니라, 이러한 모델이 강력한 연속적이면서도 인과적(Causal) 확산 언어 모델로 자연스럽게 해석될 수 있음을 시사합니다.
훈련 분포를 넘어선 체계적이고 구성적인 일반화는 여전히 기계 학습의 핵심 과제이며, 현대 언어 모델의 등장하는 추론 능력에 있어 중요한 병목 현상으로 남아 있다. 본 연구는 GSM8K 스타일의 모듈러 산술을 계산 그래프 작업에 적용하여 Transformer 네트워크의 분포 외 일반화(out-of-distribution, OOD)를 조사한다. 우리는 OOD 일반화를 강화하기 위한 네 가지 구조적 메커니즘을 소개하고 탐구한다: (i) 입력-적응적 반복성; (ii) 알고리즘적 감독; (iii) 이산 병목을 통한 고정된 잠재 표현; 그리고 (iv) 명시적 오류 수정 메커니즘. 이러한 메커니즘들은 Transformer 네트워크에서 강력한 알고리즘적 일반화 능력을 갖춘 기본적이고 확장 가능한 잠재 공간 추론을 위한 구조적 접근 방식을 제공한다. 우리는 이러한 실험적 결과를 보완하기 위해, 이러한 메커니즘이 어떻게 강력한 OOD 일반화 능력을 발생시키는지 밝히는 상세한 기계적 해석 가능성 분석을 수행한다.
디지털 에이전트가 실제 세계의 다양한 작업에 일반화하기 위해서는 대규모의 다양한 UI 궤적 데이터가 필요하지만, 이러한 데이터를 수집하는 것은 인간 주석, 인프라 및 엔지니어링 측면에서 매우 비용이 많이 듭니다. 이를 위해 우리는 UI-Simulator를 소개합니다. 이는 구조화된 UI 상태와 전이를 생성하여 대규모로 훈련 궤적을 합성할 수 있는 확장 가능한 패러다임입니다. 우리의 패러다임은 다양한 UI 상태를 위한 디지털 세계 시뮬레이터, 일관된 탐색을 위한 가이드된 롤아웃 프로세스, 그리고 에이전트 훈련을 위한 고품질의 다양한 궤적을 생성하는 궤적 래퍼를 통합합니다. 또한, 우리는 UI-Simulator-Grow를 제안합니다. 이는 고영향 작업을 우선시하고 정보성이 높은 궤적 변형을 합성함으로써 더 빠르고 데이터 효율적인 확장을 가능하게 하는 전략입니다. WebArena와 AndroidWorld에서의 실험 결과, UI-Simulator는 실제 UI에서 훈련된 오픈소스 에이전트를 능가하거나 동등한 성능을 보이며, 더 나은 견고성을 보였습니다. 또한, UI-Simulator-Grow는 Llama-3-8B-Instruct를 기본 모델로 사용하면서도 Llama-3-70B-Instruct의 성능을 따라잡아, 목표 합성 확장 패러다임이 디지털 에이전트를 지속적이고 효율적으로 향상시킬 수 있는 잠재력을 강조합니다.
영어와 같은 접촉 언어는 방언 형태로 풍부한 지역적 변이를 보이며, 이러한 방언은 생성 모델과 상호작용하는 방언 사용자들에 의해 종종 사용된다. 그러나 다중모드 생성 모델이 방언적 텍스트 입력을 주어졌을 때 효과적으로 콘텐츠를 생성할 수 있을까? 본 연구에서는 이 질문을 탐구하기 위해 여섯 가지 일반적인 영어 방언을 아우르는 새로운 대규모 벤치마크를 구축하였다. 방언 사용자들과 협력하여 4200개 이상의 고유한 프롬프트를 수집 및 검증하고, 17개의 이미지 및 비디오 생성 모델을 평가하였다. 자동 및 인간 평가 결과에 따르면, 현재 최첨단 다중모드 생성 모델들은 프롬프트에 단일 방언 단어가 사용될 경우 32.26%에서 48.17%의 성능 저하를 보인다. 미세 조정 및 프롬프트 재작성과 같은 일반적인 완화 방법은 방언 성능을 소폭 개선(< 7%)할 수 있지만, 표준 미국 영어(SAE)에서의 성능 저하를 초래할 가능성이 있다. 이를 위해, 우리는 다중모드 생성 모델을 위한 일반적인 인코더 기반 완화 전략을 설계하였다. 우리의 방법은 모델이 새로운 방언 특징을 인식하도록 가르치면서 SAE 성능을 보존한다. Stable Diffusion 1.5과 같은 모델에 대한 실험 결과, 우리의 방법은 SAE 성능에 거의 영향을 미치지 않으면서(+0%), 다섯 가지 방언에서의 성능을 SAE 수준으로 동시에 향상시킬 수 있음을 보여준다(+34.4%).
리포지토리 수준의 사전 학습은 대형 언어 모델이 코드베이스 전체의 문맥을 활용할 수 있도록 하는 데 흔히 사용됩니다. 이를 통해 모델은 정확하고 문맥을 고려한 코드 완성 능력을 향상시킬 수 있습니다. 본 연구에서는 15억 개의 파라미터를 가진 OpenCoder 모델에서 다양한 리포지토리 처리 전략이 문맥 내 학습에 미치는 영향을 조사합니다. 우리는 추가로 10억 개의 토큰으로 구성된 정제된 리포지토리 수준 데이터를 학습시켜 모델의 문맥 창을 4,096에서 16,384 토큰으로 확장했습니다. 경쟁 모델들(종종 수천억 개의 토큰을 사용)보다 작은 데이터셋에 의존함에도 불구하고, 우리의 모델은 Long Code Arena 벤치마크에서 비슷한 성능을 달성했습니다. 다양한 리포지토리 처리 기법이 비슷하게 강력한 결과를 보였으며, 주요 성능 향상은 새로운 회전 위치 임베딩(RoPE) 스케일링 파라미터에 적응함으로써 얻어졌음을 발견했습니다. 마지막으로, 원래의 시퀀스 길이에서 더 간단한 파일 수준의 학습 접근법이 여전히 매우 효과적임을 보여줌으로써, 데이터와 컴퓨팅 자원이 더 제한된 환경에서도 리포지토리 수준의 코드 완성 연구를 가능하게 합니다.
테스트 타임 스케일링은 복잡한 추론 작업에서 대규모 언어 모델의 성능을 향상시키는 강력한 전략입니다. 최첨단 접근법들은 종종 생성형 검증기를 사용하여 후보 풀에서 최적의 해결책을 선택하지만, 이 방법은 과도한 계산 비용을 초래하여 실용성을 제한합니다. 본 연구에서는 더 예산 친화적인 패러다임인 판별형 검증에 초점을 맞춥니다. 우리는 철저한 실증 분석을 수행하고, 판별형 검증기가 단독으로는 성능이 떨어질 수 있지만, 이를 자기 일관성과 결합한 하이브리드 접근법이 강력하고 효율적인 테스트 타임 스케일링 메커니즘을 만든다는 것을 입증했습니다. 특히, 고정된 계산 예산 하에서 이 하이브리드 접근법은 최첨단 생성형 검증을 상당한 차이로 능가하며, AIME2025에서 최대 15.3% 더 높은 정확도를 달성했습니다. 우리의 연구 결과는 실용적인 실제 응용 프로그램에서 판별형 검증기를 사용한 예산 친화적 스케일링이 자기 일관성에 비해 "무료" 업그레이드일 뿐만 아니라, 비용이 많이 드는 생성형 기술보다 더 효과적이고 효율적인 대안임을 입증합니다. 코드는 https://github.com/wang-research-lab/verification에서 확인할 수 있습니다.
근접한 인간 간 상호작용 자세는 상호작용 역학에 대한 풍부한 맥락적 정보를 전달합니다. 이러한 자세가 주어졌을 때, 인간은 인간 행동에 대한 강력한 사전 지식을 바탕으로 맥락을 직관적으로 추론하고 가능한 과거 및 미래의 역학을 예측할 수 있습니다. 이러한 관찰에서 영감을 받아, 우리는 다재다능한 상호작용 애니메이션을 위한 근접 상호작용 자세에 기반한 간단한 프레임워크인 Ponimator를 제안합니다. 우리의 훈련 데이터는 모션 캡처 상호작용 데이터셋에서 추출한 밀접한 접촉 상태의 두 사람 자세와 그 주변의 시간적 맥락으로 구성됩니다. 상호작용 자세의 사전 지식을 활용하여, Ponimator는 두 가지 조건부 확산 모델을 사용합니다: (1) 시간적 사전 지식을 사용하여 상호작용 자세로부터 동적 모션 시퀀스를 생성하는 자세 애니메이터, 그리고 (2) 공간적 사전 지식을 적용하여 단일 자세, 텍스트, 또는 둘 다로부터 상호작용 자세를 합성하는 자세 생성기. Ponimator는 이미지 기반 상호작용 애니메이션, 반응 애니메이션, 텍스트-투-상호작용 합성 등 다양한 작업을 지원하며, 고품질 모션 캡처 데이터에서 오픈 월드 시나리오로 상호작용 지식을 전이하는 것을 용이하게 합니다. 다양한 데이터셋과 애플리케이션에 걸친 실험적 연구는 자세 사전 지식의 보편성과 우리 프레임워크의 효과성 및 견고성을 입증합니다.
스케일링 법칙은 모델 크기, 훈련 데이터, 컴퓨팅 자원과 같은 설계 요소를 크로스 엔트로피 손실과 같은 상위 지표와 연결함으로써 대규모 언어 모델에 대한 우리의 이해를 혁신적으로 변화시켰습니다. 그러나 이러한 기존의 법칙은 문맥이 중요한 역할을 하는 하위 작업 성능을 포착하지 못합니다. 본 연구에서는 훈련에 투입된 컴퓨팅 자원과 제공된 문맥의 함수로 하위 작업 성능을 공동으로 모델링하는 직관적이고 해석 가능한 프레임워크를 제안합니다. 우리는 Llama-2-7B와 Llama-2-13B의 확장 문맥 변형 모델을 산술 추론, 상식 추론, 기계 번역 등 세 가지 작업에 걸쳐 65,500개의 고유한 인스턴스에서 관찰된 하위 작업 성능에 이 프레임워크를 적용하여 실증적으로 검증했습니다. 우리의 결과는 이 프레임워크가 분포 내 하위 작업 성능을 정확하게 모델링하고, 훈련 컴퓨팅 자원의 세 배수에 걸쳐 일반화하며, 문맥 양이 증가함에 따라 성능을 신뢰성 있게 외삽할 수 있음을 보여줍니다. 이러한 발견은 훈련 컴퓨팅 자원과 문맥 활용 간의 상호작용에 대한 귀중한 통찰을 제공하며, 다양한 하위 작업을 위한 더 효율적인 장문맥 LLM 설계에 대한 지침을 제시합니다. 우리의 코드는 https://github.com/wang-research-lab/context-scaling에서 확인할 수 있습니다.
웹 기반 '심층 연구' 에이전트는 온라인 도구와의 장기적 상호작용을 통해 복잡한 질문-응답 작업을 해결하는 것을 목표로 합니다. 이러한 작업은 여전히 도전적인 과제로 남아 있는데, 이는 기본 언어 모델들이 장기적 추론과 탐색에 최적화되어 있지 않기 때문입니다. 기존 연구에서는 주로 지식 그래프를 활용하여 지시 튜닝 데이터셋을 구성하는 워크플로우를 제안해 왔습니다. 그러나 이러한 방법들은 일반적으로 난이도와 품질에 대한 세밀한 통제가 부족하여, 장기적 추론에 필요한 복잡성을 충분히 반영하지 못하는 합성 데이터를 생성하는 한계가 있습니다. 더욱이, 많은 연구들이 서로 다른 최적화 레시피로 훈련된 모델들을 비교함으로써 데이터와 훈련 효과를 혼동하여, 데이터 자체의 효과를 분리하여 평가하기 어렵게 만듭니다. 우리는 작업 복잡성을 점진적으로 증가시켜 프론티어 기준 웹 에이전트가 실패할 때까지 질문-응답 쌍을 생성하는 이중 데이터 합성 파이프라인을 소개합니다. 이 과정에서 기준 에이전트는 여러 역할을 수행합니다: 질문을 시도하고, 사실성을 검증하며, 대체 답변을 확인하고, 필터링을 강제합니다. 우리의 합성 방법의 효과를 평가하기 위해, 강력한 웹 에이전트로부터의 지식 증류를 기반으로 한 통제된 훈련 설정을 채택합니다. 여러 웹 기반 벤치마크에서의 실험 결과, 우리의 데이터셋은 더 작은 규모임에도 불구하고 기존 데이터셋보다 더 효과적인 웹 에이전트 훈련을 가능하게 합니다. 특히, 우리의 데이터는 도구 사용 행동에서 두 배의 다양성을 보여주어, 이를 통해 훈련된 모델들이 반복적인 도구 호출 행동을 피하면서 더 강력한 성능을 달성할 수 있게 합니다.
기존의 RAG(Retrieval-Augmented Generation) 패러다임은 일반적으로 수신된 질의에 대한 응답으로 관련 텍스트 청크를 이해하는 데 초점을 맞추고 있어, 지식 내재화의 깊이와 추론 능력에 본질적인 한계를 지니고 있습니다. 이러한 한계를 해결하기 위해, 본 연구는 RAG의 텍스트 처리를 수동적인 청킹에서 능동적인 이해로 전환하며, 이 과정을 문서 메모리 추출로 정의하여 인간의 인지 과정을 모방하는 것을 목표로 합니다. 이를 기반으로, 우리는 다중 도메인의 문서를 효율적으로 처리하고 소형 언어 모델(SLM)이 능동적으로 문서 메모리를 탐색하고 구축할 수 있는 능력을 습득하도록 설계된 시나리오 인식 문서 메모리 혼합(MoM) 프레임워크를 제안합니다. MoM은 먼저 대형 언어 모델(LLM)이 도메인 전문가를 시뮬레이션하여 문서의 논리적 개요를 생성하도록 지시함으로써 구조화된 청킹과 핵심 내용 추출을 유도합니다. 또한, 다중 경로 샘플링 및 다중 관점 평가 메커니즘을 활용하여 청크 명확성과 추출 완전성을 대표하는 포괄적인 메트릭을 설계하여 최적의 문서 메모리를 선택합니다. 더 나아가, SLM 훈련 중에 더 깊은 인간과 유사한 독해 능력을 주입하기 위해, 고품질 결과에서 정제된 전문가 사고 경로를 추론하는 역추론 전략을 도입합니다. 마지막으로, MoM이 생성한 다양한 형태의 콘텐츠를 활용하여 확률 모델링 관점에서 이론적으로 입증된 3계층 문서 메모리 검색 메커니즘을 개발합니다. 세 가지 다른 도메인에서 수행된 광범위한 실험 결과는 MoM 프레임워크가 기존 RAG 시스템의 텍스트 청킹 문제를 해결하고 LLM에 의미적으로 완전한 문서 메모리를 제공할 뿐만 아니라, SLM이 인간 중심의 지능형 텍스트 처리를 달성할 수 있는 길을 열어준다는 것을 보여줍니다.
정확한 변형을 포착하면서도 계산 효율성을 유지하는 데 어려움이 있어, 추적 및 새로운 시점 합성을 위한 지속적인 동적 장면 모델링은 여전히 어려운 과제로 남아 있다. 본 연구에서는 동적 장면에서 3D 가우시안 스플래팅의 구조적 패턴을 활용하는 계단형 최적화 프레임워크인 SCas4D를 제안한다. 핵심 아이디어는 실제 세계의 변형이 종종 계층적 패턴을 보이며, 가우시안 그룹이 유사한 변환을 공유한다는 것이다. SCas4D는 거친 부위 수준에서 세밀한 점 수준으로 변형을 점진적으로 개선함으로써, 시간 프레임당 100회 이내의 반복으로 수렴을 달성하며, 기존 방법과 비슷한 결과를 단지 1/20의 학습 반복으로 생성한다. 또한, 이 접근법은 자기 지도 방식의 관절 객체 분할, 새로운 시점 합성, 그리고 밀집 점 추적 작업에서도 효과적임을 입증한다.
대형 언어 모델(LLMs)은 점점 더 역할 수행 에이전트로 사용되고 있지만, 버전별 캐릭터(예: 코믹스와 영화 세계관에 걸친 슈퍼히어로)를 충실하고 일관되게 표현하는 능력은 아직 충분히 탐구되지 않았다. 마블과 DC와 같은 슈퍼히어로 캐논은 풍부한 테스트베드를 제공한다: 수십 년에 걸친 스토리텔링은 동일한 캐릭터의 다양한 버전을 만들어냈으며, 각각은 독특한 역사, 가치관, 도덕적 규범을 지니고 있다. 이 문제를 연구하기 위해, 우리는 30명의 상징적인 히어로와 90개의 캐논별 버전을 아우르는 캐릭터 기반 역할극 벤치마크인 "Beyond One World"를 소개한다. 이 벤치마크는 두 가지 과제로 구성된다: (i) 캐논 이벤트(Canon Events), 이는 주요 생애 단계에 대한 사실적 회상을 탐구하며, (ii) 도덕적 딜레마(Moral Dilemmas), 이는 모델을 윤리적으로 복잡한 시나리오에 직면하게 한다. 우리는 내부 고민("생각")과 외부 결정("행동")을 구분하는 프레임워크 하에서 응답의 캐논 정확성과 추론 충실도를 평가한다. 또한, 이유와 행동 간의 일치를 정량화하고 모델 신뢰성의 대리 지표로 작용하는 "Think-Act Matching" 메트릭을 제안한다. 추론 지향적 및 비추론 지향적 모델을 대상으로 한 실험은 세 가지 주요 결과를 도출했다: (1) 사고의 연쇄(chain-of-thought) 프롬프트는 약한 모델에서 내러티브 일관성을 개선하지만, 강한 모델에서는 캐논 정확성을 감소시킬 수 있다; (2) 한 캐릭터 내에서의 버전 간 일반화는 여전히 주요 장애물로 남아 있다; (3) 모델은 종종 "생각" 또는 "행동" 중 하나에서 뛰어나지만, 둘 다에서 뛰어난 경우는 드물다. "Beyond One World"는 다중 세계관 일관성과 추론 정렬에서의 중요한 격차를 드러내며, 역할극 LLMs에 대한 도전적인 평가를 제공한다.
RAG 시스템에서 언어 모델이 결함이 있는 문맥을 기반으로 선택적으로 답변을 거부하는 능력은 안전을 위해 중요하지만, 여전히 주요 실패 지점으로 남아 있습니다. 우리의 대규모 연구에 따르면, 최첨단 모델들조차도 이러한 설정에서 어려움을 겪으며, 다중 문서 작업에서 거부 정확도가 50% 미만으로 떨어지고, 위험한 과신 또는 지나친 신중함을 보이는 것으로 나타났습니다. 정적 벤치마크는 모델이 데이터셋 특이적 아티팩트를 이용하고 테스트 사례를 암기하기 때문에 이 능력을 신뢰성 있게 평가하지 못합니다. 우리는 RefusalBench을 도입하여, 통제된 언어적 변형을 통해 프로그래밍적으로 진단 테스트 케이스를 생성하는 방법론을 제시합니다. 우리의 프레임워크는 정보적 불확실성의 여섯 가지 범주와 세 가지 강도 수준에 걸쳐 176개의 독특한 변형 전략을 사용합니다. 30개 이상의 모델을 평가한 결과, 체계적인 실패 패턴이 발견되었습니다: 거부는 탐지와 분류 기술로 분리 가능하며, 규모나 확장된 추론도 성능을 개선하지 못했습니다. 우리는 선택적 거부가 훈련 가능하고 정렬에 민감한 능력임을 발견했으며, 이를 개선할 수 있는 명확한 경로를 제시합니다. 우리는 이 중요한 능력을 지속적이고 동적으로 평가할 수 있도록 두 가지 벤치마크 -- RefusalBench-NQ(단일 문서)와 RefusalBench-GaRAGe(다중 문서) -- 그리고 전체 생성 프레임워크를 공개합니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 외부 정보를 동적으로 검색함으로써 대형 언어 모델(Large Language Models, LLMs)의 주요 한계점—사실 오류, 구식 지식, 환각 등—을 완화합니다. 최근 연구에서는 LLM이 에이전트로 작동하여 복잡한 질의를 반복적으로 계획, 검색, 추론하는 에이전트 기반 RAG 시스템을 통해 이 패러다임을 확장하고 있습니다. 그러나 이러한 시스템은 여전히 다중 홉(multi-hop) 질문에 어려움을 겪으며, 중간 단계의 추론 능력은 충분히 탐구되지 않고 있습니다. 이를 해결하기 위해, 우리는 에이전트 기반 RAG 워크플로우의 중간 작업을 세밀하게 평가하기 위한 능력 중심 벤치마크인 RAGCap-Bench를 제안합니다. 최신 시스템의 출력을 분석하여 일반적인 작업과 이를 실행하는 데 필요한 핵심 능력을 식별한 후, LLM의 전형적인 오류에 대한 분류 체계를 구축하여 타겟 평가 질문을 설계합니다. 실험 결과, RAGCap 성능이 더 강력한 "느린 사고(slow-thinking)" 모델이 종단 간(end-to-end) 결과에서 더 나은 성과를 보이며, 이 벤치마크의 타당성과 이러한 중간 능력 강화의 중요성을 입증합니다.
프로세스 보상 모델(Process Reward Models, PRMs)은 중간 단계를 감독하고 오류를 식별함으로써 대규모 언어 모델(Large Language Models, LLMs)의 다단계 추론을 개선하는 것을 목표로 합니다. 그러나 확장 가능하고 고품질의 주석이 부족하여 효과적인 PRM을 구축하는 것은 여전히 어려운 과제로 남아 있습니다. 기존 접근 방식은 비용이 많이 드는 인간 라벨링, 환각(hallucination)에 취약한 LLM 기반 자기 평가, 또는 롤아웃 결과만으로 단계 품질을 추론하는 몬테카를로(Monte Carlo, MC) 추정에 의존합니다. 이러한 방법들은 신용 오인으로 인해 잡음이 많고 잘못 정렬된 감독을 초래하는 경우가 많습니다. 이러한 문제는 세 가지 핵심 한계를 초래합니다: 잡음이 많은 보상, 낮은 사실적 충실도, 그리고 단계 수준 추론 목표와의 불일치입니다. 이러한 과제를 해결하기 위해, 우리는 자동 프로세스 감독을 위한 트리 기반 및 충실도 인식 프레임워크인 GroundedPRM을 소개합니다. 보상 잡음을 줄이고 세밀한 신용 할당을 가능하게 하기 위해, 우리는 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 통해 구조화된 추론 경로를 구축합니다. 환각된 감독을 제거하기 위해, 외부 도구를 사용하여 각 중간 단계를 검증하고 실행 기반의 정확성 신호를 제공합니다. 단계 수준 검증과 전역 결과 평가를 결합하기 위해, 도구 기반 검증과 MCTS에서 도출된 피드백을 융합하는 하이브리드 보상 집계 메커니즘을 설계합니다. 마지막으로, 보상 신호를 해석 가능하고 명령어 튜닝된 LLM과 호환되도록 합리적으로 강화된 생성 구조로 포맷팅합니다. GroundedPRM은 자동으로 라벨링된 40K 샘플만으로 훈련되며, 이는 자동 라벨링 감독으로 훈련된 최고 성능의 PRM이 사용한 데이터의 10%에 불과합니다. 그럼에도 불구하고, GroundedPRM은 ProcessBench에서 평균 성능이 최대 26% 상대적으로 개선되었습니다. 보안 가이드 탐색에 사용될 때, GroundedPRM은 인간 라벨링 감독으로 훈련된 PRM을 능가하며, 고품질 프로세스 수준 추론을 위한 확장 가능하고 검증 가능한 경로를 제공합니다.
추측 디코딩(Speculative Decoding)은 드래프트 모델을 사용하여 미리 살펴봄으로써 LLM 추론을 가속화하지만, 이득은 자기회귀적 드래프트 생성 비용에 의해 제한됩니다: 드래프트 크기를 늘리면 수용률이 증가하지만 추가 지연 오버헤드가 발생하여 속도-정확도 트레이드오프를 악화시킵니다. 기존 방법들(Medusa, Hydra, EAGLE)은 부분적으로 드래프트 비용을 줄이지만 수용률을 저하시키거나 확장을 제한하는 오버헤드를 도입합니다. 우리는 지연-수용 트레이드오프를 깨는 추론 알고리즘인 미러 추측 디코딩(Mirror-SD)을 제시합니다. Mirror-SD는 타겟 모델의 접미사와 병렬로 조기 종료 신호에서 분기 완료 롤아웃을 시작하고, 이기종 가속기(GPU와 NPU) 간의 계산을 명시적으로 매핑하여 크로스 디바이스 병렬성을 활용합니다. 드래프트는 타겟이 검증할 수 있는 앞선 연속성을 추측하는 반면, 타겟은 동시에 드래프트를 위한 수정 경로를 추측하여 추측을 두 개의 상호 보완적인 실행 파이프라인으로 변환합니다. 수용 의미론을 약화시키지 않으면서 드래프트 지연을 더욱 줄이기 위해, 우리는 드래프트가 단계당 여러 토큰을 방출하는 추측 스트리밍을 추가합니다. 이 병렬 이기종 실행과 다중 토큰 추측 스트리밍의 이중 전략은 추측 디코딩을 높은 수용률과 낮은 오버헤드의 이상적인 영역으로 밀어붙입니다. 14B에서 66B 파라미터의 서버 규모 모델을 사용한 SpecBench에서, Mirror-SD는 일관된 엔드투엔드 이득을 제공하며 다양한 작업에서 2.8x-5.8x의 벽 시간 속도 향상을 달성하고, 가장 강력한 베이스라인인 EAGLE3 대비 평균 30%의 상대적 개선을 보여줍니다.