번역이 포함된 일일 선별된 AI 연구 논문
테스트 시간 스케일링은 성능을 향상시키기 위해 추가 테스트 시간 컴퓨팅을 사용하는 언어 모델링에 대한 유망한 새로운 접근 방식입니다. 최근 OpenAI의 o1 모델은 이 능력을 보여주었지만 방법론을 공개하지 않아 많은 복제 노력이 이루어졌습니다. 우리는 테스트 시간 스케일링과 강력한 추론 성능을 달성하기 위한 가장 간단한 접근 방식을 찾고 있습니다. 먼저, 우리는 난이도, 다양성 및 품질을 의존하는 추론 트레이스와 함께 1,000개의 질문으로 구성된 작은 데이터셋 s1K를 선별합니다. 두 번째로, 모델이 종료하려고 할 때 "기다리기"를 여러 번 추가하여 모델의 생성을 연장하거나 강제로 종료시켜 테스트 시간 컴퓨팅을 제어하기 위한 예산 강제 기법을 개발합니다. 이는 모델이 답변을 다시 확인하도록 유도하여 종종 잘못된 추론 단계를 수정할 수 있습니다. s1K에서 Qwen2.5-32B-Instruct 언어 모델을 지도 미세 조정한 후 예산 강제 기법을 적용하면, 우리의 모델 s1은 경쟁 수학 문제에서 o1-preview보다 최대 27% (MATH 및 AIME24)까지 우수한 성과를 보입니다. 더불어, 예산 강제 기법을 사용하여 s1을 확장하면 테스트 시간 개입 없이 성능을 예측할 수 있습니다: AIME24에서 50%에서 57%까지. 우리의 모델, 데이터 및 코드는 https://github.com/simplescaling/s1에서 오픈 소스로 제공됩니다.
우리는 대규모 언어 모델(LLM)에서 추론 효율성을 향상시키기 위한 혁신적인 프레임워크인 Reward-Guided Speculative Decoding (RSD)를 소개합니다. RSD는 가벼운 초안 모델과 강력한 목표 모델을 시너지적으로 결합하여 높은 보상을 우선시하는 제어된 편향을 통합합니다. 기존의 엄격한 무편향성을 강요하는 추론 디코딩 방법과 대조적으로 RSD는 중간 디코딩 단계를 평가하고 목표 모델을 호출할지 동적으로 결정하는 프로세스 보상 모델을 활용하여 계산 비용과 출력 품질 사이의 트레이드오프를 최적화합니다. 우리는 임계값 기반 혼합 전략이 자원 활용과 성능 사이의 최적 균형을 달성한다는 이론적 증명을 제시합니다. 올림피아드 수준의 과제를 포함한 어려운 추론 벤치마크에서의 광범위한 평가 결과, RSD가 목표 모델만 사용하는 디코딩에 비해 상당한 효율성 향상을 제공함을 보여줍니다(최대 4.4배의 FLOPs 절감), 동시 디코딩 방법보다 평균적으로 더 나은 정확도를 달성합니다(최대 +3.5). 이러한 결과는 RSD가 자원 집약적 시나리오에서 LLM을 배포하는 강력하고 비용 효율적인 접근 방식으로 부각시킨다.
보조 없는 인간 비디오 매팅 방법은 입력 프레임에만 의존하는데, 종종 복잡하거나 모호한 배경에서 어려움을 겪습니다. 이를 해결하기 위해 우리는 대상 지정 비디오 매팅에 특화된 견고한 프레임워크인 MatAnyone을 제안합니다. 구체적으로, 메모리 기반 패러다임을 기반으로하여, 우리는 이전 프레임에서 메모리를 적응적으로 통합하는 일관된 메모리 전파 모듈을 도입합니다. 이는 핵심 영역에서 의미론적 안정성을 보장하면서 객체 경계를 따라 세부적인 세부 사항을 보존합니다. 견고한 훈련을 위해 우리는 비디오 매팅을 위한 더 크고 고품질, 다양한 데이터셋을 제시합니다. 게다가 대규모 분할 데이터를 효율적으로 활용하는 새로운 훈련 전략을 통합하여 매팅 안정성을 향상시킵니다. 이 새로운 네트워크 디자인, 데이터셋 및 훈련 전략으로 MatAnyone은 다양한 현실 세계 시나리오에서 견고하고 정확한 비디오 매팅 결과를 제공하여 기존 방법을 능가합니다.
지식 그래프(Knowledge Graph, KG) 구조와 자연 언어 간의 간극이 존재하기 때문에, KG의 전체적인 구조 정보를 대형 언어 모델(Large Language Models, LLMs)과 효과적으로 통합하는 것이 중요한 문제로 부상했습니다. 이를 위해 우리는 각 엔티티에 대한 양자화된 코드를 학습하고 적용하기 위한 이차적인 프레임워크를 제안합니다. 먼저, 자가 지도 학습 양자화 표현(Self-Supervised Quantized Representation, SSQR) 방법을 제안하여 KG 구조적 및 의미적 지식을 언어 문장 형식에 일치시키는 이산 코드(즉, 토큰)로 압축합니다. 이후, 이러한 학습된 코드를 LLMs에 직접 입력할 기능으로 보고 KG 지시 따르기 데이터를 설계하여 원활한 통합을 달성합니다. 실험 결과는 SSQR이 기존의 비지도 학습 양자화 방법을 능가하며, 더욱 구별력 있는 코드를 생성한다는 것을 보여줍니다. 더불어, 세밀하게 조정된 LLaMA2 및 LLaMA3.1은 기존의 프롬프팅 방법에서 수천 개의 토큰 대신 각 엔티티 당 단지 16개의 토큰을 활용하여 KG 링크 예측 및 트리플 분류 작업에서 우수한 성능을 보입니다.
소프트맥스 함수에 의해 출력된 벡터의 최대 요소는 입력 벡터 크기가 증가함에 따라 접근하는 값이 제로에 가까워집니다. 트랜스포머 기반 언어 모델은 어텐션 점수를 계산하기 위해 소프트맥스를 활용하는데, 이로 인해 컨텍스트 크기가 커질수록 어텐션 분포가 평탄해지게 됩니다. 이는 모델이 핵심 정보를 효과적으로 우선순위를 매기는 능력을 감소시키고 길이 일반화를 제한할 수 있습니다. 이 문제를 해결하기 위해 우리는 입력 벡터 크기가 다양한 경우 소프트맥스를 대체하는 Scalable-Softmax (SSMax)를 제안합니다. SSMax는 기존의 트랜스포머 기반 아키텍처에 매끄럽게 통합될 수 있습니다. 언어 모델링에서의 실험 결과는 SSMax를 사용하는 모델이 사전 훈련 중 손실 감소 속도가 빨라지는 것뿐만 아니라 긴 컨텍스트와 핵심 정보 검색에서 성능이 크게 향상되는 것을 보여줍니다. 또한 어텐션 점수 분석 결과, SSMax를 사용하면 모델이 긴 컨텍스트에서도 핵심 정보에 집중할 수 있게 됩니다. 게다가, 사전 훈련 시작부터 SSMax를 사용하는 모델이 더 나은 길이 일반화를 달성하지만, 이미 사전 훈련을 시작한 모델은 사전 훈련 중이나 이후에 어텐션 레이어에서 소프트맥스를 SSMax로 대체함으로써 이 능력의 일부를 획들할 수 있습니다.
기존의 기반 모델은 일반적으로 시각적 입력을 픽셀로, 텍스트 입력을 토큰으로 처리하는데, 이는 인간의 지각과 대조적이다. 인간은 두 가지 모드를 통합된 방식으로 처리하는 반면, 신체화된 그리고 주체적인 AI가 부상함에 따라 입력이 주로 카메라 픽셀에서 나오는 경우, 통합된 지각 프레임워크의 필요성이 점점 더 명백해지고 있다. 본 논문에서는 모든 모드(텍스트, 테이블, 코드, 다이어그램, 이미지 등)를 픽셀 입력으로 통합하는 "모든 것을 픽셀로 인식" (PEAP)을 제안한다. 우리는 PixelWorld를 소개하는데, 이는 기존 모델의 성능을 측정하기 위해 모든 언급된 모드를 픽셀 공간으로 통합하는 혁신적인 평가 스위트이다. 우리의 연구 결과는 다음과 같다: (1) PEAP은 다중 모달 데이터셋에서 토큰 기반 입력과 비교하여 우수한 성과를 보이며, 더 나은 모호성 해소를 위해 통합된 입력을 활용한다. (2) 픽셀 기반 입력 처리 시 모든 모델에서 추론 및 코딩 능력이 상당히 감소하며, 기반 모델의 지각 능력을 향상시킬 필요성을 강조한다. (3) 대형 모델은 PEAP에서 비추론 작업에 대해 강력한 성능을 유지할 수 있지만, Phi-3.5-V와 같은 작은 모델은 상당한 성능 하락을 겪는다. (4) PEAP의 주의 집중 패턴은 텍스트 토큰 입력과 매우 일치한다. (5) PEAP는 공간 희소성을 활용하여 크게 가속화될 수 있다. 우리는 기존의 선두 모델이 픽셀 지각에서 유능하다고 결론 내리지만, 아직 개선할 여지가 있다. 우리의 코드와 데이터셋은 승인 후에 공개될 것이다.
제어 조작을 고려할 때 미래 결과를 예측하는 능력은 물리적 추론에 기본적입니다. 그러나 이러한 예측 모델인 종종 세계 모델이라고 불리는 것은 학습하기 어려워서 온라인 정책 학습을 위해 주로 개발되는 작업별 솔루션에 대한 도전을 겪고 있습니다. 우리는 세계 모델의 진정한 잠재력이 다양한 문제를 오로지 수동 데이터만을 사용하여 추론하고 계획하는 능력에 있다고 주장합니다. 구체적으로, 우리는 세계 모델이 다음 세 가지 특성을 가져야 한다고 주장합니다: 1) 오프라인으로 사전 수집된 경로에서 훈련 가능해야 합니다, 2) 테스트 시간 동작 최적화를 지원해야 하며, 3) 작업에 중립적인 추론을 용이하게 해야 합니다. 이를 실현하기 위해, 우리는 시각적 동역학을 모델링하는 새로운 방법인 DINO World Model (DINO-WM)을 제안합니다. DINO-WM은 시각적 세계를 재구성하지 않고 DINOv2로 사전 훈련된 공간 패치 특징을 활용하여 오프라인 행동 경로에서 미래 패치 특징을 예측함으로써 학습할 수 있습니다. 이 설계는 DINO-WM이 행동 순서 최적화를 통해 관측 목표를 달성하고, 원하는 목표 패치 특징을 예측 대상으로 취급하여 작업에 중립적인 행동 계획을 용이하게 합니다. 우리는 미로 탐색, 탁상 밀기, 입자 조작을 포함한 다양한 도메인에서 DINO-WM을 평가합니다. 우리의 실험은 DINO-WM이 전문가 데모, 보상 모델링 또는 사전 학습된 역 모델에 의존하지 않고 테스트 시간에 제로샷 행동 솔루션을 생성할 수 있음을 보여줍니다. 특히, DINO-WM은 다양한 작업군에 적응하여 임의로 구성된 미로, 다양한 물체 모양으로 밀기 조작, 다중 입자 시나리오와 같은 작업군에 대해 강력한 일반화 능력을 나타냅니다.
대형 언어 모델 (LLMs)은 보안을 우회하고 사용자가 대규모로 불법 물질을 생산하는 등 많은 모델 상호작용이 필요한 유해한 프로세스를 수행할 수 있도록 하는 보안 장치를 체계적으로 우회하는 전체 탈옥 프롬프트 전략에 취약합니다. 이러한 공격에 대응하기 위해 우리는 헌법 분류기를 소개합니다: 합법적 및 제한적 콘텐츠를 지정하는 자연어 규칙 (즉, 헌법)을 사용하여 LLMs에 프롬프트하여 생성된 합성 데이터로 훈련된 보안 장치입니다. 3,000시간 이상의 레드팀 테스팅에서, 어떤 레드팀원도 초기 분류기로 보호된 LLM에서 대부분의 대상 쿼리에 대해 무방비 모델과 유사한 수준의 세부 정보를 추출할 수 있는 전체 탈옥을 찾지 못했습니다. 자동 평가에서, 향상된 분류기는 보유된 도메인 특정 탈옥에 대해 견고한 방어 능력을 보여주었습니다. 이러한 분류기는 배포 가능성을 유지하며, 생산 트래픽 거부율이 절대적으로 0.38% 증가하고 추론 오버헤드가 23.7% 증가합니다. 우리의 연구는 실용적인 배포 가능성을 유지하면서 전체 탈옥에 대응하는 것이 해결 가능함을 보여줍니다.
확산 모델은 강력하지만 때로 해로운 또는 원치 않는 콘텐츠를 생성할 수 있어 중요한 윤리적 및 안전 문제를 제기할 수 있습니다. 최근의 기계 언러닝 접근 방식은 잠재적인 해결책을 제공하지만 종종 투명성이 부족하여 기본 모델에 도입되는 변경 사항을 이해하기 어렵게 만듭니다. 본 연구에서는 SAeUron이라는 새로운 방법을 소개합니다. 이 방법은 텍스트-이미지 확산 모델에서 원치 않는 개념을 제거하기 위해 희소 오토인코더(SAEs)에서 학습한 특징을 활용합니다. 먼저, 우리는 확산 모델의 여러 노이즈 제거 타임스텝에서 활성화된 SAEs를 비지도 학습 방식으로 훈련시킨 후, 특정 개념에 해당하는 희소하고 해석 가능한 특징을 포착한다는 것을 증명합니다. 이를 기반으로, 모델 활성화에 정교한 개입을 가능하게 하는 특징 선택 방법을 제안합니다. 이 방법은 특정 콘텐츠를 차단하면서 전반적인 성능을 유지하는 것을 가능하게 합니다. 객체 및 스타일 언러닝에 대한 경쟁력 있는 UnlearnCanvas 벤치마크를 통한 평가는 SAeUron의 최첨단 성능을 강조합니다. 더불어, 우리는 단일 SAE로 여러 개념을 동시에 제거할 수 있으며, 다른 방법과는 달리 SAeUron은 적대적 공격에도 원치 않는 콘텐츠 생성 가능성을 완화시킵니다. 코드 및 체크포인트는 다음 링크에서 확인할 수 있습니다: https://github.com/cywinski/SAeUron.
대규모 모델 훈련을 위한 학습률 스케줄이 부드럽지 않은 볼록 최적화 이론의 성능 한계와 놀랍도록 유사하게 작동하는 것을 보여줍니다. 우리는 선형 쿨다운을 가진 상수 스케줄에 대한 한계를 제시합니다. 특히, 쿨다운의 실용적 이점은 로그항이 없어서 한계에 반영됩니다. 더 나아가 최적화 이론과 실무 간 놀랍도록 밀접한 일치가 학습률 조정에 활용될 수 있음을 보여줍니다: 우리는 최적 학습률로 지속적 훈련을 위한 스케줄을 확장하고, 최적 학습률을 스케줄 간 전이함으로써 124M 및 210M Llama 유형 모델의 훈련에서 현저한 개선을 달성합니다.
희소한 포즈 이미지로부터의 3D 장면 재구성을 위한 현재 방법은 신경장, 복셀 그리드 또는 3D 가우시안과 같은 중간 3D 표현을 활용하여 다중 뷰 일관된 장면 외관과 기하학을 달성합니다. 본 논문에서는 임의의 입력 뷰의 이미지 및 깊이 맵을 직접 픽셀 수준에서 생성할 수 있는 확산 기반 아키텍처인 MVGD를 소개합니다. 우리의 방법은 레이맵 조건부를 사용하여 시각적 특징을 다양한 시점의 공간 정보로 보강하고, 또한 새로운 시점에서의 이미지 및 깊이 맵 생성을 안내합니다. 우리 접근법의 중요한 측면은 이미지 및 깊이 맵의 다중 작업 생성으로, 학습 가능한 작업 임베딩을 사용하여 확산 프로세스를 특정 모달리티로 안내합니다. 우리는 이 모델을 공개 데이터셋의 6천만 개 이상의 다중 뷰 샘플 컬렉션에서 훈련하고, 이러한 다양한 조건에서 효율적이고 일관된 학습을 가능하게 하는 기술을 제안합니다. 또한 더 큰 모델의 효율적인 훈련을 가능하게 하는 새로운 전략을 제안하며, 작은 모델을 점진적으로 세밀하게 조정함으로써 유망한 스케일링 행동을 보고합니다. 광범위한 실험을 통해, 우리는 새로운 뷰 합성 벤치마크 및 다중 뷰 스테레오 및 비디오 깊이 추정에서 최첨단 결과를 보고합니다.
우리는 추론 모델(구체적으로 OpenAI o1-preview 및 o1-mini)의 적대적 공격에 대한 견고성에 미치는 추론 시간 컴퓨팅 증가의 영향에 대한 실험을 수행합니다. 다양한 공격을 통해, 추론 시간 컴퓨팅 증가가 견고성을 향상시키는 것을 발견했습니다. 중요한 예외를 제외하고, 공격이 성공하는 모델 샘플의 비율은 테스트 시간 컴퓨팅 양이 증가함에 따라 거의 제로에 수렴하는 경향이 있습니다. 우리는 연구 대상 작업에 대해 적대적 훈련을 수행하지 않으며, 공격 형태와는 독립적으로 모델이 추론에 더 많은 컴퓨팅을 사용하도록 함으로써 추론 시간 컴퓨팅을 증가시킵니다. 우리의 결과는 추론 시간 컴퓨팅이 대형 언어 모델의 적대적 견고성을 향상시킬 수 있는 잠재력이 있다는 것을 시사합니다. 또한 추론 모델을 향한 새로운 공격을 탐구하고, 추론 시간 컴퓨팅이 신뢰성을 향상시키지 않는 상황 및 그 이유와 이를 해결하는 방법에 대해 고찰합니다.
최근 다언어 모델의 다수 도입과 계속되는 자연어 처리 작업, 특히 요약 작업의 향상된 수요를 고려할 때, 본 연구는 뉴스 요약 작업을 위해 작은 규모의 20가지 최근 언어 모델에 대한 포괄적인 벤치마킹을 제공합니다. 본 연구에서는 서로 다른 스타일로 작성된 뉴스 기사 텍스트를 요약하는 데 이러한 모델의 능력과 효과를 체계적으로 테스트하였으며, 세 가지 다른 데이터셋에 제시되었습니다. 구체적으로, 본 연구에서는 제로샷 및 퓨샷 학습 설정에 초점을 맞추었으며, 자동 메트릭, 인간 평가 및 LLM-판사를 포함한 다양한 평가 개념을 결합한 견고한 평가 방법론을 적용하였습니다. 흥미로운 점은 퓨샷 학습 설정에서 데모 예제를 포함시키는 것이 모델의 성능을 향상시키지 않았으며, 경우에 따라 생성된 요약의 품질을 떨어뜨리기도 하였습니다. 이 문제는 주로 참조 요약으로 사용된 골드 요약의 품질이 낮아서 모델의 성능에 부정적인 영향을 미치기 때문에 발생합니다. 더 나아가, 본 연구 결과는 GPT-3.5-Turbo 및 GPT-4의 우수한 성능을 강조하였으며, 이러한 모델은 일반적으로 고급 능력으로 인해 우세합니다. 그러나 평가된 공개 모델 중에서 Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B 및 Zephyr-7B-Beta와 같은 특정 모델들이 유망한 결과를 보였습니다. 이러한 모델들은 상당한 잠재력을 보여주어 뉴스 요약 작업에 대한 대규모 모델에 대항할 수 있는 경쟁력 있는 대안으로 자리 잡을 수 있습니다.
본 논문은 동적 콘텐츠를 포함하는 비디오로부터 3D 구조를 재구성하는 오랜 과제에 대해 다룹니다. 현재 이 문제에 대한 접근 방식은 표준 카메라로 녹화된 일반적인 비디오에서 작동하도록 설계되지 않았거나 최적화 시간이 오래 걸리는 특징이 있습니다. 이전 방법의 효율성을 크게 향상시키기 위해, 우리는 TracksTo4D를 제안합니다. 이는 단일 효율적인 피드포워드 패스를 사용하여 일반적인 비디오로부터 유래한 동적 콘텐츠로부터 3D 구조와 카메라 위치를 추론할 수 있는 학습 기반 접근 방식입니다. 이를 위해 우리는 입력으로 2D 포인트 트랙을 직접 처리하고 2D 포인트 트랙을 처리하기 위해 설계된 아키텍처를 제안합니다. 우리의 제안된 아키텍처는 두 가지 주요 원칙을 고려하여 설계되었습니다: (1) 입력 포인트 트랙 데이터에 내재된 대칭성을 고려하며, (2) 이동 패턴이 저랭크 근사치를 사용하여 효과적으로 표현될 수 있다고 가정합니다. TracksTo4D는 일반적인 비디오 데이터셋에서 2D 포인트 트랙만을 활용하여 비지도 방식으로 훈련되며, 어떠한 3D 지도도 사용하지 않습니다. 실험 결과, TracksTo4D가 최신 기법과 유사한 정확도로 기존 비디오의 시간적 포인트 클라우드와 카메라 위치를 재구성할 수 있음과 동시에 실행 시간을 최대 95%까지 줄일 수 있다는 것을 보여줍니다. 또한 TracksTo4D가 추론 시에 보이지 않는 의미 범주의 새로운 비디오에 대해 잘 일반화된다는 것을 보여줍니다.
과제 일반적 프롬프트 가능 이미지 분할은 하나의 과제 일반적 프롬프트만을 활용하여 다양한 샘플의 분할을 달성하려는 것을 목표로 합니다. 현재의 방법은 시각-언어 모델(VLMs)의 일반화 능력을 활용하여 이러한 과제 일반적 프롬프트로부터 사례별 프롬프트를 추론하여 분할 프로세스를 안내합니다. 그러나 VLMs가 일부 이미지 샘플에 대한 일반화에 어려움을 겪을 때, 사례별 프롬프트 예측이 부족해집니다. 이 문제를 해결하기 위해 우리는 과제 일반적 프롬프트 가능 분할을 위한 사례별 부정 마이닝 (INT)을 소개합니다. INT의 핵심 아이디어는 적절하지 않은 (부정적인) 사전 지식의 영향을 적응적으로 줄이는 한편, 더 높은 대조로 선택된 가장 타당한 사전 지식을 활용하여 사례별 프롬프트 생성을 최적화하는 것입니다. 구체적으로, INT는 두 가지 구성 요소로 구성됩니다: (1) 사례별 프롬프트 생성, 이는 프롬프트 생성 중 잘못된 정보를 점진적으로 걸러냅니다; (2) 의미적 마스크 생성, 이는 각 이미지 인스턴스 분할이 사례별 프롬프트의 의미와 정확하게 일치하도록 보장합니다. INT는 은폐된 객체와 의료 이미지를 포함한 여섯 개의 데이터셋에서 유효성, 견고성 및 확장성을 입증하며 그 효과를 보여줍니다.
대규모 언어 모델(LLM)을 사용한 장기 맥락 추론에서 메모리 비용을 줄이기 위해 최근 많은 연구들이 서로 다른 토큰의 키-값 (KV) 캐시를 압축하는 데 초점을 맞추고 있습니다. 그러나 우리는 이전의 KV 캐시 압축 방법이 토큰의 중요성을 개별적으로 측정하여 현실 세계 언어 특성에서 서로 다른 토큰 간의 종속성을 무시한다는 것을 확인했습니다. 이에 따라, 우리는 ChunkKV를 소개하여 한 덩어리의 토큰을 기본 압축 단위로 그룹화하고, 덜 중요한 것들을 버리면서 가장 정보가 풍부한 의미 청크를 유지합니다. 더 나아가, ChunkKV가 서로 다른 레이어 간에 보존된 인덱스에서 더 높은 유사성을 나타내는 것을 관찰하고, 계산 오버헤드를 더욱 줄이기 위해 레이어별 인덱스 재사용을 제안합니다. 우리는 LongBench와 Needle-In-A-HayStack을 포함한 최첨단 장기 맥락 벤치마크 및 GSM8K와 JailbreakV 인컨텍스트 학습 벤치마크에서 ChunkKV를 평가했습니다. O1 및 R1 LLMs에 대한 실험에서 기존 방법과 비교하여 공격적인 압축 비율로 최대 10\%의 성능 향상을 달성했습니다.