번역이 포함된 일일 선별된 AI 연구 논문
LLM이 안전 중요 응용 프로그램에 점점 더 영향을 미치는 가운데, 가드레일을 사용하여 그 안전성을 보장하는 것은 여전히 중요한 과제입니다. 본 논문에서는 가드 모델이 추론을 학습하도록 안내함으로써 LLM을 위한 새로운 안전장치인 GuardReasoner를 제안합니다. 구체적으로, 우리는 먼저 460K개의 자세한 추론 단계를 포함한 127K개의 샘플로 구성된 GuardReasonerTrain 데이터셋을 생성합니다. 그런 다음, 가드 모델의 추론 능력을 발휘하기 위해 추론 SFT를 소개합니다. 게다가, 추론 능력을 더 강화하기 위해 어려운 샘플 DPO를 제시합니다. 이러한 방식으로 GuardReasoner는 더 나은 성능, 설명 가능성 및 일반화 능력을 달성합니다. 3가지 가드레일 작업의 13가지 벤치마크에 대한 광범위한 실험 및 분석은 그 우수성을 입증합니다. 특히, GuardReasoner 8B는 평균적으로 GPT-4o+CoT보다 5.74% 및 LLaMA Guard 3 8B보다 20.84% F1 점수를 능가합니다. GuardReasoner의 다양한 규모(1B, 3B, 8B)의 훈련 데이터, 코드 및 모델은 다음 링크에서 확인할 수 있습니다: https://github.com/yueliu1999/GuardReasoner/.
대규모 언어 모델(Large language models, LLMs)인 OpenAI의 o1과 같은 모델은 테스트 시간 컴퓨팅을 확장하고 인간과 유사한 심층적 사고를 나타내며 복잡한 추론 작업에서 놀라운 능력을 보여주었습니다. 그러나 우리는 o1과 유사한 LLMs에서 빈번히 발생하는 '언더띵킹(underthinking)' 현상을 확인했습니다. 이는 유망한 경로를 충분히 탐색하지 않고 올바른 해결책에 도달하기 위해 서로 다른 추론적 사고 사이를 자주 전환하는 것을 의미합니다. 이러한 행동은 부족한 추론의 깊이와 난이도가 높은 수학 문제에서 특히 성능이 저하되는 결과를 초래합니다. 이 문제를 체계적으로 분석하기 위해 우리는 세 가지 어려운 테스트 세트와 두 가지 대표적인 오픈소스 o1과 유사한 모델에서 실험을 실시하여, 빈번한 사고 전환이 잘못된 응답과 관련이 있다는 것을 밝혀내었습니다. 우리는 잘못된 답변에서 토큰 효율을 측정하여 언더띵킹을 양적으로 측정하는 새로운 메트릭을 소개합니다. 언더띵킹에 대응하기 위해, 우리는 사고 전환 페널티 TIP를 도입한 디코딩 전략을 제안하여, 사고 사이의 조기 전환을 억제하고 각 추론 경로를 더 깊이 탐구하도록 유도합니다. 실험 결과는 우리의 접근 방식이 모델 파인튜닝을 필요로 하지 않고 어려운 데이터셋 전반에서 정확도를 향상시킨다는 것을 입증합니다. 우리의 연구 결과는 o1과 유사한 LLMs의 추론 비효율성을 이해하는 데 기여하며, 그들의 문제 해결 능력을 향상시키기 위한 실용적인 해결책을 제시합니다.
대형 언어 모델 (LLM)의 훈련은 일반적으로 훈련 시간을 줄이기 위해 많은 가속기에 분산되어 진행됩니다. 각 기울기 단계에서 내부 상태와 매개변수 기울기를 교환해야 하기 때문에 모든 장치는 필요한 고용량 비트를 지원하기 위해 저지연 고대역폭 통신 링크를 사용하여 동시에 위치해야 합니다. 최근에는 DiLoCo와 같은 분산 알고리즘이 이러한 동시 위치 제약을 완화시켰습니다: 가속기는 "작업자"로 그룹화될 수 있으며 작업자 간 동기화는 드물게만 발생합니다. 이는 작업자가 학습 품질에 영향을 주지 않고 더 낮은 대역폭 통신 링크로 연결될 수 있다는 것을 의미합니다. 그러나 이러한 방법에서도 작업자 간 통신은 이전과 동일한 최대 대역폭이 필요하며, 동기화는 모든 매개변수가 모든 작업자 간에 교환되어야 하기 때문입니다. 본 논문에서는 DiLoCo를 세 가지 방법으로 개선합니다. 첫째, 모든 것을 한꺼번에 동기화하는 대신 일련의 매개변수 부분만 동기화합니다. 이는 최대 대역폭을 크게 줄입니다. 둘째, 동기화하는 동안 작업자가 계속 훈련할 수 있도록 허용하여 벽 시계 시간을 줄입니다. 셋째, 작업자 간에 교환되는 데이터를 양자화하여 대역폭을 더욱 줄입니다. 이러한 수정 사항을 적절히 결합하여 실험적으로 억 단위의 매개변수의 훈련을 분산시키고 이전과 유사한 품질에 도달할 수 있지만 필요한 대역폭을 2개 순서로 줄일 수 있음을 보여줍니다.
DeepSeek-R1의 등장은 AI 산업 전반 및 특히 LLMs에 대한 전환점을 구성한다. 그 능력은 창의적 사고, 코드 생성, 수학 및 자동 프로그램 수리를 포함한 여러 작업에서 우수한 성능을 보여주었으며, 실행 비용이 낮다는 것으로 나타났다. 그러나 LLMs는 안전 및 인간의 가치와의 중요한 질적 속성, 즉 정렬을 준수해야 한다. DeepSeek-R1의 명확한 경쟁자는 미국의 OpenAI o3-mini 모델로, 성능, 안전성 및 비용 측면에서 높은 기준을 설정할 것으로 예상된다. 본 논문에서는 DeepSeek-R1 (70b 버전)과 OpenAI o3-mini (베타 버전)의 안전 수준을 체계적으로 평가한다. 이를 위해 최근 출시된 자동 안전 테스트 도구인 ASTRAL을 활용한다. 이 도구를 활용하여 우리는 총 1260개의 불안전한 테스트 입력을 두 모델 모두에 자동적으로 체계적으로 생성하고 실행한다. 두 LLMs가 제공한 결과를 반 자동으로 평가한 결과, DeepSeek-R1은 OpenAI o3-mini에 비해 매우 불안전하다는 것을 나타낸다. 우리의 평가에 따르면, DeepSeek-R1은 실행된 프롬프트 중 11.98%에 불안전하게 응답했고, o3-mini는 단지 1.19%에 불과했다.
대형 언어 모델은 많은 지적 능력을 갖추었습니다. 많은 벤치마크가 그들의 지능을 평가하지만, 탐험 능력에 대한 주목은 부족했습니다. 탐험 능력은 새로운 정보를 발견하고 자연 및 인공 시스템에서 새로운 환경에 적응하는 데 필수적입니다. 대형 언어 모델이 특히 열린 과제에서 얼마나 효과적으로 탐험할 수 있는지는 여전히 불분명합니다. 본 연구는 Little Alchemy 2를 패러다임으로 사용하여 대형 언어 모델이 열린 과제 중에서 탐험에서 인간을 능가할 수 있는지 조사합니다. 여기서 에이전트는 원소를 결합하여 새로운 원소를 발견합니다. 결과는 대부분의 대형 언어 모델이 인간에 비해 성적이 낮은 것을 보여주었으며, 예외는 o1 모델이었습니다. 전통적인 대형 언어 모델은 주로 불확실성 주도 전략에 의존하는 반면, 인간은 불확실성과 권한을 균형 있게 고려합니다. 희소 오토인코더로 모델의 표현 분석을 통해, 불확실성과 선택이 초기 트랜스포머 블록에서 표현되는 반면, 권한 값은 나중에 처리되어 대형 언어 모델이 너무 빨리 생각하고 조기 결정을 내리는 데 어려움을 겪어 효과적인 탐험을 방해한다는 것을 밝혀냈습니다. 이러한 결과는 대형 언어 모델의 탐험의 한계를 밝히고 그들의 적응성을 향상시키는 방향을 제안합니다.
우리는 전문가 수준의 의학 지식과 고급 추론을 평가하기 위한 매우 도전적이고 포괄적인 MedXpertQA 벤치마크를 소개합니다. MedXpertQA에는 17개 특수분야와 11개 신체 시스템에 걸친 4,460개의 질문이 포함되어 있습니다. 이는 텍스트 평가를 위한 Text와 다중모달 평가를 위한 MM 두 하위 집합을 포함하고 있습니다. 특히 MM은 다양한 이미지와 환자 기록, 진찰 결과를 포함한 풍부한 임상 정보로 전문가 수준의 시험 문제를 소개하여, 이미지 캡션에서 생성된 간단한 QA 쌍으로 구성된 전통적인 의학 다중모달 벤치마크와 구분됩니다. MedXpertQA는 MedQA와 같은 기존 벤치마크의 부족한 난이도를 해결하기 위해 엄격한 필터링과 증강을 적용하며, 임상 관련성과 포괄성을 향상시키기 위해 전문 분야 시험 문제를 통합합니다. 데이터 누출 위험을 완화하기 위해 데이터 합성을 수행하고 정확성과 신뢰성을 보장하기 위해 여러 차례의 전문가 리뷰를 실시합니다. 우리는 MedXpertQA에서 16개의 주요 모델을 평가합니다. 또한 의학은 수학과 코드를 넘어서는 추론 능력을 평가하기 위한 풍부하고 대표적인 환경을 제공하는 실제 의사 결정과 깊은 연관이 있습니다. 이를 위해, 우리는 o1과 유사한 모델의 평가를 용이하게 하기 위해 추론 중심 하위 집합을 개발합니다.
언어 모델 (LLM) 사후 훈련은 DPO에서 증류(distillation)로, 행동을 정제하고 새로운 기술을 발휘할 수 있지만, 이러한 사후 훈련 기술을 지원하는 오픈 사이언스는 아직 초기 단계에 있습니다. 이러한 사후 훈련 기법의 지원을 받는 오픈 사이언스의 한계 요인 중 하나는 합성 데이터 생성 모델과 LLM 판별자의 대규모 비교 분석을 수행하는 어려움이었습니다. 이 간극을 메우기 위해, 우리는 오늘까지 가장 큰 공개 채팅 데이터셋인 WILDCHAT-50M을 소개합니다. 우리는 기존의 WildChat 데이터셋을 확장하여 GPT뿐만 아니라 0.5B에서 104B 매개변수 크기로 다양한 50개 이상의 오픈 가중치 모델로부터 응답을 포함하도록 했습니다. 우리는 포괄적인 비교 분석을 수행하고, 최근 Allen AI의 Tulu-3 SFT 혼합물보다 샘플 수의 40%만으로 우수한 RE-WILD, 우리만의 공개 SFT 혼합물을 만들어 이 데이터셋의 잠재력을 입증했습니다. 저희 데이터셋, 샘플 및 코드는 https://github.com/penfever/wildchat-50m에서 제공됩니다.
본 논문은 효율적인 텍스트-이미지 생성을 위한 선형 확산 트랜스포머인 SANA-1.5를 제시합니다. SANA-1.0을 기반으로 하여 세 가지 주요 혁신을 소개합니다: (1) 효율적인 훈련 스케일링: 1.6B에서 4.8B 파라미터로의 스케일링을 가능하게 하는 깊이 증가 패러다임으로, 계산 자원을 크게 줄인 것과 메모리 효율적인 8비트 옵티마이저를 결합합니다. (2) 모델 깊이 가지치기: 임의의 크기로의 효율적인 모델 압축을 위한 블록 중요도 분석 기술로, 최소한의 품질 손실로 모델을 압축합니다. (3) 추론 시 스케일링: 계산량 대신 모델 용량을 교환하는 반복 샘플링 전략으로, 작은 모델이 추론 시 큰 모델 품질과 일치하도록 합니다. 이러한 전략을 통해 SANA-1.5는 GenEval에서 0.72의 텍스트-이미지 정렬 점수를 달성하며, 추론 스케일링을 통해 0.80까지 개선할 수 있어 GenEval 벤치마크에서 새로운 SoTA를 수립합니다. 이러한 혁신은 높은 품질을 유지하면서 다양한 계산 예산에서 효율적인 모델 스케일링을 가능케 하여, 고품질 이미지 생성을 보다 접근 가능하게 합니다.
물리 세계를 이해하는 것은 신체 지능 인공지능에서의 근본적인 과제로, 복잡한 작업을 수행하고 실제 환경에서 안전하게 작동하기 위한 핵심 요소입니다. 시각-언어 모델(Vision-Language Models, VLMs)은 신체 지능을 위한 추론과 작업 계획에 큰 가능성을 보여주었지만, 물리 현상을 이해하는 능력은 여전히 매우 제한적입니다. 이 간극을 메우기 위해 우리는 VLMs의 물리 세계 이해 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 PhysBench를 소개합니다. PhysBench에는 4가지 주요 도메인(물리적 객체 속성, 물리적 객체 관계, 물리적 장면 이해, 물리 기반 역학)으로 분류된 10,002개의 비디오-이미지-텍스트 데이터가 포함되어 있으며, 이는 19개 하위 클래스와 8가지 다른 능력 차원으로 나뉩니다. 75개의 대표적인 VLMs에서 수행된 광범위한 실험 결과, 이러한 모델들이 상식적 추론에서 뛰어나지만 물리 세계를 이해하는 데 어려움을 겪는다는 것을 보여줍니다. 이는 훈련 데이터에 물리적 지식이 부족하고 내재된 물리적 사전 지식이 없기 때문일 것으로 생각됩니다. 이러한 결핍을 극복하기 위해 우리는 VLMs의 일반화 강점과 시각 모델의 전문 지식을 결합한 혁신적인 프레임워크인 PhysAgent를 소개합니다. PhysAgent는 GPT-4o에서 18.4%의 개선을 포함한 다양한 작업에서 VLMs의 물리적 이해를 크게 향상시킴으로써 VLMs의 물리 세계 이해 능력을 향상시킬 수 있다는 결과를 보여줍니다. 더 나아가, 우리의 결과는 MOKA와 같은 신체 지능 에이전트에 도움이 될 수 있다는 것을 입증합니다. PhysBench와 PhysAgent가 VLMs와 물리 세계 이해 사이의 간극을 좁히는 데 유용한 통찰을 제공하고 이에 기여할 것으로 믿습니다.
웹 에이전트에 대한 많은 연구는 사용자를 대신하여 자율적으로 작업을 수행하는 약속을 강조하지만, 실제로는 에이전트가 실제 세계 상황에서 복잡한 작업과 사용자 선호도 모델링에서 종종 한계에 부딪힙니다. 이는 인간이 에이전트와 협력하여 에이전트의 능력을 효과적으로 활용할 수 있는 기회를 제공합니다. 우리는 CowPilot이라는 프레임워크를 제안합니다. 이 프레임워크는 자율적 및 인간-에이전트 협력 웹 탐색을 지원하며 작업 성공 및 작업 효율성에 걸쳐 평가합니다. CowPilot은 에이전트가 다음 단계를 제안할 수 있도록하여 인간이 수행해야 하는 단계 수를 줄이고, 사용자가 일시 중지하거나 거부하거나 대안적 조치를 취할 수 있도록 합니다. 실행 중에 사용자는 제안을 무시하거나 필요할 때 에이전트 제어를 재개함으로써 에이전트와의 작업을 교차할 수 있습니다. 우리는 다섯 개의 일반적인 웹사이트에 대한 사례 연구를 수행했으며, 인간-에이전트 협력 모드가 총 단계 중 15.2%만 인간이 수행하면서 95%의 최고 성공률을 달성한다는 결과를 발견했습니다. 작업 실행 중에 인간 개입이 있더라도, 에이전트는 작업의 최대 절반까지 성공적으로 이끌어낼 수 있습니다. CowPilot은 웹사이트 전반에서 데이터 수집 및 에이전트 평가에 유용한 도구로 기능할 수 있으며, 사용자와 에이전트가 어떻게 협력할 수 있는지에 대한 연구를 가능하게 할 것으로 믿습니다. 비디오 데모는 https://oaishi.github.io/cowpilot.html에서 확인할 수 있습니다.