번역이 포함된 일일 선별된 AI 연구 논문
대조 손실은 표현 학습에 대한 강력한 방법으로, 더 큰 배치 크기는 유사하고 비유사한 데이터를 더 잘 구별하기 위해 더 많은 부정적 샘플을 제공하여 성능을 향상시킵니다. 그러나 배치 크기를 확장하는 것은 GPU 메모리 소비의 이차적 증가로 제한되며, 주로 유사성 행렬의 완전한 인스턴스화 때문입니다. 이를 해결하기 위해 우리는 대조 손실 계산을 임의의 작은 블록으로 분할하여 유사성 행렬의 완전한 자료화를 피하는 타일 기반 계산 전략을 제안합니다. 더불어, 분산 시스템의 계층 구조를 활용하기 위해 다중 수준의 타일링 전략을 소개하여 GPU 수준에서 링 기반 통신을 활용하여 동기화를 최적화하고 CUDA 코어 수준에서 통합 커널을 사용하여 I/O 오버헤드를 줄입니다. 실험 결과는 제안된 방법이 배치 크기를 전례 없는 수준으로 확장시킨다는 것을 보여줍니다. 예를 들어, 8개 또는 32개의 A800 80GB를 사용하여 4M 또는 12M의 배치 크기로 CLIP-ViT-L/14 모델의 대조 훈련을 가능하게 하면서 정확도를 희생시키지 않습니다. 최신 기술에 비해 메모리 효율적인 솔루션을 비교했을 때, 메모리를 두 단계 줄이면서 비슷한 속도를 유지합니다. 코드는 공개적으로 제공될 예정입니다.
대형 언어 모델 (LLM)은 작업 전반에 걸쳐 우수한 성능을 보이지만 생성된 콘텐츠에 비사실적인 정보가 포함된 환각 현상으로 인해 고통을 겪습니다. 한편, 지식 편집은 LLM에 인코딩된 잘못된 사실적 지식을 수정하기 위한 새로운 인기 있는 패러다임으로 발전해 왔으며, 처음부터 재교육을 피할 수 있는 장점이 있습니다. 그러나, 지식 편집을 위한 기존 평가 데이터셋의 일반적인 문제점은 편집 전 LLM이 실제로 평가 질문에 환각적인 답변을 생성하는지를 보장하지 않는다는 것입니다. LLM이 다양한 기술로 편집된 후 이러한 데이터셋에서 평가를 받을 때, 서로 다른 지식 편집 방법의 효과를 평가하기 위해 성능을 직접 채택하는 것이 어렵습니다. 따라서, 기본적인 질문이 충분히 검증되지 않은 상태로 남아 있는데, 지식 편집이 실제로 LLM의 환각을 수정할 수 있는지에 대한 질문입니다. 우리는 HalluEditBench를 제안하여 현실 세계의 환각을 수정하는 지식 편집 방법을 종합적으로 평가합니다. 먼저, 9개 도메인, 26개 주제 및 6,000개 이상의 환각을 포함한 대규모 환각 데이터셋을 엄격하게 구축합니다. 그런 다음, 효과성, 일반화, 이식성, 지역성 및 견고성을 포함한 다섯 가지 차원에서 지식 편집 방법의 성능을 종합적으로 평가합니다. HalluEditBench를 통해 다양한 지식 편집 방법의 환각 수정 능력에 대한 잠재력과 한계에 대한 새로운 통찰을 제공하여 미래 개선을 영감 주고 지식 편집 분야의 진전을 촉진할 수 있습니다.
긴 문맥 모델(Long-context models, LCMs)은 100백만 개 이상의 토큰을 편리하고 효과적으로 처리하는 데 큰 잠재력을 보여주었습니다. 중요한 진전을 이룬 최근 연구에서 LCMs가 문맥 내에서 토큰 수준의 중요한 정보를 정확하게 찾아낼 수 있다는 점을 지적했습니다. 그러나 이러한 LCMs의 생성 성능은 만족스럽지 못하며 환각과 같은 잘못된 응답을 초래할 수 있습니다. LCMs의 생성 능력을 향상시키기 위해 기존 연구는 사전 훈련과 지시 튜닝 모두에서 데이터 크기와 품질의 영향을 조사해 왔습니다. 의미 있는 개선을 이루었지만, 이전 방법은 효과성이나 효율성 중 어느 하나에 부족함이 있습니다. 본 논문에서는 LOGO(Long cOntext aliGnment via efficient preference Optimization)라는 훈련 전략을 소개합니다. 이 전략은 먼저 긴 문맥 정렬을 위한 선호도 최적화를 도입합니다. 긴 시퀀스로 인한 GPU 메모리 제한 문제를 극복하기 위해 LOGO는 참조 없는 선호도 최적화 전략을 채택하고 위치 합성 방법을 사용하여 훈련 데이터를 구성합니다. 8timesA800 GPU 기계에서 16시간 동안 0.3B 데이터로 훈련을 진행함으로써, LOGO는 Llama-3-8B-Instruct-80K 모델이 실제 긴 문맥 작업에서 GPT-4와 비교 가능한 성능을 달성하도록 하면서 다른 작업(예: 언어 모델링 및 MMLU)에서 모델의 원래 능력을 유지할 수 있습니다. 더불어, LOGO는 모델의 문맥 창 크기를 확장하면서 생성 성능을 향상시킬 수 있습니다.
고품질 데이터의 가용성은 LLM의 추론 능력을 향상시키는 데 가장 중요한 요소 중 하나입니다. 기존 연구는 시드 질문이나 지식 베이스에서 더 많은 지시 데이터를 생성하는 효과를 입증해 왔습니다. 최근 연구에 따르면 강력한 모델(예: GPT-4)에서 데이터 합성을 지속적으로 확장함으로써 추론 성능을 더욱 끌어올릴 수 있다는 것을 보여줍니다. 약속이 있지만, 오픈 소스 커뮤니티는 여전히 대규모이고 비용 효율적인 확장 가능한 데이터 합성 방법과 고품질 데이터가 부족합니다. 이를 해결하기 위해 우리는 ScaleQuest를 소개합니다. 이는 "소형" (예: 7B) 오픈 소스 모델을 활용하여 복잡한 증가 제약 조건이 필요 없이 처음부터 질문을 생성하는 확장 가능하고 혁신적인 데이터 합성 방법입니다. 효율적인 ScaleQuest를 사용하여 우리는 수학적 추론 데이터 세트를 자동으로 생성했는데, 이는 기존 오픈 소스 데이터 세트보다 더 효과적입니다. 이는 MATH에서 Mistral, Llama3, DeepSeekMath, 그리고 Qwen2-Math와 같은 주류 오픈 소스 모델의 성능을 29.2%에서 46.4% 향상시킬 수 있습니다. 특히, 우리 데이터 세트로 단순히 Qwen2-Math-7B-Base 모델을 파인 튜닝하면 Qwen2-Math-7B-Instruct와 같은 강력하고 잘 맞춘 폐쇄 소스 데이터 모델, 그리고 GPT-4-Turbo와 Claude-3.5 Sonnet과 같은 독점 모델을 능가할 수 있습니다.
우리는 사용자의 창의력에 따라 두 이미지 사이에서 부드럽게 전환되는 프레임을 생성하는 대화형 프레임 보간을 위한 Framer를 제안합니다. 구체적으로, 시작 및 끝 프레임을 입력으로 취하는 것 외에도, 우리의 접근 방식은 일부 선택된 키포인트의 궤적을 맞춤 설정하여 전환 프로세스를 사용자 정의할 수 있습니다. 이러한 설계에는 두 가지 명확한 이점이 있습니다. 첫째, 인간 상호작용을 통합함으로써 한 이미지를 다른 이미지로 변환하는 다양한 가능성에서 발생하는 문제를 완화시키고, 결과적으로 지역 모션을 더 세밀하게 제어할 수 있습니다. 둘째, 상호작용의 가장 기본적인 형태인 키포인트는 프레임 간 대응을 설정하여 모델이 어려운 경우(예: 시작 및 끝 프레임의 객체가 다른 모양과 스타일을 가짐)를 처리하도록 돕습니다. 우리의 시스템은 또한 "자율 주행" 모드를 제공하여, 실제 사용을 간편화하기 위해 키포인트를 추정하고 궤적을 자동으로 개선하는 모듈을 소개합니다. 다양한 응용 프로그램(예: 이미지 형태 변환, 타임랩스 비디오 생성, 만화 보간 등)에서 Framer의 매력적인 성능을 입증하는 광범위한 실험 결과가 있습니다. 코드, 모델 및 인터페이스는 추가 연구를 용이하게 하기 위해 공개될 예정입니다.
우리는 유한하고 하드 코딩된 시스템의 전통적인 경계를 초월하는 생성 모델을 활용하여 생성적 무한 게임의 개념을 소개합니다. 제임스 P. 카스의 유한 및 무한 게임 간의 구별에서 영감을 받아, 최근 생성적 AI의 발전을 활용하여 완전히 생성 모델에 포함된 캐릭터 생명 시뮬레이션 게임 Unbounded를 만들었습니다. 구체적으로, Unbounded는 샌드박스 생명 시뮬레이션에서 영감을 받아, LLM에 의해 생성된 오픈 엔드 메카닉으로 캐릭터와 상호 작용하며 가상 세계에서 자율 가상 캐릭터를 먹이고 놀아주고 이끌 수 있습니다. Unbounded를 개발하기 위해, LLM 및 시각 생성 영역에서 기술적 혁신을 제안합니다. 구체적으로, (1) 실시간으로 게임 메카닉, 서술, 캐릭터 상호 작용을 동적으로 생성하는 전문화된 정제된 대형 언어 모델 (LLM)을 제시하고, (2) 여러 환경에서 캐릭터의 일관된 유연한 시각적 생성을 보장하는 새로운 동적 지역 이미지 프롬프트 어댑터 (IP-어댑터)를 시각 모델에 제시합니다. 우리는 우리의 시스템을 질적 및 양적 분석을 통해 평가하여, 캐릭터 생명 시뮬레이션, 사용자 지시 준수, 서술 일관성, 그리고 전통적인 관련 접근 방식과 비교하여 캐릭터 및 환경의 시각적 일관성에 대한 상당한 개선을 보여줍니다.
복잡한 차트 Q&A 작업을 해결하기 위해서는 다중 모달 대형 언어 모델(MLLMs)에서 고급 시각 추론 능력이 필요합니다. 최근 연구들은 이러한 능력이 시각적 입력에서 핵심 정보를 인식하고 그에 대해 추론하는 두 가지 주요 부분으로 구성되어 있다고 강조하고 있습니다. 따라서 MLLMs를 향상시키기 위한 유망한 접근 방법은 두 측면에 초점을 맞춘 관련 훈련 데이터를 구축하는 것입니다. 그러나 복잡한 차트와 질문을 수집하고 주석을 다는 것은 비용이 많이 들고 시간이 많이 소요되며, 주석이 달린 답변의 품질을 보장하는 것은 여전히 어려운 과제입니다. 본 논문에서는 시각 추론 능력을 LLMs에서 MLLMs로 추출하기 위한 비용 효율적이고 효율적이며 쉽게 확장 가능한 데이터 합성 방법인 Code-as-Intermediary Translation (CIT)을 제안합니다. 코드는 시각적 차트 표현을 텍스트 표현으로 번역하는 중개자 역할을 하여 LLMs가 크로스 모달 정보를 이해할 수 있게 합니다. 구체적으로, 우리는 텍스트 기반의 합성 기술을 사용하여 차트 플로팅 코드를 구성하고, 인식 및 추론 능력을 향상시키기 위해 3천 개의 추론 중심 차트와 2만 개의 Q&A 쌍을 포함하는 ReachQA 데이터셋을 생성합니다. 실험 결과, 우리의 데이터로 세밀하게 조정된 모델은 차트 관련 벤치마크에서 우수한 성능을 보이는데 그치지 않고 MathVista와 같은 일반 수학 벤치마크에서 개선된 다중 모달 추론 능력을 나타냅니다. 코드와 데이터셋은 https://github.com/hewei2001/ReachQA에서 공개적으로 제공됩니다.
본 보고서에서는 LLMs의 보상 모델링을 향상시키기 위한 다양한 방법을 소개하며, 특히 데이터 중심 기술에 초점을 맞추었습니다. 우리는 고품질 오픈 소스 선호 데이터셋을 선별하기 위한 효과적인 데이터 선택 및 필터링 전략을 제안하였으며, 이를 통해 Skywork-Reward 데이터 수집물을 완성하였습니다. 이 데이터 수집물은 기존 데이터셋보다 훨씬 작은 80K 선호 쌍만을 포함하고 있습니다. 이 선별된 데이터셋을 사용하여, 우리는 Skywork-Reward 모델 시리즈인 Skywork-Reward-Gemma-27B와 Skywork-Reward-Llama-3.1-8B를 개발하였습니다. 전자는 현재 RewardBench 리더보드에서 최상위 위치를 차지하고 있습니다. 특히, 우리의 기술과 데이터셋은 RewardBench의 많은 최상위 모델들의 성능을 직접 향상시키었으며, 우리의 기여가 실제 선호 학습 응용 프로그램에서의 실용적인 영향을 강조하고 있습니다.
대형 언어 모델(Large language models, LLMs)은 매개변수에 상당한 양의 사실적 지식을 저장할 수 있습니다. 그러나, 그들의 매개변수 지식은 맥락에서 제공된 정보와 충돌할 수 있습니다. 이러한 현상은 맥락-기억 지식 충돌(context-memory knowledge conflicts)로 알려져 있으며, 이는 모델이 오래된 또는 부정확한 정보에 의존하는 것과 같은 원치 않는 행동을 유발할 수 있습니다. LLMs의 내부 활성화를 분석하면, 중간 레이어에서 지식 충돌의 신호를 내부적으로 등록할 수 있다는 것을 발견할 수 있습니다. 이러한 신호는 지식 충돌이 발생하는지 여부를 감지하고 추론 시간 개입 전략을 사용하여 해결하는 데 도움이 됩니다. 본 연구에서는 SpARE이라는 훈련 없는 표현 공학 방법을 제안합니다. 이 방법은 사전 훈련된 희소 오토인코더(Sparse auto-encoders, SAEs)를 사용하여 LLMs의 지식 선택 행동을 제어합니다. SpARE은 지식 선택 행동을 제어하는 기능적 특징을 식별하고, 이를 사용하여 추론 시간에 LLMs의 내부 활성화를 편집합니다. 실험 결과는 SpARE이 오픈 도메인 질문-응답 작업에서 지식 충돌을 해결하기 위해 지식 소스의 사용을 효과적으로 제어할 수 있음을 보여주며, 기존의 표현 공학 방법(+10%) 및 대조적 디코딩 방법(+15%)을 능가한다는 것을 보여줍니다.
분산 훈련과 효율적인 주의 메커니즘의 발전은 대형 언어 모델의 문맥 창 크기를 크게 확장시켰다. 그러나 최근 연구 결과에 따르면 오픈 소스 언어 모델의 효과적인 문맥 길이는 종종 제한되어 있으며, 일반적으로 훈련 길이의 절반을 초과하지 않는다. 본 연구에서는 이 한계를 LLM 사전 훈련 및 사후 훈련 단계에서 형성된 상대적 위치의 왼쪽으로 치우친 빈도 분포로 귀속하여, 먼 정보를 효과적으로 수집하는 능력을 방해한다고 설명한다. 이러한 도전에 대처하기 위해 ShifTed Rotray position embeddING (STRING)을 소개한다. STRING은 효과적인 위치를 잘 훈련된 위치로 이동시켜 추론 중에 원래의 비효율적인 위치를 덮어쓰며, 기존의 훈련 길이 내에서 성능을 향상시킨다. 실험 결과에 따르면 추가 훈련 없이 STRING은 Llama3.1 70B 및 Qwen2 72B와 같은 최신 대규모 모델의 성능을 현저히 향상시키며, 인기 있는 장문맥 벤치마크 RULER 및 InfiniteBench에서 10점 이상의 결과를 달성하여 오픈 소스 LLM의 최신 기술적 성과를 확립한다. 상용 모델과 비교하면, \method를 사용한 Llama 3.1 70B는 GPT-4-128K보다 우수한 성능을 달성하며, 명확히 Claude 2와 Kimi-chat을 능가한다.
자연어 처리(NLP)에서 효율적인 장거리 문맥 언어 모델링은 여전히 중요한 과제입니다. 트랜스포머가 언어 작업을 주도하고 있지만, 훈련 중 이차적 계산 복잡성과 추론 중 선형으로 증가하는 메모리 비용으로 인해 장거리 시퀀스에 어려움을 겪습니다. 최근 상태 공간 모델(SSM)인 맘바와 같은 모델은 상수 메모리 사용량을 제공하지만, 상세한 문맥 검색이 필요한 작업에서 성능이 부족합니다. 저희는 맘바-2와 선택적 주의 층(SAL)을 결합한 혁신적인 하이브리드 아키텍처인 타이판을 소개합니다. 이러한 SAL은 장거리 상호작용이 필요한 토큰을 식별하고, 중요하지 않은 특징을 제거한 후 주의 모듈을 사용하여 표현을 보강합니다. 이 접근 방식은 메모리 집약적인 작업에서 트랜스포머와 유사한 성능을 제공하면서 맘바의 효율성을 균형있게 유지합니다. 주의 예산을 제한함으로써, 타이판은 계산 효율성을 유지하면서 최대 100만 토큰의 문맥 길이에 대한 정확한 예측을 확장합니다. 저희 실험은 다양한 규모와 작업에서 타이판의 우수한 성능을 입증하며, 효율적인 장거리 문맥 언어 모델링에 대한 유망한 해결책을 제공합니다.
비디오에서 객체를 세분화하는 것은 중요한 도전을 제시합니다. 각 픽셀은 정확하게 레이블이 지정되어야 하며, 이러한 레이블은 프레임 간에 일관되어 유지되어야 합니다. 세분화가 임의의 세분화로 이루어질 때 어려움이 증가하는데, 이는 세그먼트의 수가 임의로 변할 수 있고, 마스크가 하나 또는 몇 개의 샘플 이미지를 기반으로 정의될 때입니다. 본 논문에서는 사전 훈련된 텍스트에서 이미지로 확산 모델을 사용하여 이 문제를 다룹니다. 추가 추적 메커니즘을 보완하여 접근 방식이 다양한 세분화 시나리오를 효과적으로 관리하고 최첨단 대안을 능가함을 입증합니다.
본 연구는 인간 동작 생성의 상호작용적 편집 문제에 대해 탐구합니다. 이전의 동작 확산 모델은 단어 수준의 텍스트-동작 대응을 명시적으로 모델링하지 않고 설명력이 부족하여 세밀한 편집 능력을 제한했습니다. 이 문제를 해결하기 위해 우리는 주의 메커니즘을 명확하게 모델링하는 MotionCLR이라는 주의 기반 동작 확산 모델을 제안합니다. 기술적으로, MotionCLR은 자기 주의와 상호 주의를 사용하여 모달 간 및 교차 모달 간 상호작용을 모델링합니다. 더 구체적으로, 자기 주의 메커니즘은 프레임 간 순차적 유사성을 측정하고 동작 특징의 순서에 영향을 미칩니다. 이에 반해, 교차 주의 메커니즘은 세밀한 단어 시퀀스 대응을 찾고 동작 시퀀스에서 해당 타임스텝을 활성화합니다. 이러한 주요 특성을 기반으로, 주의 맵 조작을 통해 동작 (비)강조, 그 자리 동작 교체, 예제 기반 동작 생성 등 다양하고 효과적인 동작 편집 방법을 개발합니다. 주의 메커니즘의 설명력을 더 검증하기 위해 행동 계산과 주의 맵을 통한 기초적인 동작 생성 능력을 추가로 탐구합니다. 실험 결과는 우리의 방법이 우수한 생성 및 편집 능력과 높은 설명력을 갖는 것을 보여줍니다.
웹 개발은 UI 디자인을 기능적인 웹페이지로 변환하는 작업을 포함하며, HTML의 계층 구조와 스타일의 복잡성으로 인해 초보자와 경험 많은 개발자 모두에게 어려울 수 있습니다. 대형 언어 모델(Large Language Models, LLMs)은 소스 코드 생성에서 유망성을 보여주었지만, UI에서 HTML 코드로의 변환에서 두 가지 주요 도전 과제가 여전히 존재합니다: (1) LLMs를 위한 HTML의 계층 구조를 효과적으로 표현하는 것, 그리고 (2) UI 디자인의 시각적 성질과 HTML 코드의 텍스트 기반 형식 간의 간극을 좁히는 것입니다. 이러한 도전 과제를 해결하기 위해, 우리는 Waffle이라는 새로운 파인튜닝 전략을 소개합니다. 이 전략은 구조 인식 주의 메커니즘을 사용하여 LLMs가 HTML의 구조를 이해하는 능력을 향상시키고, 대조적인 파인튜닝 접근 방식을 사용하여 LLMs가 UI 이미지와 HTML 코드의 이해를 조정합니다. Waffle로 파인튜닝된 모델은 새로운 벤치마크인 WebSight-Test와 기존의 Design2Code 벤치마크에서 최대 9.00 pp(백분율 포인트) 높은 HTML 일치, 0.0982 높은 CW-SSIM, 32.99 높은 CLIP, 그리고 27.12 pp 높은 LLEM을 보여주며, 현재의 파인튜닝 방법을 능가합니다.
최근 몇 년 동안 대규모 다중 모달 모델(LMMs)의 개발에 상당한 관심이 집중되었으며, 이 모델들은 다양한 시각적 추론 및 이해 작업을 수행할 수 있습니다. 이에 따라 여러 LMM 벤치마크가 소개되어 LMMs를 다양한 작업에서 평가하게 되었습니다. 그러나 대부분의 기존 LMM 평가 벤치마크는 주로 영어 중심입니다. 본 연구에서는 4억 명 이상의 대규모 인구를 대표하는 아랍어 언어용 포괄적인 LMM 평가 벤치마크인 CAMEL-Bench를 개발했습니다. 제안된 벤치마크는 다중 이미지 이해, 복잡한 시각적 지각, 필기 문서 이해, 비디오 이해, 의료 영상, 식물 질병, 원격 감지 기반 토지 이용 이해 등 8가지 다양한 도메인과 38개 하위 도메인으로 구성되어 넓은 시나리오 일반화를 평가합니다. 저희 CAMEL-Bench는 약 29,036개의 질문으로 구성되어 있으며, 이는 더 큰 샘플 풀에서 선별되었으며, 품질은 신뢰할 수 있는 모델 평가를 보장하기 위해 원어민들에 의해 수동으로 확인되었습니다. 저희는 GPT-4 시리즈를 포함한 폐쇄 소스와 오픈 소스 LMMs의 평가를 실시했습니다. 분석 결과, 특히 최고의 오픈 소스 모델들 사이에서 상당한 개선이 필요함을 밝혀냈으며, 심지어 폐쇄 소스인 GPT-4o도 전체 점수의 62%를 달성했습니다. 저희의 벤치마크 및 평가 스크립트는 오픈 소스로 제공됩니다.
대형 언어 모델 (LLM)은 종종 환각을 일으키며, 제공된 맥락을 잘못 표현하거나 내부 지식을 잘못 기억하여 충실하지 않거나 사실적으로 부정확한 결과물을 생성합니다. 최근 연구에서는 Transformer 아키텍처 내에서 특정 어텐션 헤드를 식별했는데, 이를 검색 헤드라고 하며 관련 맥락 정보를 추출하는 역할을 합니다. 우리는 이러한 검색 헤드를 마스킹함으로써 환각을 유발할 수 있고, 기본 LLM과 마스킹된 LLM의 출력을 대조함으로써 환각을 줄일 수 있다고 가설을 세웁니다. 이를 위해 우리는 Decoding by Contrasting Retrieval Heads(DeCoRe)를 제안합니다. 이는 새로운 훈련 없는 디코딩 전략으로, 맥락과 모델 매개변수에서 발견된 정보를 강화합니다. DeCoRe는 조건 엔트로피를 안내로 사용하여 기본 LLM과 마스킹된 LLM의 출력을 동적으로 대조함으로써 잠재적으로 환각을 일으키는 응답을 완화합니다. 우리의 방대한 실험은 DeCoRe가 요약 (XSum에서 18.6%), 지시 따르기 (MemoTrap에서 10.9%), 그리고 오픈북 질문 응답 (NQ-Open에서 2.4% 및 NQ-Swap에서 5.5%)과 같이 고도의 맥락적 충실성이 필요한 작업에서 성능을 크게 향상시킨다는 것을 확인합니다.
우리는 CCI3.0-HQ(https://huggingface.co/datasets/BAAI/CCI3-HQ)를 제공합니다. 이는 중국어 말뭉치 인터넷 3.0(CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data)의 고품질 500GB 하위 집합으로, 데이터 품질을 크게 향상시키는 혁신적인 이중 단계 하이브리드 필터링 파이프라인을 사용하여 개발되었습니다. 효과를 평가하기 위해 우리는 다양한 데이터셋에서 100B 토큰을 사용하여 0.5B 매개변수 모델을 처음부터 훈련시켜, CCI3.0, SkyPile, WanjuanV1과 비교하여 제로샷 설정에서 10개의 벤치마크에서 우수한 성능을 달성했습니다. 고품질 필터링 과정은 Qwen2-72B-instruct 모델의 능력을 0.5B 모델로 효과적으로 증류시켜, 중국어 웹 데이터 분류에 대한 최적의 F1 점수를 달성했습니다. 이 접근 가능한 데이터셋은 고품질 언어 모델에 대한 보다 넓은 접근을 용이하게 할 것으로 믿습니다.
확산 모델은 노이즈 제거의 반복적 성격으로 인해 생성 속도가 느린 반면, 일관성 모델은 샘플링 속도가 현저히 빠르면서 경쟁력 있는 성능을 달성합니다. 이러한 모델들은 일관성 증류를 통해 사전 훈련된 확산 모델을 활용하거나 원시 데이터로부터 직접 일관성 훈련/조정을 통해 훈련됩니다. 본 연구에서는 확산 모델의 노이즈 제거 과정을 마르코프 결정 과정(MDP)으로 모델링하고 일관성 모델 훈련을 시간차(TD) 학습을 통한 가치 평가로 프레임화하는 새로운 프레임워크를 제안합니다. 더 중요한 것은, 이 프레임워크를 통해 현재의 일관성 훈련/조정 전략의 한계를 분석할 수 있습니다. Easy Consistency Tuning (ECT)을 기반으로 한 Stable Consistency Tuning (SCT)을 제안하여, 점수 동일성을 활용한 분산 감소 학습을 통해 CIFAR-10 및 ImageNet-64와 같은 벤치마크에서 상당한 성능 향상을 이루어냅니다. ImageNet-64에서 SCT는 1단계 FID 2.42 및 2단계 FID 1.55를 달성하여, 일관성 모델의 새로운 최고 성능을 보여줍니다.
현재의 이미지 워터마킹 방법은 대규모 텍스트-이미지 모델에 의해 가능한 고급 이미지 편집 기술에 취약합니다. 이러한 모델은 편집 중에 포함된 워터마크를 왜곡시킬 수 있어 저작권 보호에 상당한 어려움을 야기합니다. 본 연구에서는 이미지 재생성, 전역 편집, 지역 편집 및 이미지-비디오 생성을 포함한 다양한 이미지 편집 기술에 대한 워터마킹 방법의 견고성을 평가하기 위해 설계된 첫 번째 종합적인 벤치마크인 W-Bench를 소개합니다. 주요 편집 기술에 대한 십일 가지 대표적인 워터마킹 방법의 철저한 평가를 통해 대부분의 방법이 이러한 편집 후 워터마크를 감지하지 못하는 것을 보여줍니다. 이 한계를 해결하기 위해 이미지 품질을 유지하면서 다양한 이미지 편집 기술에 대한 견고성을 크게 향상시키는 워터마킹 방법인 VINE을 제안합니다. 저희의 접근 방식은 두 가지 주요 혁신을 포함합니다: (1) 이미지 편집의 주파수 특성을 분석하고 흐림 왜곡이 유사한 주파수 특성을 나타내는 것을 확인하여 이를 훈련 중 대체 공격으로 사용하여 워터마크의 견고성을 강화하는 것입니다; (2) 대규모 사전 학습 확산 모델 SDXL-Turbo를 활용하여 워터마킹 작업에 적응시켜 더 자연스럽고 견고한 워터마크 삽입을 달성합니다. 실험 결과는 저희의 방법이 다양한 이미지 편집 기술에 대해 우수한 워터마킹 성능을 달성하며 이미지 품질과 견고성 모두에서 기존 방법을 능가한다는 것을 보여줍니다. 코드는 https://github.com/Shilin-LU/VINE에서 확인할 수 있습니다.
트랜스포머는 셀프 어텐션을 사용하여 장거리 의존성을 포착할 수 있으며, 각 토큰이 직접 다른 모든 토큰에 관심을 기울일 수 있습니다. 그러나 여러 어텐션 레이어를 쌓으면 어텐션 집중이 발생합니다. 이 문제를 해결하는 자연스러운 방법은 교차 레이어 어텐션을 사용하는 것으로, 초기 레이어의 정보가 후속 레이어에서 직접적으로 접근 가능하도록 합니다. 그러나 이 방법은 계산 비용이 많이 듭니다. 이 문제를 해결하기 위해 저희는 잔여 값(Residual Value)을 추가하여 교차 레이어 어텐션을 근사하는 ResFormer를 제안합니다. 이 방법을 기반으로 한 변형 중 하나는 단일 레이어 값(SVFormer)를 사용하는 것으로, 모든 레이어가 첫 번째 레이어의 값 임베딩을 공유하여 KV 캐시를 거의 50%로 줄입니다. 포괄적인 경험적 증거는 ResFormer가 깊은 레이어에서의 어텐션 집중 문제를 완화하고 대부분의 레이어에서 표현을 향상시키며, 훈련 오류 및 하위 작업에서 일반적인 트랜스포머, DenseFormer 및 NeuTRENO보다 우수한 성능을 보여준다는 것을 입증합니다. SVFormer는 일반 트랜스포머보다 훈련 속도가 현저히 빠르며, GQA 및 CLA와 같은 다른 방법보다 더 나은 성능을 발휘하며, 시퀀스 길이와 누적 학습률에 의해 성능이 영향을 받습니다.
최근의 다중 모달 퓨전의 발전은 시각-언어 (VL) 모델의 놀라운 성공을 목격했습니다. 이러한 모델은 이미지 캡션 생성 및 시각적 질문 응답과 같은 다양한 다중 모달 응용 프로그램에서 뛰어납니다. 그러나 VL 모델을 구축하는 데는 상당한 하드웨어 자원이 필요하며, 효율성은 두 가지 주요 요인에 의해 제한됩니다. 언어 모델의 확장된 입력 시퀀스와 시각 특징은 더 많은 계산 작업을 필요로 하며, 많은 추가 학습 가능한 매개변수는 메모리 복잡성을 증가시킵니다. 이러한 도전에 의해 이러한 모델의 보다 광범위한 적용이 제한됩니다. 이 간극을 메우기 위해, 우리는 ADEM-VL이라는 효율적인 시각-언어 방법을 제안합니다. 이 방법은 사전 학습된 대규모 언어 모델 (LLM)을 기반으로 VL 모델을 조정하며, 다중 모달 퓨전에서 유사성 측정을 위해 매개변수가 없는 교차 주의 메커니즘을 채택합니다. 이 접근 방식은 시각 특징을 언어 공간에 임베딩하는 것만으로도 훈련 가능한 매개변수의 수를 크게 줄이고 훈련 및 추론 속도를 가속화합니다. 퓨전 모듈에서 표현 학습을 강화하기 위해 우리는 효율적인 다중 스케일 특징 생성 방법을 소개합니다. 이 방법은 시각 인코더를 통해 단일 전방향 패스만 필요로 합니다. 더불어, 우리는 각 텍스트 토큰에 대한 주의 점수를 기반으로 동적으로 덜 관련된 시각 정보를 버리는 적응형 퓨전 방법을 제안합니다. 이를 통해 퓨전 프로세스가 가장 관련성 높은 시각적 특징을 우선적으로 처리하도록 보장합니다. 시각적 질문 응답, 이미지 캡션 생성, 지시 따르기 등 다양한 작업에 대한 실험을 통해 우리의 프레임워크가 기존 방법을 능가함을 입증합니다. 특히, 우리의 방법은 ScienceQA 데이터셋에서 평균 정확도가 0.77% 향상되었으며, 훈련 및 추론 지연 시간이 줄어든 것을 보여 우리의 프레임워크의 우수성을 입증합니다. 코드는 https://github.com/Hao840/ADEM-VL에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 언어 모델링과 숫자 계산 사이의 본질적인 차이 때문에 산술 학습에 어려움을 겪는 것으로 여겨지지만, 구체적인 증거가 부족했습니다. 본 연구는 이 주장에 대한 응답으로 양면 실험을 통해 이를 다룹니다. 우리는 먼저 LLMs가 산술 학습 중에 부분 곱셈을 활용하는지 조사합니다. 우리는 LLMs가 일부 부분 곱셈을 학습 후에 식별할 수 있지만, 이를 산술 작업에 활용하는 데 실패한다는 것을 발견했습니다. 그런데 우리는 LLMs가 산술을 상징적으로 다루는 방식을 탐구하며 작업을 하위 그룹으로 분할하여 어려움이 하위 그룹 복잡성과 선택에서 발생한다는 가설을 세웁니다. 우리의 결과는 하위 그룹 복잉성이 고정될 때, LLMs가 다양한 산술 작업 집합을 유사하게 처리한다는 것을 보여줍니다. 다양한 교육 크기에 걸쳐 위치 수준의 정확도를 분석함으로써, 우리는 그것이 U자형 패턴을 따른다는 것을 더 관찰합니다: LLMs는 첫 번째와 마지막 위치에서 가장 쉬운 패턴을 빠르게 학습하면서, 중간 위치에서 더 어려운 패턴을 점진적으로 학습합니다. 이는 LLMs가 학습 중에 쉬운 것에서 어려운 것으로 따르는 하위 그룹 선택 패러다임을 시사합니다. 우리의 연구는 LLMs가 산술 작업에서 순수한 상징적 학습자임을 확인하며 하위 그룹 수준의 양적 분석을 통해 그들을 심층적으로 이해하는 중요성을 강조합니다.
모델 편집은 언어 모델 내에서 지식을 효율적으로 업데이트하는 점에서 점점 더 인기 있는 대안이 되어왔습니다. 현재 방법들은 주로 신뢰성, 일반화, 지역성에 초점을 맞추며, 이러한 기준을 넘어선 많은 방법들이 있습니다. 최근 연구들 중 일부는 이러한 편집 방법들의 함정인 지식 왜곡이나 충돌을 드러내고 있습니다. 그러나, 편집된 언어 모델의 일반적인 능력은 아직 탐구되지 않았습니다. 본 논문에서는 다양한 편집 방법과 다른 언어 모델에 대한 포괄적인 평가를 수행하고 다음과 같은 결과를 얻었습니다. (1) 기존의 편집 방법은 일반적인 벤치마크에서 불가피한 성능 저하를 유발하며, 기존의 편집 방법은 모델의 일반적인 능력을 몇 번의 편집만으로 유지할 수 있음을 나타냅니다. 편집 횟수가 조금만 많아져도 모델의 본질적인 지식 구조가 교란되거나 완전히 파괴됩니다. (2) 지시에 맞춰 조정된 모델은 편집에 대해 더 견고하며, 편집 이후 일반 지식에서의 성능 하락이 적습니다. (3) 대규모 언어 모델은 작은 모델에 비해 편집에 더 저항력을 보입니다. (4) 편집된 모델의 안전성은 심지어 안전성에 맞춰진 모델들에게도 상당히 약화됩니다. 우리의 연구 결과는 현재의 편집 방법이 언어 모델 내에서 소규모 지식 업데이트에만 적합하며, 더 실용적이고 신뢰할 수 있는 편집 방법에 대한 추가 연구를 독려합니다. 코드 및 재현 세부 사항은 https://github.com/lqinfdim/EditingEvaluation에서 확인할 수 있습니다.
본 논문에서는 생성적 AI 분야에서 Transformer 모델 [33]의 일부 핵심 구성 요소에 대한 수학적 문제 정의와 확률적 최적화 탐구에 대해 심층적인 분석을 제공합니다. 우리는 알고리즘적 및 확률적 최적화 관점에서 생성적 AI 모델의 일부 핵심 기술에 대한 현재의 최첨단 방법들을 위한 잠재적인 추가 향상을 탐구하고 논의합니다. 특히, 우리는 학습 데이터의 가능성을 극대화하기 위해 [9]의 바이트-페어 인코딩 (BPE) 알고리즘의 초기 설정과 유사한 초기 설정을 기반으로 서브워드 인코딩 (SWE)에 대한 최적 솔루션을 제시하며, [28, 31]의 WordPiece 접근 방식과 유사한 목표를 가지고 있습니다. 또한, word2vec 모델 [17]의 하이퍼파라미터를 최적화하기 위한 교차 엔트로피 최적화 방법을 제시합니다. 더불어, 로타리 위치 인코딩 (RoPE) [32]과 선형 편향을 가진 어텐션 (ALiBi) [23]의 요소 조합을 조화 급수로 제안합니다. 또한, 텐서의 하삼각 모양을 유지하면서 자기 회귀 언어 모델을 위해 텐서를 재구성함으로써 어떤 블록이 특정 라운드의 어텐션 계산에 참여할 가능성이 있는지 결정하기 위한 확률적 FlashAttention [6, 7] (PrFlashAttention) 방법을 제시합니다. 마지막으로, [16]에서 제시된 프레임워크를 기반으로 한 다중 쿼리 어텐션 (MQA)을 위한 키-값 (KV) 캐시의 계단식 적응 양자화 (SAQ)를 제시하여 합리적인 모델 품질과 비용 절감을 달성하면서 점진적 양자화 저하를 갖습니다.
RLHF에 대한 우세한 패러다임은 온라인 및 온-폴리시 RL입니다: 대형 언어 모델 (LLM) 정책에서 동기적으로 생성하고 보상 모델로 라벨을 지정하며, LLM의 출력에 대한 피드백을 사용하여 학습합니다. 이 패러다임은 성능이 우수하지만 계산적으로 비효율적입니다. 고전적인 딥 RL 문헌에서 영감을 받아, RLHF에서 생성과 학습을 분리하는 것을 제안합니다. 이를 통해 새로운 샘플을 비동기적으로 생성하면서 동시에 이전 샘플에서 학습할 수 있게 되어 더 빠른 학습과 보다 계산적으로 최적화된 스케일링이 가능해집니다. 그러나 비동기적 학습은 미탐구된 온라인 그러나 오프-폴리시 RLHF에 의존합니다: 이전 모델의 반복에서 샘플을 학습합니다. 이 규칙에서의 도전을 이해하기 위해, 우리는 기본적인 질문을 조사합니다: 비동기적 학습을 가속화하기 위해 얼마나 많은 오프-폴리시를 용인할 수 있으며 성능을 유지할 수 있을까요? 우리가 테스트한 여러 RLHF 알고리즘 중에서 온라인 DPO가 오프-폴리시 데이터에 가장 견고하며, 견고성은 정책 모델의 규모와 함께 증가합니다. 비동기 RLHF에 대한 추가 계산 최적화를 연구했지만, 성능 비용이 발생하여 트레이드오프가 발생함을 발견했습니다. 마지막으로, 우리는 LLaMA 3.1 8B를 동기적 실행보다 40% 빠르게 지시 따르기 작업에 학습시킴으로써 비동기 RLHF의 확장성을 확인하며 최종 성능과 일치시킵니다.
데이터 스케일링은 자연어 처리와 컴퓨터 비전과 같은 분야를 혁신적으로 변화시켰으며, 모델에 놀라운 일반화 능력을 제공했습니다. 본 논문에서는 로봇 공학, 특히 로봇 조작에서 유사한 데이터 스케일링 법칙이 존재하는지, 적절한 데이터 스케일링이 동일 범주 내의 모든 객체에 대해 제로샷으로 배포할 수 있는 단일 작업 로봇 정책을 얻을 수 있는지 조사합니다. 이를 위해, 우리는 모방 학습에서 데이터 스케일링에 대한 포괄적인 경험적 연구를 수행합니다. 다양한 환경과 객체에서 데이터를 수집함으로써, 우리는 정책의 일반화 성능이 훈련 환경, 객체 및 데모 수와 함께 어떻게 변하는지 연구합니다. 연구 과정에서 40,000건 이상의 데모를 수집하고 엄격한 평가 프로토콜에 따라 15,000건 이상의 실제 로봇 실행을 수행합니다. 우리의 연구 결과는 몇 가지 흥미로운 결과를 밝혀냅니다: 정책의 일반화 성능은 환경 및 객체 수와 대략적으로 멱법칙 관계를 따릅니다. 환경과 객체의 다양성이 절대 데모 수보다 훨씬 중요합니다. 환경 또는 객체 당 데모 수가 일정 임계값에 도달하면 추가 데모는 미미한 효과만 미칩니다. 이러한 통찰력을 바탕으로 효율적인 데이터 수집 전략을 제안합니다. 오후에 4명의 데이터 수집자가 작업하는 동안, 우리는 새로운 환경에서 보이지 않는 객체로 약 90%의 성공률을 달성할 수 있는 두 가지 작업을 위한 정책을 가능하게 하는 충분한 데이터를 수집합니다.
데이터 선택은 특정 작업에서 언어 모델(LM) 성능을 최적화하는 데 중요하지만 대부분의 기존 방법은 대상 작업 분포를 효과적으로 고려하지 못하는 것으로 나타났습니다. 현재 접근 방식은 대상 작업에 대한 특정 요구 사항을 완전히 무시하거나 Autoformalization이나 코드 생성과 같은 작업에 필요한 미묘한 패턴을 포착하지 못하는 근사치에 의존하는 경향이 있습니다. 대상 분포를 고려하는 방법은 종종 해시된 n-그램 피처와 같은 단순하고 때로는 노이즈가 있는 표현에 의존하는데, 이는 충돌을 일으키고 노이즈를 도입할 수 있습니다. 우리는 ZIP-FIT이라는 데이터 선택 프레임워크를 소개합니다. 이는 gzip 압축을 사용하여 잠재적인 훈련 데이터와 대상 작업 분포 간의 정렬을 직접 측정합니다. Autoformalization 및 Python 코드 생성에 대한 광범위한 평가에서 ZIP-FIT은 DSIR 및 D4와 같은 선도적인 베이스라인을 크게 능가합니다. ZIP-FIT으로 훈련된 모델은 베이스라인보다 최대 85.1% 빠른 속도로 최저 교차 엔트로피 손실을 달성하며, 더 나은 작업 정렬이 더 효율적인 학습으로 이어진다는 것을 입증합니다. 또한 ZIP-FIT은 DSIR보다 최대 65.8% 빠르게 선택을 수행하며 D4보다 2개 순서 빠르게 작동합니다. 특히, ZIP-FIT은 작은 크기이지만 잘 정렬된 데이터 세트가 종종 큰 크기이지만 덜 특정된 데이터 세트보다 우수하다는 것을 보여주며, 더 높은 품질의 소량 데이터가 낮은 품질의 대량 데이터보다 우수하다는 것을 입증합니다. 우리의 결과는 효율적인 도메인 적응을 위해 작업 인식 데이터 선택이 중요하며, 압축이 작업 정렬을 측정하는 원칙적인 방법을 제공한다는 것을 시사합니다. 타겟팅된 데이터 선택이 작업별 성능을 현저히 향상시킬 수 있다는 것을 보여줌으로써, 우리의 연구는 데이터 품질, 작업 정렬 및 모델 학습 효율성 사이의 관계에 대한 새로운 통찰을 제공합니다.
우리는 다중 초안 추정 샘플링을 고려합니다. 여기서 제안 시퀀스는 서로 다른 초안 모델에서 독립적으로 샘플링됩니다. 각 단계에서 토큰 수준의 초안 선택 체계는 유효한 토큰 목록을 입력으로 받아 대상 모델의 분포와 일치하는 출력 토큰을 생성합니다. 이전 연구들은 입력 토큰 중 하나를 수락할 확률을 최대화하는 최적 체계를 선형 프로그램의 해로 캐스팅할 수 있다는 것을 보여주었습니다. 본 연구에서는 최적 체계를 두 단계로 분해할 수 있다는 것을 보여줍니다: 첫 번째 단계에서 중요 샘플링(IS) 유형의 체계를 사용하여 중간 토큰 하나를 선택하고, 두 번째 단계에서 (단일 초안) 추정 샘플링을 적용하여 출력 토큰을 생성합니다. 두 개의 동일한 초안 모델의 경우, 수락 확률이 1이 되는 필요충분 조건을 설정하고 최적 수락 확률에 대한 명시적 표현을 제공합니다. 이론적 분석은 가중 중요 샘플링을 기반으로 한 새로운 클래스의 토큰 수준 선택 체계를 동기부여합니다. 실험 결과는 다양한 시나리오에서 기준 체계에 비해 달성 가능한 블록 효율성 및 토큰 속도가 일관되게 향상된 것을 보여줍니다.
기계 지원 정리 증명은 수학 정리를 자동으로 증명하기 위해 구조화된 추론을 수행하는 과정을 가리킵니다. 최근에는 기계 학습 모델을 증명 보조 도구와 결합하여 이 작업을 수행하는 데 관심이 급증했습니다. 본 논문에서는 Lean 4 증명 보조 도구와 강력한 탐색 알고리즘인 몬테카를로 트리 탐색을 통해 효율적인 증명 탐색을 가능케 하는 다목적 인터페이스를 제공하는 Pantograph를 소개합니다. 또한 Pantograph는 Lean 4의 추론 단계를 보다 견고하게 처리함으로써 고수준 추론을 가능케 합니다. Pantograph의 아키텍처와 기능에 대한 개요를 제공하며, 기계 학습 모델과 증명 개요를 사용하여 Lean 4 정리를 증명하는 예시 사용 사례에 대해 보고합니다. Pantograph의 혁신적인 기능은 미래 연구자들이 보다 다양하고 강력한 정리 증명 도구를 설계할 수 있도록 하여 복잡한 증명 탐색과 고수준 추론을 수행하는 고급 기계 학습 모델에 대한 길을 열어줍니다.