번역이 포함된 일일 선별된 AI 연구 논문
현재의 긴 문맥 대형 언어 모델(Large Language Models, LLMs)은 최대 100,000 토큰의 입력을 처리할 수 있지만, 심지어 2,000 단어에 미치지 못하는 길이의 출력을 생성하는 데 어려움을 겪습니다. 통제된 실험을 통해, 우리는 모델의 효과적인 생성 길이가 감독된 세밀 조정(Supervised Fine-Tuning, SFT) 중에 본 샘플에 의해 본질적으로 제한된 것을 발견했습니다. 다시 말해, 그들의 출력 제한은 기존 SFT 데이터셋에서 긴 출력 예제의 부족으로 인한 것입니다. 이를 해결하기 위해, 우리는 AgentWrite를 소개합니다. 이는 에이전트 기반 파이프라인으로, 초장기 생성 작업을 하위 작업으로 분해하여 기존 LLMs가 일관된 출력을 생성할 수 있도록 합니다. AgentWrite를 활용하여 우리는 20,000 단어를 초과하는 일관된 출력을 생성할 수 있습니다. AgentWrite를 활용하여 우리는 2k에서 32k 단어로 출력 길이가 다양한 6,000개의 SFT 데이터를 포함하는 LongWriter-6k 데이터셋을 구축했습니다. 이 데이터셋을 모델 훈련에 통합함으로써, 우리는 기존 모델의 출력 길이를 10,000 단어 이상으로 확장하면서 출력 품질을 유지하는 데 성공했습니다. 또한, 초장기 생성 능력을 평가하기 위한 포괄적인 벤치마크인 LongBench-Write를 개발했습니다. DPO를 통해 더욱 향상된 9B 매개변수 모델은 이 벤치마크에서 최첨단 성능을 달성하여 훨씬 더 큰 전용 모델을 능가했습니다. 일반적으로, 우리의 연구는 기존의 긴 문맥 LLM이 이미 더 큰 출력 창을 위한 잠재력을 갖고 있음을 보여줍니다. 모델 정렬 중에 확장된 출력을 갖는 데이터만 있으면 이 능력을 발휘할 수 있습니다. 우리의 코드 및 모델은 다음에서 확인할 수 있습니다: https://github.com/THUDM/LongWriter.
우리는 텍스트 프롬프트로부터 고품질 이미지를 생성하는 잠재 확산 모델 인 Imagen 3를 소개합니다. 우리는 품질 및 책임 평가를 설명합니다. Imagen 3는 평가 시점에서 다른 최첨단 모델들보다 선호됩니다. 또한, 우리는 안전 및 표현에 대한 문제들과 우리 모델의 잠재적 피해를 최소화하기 위해 사용한 방법에 대해 논의합니다.
대형 언어 모델 (LLM) 에이전트들은 실제 소프트웨어 엔지니어링 (SWE) 문제를 해결하는 데 큰 잠재력을 보여주고 있습니다. 가장 고급 오픈 소스 SWE 에이전트는 SWE-Bench Lite에서 실제 GitHub 문제의 27% 이상을 해결할 수 있습니다. 그러나 이러한 정교한 에이전트 프레임워크들은 다양한 강점을 보이며, 특정 작업에서 뛰어나지만 다른 작업에서는 성능이 부족할 수 있습니다. 이러한 에이전트들의 다양성을 완전히 활용하기 위해, 우리는 DEI (Diversity Empowered Intelligence)를 제안합니다. 이는 그들의 독특한 전문 지식을 활용하는 프레임워크로, 기존 SWE 에이전트 프레임워크 위에 메타 모듈로 작동하여 문제 해결 능력을 향상시키는데 사용됩니다. 실험 결과는 DEI로 이끌어진 에이전트 위원회가 가장 우수한 개별 에이전트의 성능을 크게 능가할 수 있다는 것을 보여줍니다. 예를 들어, 최대 개별 해결율이 SWE-Bench Lite에서 27.3%인 오픈 소스 SWE 에이전트 그룹은 DEI와 함께 34.3%의 해결율을 달성하여 25%의 향상을 이루며 대부분의 폐쇄 소스 솔루션을 능가합니다. 우리의 최고 성적을 거둔 그룹은 55%의 해결율로 뛰어나며 SWE-Bench Lite에서 최고 순위를 차지합니다. 우리의 연구 결과는 협력적 AI 시스템 및 복잡한 소프트웨어 엔지니어링 과제를 해결할 수 있는 잠재력에 대한 연구 분야의 성장에 기여합니다.
과학 문헌의 급속한 성장은 연구자들에게 최신 기술 발전을 따라가고 새로운 영역을 탐구하는 데 상당한 어려움을 가중시킵니다. 우리는 연구자들의 다양한 질문에 답변함으로써 연구과정을 가속화하는 인공지능 기술을 활용하는 혁신적인 플랫폼인 OpenResearcher를 소개합니다. OpenResearcher는 최신 도메인 특화 지식을 통합하는 데에 대형 언어 모델(Large Language Models, LLMs)을 활용하는 검색-증강 생성(Retrieval-Augmented Generation, RAG)에 기반을 두고 구축되었습니다. 더불어, 우리는 OpenResearcher를 위해 연구자들의 질의를 이해하고, 과학 문헌에서 검색하며, 검색된 정보를 필터링하고, 정확하고 포괄적인 답변을 제공하며, 이러한 답변을 자체적으로 개선하는 다양한 도구를 개발했습니다. OpenResearcher는 효율성과 효과성을 균형있게 유지하기 위해 이러한 도구들을 유연하게 활용할 수 있습니다. 결과적으로, OpenResearcher는 연구자들이 시간을 절약하고 새로운 통찰을 발견하며 과학적 획기를 이루는 가능성을 높이도록 지원합니다. 데모, 비디오, 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/GAIR-NLP/OpenResearcher.
대형 언어 모델의 확장은 다양한 작업에서 그들의 능력을 혁신적으로 향상시켰지만, 이러한 성장은 효율적인 계산 전략과 일치해야 합니다. 전문가 집합(Mixture-of-Experts, MoE) 아키텍처는 모델 크기를 확장하면서 훈련 비용을 크게 증가시키지 않고 확장할 수 있는 능력으로 빛을 발합니다. 그러나 현재의 MoE 모델은 종종 매개 변수의 비효율성을 나타냅니다. 예를 들어, 520억 개의 매개 변수를 가진 사전 훈련된 MoE 기반 대형 언어 모델은 67억 개의 매개 변수를 가진 표준 모델과 유사한 성능을 발휘할 수 있습니다. MoE의 중요한 부분인 현재의 라우터는 서로 다른 레이어에서 토큰을 독립적으로 할당하면서 과거의 라우팅 정보를 활용하지 않아 최적이 아닌 토큰-전문가 조합과 매개 변수의 비효율성 문제로 이어질 수 있습니다. 이 문제를 완화하기 위해 우리는 전문가 집합을 위한 레이어별 순환 라우터(RMoE)를 소개합니다. RMoE는 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 활용하여 연속적인 레이어 간의 라우팅 결정 사이의 종속성을 설정합니다. 이러한 레이어별 순환은 입력 토큰에 대해 효율적으로 병렬로 계산될 수 있으며 협상 가능한 비용을 도입합니다. 우리의 방대한 경험적 평가는 RMoE 기반 언어 모델이 일관되게 여러 기준 모델을 능가함을 입증합니다. 더 나아가, RMoE는 기존 방법과 직교하는 새로운 계산 단계를 통합하여 다른 MoE 아키텍처와의 원활한 호환성을 제공합니다. 우리의 분석은 RMoE의 이익을 효과적인 교차 레이어 정보 공유에 기인하며, 이는 전문가 선택과 다양성을 향상시킵니다. 우리의 코드는 https://github.com/qiuzh20/RMoE 에 있습니다.
대형 언어 모델의 개발은 일반적으로 대규모 텍스트 말뭉치에서 사전 훈련되고 모델을 인간의 선호도나 하류 작업과 조정하기 위한 튜닝 단계를 거치는 사전 훈련 후 정렬 패러다임의 형성으로 이어진다. 본 연구에서는 여러 중간 사전 훈련된 모델 체크포인트를 세밀 조정함으로써 사전 훈련과 세밀 조정 사이의 관계를 조사한다. 18개의 데이터셋에 대한 결과는 i) 지속적인 사전 훈련이 세밀 조정 이후에 드러나는 잠재적인 방식으로 모델을 개선시킨다는 것을 시사한다; ii) 추가 세밀 조정으로, 모델이 사전 훈련 단계에서 잘 수행하지 않은 데이터셋이 그렇지 않은 것보다 훨씬 더 많은 이득을 얻는다; iii) 지도된 세밀 조정을 통해 모델은 상당한 이점을 얻지만, 세밀 조정 중에 이전에 알려진 도메인 지식과 보지 못한 작업을 잊을 수도 있다; iv) 지도된 세밀 조정 이후에 모델은 평가 프롬프트에 대해 높은 민감도를 보이지만, 이 민감도는 더 많은 사전 훈련으로 완화될 수 있다.
복잡한 시각적 장면에서 객체 중심 추상화를 추출하는 능력은 인간 수준의 일반화를 뒷받침합니다. 객체 중심 학습 방법에서 상당한 진전이 있었음에도, 3D 물리적 세계에서 객체 중심 표현을 학습하는 것은 중요한 과제입니다. 본 연구에서는 SlotLifter를 제안합니다. 이는 슬롯 안내 기능을 통해 장면 재구성과 분해를 동시에 다루는 혁신적인 객체 중심 광도 모델입니다. 이러한 설계는 객체 중심 학습 표현과 이미지 기반 렌더링 방법을 통합하여, 네 가지 어려운 합성 및 네 가지 복잡한 실제 데이터셋에서 장면 분해 및 새로운 시점 합성에서 최첨단 성능을 제공하며, 기존의 3D 객체 중심 학습 방법을 크게 능가합니다. 철저한 탈석발적 연구를 통해 SlotLifter의 설계의 효과를 보여주며, 잠재적인 미래 방향에 대한 중요한 통찰을 제시합니다.
Geoffrey Hinton의 생성 모델링 강조에서 영감을 받아 "모양을 인식하려면 먼저 그것들을 생성하는 법을 배워야 한다"는 원칙을 탐구하기 위해 3D 확산 모델의 사용을 탐구하여 객체 분류에 적용했습니다. 이러한 모델들로부터 밀도 추정치를 활용하여 접근하는 DC3DO(Diffusion Classifier for 3D Objects)는 추가적인 학습 없이 3D 모양의 제로샷 분류를 가능하게 합니다. 평균적으로, 우리의 방법은 다중뷰 대조본에 비해 12.5%의 성능 향상을 달성하며, 판별적 접근보다 우수한 다중모달 추론을 보여줍니다. DC3DO는 ShapeNet에서 훈련된 클래스 조건부 확산 모델을 사용하며, 의자와 자동차의 포인트 클라우드에서 추론을 실행합니다. 본 연구는 3D 객체 분류에서 생성 모델의 잠재력을 강조합니다.
UniT은 새로운 접촉 표현 학습 방법으로, VQVAE를 사용하여 조밀한 잠재 공간을 학습하고 접촉 표현으로 작용합니다. 이는 단일 단순 물체에서 얻은 촉각 이미지를 사용하여 전이 가능성과 일반화성을 갖는 표현을 학습합니다. 이 촉각 표현은 인식 작업 및 조작 정책 학습을 포함한 다양한 하류 작업으로 제로샷 전이될 수 있습니다. 손에 들고 있는 3D 자세 추정 작업에서의 벤치마킹 결과는 UniT이 기존의 시각적 및 촉각적 표현 학습 방법을 능가함을 보여줍니다. 또한 UniT의 정책 학습 효과는 다양한 조작 대상 물체 및 복잡한 로봇-물체-환경 상호작용을 포함하는 세 가지 실제 세계 작업에서 입증되었습니다. 광범위한 실험을 통해 UniT은 촉각 표현 학습을 위한 간단하고 훈련하기 쉬우면서도 효과적인 방법임이 입증되었습니다. 자세한 내용은 저희의 오픈 소스 저장소 https://github.com/ZhengtongXu/UniT 및 프로젝트 웹사이트 https://zhengtongxu.github.io/unifiedtactile.github.io/를 참조해주시기 바랍니다.
대형 언어 모델(LLM)은 다양한 작업에서 뛰어난 능력을 보여주었습니다. 그러나 많은 LLM은 고자원 언어와 저자원 언어 간에 상당한 성능 차이를 나타냅니다. 이러한 도전에 대처하기 위해, 우리는 균형 잡힌 고성능 다국어 능력을 충족시키기 위해 설계된 오픈 소스 다국어 LLM인 FuxiTranyu를 제안합니다. 80억 개의 매개변수를 갖는 기본 모델인 FuxiTranyu-8B는 43개의 자연 언어와 16개의 프로그래밍 언어를 포함한 6000억 토큰을 다루는 균형 잡힌 다국어 데이터 저장소에서 처음부터 훈련되었습니다. 기본 모델 외에도, 우리는 두 가지의 지시어에 맞게 조정된 모델을 개발했습니다. 다양한 다국어 지시어 데이터셋에 맞게 세밀하게 조정된 FuxiTranyu-8B-SFT와 향상된 정렬 능력을 위해 선호 데이터셋에서 DPO로 더욱 정제된 FuxiTranyu-8B-DPO가 있습니다. 다양한 다국어 벤치마크에서의 광범위한 실험 결과는 FuxiTranyu의 경쟁력 있는 성능을 입증하며, 기존 다국어 LLM인 BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B 및 Mistral-7B-Instruct와 대비됩니다. 뉴런 및 표현 수준에서의 해석 가능성 분석은 FuxiTranyu가 다양한 언어 간에 일관된 다국어 표현을 학습할 수 있다는 것을 시사합니다. 더 많은 다국어 LLM 및 그 작동 메커니즘에 대한 연구를 촉진하기 위해, 우리는 HuggingFace와 Github에서 기본 및 지시어에 맞게 조정된 FuxiTranyu 모델과 58개의 사전 훈련 체크포인트를 함께 공개합니다.
영화 대본 요약은 오랜 입력 맥락과 영화에 고유한 다양한 요소를 이해해야 하기 때문에 어려운 과제입니다. 대형 언어 모델은 문서 요약에서 큰 진전을 보여주었지만 종종 긴 입력 맥락을 처리하는 데 어려움을 겪습니다. 게다가 최근 연구에서 텔레비전 대본에 주목을 기울였지만, 영화 대본 요약은 아직 충분히 탐구되지 않았습니다. 이 분야의 연구를 촉진하기 위해 영화 대본의 추상적 요약을 위한 새로운 데이터 세트인 MovieSum을 제시합니다. 이 데이터 세트는 2200편의 영화 대본과 그들의 위키백과 줄거리 요약을 포함하고 있습니다. 우리는 영화 대본을 그들의 구조적 요소를 나타내도록 수동으로 형식화했습니다. 기존 데이터 세트와 비교했을 때, MovieSum은 여러 독특한 특징을 갖고 있습니다: (1) TV 에피소드 대본보다 긴 영화 대본을 포함하고 있습니다. (2) 이전 영화 대본 데이터 세트의 두 배 크기입니다. (3) 추가적인 외부 지식에 대한 접근을 용이하게 하기 위해 IMDb ID와 메타데이터를 제공합니다. 또한 최근에 공개된 대형 언어 모델이 우리 데이터 세트에 적용된 요약 결과를 제시하여 자세한 기준선을 제공합니다.
사전 훈련된 LLM은 요약 및 엔티티 인식과 같은 다양한 전통적인 자연어 처리 (NLP) 작업에서 상당한 능력을 보여주었습니다. 본 논문에서는 LLM의 고품질 단백질 서열 생성에 대한 응용을 탐구합니다. 구체적으로, Mistral-7B1, Llama-2-7B2, Llama-3-8B3, 그리고 gemma-7B4를 포함한 일련의 사전 훈련된 LLM을 채택하여 유효한 단백질 서열을 생성합니다. 이러한 모델은 모두 공개적으로 이용 가능합니다. 이 분야의 이전 연구와 달리, 우리의 접근 방식은 42,000개의 서로 다른 인간 단백질 서열로 구성된 비교적 작은 데이터셋을 활용합니다. 이러한 모델들을 단백질 관련 데이터 처리를 위해 재학습하여 생물학적으로 타당한 단백질 구조를 생성합니다. 우리의 연구 결과는 적은 데이터에도 불구하고, 적응된 모델들이 수백만 개의 단백질 서열로 훈련된 ProGen 변형, ProtGPT2, 그리고 ProLLaMA와 같은 확립된 단백질 중심 모델과 유사한 효율성을 보여준다는 것을 입증합니다. 우리 모델의 성능을 검증하고 정량화하기 위해 pLDDT, RMSD, TM-score, 그리고 REU와 같은 표준 메트릭을 활용한 비교 분석을 수행합니다. 더불어, 우리는 네 모델의 훈련된 버전을 공개적으로 이용 가능하게 하여 계산 생물학 분야에서의 더 큰 투명성과 협력을 촉진하기로 했습니다.
인간과 로봇 모두에게 접촉이 많은 조작 작업을 수행하는 데 중요한 촉각인 감각인 감각은 로봇의 촉각 감지에서 1) 센서 신호 해석, 2) 새로운 시나리오에서 센서 신호 생성, 3) 센서 기반 정책 학습이라는 세 가지 주요 도전 과제가 있습니다. 시각적 촉각 센서의 경우 해석은 시각 센서(예: RGB 카메라)와의 밀접한 관계로 용이해졌습니다. 그러나 생성은 여전히 어려운데, 시각적 촉각 센서는 일반적으로 접촉, 변형, 조명 및 이미징이 포함되어 있으며 이는 시뮬레이션하기 비용이 많이 듭니다. 따라서 정책 학습은 시뮬레이션을 대규모 데이터 수집에 활용할 수 없기 때문에 어려웠습니다. 저희는 TacSL(taxel)이라는 GPU 기반 시각적 촉각 센서 시뮬레이션 및 학습을 위한 라이브러리를 제공합니다. TacSL을 사용하면 Isaac Gym 시뮬레이터 내에서 이전 최첨단 기술보다 200배 빠르게 시각적 촉각 이미지를 시뮬레이션하고 접촉력 분포를 추출할 수 있습니다. 또한 TacSL은 여러 센서 모델, 접촉 중심의 훈련 환경, 시뮬레이션에서 실제로 전환할 수 있는 온라인/오프라인 알고리즘을 포함한 학습 도구킷을 제공합니다. 알고리즘 측면에서는 시뮬레이션에서 실제로 전환할 수 있는 촉각 기반 정책을 효과적이고 효율적으로 학습하기 위해 설계된 새로운 온라인 강화 학습 알고리즘인 비대칭 액터-크리틱 증류(\sysName)를 소개합니다. 마지막으로, 저희의 라이브러리와 알고리즘의 유용성을 증명하기 위해 증류 및 다중 모달 감지가 접촉이 많은 조작 작업 및 가장 중요한 sim-to-real 전송에 미치는 이점을 평가합니다. 부가 동영상 및 결과는 https://iakinola23.github.io/tacsl/에서 확인할 수 있습니다.
확산 기반 텍스트 대 이미지 생성 모델은 미술 콘텐츠 합성 분야를 크게 발전시켰습니다. 그러나 현재의 초상화 스타일화 방법은 일반적으로 예시를 기반으로 한 모델 세부 조정이 필요하거나 DDIM 역전을 사용하여 이미지를 소음 공간으로 되돌리는 것이 필요한데, 이는 이미지 생성 과정을 상당히 느리게 만듭니다. 이러한 제한을 극복하기 위해 본 논문은 단순히 네 번의 샘플링 단계만으로 콘텐츠와 스타일 특징 융합을 달성하는 확산 모델을 기반으로 한 역전 없는 초상화 스타일화 프레임워크를 제안합니다. 우리는 일관성 증류를 사용하는 잠재 일관성 모델이 소음이 있는 이미지로부터 대표적인 일관성 특징을 효과적으로 추출할 수 있다는 것을 관찰했습니다. 콘텐츠 및 스타일 이미지로부터 추출된 일관성 특징을 혼합하기 위해 우리는 대상 이미지의 주의 공간 내에서 콘텐츠와 스타일 특징을 세심하게 병합하는 스타일 강화 주의 제어 기술을 소개합니다. 더불어, 일관성 특징 내의 중복 특징을 융합하는 전략을 제안하여 주의 제어의 계산 부하를 줄이고자 합니다. 광범위한 실험을 통해 우리가 제안한 프레임워크가 스타일화 효율성과 충실성을 향상시키는 데 효과적임을 검증했습니다. 코드는 https://github.com/liujin112/ZePo에서 확인할 수 있습니다.
일반적인 해체 기반 화자 익명화 시스템은 일반적으로 음성을 콘텐츠, 화자 및 억양 특징으로 분리하기 위해 개별 인코더를 사용합니다. 본 논문은 새로운 음성 속성, 예를 들어 감정,을 보다 큰 extent로 보존해야 할 때 이러한 시스템을 어떻게 적응시킬지 탐구합니다. 기존 시스템은 화자 임베딩을 익명화하는 데 능숙하지만 감정을 보존하도록 설계되지는 않았습니다. 이에 대한 두 가지 전략이 검토됩니다. 먼저, 사전 훈련된 감정 인코더로부터 감정 임베딩을 통합하는 것이 감정적 단서를 보존하는 데 도움이 될 수 있음을 보여줍니다. 비록 이 방법이 개인 정보 보호를 약간 희생시키지만요. 또는, 우리는 감정 보상 전략을 제안합니다. 이는 익명화된 화자 임베딩에 적용되는 후처리 단계로, 원래 화자의 신원을 숨기고 화자 임베딩 익명화 중에 상실된 감정적 특성을 재도입합니다. 구체적으로, 각 감정에 대해 별도의 경계를 학습하기 위해 서포트 벡터 머신을 사용하여 감정 속성을 모델링합니다. 추론 중에, 원래 화자 임베딩은 두 가지 방식으로 처리됩니다. 하나는 감정 지시기에 의해 감정을 예측하고 감정과 일치하는 SVM을 정확하게 선택하는 것이고, 둘은 화자 익명화기에 의해 화자 특성을 숨기는 것입니다. 그런 다음 익명화된 화자 임베딩은 감정적 방향을 향해 해당 SVM 경계를 따라 수정되어 감정적 단서를 보존합니다. 제안된 전략은 또한 일반적인 해체 기반 화자 익명화 시스템을 다른 대상 언어적 속성을 보존하도록 적응하는 데 유용할 것으로 예상되며, 다양한 하향 작업의 잠재력을 가질 것으로 기대됩니다.