번역이 포함된 일일 선별된 AI 연구 논문
Large Language Models for Code (Code LLM) are flourishing. New and powerful models are released on a weekly basis, demonstrating remarkable performance on the code generation task. Various approaches have been proposed to boost the code generation performance of pre-trained Code LLMs, such as supervised fine-tuning, instruction tuning, reinforcement learning, etc. In this paper, we propose a novel RRTF (Rank Responses to align Test&Teacher Feedback) framework, which can effectively and efficiently boost pre-trained large language models for code generation. Under this framework, we present PanGu-Coder2, which achieves 62.20% pass@1 on the OpenAI HumanEval benchmark. Furthermore, through an extensive evaluation on CoderEval and LeetCode benchmarks, we show that PanGu-Coder2 consistently outperforms all previous Code LLMs.
우리는 정확도와 효율성 모두에서 기존의 소프트맥스 어텐션 기반 모델을 능가하는 최초의 선형 어텐션 기반 대규모 언어 모델(LLM)인 TransNormerLLM을 소개합니다. TransNormerLLM은 이전의 선형 어텐션 아키텍처인 TransNormer를 발전시켜, 위치 임베딩, 선형 어텐션 가속, 게이팅 메커니즘, 텐서 정규화, 추론 가속 및 안정화와 같은 고급 수정을 포함합니다. 특히, LRPE와 지수 감쇠를 함께 사용하여 어텐션 희석 문제를 피하면서도 모델이 토큰 간의 전역적 상호작용을 유지할 수 있도록 합니다. 또한, 런타임에서 선형 어텐션을 두 배 이상 가속하고 메모리 사용량을 놀라울 정도로 네 배 줄이는 최첨단 기술인 Lightning Attention을 제안합니다. TransNormer의 성능을 더욱 향상시키기 위해, 우리는 게이팅 메커니즘을 활용하여 학습을 원활하게 하고 새로운 텐서 정규화 방식을 도입하여 모델을 가속화함으로써 20% 이상의 인상적인 가속을 달성했습니다. 더 나아가, 시퀀스 길이에 관계없이 수치적 안정성과 일관된 추론 속도를 보장하는 강력한 추론 알고리즘을 개발하여 학습 및 추론 단계 모두에서 우수한 효율성을 입증했습니다. 우리 모델의 설계 핵심은 확장성에 있으며, 대규모 클러스터에서 원활하게 배포할 수 있고 더 광범위한 모델로의 확장을 용이하게 하면서도 뛰어난 성능 지표를 유지합니다. 우리는 자체 수집한 6TB를 초과하고 2조 개 이상의 토큰을 포함하는 코퍼스에 대한 일련의 포괄적인 실험을 통해 모델 설계를 엄격하게 검증했습니다. 데이터 품질과 관련성을 보장하기 위해, 우리는 수집한 데이터를 필터링하기 위한 새로운 자체 정리 전략을 구현했습니다. 우리의 사전 학습된 모델은 효율적인 LLM 분야의 커뮤니티 발전을 촉진하기 위해 공개될 예정입니다.
로봇 기술 습득을 위한 프레임워크를 제안한다. 이 프레임워크는 1) 언어 라벨이 부착된 로봇 데이터 생성의 효율적 확장과 2) 이러한 데이터를 강력한 다중 작업 언어 조건 시각-운동 정책으로 효과적으로 정제하는 것을 목표로 한다. 첫 번째 목표를 위해, 대형 언어 모델(LLM)을 사용하여 고수준 계획을 안내하고, 샘플링 기반 로봇 플래너(예: 모션 또는 그랩 샘플러)를 활용하여 다양하고 풍부한 조작 궤적을 생성한다. 데이터 수집 과정을 강화하기 위해, LLM은 각 작업의 성공 조건을 위한 코드 스니펫을 추론하여, 데이터 수집 과정에서 실패를 감지하고 재시도할 수 있도록 하며, 동시에 궤적에 성공/실패 라벨을 자동으로 부여한다. 두 번째 목표를 위해, 단일 작업 행동 복제 접근법인 확산 정책을 언어 조건을 포함한 다중 작업 설정으로 확장한다. 마지막으로, 장기적 행동, 상식적 추론, 도구 사용, 직관적 물리학을 테스트하기 위해 5개 영역에 걸친 18개 작업으로 구성된 새로운 다중 작업 벤치마크를 제안한다. 정제된 정책은 데이터 수집 정책에서 강력한 재시도 행동을 성공적으로 학습했으며, 5개 영역에서 평균 34.8%의 절대 성공률 향상을 달성했다. 벤치마크, 코드, 그리고 질적 결과는 웹사이트 https://www.cs.columbia.edu/~huy/scalingup/에서 확인할 수 있다.
시각 객체 추적은 컴퓨터 비전에서 기본적인 비디오 작업 중 하나입니다. 최근, 인지 알고리즘의 성능이 크게 향상되면서 단일/다중 객체 추적과 박스/마스크 기반 추적의 통합이 가능해졌습니다. 이 중에서도 Segment Anything Model(SAM)이 큰 주목을 받고 있습니다. 본 보고서에서는 비디오에서 고품질의 객체 추적을 위한 프레임워크인 HQTrack을 제안합니다. HQTrack은 주로 비디오 다중 객체 분할기(VMOS)와 마스크 정제기(MR)로 구성됩니다. 비디오의 초기 프레임에서 추적할 객체가 주어지면, VMOS는 해당 객체의 마스크를 현재 프레임으로 전파합니다. 이 단계에서의 마스크 결과는 VMOS가 여러 클로즈셋 비디오 객체 분할(VOS) 데이터셋으로 학습되었기 때문에 복잡하고 극단적인 장면에 대한 일반화 능력이 제한적이어서 충분히 정확하지 않습니다. 추적 마스크의 품질을 더욱 향상시키기 위해, 사전 학습된 MR 모델을 사용하여 추적 결과를 정제합니다. 우리의 패러다임의 효과를 입증하는 강력한 증거로, 테스트 시 데이터 증강 및 모델 앙상블과 같은 기법을 사용하지 않고도 HQTrack은 Visual Object Tracking and Segmentation(VOTS2023) 챌린지에서 2위를 차지했습니다. 코드와 모델은 https://github.com/jiawen-zhu/HQTrack에서 확인할 수 있습니다.
의학은 본질적으로 다중 모달(multimodal)적 특성을 지니며, 텍스트, 영상, 유전체학 등 다양한 데이터 양식을 포함합니다. 이러한 데이터를 대규모로 유연하게 인코딩, 통합 및 해석할 수 있는 범용 생물의학 인공지능(AI) 시스템은 과학적 발견부터 진료 제공에 이르기까지 영향력 있는 응용 분야를 가능하게 할 잠재력을 가지고 있습니다. 이러한 모델의 개발을 가능하게 하기 위해, 우리는 먼저 새로운 다중 모달 생물의학 벤치마크인 MultiMedBench를 구축했습니다. MultiMedBench는 의학 질문 응답, 유방촬영 및 피부과 영상 해석, 방사선 보고서 생성 및 요약, 유전체 변이 식별 등 14가지 다양한 과제를 포함합니다. 그런 다음, 우리는 범용 생물의학 AI 시스템의 개념 증명인 Med-PaLM Multimodal(Med-PaLM M)을 소개합니다. Med-PaLM M은 임상 언어, 영상, 유전체학을 포함한 생물의학 데이터를 동일한 모델 가중치로 유연하게 인코딩하고 해석하는 대규모 다중 모달 생성 모델입니다. Med-PaLM M은 MultiMedBench의 모든 과제에서 최신 기술 수준과 경쟁하거나 이를 능가하는 성능을 보이며, 종종 전문가 모델을 크게 앞지릅니다. 또한, 새로운 의학 개념 및 과제에 대한 제로샷(zero-shot) 일반화, 과제 간의 긍정적 전이 학습, 그리고 제로샷 의학 추론의 출현 사례를 보고합니다. Med-PaLM M의 능력과 한계를 더 깊이 탐구하기 위해, 우리는 모델이 생성한(그리고 인간이 작성한) 흉부 X-선 보고서에 대한 방사선 전문가 평가를 수행하고, 다양한 모델 규모에서 고무적인 성능을 관찰했습니다. 246개의 과거 흉부 X-선 영상에 대한 병렬 순위 평가에서, 임상의들은 최대 40.50%의 사례에서 방사선 전문가가 작성한 보고서보다 Med-PaLM M 보고서를 선호하는 것으로 나타났으며, 이는 잠재적인 임상 유용성을 시사합니다. 이러한 모델을 실제 사용 사례에서 검증하기 위해서는 상당한 추가 작업이 필요하지만, 우리의 결과는 범용 생물의학 AI 시스템 개발을 위한 중요한 이정표를 나타냅니다.
텍스트-3D 생성은 최근 수십억 개의 이미지-텍스트 쌍으로 학습된 2D 확산 모델을 기반으로 상당한 관심을 받고 있다. 기존 방법들은 주로 점수 증류를 통해 2D 확산 사전 지식을 활용하여 NeRF와 같은 3D 모델 생성을 감독한다. 그러나 점수 증류는 시점 불일치 문제를 겪기 쉬우며, 암묵적인 NeRF 모델링은 임의의 형태를 초래할 수 있어 현실적이지 않고 통제 불가능한 3D 생성을 야기한다. 본 연구에서는 희소하지만 자유롭게 사용 가능한 3D 포인트와 현실적이며 형태 제어가 가능한 3D 생성 간의 격차를 해소하기 위해 2D 및 3D 확산 모델의 지식을 증류하는 Points-to-3D라는 유연한 프레임워크를 제안한다. Points-to-3D의 핵심 아이디어는 텍스트-3D 생성을 안내하기 위해 제어 가능한 희소 3D 포인트를 도입하는 것이다. 구체적으로, 단일 참조 이미지를 기반으로 3D 확산 모델인 Point-E에서 생성된 희소 포인트 클라우드를 기하학적 사전 지식으로 사용한다. 희소 3D 포인트를 더 효과적으로 활용하기 위해, NeRF의 기하학이 희소 3D 포인트의 형태와 일치하도록 적응적으로 유도하는 효율적인 포인트 클라우드 지도 손실을 제안한다. 기하학을 제어하는 것 외에도, NeRF를 더 일관된 시점의 외관을 위해 최적화한다. 구체적으로, 학습된 간결한 기하학의 깊이 맵과 텍스트를 기반으로 공개된 2D 이미지 확산 모델인 ControlNet에 점수 증류를 수행한다. 정성적 및 정량적 비교를 통해 Points-to-3D가 텍스트-3D 생성에서 시점 일관성을 개선하고 우수한 형태 제어성을 달성함을 입증한다. Points-to-3D는 사용자에게 텍스트-3D 생성을 개선하고 제어할 수 있는 새로운 방법을 제공한다.
예술가나 그래픽 디자이너에게 장면의 공간적 배치는 중요한 디자인 선택 사항이다. 그러나 기존의 텍스트-이미지 확산 모델은 공간 정보를 통합하는 데 제한된 지원만을 제공한다. 본 논문은 예술가들이 하위 장면들을 조합하여 고품질 이미지를 생성할 수 있도록 하는 수단으로서 컴포지트 디퓨전(Composite Diffusion)을 소개한다. 예술가들은 유연한 자유형 세그먼트 레이아웃을 통해 이러한 하위 장면들의 배치를 지정할 수 있다. 각 하위 장면의 내용은 주로 자연어 텍스트로 설명하고, 추가적으로 참조 이미지나 라인 아트, 낙서, 인간 포즈, 캐니 에지 등의 제어 입력을 활용하여 설명할 수 있다. 우리는 하위 장면을 생성, 조합, 조화시키는 대체 방법을 가능하게 하는 컴포지트 디퓨전을 위한 포괄적이고 모듈화된 방법을 제공한다. 더 나아가, 우리는 합성 이미지가 이미지 품질과 예술가의 의도를 달성하는 데 있어 효과적인지 평가하고자 한다. 기존의 이미지 품질 메트릭은 이미지 합성물에 대한 전체적인 평가가 부족하다는 점을 지적하며, 이를 해결하기 위해 합성 생성과 특히 관련된 새로운 품질 기준을 제안한다. 우리는 우리의 접근 방식이 직관적인 예술 창작 방법을 제공한다고 믿는다. 광범위한 사용자 설문조사와 정량적, 정성적 분석을 통해, 이 방법이 이미지 생성에 대한 공간적, 의미적, 창의적 통제력을 더욱 높일 수 있음을 보여준다. 또한, 우리의 방법은 기본 확산 모델의 아키텍처를 재훈련하거나 수정할 필요가 없으며, 미세 조정된 모델과 플러그 앤 플레이 방식으로 작동할 수 있다.
우리는 추가적인 주석 없이 사용자와 배포된 모델 간의 자연스러운 대화로부터 학습하여 소셜 대화 에이전트를 개선하는 방법을 연구합니다. 기계 생성 발화의 품질을 암묵적으로 측정하기 위해, 수집된 대화 에피소드에서 사용자 응답의 길이, 감정 및 미래 인간 발화의 반응과 같은 신호를 활용합니다. 우리의 실험은 BlenderBot(Xu 외, 2023)에서 공개된 배포 데이터를 사용합니다. 인간 평가 결과, 새로운 모델이 기준 응답 대비 개선된 성능을 보였으나, 일부 대리 신호가 바람직하지 않은 특성을 가진 생성물을 더 많이 유발할 수도 있음을 발견했습니다. 예를 들어, 대화 길이를 최적화하면 기준 대비 논란의 여지가 있거나 불친절한 생성물이 더 많아질 수 있는 반면, 긍정적인 감정이나 반응을 최적화하면 이러한 행동이 감소할 수 있습니다.
최근의 비전 트랜스포머, 대형 커널 CNN 및 MLP는 전역 범위에서의 효과적인 정보 융합 덕분에 다양한 비전 작업에서 주목할 만한 성과를 거두었습니다. 그러나 특히 모바일 기기에서의 효율적인 배포는 여전히 자기 주의 메커니즘, 대형 커널 또는 완전 연결 계층의 높은 계산 비용으로 인해 상당한 어려움을 겪고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 전통적인 컨볼루션 정리를 딥러닝에 적용하고, 적응형 주파수 필터가 효율적인 전역 토큰 믹서로 사용될 수 있음을 밝혔습니다. 이러한 통찰을 바탕으로, 우리는 적응형 주파수 필터링(AFF) 토큰 믹서를 제안합니다. 이 신경 연산자는 푸리에 변환을 통해 잠재 표현을 주파수 영역으로 전환하고, 요소별 곱셈을 통해 의미론적으로 적응형 주파수 필터링을 수행합니다. 이는 수학적으로 잠재 표현의 공간 해상도만큼 큰 동적 컨볼루션 커널을 사용하여 원래 잠재 공간에서 토큰 믹싱 연산을 수행하는 것과 동일합니다. 우리는 AFF 토큰 믹서를 주요 신경 연산자로 사용하여 경량 신경망인 AFFNet을 구축했습니다. 광범위한 실험을 통해 제안된 AFF 토큰 믹서의 효과를 입증하고, AFFNet이 시각 인식 및 밀집 예측 작업을 포함한 다양한 비전 작업에서 다른 경량 네트워크 설계와 비교하여 우수한 정확도와 효율성의 균형을 달성함을 보여줍니다.
최근 몇 년간 궤적 예측 분야는 자율주행차(AVs)와 보행자 동작 추적을 위한 대규모 실제 인간 궤적 데이터셋의 공개로 크게 성장했습니다. 이러한 데이터셋은 연구 커뮤니티에 큰 도움이 되었지만, 각각 고유한 데이터 형식과 API를 사용하기 때문에 연구자들이 여러 데이터셋에 걸쳐 방법론을 훈련하고 평가하는 데 번거로움이 있었습니다. 이를 해결하기 위해, 우리는 trajdata를 소개합니다: 다중 인간 궤적 데이터셋을 위한 통합 인터페이스입니다. trajdata는 궤적 및 지도 데이터를 위한 간단하고 균일하며 효율적인 표현과 API를 제공합니다. 이 작업에서 우리는 기존 궤적 데이터셋에 대한 포괄적인 실증적 평가를 수행하여, 현재 보행자 및 자율주행차 동작 예측 연구의 기반이 되는 데이터에 대한 풍부한 이해를 제공하고, 이러한 통찰로부터 향후 데이터셋에 대한 제안을 제시합니다. trajdata는 허가형 라이선스(Apache 2.0)로 제공되며, https://github.com/NVlabs/trajdata에서 온라인으로 접근할 수 있습니다.