번역이 포함된 일일 선별된 AI 연구 논문
과학 지식은 주로 책과 과학 저널에 PDF 형태로 저장되어 있습니다. 그러나 PDF 형식은 특히 수학적 표현에서 의미 정보의 손실을 초래합니다. 우리는 과학 문서를 마크업 언어로 처리하기 위한 광학 문자 인식(OCR) 작업을 수행하는 Visual Transformer 모델인 Nougat(Neural Optical Understanding for Academic Documents)를 제안하고, 새로운 과학 문서 데이터셋에서 우리 모델의 효과를 입증합니다. 제안된 접근 방식은 인간이 읽을 수 있는 문서와 기계가 읽을 수 있는 텍스트 간의 격차를 해소함으로써 디지털 시대에 과학 지식의 접근성을 향상시키는 유망한 솔루션을 제공합니다. 우리는 과학 텍스트 인식에 대한 향후 연구를 가속화하기 위해 모델과 코드를 공개합니다.
대규모 언어 모델(LLM)은 자연어 처리 작업에 혁신을 가져왔습니다. 그러나 이러한 모델의 실질적인 배포는 막대한 메모리와 계산 요구 사항으로 인해 제약을 받고 있습니다. 최근의 사후 학습 양자화(PTQ) 방법은 LLM의 메모리 사용량을 줄이고 계산 효율성을 개선하는 데 효과적이지만, 양자화 매개변수를 수작업으로 설정하기 때문에 성능이 낮고 극도로 낮은 비트 양자화를 처리하지 못하는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 다양한 양자화 설정에서 우수한 성능을 유지하면서 PTQ의 계산 효율성을 유지하는 OmniQuant 기술을 소개합니다. OmniQuant는 학습 가능한 가중치 클리핑(LWC)과 학습 가능한 등가 변환(LET)이라는 두 가지 혁신적인 구성 요소로 이루어져 있습니다. LWC는 클리핑 임계값을 최적화하여 가중치의 극단적인 값을 조절합니다. 한편, LET는 학습 가능한 등가 변환을 통해 양자화의 어려움을 활성화에서 가중치로 전환하여 활성화 이상치를 처리합니다. 블록 단위 오차 최소화를 사용한 미분 가능 프레임워크 내에서 작동하는 OmniQuant는 가중치 전용 양자화와 가중치-활성화 양자화 모두에 대해 양자화 프로세스를 효율적으로 최적화할 수 있습니다. 예를 들어, 7-70B 크기의 LLaMA-2 모델 패밀리는 128개의 샘플을 사용하여 단일 A100-40G GPU에서 1-16시간 이내에 OmniQuant로 처리할 수 있습니다. 광범위한 실험을 통해 OmniQuant는 W4A4, W6A6, W4A16, W3A16, W2A16과 같은 다양한 양자화 구성에서 우수한 성능을 검증받았습니다. 또한, OmniQuant는 지시 튜닝된 모델에서도 효과적이며, 실제 장치에서 추론 속도와 메모리 감소 측면에서 뚜렷한 개선을 보여줍니다. 코드와 모델은 https://github.com/OpenGVLab/OmniQuant에서 확인할 수 있습니다.
소프트웨어 개발은 현대 사회에서 혁신과 효율성을 주도하는 데 중요한 역할을 합니다. 이 동적인 분야의 요구를 충족시키기 위해 효과적인 소프트웨어 개발 보조 도구의 필요성이 점점 커지고 있습니다. 그러나 ChatGPT로 대표되는 기존의 대형 언어 모델들은 학습 데이터와 모델 가중치를 포함한 접근성의 한계를 가지고 있습니다. LLaMA와 같은 다른 대형 오픈소스 모델들이 유망한 성과를 보이긴 했지만, 여전히 인간의 의도를 이해하는 데 어려움을 겪고 있습니다. 본 논문에서는 오픈소스 소프트웨어 개발 보조 도구인 SoTaNa를 소개합니다. SoTaNa는 ChatGPT를 활용하여 소프트웨어 공학 분야의 고품질 지시 기반 데이터를 생성하고, 파라미터 효율적인 미세 조정 방식을 통해 오픈소스 기반 모델인 LLaMA를 개선합니다. 우리는 SoTaNa가 Stack Overflow 질문에 답변하는 데 있어서의 효과성을 평가하고 그 능력을 입증합니다. 또한, 코드 요약 및 생성 능력과 생성된 데이터 양의 변화가 모델 성능에 미치는 영향에 대해 논의합니다. 특히, SoTaNa는 단일 GPU에서 실행할 수 있어 더 넓은 범위의 연구자들이 접근할 수 있습니다. 우리의 코드, 모델 가중치, 데이터는 https://github.com/DeepSoftwareAnalytics/SoTaNa에서 공개되어 있습니다.
비전 트랜스포머(Vision Transformers)는 다양한 시각 인식 작업에서 인상적인 정확도를 달성합니다. 그러나 이러한 정확도는 종종 높은 계산 비용을 수반한다는 문제가 있습니다. 이는 특히 비디오 인식에서 두드러지는데, 모델이 프레임이나 시간적 청크에 반복적으로 적용되기 때문입니다. 본 연구에서는 후속 입력 간의 시간적 중복성을 활용하여 비디오 처리용 트랜스포머의 비용을 줄이는 방법을 제안합니다. 시간에 따라 크게 변화한 토큰만 식별하고 재처리하는 방법을 설명합니다. 우리가 제안한 이벤트풀 트랜스포머(Eventful Transformers) 모델군은 기존 트랜스포머에서 변환될 수 있으며(종종 재훈련 없이도 가능), 런타임에서 계산 비용에 대한 적응형 제어를 제공합니다. 우리는 비디오 객체 검출(ImageNet VID) 및 행동 인식(EPIC-Kitchens 100)을 위한 대규모 데이터셋에서 이 방법을 평가했습니다. 우리의 접근 방식은 정확도의 미미한 감소만으로도 상당한 계산 비용 절감(약 2-4배)을 이끌어냈습니다.
본 논문은 이동하는 점 광원에 의해 조명된 물체의 비정형 사진 소집단으로부터 자유 시점 재조명을 위한 새로운 신경 암시적 복사 표현을 제시한다. 우리는 다층 퍼셉트론으로 모델링된 부호 거리 함수로 형상을 표현한다. 기존의 재조명 가능한 암시적 신경 표현과 달리, 우리는 다양한 반사 성분을 분리하지 않고, 밀도 특성, 현재 위치, 부호 거리 함수로부터의 법선, 시점 방향, 광원 위치 외에도 그림자와 하이라이트 힌트를 추가로 입력받는 두 번째 다층 퍼셉트론을 통해 각 점에서의 지역적 및 전역적 반사를 모델링한다. 이러한 힌트는 제안으로 제공되며, 최종 재조명 결과에 이를 어떻게 통합할지는 네트워크의 판단에 맡긴다. 우리는 다양한 형상, 재질 속성, 전역 조명 광 전송을 보여주는 합성 및 실제 장면에서 이 신경 암시적 표현을 입증하고 검증한다.