번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 대규모 언어 모델을 위한 새로운 추론 패턴인 Writing in the Margins (WiM)을 소개합니다. 이 패턴은 검색 지향 작업에서 긴 입력 시퀀스를 최적화하기 위해 설계되었습니다. 이 방법은 세그먼트별 추론을 수행하기 위해 키-값 캐시의 청크로 미리 채워진 것을 활용하여, 광범위한 맥락을 효율적으로 처리하고 중간 정보("여백")를 생성하고 분류하여 모델을 특정 작업으로 이끄는 것을 가능하게 합니다. 이 방법은 계산 오버헤드를 약간 증가시키지만, 세부 조정이 필요하지 않은 기본 모델의 성능을 크게 향상시킵니다. 구체적으로, WiM은 추론 능력에 대해 정확도 평균 향상률이 7.5% (HotpotQA, MultiHop-RAG)이며 집계 작업에 대한 F1 점수가 30.0% 이상 향상되는 것을 관찰합니다 (CWE). 더불어, 제안된 패턴이 상호작용 검색 설계에 어떻게 적합한지를 보여주며, 이는 최종 응답에 관련 정보를 통합하고 사용자에게 맥락 처리 진행 상황에 대한 지속적인 업데이트를 제공합니다. 우리는 WiM의 구현을 Hugging Face Transformers 라이브러리를 사용하여 공개하며, 해당 구현은 https://github.com/writer/writing-in-the-margins에서 확인할 수 있습니다.
우리는 GameNGen을 제시합니다. 이는 신경 모델에 의해 완전히 구동되는 최초의 게임 엔진으로, 고품질의 긴 궤적을 통해 복잡한 환경과의 실시간 상호 작용을 가능하게 합니다. GameNGen은 단일 TPU에서 초당 20프레임 이상으로 클래식 게임 DOOM을 대화식으로 시뮬레이션할 수 있습니다. 다음 프레임 예측은 PSNR이 29.4로, 손실 압축 JPEG과 유사합니다. 인간 평가자들은 게임의 짧은 클립과 시뮬레이션 클립을 구분하는 데 랜덤 기회보다 약간 더 나은 성과를 보입니다. GameNGen은 두 단계로 훈련됩니다: (1) 강화 학습 에이전트가 게임을 플레이하는 법을 배우고 훈련 세션을 기록하며, (2) 확산 모델이 과거 프레임 및 액션 시퀀스에 의존하여 다음 프레임을 생성하도록 훈련됩니다. 조건 부여 증강은 긴 궤적에서 안정적인 자기 회귀 생성을 가능하게 합니다.
선형 RNN 아키텍처인 Mamba와 같은 모델은 유리한 배포 특성을 가지면서 언어 모델링에서 Transformer 모델과 경쟁력을 갖을 수 있습니다. 대규모 Transformer 모델을 훈련하는 데 초점을 맞춘 상황에서, 사전 훈련된 모델을 배포용으로 변환하는 과제를 고려합니다. 우리는 학술용 GPU 자원을 활용하여 어텐션 레이어에서 선형 프로젝션 가중치를 재사용함으로써 대규모 Transformer를 선형 RNN으로 축소하는 것이 가능함을 증명합니다. 어텐션 레이어의 1/4을 통합한 결과의 하이브리드 모델은 채팅 벤치마크에서 원본 Transformer와 유사한 성능을 달성하며, 오픈 소스 하이브리드 Mamba 모델보다 우수한 성과를 보입니다. 이 모델은 수조 개의 토큰으로 훈련된 오픈 소스 하이브리드 Mamba 모델을 이기는 성과를 채팅 벤치마크와 일반 벤치마크에서 달성합니다. 더불어, Mamba 및 하이브리드 모델의 추론 속도를 가속화하는 하드웨어 인식 추론 알고리즘을 소개합니다. 전체적으로 한정된 계산 자원을 이용하여 원본 어텐션 레이어 중 많은 부분을 제거하고 그 결과 모델을 더 효율적으로 생성할 수 있는 방법을 보여줍니다. Llama3-8B-Instruct에서 축소된 최고 성능의 모델은 AlpacaEval 2에서 GPT-4를 상대로 29.61의 길이 제어 승률을 달성하며, MT-Bench에서는 7.35로, 최고의 명령어 조정된 선형 RNN 모델을 능가합니다.
입력 키프레임 쌍 사이의 일관된 움직임을 가진 비디오 시퀀스를 생성하는 방법을 제시합니다. 우리는 사전 훈련된 대규모 이미지-비디오 확산 모델(원래 하나의 입력 이미지로부터 시간이 지남에 따라 움직이는 비디오를 생성하는 데 사용되었던)을 적응하여 키프레임 보간, 즉 두 입력 프레임 사이에 비디오를 생성합니다. 우리는 이 적응을 달성하기 위해 가벼운 파인튜닝 기술을 통해 모델의 버전을 생성합니다. 이 모델은 대신 하나의 입력 이미지로부터 시간이 지남에 따라 역방향으로 움직이는 비디오를 예측합니다. 이 모델(원래의 순방향 모델과 함께)은 이후 두 키프레임 각각에서 시작하는 겹치는 모델 추정을 결합하는 이중 방향 확산 샘플링 과정에서 사용됩니다. 우리의 실험 결과는 우리의 방법이 기존의 확산 기반 방법과 전통적인 프레임 보간 기술을 모두 능가한다는 것을 보여줍니다.
데이터베이스 상의 자연어 질문에 대답하는 AI 시스템은 엄청난 가치를 창출할 것으로 기대됩니다. 이러한 시스템은 사용자가 언어 모델 (LMs)의 강력한 추론 및 지식 기능과 데이터 관리 시스템의 확장 가능한 계산 능력을 활용할 수 있게 합니다. 이러한 결합된 기능은 사용자가 사용자 정의 데이터 소스 상에 임의의 자연어 질문을 할 수 있도록 돕게 됩니다. 그러나 기존 방법과 벤치마크는 이러한 환경을 충분히 탐구하지 못하고 있습니다. Text2SQL 방법은 관계 대수로 표현할 수 있는 자연어 질문에만 초점을 맞추며, 실제 사용자가 하고 싶어하는 질문의 작은 부분만을 대표합니다. 마찬가지로, 검색 증강 생성 (RAG)은 데이터베이스 내의 하나 또는 몇 개의 데이터 레코드에 대한 지점 조회로 답변할 수 있는 쿼리의 한정된 부분을 고려합니다. 저희는 Table-Augmented Generation (TAG)을 제안합니다. 이는 데이터베이스 상의 자연어 질문에 대답하기 위한 통합 및 일반적인 패러다임입니다. TAG 모델은 이전에 탐구되지 않았던 LM과 데이터베이스 간의 다양한 상호작용을 표현하며, LM의 세계 지식과 추론 능력을 데이터에 대해 활용할 수 있는 흥미로운 연구 기회를 창출합니다. 우리는 TAG 문제를 연구하기 위해 체계적으로 벤치마크를 개발하였고, 표준 방법이 쿼리의 20% 이상을 올바르게 답변하지 못한다는 것을 확인하여, 이 분야에서의 추가 연구 필요성을 확인하였습니다. 우리는 해당 벤치마크의 코드를 https://github.com/TAG-Research/TAG-Bench 에 공개하였습니다.
텍스트에서 이미지로의 확산 기반 접근 방식을 제안합니다. 이는 상호작용 3D 레이아웃 제어를 포함합니다. 레이아웃 제어는 T2I 확산 모델의 단점을 완화하기 위해 널리 연구되어 왔으며, 객체의 배치 및 관계를 이해하는 데 있어 텍스트 설명으로부터 제한이 있습니다. 그러나 기존의 레이아웃 제어 방법은 2D 레이아웃에 한정되어 있으며, 사용자가 미리 정적 레이아웃을 제공해야 하며, 레이아웃 변경 시 생성된 이미지를 보존하지 못합니다. 이로 인해 이러한 방법은 3D 객체별 제어와 반복적 개선이 필요한 응용 프로그램에는 부적합합니다. 이를 위해 우리는 최근의 깊이 조건부 T2I 모델의 발전을 활용하고 상호작용 3D 레이아웃 제어를 위한 새로운 방법을 제안합니다. 레이아웃 제어에 사용되는 기존의 2D 상자를 3D 상자로 대체합니다. 또한 T2I 작업을 각 단계에서 사용자가 3D에서 객체를 삽입, 변경 및 이동하면서 이전 단계의 객체를 보존하는 다단계 생성 프로세스로 개편합니다. 이를 우리의 제안된 동적 셀프 어텐션(DSA) 모듈과 일관된 3D 객체 변환 전략을 통해 달성합니다. 실험 결과, 우리의 방법은 3D 레이아웃을 기반으로 복잡한 장면을 생성할 수 있으며, 표준 깊이 조건부 T2I 방법보다 객체 생성 성공률을 2배 향상시킬 수 있음을 보여줍니다. 더불어, 레이아웃 변경 시 객체를 보존하는 측면에서 다른 방법을 능가합니다. 프로젝트 페이지: https://abdo-eldesokey.github.io/build-a-scene/
사실적이고 조절 가능한 3D 아바타는 가상 및 혼합 현실 (VR/MR), 원격 참석, 게임 및 영화 제작과 같은 다양한 응용 프로그램에 중요합니다. 아바타 생성을 위한 기존 방법은 각각의 아바타에 대해 시간이 많이 소요되는 스캔 및 재구성 과정을 포함하여 그 확장성을 제한합니다. 더욱이, 이러한 방법은 새로운 정체성을 샘플링하거나 기존 정체성을 수정하는 유연성을 제공하지 않습니다. 반면에, 데이터로부터 강력한 사전을 학습함으로써, 생성 모델은 전통적인 재구성 방법에 대한 유망한 대안을 제공하여 데이터 캡처 및 처리에 대한 시간 제약을 완화합니다. 게다가, 생성 방법은 편집 및 스타일링과 같은 재구성 이상의 하류 응용 프로그램을 가능하게 합니다. 그럼에도 불구하고, 생성적 3D 아바타에 대한 연구는 여전히 초기 단계에 있으며, 따라서 현재 방법은 정적 아바타 생성, 사실적이지 않음, 불완전한 얼굴 세부 사항, 또는 제한된 구동성과 같은 한계를 가지고 있습니다. 이를 해결하기 위해, 우리는 텍스트 조건 생성 모델을 제안합니다. 이 모델은 다양한 정체성의 사실적인 얼굴 아바타를 생성할 수 있으며, 머리, 눈, 입 내부와 같은 더 완전한 세부 사항을 제공하며 강력한 비모수 잠재 표현 공간을 통해 구동할 수 있습니다. 구체적으로, 잠재 확산 모델의 생성 및 편집 능력을 아바타 표현 구동을 위한 강력한 사전 모델과 통합합니다. 우리의 모델은 분포 밖에 있는 아바타를 포함하여 고품질 아바타를 생성하고 제어할 수 있습니다. 또한, 아바타 편집 및 단일 샷 아바타 재구성과 같은 하류 응용 프로그램에 대한 잠재력을 강조합니다.
이미지에서 텍스트를 읽는 것은 수십 년 동안 장기적인 연구 주제로 다루어져 왔으며, 높은 기술적 도전과 넓은 응용 범위 때문에 그렇습니다. 이전에는 텍스트 읽기의 하위 작업(예: 장면 텍스트 인식, 필기 텍스트 인식 및 수학식 인식)을 다루기 위해 개별 전문가 모델이 개발되었습니다. 그러나 이러한 전문가 모델은 일반적으로 서로 다른 하위 작업 간에 효과적으로 일반화할 수 없습니다. 최근에는 방대한 데이터로 통합적으로 훈련된 GPT-4V와 같은 종합 모델이 다양한 시나리오에서 텍스트를 읽는 데 엄청난 잠재력을 보여주었지만, 정확도가 제한되고 효율성이 낮다는 단점이 있습니다. 본 연구에서는 Platypus라는 텍스트 읽기를 위한 종합 전문가 모델을 제안합니다. 구체적으로 Platypus는 단일 통합 아키텍처로 다양한 형태의 텍스트를 인식할 수 있는 능력과 뛰어난 정확도 및 높은 효율성을 달성하는 데 성공했습니다. Platypus의 장점을 더 잘 활용하기 위해 이를 위해 텍스트 읽기 데이터셋인 Worms을 구축했습니다. Worms의 이미지는 이전 데이터셋에서 선별되어 일부 다시 레이블이 지정되었습니다. 표준 벤치마크에서의 실험은 제안된 Platypus 모델의 효과성과 우수성을 입증했습니다. 모델과 데이터는 https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus에서 공개적으로 제공될 예정입니다.
우리는 SHADOW를 소개합니다. SHADOW는 연관 추론을 사용하여 중간 작업에서 훈련된 세밀하게 조정된 언어 모델로, Wikidata 삼중 완성을 사용한 지식 베이스 구축 작업의 성능을 측정합니다. 우리는 SHADOW를 LM-KBC 2024 도전 과제에서 평가하고, F1 점수가 68.72%인 20%의 베이스라인 솔루션을 능가한다는 것을 보여줍니다.
우리는 의미적 타워를 소개합니다. 이는 외부 지식 표현 방법으로, 대규모 언어 모델에서 내재적 지식과 비교합니다. 실험 결과 외부 지식은 내재적 지식이 조정된 모델에 비해 성능과 의미적 근거 간의 교환이 있다는 것을 보여줍니다. 우리는 2024년 Large Language Models for Ontology Learning (LLMs4OL) 챌린지에서의 연구 결과를 보고합니다.
본 논문은 최근 환경과학자들의 주목을 받고 있는 환경 변화의 소중한 생물 지표로서의 가치 있는 해조류의 3D 재구성에 대해 다룹니다. 이러한 3D 정보는 새의 행동과 생리적 형태를 분석하는 데 유익하며, 움직임, 형태 및 외관 변화를 추적함으로써 예를 들어 새의 행동 및 생리적 형태를 분석하는 데 유익합니다. 컴퓨터 비전 관점에서 새는 그들의 빠르고 때로는 비유연한 움직임으로 인해 특히 도전적입니다. 우리는 해조류 중 특정 품종인 보통 성게의 단안 동영상에서 3D 자세와 형태를 재구성하는 방법을 제안합니다. 우리의 방법론은 감지, 추적, 분할 및 시간적으로 일관된 3D 재구성의 전체 파이프라인으로 구성됩니다. 게다가, 우리는 현재의 단일 이미지 3D 새 자세 추정기를 시간적 영역으로 확장하는 시간 손실을 제안합니다. 더불어, 우리는 평균 10000프레임의 실제 비디오 관측 데이터셋을 제공하며, 이 데이터셋은 평균적으로 아홉 마리의 새를 동시에 촬영하며, 다양한 움직임과 상호작용을 포함하고 있습니다. 새에 특화된 키포인트 레이블이 있는 작은 테스트 세트도 포함되어 있습니다. 우리의 시간적 최적화를 사용하여, 우리는 데이터셋의 도전적인 시퀀스에 대해 최첨단의 성능을 달성합니다.
제 4차 산업혁명은 디지턔화를 촉진하고 부가 제조 기술(AM)로 패러다임을 전환함으로써 제조업을 혁신했습니다. Fused Deposition Modeling (FDM)은 주요한 AM 기술로, 층층이 추출하여 맞춤형이며 경제적인 제품을 최소한의 재료 낭비로 제작할 수 있어 전통적인 감산 방법에 상당한 도전을 제시합니다. 그러나 재료 추출 기술의 취약성으로 인해 오류가 발생하기 쉬워 종종 전문가의 개입이 필요하며, 제품 품질을 심각하게 저해할 수 있는 결함을 탐지하고 완화해야 합니다. 자동 오류 탐지 및 기계 학습 모델이 존재하지만, 다양한 3D 프린터 설정, 펌웨어 및 센서에 대한 일반화가 제한되어 있으며, 심층 학습 방법은 방대한 레이블 데이터셋이 필요하여 확장성과 적응성이 제한됩니다. 이러한 도전에 대응하기 위해 우리는 3D 프린터와 함께 사전 훈련된 대형 언어 모델(LLMs)을 활용하여 인쇄 결함을 탐지하고 처리하는 프로세스 모니터링 및 제어 프레임워크를 제시합니다. LLM은 각 층 또는 인쇄 세그먼트 후에 촬영된 이미지를 분석하여 인쇄 품질을 평가하고, 결함 모드를 식별하고 관련 매개변수에 대해 프린터에 쿼리합니다. 그런 다음 수정 조치 계획을 생성하고 실행합니다. 우리는 제안된 프레임워크가 결함을 식별하는 데 효과적인지를 다양한 AM 전문 지식을 가진 엔지니어들의 대조군과 비교하여 확인했습니다. 우리의 평가는 LLM 기반 에이전트가 일반적인 3D 프린팅 오류(일관되지 않은 추출, 줄무늬, 왜곡, 층 결합 등)를 정확하게 식별할 뿐만 아니라 이러한 실패를 유발하는 매개변수를 효과적으로 결정하고 인간 개입 없이 자동으로 수정한다는 것을 입증했습니다.