번역이 포함된 일일 선별된 AI 연구 논문
언어 모델은 다양한 응용 분야에서 효과적임이 입증되었지만, 가장 정교한 모델들은 종종 독점적입니다. 예를 들어, OpenAI의 GPT-4와 Anthropic의 다양한 모델들은 비용이 많이 들고 상당한 에너지를 소비합니다. 반면, 오픈소스 커뮤니티는 Llama3와 같은 경쟁력 있는 모델들을 생산해 왔습니다. 더 나아가, 법률, 의료 또는 금융 작업에 특화된 틈새 시장용 소형 언어 모델들은 독점 모델들을 능가하는 성능을 보여주었습니다. 본 논문은 특정 작업에 최적화된 여러 오픈소스 모델들을 통합하기 위해 기능적 토큰을 사용하는 새로운 접근 방식을 소개합니다. 우리가 새롭게 개발한 Octopus v4 모델은 기능적 토큰을 활용하여 사용자 쿼리를 가장 적합한 수직 모델로 지능적으로 전달하고 최고의 성능을 달성하기 위해 쿼리를 재구성합니다. Octopus v1, v2, v3 모델의 진화형인 Octopus v4는 선택 및 매개변수 이해와 재구성에서 탁월한 성능을 보입니다. 또한, 우리는 Octopus 모델과 기능적 토큰의 능력을 활용하여 여러 오픈소스 모델들을 효과적으로 조정하는 다용도 데이터 구조로서 그래프의 사용을 탐구합니다. 우리의 오픈소스 GitHub(https://www.nexa4ai.com/)를 통해 Octopus v4 모델(https://huggingface.co/NexaAIDev/Octopus-v4)을 시도하고, 더 큰 언어 모델 그래프에 기여해 보세요. 10B 매개변수 미만의 모델들을 활성화함으로써, 우리는 동급 모델들 중 SOTA MMLU 점수 74.8을 달성했습니다.
콜모고로프-아르놀드 표현 정리에서 영감을 받아, 우리는 다층 퍼셉트론(MLP)의 유망한 대안으로 콜모고로프-아르놀드 네트워크(KANs)를 제안한다. MLP는 노드("뉴런")에 고정된 활성화 함수를 사용하는 반면, KANs는 엣지("가중치")에 학습 가능한 활성화 함수를 갖는다. KANs는 선형 가중치를 전혀 사용하지 않으며, 모든 가중치 매개변수는 스플라인으로 매개변수화된 단변수 함수로 대체된다. 이렇게 간단해 보이는 변화가 KANs가 MLP보다 정확도와 해석 가능성 면에서 우수한 성능을 보이도록 만든다는 것을 보여준다. 정확도 측면에서, 훨씬 작은 KANs가 데이터 피팅과 편미분 방정식(PDE) 해결에서 훨씬 더 큰 MLP와 비슷하거나 더 나은 정확도를 달성할 수 있다. 이론적으로 그리고 경험적으로, KANs는 MLP보다 더 빠른 신경망 스케일링 법칙을 갖는다. 해석 가능성 측면에서, KANs는 직관적으로 시각화될 수 있으며 인간 사용자와 쉽게 상호작용할 수 있다. 수학과 물리학의 두 가지 예를 통해, KANs가 과학자들이 수학적 및 물리적 법칙을 (재)발견하는 데 유용한 협력자임을 보여준다. 요약하면, KANs는 MLP에 크게 의존하는 오늘날의 딥러닝 모델을 더욱 개선할 수 있는 기회를 열어주는 유망한 대안이다.
GPT와 Llama와 같은 대규모 언어 모델은 다음 토큰 예측 손실을 통해 학습됩니다. 본 연구에서는 언어 모델이 한 번에 여러 개의 미래 토큰을 예측하도록 학습시키는 것이 샘플 효율성을 높인다는 점을 제안합니다. 구체적으로, 학습 코퍼스의 각 위치에서 모델이 공유된 모델 트렁크 위에서 작동하는 n개의 독립적인 출력 헤드를 사용하여 다음 n개의 토큰을 예측하도록 요구합니다. 다중 토큰 예측을 보조 학습 작업으로 간주하여, 코드 및 자연어 모델 모두에 대해 학습 시간의 추가 부담 없이 향상된 다운스트림 능력을 측정했습니다. 이 방법은 모델 크기가 커질수록 점점 더 유용해지며, 여러 에포크 동안 학습할 때도 그 매력을 유지합니다. 특히 코딩과 같은 생성적 벤치마크에서 이점이 두드러지며, 우리의 모델은 강력한 베이스라인보다 몇 퍼센트 포인트 더 높은 성능을 보입니다. 13B 파라미터 모델은 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결했습니다. 소규모 알고리즘 작업에 대한 실험은 다중 토큰 예측이 귀납 헤드와 알고리즘적 추론 능력의 발달에 유리하다는 것을 보여줍니다. 추가적인 이점으로, 4-토큰 예측으로 학습된 모델은 큰 배치 크기에서도 추론 속도가 최대 3배 빨라집니다.
개인화된 이미지 생성 분야에서 개념을 보존하며 이미지를 생성하는 능력이 크게 향상되었습니다. 여러 개념을 자연스럽게 통합하고 시각적으로 매력적인 구성을 갖춘 이미지를 만드는 것은 실제로 어려운 과제일 수 있습니다. 본 논문은 "InstantFamily"라는 접근 방식을 소개하며, 이는 새로운 마스크된 교차 주의 메커니즘과 다중 모달 임베딩 스택을 활용하여 제로샷 다중 ID 이미지 생성을 달성합니다. 우리의 방법은 텍스트 조건과 통합된 사전 훈련된 얼굴 인식 모델의 전역 및 지역적 특징을 활용함으로써 ID를 효과적으로 보존합니다. 또한, 마스크된 교차 주의 메커니즘은 생성된 이미지에서 다중 ID와 구성을 정밀하게 제어할 수 있게 합니다. 우리는 실험을 통해 InstantFamily가 다중 ID 이미지 생성에서 우수한 성능을 보이며, 잘 알려진 다중 ID 생성 문제를 해결하는 데 효과적임을 입증합니다. 또한, 우리의 모델은 단일 ID 및 다중 ID 보존 모두에서 최첨단 성능을 달성합니다. 더 나아가, 우리의 모델은 원래 훈련된 것보다 더 많은 ID 보존에서도 뛰어난 확장성을 보여줍니다.
반복적 선호도 최적화 방법은 최근 일반적인 지시 튜닝 작업에서 우수한 성능을 보여주었으나, 일반적으로 추론 작업에서는 개선이 미미한 것으로 나타났다(Yuan et al., 2024, Chen et al., 2024). 본 연구에서는 정답으로 이어지는 승리 대 패배 추론 단계를 최적화함으로써 경쟁적인 Chain-of-Thought(CoT) 후보들 간의 선호도를 최적화하는 반복적 접근법을 개발한다. 우리는 수정된 DPO 손실(Rafailov et al., 2023)에 추가적인 음의 로그 가능도 항을 포함하여 학습을 진행했으며, 이 항이 중요하다는 것을 발견했다. 우리는 이 방식을 반복적으로 적용함에 따라 추론 능력이 개선됨을 보여준다. 훈련 세트의 예제만을 사용하면서도, 우리의 접근법은 GSM8K에서 Llama-2-70B-Chat의 정확도를 55.6%에서 81.6%로(32개 샘플의 다수결 투표 시 88.7%), MATH에서 12.5%에서 20.8%로, ARC-Challenge에서 77.8%에서 86.7%로 증가시켰다. 이는 추가적으로 수집된 데이터셋에 의존하지 않는 다른 Llama-2 기반 모델들을 능가하는 성과이다.
QLoRA 미세 조정을 통해 Llama-3-8B-Instruct의 컨텍스트 길이를 8K에서 80K로 확장했습니다. 전체 학습 주기는 매우 효율적이며, 8xA800(80G) GPU 머신 한 대에서 8시간이 소요됩니다. 결과 모델은 NIHS, 주제 검색, 장문 컨텍스트 언어 이해 등 다양한 평가 작업에서 우수한 성능을 보여주며, 동시에 짧은 컨텍스트에 대한 원래의 능력도 잘 유지합니다. 이러한 극적인 컨텍스트 확장은 주로 GPT-4로 생성된 3.5K개의 합성 학습 샘플 덕분이며, 이는 LLM의 원래 컨텍스트 길이를 확장할 수 있는 내재적(그러나 크게 과소평가된) 잠재력을 시사합니다. 사실, 더 많은 계산 자원을 투입하면 컨텍스트 길이를 80K 이상으로도 확장할 수 있습니다. 따라서 팀은 향후 커뮤니티의 연구를 촉진하기 위해 전체 리소스(데이터, 모델, 데이터 생성 파이프라인, 학습 코드 포함)를 공개할 예정입니다: https://github.com/FlagOpen/FlagEmbedding.
본 연구는 MotionLCM을 소개하며, 제어 가능한 모션 생성(motion generation)을 실시간 수준으로 확장합니다. 텍스트 조건부 모션 생성에서 공간적 제어를 위한 기존 방법들은 상당한 런타임 비효율성을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 먼저 잠재 확산 모델(Latent Diffusion Model, MLD)을 기반으로 모션 생성용 모션 잠재 일관성 모델(Motion Latent Consistency Model, MotionLCM)을 제안합니다. 1단계(또는 소수 단계) 추론을 사용함으로써, 모션 잠재 확산 모델의 런타임 효율성을 더욱 개선합니다. 효과적인 제어 가능성을 보장하기 위해, MotionLCM의 잠재 공간 내에 모션 ControlNet을 통합하고, 일반 모션 공간에서의 명시적 제어 신호(예: 골반 궤적)를 사용하여 생성 과정을 직접 제어할 수 있도록 합니다. 이는 다른 잠재 없는 확산 모델을 제어하는 방식과 유사합니다. 이러한 기술을 활용함으로써, 우리의 접근 방식은 텍스트와 제어 신호를 사용하여 실시간으로 인간 모션을 생성할 수 있습니다. 실험 결과는 MotionLCM의 뛰어난 생성 및 제어 능력과 함께 실시간 런타임 효율성을 유지함을 입증합니다.
기존의 시각 콘텐츠 자동 캡션 생성 방법은 세부 사항 부족, 내용의 환각(hallucination), 그리고 지시 사항을 잘 따르지 못하는 등의 문제에 직면해 있습니다. 본 연구에서는 2D 이미지와 3D 객체 모두에 대해 높은 충실도와 세부적인 캡션을 생성할 수 있는 유연한 학습 없는 파이프라인인 VisualFactChecker(VFC)를 제안합니다. VFC는 세 단계로 구성됩니다: 1) 제안 단계, 이미지-텍스트 캡션 생성 모델이 여러 초기 캡션을 제안; 2) 검증 단계, 대형 언어 모델(LLM)이 객체 감지 및 VQA 모델과 같은 도구를 활용하여 제안된 캡션을 사실 확인; 3) 캡션 생성 단계, LLM이 캡션 제안과 사실 확인 결과를 요약하여 최종 캡션을 생성. 이 단계에서 VFC는 복잡한 지시 사항을 따라 다양한 스타일로 유연하게 캡션을 생성할 수 있습니다. 우리는 네 가지 지표를 사용하여 포괄적인 캡션 평가를 수행했습니다: 1) 이미지-텍스트 유사성을 측정하는 CLIP-Score; 2) 원본 이미지와 캡션을 사용하여 텍스트-이미지 모델로 생성된 재구성 이미지 간의 이미지-이미지 유사성을 측정하는 CLIP-Image-Score; 3) Amazon Mechanical Turk를 통한 인간 평가; 4) 세부 평가를 위한 GPT-4V. 평가 결과, VFC는 COCO 데이터셋의 2D 이미지와 Objaverse 데이터셋의 3D 자산에 대해 최신 오픈소스 캡션 생성 방법을 능가하는 성능을 보였습니다. 우리의 연구는 오픈소스 모델을 파이프라인으로 결합함으로써, 모델 크기가 10배 이상 작음에도 불구하고 GPT-4V와 같은 독점 모델에 필적하는 캡션 생성 능력을 달성할 수 있음을 보여줍니다.
우리는 단일 A100 GPU에서 0.23초 만에 2-4개의 포즈가 지정된 희소 이미지로부터 고품질의 3D 가우시안 프리미티브를 예측할 수 있는 확장 가능한 대규모 재구성 모델인 GS-LRM을 제안합니다. 우리의 모델은 매우 간단한 트랜스포머 기반 아키텍처를 특징으로 합니다; 입력된 포즈 이미지를 패치화하고, 다중 뷰 이미지 토큰을 연결하여 일련의 트랜스포머 블록을 통과시킨 후, 이러한 토큰에서 최종 픽셀별 가우시안 파라미터를 직접 디코딩하여 미분 가능한 렌더링을 수행합니다. 이전의 LRM들이 오직 객체만 재구성할 수 있었던 것과 달리, 픽셀별 가우시안을 예측함으로써 GS-LRM은 규모와 복잡성에서 큰 변동이 있는 장면을 자연스럽게 처리할 수 있습니다. 우리는 이 모델이 Objaverse와 RealEstate10K에서 각각 학습됨으로써 객체와 장면 캡처 모두에서 작동할 수 있음을 보여줍니다. 두 시나리오 모두에서, 이 모델은 최신 베이스라인을 큰 차이로 능가합니다. 또한, 우리는 이 모델의 하위 3D 생성 작업에서의 응용 사례를 보여줍니다. 우리의 프로젝트 웹페이지는 https://sai-bi.github.io/project/gs-lrm/ 에서 확인할 수 있습니다.
NeRF의 등장 이후, 3D Gaussian Splatting(3D-GS)은 볼륨 메트릭 방법의 계산 부담을 극복하며 실시간 신경 렌더링의 길을 열었습니다. 3D-GS의 선구적인 연구를 이어, 여러 방법들이 압축 가능하고 고품질의 성능을 달성하려 시도했습니다. 그러나 이러한 방법들은 기하학적 구조를 고려하지 않은 최적화 방식을 채택함으로써 장면의 본질적인 3D 구조를 간과하여 표현력과 표현 품질을 제한하고, 다양한 부유점과 아티팩트를 초래했습니다. 본 연구에서는 장면의 기하학을 암묵적으로 인코딩하는 구조 인식 Gaussian Splatting 방법(SAGS)을 제안하며, 이는 최신 뷰 합성 벤치마크 데이터셋에서 최고 수준의 렌더링 성능과 감소된 저장 요구량을 보여줍니다. SAGS는 복잡한 장면의 학습을 용이하게 하고 장면의 기하학을 보존하는 의미 있는 점 변위를 강제하는 로컬-글로벌 그래프 표현에 기반을 두고 있습니다. 또한, 간단하면서도 효과적인 중간점 보간 방식을 사용한 경량 버전의 SAGS를 소개하며, 이는 어떠한 압축 전략에도 의존하지 않고 최대 24배의 크기 감소를 보여줍니다. 여러 벤치마크 데이터셋에 걸친 광범위한 실험을 통해 SAGS가 렌더링 품질과 모델 크기 모두에서 최신 3D-GS 방법들보다 우수함을 입증했습니다. 또한, 우리의 구조 인식 방법이 이전 방법들의 부유 아티팩트와 불규칙한 왜곡을 효과적으로 완화하면서 정확한 깊이 맵을 얻을 수 있음을 보여줍니다. 프로젝트 페이지: https://eververas.github.io/SAGS/.
비전-언어 데이터셋은 텍스트-이미지(T2I) 및 이미지-텍스트(I2T) 연구 모두에 필수적입니다. 그러나 현재의 데이터셋은 모델이 더 풍부한 연관성을 학습할 수 있도록 세밀한 세부 사항을 포함한 설명이 부족합니다. 이러한 격차를 메우기 위해, 우리는 연결 및 대조 이미지 설명(DOCCI) 데이터셋을 소개합니다. 이 데이터셋은 단일 연구자가 촬영, 선별 및 기부한 15,000장의 이미지에 대해 인간이 주석을 단 긴 영어 설명을 포함하고 있으며, 공간 관계, 계수, 텍스트 렌더링, 세계 지식 등 주요 과제를 포착하는 데 중점을 두었습니다. 우리는 인간 주석자에게 각 이미지에 대한 포괄적인 설명을 작성하도록 지시했습니다; 이 설명들은 평균 136단어 길이이며, 관련되거나 유사한 이미지들과 명확히 구별되도록 제작되었습니다. 각 설명은 매우 구성적이며 일반적으로 여러 과제를 포괄합니다. 양적 및 질적 분석을 통해, 우리는 DOCCI가 이미지-텍스트 생성을 위한 효과적인 훈련 자원으로 기능함을 입증했습니다 -- DOCCI로 미세 조정된 PaLI 5B 모델은 LLaVA-1.5 7B 및 InstructBLIP 7B와 같은 고성능 대형 모델과 동등하거나 우수한 결과를 보여줍니다. 더 나아가, 우리는 DOCCI가 텍스트-이미지 생성을 위한 유용한 테스트베드임을 보여주며, 현재의 텍스트-이미지 모델이 긴 설명과 세부 사항을 포착하는 데 있어 한계를 강조합니다.
3D 장면 생성은 2D 생성 확산 모델의 꾸준한 발전으로 인해 빠르게 도전적인 새로운 연구 방향으로 자리 잡았습니다. 이 분야의 대부분의 기존 연구는 새로 생성된 프레임을 기존 지오메트리와 반복적으로 결합하여 장면을 생성합니다. 이러한 연구들은 생성된 이미지를 3D로 변환하고 기존 장면 표현과 융합하기 위해 사전 훈련된 단안 깊이 추정기에 의존하는 경우가 많습니다. 이러한 접근 방식은 주로 생성된 이미지와 주어진 텍스트 프롬프트 간의 유사성을 측정하는 텍스트 메트릭을 통해 평가됩니다. 본 연구에서는 3D 장면 생성 분야에 두 가지 근본적인 기여를 합니다. 첫째, 단안 깊이 추정 모델을 사용하여 이미지를 3D로 변환하는 것은 기존 장면의 지오메트리를 무시하기 때문에 최적이 아니라는 점을 지적합니다. 따라서 우리는 교사 지식 증류와 자기 훈련을 통해 3D 융합 과정을 학습하도록 훈련된 새로운 깊이 완성 모델을 도입하여 장면의 기하학적 일관성을 개선합니다. 둘째, 우리는 장면 생성 방법을 위한 새로운 벤치마킹 방식을 소개합니다. 이 방식은 실측 지오메트리를 기반으로 하여 장면 구조의 품질을 측정합니다.
스코어 증류 샘플링(SDS)과 같은 최적화 기반 접근법은 제로샷 3D 생성에서 유망한 결과를 보이지만, 각 샘플에 필요한 높은 함수 평가 횟수(NFEs)로 인해 효율성이 낮다는 문제가 있습니다. 본 논문에서는 다중 뷰 스코어 기반 확산 모델을 사용한 3D 생성을 위한 효율적이고 일반적인 알고리즘인 스코어 기반 반복적 재구성(SIR)을 소개합니다. 확산 모델에 의해 생성된 이미지를 기반으로, SIR은 SDS의 단일 최적화와 달리 3D 재구성 과정을 모방하여 3D 매개변수를 반복적으로 최적화함으로써 NFEs를 줄입니다. 픽셀 공간에서의 최적화를 포함한 다른 개선 사항들과 함께, 우리는 다양한 3D 표현 및 3D 생성 작업에 일반적으로 적용 가능한 효율적인 접근법인 MicroDreamer를 제시합니다. 특히, 비슷한 성능을 유지하면서 MicroDreamer는 신경 방사 필드(NeRF) 생성에서 SDS보다 5-20배 빠르며, 단일 A100 GPU에서 3D 가우시안 분할을 통해 메시를 생성하는 데 약 20초가 걸려, 가장 빠른 제로샷 베이스라인인 DreamGaussian의 시간을 절반으로 단축합니다. 우리의 코드는 https://github.com/ML-GSAI/MicroDreamer에서 확인할 수 있습니다.
현대 3D 연구, 특히 재구성 및 생성 분야에서는 입력 또는 감독을 위해 2D 이미지에 크게 의존하고 있습니다. 그러나 현재의 2D-3D 매핑 설계는 메모리 집약적이어서 기존 방법에 상당한 병목 현상을 일으키고 새로운 응용 분야를 방해하고 있습니다. 이에 대응하여, 우리는 3D 신경 필드를 위한 고도로 확장 가능한 두 가지 구성 요소인 Lightplane Render와 Splatter를 제안합니다. 이들은 2D-3D 매핑에서 메모리 사용량을 크게 줄입니다. 이러한 혁신은 적은 메모리와 계산 비용으로 훨씬 더 많고 고해상도의 이미지를 처리할 수 있게 합니다. 우리는 단일 장면 최적화에서 이미지 수준 손실을 활용하는 것부터 3D 재구성 및 생성을 극적으로 확장할 수 있는 다용도 파이프라인을 실현하는 다양한 응용 분야에서 그 유용성을 입증합니다. 코드: https://github.com/facebookresearch/lightplane.