번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델 (LLM)은 일반적으로 상당한 중복을 초래하는 대규모 매개변수 개수로 특징 지어집니다. 본 연구는 추론 중의 계산 오버헤드를 줄이기 위해 LLM에 반구조화 (또는 "N:M") 희소성을 정립하는 학습 가능한 가지치기 방법인 MaskLLM을 소개합니다. 새로운 중요도 기준을 개발하는 대신 MaskLLM은 N:M 패턴을 Gumbel Softmax 샘플링을 통해 학습 가능한 분포로 명시적으로 모델링합니다. 이 접근 방식은 대규모 데이터셋에서의 종단 간 훈련을 용이하게 하며 두 가지 주목할만한 이점을 제공합니다: 1) 고품질 마스크 - 우리의 방법은 대규모 데이터셋으로 효과적으로 확장되며 정확한 마스크를 학습합니다; 2) 전이성 - 마스크 분포의 확률적 모델링은 도메인이나 작업 간의 희소성 전이 학습을 가능하게 합니다. 우리는 LLaMA-2, Nemotron-4, GPT-3을 포함한 다양한 LLM에 843M에서 15B 매개변수까지 크기가 다른 2:4 희소성을 적용하여 MaskLLM을 평가했으며 실험 결과는 최신 기술 방법에 비해 상당한 개선을 보여줍니다. 예를 들어, 선도적인 접근 방식은 Wikitext에서 밀도 모델의 5.12 PPL에 비해 10 이상의 헷갈림도 (PPL)를 달성하지만 MaskLLM은 얼려진 가중치로 마스크를 학습함으로써 6.72 PPL로 상당히 낮은 값을 달성합니다. 더 나아가, MaskLLM의 학습 가능한 특성은 하류 작업이나 도메인에 2:4 희소성을 손실 없이 적용하기 위한 사용자 정의 마스크를 가능하게 합니다. 코드는 https://github.com/NVlabs/MaskLLM에서 사용할 수 있습니다.
GPT-4는 다양한 감정과 톤으로 음성 대화를 가능하게 하는 옴니 모달 모델로, 옴니 모달 기반 모델에 있어서 중요한 발전을 이루었습니다. 그러나 대형 언어 모델을 이미지, 텍스트, 음성을 공개 데이터로 완전히 인식하고 생성하는 것은 오픈 소스 커뮤니티에서 여전히 어려운 과제입니다. 기존의 비전-언어 모델은 음성 처리를 위해 외부 도구에 의존하고 있으며, 음성-언어 모델은 여전히 시각 이해 능력이 제한적이거나 없는 상태입니다. 이러한 갭을 해결하기 위해 우리는 EMOVA(EMotionally Omni-present Voice Assistant)를 제안합니다. 이를 통해 대형 언어 모델이 최첨단의 비전-언어 성능을 유지하면서 완전한 음성 기능을 갖출 수 있습니다. 의미-음향 분리 음성 토크나이저를 사용하여 우리는 옴니 모달 정렬이 비모달 정렬된 대조군과 비교하여 비전-언어 및 음성 능력을 더 향상시킬 수 있다는 놀라운 사실을 발견했습니다. 더불어, 유연한 음성 스타일 제어(예: 감정 및 음조)를 위해 가벼운 스타일 모듈을 제안합니다. EMOVA는 비전-언어 및 음성 평가에서 최첨단 성능을 달성하며, 생생한 감정을 담은 옴니 모달 대화를 지원합니다.
최근 대규모 다중 모달 모델(LMMs)의 발전은 2D 시각 이해 작업에서 그들의 능숙성을 크게 향상시켰으며, 이미지와 비디오를 효과적으로 처리하고 이해할 수 있게 했다. 그러나 3D 장면 이해를 위한 3D 인식을 갖춘 LMMs의 개발은 대규모 3D 비전-언어 데이터셋과 강력한 3D 인코더의 부족으로 인해 지연되었다. 본 논문에서는 LLaVA-3D라는 간단하면서도 효과적인 프레임워크를 소개한다. LLaVA로부터 강력한 2D 이해 선행 지식을 활용하여, 우리의 LLaVA-3D는 2D 이해 능력을 희생하지 않고 3D 장면 이해를 위해 LLaVA를 효과적으로 적응시킨다. 이를 달성하기 위해, 우리는 2D CLIP 패치 특징을 3D 공간에서 해당 위치와 연결하는 3D 패치라는 간단하면서도 효과적인 표현을 활용한다. 3D 패치를 2D LMMs에 통합하고 2D 및 3D 비전-언어 지시 튜닝을 활용하여, 우리는 2D 이미지 이해와 3D 장면 이해를 위한 통합 아키텍처를 수립한다. 실험 결과는, LLaVA-3D가 3D 비전-언어 데이터셋에서 훈련될 때 기존 3D LMMs보다 3.5배 빠르게 수렴함을 보여준다. 더불어, LLaVA-3D는 다양한 3D 작업에서 최첨단 성능을 달성할 뿐만 아니라, LLaVA와 유사한 2D 이미지 이해 및 비전-언어 대화 능력을 유지한다.
사전 훈련된 텍스트-이미지 확산 모델의 시각 선행 지식을 활용하는 것은 밀집 예측 작업에서 제로샷 일반화를 향상시키는 유망한 해결책을 제공합니다. 그러나 기존 방법은 종종 원래의 확산 공식을 비판 없이 사용하는데, 이는 밀집 예측과 이미지 생성 사이의 근본적인 차이로 인해 최적이 아닐 수 있습니다. 본 논문에서는 밀집 예측을 위한 확산 공식에 대한 체계적인 분석을 제공하며, 품질과 효율성에 초점을 맞춥니다. 그 결과, 이미지 생성을 위한 원래의 매개변수화 유형은 밀집 예측에 해로울 수 있으며, 다단계 노이즈/노이즈 제거 확산 프로세스는 불필요하며 최적화하기 어렵다는 것을 발견했습니다. 이러한 통찰력을 기반으로, 밀집 예측을 위한 간단하면서 효과적인 적응 프로토콜을 갖춘 확산 기반 비주얼 기초 모델인 Lotus를 소개합니다. 구체적으로, Lotus는 해로운 분산을 피하기 위해 노이즈 대신 주석을 직접 예측하도록 훈련되며, 확산 프로세스를 단일 단계 절차로 재정의하여 최적화를 단순화하고 추론 속도를 크게 향상시킵니다. 또한 세밀하고 정확한 예측을 달성하는 새로운 튜닝 전략인 디테일 프리저버를 소개합니다. 훈련 데이터나 모델 용량을 확장하지 않고도 Lotus는 다양한 데이터셋에서 제로샷 깊이 및 법선 추정에서 SoTA 성능을 달성합니다. 또한 대부분의 기존 확산 기반 방법보다 수백 배 빠른 효율성을 크게 향상시킵니다.
지시 튜닝은 일반적으로 언어 모델을 지시-응답 쌍에 대해 세세하게 조정하는 것을 의미합니다. 우리는 지시 튜닝과 비교했을 때 미흡한 두 가지 조정(튜닝) 형태를 발견했지만 여전히 지시 따르기를 이끌어 냅니다. 이를 암시적 지시 튜닝이라고 부릅니다. 먼저, 지시-응답 쌍이 필요하지 않음을 발견했습니다. 즉, 해당 지시 없이 응답만을 훈련시키면 지시 따르기가 가능합니다. 이는 사전 훈련된 모델이 원하는 응답 분포를 가르쳐줌으로써 드러나는 지시-응답 매핑을 갖고 있다는 것을 시사합니다. 그러나 원하는 응답 분포를 가르치는 것이 필요하지 않음을 발견했습니다. 시를 비롯한 좁은 영역 데이터에서의 지시-응답 훈련은 여전히 레시피 생성과 같은 넓은 지시 따르기 행동으로 이어집니다. 특히, 좁은 세밀 조정 도메인의 지시와 매우 다른 경우, 모델의 응답은 세밀 조정 도메인의 스타일을 따르지 않습니다. 암시적 지시 튜닝을 설명하기 위해, 언어 모델의 분포에 매우 간단한 변경이 지시 따르기를 이끌어낼 수 있다는 가설을 세웁니다. 이를 지지하기 위해 규칙 기반 언어 모델을 손으로 작성하여 사전 훈련된 모델과 함께 전문가들의 곱으로 지시 따르기를 이끌어 냅니다. 이 규칙은 순차열을 끝내는 확률을 천천히 증가시키고 반복을 벌점 부과하며 15개 단어의 확률을 균일하게 변경하는 것입니다. 요약하면, 지시 따르기를 이끌어내기 위해 설계되지 않은 조정이 암시적으로 그것을 할 수 있습니다.
대규모 언어 모델(Large Language Models, LLMs)은 긴 문맥 입력을 처리하는 놀라운 능력을 보여주었지만, 이는 증가된 계산 자원과 지연 시간이라는 비용이 따릅니다. 저희 연구는 LLM 추론을 가속화하고 GPU 메모리 소비를 줄이기 위한 새로운 접근 방식을 소개합니다. 저희 연구는 LLM이 쿼리에 대한 답변을 생성하기 전 초기 레이어에서 관련 토큰을 식별할 수 있다는 것을 입증합니다. 이 통찰력을 활용하여, 저희는 알고리즘을 제안합니다. 이 알고리즘은 LLM의 초기 레이어를 필터로 사용하여 입력 토큰을 선택하고 압축함으로써, 후속 처리를 위한 문맥 길이를 크게 줄입니다. 저희의 방법인 GemFilter는 기존 기술인 표준 어텐션(standard attention) 및 SnapKV/H2O와 비교하여 속도와 메모리 효율성 모두에서 상당한 개선을 보입니다. 특히, SOTA 방법과 비교하여 2.4배의 속도 향상과 GPU 메모리 사용량 감소율이 30%인 성과를 달성합니다. '바늘 찾기' 작업에서의 평가 결과, GemFilter는 표준 어텐션과 SnapKV를 크게 능가하며 LongBench 챌린지에서도 비슷한 성과를 보입니다. GemFilter는 간단하며 훈련이 필요 없으며, 다양한 LLM에 널리 적용할 수 있습니다. 중요한 점은, 이는 사람들이 선택된 입력 시퀀스를 검토할 수 있도록 함으로써 해석 가능성을 제공합니다. 이러한 발견은 LLM 배포에 실용적인 혜택을 제공할 뿐만 아니라, LLM 내부 메커니즘에 대한 우리의 이해를 향상시켜 LLM 설계 및 추론에 대한 추가 최적화를 위한 길을 열어줍니다. 저희의 코드는 https://github.com/SalesforceAIResearch/GemFilter에서 확인할 수 있습니다.
잠재 확산 모델(Latent diffusion models, LDMs)은 최근 이미지 생성 분야에서 중요한 발전을 이루었습니다. LDMs의 주요 장점 중 하나는 압축된 잠재 공간에서 작동할 수 있는 능력으로, 더 효율적인 훈련과 배포가 가능합니다. 그러나 이러한 장점에도 불구하고, LDMs와 관련된 여러 어려움이 여전히 존재합니다. 예를 들어, LDMs가 종종 고주파 세부 사항과 복잡한 구성을 불완전하게 생성하는 것으로 관찰되었습니다. 이러한 결함의 하나의 이유로, 모든 LDMs의 사전 및 사후 훈련이 일반적으로 출력 이미지보다 공간 해상도가 8배 낮은 잠재 공간에서 이루어진다는 점이 있을 것으로 추측됩니다. 이 문제를 해결하기 위해, 우리는 고주파 세부 사항을 더 잘 보존하기 위해 사후 훈련 과정에 픽셀 공간 지도를 추가하는 것을 제안합니다. 실험적으로, 우리는 최첨단 DiT 변환기와 U-Net 확산 모델에서 시각적 품질 및 시각적 결함 지표 양측에서 지도 품질 세밀 조정 및 선호 기반 사후 훈련을 크게 향상시키는 것을 보여줍니다. 이때 텍스트 정렬 품질은 유지됩니다.
대형 언어 모델(LLM) 시대에는 언어 UI의 급속한 발전 트렌드 덕분에 방대한 대화 로그가 축적될 것입니다. 대화 분석(CA)은 대화 데이터에서 중요 정보를 발굴하고 분석하여 수동 프로세스를 최적화하며 비즈니스 통찰력과 의사 결정을 지원합니다. CA의 필요성은 실행 가능한 통찰을 추출하고 역량을 증진시키는 데 점점 더 중요해지고 널리 주목을 끌고 있습니다. 그러나 CA의 명확한 범위 부재로 인해 다양한 기술이 분산되어 시스템적 기술 융합을 형성하기 어렵습니다. 본 논문에서는 철저한 검토를 수행하고 CA 작업을 체계화하여 기존 관련 작업을 요약합니다. 구체적으로, 우리는 CA 작업을 공식적으로 정의하여 이 분야의 분열된 혼돈된 풍경에 맞서고 대화 장면 재구성부터 심층 속성 분석, 그리고 대상 지향적 훈련을 수행하고 마지막으로 특정 목표를 달성하기 위해 대상 훈련에 기반한 대화를 생성하는 네 가지 주요 단계를 도출합니다. 또한 관련 벤치마크를 소개하고 잠재적인 도전과 산업 및 학계의 미래 방향을 논의합니다. 현재의 발전 상황을 고려할 때, 논문은 대부분의 노력이 얕은 대화 요소의 분석에 집중되어 있음을 명백히 합니다. 이는 연구와 비즈니스 간에 상당한 격차를 보여주며 LLM의 지원을 통해 최근 작업은 정교하고 고수준인 인과 관계 및 전략적 작업에 대한 연구로 나아가는 추세를 보여줍니다. 분석된 경험과 통찰력은 대화 로그를 대상으로 하는 비즈니스 운영에서 보다 넓은 응용 가치를 갖게 될 것입니다.
우리는 단일 이미지로부터 4D 인간 생성 및 애니메이션을 위한 새로운 가우시안 스플래팅 프레임워크인 Disco4D를 제안합니다. 기존 방법과는 다르게 Disco4D는 옷(가우시안 모델)을 인간 몸체(SMPL-X 모델)와 구분하여 세부사항과 유연성을 크게 향상시킵니다. 다음과 같은 기술적 혁신을 갖고 있습니다. 1) Disco4D는 옷 가우시안을 SMPL-X 가우시안 위에 효율적으로 맞추는 학습을 합니다. 2) 3D 생성 과정을 향상시키기 위해 확산 모델을 채택하며, 예를 들어 입력 이미지에서 보이지 않는 가려진 부분을 모델링합니다. 3) 각 옷 가우시안에 대한 신원 인코딩을 학습하여 옷 자산의 분리와 추출을 용이하게 합니다. 더불어, Disco4D는 생생한 역학을 갖고 4D 인간 애니메이션을 자연스럽게 지원합니다. 포괄적인 실험은 Disco4D의 4D 인간 생성 및 애니메이션 작업에서 우수성을 입증합니다. 시각화 자료는 https://disco-4d.github.io/에서 확인할 수 있습니다.
지난 몇 년 동안 ColBERT를 주도로 한 다중 벡터 검색 방법이 신경 기반 정보 검색에 점점 더 인기 있는 접근 방식이 되었습니다. 이러한 방법은 문서 수준이 아닌 토큰 수준에서 표현을 저장함으로써, 특히 도메인 밖 환경에서 매우 강력한 검색 성능을 보여주었습니다. 그러나 연관된 벡터의 대량 저장에 필요한 저장 및 메모리 요구 사항은 여전히 중요한 단점으로 남아 있어 실용적인 채택을 방해하고 있습니다. 본 논문에서는 저장해야 하는 벡터의 수를 대폭 줄이기 위한 간단한 클러스터링 기반 토큰 풀링 접근 방식을 소개합니다. 이 방법은 ColBERT 인덱스의 공간 및 메모리 풋프린트를 거의 훼손 없이 50% 줄일 수 있습니다. 이 방법은 또한 벡터 수를 66%에서 75%까지 추가로 줄일 수 있으며, 대부분의 데이터셋에서 5% 미만의 성능 저하로 유지됩니다. 이 접근 방식은 아키텍처 변경이나 쿼리 시간 처리가 필요하지 않으며, ColBERT와 유사한 모델을 사용하여 인덱싱하는 동안 간단히 적용할 수 있습니다.
인간은 다른 사람을 감시함으로써 새로운 물체를 조작하는 방법을 배울 수 있습니다. 로봇에게 이러한 시연으로부터 학습할 수 있는 능력을 제공하는 것은 새로운 행동을 지정하는 자연스러운 인터페이스를 가능하게 할 것입니다. 본 연구는 로봇이 단일 단안 RGB 인간 시연으로부터 단일 정적 다중 뷰 객체 스캔을 제공받아 관절화된 물체 조작을 모방하는 방법인 Robot See Robot Do (RSRD)를 개발합니다. 우리는 먼저 4차원 미분 가능한 부품 모델(4D-DPM)을 제안합니다. 이는 미분 가능한 렌더링을 사용하여 단안 비디오에서 3D 부품 동작을 복구하는 방법입니다. 이 분석-합성 접근 방식은 기하학적 정규화자를 사용하여 단일 비디오에서 3D 동작을 복구할 수 있도록 반복적 최적화를 사용하는 부품 중심의 특징 필드를 활용합니다. 이 4D 재구성을 통해 로봇은 시연된 객체 부품 동작을 유도하는 양손 팔 동작을 계획하여 객체 궤적을 복제합니다. 시연을 부품 중심 궤적으로 표현함으로써 RSRD는 로봇 자체의 형태적 한계를 고려하면서 시연의 의도된 행동을 복제하는 데 초점을 맞춥니다. 우리는 4D-DPM의 3D 추적 정확도를 지면 실측된 3D 부품 궤적과 RSRD의 물리적 실행 성능을 양손 YuMi 로봇에서 각각 10번의 시행을 통해 9개 객체에 대해 평가합니다. RSRD의 각 단계는 90번의 시행 전체에서 60%의 최종 성공률을 달성하는 평균 87%의 성공률을 달성합니다. 높은 성공률을 달성하는 데 큰 사전 훈련된 비전 모델에서 추출된 특징 필드만 사용하여 특정 작업 훈련, 세밀한 조정, 데이터셋 수집 또는 주석 없이 이루어졌음에 주목할 만합니다. 프로젝트 페이지: https://robot-see-robot-do.github.io
대규모이고 복잡한 데이터셋에서 의미 있는 통찰력을 추출하는 것은 정확성과 관련성을 보장하는 데 상당한 어려움을 겪습니다. 순차 검색 및 인덱스 기반 검색과 같은 전통적인 데이터 검색 방법은 복잡하고 상호 연결된 데이터 구조를 처리할 때 종종 실패하여 불완전하거나 잘못된 결과를 가져옵니다. 이러한 제한을 극복하기 위해 우리는 구조화된 데이터셋에서 정보 검색을 향상시키기 위해 설계된 다재다능한 프레임워크 인 Structured-GraphRAG를 소개합니다. Structured-GraphRAG는 자연어 쿼리에서 구조화된 데이터셋 전반에 걸쳐 정보 검색을 강화하기 위해 설계되었습니다. Structured-GraphRAG는 데이터를 구조화된 형식으로 나타내고 엔티티 간의 복잡한 관계를 포착하는 여러 지식 그래프를 활용하여 정보를 더 세밀하고 포괄적으로 검색할 수 있게 합니다. 이 그래프 기반 접근 방식은 구조화된 형식으로 응답을 근거로 하여 언어 모델 출력의 오류 가능성을 줄이며 결과의 신뢰성을 향상시킵니다. 우리는 최근 발표된 방법을 사용하는 전통적인 검색 보강 생성과의 성능을 비교하여 Structured-GraphRAG의 효과를 입증합니다. 우리의 연구 결과는 Structured-GraphRAG가 쿼리 처리 효율성을 크게 향상시키고 응답 시간을 줄인다는 것을 보여줍니다. 우리의 사례 연구는 축구 데이터에 초점을 맞추지만, 이 프레임워크의 설계는 널리 적용 가능하며 다양한 구조화된 도메인에서 데이터 분석을 강화하고 언어 모델 응용 프로그램을 향상시키는 강력한 도구를 제공합니다.