번역이 포함된 일일 선별된 AI 연구 논문
언어 모델(Language Models, LMs)의 문맥 길이를 연장하기 위해 로터리 위치 임베딩(Rotary Position Embedding, RoPE)을 개선하는 것이 트렌드가 되었습니다. 기존 연구들은 대부분 RoPE의 제한 사항을 주로 어텐션 메커니즘 내에서 다루었지만, 본 논문은 LM의 거의 모든 부분을 대상으로 분석을 제공하여 RoPE 기반 어텐션의 길이 일반화에 미치는 부정적인 영향을 밝혀냅니다. 이산 신호 처리 이론을 활용하여, RoPE가 비주기적 어텐션을 가능하게 하며 비균일 이산 푸리에 변환을 암묵적으로 달성함을 보여줍니다. 그러나 이 주기성은 주파수 영향력의 손상으로 약화되는데, 이는 1) 어텐션 외부의 선형 레이어 및 활성화 함수에 의한 것과 2) 시간 영역 절단으로 인한 충분히 훈련되지 않은 주파수 성분에 기인합니다. 우리의 관찰을 기반으로, 주파수 도메인 특성을 향상시켜 어텐션의 주기적 확장과 길이 일반화를 개선하는 푸리에 위치 임베딩(Fourier Position Embedding, FoPE)을 제안합니다. FoPE는 푸리에 급수를 구성하고 파괴적인 주파수 성분을 제거하여 모델의 스펙트럼 손상에 대한 강건성을 향상시킵니다. 다양한 모델 규모를 대상으로 한 실험 결과, 다양한 문맥 창에서 FoPE는 RoPE 및 ALiBi에 비해 바늘 찾기 작업에서 더 안정적인 페르플렉서티와 일관된 정확도를 유지할 수 있음을 보여줍니다. 다양한 분석 및 제거 실험은 우리의 방법과 이론적 모델링을 더욱 지지합니다.
3D 장면 그래프는 객체와 그들 사이의 의미적 관계에 대한 정보를 저장하는 간결한 장면 모델을 나타내며, 이는 로봇 작업에 유용하게 활용될 수 있습니다. 사용자와 상호 작용할 때, 구현된 지능 있는 에이전트는 자연어로 표현된 장면에 대한 다양한 쿼리에 응답할 수 있어야 합니다. 대형 언어 모델(LLMs)은 자연어 이해 및 추론 능력으로 인해 사용자-로봇 상호 작용에 유익한 솔루션입니다. 최근에는 3D 장면의 학습 가능한 표현을 생성하는 방법들이 3D 세계에 적응하여 LLMs의 응답 품질을 향상시킬 잠재력을 보여주었습니다. 그러나 기존 방법은 객체 간 의미적 관계에 대한 정보를 명시적으로 활용하지 않아, 그들의 좌표에 대한 정보로 제한됩니다. 본 연구에서는 3D 장면 그래프의 학습 가능한 표현을 구성하기 위한 3DGraphLLM 방법을 제안합니다. 학습 가능한 표현은 LLMs의 입력으로 사용되어 3D 비전-언어 작업을 수행합니다. 인기 있는 ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D, Scan2cap 데이터셋에서의 실험에서, 객체 간 의미적 관계에 대한 정보를 사용하지 않는 기본 방법에 비해 이 접근 방식의 장점을 입증합니다. 코드는 https://github.com/CognitiveAISystems/3DGraphLLM 에서 공개적으로 이용 가능합니다.
결측값은 다양한 원인으로 인해 발생하는 깊이 데이터의 넓은 응용 분야에서 여전히 흔한 도전 과제입니다. 이는 데이터 획득의 미완성 및 관점 변경과 같은 이유에서 기인합니다. 본 연구는 이미지 확산 사전을 기반으로 한 근원적인 깊이 보충 모델인 DepthLab을 통해 이 간극을 메웁니다. 우리의 모델은 두 가지 주목할 만한 강점을 갖고 있습니다: (1) 깊이 부족 영역에 대한 저항력을 보여주며 연속적인 영역 및 고립된 점에 대해 신뢰할 수 있는 완성을 제공하고, (2) 누락된 값을 채울 때 조건부로 알려진 깊이와 규모 일관성을 충실히 보존합니다. 이러한 장점을 바탕으로 우리의 접근 방식은 3D 장면 보충, 텍스트에서 3D 장면 생성, DUST3R을 활용한 희소한 뷰 재구성 및 LiDAR 깊이 완성과 같은 다양한 하향 작업에서 그 가치를 입증하며 현재 솔루션을 숫자적 성능과 시각적 품질 측면에서 능가합니다. 소스 코드가 포함된 프로젝트 페이지는 https://johanan528.github.io/depthlab_web/에서 확인하실 수 있습니다.
Sora와 유사한 비디오 생성 모델은 Multi-Modal Diffusion Transformer MM-DiT 아키텍처로 놀라운 진전을 이루었습니다. 그러나 현재의 비디오 생성 모델은 주로 단일 프롬프트에 초점을 맞추어, 여러 연속적인 프롬프트로 일관된 장면을 생성하는 데 어려움을 겪고 있어 현실 세계의 동적 시나리오를 더 잘 반영하지 못합니다. 일부 선구적인 연구들은 다중 프롬프트 비디오 생성을 탐구했지만, 엄격한 훈련 데이터 요구, 약한 프롬프트 추종, 비자연스러운 전환 등의 중요한 도전에 직면하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 처음으로 MM-DiT 아키텍처 하에 훈련 없는 다중 프롬프트 비디오 생성 방법인 DiTCtrl을 제안합니다. 우리의 주요 아이디어는 다중 프롬프트 비디오 생성 작업을 부드러운 전환을 가진 시간적 비디오 편집으로 취급하는 것입니다. 이 목표를 달성하기 위해, 우리는 먼저 MM-DiT의 주의 메커니즘을 분석하여, 3D 전체 주의가 UNet과 유사한 확산 모델의 교차/자기 주의 블록과 유사하게 작동함을 발견했습니다. 이를 통해 다중 프롬프트 비디오 생성을 위해 주의 공유를 통해 다른 프롬프트 간의 마스크로 정확한 의미적 제어를 가능하게 합니다. 우리의 신중한 설계를 기반으로, DiTCtrl에 의해 생성된 비디오는 추가 훈련 없이 여러 연속적인 프롬프트를 고려할 때 부드러운 전환과 일관된 객체 움직임을 달성합니다. 게다가, 우리는 다중 프롬프트 비디오 생성의 성능을 평가하기 위해 특별히 설계된 새로운 벤치마크인 MPVBench를 제시합니다. 광범위한 실험 결과, 우리의 방법이 추가 훈련 없이 최첨단 성능을 달성함을 보여줍니다.
텍스트 또는 이미지에서 3D 생성기 및 3D 스캐너는 이제 고품질의 형태와 질감을 갖는 3D 에셋을 생성할 수 있습니다. 이러한 에셋은 일반적으로 암시적 신경장, 가우시안 혼합 또는 메쉬와 같이 유용한 구조가 전혀 없는 단일한 융합된 표현으로 구성됩니다. 그러나 대부분의 응용 프로그램 및 창의적인 작업 흐름은 독립적으로 조작할 수 있는 여러 의미 있는 부분으로 이루어진 에셋을 필요로 합니다. 이 간극을 해결하기 위해 우리는 PartGen을 소개합니다. PartGen은 텍스트, 이미지 또는 구조화되지 않은 3D 객체에서 시작하여 의미 있는 부분으로 구성된 3D 객체를 생성하는 혁신적인 접근 방식입니다. 먼저, 생성되거나 렌더링된 3D 객체의 여러 뷰를 제공하면 다중 뷰 확산 모델이 가능성 있는 뷰 일관성 있는 부분 분할을 추출하여 객체를 부분으로 나눕니다. 그런 다음, 두 번째 다중 뷰 확산 모델은 각 부분을 개별적으로 취하여 가려진 부분을 채우고 완료된 뷰를 3D 재구성 네트워크에 공급하여 3D 재구성을 수행합니다. 이 완료 프로세스는 부분이 조화롭게 통합되도록 전체 객체의 맥락을 고려합니다. 생성 완료 모델은 가려진 정보를 보충할 수 있으며, 극단적인 경우 입력 3D 에셋을 기반으로 완전히 보이지 않는 부분을 환각할 수 있습니다. 우리는 생성된 및 실제 3D 에셋에서 우리의 방법을 평가하고 분할 및 부분 추출 기준선을 크게 능가한다는 것을 보여줍니다. 또한 3D 부분 편집과 같은 하류 응용 프로그램을 소개합니다.
최근 대형 언어 모델의 발전에도 불구하고, 오픈 소스 모델은 복잡한 추론 작업에서 일관된 성능을 발휘하기 어려운 경우가 많습니다. 기존의 앙상블 방법은 토큰 또는 출력 수준에서 적용되더라도 이러한 도전에 대처하지 못합니다. 이에 우리는 언어 모델 앙상블과 몬테 카를로 트리 탐색(LE-MCTS)을 제안하여 언어 모델의 프로세스 수준 앙상블을 위한 혁신적인 프레임워크를 제시합니다. LE-MCTS는 언어 모델의 앙상블을 마르코프 결정 과정으로 단계별 추론으로 정의합니다. 이 프레임워크에서 상태는 중간 추론 경로를 나타내며, 행동은 미리 정의된 풀에서 선택된 언어 모델 중 하나를 사용하여 다음 추론 단계를 생성하는 것으로 구성됩니다. 프로세스 기반 보상 모델에 따라 LE-MCTS는 서로 다른 언어 모델에 의해 생성된 추론 단계에 대한 트리 탐색을 수행하여 가장 정확한 추론 체인을 식별합니다. 다섯 가지 수학적 추론 벤치마크에서의 실험 결과는 우리의 접근 방식이 단일 언어 모델 디코딩 알고리즘과 언어 모델 앙상블 방법을 능가함을 보여줍니다. 특히, LE-MCTS는 MATH 및 MQA 데이터셋에서 각각 3.6% 및 4.3%의 성능 향상을 보여 복잡한 추론 문제 해결 능력을 강조합니다.
현대 LLMs에게는 ARC Challenge가 ARC Easy보다 더 어려운 것으로 보입니다. 이는 본질적인 복잡성보다는 답변 선택지를 직접 비교할 수 없는 평가 설정 때문입니다. 작년 동안 일부 연구자들이 조용히 더 적절한 체계로 전환해왔지만, 이러한 변화의 영향은 아직 널리 인정받지 못했습니다. 우리는 이 간과된 변화를 강조하고, 유사한 평가 방법이 다른 벤치마크에서 추론 결함을 잘못 시사하는 것을 보여주며, 공정한 방법이 성능 차이를 크게 줄이는 것을 시연하고 (예: SIQA에서), 심지어 초인간적인 결과를 도출하는 것을 보여줍니다 (OpenBookQA). 이를 통해 우리는 평가가 인식된 난이도를 형성하고 다중 선택 평가가 실제 모델 능력을 정확히 반영하도록 하는 지침을 제시합니다.
희소하게 활성화된 전문가들의 혼합 (MoE) 모델은 계산 예산을 증가시키지 않고 모델 용량을 확장하는 데 널리 사용됩니다. 그러나 일반적인 TopK 라우터는 불연속하고 미분 불가능한 방식으로 훈련되어 성능과 확장성이 제한됩니다. 이 문제를 해결하기 위해 우리는 ReMoE를 제안합니다. 이는 전통적인 TopK+Softmax 라우팅을 대체할 수 있는 간단하면서도 효과적인 완전 미분 가능한 MoE 아키텍처로, 라우터로 ReLU를 활용합니다. 또한 전문가들 사이의 부하를 균형 있게 조절하면서 라우터의 희소성을 조절하는 방법을 제안합니다. ReMoE의 연속적인 특성은 토큰과 레이어 간의 효율적인 동적 계산 할당을 가능하게 하며 도메인 특화를 나타냅니다. 실험 결과, ReMoE가 다양한 모델 크기, 전문가 수 및 세분화 수준에 걸쳐 일반적인 TopK 라우팅된 MoE보다 일관되게 우수한 성능을 보여줍니다. 더 나아가, ReMoE는 전통적인 MoE 아키텍처를 능가하는 전문가 수에 대한 우수한 확장성을 나타냅니다. Megatron-LM을 기반으로 한 구현은 https://github.com/thu-ml/ReMoE에서 제공됩니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 방대한 말뭉치를 활용하여 정보가 풍부하고 맥락적으로 관련성 있는 응답을 생성하는 데 중요한 역할을 하며, 특히 대형 언어 모델의 환각을 줄이는 데 도움이 됩니다. 중요한 발전이 있었음에도 불구하고, 이러한 시스템은 대규모 데이터셋에서 정보를 효율적으로 처리하고 검색하는 데 어려움을 겪으며 맥락에 대한 포괄적인 이해를 유지하는 데 어려움을 겪습니다. 본 논문은 SKETCH를 소개하는데, 이는 의미론적 텍스트 검색을 지식 그래프와 통합하여 구조화된 데이터와 비구조화된 데이터를 통합하여 더 통합적인 이해를 제공하는 RAG 검색 과정을 향상시키는 새로운 방법론입니다. SKETCH는 전통적인 방법에 비해 검색 성능을 상당히 향상시키고 우수한 맥락 무결성을 유지합니다. QuALITY, QASPER, NarrativeQA 및 Italian Cuisine와 같이 다양한 데이터셋을 통해 평가된 결과를 보면, SKETCH는 answer_relevancy, faithfulness, context_precision 및 context_recall과 같은 주요 RAGAS 지표에서 기준선 방법보다 일관적으로 우수한 성과를 보입니다. 특히 Italian Cuisine 데이터셋에서 SKETCH는 0.94의 답변 관련성과 0.99의 맥락 정밀도를 달성하여 모든 평가된 지표에서 가장 뛰어난 성과를 나타냅니다. 이러한 결과는 SKETCH가 더 정확하고 맥락적으로 관련성 있는 응답을 제공하는 능력을 강조하며, 미래 검색 시스템에 대한 새로운 기준을 제시합니다.
AI 분야의 발전은 주로 규모와 훈련 데이터의 품질에 의해 주도됩니다. 그럼에도 불구하고, 텍스트 이외의 잘 알려진 데이터셋의 속성을 검토하는 경험적 분석이 부족합니다. 본 연구에서는 1990년부터 2024년까지 걸쳐 608개 언어, 798개 출처, 659개 기관, 67개 국가를 포괄하는 거의 4000개의 공개 데이터셋을 수동으로 분석하여, 텍스트, 음성, 비디오 데이터셋을 포함한 다양한 모달리티에서의 상세한 소싱 트렌드와 사용 제한, 지리적 및 언어적 표현을 조사합니다. 우리는 다모달 기계 학습 응용 프로그램이 2019년 이후로 YouTube와 같은 웹 크롤링, 합성, 소셜 미디어 플랫폼에 대한 훈련 세트로 압도적으로 기울어진 것을 발견했습니다. 둘째로, 데이터셋 파생 체인을 추적하면서, 데이터셋의 33% 미만이 제한적으로 라이선스되었지만, 널리 사용되는 텍스트, 음성, 비디오 데이터셋의 소스 콘텐츠 중 80% 이상이 비상업적 제한을 가지고 있음을 발견했습니다. 마지막으로, 공개 AI 훈련 데이터셋에 대표되는 언어 및 지리적 표현의 수가 증가하고 있음에도 불구하고, 우리의 감사는 2013년 이후 이들의 커버리지를 크게 개선하지 못했음을 보여줍니다. 우리의 감사 범위는 데이터 소싱, 제한 사항, 서구 중심성의 추세를 생태계 수준에서 경험적으로 검토할 수 있도록 하며, 이러한 문제에 대한 시각성이 책임 있는 AI 분야의 발전에 중요하다고 믿습니다. 데이터셋 투명성과 책임 있는 사용의 지속적인 개선에 기여하기 위해, 우리는 텍스트, 음성, 비디오를 통해 데이터 출처를 추적할 수 있도록 우리의 전체 다모달 감사를 공개합니다.
텍스트-이미지-비디오(TI2V) 생성은 이미지에서 비디오를 생성하는 것을 목표로 하며, 해당 프로세스는 텍스트 설명에 따라 진행되며 텍스트로 안내되는 이미지 애니메이션으로도 불립니다. 대부분의 기존 방법은 특히 움직임이 명시된 경우 텍스트 프롬프트와 잘 일치하는 비디오를 생성하는 데 어려움을 겪습니다. 이 제한을 극복하기 위해 MotiF를 소개합니다. 이는 모델의 학습을 더 많은 움직임이 있는 영역으로 유도하여 텍스트 정렬과 움직임 생성을 개선하는 간단하면서도 효과적인 방법입니다. 우리는 광학 흐름을 사용하여 움직임 히트맵을 생성하고 움직임의 강도에 따라 손실을 가중시킵니다. 이 수정된 목표는 현저한 개선을 이끌어내며 모델 입력으로 움직임 사전을 활용하는 기존 방법을 보완합니다. 또한, TI2V 생성을 평가하기 위한 다양한 기준이 부족한 점을 감안하여, 견고한 평가를 위한 320개의 이미지-텍스트 쌍으로 구성된 데이터셋인 TI2V Bench를 제안합니다. 우리는 주관자들이 두 비디오 중 선호도를 선택하고 그 이유를 설명하도록 하는 인간 평가 프로토콜을 제시합니다. TI2V Bench에서의 포괄적인 평가를 통해, MotiF는 9개의 오픈 소스 모델을 능가하여 72%의 평균 선호도를 달성합니다. TI2V Bench는 https://wang-sj16.github.io/motif/에서 공개되었습니다.