每日精選AI研究論文及翻譯
通過改進旋轉位置嵌入(RoPE)來擴展語言模型(LMs)的上下文長度已成為一種趨勢。雖然現有的研究主要解決了注意機制內RoPE的局限性,但本文在LMs的幾乎所有部分提供了分析,揭示了它們對基於RoPE的注意力在長度泛化方面的不利影響。利用離散信號處理理論,我們展示RoPE通過隱式實現非均勻離散傅立葉變換來實現週期性注意力。然而,這種周期性受到以下因素造成的頻譜損傷的影響:1)在注意力之外的線性層和激活函數;2)由時域截斷帶來的訓練不足的頻率成分。基於我們的觀察,我們提出了傅立葉位置嵌入(FoPE),它增強了注意力的頻域特性,從而改善了其週期擴展和長度泛化。FoPE構建傅立葉級數並清除破壞性頻率成分,增加了模型對頻譜損傷的韌性。在各種模型規模上進行的實驗顯示,在不同上下文窗口中,與RoPE和ALiBi相比,FoPE在針在一堆乾草任務中能夠保持更穩定的困惑度和更一致的準確性。幾項分析和消融進一步支持我們的方法和理論建模。
一個3D場景圖表示一個緊湊的場景模型,存儲有關物體和它們之間語義關係的信息,使其在機器人任務中的使用變得有前景。當與用戶互動時,一個具體的智能代理應該能夠回應用自然語言制定的有關場景的各種查詢。大型語言模型(LLMs)由於其自然語言理解和推理能力,對於用戶-機器人交互是有益的解決方案。最近用於創建可學習的3D場景表示的方法已經展示了通過適應3D世界來改進LLMs回應質量的潛力。然而,現有方法並沒有明確利用物體之間語義關係的信息,而是限制於它們的坐標信息。在這項工作中,我們提出了一種名為3DGraphLLM的方法,用於構建3D場景圖的可學習表示。這種可學習表示被用作LLMs的輸入,以執行3D視覺-語言任務。在我們對流行的ScanRefer、RIORefer、Multi3DRefer、ScanQA、Sqa3D和Scan2cap數據集的實驗中,我們展示了這種方法相對於不使用物體之間語義關係信息的基準方法的優勢。代碼公開可在https://github.com/CognitiveAISystems/3DGraphLLM找到。
在各種應用中,缺失值仍然是深度資料的一個常見挑戰,這源於各種原因,如資料獲取不完整和視角改變。本研究通過DepthLab來彌補這一差距,這是一個基於圖像擴散先驗的基礎深度修補模型。我們的模型具有兩個顯著優勢:(1) 它對於深度不足的區域表現出韌性,可為連續區域和孤立點提供可靠的完成,以及 (2) 當填補缺失值時,它能忠實地保留與條件已知深度的比例一致性。基於這些優勢,我們的方法在各種下游任務中證明了其價值,包括3D場景修補、文本到3D場景生成、使用DUST3R進行稀疏視圖重建以及LiDAR深度完成,在數值性能和視覺質量方面均超越了當前解決方案。我們的項目頁面和源代碼可在https://johanan528.github.io/depthlab_web/找到。
基於 Multi-Modal Diffusion Transformer MM-DiT 結構,類似 Sora 的影片生成模型取得了顯著進展。然而,目前的影片生成模型主要集中在單個提示上,難以生成具有多個連續提示的連貫場景,這些場景更能反映現實世界的動態情況。雖然一些開拓性工作已經探索了多提示影片生成,但它們面臨著重大挑戰,包括嚴格的訓練數據要求、弱提示跟隨以及不自然的過渡。為了解決這些問題,我們首次提出了 DiTCtrl,這是一種在 MM-DiT 結構下無需訓練的多提示影片生成方法。我們的主要想法是將多提示影片生成任務視為具有平滑過渡的時間影片編輯。為了實現這一目標,我們首先分析了 MM-DiT 的注意機制,發現 3D 全注意力的行為與 UNet-like 擴散模型中的交叉/自我注意塊類似,實現了通過注意力共享在不同提示之間進行具有遮罩引導的精確語義控制的多提示影片生成。基於我們的精心設計,DiTCtrl 生成的影片實現了平滑過渡和一致的物體運動,並給出了多個連續提示而無需額外訓練。此外,我們還提出了 MPVBench,這是一個專門設計用於多提示影片生成的新基準,用於評估多提示生成的性能。大量實驗表明,我們的方法在無需額外訓練的情況下實現了最先進的性能。
現在,文字或圖像轉3D生成器和3D掃描儀可以製作具有高質量形狀和紋理的3D資產。這些資產通常由單一的融合表示組成,例如隱式神經場、高斯混合或網格,沒有任何有用的結構。然而,大多數應用程序和創意工作流需要資產由幾個有意義的部分組成,這些部分可以獨立操縱。為了彌補這一差距,我們引入了PartGen,一種從文字、圖像或非結構化3D物體開始生成由有意義部分組成的3D物體的新方法。首先,給定3D物體的多個視圖,生成或渲染,多視圖擴散模型提取一組合理且視圖一致的部分分割,將物體分成部分。然後,第二個多視圖擴散模型分別處理每個部分,填補遮蔽部分,並使用這些完成的視圖通過將其提供給3D重建網絡進行3D重建。這個完成過程考慮整個物體的上下文,以確保部分整合得緊密。生成式完成模型可以彌補由於遮蔽而缺失的信息;在極端情況下,它可以根據輸入的3D資產幻想完全看不見的部分。我們在生成和真實3D資產上評估我們的方法,並展示它在分割和部分提取基線方面遠遠優於之前。我們還展示了下游應用,如3D部分編輯。
儘管大型語言模型近年來取得了重大進展,但開源模型在複雜推理任務上往往難以保持穩定的高效表現。現有的集成方法,無論是應用在標記還是輸出層面,都無法應對這些挑戰。為此,我們提出了一種名為具蒙特卡羅樹搜索的語言模型集成(LE-MCTS)的新框架,用於對語言模型進行過程級集成。LE-MCTS將使用一組語言模型進行逐步推理的過程形式化為馬爾可夫決策過程。在這個框架中,狀態代表中間推理路徑,而動作包括使用從預定池中選擇的語言模型之一生成下一個推理步驟。在過程基礎獎勵模型的指導下,LE-MCTS對由不同語言模型生成的推理步驟進行樹搜索,識別最準確的推理鏈。對五個數學推理基準測試的實驗結果表明,我們的方法優於單一語言模型解碼算法和語言模型集成方法。值得注意的是,LE-MCTS在MATH和MQA數據集上的表現分別提高了3.6%和4.3%,突顯了它在解決複雜推理問題上的有效性。
對於現代語言模型來說,ARC 挑戰題比起 ARC 簡單題更具挑戰性,主要是因為評估設定阻礙了直接比較答案選項,而非固有複雜性。儘管一些研究人員在過去一年悄悄地轉向更適當的方案,這種變化的影響尚未被廣泛認可。我們強調這個被忽視的轉變,展示類似的評估實踐如何錯誤地暗示其他基準中的推理缺陷,並證明更公平的方法能夠顯著減少性能差距(例如在 SIQA 上),甚至產生超人類的結果(OpenBookQA)。通過這樣做,我們揭示了評估如何塑造了被認為困難的程度,並提供指南,以確保多選評估準確反映實際模型能力。
廣泛採用稀疏啟動的專家混合(MoE)模型,以擴展模型容量而無需增加計算預算。然而,普通的TopK路由器以不連續、不可微分的方式進行訓練,限制了其性能和可擴展性。為了解決這個問題,我們提出了ReMoE,一種完全可微分的MoE架構,為傳統的TopK+Softmax路由提供了一個簡單而有效的可替換方案,並將ReLU作為路由器。我們進一步提出了調節路由器稀疏性並平衡專家負載的方法。ReMoE的連續性使得能夠在標記和層之間有效動態分配計算,同時展現出領域專業化。我們的實驗表明,ReMoE在各種模型大小、專家數量和粒度級別上始終優於普通的TopK路由MoE。此外,相對於傳統的MoE架構,ReMoE在專家數量方面表現出更好的可擴展性。基於Megatron-LM的實現可在https://github.com/thu-ml/ReMoE找到。
檢索增強生成(RAG)系統已成為利用龐大語料庫生成知情且與上下文相關回應的關鍵,顯著減少大型語言模型中的幻覺。儘管取得了重大進展,這些系統在有效處理和檢索大型數據集的同時,仍難以保持對上下文的全面理解。本文介紹了SKETCH,一種新穎的方法,通過將語義文本檢索與知識圖譜相結合,從而將結構化和非結構化數據融合,以實現更全面的理解。SKETCH展示了在檢索性能方面的顯著改進,並與傳統方法相比保持了優越的上下文完整性。在四個不同的數據集上進行評估:QuALITY、QASPER、NarrativeQA和意大利烹飪,SKETCH在關鍵的RAGAS指標(如答案相關性、忠實度、上下文精確度和上下文召回率)上持續優於基準方法。值得注意的是,在意大利烹飪數據集上,SKETCH實現了0.94的答案相關性和0.99的上下文精確度,代表了在所有評估指標中的最高性能。這些結果突顯了SKETCH在提供更準確和與上下文相關的回應方面的能力,為未來檢索系統設定了新的基準。
人工智慧的進展在很大程度上受到訓練數據的規模和質量的推動。 儘管如此,對於除了文本以外的眾所周知數據集的屬性缺乏實證分析。在這項工作中,我們進行了跨模態的最大型和首創的長期審計,涵蓋了流行的文本、語音和視頻數據集,從它們的詳細來源趨勢和使用限制到它們的地理和語言表示。我們的手動分析涵蓋了從1990年至2024年間的近4000個公共數據集,涵蓋了608種語言、798個來源、659個組織和67個國家。我們發現,多模態機器學習應用在訓練集方面主要轉向了網絡爬蟲、合成和社交媒體平台,例如YouTube,自2019年以來已超越所有其他來源。其次,追蹤數據集派生鏈,我們發現,儘管不到33%的數據集受到限制性許可,但在廣泛使用的文本、語音和視頻數據集中,超過80%的來源內容帶有非商業限制。最後,與公共人工智慧訓練數據中代表的語言和地理數量不斷增加相反,我們的審計顯示,相對地理和多語言代表性的度量自2013年以來未能顯著改善其覆蓋範圍。我們相信,我們審計的廣度使我們能夠實證地檢視數據來源、限制和西方中心性的趨勢,並且對這些問題的可見性對於負責任的人工智慧進展至關重要。作為對數據集透明度和負責任使用持續改進的貢獻,我們公開了整個多模態審計,讓從業者能夠追蹤文本、語音和視頻的數據來源。
文本-圖像到視頻(TI2V)生成旨在根據文本描述從圖像生成視頻,也被稱為文本引導的圖像動畫。大多數現有方法在生成與文本提示良好對齊的視頻方面存在困難,特別是當指定運動時。為了克服這一限制,我們引入了MotiF,這是一種簡單而有效的方法,它將模型的學習引導到具有更多運動的區域,從而改善文本對齊和運動生成。我們使用光流生成運動熱圖,並根據運動的強度加權損失。這種修改後的目標導致明顯改進,並補充了利用運動先驗作為模型輸入的現有方法。此外,由於缺乏用於評估TI2V生成的多樣化基準,我們提出了TI2V Bench,這是一個包含320個圖像文本對的數據集,用於進行強健的評估。我們提出了一個人類評估協議,要求標註者在選擇兩個視頻之間的整體偏好後提供其理由。通過對TI2V Bench的全面評估,MotiF勝過九個開源模型,實現了72%的平均偏好。TI2V Bench可在https://wang-sj16.github.io/motif/上獲得。