每日精選AI研究論文及翻譯
指令調校已被廣泛採用,以確保大型語言模型(LLMs)有效地遵循使用者指示。LLMs的指令遵循能力主要依賴於用於調校的指令數據集。最近,合成指令數據集已經出現作為一種經濟上可行的解決方案,以為LLMs提供多樣且高質量的指令。然而,現有方法通常假設較大或較強的模型對於指令調校是更好的教師,因此簡單地將這些模型作為合成指令的回應生成器。在本文中,我們挑戰這個常見的假設。我們在五個基本模型和二十個回應生成器上進行了廣泛的實驗,發現較大和較強的模型未必是較小模型的更好教師。我們將這種現象稱為較大模型的悖論。我們觀察到現有的指標無法精確預測回應生成器的效果,因為它們忽略了教師和被微調的基本模型之間的兼容性。因此,我們開發了一個新的指標,名為兼容性調整獎勵(CAR),來衡量回應生成器的效果。我們在五個基本模型上的實驗表明,CAR優於幾乎所有基準。
我們提出了JanusFlow,一個強大的框架,將影像理解和生成統一在單一模型中。JanusFlow引入了一個極簡的架構,將自回歸語言模型與修正流結合,後者是生成建模中的最先進方法。我們的關鍵發現表明,修正流可以在大型語言模型框架內直接訓練,無需進行複雜的架構修改。為了進一步提高我們統一模型的性能,我們採用了兩個關鍵策略:(i) 解耦理解和生成編碼器,以及(ii) 在統一訓練期間對齊它們的表示。大量實驗表明,JanusFlow在各自領域的專門模型方面實現了可比或優越的性能,同時在標準基準測試中明顯優於現有的統一方法。這項工作代表了邁向更高效和多功能的視覺-語言模型的一步。
3D部件分割是三維感知中一項至關重要且具有挑戰性的任務,在機器人技術、三維生成和三維編輯等應用中發揮著關鍵作用。最近的方法利用強大的視覺語言模型(VLMs)進行2D到3D知識蒸餾,實現了零樣本3D部件分割。然而,這些方法受限於對文本提示的依賴,這限制了對大規模未標記數據集的可擴展性以及處理部件模糊性的靈活性。在本研究中,我們介紹了SAMPart3D,一個可擴展的零樣本3D部件分割框架,可以將任何3D物體分割為多個粒度的語義部件,而無需預定義部件標籤集作為文本提示。為了實現可擴展性,我們使用文本無關的視覺基礎模型來蒸餾3D特徵提取骨幹,實現對大型未標記3D數據集的擴展以學習豐富的3D先驗知識。為了實現靈活性,我們蒸餾了尺度條件下的部件感知3D特徵,用於多個粒度的3D部件分割。一旦從尺度條件下的部件感知3D特徵中獲得分割的部件,我們使用VLMs基於多視圖渲染為每個部件分配語義標籤。相對於先前的方法,我們的SAMPart3D可以擴展到最新的大規模3D物體數據集Objaverse並處理複雜的非常規物體。此外,我們貢獻了一個新的3D部件分割基準,以解決現有基準中對象和部件缺乏多樣性和複雜性的問題。實驗表明,我們的SAMPart3D明顯優於現有的零樣本3D部件分割方法,並且可以促進各種應用,如部件級編輯和交互式分割。
我們介紹了BLIP3-KALE,這是一個包含2.18億個圖像-文字配對的數據集,彌合了描述性合成標題與事實性網絡規模替代文字之間的差距。KALE通過將網絡規模替代文字與合成密集圖像標題相結合,生成基於事實的圖像標題。我們的兩階段方法利用大型視覺-語言模型和語言模型來創建知識增強的標題,然後用於訓練一個專門的VLM以擴展數據集。我們在KALE上訓練視覺-語言模型,並展示在視覺-語言任務上的改進。我們的實驗表明KALE對於訓練更具能力和知識的多模型模型具有實用價值。我們在https://huggingface.co/datasets/Salesforce/blip3-kale 上釋出了KALE數據集。
本文主張,透過擴散模型的迭代計算,不僅為生成任務提供了一個強大範式,同時也適用於視覺知覺任務。我們將深度估計、光流和分割等任務統一歸納為圖像到圖像的轉換,並展示了擴散模型如何從訓練和測試時的計算規模化中受益,以應對這些知覺任務。通過對這些規模化行為的仔細分析,我們提出了各種技術,以有效地訓練擴散模型用於視覺知覺任務。我們的模型在使用大幅度較少的數據和計算資源的情況下,實現了優化或可與最先進方法相媲美的表現。欲使用我們的程式碼和模型,請參閱 https://scaling-diffusion-perception.github.io 。
大规模的3D生成模型需要大量的计算资源,但往往在捕捉高分辨率下的细节和复杂几何结构方面表现不佳。我们将这种限制归因于当前表示的低效性,这些表示缺乏有效建模生成模型所需的紧凑性。为了解决这个问题,我们引入了一种名为Wavelet Latent Diffusion(WaLa)的新方法,将3D形状编码为基于小波的紧凑潜在编码。具体而言,我们将一个256^3的有符号距离场压缩成一个12^3乘以4的潜在网格,实现了令人印象深刻的2427倍压缩比,同时最小化了细节损失。这种高度压缩的水平使我们的方法能够有效地训练大规模生成网络,而不会增加推断时间。我们的模型,无论是有条件的还是无条件的,都包含大约10亿个参数,并成功地在256^3分辨率下生成高质量的3D形状。此外,尽管模型规模庞大,WaLa提供了快速的推断,在两到四秒内生成形状,具体取决于条件。我们展示了在多个数据集上的最先进性能,生成质量、多样性和计算效率均有显著提高。我们开源我们的代码,并据我们所知,发布了跨不同模态的最大预训练3D生成模型。
為了在虛擬和擴增實境中創造身臨其境的體驗,捕捉準確的聲學現象的逼真音頻合成至關重要。合成在任何位置接收到的聲音依賴於脈衝響應(IR)的估計,該響應描述聲音在一個場景中沿著不同路徑傳播到聽眾位置之前的情況。在本文中,我們提出聲學體積渲染(AVR),這是一種將體積渲染技術應用於建模聲學脈衝響應的新方法。雖然體積渲染在建模圖像和神經場景表示的輻射場方面取得了成功,但IRs作為時間序列信號提出了獨特的挑戰。為了應對這些挑戰,我們引入了頻域體積渲染並使用球形積分來擬合IR測量。我們的方法構建了一個脈衝響應場,內在編碼了波傳播原則,並在合成新姿勢的脈衝響應方面實現了最先進的性能。實驗表明AVR在很大程度上超越了當前領先的方法。此外,我們開發了一個聲學模擬平台AcoustiX,比現有的模擬器提供了更準確和逼真的IR模擬。AVR和AcoustiX的代碼可在https://zitonglan.github.io/avr 上找到。
現在,購買大型語言模型(LLM)推論的存取權已成為一種常見的商業實踐,而非自行託管,這是因為需要龐大的前期硬體基礎設施和能源成本。然而,作為買家,卻沒有機制來驗證廣告服務的真實性,包括服務硬體平台,例如確保實際上是使用 NVIDIA H100 進行服務。此外,有報告表明,模型提供者可能會提供與廣告不同的模型,通常是為了使其在成本較低的硬體上運行。這樣一來,客戶為在成本更高的硬體上訪問功能強大的模型而支付高價,但最終卻是由成本更低的硬體上的(可能功能較弱)更便宜的模型提供服務。在本文中,我們介紹了\textbf{硬體和軟體平台推論(HSPI)}——一種僅基於機器學習模型的輸入-輸出行為來識別其底層架構和軟體堆棧的方法。我們的方法利用各種架構和編譯器之間的固有差異來區分不同類型和軟體堆棧。通過分析模型輸出中的數字模式,我們提出了一個能夠準確識別用於模型推論以及底層軟體配置的分類框架。我們的研究結果表明,從黑箱模型中推斷出硬體類型的可行性。我們對在不同真實硬體上提供服務的模型進行了 HSPI 評估,發現在白箱設置中,我們可以以83.9%至100%的準確率區分不同的硬體類型。即使在黑箱設置中,我們也能夠取得比隨機猜測準確率高出多達三倍的結果。