每日精選AI研究論文及翻譯
檢索增強生成(RAG)已被證明可以提升知識能力並緩解LLM的幻覺問題。網絡是RAG系統中使用的主要外部知識來源,許多商業系統如ChatGPT和Perplexity都使用網絡搜索引擎作為其主要檢索系統。通常,這類RAG系統會檢索搜索結果,下載搜索結果的HTML源代碼,然後從HTML源代碼中提取純文本。純文本文檔或片段被餵入LLM以增強生成。然而,在這種基於純文本的RAG過程中,HTML中固有的結構和語義信息很大程度上會丟失,例如標題和表結構。為了緩解這個問題,我們提出了HtmlRAG,它在RAG中使用HTML而不是純文本作為檢索知識的格式。我們認為HTML在建模外部文檔中的知識方面優於純文本,而且大多數LLM都具有理解HTML的強大能力。然而,利用HTML也帶來了新的挑戰。HTML包含額外的內容,如標籤、JavaScript和CSS規範,這些內容為RAG系統帶來了額外的輸入標記和噪音。為了解決這個問題,我們提出了HTML清理、壓縮和修剪策略,以縮短HTML的同時最大程度地減少信息損失。具體來說,我們設計了一種基於兩步塊樹的修剪方法,用於修剪無用的HTML塊,並僅保留HTML的相關部分。對六個問答數據集的實驗證實了在RAG系統中使用HTML的優越性。
大型語言模型(LLMs)展示了出色的泛化和遵循指示能力,並通過指示調整。LLMs和指示調整的進步導致了大型視覺語言模型(LVLMs)的發展。然而,在分子領域中,LLMs和指示調整的能力尚未得到充分探索。因此,我們提出了LLaMo:基於大型語言模型的分子圖助手,這是一個端到端訓練的大型分子圖語言模型。為了彌合語言和圖形模態之間的差異,我們提出了多級圖形投影器,通過摘要每個GNN層的輸出表示和通過交叉注意機制提取圖形代表和主題表示,將圖形表示轉換為圖形令牌。我們還引入了機器生成的分子圖指示數據,以指示調整大型分子圖語言模型,以實現通用分子和語言理解。我們的廣泛實驗表明,LLaMo在多樣任務上表現出最佳性能,例如分子描述生成、性質預測和IUPAC命名預測。LLaMo的代碼可在https://github.com/mlvlab/LLaMo找到。
隨著大型生成模型的能力不斷增強並且被廣泛應用,人們對其可靠性、安全性和潛在誤用提出了擔憂。為了應對這些問題,最近的研究提出通過引導模型激活來控制模型生成,以有效誘導或防止生成輸出中概念或行為的出現。本文介紹了激活傳輸(AcT),這是一個通用框架,通過最優運輸理論引導激活,擴展了許多先前的激活引導工作。AcT與模態無關,可對模型行為進行精細控制,計算開銷微乎其微,同時最小程度地影響模型能力。我們通過實驗展示了我們方法的有效性和多功能性,解決了大型語言模型(LLMs)和文本到圖像擴散模型(T2Is)中的關鍵挑戰。對於LLMs,我們展示了AcT如何有效減輕有毒性,誘導任意概念並增加其真實性。對於T2Is,我們展示了AcT如何實現精細風格控制和概念否定。
目前的視覺系統通常對圖像分配固定長度的表示,而不考慮信息內容。這與人類智能以及大型語言模型形成對比,後者基於熵、上下文和熟悉度分配不同的表示能力。受此啟發,我們提出了一種方法來學習2D圖像的可變長度標記表示。我們的編碼器-解碼器架構遞歸地處理2D圖像標記,將它們提煉成多次遞歸滾動的1D潛在標記。每次迭代都會優化2D標記、更新現有的1D潛在標記,並通過添加新標記來自適應性增加表示能力。這使得圖像可以壓縮為可變數量的標記,範圍從32到256。我們通過重建損失和FID指標驗證了我們的標記器,顯示標記數量與圖像熵、熟悉度和下游任務要求保持一致。每次迭代中表示能力增加的遞歸標記處理顯示出標記專業化的跡象,揭示了對象/部件發現的潛力。
MLLMs展示了對複雜語言和視覺數據的出色理解和推理能力。這些進展激發了建立通才機器人MLLM的願景,該機器人擅長理解複雜的人類指令並完成各種具體任務。然而,為現實世界的機器人開發MLLM是具有挑戰性的,因為機器人平台通常具有有限的計算和記憶容量。相比之下,MLLM的推理涉及存儲數十億參數並執行巨大計算,對硬件提出了重大要求。在我們的論文中,我們提出了一個用於機器人視覺-語言-動作模型的動態早期退出框架(DeeR-VLA,或簡稱DeeR),它根據當前情況自動調整啟動的MLLM大小。該方法利用MLLM中的多退出架構,該架構允許模型在為特定情況啟動適當大小的模型後終止處理,從而避免進一步冗餘計算。此外,我們開發了新算法,為DeeR建立了早期終止標準,條件是預定要求,如平均計算成本(即功耗),以及峰值計算消耗(即延遲)和GPU內存使用量。這些增強確保DeeR在不同資源限制下高效運行,同時保持競爭性能。在CALVIN機器人操作基準測試中,DeeR將LLM的計算成本降低了5.2-6.5倍,將LLM的GPU內存降低了2-6倍,而不影響性能。代碼和檢查點可在https://github.com/yueyang130/DeeR-VLA找到。
我們研究了在預算限制下給定人類反饋的情況下,如何有效地對齊大型語言模型(LLMs)與人類偏好的方法。我們首先在情境對決樂團的框架中制定了LLM對齊問題。這種制定方式包含了最近的範式,如在線RLHF和在線DPO,固有地追求包含在線主動探索的範例效率算法。利用樂團理論的見解,我們介紹了一種基於湯普森取樣的統一算法,並突出了其在兩種不同的LLM對齊場景中的應用。這種有效實現該算法的實用代理被命名為SEA(樣本效率對齊),通過在三個模型規模(1B、2.8B、6.9B)和三個偏好學習算法(DPO、IPO、SLiC)上進行大量實驗來進行實證驗證。結果表明,SEA實現了與oracle偏好高度樣本效率的對齊,優於最近的LLM主動探索方法。此外,我們釋放了SEA的實現,以及針對LLMs在線對齊設計的高效代碼庫,旨在加速該領域未來的研究。
我們介紹了DreamPolish,一個在生成精緻幾何和高質量紋理方面表現出色的文本到3D生成模型。在幾何構建階段,我們的方法利用多個神經表示來增強合成過程的穩定性。我們不僅依賴於新樣本視圖中的視圖條件擴散先驗,這通常會導致幾何表面上的不良藝術品,而是在基於視點的不同視野的情況下,加入額外的法向量估計器來修飾幾何細節。我們建議添加一個表面拋光階段,只需進行少量訓練步驟,就能有效地改進由於前幾個階段的有限引導而產生的藝術品,並產生具有更理想幾何的3D物體。在使用預訓練文本到圖像模型進行紋理生成的關鍵主題是在這些模型的廣泛潛在分佈中找到一個包含照片逼真和一致渲染的合適領域。在紋理生成階段,我們引入了一個新穎的分數蒸餾目標,即領域分數蒸餾(DSD),來引導神經表示朝向這樣的領域。我們從文本條件圖像生成任務中的無分類器引導(CFG)中汲取靈感,並展示CFG和變分分佈引導在梯度引導中代表不同方面,對於提高紋理質量都是至關重要的領域。大量實驗表明,我們提出的模型可以生成具有拋光表面和照片逼真紋理的3D資產,勝過現有的最先進方法。
神經隱式函數為從多張甚至單張圖像中的服裝人體數位化的最新技術帶來了令人印象深刻的進展。然而,儘管取得了進步,目前的方法仍然難以泛化到具有複雜布料變形和身體姿勢的未見過圖像。在這項工作中,我們提出了GarVerseLOD,這是一個新的數據集和框架,為從單張無限制圖像實現高保真度的3D服裝重建打開了道路。受大型生成模型最近成功的啟發,我們認為應對泛化挑戰的關鍵之一在於3D服裝數據的數量和質量。為此,GarVerseLOD收集了由專業藝術家手動創建的具有精細幾何細節的6,000個高質量布料模型。除了訓練數據的規模外,我們觀察到幾何的解耦細節可能在提升模型的泛化能力和推理準確性方面發揮重要作用。因此,我們將GarVerseLOD打造為一個具有細節層次(LOD)的分層數據集,從無細節的風格化形狀到與像素對齊細節的姿勢混合服裝。這使我們能夠通過將推理分解為更容易的任務,每個任務的搜索空間縮小,使這個高度不受約束的問題變得可控。為了確保GarVerseLOD能夠很好地泛化到野外圖像,我們提出了一種基於條件擴散模型的新標記範式,為每個服裝模型生成大量具有高照片逼真度的配對圖像。我們在大量野外圖像上評估了我們的方法。實驗結果表明,GarVerseLOD可以生成獨立的服裝部件,其質量顯著優於先前的方法。項目頁面:https://garverselod.github.io/
視覺語言模型(VLMs)已在各種視覺理解和推理任務中展現出強大的能力。然而,由於處理LLM大量輸入令牌(主要來自圖像)所需的計算量巨大,導致推論過程中的高延遲,因此它們在現實世界中的部署常常受到限制。為了降低推論成本,可以縮小LLM的規模,或者減少輸入圖像令牌的數量,後者已成為許多最近關於令牌壓縮的研究的焦點。然而,目前尚不清楚最佳的權衡是什麼,因為這兩個因素直接影響VLM的性能。我們首先通過建立捕捉這兩個因素對性能變化的擴展定律,來表徵視覺令牌數量和LLM參數之間的最佳權衡。我們的結果顯示了一個令人驚訝的趨勢:對於視覺推理任務,VLM中的推論最佳行為,即在任何固定推論計算下最小化下游錯誤,是在使用符合推論預算的最大LLM時實現的,同時最小化視覺令牌數量-通常為一個令牌。雖然令牌減少的文獻主要集中在通過適度減少令牌數量(例如5-10倍)來維持基本模型性能,但我們的結果表明,計算最佳推論範疇需要在更高的令牌壓縮比率下運作。基於這些見解,我們採取了一些初步步驟,以建立針對高令牌壓縮設置的方法。代碼可在https://github.com/locuslab/llava-token-compression找到。
罕見疾病在醫療保健中面臨獨特挑戰,常常受到延遲診斷和碎片化信息環境的困擾。在這些情況下可靠知識的稀缺性為大型語言模型(LLMs)提供了一個獨特挑戰,支持臨床管理並提供精確患者信息,強調對這些“斑馬”案例進行專注培訓的必要性。我們提出了Zebra-Llama,這是一個專門的上下文感知語言模型,具有高精度的檢索增強生成(RAG)能力,專注於埃勒斯-丹洛斯綜合症(EDS)作為我們的案例研究。EDS影響每5,000人中的1人,通過在醫學文獻、患者經驗和臨床資源中提取的問題進行訓練的新型上下文感知微調方法的實施,以及經過專家精心策劃的回答,Zebra-Llama在處理與EDS相關的查詢方面展示了前所未有的能力。在從EDS患者和臨床醫生收集的實際問題測試集上,醫學專家評估了兩個模型生成的回答,揭示了Zebra-Llama在全面性(77.5%對70.1%)、準確性(83.0%對78.8%)、清晰度(74.7%對72.0%)和引文可靠性(70.6%對52.3%)方面相對於基礎模型(Llama 3.1-8B-Instruct)的顯著改進。作為一個開源資源發布,Zebra-Llama不僅提供更易獲得和可靠的EDS信息,還為開發其他罕見疾病的專門AI解決方案奠定了框架。這項工作代表了向民主化罕見疾病管理中的專家級知識邁出的重要一步,潛在地改變了醫療提供者和患者如何應對罕見疾病複雜環境的方式。
隨著物體偵測技術不斷演進,了解其與相關視覺任務的關係對於優化模型架構和計算資源至關重要。本文探討了物體偵測準確性與兩個基本視覺任務之間的相關性:深度預測和視覺显著性預測。通過在 COCO 和 Pascal VOC 資料集上使用最先進的模型(DeepGaze IIE、Depth Anything、DPT-Large 和 Itti's 模型)進行全面實驗,我們發現視覺显著性與物體偵測準確性之間呈現一致較強的相關性(在 Pascal VOC 上的 mArho 高達 0.459),相較之下深度預測的相關性較低(mArho 最高達 0.283)。我們的分析揭示了在不同物體類別之間這些相關性存在顯著變化,較大的物體顯示出高達三倍於較小物體的相關值。這些發現表明將視覺显著性特徵納入物體偵測架構可能比深度信息更有益,尤其是對於特定物體類別。觀察到的類別特定變化也為針對性特徵工程和資料集設計改進提供了見解,潛在地導致更高效和準確的物體偵測系統。