每日精選AI研究論文及翻譯
網頁自動化是一項重要技術,通過自動執行常見的網頁操作,完成複雜的網頁任務,提高運營效率,減少手動干預的需求。傳統方法,如包裝器,在面對新網站時存在適應性和可擴展性有限的問題。另一方面,由大型語言模型(LLMs)賦能的生成式代理在開放世界情境中表現出性能和重用性不佳。在這項工作中,我們為垂直信息網頁引入了爬蟲生成任務,並提出了將LLMs與爬蟲相結合的範式,有助於爬蟲更有效地應對多樣化和變化多端的網頁環境。我們提出了AutoCrawler,一個利用HTML的階層結構進行漸進式理解的雙階段框架。通過自上而下和回溯操作,AutoCrawler能夠從錯誤的操作中學習,並持續修剪HTML以獲得更好的操作生成。我們通過多個LLMs進行了全面的實驗,展示了我們框架的有效性。本文資源可在https://github.com/EZ-hwh/AutoCrawler 找到。
我們介紹了 Groma,一個具有扎根和細緻視覺感知能力的多模式大型語言模型(MLLM)。除了對整體圖像的理解,Groma 擅長於區域級任務,如區域字幕和視覺對應。這些能力建立在一種局部化視覺標記機制之上,其中圖像輸入被分解為感興趣的區域,並隨後被編碼為區域標記。通過將區域標記整合到用戶指令和模型回應中,我們無縫地使 Groma 能夠理解用戶指定的區域輸入並將其文本輸出與圖像相關聯。此外,為了增強 Groma 的扎根對話能力,我們通過利用強大的 GPT-4V 和視覺提示技術來精心策劃了一個具有視覺基礎的指令數據集。與依賴語言模型或外部模塊進行本地化的MLLM相比,Groma 在標準指稱和對應基準測試中始終展現出優異的性能,突顯了將本地化嵌入圖像標記化的優勢。項目頁面:https://groma-mllm.github.io/。
基於文本的視覺問答(VQA)隨著多模式大型語言模型(MLLMs)的發展取得了巨大進展,然而開源模型仍無法與領先的模型如GPT4V和Gemini相提並論,部分原因是缺乏廣泛且高質量的指導調整數據。為此,我們提出了一種新方法來創建一個龐大且高質量的指導調整數據集Square-10M,該數據集是使用閉源MLLMs生成的。數據構建過程稱為Square,包括四個步驟:自問自答、推理和評估。我們對Square-10M的實驗得出了三個關鍵發現:1)我們的模型TextSquare明顯超越了開源先前最先進的基於文本的MLLMs,並在OCRBench(62.2%)上設立了新標準。它甚至在10個基於文本的基準測試中的6個中勝過了頂尖模型如GPT4V和Gemini。2)此外,我們展示了VQA推理數據在為特定問題提供全面上下文洞察方面的關鍵作用。這不僅提高了準確性,還顯著減輕了幻覺。具體而言,TextSquare在四個通用VQA和幻覺評估數據集上平均得分為75.1%,優於先前最先進的模型。3)值得注意的是,在擴展基於文本的VQA數據集中觀察到的現象揭示了一個生動的模式:指導調整數據量的指數增長與模型性能的提升成正比,從而驗證了數據集規模和Square-10M高質量的必要性。
寫實的物體互動對於創造身臨其境的虛擬體驗至關重要,然而合成對新型互動的寫實3D物體動態仍然是一個重大挑戰。與無條件或文本條件動態生成不同,動作條件動態需要感知物體的物理材料特性,並基於這些特性(如物體的硬度)來預測3D運動。然而,由於缺乏材料真實數據,估算物理材料特性是一個未解決的問題,因為為真實物體測量這些特性非常困難。我們提出PhysDreamer,這是一種基於物理的方法,通過利用視頻生成模型學習的物體動態先驗知識,賦予靜態3D物體互動動態。通過提煉這些先驗知識,PhysDreamer實現了對新型互動(如外部力或代理操作)的寫實物體響應的合成。我們在彈性物體的多個示例上展示了我們的方法,並通過用戶研究評估了合成互動的寫實性。PhysDreamer通過使靜態3D物體能夠以物理合理的方式動態響應互動刺激,邁出了邁向更具吸引力和寫實的虛擬體驗的一步。請查看我們的項目頁面:https://physdreamer.github.io/。
查詢重寫旨在通過改變 SQL 查詢的結構而不改變查詢結果來生成更有效的查詢,一直是一個重要的研究問題。為了在重寫期間保持重寫後的查詢與原始查詢的等效性,傳統的查詢重寫方法總是按照特定的重寫規則來重寫查詢。然而,仍然存在一些問題。首先,現有的尋找最佳重寫規則選擇或順序的方法仍然有限,而且這個過程總是耗費大量資源。涉及發現新的重寫規則的方法通常需要複雜的結構邏輯證明或廣泛的用戶交互。其次,當前的查詢重寫方法通常高度依賴 DBMS 成本估算器,而這些估算器通常不準確。在本文中,我們通過提出一種名為 LLM-R2 的新型查詢重寫方法來解決這些問題,該方法採用大型語言模型(LLM)為數據庫重寫系統提出可能的重寫規則。為了進一步提高LLM在推薦重寫規則方面的推理能力,我們通過課程訓練對比模型來學習查詢表示並為LLM選擇有效的查詢示範。實驗結果表明,我們的方法可以顯著提高查詢執行效率並優於基準方法。此外,我們的方法在不同數據集上具有很高的韌性。
最近,3D 高斯點擴散被廣泛應用於場景重建和新視角合成,因其高質量的結果和與硬體光柵化的兼容性。儘管高斯點擴散具有優勢,但其對由運動結構(SFM)算法進行高質量點雲初始化的依賴是一個需要克服的重要限制。為此,我們研究了用於高斯點擴散的各種初始化策略,並探討如何利用神經輻射場(NeRF)的體積重建來繞過對SFM數據的依賴。我們的研究結果表明,如果精心設計,隨機初始化可以表現得更好,通過應用改進的初始化策略和從低成本NeRF模型中提取結構,可以實現與SFM初始化獲得的等效結果,甚至有時更優。
最近,基於大型語言模型(LLMs)的多種自動程序修復(APR)技術已被提出,以增強修復性能。儘管這些技術主要集中在單行或塊級別的修復,但由於修復任務範圍有限且昂貴的語句級錯誤定位,它們在實際應用中面臨著重大挑戰。然而,更實用的功能級APR將修復任務範圍擴展到修復整個有錯誤的功能,並僅需要成本效益高的功能級錯誤定位,但這方面的研究仍未深入探討。本文首次對基於LLM的功能級APR進行了全面研究,包括調查少樣本學習機制和輔助修復相關信息的影響。具體來說,我們採用了六種廣泛研究的LLMs,在Defects4J 1.2和2.0數據集中構建了一個基準。我們的研究表明,具有零樣本學習的LLMs已經是功能級APR技術的強大工具,而應用少樣本學習機制則導致不同的修復性能。此外,我們發現將輔助修復相關信息直接應用於LLMs顯著提高了功能級修復性能。受到我們研究結果的啟發,我們提出了一種基於LLM的功能級APR技術,名為SRepair,該技術採用雙LLM框架,以利用輔助修復相關信息的強大功能來提高修復性能。評估結果表明,SRepair可以在Defects4J數據集中正確修復300個單功能錯誤,至少比所有先前的APR技術高出85%,而無需昂貴的語句級錯誤定位信息。此外,SRepair成功修復了Defects4J數據集中的32個多功能錯誤,這是我們所知道的任何APR技術首次實現。