每日精選AI研究論文及翻譯
由視覺語言模型(VLMs)驅動的圖形使用者介面(GUI)代理已展示出類似人類的電腦控制能力。儘管它們在推動數位自動化方面具有實用性,但一個關鍵瓶頸仍然存在:為訓練收集高質量軌跡數據。常見的收集此類數據的做法依賴人類監督或通過執行預定義任務生成合成數據,這兩者都要么耗費大量資源,要么無法保證數據質量。此外,這些方法受限於數據多樣性不足以及合成數據與真實環境之間存在顯著差距。為應對這些挑戰,我們提出了OS-Genesis,一種新穎的GUI數據合成流程,逆轉了傳統的軌跡收集過程。OS-Genesis不依賴於預定義任務,而是使代理能夠首先感知環境並進行逐步交互,然後回顧性地推導出高質量任務,以實現軌跡級探索。然後採用軌跡獎勵模型來確保生成軌跡的質量。我們證明使用OS-Genesis訓練GUI代理顯著提高了它們在高度具有挑戰性的在線基準測試中的表現。深入分析進一步驗證了OS-Genesis的效率以及與現有合成方法相比其卓越的數據質量和多樣性。我們的代碼、數據和檢查點可在https://qiushisun.github.io/OS-Genesis-Home/ {OS-Genesis 主頁} 上找到。
Xmodel-2 是一個擁有 12 億參數的大型語言模型,專為推理任務而設計。其架構使不同模型規模能共享一組統一的超參數,讓較小模型進行廣泛實驗並無縫地將最佳配置轉移到較大模型。為了最大化訓練效率和穩定性,Xmodel-2 使用了來自 MiniCPM 的 WSD 學習率調度器。在從多源預訓練的 1.5 兆標記中,Xmodel-2 在複雜推理和基於代理的任務中實現了最先進的性能,同時保持低訓練成本。這些結果突顯了高效模型設計和訓練策略在推進推理能力方面的潛力。模型檢查點和代碼可在 GitHub 上公開獲得,網址為 https://github.com/XiaoduoAILab/Xmodel-2
大規模視覺語言模型(VLMs)通過將視覺輸入與文本對齊,顯著提高了計算機視覺任務的性能。此外,為了有效地應用VLMs於現實應用中,對多樣的多視覺感測器數據(如熱像、深度和X射線信息)的理解至關重要。然而,我們發現當前的VLMs在處理多視覺感測器圖像時,缺乏對感測器信息的深入理解,忽略了每個感測器獨特的物理特性。這一限制限制了它們解釋和回答需要多視覺感測器推理的複雜問題的能力。為了解決這個問題,我們提出了一個新穎的多視覺感測器感知和推理(MS-PR)基準,評估VLMs在感測器特定推理能力上的表現。此外,我們引入了多樣性負面特徵(DNA)優化,使VLMs能夠對多視覺感測器任務進行深入推理,有助於彌合圖像與感測器數據之間的核心信息差距。大量實驗結果證實,所提出的DNA方法可以顯著提高VLMs的多視覺感測器推理能力。
我們介紹了HunyuanProver,這是從Hunyuan 7B微調而來的語言模型,用於與LEAN4進行互動式自動定理證明。為了緩解數據稀疏問題,我們設計了一個可擴展的框架,用於以低成本進行迭代合成數據。此外,我們設計了引導樹搜索算法,以實現證明者有效的“系統2思維”。HunyuanProver在主要基準測試中實現了最先進的性能。具體而言,在miniF2F-test中,與當前最先進的SOTA結果65.9%相比,實現了68.4%的通過率。它證明了4個IMO陳述(imo_1960_p2、imo_1962_p2、imo_1964_p2和imo_1983_p6)在miniF2F-test中。為了造福社區,我們將開源一個包含30k合成實例的數據集,每個實例包含自然語言中的原始問題、自動形式化轉換的陳述以及HunyuanProver的證明。
儘管擴散模型在文字轉圖像生成方面展現出非凡的才能,但仍可能無法生成高度美學的圖像。更具體地說,生成的圖像與真實世界美學圖像之間仍存在差距,特別是在包括色彩、燈光、構圖等更細緻的維度。本文提出了交叉注意力值混合控制(VMix)適配器,這是一個即插即用的美學適配器,可提升生成圖像的質量,同時通過(1)將輸入文字提示解開為內容描述和美學描述,通過美學嵌入的初始化,以及(2)通過值混合的交叉注意力將美學條件整合到去噪過程中,並通過零初始化的線性層連接網絡,實現在視覺概念之間的通用性。我們的關鍵見解是通過設計出色的條件控制方法來增強現有擴散模型的美學呈現,同時保持圖像與文字的對齊。通過我們精心設計的VMix,可以靈活應用於社區模型,以提高視覺性能,無需重新訓練。為驗證我們方法的有效性,我們進行了大量實驗,結果顯示VMix優於其他最先進的方法,並且與其他社區模塊(例如LoRA、ControlNet和IPAdapter)兼容,用於圖像生成。項目頁面為https://vmix-diffusion.github.io/VMix/。