目前的手機助理受限於對系統 API 的依賴,或者因理解和決策能力有限而難以應對複雜的使用者指令和多樣的界面。為了應對這些挑戰,我們提出了 MobA,一個由多模式大型語言模型驅動的新型手機代理,通過精密的雙層代理架構增強了理解和規劃能力。高層全局代理(GA)負責理解使用者指令、追蹤歷史記憶和規劃任務。低層本地代理(LA)預測以函數調用形式的詳細操作,受 GA 的子任務和記憶引導。整合反射模組可實現高效的任務完成,使系統能夠處理以前未見過的複雜任務。MobA 在現實評估中展示了任務執行效率和完成率的顯著提升,突顯了以 MLLM 為動力的手機助理的潛力。
ByChen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
5
2
我們提出了Long-LRM,一個通用的3D高斯重建模型,能夠從一長序列的輸入圖像中重建出一個大場景。具體來說,我們的模型可以在單個A100 80G GPU上僅需1.3秒的時間內處理32張960x540解析度的源圖像。我們的架構採用了最新的Mamba2區塊和經典的Transformer區塊的混合,使得可以處理比以往更多的token,同時通過高效的token合併和高斯修剪步驟來在質量和效率之間取得平衡。與先前僅能處理1~4個輸入圖像並且僅能重建大場景的一小部分的前馈模型不同,Long-LRM可以在單個前馈步驟中重建整個場景。在大規模場景數據集(如DL3DV-140和Tanks and Temples)上,我們的方法實現了與基於優化的方法相當的性能,同時效率提高了兩個數量級。項目頁面:https://arthurhero.github.io/projects/llrm