每日精選AI研究論文及翻譯
視覺偏好對齊涉及訓練大型視覺語言模型(LVLMs)來預測人類在視覺輸入之間的偏好。通常透過使用包含已選擇/拒絕對的標記數據集,並應用像直接偏好優化(DPO)這樣的優化算法來實現。現有的視覺對齊方法,主要設計用於單圖像情境,往往難以有效處理多圖像任務的複雜性,原因在於多樣性訓練數據的稀缺性以及標記已選擇/拒絕對的高成本。我們提出了多圖像增強直接偏好優化(MIA-DPO),這是一種有效處理多圖像輸入的視覺偏好對齊方法。MIA-DPO通過將單圖像數據擴展為以網格拼貼或畫中畫格式排列的無關圖像,有效減少了與多圖像數據標註相關的成本。我們的觀察顯示,LVLMs的注意力值在不同圖像之間有顯著變化。我們使用注意力值來識別並過濾模型可能錯誤關注的被拒絕回應。我們的注意力感知選擇用於構建已選擇/拒絕對,而無需依賴於(i)人類標註、(ii)額外數據,以及(iii)外部模型或API。MIA-DPO與各種架構兼容,在五個多圖像基準測試中優於現有方法,在LLaVA-v1.5上實現了3.0%的平均性能提升,並在最新的InternLM-XC2.5上實現了4.3%的提升。此外,MIA-DPO對模型理解單圖像的能力影響微乎其微。
多模式大型語言模型(MLLMs)在理解和分析視頻內容方面取得了令人鼓舞的進展。然而,處理長視頻仍然是一個顯著的挑戰,受到LLM上下文大小的限制。為了解決這一限制,我們提出了LongVU,一種時空自適應壓縮機制,可以減少視頻標記的數量,同時保留長視頻的視覺細節。我們的想法基於利用跨模態查詢和幀間依賴性,以自適應方式減少視頻中的時間和空間冗餘。具體來說,我們利用DINOv2特徵來刪除具有高相似性的冗餘幀。然後,我們利用文本引導的跨模態查詢來進行選擇性幀特徵減少。此外,我們根據它們的時間依賴性在幀之間進行空間標記減少。我們的自適應壓縮策略可以在給定上下文長度內有效處理大量幀,幾乎沒有視覺信息損失。我們的LongVU在各種視頻理解基準測試中始終優於現有方法,特別是在長達一小時的視頻理解任務(如VideoMME和MLVU)方面。在給定輕量級LLM的情況下,我們的LongVU還可以有效地擴展到更小的尺寸,並實現最先進的視頻理解性能。
最近對預測模型的進展展示了在預測物體和場景未來狀態方面的卓越能力。然而,基於固有特徵的分類不足仍在阻礙預測模型發展的進步。此外,現有基準無法有效評估具有更高能力、高度具體表現的預測模型。在這項工作中,我們將預測模型的功能分類為一個層次結構,並通過提出一個名為WorldSimBench的雙重評估框架,邁出了評估世界模擬器的第一步。WorldSimBench包括明確感知評估和隱含操作評估,包括從視覺角度的人類偏好評估和具體任務中的動作級評估,涵蓋三個具體表現場景:開放式具體環境、自主駕駛和機器人操作。在明確感知評估中,我們引入了HF-具體化數據集,這是一個基於細粒度人類反饋的視頻評估數據集,我們用它來訓練一個與人類感知一致並明確評估世界模擬器視覺保真度的人類偏好評估器。在隱含操作評估中,我們通過評估世界模擬器生成的情境感知視頻是否能在動態環境中準確轉換為正確的控制信號,來評估視頻-動作一致性。我們的全面評估提供了關鍵見解,可以推動視頻生成模型的進一步創新,將世界模擬器定位為走向具體化人工智能的重要進展。
擴散語言模型(DLMs)已成為一種有前途的新範式,用於文本生成建模,潛在地解決自回歸(AR)模型的局限性。然而,目前的DLMs在規模上研究較小,與其AR對應物相比,並且缺乏在語言建模基準上的公平比較。此外,從頭開始規模化訓練擴散模型仍然具有挑戰性。鑒於開源AR語言模型的普及,我們提議適應這些模型來構建文本擴散模型。我們展示了AR和擴散建模目標之間的聯繫,並引入了一種簡單的持續預訓練方法,用於訓練擴散模型。通過對語言建模、推理和常識基準的系統性評估,我們展示了我們可以將範圍從127M擴展到7B參數(GPT2和LLaMA)的AR模型轉換為擴散模型DiffuGPT和DiffuLLaMA,使用少於200B令牌進行訓練。我們的實驗結果顯示,這些模型優於先前的DLMs,並與其AR對應物競爭。我們釋出了一套DLMs(具有127M、355M和7B參數),能夠生成流暢的文本,執行上下文學習,填補中間而無需重新排序提示,並遵循指示。https://github.com/HKUNLP/DiffuLLaMA。
直接偏好優化(DPO)已成為一種強大的方法,用於將文本到圖像(T2I)模型與人類反饋進行對齊。不幸的是,成功應用DPO於T2I模型需要大量資源來收集和標記大規模數據集,例如,數百萬個由人類偏好標註的生成配對圖像。此外,由於T2I模型的快速改進導致圖像質量提高,這些人類偏好數據集可能會迅速過時。在這項工作中,我們研究了一種可擴展的方法,用於收集用於DPO訓練的大規模完全合成數據集。具體來說,配對圖像的偏好是使用預先訓練的獎勵函數生成的,消除了需要讓人類參與標註過程,極大地提高了數據集收集效率。此外,我們展示了這種數據集允許跨多個模型進行預測平均化,並收集排名偏好而非成對偏好。此外,我們引入了RankDPO來利用排名反饋增強基於DPO的方法。將RankDPO應用於SDXL和SD3-Medium模型,使用我們合成生成的偏好數據集“Syn-Pic”,提高了遵循提示(在T2I-Compbench、GenEval和DPG-Bench等基準測試中)和視覺質量(通過用戶研究)。這一流程提供了一種實用且可擴展的解決方案,用於開發更好的偏好數據集,以提高文本到圖像模型的性能。
最近,LiDAR場景生成技術發展迅速。然而,現有方法主要集中在生成靜態和單幀場景,忽略了現實世界行駛環境固有的動態特性。在這項工作中,我們介紹了DynamicCity,一個新穎的4D LiDAR生成框架,能夠生成大規模、高質量的LiDAR場景,捕捉動態環境的時間演變。DynamicCity主要由兩個關鍵模型組成。1) VAE模型用於學習HexPlane作為緊湊的4D表示。DynamicCity採用一個新穎的Projection Module,而非使用天真的平均操作,有效地將4D LiDAR特徵壓縮為六個2D特徵圖,用於HexPlane構建,從而顯著提高HexPlane的擬合質量(最高可達12.56 mIoU增益)。此外,我們利用擴展和壓縮策略並行重構3D特徵體積,比起天真地查詢每個3D點,進一步提高了網絡訓練效率和重構準確性(最高可達7.05 mIoU增益、2.06倍訓練加速和70.84%記憶體減少)。2) 基於DiT的擴散模型用於HexPlane生成。為了使HexPlane適合DiT生成,提出了一個Padded Rollout Operation,將HexPlane的所有六個特徵平面重新組織為一個方形的2D特徵圖。特別是,在擴散或採樣過程中可以引入各種條件,支持多樣化的4D生成應用,如軌跡和命令驅動生成、修補和佈局條件生成。對CarlaSC和Waymo數據集的大量實驗表明,DynamicCity在多個指標上顯著優於現有最先進的4D LiDAR生成方法。代碼將被釋放以促進未來研究。
獎勵模型(RMs)通過將人類反饋整合到語言建模過程中,推動了當今LLMs的最新性能。然而,RMs主要在英語中進行訓練和評估,它們在多語言環境中的能力仍然被廣泛忽視。在這項研究中,我們對多語言環境中的幾個獎勵模型進行了系統評估。我們首先構建了首個多語言RM評估基準M-RewardBench,其中包含23種類型多樣的語言的2.87k個偏好實例,測試了RMs的聊天、安全、推理和翻譯能力。然後我們嚴格評估了廣泛範圍的獎勵模型在M-RewardBench上的表現,為我們提供了有關它們在不同語言中表現的新見解。我們發現RMs在英語和非英語語言之間的表現存在顯著差距,並且RM的偏好可能在不同語言之間發生顯著變化。我們還提出了幾點關於不同多語言方面如何影響RM表現的發現。具體而言,我們發現RM的表現隨著翻譯質量的提高而改善。同樣,我們展示了模型對於高資源語言表現出更好的性能。我們在本研究中釋出了M-RewardBench數據集和代碼庫,以促進對多語言環境中RM評估的更好理解。
本文介紹了一種新穎的手機控制架構,稱為「應用程式代理」,用於在各種Android應用程式之間進行高效的互動和控制。所提出的輕量級多模應用程式控制(LiMAC)接受文本目標和過去手機觀察序列(例如截圖和相應的UI樹)作為輸入,以生成精確的操作。為應對智能手機固有的計算限制,在LiMAC中,我們引入了一個小型行動轉換器(AcT),與一個經過微調的視覺語言模型(VLM)結合,用於即時決策和任務執行。我們在兩個開源手機控制數據集上評估了LiMAC,展示了我們的小型形式因子方法相對於經過微調的開源VLM版本(如Florence2和Qwen2-VL)的優越性能。它還明顯優於利用閉源基礎模型(如GPT-4o)的提示工程基準。具體而言,LiMAC相對於經過微調的VLM,將整體操作準確性提高了高達19%,相對於提示工程基準,提高了高達42%。
在醫學分析領域中整合大型語言模型(LLM)技術已帶來顯著進展,然而大型、多元且有良好標註的數據集稀缺仍是一個主要挑戰。醫學數據和任務以不同格式、大小和其他參數呈現,需要廣泛的預處理和標準化,以有效用於訓練LLMs。為應對這些挑戰,我們引入了MedINST,即生物醫學指令的元數據集,這是一個新穎的多領域、多任務指令元數據集。MedINST 包含 133 個生物醫學自然語言處理任務和超過 700 萬個訓練樣本,使其成為迄今為止最全面的生物醫學指令數據集。我們使用 MedINST 作為元數據集,精心策劃了 MedINST32,這是一個具有不同任務難度的挑戰性基準,旨在評估LLMs的泛化能力。我們在 MedINST 上對幾個LLMs進行微調,並在 MedINST32 上進行評估,展示了增強的跨任務泛化能力。
最近,多模式大型語言模型(MLLMs)因其印象深刻的能力而受到廣泛關注。對MLLMs的評估對於分析MLLMs的屬性並提供有價值的見解變得至關重要。然而,目前的基準忽略了提示敏感性問題 - 輕微的提示變化可能導致顯著的性能波動。因此,不當的提示可能掩蓋了模型的能力,低估了模型的性能。此外,不同模型對不同提示有不同偏好,因此,對所有模型使用相同提示將導致評估偏差。本文分析了現有基準中的這一缺陷,並進一步引入了一個名為TP-Eval的新評估框架,該框架引入了一種提示定制方法,以減少評估偏差並發揮模型的潛力。TP-Eval將為不同模型重新編寫原始提示,以獲得不同的定制提示。特別是,我們提出了一些針對MLLM評估情境量身定制的提示定制模塊。大量實驗證明了我們方法揭示模型能力的有效性,TP-Eval應有助於社區開發更全面和有說服力的MLLM評估基準。
神經網絡的性能隨著其規模和訓練數據量的增加而提升。這一點在語言和圖像生成中得到了證實。然而,這需要具有規模友好的網絡架構以及大規模數據集。儘管像變壓器這樣的規模友好的架構已經出現用於3D視覺任務,但由於缺乏訓練數據,3D視覺的GPT時刻仍然遙不可及。在本文中,我們介紹了ARKit LabelMaker,這是第一個具有密集語義標註的大規模現實世界3D數據集。具體來說,我們通過在規模上自動生成的密集語義標註來補充ARKitScenes數據集。為此,我們擴展了LabelMaker,這是一個最近的自動標註流程,以滿足大規模預訓練的需求。這包括擴展流程以整合尖端分割模型,並使其能夠應對大規模處理的挑戰。此外,我們通過使用主流3D語義分割模型在ScanNet和ScanNet200數據集上推進了最新技術的性能,展示了我們生成的數據集的有效性。
我們提出了大視角合成模型(LVSM),這是一種基於Transformer的創新方法,用於從稀疏視角輸入中進行可擴展且通用的新視角合成。我們引入了兩種架構:(1)編碼器-解碼器LVSM,將輸入圖像標記編碼為固定數量的1D潛在標記,作為完全學習的場景表示,並從中解碼新視角圖像;以及(2)僅解碼器LVSM,直接將輸入圖像映射到新視角輸出,完全消除中間場景表示。這兩種模型都繞過了先前方法中使用的3D歸納偏差,從3D表示(例如NeRF、3DGS)到網絡設計(例如,對架投影、平面掃描),以全面數據驅動的方法處理新視角合成。儘管編碼器-解碼器模型由於其獨立潛在表示而提供更快的推理,但僅解碼器LVSM實現了卓越的質量、可擴展性和零樣本泛化,優於先前的最先進方法1.5至3.5 dB PSNR。跨多個數據集的全面評估表明,這兩種LVSM變體均實現了最先進的新視角合成質量。值得注意的是,即使使用較少的計算資源(1-2個GPU),我們的模型也超越了所有先前的方法。詳細信息請參見我們的網站:https://haian-jin.github.io/projects/LVSM/。
通過在多樣化示範數據集上訓練的大型、通用型機器人策略已被證明在控制各種機器人在不同場景中以及獲取廣泛操作技能方面非常有效。然而,這些策略訓練所使用的數據通常質量不一 -- 人類收集的示範不太可能完美執行任務,而且數據集越大,就越難精選出最高質量的示例。另外,目前還不清楚從一個實體中獲取的最佳數據對於在另一個實體上進行訓練的效果如何。本文提出了一種通用且廣泛適用的方法,在部署時通過根據通過離線強化學習學習的值函數對其行動重新排序,從而提高這些通用型機器人策略的性能。這種方法被稱為價值引導策略引導(V-GPS),與各種不同的通用策略兼容,無需微調甚至訪問策略的權重。我們展示了相同的值函數如何提高五種不同架構的最新策略的性能,即使它們是在不同數據集上訓練的,也實現了在12個任務上多個機器人平台上的一致性性能改進。代碼和視頻可在以下網址找到:https://nakamotoo.github.io/V-GPS