每日精選AI研究論文及翻譯
我們提出 phi-4,一個擁有 140 億參數的語言模型,其訓練配方主要著重於數據質量。與大多數語言模型不同,其預訓練主要基於有機數據來源,如網絡內容或代碼,phi-4 策略性地在整個訓練過程中納入合成數據。儘管 Phi 系列中先前的模型主要提煉了教師模型(特別是 GPT-4)的能力,phi-4 在 STEM 專注的問答能力上顯著超越其教師模型,這證明我們的數據生成和後訓練技術超越了提煉。儘管對 phi-3 架構進行了最小的更改,phi-4 由於數據、訓練課程的改進以及後訓練方案的創新,在相對於其大小的情況下實現了強大的性能,特別是在著眼於推理的基準測試上。
創建能夠長時間與環境互動,類似於人類認知的人工智能系統一直是一個久遠的研究目標。最近在多模態大型語言模型(MLLMs)方面取得的進展在開放世界理解方面取得了重大進展。然而,連續且同時的流式感知、記憶和推理挑戰仍然很少被探索。目前的MLLMs受到它們的序列到序列架構的限制,這限制了它們處理輸入並同時生成回應的能力,類似於在感知時無法思考。此外,依賴長上下文來存儲歷史數據對於長期互動來說是不切實際的,因為保留所有信息變得昂貴且低效。因此,與其依賴單一基礎模型執行所有功能,這個項目從專業綜合型人工智能的概念中汲取靈感,並引入了解耦的流式感知、推理和記憶機制,實現與流式視頻和音頻輸入的實時互動。所提出的框架InternLM-XComposer2.5-OmniLive(IXC2.5-OL)包括三個關鍵模塊:(1)流式感知模塊:實時處理多模態信息,將關鍵細節存儲在記憶中,並在回應用戶查詢時觸發推理。(2)多模態長期記憶模塊:整合短期和長期記憶,將短期記憶壓縮為長期記憶,以實現高效檢索和提高準確性。(3)推理模塊:回應查詢並執行推理任務,與感知和記憶模塊協調。這個項目模擬了類似人類認知的方式,使多模態大型語言模型能夠隨時間提供持續且適應性服務。
近年來,多模式大型語言模型(MLLMs)取得了快速進展,但仍然在低層次視覺感知(LLVP)方面遇到困難,特別是準確描述圖像的幾何細節能力。這種能力對於機器人技術、醫學影像分析和製造等領域的應用至關重要。本文首先介紹Geoperception,這是一個旨在評估MLLM準確從圖像轉錄2D幾何信息能力的基準。利用這個基準,我們展示了領先的MLLM存在的限制,然後進行了一項全面的實證研究,探索改善它們在幾何任務上表現的策略。我們的研究結果突顯了某些模型架構、訓練技術和數據策略的好處,包括使用高保真度合成數據和使用數據課程進行多階段訓練。值得注意的是,我們發現數據課程使模型能夠學習從頭開始無法學到的具有挑戰性的幾何理解任務。利用這些見解,我們開發了Euclid,這是一系列專門為強大的低層次幾何感知而優化的模型。儘管僅在合成多模式數據上進行訓練,Euclid表現出對新的幾何形狀具有強大的泛化能力。例如,在某些Geoperception基準任務上,Euclid的表現優於最佳的封閉源模型Gemini-1.5-Pro,最高可提高58.56%,在所有任務中平均提高10.65%。
隨著多模態大型語言模型(MLLMs)的演進,擴展至單一領域以滿足對更多功能靈活且高效的人工智能的需求至關重要。然而,先前的全模型不足以探索語音,忽略了將其與多模態整合。我們介紹了 Lyra,一種高效的 MLLM,可增強多模態能力,包括先進的長篇語音理解、聲音理解、跨模態效率和無縫語音互動。為了實現高效和以語音為中心的能力,Lyra採用了三種策略:(1)利用現有的開源大型模型和提出的多模態 LoRA 來降低訓練成本和數據需求;(2)使用潛在的多模態正則化器和提取器來加強語音與其他模態之間的關係,從而提高模型性能;以及(3)構建一個高質量、龐大的數據集,包括 150 萬個多模態(語言、視覺、音頻)數據樣本和 12,000 個長篇語音樣本,使 Lyra 能夠處理複雜的長篇語音輸入,實現更強大的全知能。與其他全方法相比,Lyra 在各種視覺語言、視覺語音和語音語言基準測試中實現了最先進的性能,同時使用更少的計算資源和訓練數據。
多模式生成模型需要統一的方法來處理離散數據(例如文本和代碼)和連續數據(例如圖像、音頻、視頻)。在這項工作中,我們提出了潛在語言建模(Latent Language Modeling,LatentLM),它使用因果Transformer無縫集成連續和離散數據。具體來說,我們採用變分自編碼器(VAE)來表示連續數據為潛在向量,並引入下一令牌擴散,用於自回歸生成這些向量。此外,我們開發了sigma-VAE來應對變異坍縮的挑戰,這對於自回歸建模至關重要。大量實驗證明了LatentLM在各種模態下的有效性。在圖像生成方面,LatentLM在性能和可擴展性上均超越了Diffusion Transformers。當集成到多模式大型語言模型中時,LatentLM提供了一個統一的多模式生成和理解通用接口。實驗結果顯示,在擴大訓練令牌的設置下,LatentLM相較於Transfusion和向量量化模型,實現了良好的性能。在文本轉語音合成方面,LatentLM在語者相似性和韌性方面優於最先進的VALL-E 2模型,同時需要的解碼步驟少了10倍。這些結果確立了LatentLM作為推進大型多模式模型的高效可擴展方法。
圖形使用者介面(GUI)代理在自動化跨不同數位環境的複雜任務方面具有巨大潛力,從網頁應用程式到桌面軟體。然而,這類代理的開發受到高質量、多步驟軌跡數據的缺乏所阻礙,這些數據對有效訓練至關重要。現有方法依賴昂貴且勞動密集的人工標註,使其難以規模化。為應對這一挑戰,我們提出AgentTrek,一個可擴展的數據合成管線,通過利用網絡教程生成高質量的GUI代理軌跡。我們的方法自動從互聯網上收集類似教程的文本,將其轉換為具有逐步指導的任務目標,並利用視覺語言模型代理在真實數位環境中模擬其執行。基於VLM的評估器確保所生成軌跡的正確性。我們展示通過使用這些合成軌跡訓練GUI代理,顯著提高了其基礎和規劃性能,超越了當前模型。此外,我們的方法與傳統的人工標註方法相比更具成本效益。這項工作強調了通過網絡教程進行引導重播作為大規模GUI代理訓練的可行策略的潛力,為更具能力和自主性的數位代理鋪平了道路。
現有的文字轉圖(T2I)擴散模型面臨著幾個限制,包括龐大的模型大小、運行速度緩慢,以及在移動設備上生成低質量圖像。本文旨在通過開發一個極小且快速的T2I模型,以在移動平台上生成高分辨率和高質量圖像,來應對所有這些挑戰。我們提出了幾種技術來實現這一目標。首先,我們系統地研究了網絡架構的設計選擇,以減少模型參數和延遲,同時確保高質量生成。其次,為了進一步提高生成質量,我們從一個更大的模型中採用跨架構知識蒸餾,使用多級方法來引導我們的模型從頭開始訓練。第三,我們通過將對抗引導與知識蒸餾相結合,實現了幾步生成。我們的模型SnapGen 首次在移動設備上展示了在約1.4秒內生成1024x1024像素圖像。在ImageNet-1K上,我們的模型僅使用了3.72億個參數,在256x256像素生成中實現了2.06的FID。在T2I基準測試(例如GenEval和DPG-Bench)中,我們的模型僅使用3.79億個參數,超越了擁有數十億參數的大型模型,並且尺寸明顯更小(例如比SDXL小7倍,比IF-XL小14倍)。
個性化擴散模型已取得重大成就。傳統的無調整方法主要透過將多個參考圖像的圖像嵌入平均編碼為注入條件,但這種與圖像無關的操作無法實現圖像之間的互動,以捕捉多個參考中的一致視覺元素。儘管基於調整的低秩適應(LoRA)可以有效地通過訓練過程提取多個圖像中的一致元素,但需要為每個不同的圖像組進行特定的微調。本文介紹了EasyRef,一種新型即插即用適應方法,使擴散模型能夠根據多個參考圖像和文本提示進行條件化。為了有效利用多個圖像中的一致視覺元素,我們利用多模態大型語言模型(MLLM)的多圖像理解和指示遵循能力,促使其根據指示捕捉一致的視覺元素。此外,通過適配器將MLLM的表示注入到擴散過程中,可以輕鬆推廣到未見領域,挖掘未見數據中的一致視覺元素。為了減少計算成本並增強細節保留,我們引入了高效的參考聚合策略和漸進式訓練方案。最後,我們介紹了MRBench,一個新的多參考圖像生成基準。實驗結果表明,EasyRef超越了像IP-Adapter這樣的無調整方法和像LoRA這樣的基於調整的方法,實現了卓越的美學質量和在不同領域之間的強大零樣本泛化。
鑑於生成式人工智慧的快速發展,迫切需要系統性地比較和選擇眾多可用的模型和配置。這些評估的規模和多樣性使得使用基於LLM的評判系統成為應對這一挑戰的引人注目的解決方案。至關重要的是,這種方法首先需要驗證LLM評判系統本身的質量。先前的研究主要集中在基於實例的LLM評判系統評估上,其中一個評判系統在一組回應或回應對上進行評估,而對它們的來源系統則不加區分。我們認為這種設置忽略了影響系統級別排名的關鍵因素,例如評判系統對某些系統的積極或消極偏見。為了填補這一空白,我們進行了第一個大規模的LLM評判系統作為系統排名者的研究。系統分數是通過將評分結果聚合在多個系統輸出上而生成的,評判系統的質量是通過將結果系統排名與基於人類的排名進行比較來評估的。除了整體評判系統評估外,我們的分析還提供了對評判系統行為的細緻特徵描述,包括它們的果斷性和偏見。
從單張圖像中恢復物體的幾何形狀和材質是具有不完全約束性質的,因此具有挑戰性。本文提出了一個新穎的框架 Neural LightRig,通過利用來自 2D 擴散先驗的輔助多光照條件,提升內在估計能力。具體來說,1) 我們首先利用大規模擴散模型中的照明先驗,在具有專用設計的合成照明數據集上構建我們的多光照擴散模型。該擴散模型生成多個一致的圖像,每個圖像由不同方向的點光源照明。2) 通過使用這些不同照明的圖像來降低估計不確定性,我們訓練了一個帶有 U-Net 骨幹的大型 G-buffer 模型,以準確預測表面法線和材質。大量實驗驗證了我們的方法明顯優於最先進的方法,實現了準確的表面法線和 PBR 材質估計,並具有生動的照明效果。代碼和數據集可在我們的項目頁面上找到:https://projects.zxhezexin.com/neural-lightrig。
利用神經網絡來近似偏微分方程(PDEs)已經取得了顯著的進展,其中物理信息神經網絡(PINNs)發揮了重要作用。儘管PINNs具有直觀的優化框架和實現各種PDEs的靈活性,但由於多層感知器(MLPs)存在頻譜偏差,難以有效學習高頻和非線性組件,因此PINNs通常存在精度有限的問題。最近,參數網格表示法結合神經網絡被研究作為消除神經網絡歸納偏見的有前途方法。然而,這些方法通常需要非常高分辨率的網格和大量的共點以實現高精度,同時避免過度擬合問題。此外,網格參數的固定位置限制了其靈活性,使得準確近似複雜PDEs具有挑戰性。為了克服這些限制,我們提出了物理信息高斯模型(PIGs),它結合了使用高斯函數的特徵嵌入和輕量級神經網絡。我們的方法使用每個高斯函數的均值和變異數的可訓練參數,允許在訓練期間動態調整它們的位置和形狀。這種適應性使得我們的模型能夠最佳地近似PDE解,與具有固定參數位置的模型不同。此外,所提出的方法保持了PINNs中使用的相同優化框架,使我們能夠受益於它們的優秀特性。實驗結果顯示我們的模型在各種PDEs上具有競爭力的性能,展示了其作為解決複雜PDEs的強大工具的潛力。我們的項目頁面位於https://namgyukang.github.io/Physics-Informed-Gaussians/。
現代感測器產生越來越豐富的高解析度數據流。由於資源限制,機器學習系統通過降低解析度來丟棄大部分這些信息。壓縮領域學習使模型能夠在緊湊的潛在表示上運行,從而在相同預算下實現更高的有效解析度。然而,現有的壓縮系統並不適合於壓縮學習。線性變換編碼和端到端學習的壓縮系統可以降低比特率,但並不均勻地降低維度;因此,它們並不能顯著提高效率。生成式自編碼器可以降低維度,但它們的對抗性或感知目標會導致重大信息損失。為了解決這些限制,我們引入了WaLLoC(Wavelet Learned Lossy Compression),這是一種神經編解碼器架構,結合了線性變換編碼和非線性降維自編碼器。WaLLoC在一個可逆小波包變換之間夾上一個淺層、非對稱自編碼器和熵瓶頸。在幾個關鍵指標上,WaLLoC優於當前最先進的潛在擴散模型中使用的自編碼器。WaLLoC不需要感知或對抗損失來表示高頻細節,可與RGB圖像和立體聲音以外的模態兼容。WaLLoC的編碼器幾乎完全由線性操作組成,使其非常高效,適用於移動計算、遙感和直接從壓縮數據學習。我們展示了WaLLoC在壓縮領域學習中的能力,包括圖像分類、上色、文檔理解和音樂源分離等多個任務。我們的代碼、實驗和預先訓練的音頻和圖像編解碼器可在https://ut-sysml.org/walloc 上找到。
本研究提出了一種基於擴散反演的新圖像超分辨率(SR)技術,旨在利用大型預訓練擴散模型中所包含的豐富圖像先驗信息來提高SR性能。我們設計了一種部分噪聲預測策略,用於構建擴散模型的中間狀態,作為起始採樣點。我們方法的核心是一個深度噪聲預測器,用於估計前向擴散過程的最佳噪聲映射。一旦訓練完成,該噪聲預測器可用於部分初始化沿著擴散軌跡的採樣過程,生成理想的高分辨率結果。與現有方法相比,我們的方法提供了一種靈活且高效的採樣機制,支持從一到五個任意數量的採樣步驟。即使僅進行一次採樣步驟,我們的方法表現優越或與最近的最先進方法相當。代碼和模型可在https://github.com/zsyOAOA/InvSR 公開獲得。
隨著視覺語言模型(VLMs)的日益普及和功能增強,需要有能夠捕捉真實用戶-VLMs互動的基準。為了應對這一需求,我們創建了VisionArena數據集,其中包含23萬組用戶與VLMs之間的真實對話。這些對話來自Chatbot Arena,這是一個開源平台,用戶可以在其中與VLMs互動並提交偏好投票。VisionArena涵蓋了7.3萬名獨立用戶、45個VLMs和138種語言。我們的數據集包含三個子集:VisionArena-Chat,包括20萬組用戶與VLMs之間的單輪和多輪對話;VisionArena-Battle,包括3萬組用戶對比兩個匿名VLMs並進行偏好投票的對話;以及VisionArena-Bench,包含500個多樣化用戶提示的自動基準,有效地模擬了實時Chatbot Arena模型排名。此外,我們還突出了用戶提出的問題類型、回應風格對偏好的影響,以及模型常常失敗的領域。我們發現,像是標題和幽默等開放式任務高度依賴風格,目前的VLMs在空間推理和規劃任務方面表現不佳。最後,我們展示了在VisionArena-Chat上微調相同基礎模型的效果優於Llava-Instruct-158K,在MMMU上提高了17個百分點,在WildVision基準上提高了46個百分點。數據集位於https://huggingface.co/lmarena-ai。
在開發當代多模態語言模型(MLLMs)的標準做法是將視覺編碼器的特徵輸入到語言模型,並使用自然語言監督進行訓練。在這項工作中,我們提出了一個被忽視的機會,通過視覺角度(客觀)來優化中間的語言模型表示,即僅使用自然語言監督對於 MLLM 的視覺理解能力是次優的。為此,我們提出了 OLA-VLM,這是第一種從一組目標視覺表示中提煉知識到語言模型的隱藏表示的方法。首先,在 MLLMs 的預訓練階段,我們將目標定義為預測性視覺嵌入和下一個文本標記預測的耦合優化。其次,我們研究僅使用自然語言監督訓練的 MLLMs,並確定這些模型中視覺表示的質量與其下游性能之間存在正相關。此外,在對我們的 OLA-VLM 進行探究時,我們觀察到由於嵌入優化而提高了表示質量。第三,我們證明了我們的 OLA-VLM 優於單編碼器和多編碼器基線,證明了我們的方法優於將相應特徵明確輸入到語言模型中。特別是,OLA-VLM 在各種基準測試中平均提高了高達 2.5% 的性能,並在 CV-Bench 的深度任務上實現了 8.7% 的顯著改進。我們的代碼在 https://github.com/SHI-Labs/OLA-VLM 上開源。
本文介紹了RuleArena,一個新穎且具挑戰性的基準,旨在評估大型語言模型(LLMs)遵循複雜現實世界規則的能力。RuleArena涵蓋三個實際領域--航空公司行李費、NBA交易和稅務法規--評估LLMs處理需要長篇上下文理解、邏輯推理和準確數學計算的複雜自然語言指令的能力。RuleArena與傳統基於規則的推理基準有兩個關鍵特點:(1)它超越了標準的一階邏輯表示,(2)它基於真實實際情境,提供了LLMs應用於現實應用的適用性和可靠性見解。我們的研究發現了LLMs的幾個顯著限制:(1)它們難以識別並應用適當的規則,經常因為相似但不同的法規而感到困惑,(2)即使正確識別相關規則,它們也無法一致執行準確的數學計算,(3)總的來說,在基準測試中表現不佳。這些結果突顯了在現實應用中推進LLMs的規則導向推理能力所面臨的重大挑戰。
在訓練生成式語言模型時使用受版權保護的材料引發了關鍵的法律和道德問題。本文提出了一個框架,並通過實證評估受版權材料對大型語言模型(LLMs)在挪威語上性能的影響來呈現結果。我們發現,當模型在多樣的挪威基準上進行評估時,無論是書籍還是報紙都對其有積極貢獻,而小說作品可能會導致性能下降。我們的實驗結果可以為那些作品對AI發展有貢獻的作者制定一個補償方案提供信息。
詞義消歧(WSD)是將給定語境中的單詞與可能的候選詞義中最合適的意義相關聯的任務。儘管該任務最近再次引起關注,系統的表現超過了預估的標註者間一致性,但在撰寫本文時,它仍然難以找到下游應用。我們認為造成這一情況的原因之一是將WSD應用於純文本的困難。事實上,在標準制定中,模型工作的假設是a)所有需要消歧的範圍已經被識別,以及b)每個範圍的所有可能候選詞義都已提供,這兩者都是遠非微不足道的要求。在本研究中,我們提出了一個名為詞義鏈接(WSL)的新任務,給定一個輸入文本和一個參考詞義庫,系統必須同時識別要消歧的範圍,然後將它們連結到最合適的意義。我們提出了一種基於Transformer架構的任務,並徹底評估了其性能以及那些擴展到WSL的最先進WSD系統的性能,逐步放寬了WSD的假設。我們希望我們的工作將促進將詞彙語義更容易地整合到下游應用中。
正規化流(NFs)是針對連續輸入的基於概似的模型。它們在密度估計和生成建模任務上展示出有希望的結果,但近年來卻受到相對較少的關注。在這項工作中,我們展示了NFs比先前認為的更強大。我們提出了TarFlow:一種簡單且可擴展的架構,可實現高性能的NF模型。TarFlow可以被視為基於Transformer的Masked Autoregressive Flows(MAFs)的變體:它由一堆自回歸Transformer塊組成,應用在圖像塊上,並在層之間交替自回歸方向。TarFlow易於端對端訓練,能夠直接建模和生成像素。我們還提出了三個關鍵技術來提高樣本質量:在訓練期間進行高斯噪聲增強,一種訓練後的去噪過程,以及一種有效的引導方法,適用於有條件和無條件設置。將這些技術結合在一起,TarFlow在圖像的概似估計方面取得了新的最佳結果,大幅超越先前最佳方法,並生成了質量和多樣性與擴散模型相當的樣本,這是首次使用獨立的NF模型。我們在https://github.com/apple/ml-tarflow 上提供我們的代碼。
最近在文本到圖像定制方面的進展已經實現了高保真度、上下文豐富的個性化圖像生成,使得特定概念可以出現在各種情境中。然而,目前的方法在結合多個個性化模型時存在困難,常常導致屬性交織或需要單獨訓練以保留概念的獨特性。我們提出了LoRACLR,一種新穎的多概念圖像生成方法,將為不同概念進行微調的多個LoRA模型合併為一個統一模型,無需額外進行個別微調。LoRACLR使用對比目標來對齊和合併這些模型的權重空間,確保兼容性同時減少干擾。通過為每個概念強制實現獨特但連貫的表示,LoRACLR實現了高效、可擴展的模型組合,用於高質量的多概念圖像合成。我們的結果突顯了LoRACLR在準確合併多個概念方面的有效性,推動了個性化圖像生成的能力。
現有的稀疏視圖重建模型嚴重依賴準確的已知相機姿勢。然而,從稀疏視圖圖像中推導相機外部參數和內部參數存在顯著挑戰。在這項工作中,我們提出了FreeSplatter,這是一個高度可擴展的前饋重建框架,能夠從未校準的稀疏視圖圖像中生成高質量的3D高斯分佈,並在短短幾秒內恢復其相機參數。FreeSplatter建立在一個簡化的變壓器架構之上,包括順序自注意塊,促進多視圖圖像令牌之間的信息交換,並將它們解碼為逐像素的3D高斯基元。預測的高斯基元位於統一的參考框架中,實現高保真度的3D建模和使用現成求解器進行即時相機參數估計。為了滿足物件中心和場景級重建的需求,我們在大量數據集上訓練了FreeSplatter的兩個模型變體。在兩種情況下,FreeSplatter在重建質量和姿態估計準確性方面均優於最先進的基線。此外,我們展示了FreeSplatter在增強下游應用程序(如文本/圖像轉3D內容創建)生產力方面的潛力。
可控人類圖像動畫的目標是使用駕駛視頻從參考圖像生成視頻。由於稀疏引導(例如骨架姿勢)提供的控制信號有限,最近的研究試圖引入額外的密集條件(例如深度圖)來確保運動對齊。然而,當參考角色的身體形狀與駕駛視頻明顯不同時,這種嚴格的密集引導會損害生成視頻的質量。在本文中,我們提出DisPose,以挖掘更具普遍性和有效性的控制信號,而無需額外的密集輸入,將人類圖像動畫中的稀疏骨架姿勢解開為運動場指導和關鍵點對應。具體來說,我們從稀疏運動場和參考圖像生成一個密集運動場,提供區域級密集引導,同時保持稀疏姿勢控制的泛化性。我們還從參考圖像提取與姿勢關鍵點相對應的擴散特徵,然後將這些點特徵轉移到目標姿勢,以提供獨特的身份信息。為了無縫集成到現有模型中,我們提出了一個即插即用的混合ControlNet,它提高了生成視頻的質量和一致性,同時凍結現有模型參數。大量的定性和定量實驗證明了DisPose相對於當前方法的優越性。代碼:https://github.com/lihxxx/DisPose。
傳統固定的測試集在評估基礎模型的開放式能力方面存在不足。為了解決這個問題,我們提出了ONEBench(OpeN-Ended Benchmarking),這是一種新的測試範式,將個別評估數據集整合到一個統一的、不斷擴大的樣本池中。ONEBench允許用戶從這個樣本池中生成定製的、開放式的評估基準,以對應特定感興趣的能力。通過跨測試集聚合樣本,ONEBench使得能夠評估原始測試集未涵蓋的多樣能力,同時減輕過度擬合和數據集偏差。最重要的是,它將模型評估框架定義為選擇和聚合樣本級測試的集體過程。 從特定任務基準轉向ONEBench引入了兩個挑戰:(1)異質性和(2)不完整性。異質性指的是對多樣度指標的聚合,而不完整性描述了對不同數據子集上評估的模型進行比較。為了應對這些挑戰,我們探索了將稀疏測量聚合成可靠模型分數的算法。我們的聚合算法確保可識別性(漸近地恢復地面真實分數)和快速收斂,從而實現在更少數據的情況下準確地對模型進行排名。在同質數據集上,我們展示了我們的聚合算法提供的排名與平均分數產生的排名高度相關。我們還展示了對約95%的缺失測量的魯棒性,將評估成本降低了最多20倍,並且模型排名幾乎沒有變化。我們引入了ONEBench-LLM用於語言模型和ONEBench-LMM用於視覺-語言模型,將這些領域的評估統一起來。總的來說,我們提出了一種開放式評估技術,可以將不完整、異質的樣本級測量聚合起來,並隨著快速發展的基礎模型不斷擴展基準。
學習指導視覺導航的學術領域可以一般性地分為高層次類別特定搜索和低層次語言導向導航,取決於語言指導的細節程度,前者強調探索過程,而後者則專注於遵循詳細的文字命令。儘管這些任務的焦點不同,但解釋指令、理解周圍環境和推斷行動決策的基本要求保持一致。本文將不同的導航任務整合到統一且通用的框架中,我們研究了在學習導航中分享通用知識和利用任務特定能力的核心困難,並提出了一種新穎的狀態自適應專家混合(SAME)模型,有效地使代理人能夠根據不同細節程度的語言和動態觀察推斷決策。憑藉SAME的支持,我們提出了一個多才多藝的代理人,能夠同時應對七個導航任務,表現優於或與特定任務代理人實現高度可比的性能。
我們討論凝視目標估計的問題,旨在預測一個人在場景中的凝視位置。預測一個人的凝視目標需要對該人的外觀和場景內容進行推理。先前的研究已經為凝視目標估計開發了越來越複雜的手工設計流程,精心融合了來自不同場景編碼器、頭部編碼器和輔助模型(如深度和姿勢)的特徵。受通用特徵提取器在各種視覺任務上取得成功的啟發,我們提出了Gaze-LLE,一種新型的變壓器框架,通過利用凍結的DINOv2編碼器的特徵,簡化了凝視目標估計。我們提取了場景的單一特徵表示,並應用了一個特定於人的位置提示來解碼凝視,使用了輕量級模塊。我們展示了在幾個凝視基準測試中的最先進性能,並提供了廣泛的分析來驗證我們的設計選擇。我們的代碼可在以下網址找到:http://github.com/fkryan/gazelle。
神經機器翻譯(NMT)模型通常在具有有限科學、技術和教育領域曝光的數據集上進行訓練。總的來說,翻譯模型在涉及科學理解或技術術語的任務上往往表現不佳。對於資源稀缺的印度語言,它們的表現甚至更為糟糕。尋找一個特別關注這些領域的翻譯數據集是一個困難的挑戰。在本文中,我們通過創建一個多語種平行語料庫來應對這一挑戰,其中包含超過280萬條英語到印地語和印地語到印地語的高質量翻譯對,涵蓋了8種印度語言。我們通過採集人工翻譯的NPTEL視頻講座文本來實現這一目標。我們還使用這個語料庫對NMT模型進行微調和評估,在領域內的任務中超越了所有其他公開可用的模型。我們還展示了通過在Flores+基準測試中將基準提高了超過2 BLEU,從而提高了對這些印度語言的領域外翻譯任務的潛力。我們很高興通過以下鏈接釋出我們的模型和數據集:https://huggingface.co/SPRINGLab。