每日精選AI研究論文及翻譯
圖像修復是介於圖像編輯與圖像生成之間的一個基礎研究領域。近年來,最先進(SOTA)的方法探索了新型注意力機制、輕量級架構以及上下文感知建模,展現了令人印象深刻的性能。然而,這些方法在處理複雜結構(如紋理、形狀、空間關係)和語義(如色彩一致性、物體修復及邏輯正確性)時往往力不從心,導致生成結果出現瑕疵和不恰當之處。為應對這一挑戰,我們設計了一種簡單而有效的修復範式,稱為潛在類別指導,並進一步提出了一種基於擴散模型的PixelHacker。具體而言,我們首先通過標註前景與背景(分別包含116和21個潛在類別)構建了一個包含1400萬張圖像-掩碼對的大型數據集。隨後,我們分別通過兩個固定大小的嵌入編碼潛在的前景與背景表示,並通過線性注意力間歇性地將這些特徵注入去噪過程。最後,通過在我們的數據集上進行預訓練並在開源基準上進行微調,我們獲得了PixelHacker。大量實驗表明,PixelHacker在多個數據集(Places2、CelebA-HQ和FFHQ)上全面超越了SOTA,並在結構與語義上展現出顯著的一致性。項目頁面請訪問https://hustvl.github.io/PixelHacker。
我們推出Llama-Nemotron系列模型,這是一組開放的異質推理模型家族,具備卓越的推理能力、高效的推論效率,並提供企業使用的開放授權。該系列包含三種規模——Nano(8B)、Super(49B)和Ultra(253B)——在與DeepSeek-R1等尖端推理模型的競爭中表現出色,同時提供更優的推論吞吐量和記憶體效率。在本報告中,我們討論了這些模型的訓練流程,其中包括利用Llama 3模型進行神經架構搜索以加速推論、知識蒸餾及持續預訓練,隨後是專注於推理的後訓練階段,該階段由兩大部分組成:監督式微調和大規模強化學習。Llama-Nemotron模型是首個支持動態推理切換的開源模型,允許用戶在推論過程中於標準聊天模式和推理模式之間切換。為了進一步支持開放研究並促進模型開發,我們提供以下資源:1. 我們在商業許可的NVIDIA開放模型授權協議下發布了Llama-Nemotron推理模型——LN-Nano、LN-Super和LN-Ultra。2. 我們發布了完整的後訓練數據集:Llama-Nemotron-Post-Training-Dataset。3. 我們還發布了我們的訓練代碼庫:NeMo、NeMo-Aligner和Megatron-LM。
大多數現實世界的圖像編輯任務需要進行多次連續編輯才能達到預期效果。當前主要針對單一對象修改的編輯方法在處理連續編輯時存在困難:特別是在保持先前編輯的同時,如何自然地將新對象融入現有內容中。這些限制嚴重阻礙了需要修改多個對象並保持其上下文關係的複雜編輯場景。我們通過兩個關鍵提案來應對這一根本挑戰:支持粗略遮罩輸入以保留現有內容並自然地整合新元素,以及支持跨多次修改的一致性編輯。我們的框架通過分層記憶實現這一點,該記憶存儲了先前編輯的潛在表示和提示嵌入。我們提出了背景一致性指導,利用記憶的潛在表示來保持場景連貫性,並在交叉注意力中引入多查詢解耦,確保對現有內容的自然適應。為了評估我們的方法,我們提出了一個新的基準數據集,包含語義對齊指標和互動編輯場景。通過全面的實驗,我們展示了在迭代圖像編輯任務中的卓越性能,只需用戶提供粗略遮罩即可在多個編輯步驟中保持高質量結果。
评估自然语言生成(NLG)系统具有挑战性,原因在于其输出结果的多样性。尽管人工评估被视为黄金标准,但它存在不一致性、缺乏标准化以及人口统计偏差等问题,限制了结果的可重复性。基于大语言模型(LLM)的评估提供了一种可扩展的替代方案,但对提示设计极为敏感,细微的变化可能导致显著的差异。在本研究中,我们提出了一种逆向学习方法,该方法能够从模型输出中学习有效的反向映射,回到其输入指令,从而自动生成高效、针对特定模型的评估提示。我们的方法仅需单个评估样本,无需耗时的手动提示工程,从而提高了效率和鲁棒性。本研究为更稳健、高效的基于LLM的评估开辟了新的方向。
基於從9,439篇生成式AI論文中篩選出的1,178篇安全與可靠性研究(時間跨度為2020年1月至2025年3月),我們比較了領先AI企業(Anthropic、Google DeepMind、Meta、Microsoft和OpenAI)與頂尖AI學術機構(卡內基梅隆大學、麻省理工學院、紐約大學、史丹佛大學、加州大學柏克萊分校和華盛頓大學)的研究產出。我們發現,企業AI研究日益聚焦於部署前階段——模型對齊及測試與評估——而對部署階段問題如模型偏見的關注有所減弱。在高風險部署領域,包括醫療保健、金融、虛假信息、說服性與成癮性功能、幻覺問題及版權方面,存在顯著的研究空白。若無法提升對已部署AI的可觀測性,企業研究的集中化趨勢可能加劇知識赤字。我們建議擴大外部研究人員對部署數據的訪問權限,並系統性地觀測市場中AI的行為表現。
在現實世界的語料庫中,知識經常在文檔之間重複出現,但由於命名模糊、信息過時或錯誤,往往存在不一致之處,導致上下文之間形成複雜的相互關係。先前的研究表明,語言模型在處理這些複雜性時存在困難,通常僅孤立地關注單一因素。我們將這些關係分類為四種類型:分散注意力的、模糊的、反事實的以及重複的。我們的分析揭示,沒有一種方法能同時有效解決所有這些相互關係。因此,我們引入了上下文組織器(CORG),這是一個將多個上下文組織成獨立處理組的框架。這種設計使模型能夠高效地找到所有相關答案,同時確保消除歧義。CORG由三個關鍵組件組成:圖構造器、重新排序器和聚合器。我們的結果表明,CORG在性能和效率之間取得了有效平衡,優於現有的分組方法,並達到了與計算更密集的單一上下文方法相當的結果。
學習如何利用信號時序邏輯(STL)規範來解決複雜任務,對於許多現實世界的應用至關重要。然而,由於缺乏多樣化的STL數據集以及有效提取時序邏輯信息以供下游任務使用的編碼器,大多數先前的研究僅考慮固定或參數化的STL規範。在本論文中,我們提出了TeLoGraF,即時序邏輯圖編碼流,它利用圖神經網絡(GNN)編碼器和流匹配技術來學習通用STL規範的解決方案。我們識別了四種常用的STL模板,並收集了總計20萬條配對演示的規範。我們在五個模擬環境中進行了廣泛的實驗,範圍從二維空間中的簡單動力學模型到高維度的7自由度Franka Panda機械臂和Ant四足機器人導航。結果表明,我們的方法在STL滿足率上優於其他基線。與經典的STL規劃算法相比,我們的推理速度快了10到100倍,並且能夠適用於任何系統動力學。此外,我們展示了我們的圖編碼方法在解決複雜STL問題上的能力以及對分佈外STL規範的魯棒性。代碼可在https://github.com/mengyuest/TeLoGraF獲取。
隨著新產品日新月異地湧現,推薦系統需要能夠快速適應可能出現的新領域,而無需進行大量的重新訓練。本研究提出了「X-Cross」——一種新穎的跨領域序列推薦模型,該模型通過整合多個領域特定的語言模型來推薦新領域中的產品;每個模型均通過低秩適配器(LoRA)進行微調。面對推薦提示時,X-Cross逐層操作,動態地精煉每個源語言模型的表示,通過整合來自所有其他模型的知識來實現。這些精煉後的表示從一層傳播到下一層,利用每個領域適配器的激活,確保在保持領域特定細微差別的同時,實現跨領域的適應性。使用亞馬遜數據集進行序列推薦時,X-Cross的表現與使用LoRA微調的模型相當,而僅使用了25%的額外參數。在跨領域任務中,例如從玩具領域適應到工具、電子產品或體育領域,X-Cross展現了強健的性能,同時相比LoRA,需要約50%-75%更少的微調數據來使微調有效。此外,X-Cross在準確性上相較於其他跨領域基線模型取得了顯著提升。總體而言,X-Cross實現了可擴展且自適應的跨領域推薦,降低了計算開銷,為數據受限的環境提供了一個高效的解決方案。