每日精選AI研究論文及翻譯
生成模型在各個領域產生了顯著影響,這主要歸因於它們在訓練過程中通過增加數據、計算資源和模型大小來實現規模化的能力,這種現象被稱為規模定律。最近的研究開始探索大型語言模型(LLMs)在推論時的規模化行為,揭示了在推論過程中進行額外計算如何進一步提高性能。與LLMs不同,擴散模型固有地具有通過去噪步驟數量調整推論時計算的靈活性,盡管性能增益通常在幾十個步驟後趨於平緩。在這項工作中,我們探索了擴散模型在推論時的規模化行為,超越了增加去噪步驟,並研究了如何通過增加計算來進一步提高生成性能。具體而言,我們考慮一個旨在識別擴散抽樣過程中更好噪聲的搜索問題。我們沿著兩個軸結構了設計空間:用於提供反饋的驗證器,以及用於找到更好噪聲候選者的算法。通過在類別條件和文本條件的圖像生成基準上進行大量實驗,我們的研究結果顯示,增加推論時計算會顯著提高擴散模型生成的樣本質量,並且隨著圖像的複雜性,可以選擇組合框架中的組件以符合不同的應用場景。
大型語言模型的機器寫作通常依賴檢索增強生成。然而,這些方法仍受限於模型預定義範圍內,限制了生成豐富信息內容的能力。具體而言,普通檢索的信息往往缺乏深度、實用性,並且存在冗余,這對生成的文章質量產生負面影響,導致表面、重複和不具獨創性的輸出。為解決這些問題,我們提出了 OmniThink,一個模擬人類迭代擴展和反思過程的機器寫作框架。OmniThink 的核心理念是模擬學習者在逐步加深對主題知識的過程中的認知行為。實驗結果表明,OmniThink 提高了生成文章的知識密度,同時不損害連貫性和深度等指標。人工評估和專家反饋進一步突顯了 OmniThink 在長文生成中應對現實挑戰的潛力。
語言長久以來被視為人類推理的重要工具。大型語言模型(LLMs)的突破引發了對利用這些模型應對複雜推理任務的重大研究興趣。研究人員已超越簡單的自回歸標記生成,引入了「思想」的概念 - 一系列代表推理過程中中間步驟的標記序列。這種創新範式使得LLMs能夠模擬複雜的人類推理過程,如樹搜索和反思性思考。最近,一種新興的學習推理趨勢應用了強化學習(RL)來訓練LLMs掌握推理過程。這種方法通過試錯搜索算法實現了高質量推理軌跡的自動生成,顯著擴展了LLMs的推理能力,提供了更多訓練數據。此外,最近的研究表明,在測試推理時鼓勵LLMs使用更多標記來「思考」可以進一步顯著提高推理準確性。因此,訓練時和測試時的擴展結合展示了一個通往大型推理模型的新研究前沿 - 一條通往大型推理模型的道路。OpenAI的o1系列的推出標誌著這一研究方向的重大里程碑。在這份調查中,我們對LLM推理的最新進展進行了全面回顧。我們首先介紹LLMs的基礎背景,然後探討推動大型推理模型發展的關鍵技術組件,重點關注自動數據構建、學習推理技術和測試時擴展。我們還分析了在構建大型推理模型方面的流行開源項目,最後結束於開放挑戰和未來研究方向。
透過自編碼的視覺標記化,使得最先進的圖像和視頻生成模型能夠將像素壓縮為潛在空間。儘管最近的進展主要集中在擴展基於Transformer的生成器,但標記器組件本身很少被擴展,這樣就引發了有關自編碼器設計選擇如何影響其重建目標和下游生成性能的問題。我們的工作旨在探索自編碼器的擴展,以填補這一空白。為了促進這一探索,我們將典型的卷積主幹替換為增強的視覺Transformer架構,用於標記化(ViTok)。我們在大規模圖像和視頻數據集上訓練ViTok,遠超過ImageNet-1K,消除了標記器擴展的數據限制。我們首先研究了擴展自編碼器瓶頸對重建和生成的影響,發現儘管它與重建高度相關,但與生成的關係更加複雜。接著,我們探討了分別擴展自編碼器的編碼器和解碼器對重建和生成性能的影響。重要的是,我們發現擴展編碼器對於重建或生成幾乎沒有增益,而擴展解碼器則提高了重建,但對生成的好處則參差不齊。基於我們的探索,我們設計了ViTok作為一個輕量級自編碼器,在ImageNet-1K和COCO重建任務(256p和512p)上實現了與最先進自編碼器競爭力相當的性能,同時在UCF-101的16幀128p視頻重建上表現優於現有自編碼器,並且計算量(FLOPs)減少了2-5倍。當與擴散Transformer集成時,ViTok在ImageNet-1K上的圖像生成表現出競爭力,並在UCF-101的類條件視頻生成方面設定了新的最先進基準。
AI視頻生成正在經歷一場革命,質量和逼真度正在迅速提升。這些進步引發了一場激烈的科學辯論:視頻模型是否學習到了「世界模型」,從而發現了物理定律,或者僅僅是複雜的像素預測器,實現了視覺逼真度,卻沒有理解現實物理原則?我們通過開發Physics-IQ來回答這個問題,這是一個全面的基準數據集,只有通過深入理解各種物理原則,如流體動力學、光學、固體力學、磁學和熱力學,才能解決。我們發現,在眾多當前模型(Sora、Runway、Pika、Lumiere、Stable Video Diffusion和VideoPoet)中,物理理解受到嚴重限制,並且與視覺逼真度無關。同時,一些測試案例已經可以成功解決。這表明僅通過觀察就可能獲得某些物理原則,但仍然存在重大挑戰。儘管我們預計未來將取得快速進展,但我們的工作表明,視覺逼真度並不意味著對物理的理解。我們的項目頁面位於https://physics-iq.github.io;代碼位於https://github.com/google-deepmind/physics-IQ-benchmark。
自回歸序列模型,如基於Transformer的視覺語言行動(VLA)策略,對於捕捉複雜且可泛化的機器人行為非常有效。然而,這些模型要求我們選擇對連續動作信號進行標記化,這決定了模型預測的離散符號如何映射到連續的機器人動作。我們發現,基於簡單的每維度、每時間步長的分箱方案的當前機器人動作標記化方法,在從高頻率機器人數據學習靈巧技能時通常表現不佳。為應對這一挑戰,我們提出了一種基於離散余弦變換的新壓縮式機器人動作標記化方案。我們的標記化方法,即頻率空間行動序列標記化(FAST),使我們能夠訓練自回歸VLA,用於高靈巧和高頻率任務,標準離散化方法完全失敗的情況。基於FAST,我們推出了FAST+,一種通用的機器人動作標記化器,訓練於100萬個真實機器人動作軌跡。它可作為黑盒標記化器,用於各種機器人動作序列,包括不同的動作空間和控制頻率。最後,我們展示,當與pi0 VLA結合時,我們的方法能夠擴展至訓練10000小時的機器人數據,並與擴散VLA的性能相匹配,同時將訓練時間降低多達5倍。
我們介紹了 SynthLight,一種用於人像燈光重繪的擴散模型。我們的方法將圖像燈光重繪定義為一個重新渲染問題,其中像素會根據環境燈光條件的變化而進行轉換。利用基於物理的渲染引擎,我們合成了一個數據集,以模擬在不同照明下對3D頭部資產進行這種照明條件轉換。我們提出了兩種訓練和推斷策略,以彌合合成和真實圖像領域之間的差距:(1) 多任務訓練,利用沒有照明標籤的真實人像;(2) 基於無分類器指導的推斷時間擴散採樣程序,利用輸入人像以更好地保留細節。我們的方法推廣到多樣的真實照片,產生逼真的照明效果,包括鏡面高光和投影陰影,同時保留主題的身份。我們在 Light Stage 數據上的定量實驗表明,我們的結果與最先進的燈光重繪方法相當。我們對野外圖像的定性結果展示了豐富且前所未有的照明效果。項目頁面:https://vrroom.github.io/synthlight/
線上醫療諮詢(OMC)限制醫生僅透過詢問收集病人資訊,使本已複雜的診斷過程變得更具挑戰性。最近,大型語言模型的快速進展顯示了改變OMC的重大潛力。然而,大多數研究主要集中在在相對充足資訊條件下提高診斷準確性,卻對諮詢過程中的「詢問」階段給予有限關注。這種缺乏關注導致「詢問」與「診斷」之間的關係尚未得到充分探討。本文首先從真實醫患對話中提取真實患者互動策略,並利用這些策略指導患者模擬器的訓練,以模擬真實行為。透過將醫療記錄輸入我們的患者模擬器以模擬患者回應,我們進行了廣泛實驗,探索諮詢過程中「詢問」與「診斷」之間的關係。實驗結果顯示,詢問和診斷遵循利比希法則:低質量的詢問會限制診斷的有效性,而診斷能力也是如此,反之亦然。此外,實驗揭示了各種模型在詢問表現上的顯著差異。為了調查這一現象,我們將詢問過程分為四類:(1)主訴詢問;(2)已知症狀的具體描述;(3)詢問伴隨症狀;和(4)收集家族或醫療史。我們分析不同模型在這四類詢問中的分佈,以探索其顯著表現差異背後的原因。我們計劃將我們的患者模擬器的權重和相關代碼開源在 https://github.com/LIO-H-ZEN/PatientSimulator。
從文本或視覺輸入中合成高質量的3D資產已成為現代生成建模中的核心目標。儘管3D生成算法層出不窮,但它們常常面臨著多視角不一致、生成時間過長、低保真度和表面重建問題等挑戰。雖然一些研究已經解決了其中一些問題,但一個全面的解決方案仍然難以捉摸。在本文中,我們介紹了CaPa,一個雕刻和繪畫框架,可以高效生成高保真度的3D資產。CaPa採用了一個兩階段過程,將幾何生成和紋理合成分開。首先,一個3D潛在擴散模型生成由多視角輸入引導的幾何,確保在不同視角下的結構一致性。隨後,利用一種新穎的、與模型無關的空間分離注意力,該框架為給定的幾何合成高分辨率紋理(高達4K)。此外,我們提出了一種3D感知遮擋修補算法,填補未紋理化的區域,從而在整個模型上產生連貫的結果。這個流程在不到30秒內生成高質量的3D資產,為商業應用提供即用輸出。實驗結果表明,CaPa在紋理保真度和幾何穩定性方面表現出色,為實用、可擴展的3D資產生成建立了新的標準。
最近,大規模生成模型展示了出色的文本到圖像生成能力。然而,在生成具有特定主題的高保真個性化圖像方面仍然存在挑戰,特別是在涉及多個主題的情況下。本文提出了AnyStory,一種統一的個性化主題生成方法。AnyStory不僅實現了對單個主題的高保真個性化,還能對多個主題進行個性化,而不會犧牲主題的保真度。具體來說,AnyStory以“編碼-路由”方式建模主題個性化問題。在編碼步驟中,AnyStory利用通用且強大的圖像編碼器,即ReferenceNet,結合CLIP視覺編碼器,實現對主題特徵的高保真編碼。在路由步驟中,AnyStory利用解耦的實例感知主題路由器準確感知並預測潛在主題在潛在空間中的位置,並引導主題條件的注入。詳細的實驗結果展示了我們的方法在保留主題細節、對齊文本描述和對多個主題進行個性化方面的優異表現。該項目頁面位於 https://aigcdesigngroup.github.io/AnyStory/ 。
近來大型語言模型的普及使得開發所需的龐大程式碼資料集得到推動。這導致收集和用於下游研究特定行為或評估大型語言模型時的程式碼資源受限。為解決這個問題,我們釋出了The Heap,這是一個大型多語言資料集,涵蓋了57種程式設計語言,並已與其他開放式程式碼資料集進行了重複消除,使研究人員能夠在不需進行大量資料清理的情況下公平評估大型語言模型。
像基礎模型(FMs)這樣的生成式人工智慧系統必須與人類價值觀良好契合,以確保其行為是有益且可信賴的。儘管從人類反饋中學習的強化學習(RLHF)已顯示出優化模型性能的潛力,但現有的RLHF流程主要依賴即時反饋,這可能無法準確反映互動對用戶效用的下游影響。我們證明,基於評估者對下游後果的預見估計的反饋系統性地引發古哈特定律動態,激勵不符合價值觀的行為,如諂媚和欺騙,最終降低用戶結果。為了緩解這一問題,我們提出將評估與預測分離,通過重新聚焦RLHF在事後反饋上。我們的理論分析顯示,將評估者反饋條件化為下游觀察可以減輕不一致性,提高預期的人類效用,即使這些觀察是由人工智慧系統自行模擬的。為了在實際對齊算法中利用這一見解,我們引入了從事後模擬中學習的強化學習(RLHS),首先模擬可能的後果,然後徵求反饋,以評估事後真正有益的行為。我們將RLHS應用於兩種廣泛應用的在線和離線偏好優化方法--近端策略優化(PPO)和直接偏好優化(DPO)--並實證表明,這兩種方法的不一致性明顯減少。通過在線人類用戶研究,我們展示RLHS在幫助用戶實現目標和獲得更高滿意度評分方面始終優於RLHF,儘管僅使用模擬的事後反饋進行訓練。這些結果強調了專注於長期後果的重要性,即使是模擬的後果,以減輕RLHF中的不一致性。