每日精選AI研究論文及翻譯
大規模文本到圖像模型,包括穩定擴散,能夠生成高保真度的照片逼真肖像圖像。有一個積極的研究領域致力於個性化這些模型,旨在使用提供的參考圖像集合合成特定主題或風格。然而,儘管這些個性化方法產生了合理的結果,但它們往往產生的圖像在逼真度上仍然存在不足,尚未達到商業可行水平。這在肖像圖像生成中尤為明顯,因為人臉中的任何不自然瑕疵都很容易被辨識出來,這是由於我們固有的人類偏見。為了應對這一問題,我們引入了MagiCapture,一種個性化方法,用於整合主題和風格概念,僅使用少量主題和風格參考即可生成高分辨率肖像圖像。例如,給定一些隨機自拍照,我們微調的模型可以生成具有特定風格的高質量肖像圖像,如護照照片或個人資料照片。這項任務的主要挑戰在於缺乏合成概念的真實標籤,這導致最終輸出質量降低,並且源主題的身份發生變化。為了應對這些問題,我們提出了一種新穎的注意力重新聚焦損失,結合輔助先驗知識,這兩者都有助於在這種弱監督學習環境中實現強健的學習。我們的流程還包括額外的後處理步驟,以確保創建高度逼真的輸出。MagiCapture在定量和定性評估中均優於其他基準,並且還可以推廣應用於其他非人類對象。
我們探索了將大型語言模型應用於程式碼優化的新方法。我們提出了一個由頭開始訓練的 70 億參數的 Transformer 模型,用於優化 LLVM 組合語言以縮小程式碼大小。該模型將未經優化的組合語言作為輸入,並輸出一組最佳優化該程式的編譯器選項。在訓練過程中,我們要求模型預測優化前後的指令計數,以及優化後的程式碼。這些輔助學習任務顯著提高了模型的優化性能,並增強了模型對問題的理解深度。 我們在一組龐大的測試程式上進行評估。我們的方法在減少指令計數方面比編譯器提高了 3.0%,優於需要數千次編譯的兩種最先進的基準方法。此外,該模型展現出驚人的程式碼推理能力,能夠在 91% 的情況下生成可編譯的程式碼,並在 70% 的情況下完美模擬編譯器的輸出。
長期存在的新視角合成問題在許多應用中具有重要意義,尤其在體育廣播領域。對於足球比賽動作的照片逼真新視角合成對廣播行業具有極大的吸引力。然而,目前只有少數工業解決方案被提出,甚至更少能夠實現合成重播的接近廣播質量。除了在比賽場地周圍設置多個靜態攝影機外,最佳專有系統幾乎沒有披露有關其內部運作的任何信息。利用多個靜態攝影機來完成這樣的任務確實在文獻中很少被探討,主要是因為缺乏公開數據集:重建大規模、主要靜態環境,其中包含小型、快速移動的元素。最近,神經輻射場的出現在許多新視角合成應用中帶來了驚人的進展,利用深度學習原則在最具挑戰性的環境中產生照片逼真的結果。在這項工作中,我們探討了基於動態神經輻射場(即用於重建一般動態內容的神經模型)的解決方案是否可行。我們構建了合成足球環境並對其進行多次實驗,識別有助於使用動態神經輻射場重建足球場景的關鍵組件。我們表明,儘管這種方法無法完全滿足目標應用的質量要求,但它提出了通往成本效益高、自動化解決方案的有希望途徑。我們還公開提供了我們的工作數據集和代碼,旨在鼓勵研究社區進一步努力從事動態足球場景的新視角合成任務。有關代碼、數據和視頻結果,請參見https://soccernerfs.isach.be。
改善語言模型與人類偏好的對齊仍然是一個活躍的研究挑戰。先前的方法主要利用從人類反饋中的強化學習(RLHF),通過諸如Proximal Policy Optimization(PPO)之類的在線RL方法。最近,離線方法,如Sequence Likelihood Calibration(SLiC)和Direct Preference Optimization(DPO),作為有吸引力的替代方案出現,提供了穩定性和可擴展性的改進,同時保持了競爭性能。SLiC使用從監督微調(SFT)策略中採樣的序列對來優化其損失函數,而DPO則根據偏好數據直接優化語言模型,無需單獨的獎勵模型。然而,目標最優策略的最大似然估計器(MLE)需要從該策略中採樣的標記偏好對。DPO缺乏獎勵模型限制了其從最優策略中採樣偏好對的能力,而SLiC僅限於從SFT策略中採樣偏好對。為了解決這些限制,我們提出了一種名為統計拒絕採樣優化(RSO)的新方法,旨在使用拒絕採樣從目標最優策略中獲取偏好數據,從而更準確地估計最優策略。我們還提出了一個統一框架,從偏好建模的角度增強了SLiC和DPO中使用的損失函數。通過在三個不同任務上進行的大量實驗,我們展示了RSO在大型語言模型(LLM)和人類評分者的評估中始終優於SLiC和DPO。
最近在大規模文本到圖像模型方面取得了顯著進展,並在藝術領域中找到了各種應用。然而,僅使用文本提示來表達藝術作品的獨特特徵(例如筆觸、色調或構圖)可能會因口頭描述的固有限制而遇到限制。為此,我們介紹了DreamStyler,這是一個新穎的框架,旨在進行藝術圖像合成,擅長於文本到圖像合成和風格轉移。DreamStyler 通過具有上下文感知的文本提示來優化多階段文本嵌入,從而產生卓越的圖像質量。此外,憑藉內容和風格指導,DreamStyler展現了靈活性,以容納各種風格參考。實驗結果顯示其在多種情境下具有優越性能,表明其在藝術產品創作中具有潛在的應用價值。
我們的目標是僅透過文字描述創建具有頭髮和配飾的逼真3D面部化身。儘管這一挑戰近來引起了相當大的關注,但現有方法要麼缺乏逼真感,要麼產生不現實的形狀,或者不支持編輯,例如修改髮型。我們認為現有方法存在局限性,因為它們採用單一建模方法,使用單一表示來呈現頭部、面部、頭髮和配飾。我們的觀察是,例如頭髮和面部具有非常不同的結構特性,可以從不同的表示中受益。基於這一洞察,我們使用組合模型生成化身,其中頭部、面部和上半身用傳統的3D網格表示,而頭髮、服裝和配飾則使用神經輻射場(NeRF)。基於模型的網格表示為面部區域提供了強大的幾何先驗,提高了逼真度,同時實現了對人物外觀的編輯。通過使用NeRF來表示其餘組件,我們的方法能夠對具有復雜幾何和外觀的部分進行建模和合成,例如捲曲的頭髮和蓬鬆的圍巾。我們的新穎系統從文字描述中合成這些高質量的組合化身。實驗結果表明,我們的方法,即基於文本引導的組合化身生成和編輯(TECA),生成的化身比最近的方法更加逼真,同時由於其組合性質而可編輯。例如,我們的TECA實現了化身之間組合特徵(如髮型、圍巾和其他配飾)的無縫轉移。這種能力支持虛擬試穿等應用。
我們研究如何從單張圖像中推斷出樹狀結構的物體陰影表示。先前的研究通常使用參數化或測量表示來建模陰影,但這兩者都不易解釋也不容易編輯。我們提出使用陰影樹表示法,結合基本陰影節點和合成方法,以分解物體表面的陰影。這種陰影樹表示法使得不熟悉物理陰影過程的新手用戶可以以高效且直觀的方式編輯物體陰影。推斷陰影樹的主要挑戰在於推斷問題涉及離散樹結構和樹節點的連續參數。我們提出了一種混合方法來應對這個問題。我們引入自回歸推斷模型來生成對樹結構和節點參數的粗略估計,然後通過優化算法對推斷出的陰影樹進行微調。我們在合成圖像、捕獲的反射、真實圖像和非現實主義的向量圖中進行實驗,從而支持後續應用,如材料編輯、向量化陰影和重燈。項目網站:https://chen-geng.com/inv-shade-trees