每日精選AI研究論文及翻譯
個性化文本生成是近年來備受關注的新興研究領域。該方向的多數研究聚焦於特定領域,通過設計專用特徵或模型實現個性化生成。本文提出一種基於大型語言模型的通用個性化文本生成方法。受寫作教學實踐啟發,我們開發了多階段多任務框架來訓練大型語言模型進行個性化生成。在寫作教學中,基於素材的寫作任務常被分解為多個步驟:查找、評估、總結、綜合及整合信息。類比地,我們的個性化文本生成方法包含檢索、排序、摘要、合成與生成五個階段。此外,我們引入多任務學習機制以進一步提升模型生成能力,這源於教育領域中觀察到的閱讀能力與寫作水平常具相關性的現象。我們在三個涵蓋不同代表性領域的公開數據集上進行評估,結果表明該方法相較多種基準模型均有顯著提升。
隨著擴散模型的興起,文字轉視訊生成技術近期受到愈發廣泛的關注。然而該領域存在一個重要瓶頸:生成視訊常出現閃爍現象與偽影問題。本研究提出雙流擴散網絡(DSDN),通過增強內容變化的連貫性來提升視訊生成品質。具體而言,所設計的視訊內容與運動雙擴散流不僅能在各自獨立空間中分別生成個性化視訊內容及動態變化,更透過我們設計的跨模組交互轉換器,實現內容域與運動域的精準對齊,從而有效提升生成視訊的流暢度。此外,我們還引入運動分解器與組合器來優化視訊運動操作。定性與定量實驗表明,本方法能生成動態連貫且閃爍顯著減少的驚艷視訊。
近年來,可控影片生成技術備受關注,但現有研究仍存在兩大侷限性:首先,多數成果僅專注於文本、圖像或軌跡控制單一維度,導致無法實現影片的細粒度控制;其次,軌跡控制研究尚處早期階段,現有實驗多基於Human3.6M等簡單數據集,這限制了模型處理開放域圖像與複雜曲線軌跡的能力。本文提出DragNUWA——一個基於擴散模型的開放域影片生成框架。針對控制粒度不足的問題,我們首次融合文本、圖像與軌跡信息,從語義、空間和時間三重維度實現影片內容的細粒度控制。為突破開放域軌跡控制的侷限性,我們提出三階段軌跡建模方案:通過軌跡採樣器實現任意軌跡的開放域控制,採用多尺度融合機制適應不同粒度軌跡,並設計自適應訓練策略確保軌跡跟蹤的影片連貫性。實驗證明DragNUWA在影片細粒度控制方面具有顯著優勢。項目主頁鏈接:https://www.microsoft.com/en-us/research/project/dragnuwa/