每日精選AI研究論文及翻譯
人類動作生成在數位人類和人形機器人控制等應用中扮演著重要角色。然而,大多數現有方法忽略物理約束,導致生成的動作常常不合物理規律,出現明顯的問題,如漂浮和腳部滑動。本文提出了一個名為Morph的無動作物理優化框架,包括一個動作生成器和一個動作物理細化模組,用於提高物理合理性,而無需依賴昂貴的現實世界動作數據。具體而言,動作生成器負責提供大規模的合成動作數據,而動作物理細化模組利用這些合成數據在物理模擬器中訓練動作模仿者,強制實施物理約束,將嘈雜的動作投影到一個符合物理規律的空間。這些經過物理細化的動作進而用於微調動作生成器,進一步提升其能力。在文本轉動作和音樂轉舞蹈生成任務上的實驗表明,我們的框架實現了最先進的動作生成質量,同時極大地提高了物理合理性。
視覺語言模型(VLMs)在多模態推理任務中展現了顯著的進展。然而,由於存在幻覺圖像理解或推理路徑不完善等問題,它們仍然經常生成不準確或無關的回應。為了應對這些挑戰,我們引入了Critic-V,這是一個受Actor-Critic範式啟發的新型框架,旨在增強VLMs的推理能力。該框架通過集成兩個獨立組件來解耦推理過程和評論過程:Reasoner根據視覺和文本輸入生成推理路徑,而Critic提供建設性評論以精煉這些路徑。在這種方法中,Reasoner根據文本提示生成推理回應,可以根據Critic的反饋進行迭代演進,形成一個基於策略的過程。這種互動過程在理論上受到強化學習框架的驅動,其中Critic提供自然語言評論而不是純量獎勵,從而提供更細緻的反饋,以增強Reasoner在複雜推理任務上的能力。Critic模型使用直接偏好優化(DPO)進行訓練,利用由基於規則獎勵(RBR)排名的評論偏好數據集來增強其評論能力。評估結果顯示,Critic-V框架在8個基準測試中有5個明顯優於現有方法,特別是在推理準確性和效率方面。Reasoner的動態基於文本的策略與經過偏好優化的Critic提供的建設性反饋相結合,實現了更可靠和上下文敏感的多模態推理過程。我們的方法提供了一個有前途的解決方案,以增強VLMs的可靠性,提高它們在現實世界中推理密集的多模態應用(如自動駕駛和具身智能)中的性能。
本文介紹了虛擬試穿(VTOFF),這是一項新穎的任務,專注於從穿著衣物的個人的單張照片生成標準化的服裝圖像。與傳統的虛擬試穿(VTON)不同,後者是將服裝數字化穿在模特兒身上,VTOFF的目標是提取一個標準的服裝圖像,這在捕捉服裝形狀、紋理和精細圖案方面提出了獨特的挑戰。這個明確定義的目標使VTOFF在評估生成模型中的重建保真度方面特別有效。我們提出了TryOffDiff,這是一個適應Stable Diffusion和基於SigLIP的視覺條件的模型,以確保高保真度和細節保留。在修改後的VITON-HD數據集上進行的實驗表明,我們的方法在基於姿勢轉移和虛擬試穿的基準方法上表現優越,並且需要更少的預處理和後處理步驟。我們的分析顯示,傳統的圖像生成指標未能充分評估重建質量,促使我們依賴於DISTS進行更準確的評估。我們的結果突顯了VTOFF在增強電子商務應用中的產品圖像、推進生成模型評估以及激發未來高保真度重建工作的潛力。演示、代碼和模型可在以下網址找到:https://rizavelioglu.github.io/tryoffdiff/
儘管文本轉圖像(T2I)生成模型取得了顯著進展,使用者在實際情境中常常面臨試錯的挑戰。這個挑戰源於繁瑣步驟的複雜性和不確定性,例如製作適當提示、選擇合適模型和配置特定參數,使得使用者不得不依賴勞動密集型的嘗試以獲得所需的圖像。本文提出自動T2I生成,旨在自動化這些繁瑣步驟,讓使用者可以用自由對話的方式描述他們的需求。為了系統性地研究這個問題,我們首先介紹了ChatGenBench,一個為自動T2I設計的新型基準測試。它具有高質量的成對數據和多樣的自由式輸入,能夠全面評估自動T2I模型在所有步驟上的表現。此外,我們將自動T2I視為一個複雜的多步推理任務,提出了ChatGen-Evo,一種多階段進化策略,逐步賦予模型必要的自動化技能。通過對步驟準確性和圖像質量的廣泛評估,ChatGen-Evo明顯提升了各種基準的性能。我們的評估還揭示了推進自動T2I的寶貴見解。我們的所有數據、代碼和模型將在https://chengyou-jia.github.io/ChatGen-Home 上提供。
我們提出了SelfSplat,一種新穎的3D高斯Splatting模型,旨在從未擺姿勢的多視圖圖像中執行無姿勢和無3D先驗的通用3D重建。這些設置由於缺乏地面真實數據、學習的幾何信息以及需要實現精確的3D重建而無需微調,因此本質上是不透明的,這使得傳統方法難以實現高質量的結果。我們的模型通過有效地將明確的3D表示與自監督深度和姿勢估計技術相結合,從而實現姿勢準確性和3D重建質量的相互改進。此外,我們還結合了一個匹配感知的姿勢估計網絡和深度細化模塊,以增強視圖之間的幾何一致性,確保更準確和穩定的3D重建。為了展示我們方法的性能,我們在大規模真實世界數據集上進行了評估,包括RealEstate10K、ACID和DL3DV。SelfSplat在外觀和幾何質量方面均優於先前的最先進方法,同時展現了強大的跨數據集泛化能力。廣泛的消融研究和分析也驗證了我們提出方法的有效性。代碼和預訓練模型可在https://gynjn.github.io/selfsplat/上找到。
擴散模型在生成任務中取得了令人印象深刻的成果,如文本到圖像(T2I)和文本到視頻(T2V)合成。然而,在T2V生成中實現準確的文本對齊仍然具有挑戰性,這是由於幀之間存在著複雜的時間依賴性。現有基於強化學習(RL)的方法用於增強文本對齊通常需要可微的獎勵函數,或者受限於有限的提示,這限制了它們的可擴展性和適用性。在本文中,我們提出了一種名為Free^2Guide的新型無梯度框架,用於將生成的視頻與文本提示對齊,而無需額外的模型訓練。通過利用路徑積分控制原則,Free^2Guide使用不可微的獎勵函數來近似擴散模型的引導,從而實現將強大的黑盒大視覺語言模型(LVLMs)集成為獎勵模型。此外,我們的框架支持多個獎勵模型的靈活集成,包括大規模基於圖像的模型,以協同增強對齊而不會帶來重大的計算開銷。我們展示了Free^2Guide在各個維度上顯著改善了文本對齊,並增強了生成視頻的整體質量。
在信息過載的時代,手動標註龐大且不斷增長的文檔和學術論文已變得越來越不切實際。自動關鍵詞提取通過識別文本中的代表性詞語來應對這一挑戰。然而,大多數現有方法專注於短文檔(最多512個標記),這導致長文檔處理存在空白。在本文中,我們介紹了LongKey,這是一個從冗長文檔中提取關鍵詞的新框架,它使用基於編碼器的語言模型來捕捉擴展文本的細微差異。LongKey使用最大池化嵌入器來增強關鍵詞候選表示。在全面的LDKP數據集和六個多樣的未見數據集上驗證後,LongKey始終優於現有的無監督和基於語言模型的關鍵詞提取方法。我們的研究結果展示了LongKey的多功能性和卓越性能,標誌著在不同文本長度和領域的關鍵詞提取方面的進步。
最近大型語言模型(LLM)在醫學多項選擇題(MCQ)基準上的表現進步,引起了全球醫療服務提供者和患者的興趣。特別是在面臨急需醫師和專家短缺的低收入和中等收入國家(LMICs),LLMs提供了一個潛在的可擴展途徑,以增強醫療保健的可及性並降低成本。然而,它們在全球南方地區,尤其是整個非洲大陸的效果仍有待確立。在這項工作中,我們介紹了AfriMed-QA,這是第一個大規模的泛非洲英語多專業醫學問答(QA)數據集,包含來自16個國家的60多所醫學院提供的15,000個問題(開放式和封閉式),涵蓋32個醫學專業。我們進一步評估了30個LLM在多個方面的表現,包括正確性和人口偏見。我們的研究結果顯示,在不同專業和地理位置之間存在顯著的表現差異,MCQ表現明顯落後於USMLE(MedQA)。我們發現生物醫學LLM的表現不如通用模型,而較小的邊緣友好型LLM難以達到及格分數。有趣的是,人類評估顯示,與臨床醫生的答案相比,人們一致偏好LLM的答案和解釋。