每日精選AI研究論文及翻譯
開發穩健且可糾正的視覺運動策略,用於機器人操作是具有挑戰性的,因為缺乏從失敗中自我恢復的機制,以及簡單語言指令在引導機器人行動方面的限制。為了應對這些問題,我們提出了一個可擴展的數據生成流程,該流程會自動將專家示範與失敗恢復軌跡和精細的語言標註進行擴充,以供訓練使用。然後,我們介紹了富語言引導失敗恢復(RACER),這是一個監督者-演員框架,將失敗恢復數據與豐富的語言描述相結合,以增強機器人控制。RACER具有一個視覺語言模型(VLM),作為在線監督者,提供詳細的語言指導以進行錯誤糾正和任務執行,以及一個以語言為條件的視覺運動策略作為演員,來預測下一步動作。我們的實驗結果表明,RACER在RLbench上各種評估設置中均優於最先進的機器人視圖轉換器(RVT),包括標準長視野任務、動態目標更改任務和零樣本未見任務,在模擬和真實世界環境中均實現了卓越的性能。視頻和代碼可在以下網址獲得:https://rich-language-failure-recovery.github.io。
大型語言模型(LLMs)展現出在各個領域和任務中的卓越能力,推動了我們在學習和認知方面知識的邊界。最新的模型,OpenAI的o1,以內部化的思維鏈技術和使用強化學習策略而脫穎而出。儘管在各種通用語言任務上展現出驚人的能力,但其在醫學等專業領域的表現仍然未知。為此,本報告對o1在不同醫學場景上進行了全面探索,檢視了三個關鍵方面:理解、推理和多語能力。具體而言,我們的評估包括了6個任務,使用了來自37個醫學數據集的數據,其中包括兩個基於《新英格蘭醫學雜誌》(NEJM)和《柳葉刀》的專業醫學測驗所構建的更具挑戰性的問答(QA)任務。這些數據集與標準醫學QA基準(如MedQA)相比,具有更大的臨床相關性,更有效地轉化為現實世界的臨床效用。我們對o1的分析表明,LLMs的增強推理能力可能(顯著地)有助於其理解各種醫學指示並推理複雜的臨床場景。值得注意的是,o1在19個數據集和兩個新創建的複雜QA場景中平均準確率分別超過了先前的GPT-4 6.2%和6.6%。但與此同時,我們發現了模型能力和現有評估協議中的一些弱點,包括幻覺、多語能力不一致以及評估指標的差異。我們將我們的原始數據和模型輸出發布在https://ucsc-vlaa.github.io/o1_medicine/,供未來研究使用。
視覺指導調整的成功加速了大型語言和視覺模型(LLVMs)的發展。遵循調整過的大型語言模型(LLMs)的擴展法則,LLVMs進一步增加了其大小,達到了26B、34B,甚至80B個參數。儘管模型大小的增加帶來了顯著的性能提升,但這要求在訓練和推理方面需要更多的硬體資源。因此,自然存在著對於能夠在尺寸更小的情況下實現更大型模型性能的高效LLVMs的強烈需求。為了滿足這一需求,我們提出了一個新的高效LLVM家族,模型大小為0.5B、1.8B、3.8B和7B個參數,名為Phantom,它在有限結構中顯著增強了學習能力。通過在多頭自注意力(MHSA)期間暫時增加潛在的隱藏維度,我們使LLVMs準備在潛在層面上查看和理解更多的視覺語言知識,而不會顯著增加實際模型大小。為了最大化其優勢,我們引入了Phantom優化(PO),使用自回歸監督微調(SFT)和直接偏好優化(DPO)-類似概念,有效地遵循正確答案,同時消除不正確和模棱兩可的答案。Phantom在眾多更大型的開源和封閉源LLVMs中表現優異,將其定位為高效LLVMs領域中的領先解決方案。
本文介紹了一個多功能的圖像對圖像視覺助手 PixWizard,旨在基於自由形式的語言指令進行圖像生成、操作和翻譯。為此,我們將各種視覺任務統一到一個圖像-文本-圖像生成框架中,並編輯了一個全像素指令調整數據集。通過在自然語言中構建詳細的指令模板,我們全面包含了大量多樣的視覺任務,如文本到圖像生成、圖像恢復、圖像定位、密集圖像預測、圖像編輯、可控生成、修補/補全等。此外,我們採用擴散Transformer(DiT)作為基礎模型,並通過靈活的任意解析度機制擴展其功能,使模型能夠根據輸入的長寬比動態處理圖像,與人類感知過程密切對齊。該模型還融合了結構感知和語義感知指導,以促進從輸入圖像中信息的有效融合。我們的實驗表明,PixWizard 不僅展示了對具有不同解析度的圖像具有令人印象深刻的生成和理解能力,還展現了對未見任務和人類指令具有有前景的泛化能力。代碼和相關資源可在 https://github.com/AFeng-x/PixWizard 上找到。
大型語言模型(LLMs)已展示在轉化臨床應用方面具有顯著潛力。本研究探討了四種技術在適應LLMs用於臨床用例時的效力:持續預訓練、指導微調、NEFTune和提示工程。我們在Mistral 7B和Mixtral 8x7B模型上應用這些方法,利用一個包含500億令牌的大規模臨床預訓練數據集和一個包含5億令牌的指導微調數據集。我們在各種臨床任務上的評估顯示了每種技術的影響。雖然超過2500億令牌的持續預訓練本身僅帶來輕微改進,但它為指導微調奠定了堅實基礎。值得注意的是,NEFTune主要設計用於提高生成質量,但在我們的基準上驚人地展現了額外的增益。複雜的提示工程方法進一步提升了性能。這些發現顯示了量身定制微調策略和探索創新技術以優化LLMs在臨床領域性能的重要性。
我們致力於使用基於擴散的生成模型來生成高度逼真和合理的鏡像反射問題。我們將這個問題定義為圖像修補任務,允許在生成過程中更多地控制鏡子的放置。為了實現這一點,我們創建了SynMirror,這是一個大規模的數據集,其中包含在鏡子前放置物體的各種合成場景。SynMirror包含約198K個樣本,從66K個獨特的3D物體渲染而來,還包括它們相應的深度圖、法線圖和實例分割遮罩,以捕捉場景的相關幾何特性。利用這個數據集,我們提出了一種新穎的深度條件修補方法,稱為MirrorFusion,它可以生成高質量、幾何一致且照片逼真的鏡像反射,只需提供輸入圖像和描述鏡子區域的遮罩。通過廣泛的定量和定性分析,MirrorFusion在SynMirror上表現優於最先進的方法。據我們所知,我們是第一個成功應用基於擴散的模型解決生成場景中物體的受控和忠實的鏡像反射問題的研究者。SynMirror和MirrorFusion為從業者和研究人員開闢了圖像編輯和擴增實境應用的新途徑。
最近在反渲染方面的研究表明,使用物体的多视图图像恢复形状、反照率和材质具有潜力。然而,由于从输入图像中分离反照率和材质属性的固有挑战,恢复的组件通常无法在新的光照条件下准确渲染。为了解决这一挑战,我們引入了MaterialFusion,这是一种增强的传统3D反渲染流程,结合了对纹理和材质属性的2D先验。我们提出了StableMaterial,这是一个2D扩散模型先验,可以优化多光照数据,从给定的输入外观中估计最可能的反照率和材质。该模型是在一个由约12K个艺术家设计的合成Blender对象组成的策划数据集BlenderVault上训练的,其中包括反照率、材质和重新照明图像数据。我们将这种扩散先验与反渲染框架相结合,使用得分蒸馏采样(SDS)来引导反照率和材质的优化,提高了与先前工作相比的重新照明性能。我们验证了MaterialFusion在4个合成和真实对象数据集上在不同照明条件下的重新照明性能,展示了我们的扩散辅助方法显著改善了在新的光照条件下重建对象的外观。我们打算公开发布我们的BlenderVault数据集,以支持这一领域的进一步研究。
ChatGPT 於 2022 年 11 月的發布引發了對後訓練的極大興趣,也帶來了大量新的偏好優化(PO)方法。這些方法聲稱通過與人類兩兩偏好更好地對應,通常由 LLM 評審來衡量,從而獲得更優異的對齊性。在這份工作中,我們試圖回答以下問題 -- LLM 評審的偏好是否能轉化為對其他更具體的對齊度指標的進展,如果不能,原因是什麼?我們為對齊度定義了一個具體的指標,並介紹了迄今為止最大的標準化、可重現的 LLM 元基準 SOS-Bench。我們發現:(1)LLM 評判與安全性、世界知識和指示遵循等具體度量指標沒有相關性;(2)LLM 評審存在強大的隱含偏見,將風格置於事實和安全性之上;以及(3)後訓練的監督微調(SFT)階段,而非 PO 階段,對對齊度有最大影響,其中數據規模和提示多樣性是主要驅動因素。我們的代碼庫和完整結果可在 https://github.com/penfever/sos-bench 找到。
本文介紹了一個零-shot 聲音轉換(Voice Transfer, VT)模組,可以無縫地整合到多語言文本轉語音(Text-to-speech, TTS)系統中,跨語言轉換個人的聲音。我們提出的 VT 模組包括一個處理參考語音的說話者編碼器、一個瓶頸層和連接到現有 TTS 層的殘差適配器。我們比較了這些組件的各種配置的性能,並報告了跨語言的平均意見分數(Mean Opinion Score, MOS)和說話者相似度。使用每位說話者一個英語參考語音,我們在九種目標語言中實現了平均聲音轉換相似度得分為73%。聲音特徵對於個人身份的構建和感知有著重要影響。由於生理或神經狀況的原因而失去自己的聲音可能導致對核心身份的深刻失落感。作為一個案例研究,我們展示了我們的方法不僅可以轉換典型語音,還可以恢復患有言語遲緩症的個人的聲音,即使只有非典型的語音樣本可用 - 對於從未有過典型語音或存儲自己聲音的人來說,這是一個有價值的工具。跨語言典型音頻樣本,以及展示對言語遲緩症患者進行聲音恢復的視頻,可在此處找到(google.github.io/tacotron/publications/zero_shot_voice_transfer)。
打造一個單一且多用途的基於物理的控制器,能夠賦予互動角色生命,跨越各種場景的廣泛範疇,代表著角色動畫領域中一個令人興奮的前沿。理想的控制器應該支持多樣的控制模式,例如稀疏的目標關鍵影格、文字指令和場景信息。雖然先前的研究提出了基於物理模擬、場景感知的控制模型,這些系統主要專注於開發每個專精於狹窄任務和控制模式的控制器。本研究提出了一種新方法MaskedMimic,將基於物理的角色控制定義為一個通用運動修補問題。我們的關鍵見解是訓練一個統一的模型,從部分(遮罩)運動描述中合成動作,例如遮罩關鍵影格、物件、文字描述或任何組合。通過利用運動追踪數據並設計一種可擴展的訓練方法,能夠有效利用多樣的運動描述來生成連貫的動畫。通過這個過程,我們的方法學習了一個基於物理的控制器,提供直觀的控制界面,無需為所有感興趣的行為進行繁瑣的獎勵工程。所得的控制器支持廣泛的控制模式,並實現不同任務之間的無縫過渡。通過運動修補將角色控制統一起來,MaskedMimic創造了多才多藝的虛擬角色。這些角色可以動態適應複雜場景,根據需求組合不同的動作,實現更具互動性和身臨其境的體驗。
糖尿病是一種慢性疾病,對全球健康造成重大負擔,優化糖尿病管理需要多方合作。大型語言模型(LLMs)在各種醫療場景中顯示出潛力,但它們在各種糖尿病任務中的有效性尚未得到證實。在本研究中,我們介紹了一個框架來訓練和驗證糖尿病特定的LLMs。我們首先開發了一個包括數據收集、過濾、擴增和精煉的全面數據處理管道。這種方法有助於創建高質量的糖尿病特定數據集,以及從頭開始建立幾個評估基準。利用收集的訓練數據集,我們對糖尿病特定的LLM家族進行了微調,相較於其他LLMs,展示了在理解和處理各種糖尿病任務方面的最新專業知識。此外,臨床研究顯示了我們模型在糖尿病護理中的潛在應用,包括提供個性化醫療、協助醫學教育和簡化臨床任務。總之,我們的研究介紹了一個框架來開發和評估糖尿病特定的LLM家族,並突顯了它在增強臨床實踐和為面對不同最終用戶時提供個性化、數據驅動的糖尿病支持方面的潛力。代碼可通過GitHub提供,網址為https://github.com/waltonfuture/Diabetica。
目前越來越多人對使用生成式人工智慧來創建三維空間,用於虛擬實境(VR)應用感興趣。然而,如今的模型生成人工環境,無法支援需要整合使用者物理背景的協作任務。為了生成支援VR遠程存在的環境,我們引入了SpaceBlender,這是一個新穎的流程,利用生成式人工智慧技術將使用者的物理環境融入統一的虛擬空間中。該流程通過深度估計、網格對齊和擴散式空間完成的迭代過程,引導幾何先驗和適應性文本提示,將使用者提供的二維圖像轉換為充滿上下文的三維環境。在一項初步的受試者內研究中,20名參與者成對執行協作的VR親和圖表任務,我們將SpaceBlender與通用虛擬環境和最先進的場景生成框架進行比較,評估其創建適合協作的虛擬空間的能力。參與者讚賞SpaceBlender提供的增強熟悉感和上下文,但也指出生成環境中的複雜性可能會分散任務的注意力。根據參與者的反饋,我們提出改進流程的方向,並討論混合空間對不同情境的價值和設計。
本文提出了一項由OpenAI最新推出的推理模型o1-preview和o1-mini進行編碼任務的案例研究,並將其與其他前沿模型進行比較。o1模型在WebApp1K這個單任務基準測試中取得了領先水準的結果。為此,我們引入了WebApp1K-Duo,一個更難的基準測試,加倍了任務數量和測試案例。這個新基準測試導致o1模型的表現顯著下降,落後於Claude 3.5。此外,當面臨非典型但正確的測試案例時,它們經常失敗,這是非推理模型偶爾會避免的陷阱。我們假設表現的變異性是由於指令理解能力不足所致。具體來說,當所有期望被捕捉時,推理機制會提高性能,同時當關鍵期望被忽略時,會加劇錯誤,這可能受到輸入長度的影響。因此,我們認為推理模型在編碼成功方面取決於頂尖的基礎模型和SFT,以確保對指令的細緻遵循。
語音聲音傳達了大量有關場景的信息,導致各種效果,從混響到額外的環境聲音。在本文中,我們通過操縱輸入語音,使其聽起來彷彿是在不同場景中錄製的,給定了從該場景中錄製的音視條件示例。我們的模型通過自我監督學習,利用自然視頻包含重複出現的聲音事件和紋理的事實。我們從視頻中提取音頻片段並應用語音增強。然後,我們訓練一個潛在擴散模型來恢復原始語音,使用另一個從視頻中的其他位置取出的音視頻片段作為條件提示。通過這個過程,模型學會將條件示例的聲音特性轉移到輸入語音。我們展示了我們的模型可以成功地使用未標記的野外視頻進行訓練,並且額外的視覺信號可以提高其聲音預測能力。請查看我們的項目網頁以獲取視頻結果:https://tinglok.netlify.app/files/avsoundscape/