AI研究論文每日精選

每日精選AI研究論文及翻譯

章魚 v2：用於超級代理的設備端語言模型
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

語言模型在各種軟體應用中展現出效能，尤其在與自動工作流相關的任務中。這些模型具有關鍵的能力來呼叫函數，這對於創建人工智慧代理是至關重要的。儘管大規模語言模型在雲端環境中表現出色，但常常伴隨著隱私和成本方面的擔憂。目前用於函數呼叫的設備內模型面臨延遲和準確性問題。我們的研究提出了一種新方法，使得具有 20 億參數的設備內模型在準確性和延遲方面均超越了 GPT-4，並將上下文長度減少了 95%。與基於 RAG 的函數呼叫機制的 Llama-7B 相比，我們的方法將延遲提高了 35 倍。這種方法將延遲降低到被認為適用於在生產環境中部署各種邊緣設備的水準，符合真實應用的性能要求。

利用偏好樹推進LLM推理通才
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

我們介紹了Eurus，一套針對推理進行優化的大型語言模型（LLMs）。從Mistral-7B和CodeLlama-70B進行微調後，Eurus模型在涵蓋數學、代碼生成和邏輯推理問題的各種基準測試中取得了開源模型的最新成果。值得注意的是，Eurus-70B在通過12個測試涵蓋五個任務的全面基準測試中，在推理方面擊敗了GPT-3.5 Turbo，並在LeetCode和TheoremQA這兩個具有挑戰性的基準測試中實現了33.3%和32.6%的一次通過準確率，遠遠優於現有開源模型超過13.3%的差距。Eurus的優異表現主要歸因於UltraInteract，我們新編制的大規模高質量對齊數據集，專門為複雜推理任務而設計。UltraInteract可用於監督微調和偏好學習。對於每個指令，它包括一個偏好樹，其中包含統一格式的多樣化規劃策略的推理鏈、與環境和評論的多輪交互軌跡，以及促進偏好學習的成對數據。UltraInteract使我們能夠深入探索推理任務的偏好學習。我們的研究表明，一些成熟的偏好學習算法在推理任務中可能不如它們在一般對話中的有效性。受此啟發，我們提出了一個新穎的獎勵建模目標，該目標連同UltraInteract，導致一個強大的獎勵模型。

長文本上下文語言模型在長篇內容學習方面遇到困難。
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

大型語言模型（LLMs）在處理超過32K標記的長序列方面取得了顯著進展。然而，它們的性能評估主要僅限於困惑度和合成任務等指標，這可能無法完全捕捉它們在更微妙、現實世界情境中的能力。本研究引入了一個專門的基準（LIConBench），專注於極端標籤分類領域內的長上下文學習。我們精心挑選了六個資料集，標籤範圍涵蓋28至174個類別，涵蓋了不同輸入（少樣本演示）長度，從2K到50K不等。我們的基準要求LLMs理解整個輸入以識別龐大的標籤空間，以做出正確的預測。我們在我們的基準上評估了13個長上下文LLMs。我們發現，在標記長度為20K以下時，長上下文LLMs表現相對良好，並且從利用長上下文窗口中受益。然而，當上下文窗口超過20K後，除了GPT-4外，大多數LLMs的性能會急劇下降。這表明了目前LLMs在處理和理解長、上下文豐富序列方面存在顯著差距。進一步分析顯示，模型傾向於偏好對序列末尾呈現的標籤進行預測。它們在長序列中推理多個部分的能力仍有待改進。我們的研究顯示，現有LLMs對長上下文的理解和推理仍然是一項具有挑戰性的任務。我們認為LIConBench可能成為未來長上下文LLMs更現實的評估基準。

LLaVA-Gemma：利用緊湊語言模型加速多模基礎模型
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

我們使用最新發布的大型語言模型（LLMs）系列Gemma家族，利用流行的LLaVA框架訓練一套多模態基礎模型（MMFM）。特別關注的是擁有2B參數的Gemma模型，為構建功能強大的小型規模MMFM提供機會。與此領域其他論文的發現一致，我們測試了消除三個設計特徵的影響：預訓練連接器、使用更強大的影像主幹，以及增加語言主幹的大小。我們稱之為LLaVA-Gemma的結果模型在各種評估中表現中等，但未能超越當前相當大小的SOTA模型。對性能的進一步分析顯示出混合效應；跳過預訓練往往會降低性能，更大的視覺模型有時會提高性能，增加語言模型的大小則效果不一。我們公開發布了LLaVA-Gemma模型的訓練配方、代碼和權重。

HyperCLOVA X 技術報告
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

我們介紹了HyperCLOVA X，這是一系列針對韓國語言和文化量身定制的大型語言模型（LLMs），同時具有在英語、數學和編碼方面的競爭能力。HyperCLOVA X是通過平衡的韓語、英語和代碼數據進行訓練的，隨後通過高質量的人工標註數據進行調整，同時遵守嚴格的安全指南，體現了我們對負責任人工智能的承諾。這個模型在各種基準測試中進行評估，包括全面的推理、知識、常識、事實性、編碼、數學、聊天、遵循指示和無害性，在韓語和英語中均有表現。HyperCLOVA X展現了在韓語中強大的推理能力，背後是對語言和文化細微差異的深刻理解。對其固有的雙語特性進行進一步分析，以及其擴展到多語能力，突顯了模型的跨語言能力和對非目標語言的強大泛化能力，包括幾種語言對之間的機器翻譯和跨語言推理任務。我們相信HyperCLOVA X可以為各地區或國家在發展其主權LLMs方面提供有益指導。

CameraCtrl：啟用攝影機控制以進行文本到視頻生成
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

在視頻生成中，可控性扮演著至關重要的角色，因為它使用戶能夠創建所需的內容。然而，現有模型很大程度上忽視了精確控制作為表達更深層敘事細微差異的電影語言的相機姿勢。為了緩解這個問題，我們引入了CameraCtrl，實現了對文本到視頻(T2V)模型的相機姿勢進行精確控制。通過精確地對相機軌跡進行參數化，然後在T2V模型上訓練一個即插即用的相機模塊，而不影響其他部分。此外，還進行了對各種數據集影響的全面研究，表明具有不同相機分佈和相似外觀的視頻確實增強了可控性和泛化能力。實驗結果證明了CameraCtrl在實現精確和領域自適應相機控制方面的有效性，標誌著在從文本和相機姿勢輸入實現動態和定制視頻敘事的追求中邁出了一步。我們的項目網站位於: https://hehao13.github.io/projects-CameraCtrl/.

大小並非總是更好：潛在擴散模型的尺度特性
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

我們研究潛在擴散模型（LDMs）的擴展特性，著重於它們的取樣效率。儘管改進的網絡架構和推理算法已被證明能有效提升擴散模型的取樣效率，但模型大小這一關鍵取樣效率決定因素尚未受到深入研究。通過對已建立的文本到圖像擴散模型進行實證分析，我們深入探討模型大小如何影響在不同取樣步驟下的取樣效率。我們的研究發現揭示了一個令人驚訝的趨勢：在給定推理預算下運作時，較小的模型經常優於其較大的對應模型在生成高質量結果方面。此外，我們擴展了我們的研究，通過應用各種擴散取樣器、探索不同的下游任務、評估後蒸餾模型，以及相對於訓練計算的性能比較，來展示這些發現的普遍性。這些發現為LDM擴展策略的發展開辟了新途徑，這些策略可用於在有限的推理預算內增強生成能力。

大型語言模型是否是超人類化學家？
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

大型語言模型（LLMs）因其處理人類語言並執行未經明確訓練的任務的能力而引起廣泛興趣。這對化學科學具有相關性，因為該領域面臨著小型且多樣的數據集問題，這些數據集通常以文本形式存在。LLMs已顯示出在應對這些問題方面具有潛力，並越來越多地被利用來預測化學性質、優化反應，甚至自主設計和執行實驗。然而，我們對LLMs的化學推理能力仍然只有非常有限的系統性了解，這將需要以改進模型並減輕潛在危害為目的。在這裡，我們介紹了一個名為「ChemBench」的自動化框架，旨在嚴格評估最先進的LLMs的化學知識和推理能力，並與人類化學家的專業知識進行比較。我們為化學科學的各個子領域精心挑選了超過7,000個問答對，評估了領先的開源和封閉源LLMs，發現在我們的研究中，最佳模型平均表現優於最優秀的人類化學家。然而，這些模型在一些對人類專家來說輕而易舉的化學推理任務上遇到困難，並提供過於自信且具有誤導性的預測，例如有關化學物質的安全性檔案。這些發現強調了一個雙重現實，即儘管LLMs在化學任務上表現出色，但進一步的研究對於增強它們在化學科學中的安全性和實用性至關重要。我們的研究結果還表明，需要對化學課程進行調整，並強調繼續發展評估框架以改進安全且有用的LLMs的重要性。

Poro 34B 與多語能力的祝福
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

目前，頂尖大型語言模型的預訓練需要數以兆計的文字，這遠遠超過大多數語言所能提供的量。雖然將多種語言的文字納入是獲取更多預訓練數據的明顯途徑，但多語性通常被視為一種詛咒，大多數模型訓練工作仍然主要專注於單個大型語言。我們認為多語性可以是一種福祉，並且應該能夠通過多語訓練大幅提升小語言模型的能力。在這項研究中，我們介紹了Poro 34B，這是一個擁有340億參數的模型，經過了1兆個芬蘭語、英語和編程語言的標記訓練。我們展示了多語訓練方法可以產生一個模型，不僅在芬蘭語方面明顯超越現有模型的能力，而且在翻譯方面表現出色，在生成英語和編程語言方面也具有競爭力。我們在https://huggingface.co/LumiOpen/Poro-34B 釋出了模型參數、腳本和數據，並採用開放許可證。

3D 凝聚：野外的 3D 感知影像對齊
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

我們提出了3D凝聚，這是一個針對捕捉具有語義相似物體的2D圖像進行3D感知對齊的新問題。給定一組未標記的互聯網圖像，我們的目標是從輸入中關聯共享的語義部分，並將來自2D圖像的知識聚合到共享的3D標準空間中。我們引入了一個通用框架，該框架處理該任務，而無需假設形狀模板、姿勢或任何攝像機參數。其核心是一個包含幾何和語義信息的標準3D表示。該框架針對每個輸入圖像的標準表示進行優化，以及一個逐圖像坐標映射，將2D像素坐標轉換為3D標準幀，以考慮形狀匹配。優化過程融合了來自預先訓練的圖像生成模型的先前知識和來自輸入圖像的語義信息。前者為這個受限任務提供了強大的知識指導，而後者提供了必要的信息，以減輕來自預先訓練模型的訓練數據偏差。我們的框架可用於各種任務，如對應匹配、姿勢估計和圖像編輯，在具有挑戰性的照明條件下以及在野外在線圖像集合上實現強大的結果。

LLM-ABR：透過大型語言模型設計適應性比特率算法
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

我們提出了LLM-ABR，這是第一個利用大型語言模型（LLMs）的生成能力來自主設計適應不同網絡特性的自適應位元率（ABR）算法的系統。在強化學習框架內運行，LLM-ABR賦予LLMs設計關鍵組件，如狀態和神經網絡架構的能力。我們在不同網絡環境下評估LLM-ABR，包括寬頻、衛星、4G和5G。LLM-ABR在各種網絡設置中始終優於默認的ABR算法。

AI研究論文每日精選

每日精選AI研究論文及翻譯