HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

11 papers found

Octopus v2: スーパーエージェントのためのオンデバイス言語モデル
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

言語モデルは、特に自動ワークフロー関連のタスクにおいて、様々なソフトウェアアプリケーションで有効性を示しています。これらのモデルは、AIエージェントの作成に不可欠な関数呼び出し能力を備えています。大規模言語モデルはクラウド環境で高い性能を発揮しますが、プライバシーやコストに関する懸念がしばしば伴います。現在のオンデバイスモデルは、関数呼び出しにおいてレイテンシと精度の問題に直面しています。本研究では、20億パラメータのオンデバイスモデルが、精度とレイテンシの両面でGPT-4を上回り、コンテキスト長を95％削減する新手法を提案します。RAGベースの関数呼び出しメカニズムを備えたLlama-7Bと比較すると、本手法はレイテンシを35倍改善します。この手法により、実環境でのアプリケーションに適した性能要件を満たしつつ、様々なエッジデバイスへの展開に適したレイテンシレベルを実現します。

選好ツリーを用いたLLM推論ジェネラリストの進化
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

我々は、推論に最適化された大規模言語モデル（LLM）群であるEurusを紹介する。Mistral-7BとCodeLlama-70BをファインチューニングしたEurusモデルは、数学、コード生成、論理推論問題を含む多様なベンチマークにおいて、オープンソースモデルの中で最先端の結果を達成している。特に、Eurus-70Bは、5つのタスクをカバーする12のテストを通じた包括的なベンチマークにおいて、GPT-3.5 Turboを推論能力で上回り、LeetCodeでは33.3%、TheoremQAでは32.6%のpass@1精度を達成し、既存のオープンソースモデルを13.3%以上の差で大幅に凌駕している。Eurusの強力な性能は、主に複雑な推論タスクに特化して設計された新たにキュレーションされた大規模で高品質なアライメントデータセットであるUltraInteractに起因している。UltraInteractは、教師ありファインチューニングと選好学習の両方に使用できる。各指示に対して、統一フォーマットでの多様な計画戦略を含む推論チェーン、環境と批評との多段階インタラクショントラジェクトリ、選好学習を促進するためのペアワイズデータを含む選好ツリーを備えている。UltraInteractにより、推論タスクにおける選好学習の詳細な探求が可能となる。我々の調査から、一般的な会話における有効性と比較して、いくつかの確立された選好学習アルゴリズムが推論タスクにはあまり適していない可能性があることが明らかになった。これに着想を得て、我々は新しい報酬モデリング目的関数を導出し、UltraInteractと組み合わせることで強力な報酬モデルを実現した。

長文脈LLMは長文脈内学習に苦戦する
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

大規模言語モデル（LLMs）は、32Kトークンを超える長いシーケンスの処理において大きな進展を遂げてきた。しかし、その性能評価は、主にパープレキシティや合成タスクなどの指標に限定されており、より微妙な現実世界のシナリオにおける能力を十分に捉えていない可能性がある。本研究では、極端なラベル分類の領域における長い文脈内学習に焦点を当てた専門的なベンチマーク（LIConBench）を導入する。我々は、28から174クラスに及ぶラベル範囲をカバーし、入力（few-shotデモンストレーション）の長さが2Kから50Kまでの6つのデータセットを慎重に選定した。本ベンチマークでは、LLMsが大規模なラベル空間を認識し、正しい予測を行うために、入力全体を理解することを要求する。我々は、13の長文脈LLMsをこのベンチマークで評価した。その結果、20Kトークン以下の長さでは、長文脈LLMsは比較的良好な性能を示し、長い文脈ウィンドウを活用することで性能が向上することがわかった。しかし、文脈ウィンドウが20Kを超えると、GPT-4を除くほとんどのLLMsの性能が劇的に低下する。これは、現在のLLMsが長く文脈豊かなシーケンスを処理し理解する能力に顕著なギャップがあることを示唆している。さらに分析を行った結果、モデルがシーケンスの後半に提示されたラベルを優先して予測する傾向があることが明らかになった。長いシーケンス内の複数の情報を推論する能力はまだ改善の余地がある。本研究は、長い文脈の理解と推論が既存のLLMsにとって依然として困難な課題であることを明らかにした。LIConBenchは、将来の長文脈LLMsのより現実的な評価として役立つと我々は考えている。

LLaVA-Gemma: コンパクトな言語モデルによるマルチモーダル基盤モデルの高速化
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

我々は、最近リリースされたGemmaファミリーの大規模言語モデル（LLM）を用いて、人気のLLaVAフレームワークでマルチモーダル基盤モデル（MMFM）のスイートをトレーニングしました。特に注目すべきは、2BパラメータのGemmaモデルで、これにより小規模ながら有能なMMFMを構築する機会が得られます。この分野の他の論文の知見に沿って、3つの設計要素を除去した場合の効果をテストしました：コネクタの事前学習、より強力な画像バックボーンの利用、言語バックボーンのサイズ増加です。その結果得られたモデルをLLaVA-Gemmaと呼び、一連の評価において中程度の性能を示しましたが、現在の同規模のSOTAモデルを超える改善は見られませんでした。性能の詳細な分析では、混合された効果が確認されました：事前学習をスキップすると性能が低下する傾向があり、より大きな視覚モデルは時々性能を向上させ、言語モデルのサイズを増やすと一貫しない効果が見られました。我々は、LLaVA-Gemmaモデルのトレーニングレシピ、コード、および重みを公開します。

HyperCLOVA X 技術レポート
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

韓国語と韓国文化に特化し、英語、数学、コーディングにおいても競争力を持つ大規模言語モデル（LLM）ファミリーであるHyperCLOVA Xを紹介します。HyperCLOVA Xは、韓国語、英語、コードデータのバランスの取れた混合データでトレーニングされ、その後、高品質な人間による注釈データセットを用いた指示チューニングが行われました。これらは、責任あるAIへの取り組みを反映した厳格な安全ガイドラインに従って実施されました。本モデルは、韓国語と英語の両方において、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害性など、さまざまなベンチマークで評価されています。HyperCLOVA Xは、韓国語における深い言語理解と文化的ニュアンスに支えられた強力な推論能力を示しています。さらに、内在する二言語性とその多言語化への拡張を分析することで、本モデルの言語間の熟達度と、機械翻訳や言語間推論タスクを含む、ターゲット外の言語に対する強力な一般化能力が明らかになりました。HyperCLOVA Xは、地域や国が独自の主権的LLMを開発する際に有用なガイダンスを提供できると考えています。

CameraCtrl: テキストから動画生成におけるカメラ制御の実現
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

制御可能性は、ユーザーが望むコンテンツを作成できるようにするため、ビデオ生成において重要な役割を果たします。しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画的な言語として機能するカメラポーズの精密な制御をほとんど考慮していませんでした。この問題を解決するため、私たちはCameraCtrlを導入し、テキストからビデオ（T2V）モデルに対する正確なカメラポーズ制御を可能にします。カメラ軌跡を精密にパラメータ化した後、プラグアンドプレイのカメラモジュールをT2Vモデル上でトレーニングし、他の部分はそのままにします。さらに、さまざまなデータセットの影響に関する包括的な研究も行い、多様なカメラ分布と類似した外観を持つビデオが、実際に制御可能性と汎化性能を向上させることを示唆しています。実験結果は、CameraCtrlが精密でドメイン適応的なカメラ制御を達成する有効性を実証し、テキストとカメラポーズの入力から動的でカスタマイズされたビデオストーリーテリングを追求するための一歩前進を示しています。私たちのプロジェクトウェブサイトはこちらです：https://hehao13.github.io/projects-CameraCtrl/。

大きければ良いとは限らない：潜在拡散モデルのスケーリング特性
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

潜在拡散モデル（LDMs）のスケーリング特性について、特にそのサンプリング効率に焦点を当てて研究を行いました。ネットワークアーキテクチャや推論アルゴリズムの改善が拡散モデルのサンプリング効率を効果的に向上させることが示されていますが、サンプリング効率の重要な決定要因であるモデルサイズの役割は十分に検証されていませんでした。確立されたテキストから画像への拡散モデルを実証的に分析し、モデルサイズがさまざまなサンプリングステップにわたってサンプリング効率にどのように影響するかを詳細に調査しました。その結果、驚くべき傾向が明らかになりました：与えられた推論予算の下で動作する場合、より小さなモデルがより大きな同等モデルを上回り、高品質な結果を生成することが頻繁に観察されたのです。さらに、この知見の一般化可能性を実証するために、さまざまな拡散サンプラーを適用し、多様な下流タスクを探索し、蒸留後のモデルを評価し、トレーニング計算量に対する相対的な性能を比較するなど、研究を拡張しました。これらの発見は、限られた推論予算内で生成能力を向上させるために活用できるLDMスケーリング戦略の開発に向けた新たな道筋を開くものです。

大規模言語モデルは超人的な化学者なのか？
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

大規模言語モデル（LLMs）は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力により、広く注目を集めています。これは、テキスト形式で頻繁に存在する小さく多様なデータセットに直面している化学科学にとって関連性があります。LLMsはこれらの問題に対処する可能性を示しており、化学的特性の予測、反応の最適化、さらには自律的に実験を設計・実施するためにますます活用されています。しかし、LLMsの化学的推論能力についての体系的な理解はまだ非常に限られており、モデルを改善し潜在的な害を軽減するためにはこれが必要です。ここでは、最先端のLLMsの化学知識と推論能力を人間の化学者の専門知識に対して厳密に評価するために設計された自動化フレームワーク「ChemBench」を紹介します。化学科学の幅広い分野にわたる7,000以上の質問-回答ペアをキュレーションし、主要なオープンソースおよびクローズドソースのLLMsを評価した結果、最良のモデルが平均して最良の人間の化学者を上回ることがわかりました。ただし、モデルは人間の専門家にとって簡単な一部の化学的推論タスクに苦戦し、化学物質の安全性プロファイルに関する過信した誤解を招く予測を提供することがあります。これらの発見は、LLMsが化学タスクで驚くべき熟練度を示す一方で、化学科学における安全性と有用性を向上させるためのさらなる研究が重要であるという二重の現実を強調しています。また、化学カリキュラムの適応の必要性を示し、安全で有用なLLMsを改善するための評価フレームワークの継続的な開発の重要性を強調しています。

Poro 34Bと多言語性の恩恵
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

最先端の大規模言語モデルの事前学習には、現在、数兆語のテキストが必要とされており、これは大多数の言語で利用可能なデータ量を桁違いに上回っています。複数の言語のテキストを含めることは、より多くの事前学習データを取得するための明白な方法ですが、多言語性はしばしば「呪い」と見なされ、ほとんどのモデル学習の取り組みは、依然として個々の大規模言語にほぼ独占的に焦点を当てています。私たちは、多言語性は「祝福」となり得ると信じており、多言語学習を通じて、小規模言語における単一言語モデルの能力を大幅に向上させることが可能であると考えています。本研究では、フィンランド語、英語、およびプログラミング言語の1兆トークンで学習された340億パラメータのモデル「Poro 34B」を紹介し、多言語学習アプローチが、既存のフィンランド語モデルの能力を大幅に進化させるだけでなく、翻訳において優れ、英語およびプログラミング言語の生成においても同クラスで競争力のあるモデルを生み出せることを実証します。私たちは、モデルのパラメータ、スクリプト、およびデータをオープンライセンスで公開しています。詳細はhttps://huggingface.co/LumiOpen/Poro-34Bをご覧ください。

3D Congealing: 実世界における3D対応画像アライメント
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

我々は、意味的に類似した物体を捉えた2D画像に対する3D認識アライメントという新たな問題「3D Congealing」を提案する。ラベル付けされていないインターネット画像の集合を入力として、共有される意味的な部分を関連付け、2D画像から得た知識を共有の3D正規空間に集約することを目指す。本手法では、形状テンプレート、ポーズ、あるいはカメラパラメータを仮定せずにこの課題に取り組む一般的なフレームワークを導入する。その中核となるのは、幾何学的および意味的情報を包含する正規3D表現である。このフレームワークは、各入力画像のポーズとともに正規表現を最適化し、形状マッチングを考慮して2Dピクセル座標を3D正規フレームにワープする画像ごとの座標マップを生成する。最適化手順では、事前学習済み画像生成モデルからの事前知識と入力画像からの意味的情報を融合する。前者はこの制約の少ないタスクに対する強力な知識ガイダンスを提供し、後者は事前学習モデルからの訓練データバイアスを軽減するために必要な情報を提供する。本フレームワークは、対応点マッチング、ポーズ推定、画像編集など様々なタスクに使用可能であり、困難な照明条件下での実世界画像データセットや、オンラインのワイルド画像コレクションにおいて強力な結果を達成する。

LLM-ABR: 大規模言語モデルを用いた適応型ビットレートアルゴリズムの設計
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

我々は、大規模言語モデル（LLM）の生成能力を活用して、多様なネットワーク特性に適応した適応ビットレート（ABR）アルゴリズムを自律的に設計する初のシステム「LLM-ABR」を提案する。強化学習フレームワーク内で動作するLLM-ABRは、状態やニューラルネットワークアーキテクチャといった主要コンポーネントの設計をLLMに委ねる。我々は、ブロードバンド、衛星、4G、5Gを含む多様なネットワーク環境でLLM-ABRを評価し、LLM-ABRがデフォルトのABRアルゴリズムを一貫して上回ることを確認した。

HyperCLOVA X 技術レポート
HyperCLOVA X Technical Report

Apr 2