翻訳付きの日次キュレーションされたAI研究論文
言語モデルは、特に自動ワークフロー関連のタスクにおいて、様々なソフトウェアアプリケーションで有効性を示しています。これらのモデルは、AIエージェントの作成に不可欠な関数呼び出し能力を備えています。大規模言語モデルはクラウド環境で高い性能を発揮しますが、プライバシーやコストに関する懸念がしばしば伴います。現在のオンデバイスモデルは、関数呼び出しにおいてレイテンシと精度の問題に直面しています。本研究では、20億パラメータのオンデバイスモデルが、精度とレイテンシの両面でGPT-4を上回り、コンテキスト長を95%削減する新手法を提案します。RAGベースの関数呼び出しメカニズムを備えたLlama-7Bと比較すると、本手法はレイテンシを35倍改善します。この手法により、実環境でのアプリケーションに適した性能要件を満たしつつ、様々なエッジデバイスへの展開に適したレイテンシレベルを実現します。
我々は、推論に最適化された大規模言語モデル(LLM)群であるEurusを紹介する。Mistral-7BとCodeLlama-70BをファインチューニングしたEurusモデルは、数学、コード生成、論理推論問題を含む多様なベンチマークにおいて、オープンソースモデルの中で最先端の結果を達成している。特に、Eurus-70Bは、5つのタスクをカバーする12のテストを通じた包括的なベンチマークにおいて、GPT-3.5 Turboを推論能力で上回り、LeetCodeでは33.3%、TheoremQAでは32.6%のpass@1精度を達成し、既存のオープンソースモデルを13.3%以上の差で大幅に凌駕している。Eurusの強力な性能は、主に複雑な推論タスクに特化して設計された新たにキュレーションされた大規模で高品質なアライメントデータセットであるUltraInteractに起因している。UltraInteractは、教師ありファインチューニングと選好学習の両方に使用できる。各指示に対して、統一フォーマットでの多様な計画戦略を含む推論チェーン、環境と批評との多段階インタラクショントラジェクトリ、選好学習を促進するためのペアワイズデータを含む選好ツリーを備えている。UltraInteractにより、推論タスクにおける選好学習の詳細な探求が可能となる。我々の調査から、一般的な会話における有効性と比較して、いくつかの確立された選好学習アルゴリズムが推論タスクにはあまり適していない可能性があることが明らかになった。これに着想を得て、我々は新しい報酬モデリング目的関数を導出し、UltraInteractと組み合わせることで強力な報酬モデルを実現した。
大規模言語モデル(LLMs)は、32Kトークンを超える長いシーケンスの処理において大きな進展を遂げてきた。しかし、その性能評価は、主にパープレキシティや合成タスクなどの指標に限定されており、より微妙な現実世界のシナリオにおける能力を十分に捉えていない可能性がある。本研究では、極端なラベル分類の領域における長い文脈内学習に焦点を当てた専門的なベンチマーク(LIConBench)を導入する。我々は、28から174クラスに及ぶラベル範囲をカバーし、入力(few-shotデモンストレーション)の長さが2Kから50Kまでの6つのデータセットを慎重に選定した。本ベンチマークでは、LLMsが大規模なラベル空間を認識し、正しい予測を行うために、入力全体を理解することを要求する。我々は、13の長文脈LLMsをこのベンチマークで評価した。その結果、20Kトークン以下の長さでは、長文脈LLMsは比較的良好な性能を示し、長い文脈ウィンドウを活用することで性能が向上することがわかった。しかし、文脈ウィンドウが20Kを超えると、GPT-4を除くほとんどのLLMsの性能が劇的に低下する。これは、現在のLLMsが長く文脈豊かなシーケンスを処理し理解する能力に顕著なギャップがあることを示唆している。さらに分析を行った結果、モデルがシーケンスの後半に提示されたラベルを優先して予測する傾向があることが明らかになった。長いシーケンス内の複数の情報を推論する能力はまだ改善の余地がある。本研究は、長い文脈の理解と推論が既存のLLMsにとって依然として困難な課題であることを明らかにした。LIConBenchは、将来の長文脈LLMsのより現実的な評価として役立つと我々は考えている。
我々は、最近リリースされたGemmaファミリーの大規模言語モデル(LLM)を用いて、人気のLLaVAフレームワークでマルチモーダル基盤モデル(MMFM)のスイートをトレーニングしました。特に注目すべきは、2BパラメータのGemmaモデルで、これにより小規模ながら有能なMMFMを構築する機会が得られます。この分野の他の論文の知見に沿って、3つの設計要素を除去した場合の効果をテストしました:コネクタの事前学習、より強力な画像バックボーンの利用、言語バックボーンのサイズ増加です。その結果得られたモデルをLLaVA-Gemmaと呼び、一連の評価において中程度の性能を示しましたが、現在の同規模のSOTAモデルを超える改善は見られませんでした。性能の詳細な分析では、混合された効果が確認されました:事前学習をスキップすると性能が低下する傾向があり、より大きな視覚モデルは時々性能を向上させ、言語モデルのサイズを増やすと一貫しない効果が見られました。我々は、LLaVA-Gemmaモデルのトレーニングレシピ、コード、および重みを公開します。
制御可能性は、ユーザーが望むコンテンツを作成できるようにするため、ビデオ生成において重要な役割を果たします。しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画的な言語として機能するカメラポーズの精密な制御をほとんど考慮していませんでした。この問題を解決するため、私たちはCameraCtrlを導入し、テキストからビデオ(T2V)モデルに対する正確なカメラポーズ制御を可能にします。カメラ軌跡を精密にパラメータ化した後、プラグアンドプレイのカメラモジュールをT2Vモデル上でトレーニングし、他の部分はそのままにします。さらに、さまざまなデータセットの影響に関する包括的な研究も行い、多様なカメラ分布と類似した外観を持つビデオが、実際に制御可能性と汎化性能を向上させることを示唆しています。実験結果は、CameraCtrlが精密でドメイン適応的なカメラ制御を達成する有効性を実証し、テキストとカメラポーズの入力から動的でカスタマイズされたビデオストーリーテリングを追求するための一歩前進を示しています。私たちのプロジェクトウェブサイトはこちらです:https://hehao13.github.io/projects-CameraCtrl/。
韓国語と韓国文化に特化し、英語、数学、コーディングにおいても競争力を持つ大規模言語モデル(LLM)ファミリーであるHyperCLOVA Xを紹介します。HyperCLOVA Xは、韓国語、英語、コードデータのバランスの取れた混合データでトレーニングされ、その後、高品質な人間による注釈データセットを用いた指示チューニングが行われました。これらは、責任あるAIへの取り組みを反映した厳格な安全ガイドラインに従って実施されました。本モデルは、韓国語と英語の両方において、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害性など、さまざまなベンチマークで評価されています。HyperCLOVA Xは、韓国語における深い言語理解と文化的ニュアンスに支えられた強力な推論能力を示しています。さらに、内在する二言語性とその多言語化への拡張を分析することで、本モデルの言語間の熟達度と、機械翻訳や言語間推論タスクを含む、ターゲット外の言語に対する強力な一般化能力が明らかになりました。HyperCLOVA Xは、地域や国が独自の主権的LLMを開発する際に有用なガイダンスを提供できると考えています。
潜在拡散モデル(LDMs)のスケーリング特性について、特にそのサンプリング効率に焦点を当てて研究を行いました。ネットワークアーキテクチャや推論アルゴリズムの改善が拡散モデルのサンプリング効率を効果的に向上させることが示されていますが、サンプリング効率の重要な決定要因であるモデルサイズの役割は十分に検証されていませんでした。確立されたテキストから画像への拡散モデルを実証的に分析し、モデルサイズがさまざまなサンプリングステップにわたってサンプリング効率にどのように影響するかを詳細に調査しました。その結果、驚くべき傾向が明らかになりました:与えられた推論予算の下で動作する場合、より小さなモデルがより大きな同等モデルを上回り、高品質な結果を生成することが頻繁に観察されたのです。さらに、この知見の一般化可能性を実証するために、さまざまな拡散サンプラーを適用し、多様な下流タスクを探索し、蒸留後のモデルを評価し、トレーニング計算量に対する相対的な性能を比較するなど、研究を拡張しました。これらの発見は、限られた推論予算内で生成能力を向上させるために活用できるLDMスケーリング戦略の開発に向けた新たな道筋を開くものです。
大規模言語モデル(LLMs)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力により、広く注目を集めています。これは、テキスト形式で頻繁に存在する小さく多様なデータセットに直面している化学科学にとって関連性があります。LLMsはこれらの問題に対処する可能性を示しており、化学的特性の予測、反応の最適化、さらには自律的に実験を設計・実施するためにますます活用されています。しかし、LLMsの化学的推論能力についての体系的な理解はまだ非常に限られており、モデルを改善し潜在的な害を軽減するためにはこれが必要です。ここでは、最先端のLLMsの化学知識と推論能力を人間の化学者の専門知識に対して厳密に評価するために設計された自動化フレームワーク「ChemBench」を紹介します。化学科学の幅広い分野にわたる7,000以上の質問-回答ペアをキュレーションし、主要なオープンソースおよびクローズドソースのLLMsを評価した結果、最良のモデルが平均して最良の人間の化学者を上回ることがわかりました。ただし、モデルは人間の専門家にとって簡単な一部の化学的推論タスクに苦戦し、化学物質の安全性プロファイルに関する過信した誤解を招く予測を提供することがあります。これらの発見は、LLMsが化学タスクで驚くべき熟練度を示す一方で、化学科学における安全性と有用性を向上させるためのさらなる研究が重要であるという二重の現実を強調しています。また、化学カリキュラムの適応の必要性を示し、安全で有用なLLMsを改善するための評価フレームワークの継続的な開発の重要性を強調しています。
最先端の大規模言語モデルの事前学習には、現在、数兆語のテキストが必要とされており、これは大多数の言語で利用可能なデータ量を桁違いに上回っています。複数の言語のテキストを含めることは、より多くの事前学習データを取得するための明白な方法ですが、多言語性はしばしば「呪い」と見なされ、ほとんどのモデル学習の取り組みは、依然として個々の大規模言語にほぼ独占的に焦点を当てています。私たちは、多言語性は「祝福」となり得ると信じており、多言語学習を通じて、小規模言語における単一言語モデルの能力を大幅に向上させることが可能であると考えています。本研究では、フィンランド語、英語、およびプログラミング言語の1兆トークンで学習された340億パラメータのモデル「Poro 34B」を紹介し、多言語学習アプローチが、既存のフィンランド語モデルの能力を大幅に進化させるだけでなく、翻訳において優れ、英語およびプログラミング言語の生成においても同クラスで競争力のあるモデルを生み出せることを実証します。私たちは、モデルのパラメータ、スクリプト、およびデータをオープンライセンスで公開しています。詳細はhttps://huggingface.co/LumiOpen/Poro-34Bをご覧ください。
我々は、意味的に類似した物体を捉えた2D画像に対する3D認識アライメントという新たな問題「3D Congealing」を提案する。ラベル付けされていないインターネット画像の集合を入力として、共有される意味的な部分を関連付け、2D画像から得た知識を共有の3D正規空間に集約することを目指す。本手法では、形状テンプレート、ポーズ、あるいはカメラパラメータを仮定せずにこの課題に取り組む一般的なフレームワークを導入する。その中核となるのは、幾何学的および意味的情報を包含する正規3D表現である。このフレームワークは、各入力画像のポーズとともに正規表現を最適化し、形状マッチングを考慮して2Dピクセル座標を3D正規フレームにワープする画像ごとの座標マップを生成する。最適化手順では、事前学習済み画像生成モデルからの事前知識と入力画像からの意味的情報を融合する。前者はこの制約の少ないタスクに対する強力な知識ガイダンスを提供し、後者は事前学習モデルからの訓練データバイアスを軽減するために必要な情報を提供する。本フレームワークは、対応点マッチング、ポーズ推定、画像編集など様々なタスクに使用可能であり、困難な照明条件下での実世界画像データセットや、オンラインのワイルド画像コレクションにおいて強力な結果を達成する。
我々は、大規模言語モデル(LLM)の生成能力を活用して、多様なネットワーク特性に適応した適応ビットレート(ABR)アルゴリズムを自律的に設計する初のシステム「LLM-ABR」を提案する。強化学習フレームワーク内で動作するLLM-ABRは、状態やニューラルネットワークアーキテクチャといった主要コンポーネントの設計をLLMに委ねる。我々は、ブロードバンド、衛星、4G、5Gを含む多様なネットワーク環境でLLM-ABRを評価し、LLM-ABRがデフォルトのABRアルゴリズムを一貫して上回ることを確認した。