翻訳付きの日次キュレーションされたAI研究論文
近年、大規模言語モデル(LLM)はさまざまなタスク(例:長文脈理解)で顕著な能力を示し、多くのベンチマークが提案されています。しかし、長文生成能力はあまり十分に調査されていないことが観察されています。そのため、Hierarchical Long Text Generation Benchmark(HelloBench)を導入しました。これは、LLMの長文生成パフォーマンスを評価する包括的で実践的なベンチマークであり、オープンエンドのものです。Bloomの分類法に基づいて、HelloBenchは長文生成タスクをオープンエンドQA、要約、チャット、テキスト補完、ヒューリスティックテキスト生成の5つのサブタスクに分類しています。さらに、Hierarchical Long Text Evaluation(HelloEval)を提案しており、この方法は、人間の評価に必要な時間と労力を大幅に削減しながら、人間の評価と高い相関を維持しています。約30の主要なLLMを対象とした包括的な実験を実施し、現在のLLMには長文生成能力が欠如していることを観察しました。具体的には、指示に明示的または暗黙の長さ制約が含まれているかどうかに関係なく、ほとんどのLLMが4000語よりも長いテキストを生成できないことを観察しています。また、一部のLLMがより長いテキストを生成できる一方、重複や品質の劣化など多くの問題が存在することも観察しています。さらに、HelloEvalの効果を実証するために、HelloEvalを従来のメトリクス(例:ROUGE、BLEUなど)やLLM-as-a-Judge方法と比較し、HelloEvalが人間の評価と最も高い相関を持つことを示しています。私たちのコードはhttps://github.com/Quehry/HelloBenchで公開しています。
キャラクタービデオ合成は、リアルなシーン内でアニメーション可能なキャラクターのビデオを生成することを目指しています。コンピュータビジョンとグラフィックスコミュニティにおける基本的な問題として、3D作業は通常、ケースごとのトレーニングに複数のビューのキャプチャが必要であり、これにより任意のキャラクターを短時間でモデリングする適用範囲が著しく制限されます。最近の2D手法は、事前トレーニングされた拡散モデルを介してこの制限を破りますが、ポーズの一般性やシーンとの相互作用に苦労しています。このため、我々はMIMOを提案します。これは、単純なユーザー入力によって提供される制御可能な属性(すなわち、キャラクター、動き、シーン)を持つキャラクタービデオを合成するだけでなく、任意のキャラクターへの高度なスケーラビリティ、新しい3Dモーションへの一般性、およびインタラクティブな現実世界のシーンへの適用性を統一されたフレームワークで同時に達成できる新しいフレームワークです。中心となるアイデアは、ビデオの3D的性質を考慮して、2Dビデオをコンパクトな空間コードにエンコードすることです。具体的には、単眼深度推定器を使用して2Dフレームのピクセルを3Dに持ち上げ、3Dの深さに基づいてビデオクリップを3つの空間コンポーネント(すなわち、主要な人物、基礎となるシーン、浮遊する遮蔽物)に階層的なレイヤーで分解します。これらのコンポーネントは、さらに標準的なアイデンティティコード、構造化されたモーションコード、完全なシーンコードにエンコードされ、合成プロセスの制御信号として利用されます。空間分解モデリングの設計により、柔軟なユーザー制御、複雑なモーション表現、およびシーンとの3D認識合成が可能となります。実験結果は、提案手法の有効性と堅牢性を示しています。
デコーダーのみのアーキテクチャを持つ大規模言語モデル(LLMs)は、コンテキスト内学習(ICL)能力を示す顕著な特性を示しています。この特徴により、彼らは入力コンテキスト内で提供された例を利用して、なじみのあるタスクと新しいタスクの両方を効果的に処理することができます。この能力の潜在性を認識し、我々はLLMs内のICL機能を活用してテキスト埋め込み生成プロセスを向上させることを提案します。このために、高品質なテキスト埋め込みを生成するために少数の例を利用する新しいモデルbge-en-iclを導入します。我々のアプローチは、タスクに関連する例をクエリ側に直接統合することで、さまざまなタスクで大幅な改善をもたらします。さらに、異なる注意メカニズム、プーリング方法などを含む埋め込みモデルとしてLLMsを効果的に活用する方法について調査しています。我々の調査結果は、元のフレームワークを保持することがしばしば最良の結果をもたらすことを強調し、シンプルさが最善であることを示唆しています。MTEBおよびAIR-Benchのベンチマークでの実験結果は、我々のアプローチが新たな最先端のパフォーマンスを実現していることを示しています。当該モデル、コード、およびデータセットは、https://github.com/FlagOpen/FlagEmbedding で無料で入手可能です。
最近の多様なモダリティ間でデータを統合し解釈することを目指したマルチモーダル大規模言語モデル(MLLMs)の進歩は、複数のモダリティを同時に処理し理論的に考えるこれらのモデルの能力は、包括的なモダリティ別のベンチマークの不足のために不十分に探求されています。我々は、視覚、音声、およびテキスト入力を同時に認識、解釈、および推論するモデルの能力を厳密に評価するために設計された新しいベンチマークであるOmniBenchを紹介します。このような三モーダル処理が可能なモデルをオムニ言語モデル(OLMs)と定義します。OmniBenchは、高品質の人間による注釈によって特徴付けられ、正確な応答が全ての三つのモダリティにわたる統合的な理解と推論を必要とすることを保証します。我々の主な発見は、i)オープンソースのOLMsは三モーダルコンテキスト内での指示の従う能力と推論能力において重要な制限があり、ii)代替テキスト表現が画像と音声の場合でも、ベースラインモデルは低い性能(50%未満の精度)を示すことです。これらの結果は、テキスト、画像、音声から一貫したコンテキストを構築する能力が、既存のMLLMのトレーニングパラダイムでしばしば見落とされていることを示唆しています。将来の研究は、多様なモダリティにわたるOLMのパフォーマンスを向上させるために、より堅牢な三モーダル統合技術とトレーニング戦略の開発に焦点を当てることを提唱しています。コードとリーダーボードは、https://m-a-p.ai/OmniBench で見つけることができます。
オープンウェイトLLMの品質は大幅に向上していますが、依然として主に英語に焦点を当てています。本論文では、ユーロLLMプロジェクトを紹介し、すべての欧州連合公用語およびいくつかの追加の関連言語でテキストの理解と生成が可能なオープンウェイトの多言語LLMスイートを開発することを目指します。これまでに達成された進捗状況、データ収集およびフィルタリングプロセス、スケーリング則の開発、多言語トークナイザーの作成、データミックスおよびモデリング構成について詳細に説明します。さらに、初期モデルであるEuroLLM-1.7BおよびEuroLLM-1.7B-Instructを公開し、多言語一般ベンチマークおよび機械翻訳におけるパフォーマンスを報告します。
新しいより優れた画像生成モデルの継続的なリリースは、合成画像検出器への需要を高めています。このようなダイナミックな分野では、検出器は広く一般化し、制御されていない変更に対して堅牢である必要があります。本研究は、検出器の一般化における時間、画像変換、およびデータソースの役割を検討する際に、この状況に動機づけられています。これらの実験では、評価された検出器のいずれも普遍的ではないが、結果はアンサンブルが可能であることを示唆しています。野外で収集されたデータに基づく実験は、大規模データセットによって定義されたものよりもこのタスクがより困難であることを示し、実験と実際の実践の間にギャップがあることを指摘しています。最後に、より良いジェネレータがより良い検出器につながり、その逆もまた然りという競争均衡効果が観察されます。このことが、フィールドをジェネレータと検出器の間で絶えず接戦となる方向に推進していると仮説を立てています。
ほとんどの既存のマルチモダリティ手法は、自己回帰型の離散テキスト生成と拡散型の連続ビジュアル生成のために別々のバックボーンを使用するか、同じバックボーンを使用してビジュアルデータを離散化してテキストとビジュアルの両方の生成のために自己回帰を使用します。本論文では、自己回帰と拡散の両方に1つのトランスフォーマーを共有するという単純なアイデアを研究することを提案します。その実現可能性は、(i) トランスフォーマーがビジュアル生成のために拡散に成功裏に適用されていること、および(ii) 自己回帰と拡散のためのトランスフォーマーのトレーニングが非常に類似しており、違いは拡散が双方向の注意マスクを使用し、自己回帰が因果的な注意マスクを使用する点にあることから来ています。実験結果は、当該手法が最先端の手法と同等の画像生成性能を達成し、テキスト生成能力を維持していることを示しています。このプロジェクトは https://monoformer.github.io/ で公開されています。
マスクされたトランスフォーマーモデルは、クラス条件付き画像生成において拡散モデルに対する説得力のある代替手段となっています。通常、2つの段階で構成され、最初のVQGANモデルは潜在空間と画像空間の間の遷移を担い、その後に続くトランスフォーマーモデルは潜在空間内での画像生成を担当します。これらのフレームワークは、画像合成における有望な手法を提供しています。本研究では、主に2つの貢献を示しています。第一に、VQGANに関する経験的かつ体系的な検証を行い、近代化されたVQGANを提案しています。第二に、豊かな意味を持つトークンのバイナリ量子化表現であるビットトークンに直接作用する埋め込みフリーの生成ネットワークを提示しています。第一の貢献は、透明性があり再現性があり、高性能なVQGANモデルを提供し、アクセス性を向上させ、従来の最先端手法との性能を一致させながら、以前に開示されていなかった詳細を明らかにします。第二の貢献は、ビットトークンを使用した埋め込みフリーの画像生成が、ImageNet 256x256のベンチマークで新たな最先端のFID値1.52を達成し、わずか305Mパラメータのコンパクトな生成モデルを実現することを示しています。
人間の視覚システムは、あらゆる形状やサイズの顔を検出するようにうまく調整されています。これにより未知の捕食者を見つける可能性が高まるなど、明らかな生存上の利点がもたらされますが、同時に誤った顔の検出も引き起こします。"顔のパレイドリア"とは、コーヒーのしみや空の雲の中に顔のような構造を認識することを指します。本論文では、コンピュータビジョンの観点から顔のパレイドリアを研究しています。人間が注釈付けしたパレイドリックな顔を含む5,000枚のWeb画像からなる「物の中の顔」の画像データセットを提供します。このデータセットを使用して、最先端の人間の顔検出器がどの程度パレイドリアを示すかを調査し、人間と機械の間に著しい行動上の差異があることを発見します。人間が動物の顔だけでなく人間の顔も検出するための進化的必要性が、この差異の一部を説明する可能性があることがわかりました。最後に、画像の中のパレイドリアに関する単純な統計モデルを提案します。人間を対象とした研究やパレイドリックな顔検出器を用いた研究を通じて、パレイドリアを誘発する可能性が最も高い画像条件に関する当モデルの主要な予測を確認します。データセットとウェブサイト:https://aka.ms/faces-in-things
過去数十年にわたり、時系列予測のためのディープラーニングは著しい進化を遂げてきました。しかし、言語やビジョン領域における大規模事前学習の成功にもかかわらず、事前学習された時系列モデルは規模に制限があり、高コストで動作するため、現実世界の応用におけるより大きな予測モデルの開発が妨げられています。この課題に対処するために、私たちはTime-MoEを導入します。これは、推論コストを削減しながら、より大規模で能力の高い予測基盤モデルを事前学習するために設計されたスケーラブルで統一されたアーキテクチャです。疎な専門家の混合設計を活用することで、Time-MoEは各予測ごとにネットワークのサブセットのみを活性化し、計算効率を向上させ、計算負荷を軽減しつつ高いモデル容量を維持します。これにより、Time-MoEは対応する推論コストの増加なしに効果的にスケーリングすることが可能となります。Time-MoEは、自己回帰的に動作し、異なる入力コンテキストの長さで柔軟な予測ホライズンをサポートするデコーダーのみのトランスフォーマーモデルのファミリーで構成されています。私たちは、新たに導入した大規模データセットTime-300Bでこれらのモデルを事前学習しました。このデータセットは9つのドメインにまたがり、3000億以上の時系列データポイントを含んでいます。初めて、時系列基盤モデルを24億のパラメータまでスケーリングし、予測精度を著しく向上させました。私たちの結果は、トークンやモデルサイズのトレーニングに関するスケーリング則が時系列予測の文脈において適用可能であることを検証しています。同じ数のアクティブなパラメータや同等の計算予算を持つ密なモデルと比較して、私たちのモデルは一貫して大きな差でそれらを上回っています。これらの進展により、Time-MoEは、卓越した能力、効率性、柔軟性を備えた現実世界の時系列予測課題に取り組むための最先端ソリューションとして位置付けられています。
この技術レポートでは、当社の最先端のアニメ画像生成モデルであるNovelAI Diffusion V3のトレーニングプロセスにおいて、SDXLに加えた変更点を文書化しています。
ロボットの操作ポリシーが、未知のオブジェクトタイプや新しい動作を含む新しいタスクに一般化する方法は何ですか?本論文では、人間のビデオ生成を介したウェブデータからの動作情報の予測と、生成されたビデオにロボットポリシーを調整することで、この問題に対する解決策を提供します。高コストのロボットデータ収集を試みる代わりに、容易に入手可能なウェブデータでトレーニングされたビデオ生成モデルを活用する方法を示します。私たちのアプローチであるGen2Actは、ゼロショットの人間ビデオ生成と、生成されたビデオに調整された単一ポリシーによる実行として、言語に依存した操作をキャストします。ポリシーをトレーニングするために、ビデオ予測モデルがトレーニングされたデータ量と比較して、1桁少ないロボットの相互作用データを使用します。Gen2Actはビデオモデルの微調整を一切必要とせず、人間のビデオを生成するために事前にトレーニングされたモデルを直接使用します。多様な実世界シナリオでの結果は、Gen2Actがロボットデータに存在しないタスクに対して未知のオブジェクトタイプを操作し、新しい動作を実行することを可能にすることを示しています。ビデオはこちらでご覧いただけます:https://homangab.github.io/gen2act/
大規模言語モデル(LLM)と比較して、大規模ビジョン言語モデル(LVLM)は画像も入力として受け入れることができ、より興味深い新たな能力を示し、さまざまなビジョン言語タスクで印象的なパフォーマンスを示しています。LLMにおけるテキストプロンプティングに触発され、視覚プロンプティングがLVLMの視覚情報の認識能力を向上させるために探求されてきました。しかしながら、従来の視覚プロンプティング技術は、テキストクエリを考慮せずに単に視覚入力を処理しており、モデルがタスクを完了するためのテキスト指示に従う能力が制限されています。この課題を解決するために、本研究では、画像上のアテンションプロンプティングという新しいプロンプティング技術を提案します。これは、単純に元の入力画像にテキストクエリに基づいたアテンションヒートマップを重ねて、LVLMのさまざまなタスクを効果的に強化します。具体的には、CLIPのような補助モデルを使用して、入力画像に対するテキストクエリに依存したアテンションヒートマップを生成します。その後、ヒートマップは単純に元の画像のピクセル値と乗算され、LVLMの実際の入力画像が得られます。さまざまなビジョン言語ベンチマークでの包括的な実験により、当社の技術の効果が検証されています。例えば、画像上のアテンションプロンプティングは、LLaVA-1.5においてMM-VetとLLaVA-Wildのベンチマークでそれぞれ3.8%と2.9%の改善をもたらします。
大規模言語モデル(LLM)がより高度な知能形態に向けて進化する中で、人間のフィードバックからの強化学習(RLHF)が人工汎用知能(AGI)の達成に向けた重要な経路としてますます注目されています。ただし、報酬モデル(RM)に基づくアラインメント手法への依存は、報酬モデル(RM)の固有の不安定性や欠陥に起因する重大な問題、報酬ハッキングや人間の意図との不一致などの問題を引き起こす可能性があります。本論文では、これらの基本的な課題に対処するための報酬に強いRLHFフレームワークを紹介し、LLMにおけるより信頼性の高い学習を可能にする道を開いています。当該手法は、報酬関数の不確実性集合をモデル化するためにベイズ報酬モデルアンサンブル(BRME)を組み込むことで、パフォーマンスと頑健性を慎重にバランスさせる新しい最適化目的を導入しています。これにより、架空のパフォーマンスと最小報酬信号の両方を統合することで、不完全な報酬モデルでもより安定した学習を実現しています。実証結果は、当該フレームワークが多様なベンチマークにおいて従来のRLHFを一貫して上回り、向上した精度と長期的な安定性を示しています。また、定数報酬設定の安定性に近づくことを証明する理論的分析を提供し、確率的ケース分析において有効であることを示しています。これらの貢献は、フレームワークがLLMのRLHFとのアラインメントのパフォーマンスと安定性の両方を向上させる潜在能力を示しています。
従来の固有表現認識(NER)のアプローチは、BIO系列ラベリング問題にタスクを枠組みにします。これらのシステムはしばしば対象の下流タスクで優れた成績を収めますが、豊富な注釈付きデータが必要であり、分布外の入力ドメインや未知のエンティティタイプへの一般化が難しいという課題があります。それに対して、大規模言語モデル(LLMs)は強力なゼロショット能力を示しています。英語におけるゼロショットNERに取り組む研究はいくつかありますが、他言語においてはほとんど行われていません。本論文では、イタリア語に適用するゼロショットNERの評価フレームワークを定義します。さらに、SLIMERのイタリア語版であるSLIMER-ITを紹介します。これは、定義とガイドラインで充実させたプロンプトを活用する、ゼロショットNER向けのインストラクションチューニングアプローチです。他の最先端モデルとの比較により、SLIMER-ITが以前に見たことのないエンティティタグにおいて優位性を示しています。
報酬モデル(RMs)は、大規模言語モデル(LLMs)を人間の好みに整合させる上で重要な役割を果たしています。しかしながら、特定のプロンプトに関連付けられた応答ペアに依存する従来のRMトレーニングは、応答の長さや形式などのプロンプトに依存しないアーティファクトとプロンプト駆動の好みを区別するのに苦労しています。本研究では、現在のRMトレーニング方法の根本的な制限を明らかにし、RMsが好みを決定する際に文脈的なシグナルと無関係なアーティファクトを効果的に区別できないことを示しています。この問題に対処するために、これらのアーティファクトとは独立した好みを学習する因果関係フレームワークを導入し、それらを排除するために設計された新しいデータ拡張技術を提案しています。広範な実験により、当社の手法が望ましくないアーティファクトを除去し、より堅牢な報酬モデル(RRM)を生み出すことに成功したことが示されています。当社のRRMは、Gemma-2-9b-itでトレーニングされたペアワイズ報酬モデルのパフォーマンスを向上させ、RewardBenchでの精度を80.61%から84.15%に向上させました。さらに、RMとRRMの両方を使用して2つのDPOポリシーをトレーニングし、RRMがDPOに整合したポリシーを大幅に向上させ、MT-Benchスコアを7.27から8.31に、AlpacaEval-2の長さ制御された勝率を33.46%から52.49%に向上させることを示しています。
模倣学習は、複雑な視覚運動ポリシーを訓練するための強力なツールであることが証明されています。しかし、現在の方法では、高次元の視覚観測を処理するために数百から数千の専門家によるデモが必要とされることがよくあります。このデータ効率の悪さの主な理由は、視覚表現が主にドメイン外のデータで事前にトレーニングされているか、または行動クローン目的で直接トレーニングされていることです。本研究では、視覚表現を学習するための新しいドメイン内の自己教師付き方法であるDynaMoを提案します。専門家によるデモのセットを与えられた場合、我々は画像埋め込みのシーケンス上で次のフレームを潜在空間で予測する逆動力学モデルと前方動力学モデルを共同で学習します。この際、拡張や対照的なサンプリング、または正解アクションへのアクセスは必要ありません。重要なことは、DynaMoはインターネットデータセットやクロスエンボディデータセットなどのドメイン外データを必要としないという点です。6つのシミュレートおよび実環境のスイートで、DynaMoで学習された表現が、従来の自己教師付き学習目的や事前トレーニングされた表現よりも明らかに後段の模倣学習パフォーマンスを向上させることを示します。DynaMoの使用による利点は、Behavior Transformer、Diffusion Policy、MLP、および最近傍などのポリシークラス全体にわたって維持されます。最後に、DynaMoの主要なコンポーネントについて検証し、後段のポリシーパフォーマンスへの影響を評価します。ロボットのビデオは、https://dynamo-ssl.github.io で最もよく表示されます。
機械学習において、実データが限られているか機密性が高い場合には、合成表形式データの生成は重要です。従来の生成モデルは、表形式データの特性(異なるデータ型や多様な分布など)による困難に直面し、複雑な前処理や大規模な事前学習モデルが必要とされてきました。本論文では、任意の表形式データを固定サイズのバイナリ表現に変換する新しい損失なしバイナリ変換手法と、バイナリデータに特化した新しい生成モデルBinary Diffusionを紹介します。Binary Diffusionは、ノイズの追加と削除にXOR演算の単純さを活用し、トレーニングにはバイナリクロスエントロピー損失を用います。当手法は、複雑な前処理やノイズパラメータの調整、大規模データセットでの事前学習の必要性を排除します。我々は、いくつかの一般的な表形式ベンチマークデータセットでモデルを評価し、Binary DiffusionがTravel、Adult Income、Diabetesデータセットにおいて既存の最先端モデルを上回ることを示し、かつサイズが大幅に小さいことを示しました。