翻訳付きの日次キュレーションされたAI研究論文
自己訂正は大規模言語モデル(LLMs)にとって非常に望ましい機能ですが、現代のLLMsでは効果がほとんどないことが一貫してわかっています。自己訂正のトレーニングの既存のアプローチは、複数のモデルが必要であるか、より能力の高いモデルや他の形式の監督を必要とします。このため、我々は、完全に自己生成されたデータを使用してLLMの自己訂正能力を大幅に向上させる、マルチターンオンライン強化学習(RL)アプローチであるSCoReを開発します。SCoReを構築するために、まず、オフラインモデル生成の訂正トレースに対する監督微調整(SFT)のバリアントが自己訂正行動を植え付けるのに不十分であることを示します。特に、SFTを介したトレーニングは、トレーニングデータとモデル自体の応答との分布の不一致に苦しんでいるか、しばしばテスト時に効果的でない特定の訂正行動モードだけを暗黙的に好むことが観察されます。SCoReは、モデル自体が生成した自己訂正トレースの分布に従ってトレーニングを行い、適切な正則化を使用して学習プロセスを導き、単に特定のプロンプトに対する高報酬応答を適合させるのではなく、テスト時に効果的な自己訂正戦略を学習するようにします。この正則化は、崩壊しにくいポリシー初期化を生成するためにベースモデルで最初のRLフェーズを実行し、トレーニング中に自己訂正を増幅するための報酬ボーナスを使用することを規定しています。Gemini 1.0 Proおよび1.5 Flashモデルに適用した結果、SCoReは、MATHおよびHumanEvalベンチマークでそれぞれベースモデルの自己訂正を15.6%および9.1%向上させ、最先端の自己訂正性能を達成します。
大規模で高品質なデータセットでの事前学習は、特に数学などの専門分野において、大規模言語モデル(LLM)の推論能力を向上させるために重要です。その重要性が認識されているにもかかわらず、現在の多モーダルLLM(MLLM)分野には、数学的推論に特化した包括的なオープンソースの事前学習データセットが不足しています。このギャップを埋めるために、私たちはInfiMM-WebMath-40Bを導入します。これは、交互に配置された画像テキストドキュメントの高品質データセットであり、CommonCrawlから丹念に抽出およびフィルタリングされた2,400万のウェブページ、8,500万の関連画像URL、および400億のテキストトークンから構成されています。私たちは、データ収集と処理パイプラインの詳細な概要を提供します。InfiMM-WebMath-40Bの堅牢性を示すために、テキストのみおよびマルチモーダルの設定で評価を行いました。テキストのみのベンチマーク評価では、400億のトークンのみを使用しているにもかかわらず、1.3Bモデルのパフォーマンスを著しく向上させ、DeepSeekMath-1.3Bと同じモデルサイズに対して1200億のトークンを使用するDeepSeekMath-1.3Bと同等の結果を提供しています。それにもかかわらず、私たちのマルチモーダル数学事前学習データセットを導入することで、私たちのモデルはMathVerseやWe-Mathなどのマルチモーダル数学ベンチマークにおいてオープンソースモデルの最先端を示しています。私たちは、データをhttps://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40Bで公開しています。
大規模言語モデル(LLMs)の出現により、AI検索エンジン(例:SearchGPT)が登場し、人間とインターネットの新しい相互作用のパラダイムを示しています。しかし、現在のほとんどのAI検索エンジンはテキストのみの設定に限定されており、ユーザーのマルチモーダルなクエリやテキストと画像が交互に配置されるウェブサイト情報が無視されています。最近、大規模マルチモーダルモデル(LMMs)が印象的な進展を遂げています。しかし、それらがAI検索エンジンとして機能できるかどうかは未だ探求されておらず、LMMsのマルチモーダル検索における潜在能力は未知数です。このため、まず、どのLMMsにもマルチモーダル検索機能を付与するために繊細なパイプラインであるMMSearch-Engineを設計します。さらに、LMMsのマルチモーダル検索性能を評価する包括的な評価ベンチマークであるMMSearchを紹介します。収集されたデータセットには、14のサブフィールドにわたる300の手動収集インスタンスが含まれており、現在のLMMsのトレーニングデータとは重複せず、正しい回答は検索のみで得られるようになっています。MMSearch-Engineを使用して、LMMsは再クエリ、再ランク、要約の3つの個別のタスク、および完全な検索プロセスを伴う1つの難解なエンドツーエンドタスクを実行することで評価されます。我々は、クローズドソースおよびオープンソースのLMMsについて広範な実験を行います。すべてのテストされたモデルの中で、MMSearch-Engineを使用したGPT-4oが最良の結果を達成し、商用製品であるPerplexity Proを上回り、エンドツーエンドタスクで効果を示しています。現在のLMMsがまだマルチモーダル検索タスクを完全に把握するのに苦労していることを明らかにするエラー分析を提示し、AI検索エンジンのテスト時計算のスケーリングの可能性を示す除去実験を実施します。MMSearchがマルチモーダルAI検索エンジンの将来の開発を導くための独自の洞察を提供できることを期待しています。プロジェクトページ:https://mmsearch.github.io
複数生成されたコードソリューションから最適なものを選択することは、コード生成における重要なタスクであり、信頼できる検証者(例:開発者が作成したテストケース)を使用して達成できます。信頼性の高いテストケースが常に利用可能であり、実践的に構築するのが高価であるため、研究者はコードソリューションを評価するために自動的にテストケースを生成することを提案しています。ただし、コードソリューションとテストケースの両方が妥当で信頼性がない場合、最適なソリューションを選択することは困難です。この問題に対処するためにいくつかのヒューリスティック戦略が提案されていますが、それらには強力な理論的保証が欠けており、最適な選択戦略が存在するかどうかは未解決の問題です。私たちの研究は2つの点で貢献しています。まず、ベイズ的枠組みの中で、最適な選択戦略は、ソリューションとテストの間の観測された合格状態の事後確率に基づいて定義できることを示します。最適なソリューションを特定する問題は、整数プログラミング問題として構築されます。第二に、この最適(しかし計算不可能な)戦略を近似する効率的なアプローチを提案し、その近似誤差が事前知識の正確性によって制限されることを示します。その後、効果的な事前知識を組み込んでコード生成タスクを調整します。理論的および実証的研究の両方が、既存のヒューリスティックが妥当なテストケースで最適なソリューションを選択する際に限界があることを確認しています。私たちが提案する近似最適戦略B4は、LLM(Large Language Models)によって生成されたコードソリューションをLLMが生成したテストで選択する際に、最も強力なヒューリスティックに対して最大50%の相対パフォーマンス向上と、最も困難なシナリオで最強のヒューリスティックに対して246%の相対パフォーマンス向上を達成します。私たちのコードはhttps://github.com/ZJU-CTAG/B4で公開されています。
視覚データは、わずか数ピクセルの小さなアイコンから数時間にわたる長いビデオまで、さまざまな形式で提供されます。既存のマルチモーダルLLMは通常、これら多様な視覚入力を固定解像度に標準化し、視覚エンコーダーに適したトークン数をLLMに提供します。このアプローチは、マルチモーダル理解にとって最適でなく、長いおよび短い視覚コンテンツを処理する際に非効率です。この問題を解決するために、私たちはOryxを提案します。これは、画像、ビデオ、およびマルチビュー3Dシーンの空間的・時間的理解のための統合されたマルチモーダルアーキテクチャです。Oryxは、任意の空間サイズと時間長で視覚入力をシームレスかつ効率的に処理するためのオンデマンドソリューションを提供します。これは、次の2つの中核的イノベーションによって可能となります:1)任意の解像度の画像をLLMに適した視覚表現にエンコードできる事前学習済みのOryxViTモデル;2)要求に応じて視覚トークンを1倍から16倍の圧縮をサポートするダイナミックコンプレッサーモジュール。これらの設計機能により、Oryxは、解像度を下げ、高い圧縮率で非常に長い視覚コンテキスト(例:ビデオ)を収容し、同時に、ドキュメント理解などのタスクにおいてネイティブ解像度と圧縮なしで高い認識精度を維持します。アーキテクチャの改善に加えて、長いコンテキストの取得と空間認識データに特化したデータキュレーションと専門的なトレーニングにより、Oryxは画像、ビデオ、および3Dマルチモーダル理解において強力な機能を同時に実現します。私たちの取り組みは、https://github.com/Oryx-mllm/Oryx でオープンソースとして公開されています。
私たちは、参照に基づいた線画ビデオの着色のための最初のビデオ拡散フレームワークを提案します。従来の作業とは異なり、フレームごとに線画に色を付けるために画像生成モデルだけに頼る従来の作業とは異なり、私たちのアプローチは大規模な事前学習済みビデオ拡散モデルを活用して、着色されたアニメーションビデオを生成します。このアプローチにより、より時間的に一貫した結果が得られ、大きな動きに対応できるようになります。まず、画像からビデオへの拡散モデルを微調整するための追加のコントロールを提供するSketch-guided ControlNetを紹介し、制御可能なビデオ合成のための画像からビデオへの拡散モデルを微調整するための追加のコントロールを提供し、線画に条件付けられたアニメーションビデオの生成を可能にします。次に、参照注意を提案して、参照フレームから高速で広範な動きを含む他のフレームに色を転送するのを容易にします。最後に、長いビデオの着色のための元の固定長の制限を超えるための新しいシーケンシャルサンプリングスキームを提案し、オーバーラップブレンディングモジュールと前方参照注意を組み込んで、ビデオ拡散モデルを拡張します。定性的および定量的な結果の両方が、私たちの手法がフレームおよびビデオの品質、および時間的一貫性の点で最先端の技術を大幅に上回ることを示しています。さらに、私たちの手法は、以前の作業では実現できなかった大きな動きを伴う高品質で長時間一貫したアニメーションビデオを生成する能力を持っています。私たちのコードとモデルは、https://luckyhzt.github.io/lvcd で入手できます。
言語モデルの事前学習フェーズは、通常、ランダムに初期化されたパラメータで開始されます。モデルのスケーリングに関する現在のトレンドでは、多数のパラメータをトレーニングすることが非常に遅く、コストがかかることがあります。一方、小規模な言語モデルはトレーニングコストが低いですが、しばしば大規模なモデルの精度には達しません。本論文では、これら2つの異なる領域をつなぐ興味深いアイデアを探求します:小さな事前学習済みモデルを使用して大規模な言語モデルを初期化する方法を開発できるでしょうか?そのような初期化がトレーニング時間や最終的な精度にどのような利点をもたらすのでしょうか?本論文では、HyperCloningという方法を紹介します。この方法は、事前学習済み言語モデルのパラメータを増やし、隠れ層の次元を拡大して大規模なモデルにすることができます。我々の方法は、大規模なモデルが小さなモデルの機能性を保持することを確実にします。その結果、トレーニング開始前に、大規模なモデルはすでに小さなモデルの予測力と精度を継承しています。このような初期化されたモデルをトレーニングすることで、大規模な言語モデルの事前学習に必要なGPU時間を大幅に節約できることを示します。
さまざまな産業における高品質な3Dアセットへの需要の増加により、効率的かつ自動化された3Dコンテンツの作成が必要とされています。最近の3D生成モデルの進歩にもかかわらず、既存の手法は最適化速度、幾何学的忠実度、物理ベースレンダリング(PBR)用のアセットの不足といった課題に直面しています。本論文では、これらの制約を克服するために設計されたスケーラブルなネイティブ3D生成モデルである3DTopia-XLを紹介します。3DTopia-XLは、詳細な形状、アルベド、および材料フィールドをコンパクトなテンソル形式でエンコードする新しいプリミティブベースの3D表現であるPrimXを活用し、PBRアセットを用いた高解像度ジオメトリのモデリングを容易にします。新しい表現の上に、我々はDiffusion Transformer(DiT)に基づく生成フレームワークを提案します。これには、1)プリミティブパッチ圧縮、2)潜在プリミティブ拡散が含まれます。3DTopia-XLは、テキストまたはビジュアル入力から高品質な3Dアセットを生成することを学習します。我々は、3DTopia-XLが高品質な3Dアセットを生成する際に既存の手法を大幅に上回ることを実証するために、包括的な定性的および定量的実験を実施します。これにより、生成モデルと実世界のアプリケーションとの品質のギャップを効果的に埋めることができます。
チューニング不要の個人用画像生成手法は、複数のキャラクターでも顔の一貫性、つまりアイデンティティを維持することで大きな成功を収めています。ただし、複数のキャラクターが登場するシーンにおいて全体的な一貫性が欠如することで、これらの手法が一貫した物語を作成する能力が阻害されます。本論文では、顔の一貫性だけでなく、服装、髪型、体の一貫性も保持し、画像の連続を通じて物語を作成することを容易にする個人化ソリューションであるStoryMakerを紹介します。StoryMakerは、顔のアイデンティティと服装、髪型、体を含む切り取られたキャラクター画像に基づく条件を組み込んでいます。具体的には、Positional-aware Perceiver Resampler(PPR)を使用して、顔のアイデンティティ情報を切り取られたキャラクター画像と統合し、独自のキャラクター特徴を取得します。複数のキャラクターや背景との相互の干渉を防ぐために、異なるキャラクターと背景のクロスアテンション影響領域をMSE損失とセグメンテーションマスクを用いて別々に制約します。さらに、ポーズに基づいて条件付けられた生成ネットワークをトレーニングして、ポーズからの分離を促進します。LoRAも品質と忠実度を向上させるために使用されています。実験は、当社の手法の有効性を裏付けています。StoryMakerは多くのアプリケーションをサポートし、他の社会的なプラグインと互換性があります。当社のソースコードとモデルの重みは、https://github.com/RedAIGC/StoryMaker で入手可能です。
最近のテクスチャ生成手法は、大規模なテキストから画像への拡散モデルから利用される強力な生成事前知識により、印象的な結果を達成しています。しかし、抽象的なテキストプロンプトは、グローバルなテクスチャや形状情報を提供することに限界があり、その結果、テクスチャ生成手法はぼやけたり一貫性のないパターンを生成することがあります。この課題に取り組むために、私たちはFlexiTexを提案し、視覚的なガイダンスを介して豊富な情報を埋め込み、高品質なテクスチャを生成します。FlexiTexの中核は、視覚的なガイダンス強化モジュールであり、テキストプロンプトの曖昧さを減らし、高周波数の詳細を保持するために視覚的なガイダンスからより具体的な情報を取り入れます。さらに視覚的なガイダンスを強化するために、異なるカメラのポーズに基づいて方向プロンプトを自動的に設計するDirection-Aware Adaptationモジュールを導入し、Janus問題を回避し、意味的にグローバルな一貫性を維持します。視覚的なガイダンスの恩恵を受けることで、FlexiTexは定量的かつ質的に優れた結果を生み出し、実世界のアプリケーションのためのテクスチャ生成の進展の可能性を示しています。
言語モデル(LMs)は、特にタスクが複雑な場合、人間にとって検出が難しいエラーを生成する可能性があります。RLHFは、最も一般的な事後トレーニング手法であり、報酬を高めるために、LMsは誤っているにもかかわらず、人間を説得する能力を向上させる可能性があります。我々は、この現象を標準的なRLHFパイプラインで研究し、それを「U-SOPHISTRY」と呼んでいます。これは、モデル開発者によって意図されていない現象であるためです。具体的には、時間制約(例:3〜10分)のある人間の被験者に、モデルの出力の正確さを評価してもらい、人間の正解率をゴールドラベルと比較します。質問応答タスク(QuALITY)とプログラミングタスク(APPS)において、RLHFは、LMsを被験者を説得する能力を向上させますが、タスクを正しく完了させる能力は向上しません。また、RLHFは、モデルの評価を困難にします。被験者の偽陽性率は、QuALITYでは24.1%、APPSでは18.3%増加します。最後に、意図されたソフィストリ(例:バックドア付きLMsを検出するための最先端アプローチ)を検出するためのプロービング手法は、U-SOPHISTRYには一般化しないことを示します。我々の結果は、RLHFの重要な失敗モードを浮き彫りにし、人間を支援するためのさらなる研究を求めています。
指示チューニングは、多様なタスクにおいて人間の好みと一致するように大規模言語モデル(LLM)を向上させます。低リソース言語向けの指示チューニングデータセットを作成する従来のアプローチは、データ注釈に依存しているため、深刻な課題に直面しています。本研究では、人間の注釈者や事前に存在する多言語モデルを必要とせずに、低リソース言語向けの高品質な指示チューニングデータセットを生成する革新的な手法であるMultilingual Reverse Instructions(MURI)を紹介します。逆指示と翻訳パイプラインを活用して、MURIは低リソース言語の既存の人間によって書かれたテキストから指示と出力のペアを生成します。この手法は、異なるネイティブドメインからテキストを取得し、不適切なコンテンツを排除するフィルタを適用することで、文化的な関連性と多様性を確保します。当社のデータセットであるMURI-ITには、200以上の言語で2百万以上の指示と出力のペアが含まれています。ネイティブスピーカーによる評価とmT5モデルを用いた微調整実験により、この手法がNLUおよびオープンエンド生成の両方において効果的であることが示されています。当社はデータセットとモデルをhttps://github.com/akoksal/muri で公開しています。
新しい手法である3Dガウススプラッティング(3DGS)の再構築を加速する3DGS-LMを提案します。この手法は、ADAMオプティマイザーをカスタマイズしたLevenberg-Marquardt(LM)で置き換えることで、最適化時間を短縮します。従来の手法は、ガウス分布の数を減らすか、微分可能なラスタライザーの実装を改善することで最適化時間を短縮してきました。しかし、これらの手法は依然として、数千回の反復でシーンのガウス分布のパラメータを適合させるためにADAMオプティマイザーに依存しており、最大1時間かかることがあります。そこで、我々はLMにオプティマイザーを変更し、3DGSの微分可能なラスタライザーと連携させます。効率的なGPU並列化のために、中間勾配のキャッシングデータ構造を提案し、カスタムCUDAカーネルでヤコビアン-ベクトル積を効率的に計算できるようにします。各LM反復では、これらのカーネルを使用して複数の画像サブセットから更新方向を計算し、それらを加重平均で組み合わせます。全体として、当社の手法は元の3DGSよりも30%高速でありながら、同じ再構築品質を達成します。また、当社の最適化は、3DGSを加速する他の手法にも対応しており、バニラの3DGSと比較してさらに高速化が可能です。
拡散ベースのモデルを使用したビデオ生成は、フレームごとの反復的な拡散プロセスによる高い計算コストに制約されています。本研究では、拡散再利用モーション(Dr. Mo)ネットワークを提案し、潜在的なビデオ生成を加速します。私たちの主な発見は、初期のノイズ除去ステップでの粗粒度のノイズが、連続するビデオフレーム間で高いモーション一貫性を示していることです。この観察に基づき、Dr. Moは、慎重に設計された軽量なフレーム間モーションを取り入れることで、粗粒度のノイズを次のフレームに伝播させ、フレームごとの拡散モデルにおける大規模な計算冗長性を排除します。より感度が高く細かいノイズは後のノイズ除去ステップで取得され、視覚的な品質を維持するために重要となります。そのため、どの中間ステップがモーションベースの伝播からノイズ除去に切り替わるべきかを決定することは重要な問題であり、効率と品質の間の主要なトレードオフです。Dr. Moは、動的に望ましい中間ステップをビデオフレーム全体で決定するためのメタネットワークであるDenoising Step Selector(DSS)を使用します。ビデオ生成および編集タスクにおける包括的な評価は、Dr. Moが視覚的な品質を向上させつつ、ビデオタスクにおける拡散モデルを大幅に加速できることを示しています。
自動音声キャプショニング(AAC)タスクは、モデルに音声入力の自然言語説明を生成させることを求めます。これらの機械生成された音声キャプションを評価することは、聴覚シーン理解、音オブジェクト推論、時間的一貫性、およびシーンの環境コンテキストなど、多様な要因を考慮する複雑なタスクです。現在の手法は特定の側面に焦点を当てていますが、しばしば人間の判断とよく一致する総合スコアを提供できません。本研究では、大規模言語モデル(LLM)のゼロショット能力を活用して、候補音声キャプションを評価するためにLLMに直接意味的距離スコアを尋ねるシンプルかつ柔軟な方法であるCLAIR-Aを提案します。評価では、CLAIR-Aは、ドメイン固有のFENSEメトリクスに比べて人間の品質判断をよりよく予測し、Clotho-Evalデータセットにおいて一般的な最良指標よりも最大11%向上する5.8%の相対精度向上を達成しました。さらに、CLAIR-Aは、言語モデルにスコアの背後にある推論を説明させることで、これらの説明がベースライン手法が提供するものよりも、人間の評価者によって最大30%向上した透明性を提供します。CLAIR-Aは、https://github.com/DavidMChan/clair-a で一般に利用可能です。