翻訳付きの日次キュレーションされたAI研究論文
最近、高品質なビデオをリファレンス画像とターゲットポーズシーケンスから生成するキャラクター画像アニメーションは、著しい進歩を遂げています。しかしながら、ほとんどの既存手法は人物像にのみ適用され、一般的にゲームやエンターテイメント業界で使用される人型キャラクターには適用しにくい傾向があります。当該制限の原因は、動きのモデリングが不十分であり、駆動ビデオの動きパターンを理解できず、従ってポーズシーケンスをターゲットキャラクターに硬直してしまうことにあると、私たちの詳細な分析は示唆しています。この論文では、これに対処するために、人型キャラクターを含むさまざまなキャラクタータイプ(総称してXと呼ぶ)に対応する、LDMに基づく汎用アニメーションフレームワークであるAnimate-Xを提案します。動き表現を向上させるために、駆動ビデオから包括的な動きパターンを捉えるPose Indicatorを導入します。前者は、駆動ビデオのCLIPビジュアル特徴を活用して、全体的な動きパターンや動き間の時間的関係など、その動きの要点を抽出します。一方、後者は、推論中に発生する可能性のある入力を事前にシミュレートすることで、LDMの汎化を強化します。さらに、汎用的かつ広く適用可能なアニメーション画像に対するAnimate-Xの性能を評価するために、新しいAnimated Anthropomorphic Benchmark(A^2Bench)を導入します。幅広い実験により、Animate-Xの優位性と効果が、最先端の手法と比較して示されました。
AI生成コンテンツの急速な発展に伴い、将来のインターネットは合成データであふれ、本物と信頼性のある多様なデータを区別することがますます困難になるかもしれません。そのため、合成データの検出は広範な注目を集め、大規模な多様なモデル(LMMs)のこのタスクにおける性能が大きな関心を集めています。LMMsは、合成コンテンツの検出の説明可能性を高めるために、その信頼性判断に対する自然言語の説明を提供できます。同時に、実データと合成データを区別するタスクは、LMMsの知覚、知識、および推論能力を効果的にテストします。このため、私たちはLMMsの合成データ検出能力を評価するために設計された新しいベンチマークLOKIを紹介します。LOKIは、ビデオ、画像、3D、テキスト、オーディオのモダリティを含み、26のサブカテゴリーにまたがる18,000の注意深く選定された質問をカバーしています。このベンチマークには、粗い判断と多肢選択問題、さらに細かい異常選択と説明タスクが含まれており、LMMsの包括的な分析が可能です。私たちは22のオープンソースLMMsと6つのクローズドソースモデルをLOKIで評価し、彼らの合成データ検出としての潜在能力を強調し、またLMM機能の開発におけるいくつかの制限も明らかにしました。LOKIに関する詳細情報は、https://opendatalab.github.io/LOKI/ で入手できます。
交互された多モーダルの理解と生成は、モデルが画像とテキストを任意の順序で生成および解釈できるようにすることで、多モーダル学習における重要な分野となっています。重要な進歩がある一方で、この能力の評価は不十分なままです。既存のベンチマークはデータの規模、範囲、評価の深さに制限があり、現在の評価メトリクスはしばしばコストがかかったり偏りがあり、実用的なアプリケーションにおいて信頼性が欠如しています。これらの課題に対処するために、私たちはMMIEを導入します。これは、大規模な知識集約型ベンチマークであり、大規模ビジョン言語モデル(LVLMs)における交互された多モーダルの理解と生成を評価するためのものです。MMIEには、数学、コーディング、物理学、文学、健康、芸術などを含む、3つのカテゴリ、12のフィールド、102のサブフィールドにわたる、厳密にキュレーションされた多モーダルクエリが20,000件含まれています。これは、交互に入力と出力をサポートし、多肢選択と開放形式の質問形式の組み合わせを提供し、さまざまな能力を評価します。さらに、信頼性の高い自動評価メトリクスを提案し、人手による注釈付きデータと体系的な評価基準で微調整されたスコアリングモデルを活用して、偏りを減らし評価の精度を向上させることを目指しています。幅広い実験により、当社のベンチマークとメトリクスが交互LVLMsの包括的な評価を提供する効果を実証します。具体的には、8つのLVLMsを評価し、最も優れたモデルでも改善の余地があること、ほとんどのモデルが中程度の結果にとどまることが明らかになりました。MMIEが交互LVLMsの開発のさらなる進歩を促進すると信じています。当社のベンチマークとコードはhttps://mmie-bench.github.io/で公開されています。
自然な指示に従うことは、検索増強生成(RAG)システムの効果的な適用にとって重要です。大規模言語モデル(LLM)の最近の進歩にもかかわらず、RAG領域内の指示に従う(IF)整合性を評価し改善する研究は限られています。この問題に対処するために、我々はVIF-RAGを提案します。これは、RAGシステム内の指示に従う整合性のための自動化された、スケーラブルで検証可能な合成パイプラインです。最初に、原子的な指示の最小セット(<100)を手作業で作成し、種子セットの複雑な指示を合成して検証するための組み合わせ規則を開発します。次に、監督モデルを使用して指示の書き換えを行い、同時にPython実行プログラムを使用して指示の品質を自動的に検証するコードを生成します。最後に、これらの指示を包括的なRAGおよび一般的なデータサンプルと統合し、自動プロセスを介して高品質のVIF-RAG-QAデータセット(>100k)にスケーリングします。RAGシステムの指示に従う自動評価のギャップをさらに埋めるために、約3Kのテストサンプルを含むFollowRAG Benchmarkを導入します。これは、一般的な指示制約の22カテゴリと4つの知識集約型QAデータセットをカバーしています。堅牢なパイプライン設計により、FollowRAGは異なるRAGベンチマークとシームレスに統合できます。FollowRAGとLLMの8つの広く使用されているIFおよび基本的な能力ベンチマークを使用して、VIF-RAGが幅広い一般的な指示制約においてLLMの性能を著しく向上させ、RAGシナリオでその能力を効果的に活用していることを示します。さらなる分析により、RAGシステムにおけるIF整合性の達成に向けた実用的な洞察が提供されます。当該コードおよびデータセットは、https://FollowRAG.github.io で公開されています。
私たちは、MEGA-Benchを提案します。これは、500以上の実世界のタスクにスケーリングされた評価スイートであり、エンドユーザーの高度に異質な日常的な使用ケースに対応しています。私たちの目標は、高品質のデータサンプルセットを最適化し、多様で豊富な複数モーダルタスクをカバーする一方で、費用対効果の高い正確なモデル評価を実現することです。具体的には、16人の専門アノテーターから8,000以上のサンプルを含む505のリアルなタスクを収集し、複数モーダルタスク空間を包括的にカバーしています。MMMユーザ、MMBench、MMT-Benchのような標準的な多肢選択問題にこれらの問題を統合する代わりに、数字、フレーズ、コード、\LaTeX、座標、JSON、フリーフォームなど、幅広い出力形式を採用しています。これらの形式に対応するために、40以上のメトリクスを開発し、これらのタスクを評価しています。既存のベンチマークとは異なり、MEGA-Benchは、アプリケーション、入力タイプ、出力形式、スキルなど、複数の次元にわたる細かい能力レポートを提供し、ユーザーがモデルの能力を深くインタラクティブに理解し、視覚化できるようにしています。MEGA-Benchで、さまざまな最先端のビジョン言語モデルを評価し、これらの次元にわたる能力を理解しています。
最近の大規模言語モデル(LLM)の進歩により、数学的推論能力において重要な突破がもたらされています。ただし、GSM8KやMATHなどの既存のベンチマークは、高い精度で解かれるようになり(例えば、OpenAI o1はMATHデータセットで94.8%を達成)、これらのモデルに真に挑戦するには不十分であることが示されています。このギャップを埋めるために、私たちは、LLMの数学的推論能力をオリンピアードレベルで評価するために特に設計された包括的で厳しいベンチマークを提案します。既存のオリンピアード関連のベンチマークとは異なり、当社のデータセットは数学に特化し、厳密な人間による注釈を施した4428の競技レベルの問題の広範なコレクションから構成されています。これらの問題は33以上のサブドメインに細分化され、10以上の異なる難易度レベルにわたり、オリンピアード数学推論のモデルパフォーマンスを包括的に評価することを可能にしています。さらに、このベンチマークに基づいた詳細な分析を実施しました。実験結果によると、最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでも、非常に困難なオリンピアードレベルの問題に苦戦し、それぞれ60.54%と52.55%の精度にとどまり、オリンピアードレベルの数学的推論における重要な課題が浮き彫りになっています。
生成モデルはランダムノイズを画像に変換します。その逆変換は、画像を構造化されたノイズに戻して回復や編集を目指します。本論文では、リアル画像の逆変換と編集を扱います。これには、リクティファイドフローモデル(Fluxなどの確率的な等価物)が使われます。最近、拡散モデル(DMs)が画像の生成モデリング分野で主導的でしたが、その逆変換は、ドリフトと拡散の非線形性による忠実性と編集可能性の課題があります。既存の最先端のDM逆変換手法は、追加パラメータのトレーニングや潜在変数のテスト時最適化に依存しており、いずれも実践的にはコストがかかります。リクティファイドフロー(RF)は、拡散モデルに有望な代替手法を提供しますが、その逆変換は未開拓の領域です。我々は、線形二次レギュレーターを用いて導出された動的最適制御を用いてRF逆変換を提案します。その結果得られるベクトル場がリクティファイド確率微分方程式と等価であることを証明します。さらに、Flux用の確率的サンプラーを設計するために我々のフレームワークを拡張します。当社の逆変換手法は、ゼロショット逆変換や編集において最先端の性能を実現し、ストロークから画像合成や意味的画像編集において従来の手法を上回り、大規模なユーザー評価によりユーザーの好みが確認されています。
ウェブからスクレイピングしたデータを用いたマルチモーダルモデルの大規模トレーニングは、これらのモデルに必要な世界知識を注入し、複数の後段タスクで効果的に機能するための優れた有用性を示しています。ただし、ウェブからデータをスクレイピングする際の欠点の1つは、これらのモデルの能力がしばしば評価されるベンチマークの潜在的な犠牲です。テストデータの汚染を防ぎ、これらの基盤モデルの能力を真にテストするために、私たちはLiveXivを提案します。これは、科学的なArXiv論文に基づくスケーラブルで進化するライブベンチマークです。LiveXivは、任意のタイムスタンプで特定の領域の原稿にアクセスし、ビジュアルな質問-回答ペア(VQA)を自動生成することを提案しています。これは、グラフ、チャート、表などの原稿内のマルチモーダルコンテンツを使用して、ヒューマン・イン・ザ・ループなしに行われます。さらに、我々は、進化するベンチマーク上のすべてのモデルのパフォーマンスを、モデルのサブセットの評価のみを使用して推定する効率的な評価手法を導入しています。これにより、全体的な評価コストが大幅に削減されます。私たちは、初版のベンチマークで複数のオープンおよびプロプライエタリな大規模マルチモーダルモデル(LMMs)をベンチマークに掲載し、その難しさを示し、モデルの真の能力を明らかにし、汚染を回避しています。最後に、高品質への取り組みとして、手動で検証されたサブセットを収集し評価しています。全体的な結果を自動注釈と比較することで、パフォーマンスのばらつきは実際に最小限であることを確認しました(<2.5%)。私たちのデータセットはHuggingFaceでオンラインで利用可能であり、コードはこちらで入手可能です。
Retrieval-augmented generation(RAG)は、大規模言語モデル(LLM)が生成のために外部知識源を活用することを可能にする効果的な技術です。ただし、現在のRAGシステムはテキストにのみ基づいており、レイアウトや画像などのビジョン情報を活用することが不可能であり、これらは実世界のマルチモダリティ文書で重要な役割を果たしています。本論文では、この問題に取り組むために、ビジョン言語モデル(VLM)ベースのRAGパイプラインであるVisRAGを紹介します。このパイプラインでは、ドキュメントを最初にテキストを取得するのではなく、VLMを画像として直接埋め込んでから、VLMの生成を強化するために取得します。従来のテキストベースのRAGと比較して、VisRAGは元のドキュメントのデータ情報の保持と活用を最大化し、解析プロセス中に導入される情報損失を排除します。VisRAGでリトリーバを訓練するためにオープンソースおよび合成データを収集し、さまざまな生成方法を探ります。実験では、VisRAGが従来のRAGをリトリーバおよび生成段階の両方で上回り、従来のテキストベースのRAGパイプラインに比べてエンドツーエンドの性能が25〜39%向上します。さらなる分析から、VisRAGは訓練データを活用し、強力な汎化能力を示すことが明らかとなり、マルチモダリティ文書におけるRAGの有望な解決策として位置付けられます。当該コードおよびデータはhttps://github.com/openbmb/visrag で入手可能です。
近年、画像から動画への生成において顕著な進展が見られています。しかし、生成されたフレームの3Dの整合性とカメラ制御可能性は未解決のままです。最近の研究では、生成プロセスにカメラ制御を組み込む試みがなされていますが、その結果はしばしば単純な軌跡に限定されたり、同じシーンに対して複数の異なるカメラパスから一貫したビデオを生成する能力が欠けていることがあります。これらの制限に対処するために、私たちはCaviaを導入します。これは、入力画像を複数の時空的に整合したビデオに変換できるカメラ制御可能なマルチビュー動画生成の革新的なフレームワークです。当フレームワークは、空間的および時間的な注意モジュールをビュー統合された注意モジュールに拡張し、視点と時間の整合性の両方を向上させます。この柔軟な設計により、シーンレベルの静的ビデオ、オブジェクトレベルの合成されたマルチビュー動的ビデオ、および実世界の単眼動的ビデオなど、多様なキュレーションされたデータソースと共に共同トレーニングが可能です。私たちの最良の知識によれば、Caviaは、オブジェクトの動きを取得しながらユーザーがカメラの動きを正確に指定できる初めてのものです。包括的な実験により、Caviaが幾何学的整合性と知覚品質の面で最先端の手法を凌駕していることが示されています。プロジェクトページ:https://ir1d.github.io/Cavia/
LLM(Large Language Models)は通常、ユーザーの質問に回答したり、人間の専門家が応答するのと同様に指示に従ったりするために訓練されます。ただし、標準の整合フレームワークでは、回答する前に明示的な思考能力が欠如しています。思考は、推論や計画が必要な複雑な質問に重要ですが、任意のタスクに適用することができます。我々は、既存のLLMにそのような思考能力を備えた一般的な指示に従うためのトレーニング方法を提案しますが、追加の人間データを使用せずに行います。これを実現するために、可能な思考生成の空間を探索する反復的な検索および最適化手法を用い、モデルが直接の監督なしに思考する方法を学習するようにします。各指示に対して、思考候補は、その回答のみを評価するために判定モデルを使用してスコア付けされ、その後好みの最適化を経て最適化されます。この手法がAlpacaEvalとArena-Hardで優れたパフォーマンスを示し、マーケティング、健康、一般的な知識などの非推論カテゴリにおける思考の利点を示し、従来の推論や問題解決タスクに加えて優れた結果をもたらすことを示します。
多様なモーダルビデオの理解と生成において、微細な時間ダイナミクスを理解することは重要です。微細な時間アノテーションの不足により、既存のビデオベンチマークは主に静止画像ベンチマークに似ており、時間理解モデルの評価には不適格です。本論文では、ビデオ内の微細な時間理解を評価するために専用の新しいベンチマークであるTemporalBenchを紹介します。TemporalBenchは、ビデオクリップ内の時間ダイナミクスを詳細に示す約2,000の高品質な人間のアノテーションから派生した約10,000のビデオ質問回答ペアで構成されています。このため、当社のベンチマークは、アクション頻度、モーションの大きさ、イベントの順序などの様々な時間理解および推論能力の評価に対する独自のテストベッドを提供します。さらに、ビデオ質問応答やキャプショニング、短いビデオ理解や長いビデオ理解など、さまざまなタスクや、マルチモーダルビデオ埋め込みモデルやテキスト生成モデルなどの異なるモデルの評価を可能にします。結果は、GPT-4oなどの最先端モデルがTemporalBenchで質問回答の正解率がわずか38.5%しか達成していないことを示し、時間理解において人間とAIの間に30%の大きなギャップがあることを示しています。さらに、LLMが否定的なキャプションの微妙な変化を検出し、予測の手掛かりとして中央集権的な説明を見つける多選択QAの重要な落とし穴に気付き、その偏りを修正するためにMultiple Binary Accuracy(MBA)を提案しています。TemporalBenchがモデルの時間推論能力の向上に関する研究を促進することを期待しています。データセットと評価コードは公開されます。
監督されたファインチューニング(SFT)は、大規模言語モデル(LLM)を人間の指示に合わせるために重要です。SFT中の主な目標は、より大きなデータプールからトレーニングデータの小さなが代表的なサブセットを選択し、このサブセットでのファインチューニングによって、全データセットを使用した場合と同等またはそれ以上の結果が得られるようにすることです。しかし、既存のデータ選択技術のほとんどは、小規模のデータプール向けに設計されており、実世界のSFTシナリオの要求を満たすことができません。本論文では、外部モデルの支援に依存しないいくつかの自己スコアリング手法を、200万規模のデータセットで再現しました。その結果、ほとんどの手法が、このような大規模データプールを扱う際にランダム選択を大きく上回ることができないことがわかりました。さらに、比較から、SFT中において、データ選択の多様性が単に高品質データに焦点を当てるよりも重要であることが示唆されます。また、いくつかの現行アプローチの限界を分析し、なぜこれらが大規模データセットでパフォーマンスが低く、そのような状況に適していないのかを説明しました。最後に、トークン長によるデータのフィルタリングが結果を改善するための安定かつ効率的な方法であることがわかりました。特に、長いテキストデータでトレーニングする際には、Llama3などの比較的弱いベースモデルにとって非常に有益です。
最近の大規模言語モデル(LLM)駆動のチャットアシスタントシステムは、ユーザーとアシスタントのチャット履歴を追跡するためのメモリコンポーネントを統合し、より正確で個人に適した応答を可能にしています。しかし、持続的な対話における長期メモリ機能は未だ未開拓です。本論文では、チャットアシスタントの5つの主要な長期メモリ能力を評価するために設計された包括的なベンチマークであるLongMemEvalを紹介します。それらは、情報抽出、マルチセッション推論、時間推論、知識更新、および棄権です。自由にスケーラブルなユーザーとアシスタントのチャット履歴に埋め込まれた500の細心に選定された質問を備えたLongMemEvalは、既存の長期メモリシステムにとって重要な課題を提供します。商用チャットアシスタントや長いコンテキストのLLMは、持続的な対話を通じて情報を記憶する際に30%の精度低下を示します。次に、長期メモリ設計を索引付け、検索、および読み取り段階にわたる4つの設計選択に分解する統一フレームワークを提案します。主要な実験的洞察に基づいて構築されたこれらの最適化には、値の粒度を最適化するためのセッション分解、インデックス構造を強化するための事実増強キー拡張、および検索範囲を洗練するための時間に敏感なクエリ拡張が含まれます。実験結果は、これらの最適化がLongMemEvalにおけるメモリリコールとダウンストリーム質問応答の両方を大幅に改善することを示しています。総じて、当研究は、LLMベースのチャットアシスタントの長期メモリ能力を向上させるための貴重なリソースとガイダンスを提供し、より個人に適した信頼性の高い会話型AIに向けた道筋を示しています。
大規模なビジョン言語モデル(VLMs)の出現は、視覚とテキスト情報をより洗練された方法で統合することを可能にし、画像キャプショニング、ビジュアル質問応答、クロスモーダル検索を含むさまざまなタスクで、多面的理解を大幅に前進させました。VLMsの優れた機能にもかかわらず、研究者はそれらの合成能力について包括的な理解を欠いています。つまり、既知の視覚とテキスト要素の新しい組み合わせを理解し、生成する能力です。従来のベンチマークは、対象、関係、属性の観点から比較的粗い合成性評価のみを提供しており、対象の相互作用、数え上げ、複雑な組み合わせについての深い推論を無視しています。しかし、合成能力は、VLMsにとって異なるモダリティ間での一貫した推論と理解を促進する重要な能力です。この制限に対処するために、私たちはMMCOMPOSITIONを提案します。これは、VLMsの合成能力を包括的かつ正確に評価するための新しい人間注釈付きベンチマークです。私たちの提案するベンチマークは、これら以前の研究を補完します。MMCOMPOSITIONを使用することで、主要なVLMsの合成能力を定量化し、探索することができます。驚くべきことに、私たちはGPT-4oの合成能力が最高のオープンソースモデルに劣っていることがわかり、その根本的な理由を分析しています。実験分析により、VLMsの微細な合成的知覚と推論の制限が明らかになり、VLMの設計とトレーニングの改善点が示唆されます。リソースはこちらで入手可能:https://hanghuacs.github.io/MMComposition/
大規模言語モデル(LLMs)は、文脈に即した学習を通じて、複数のタスクで顕著なパフォーマンスを示しています。段階的思考が必要な複雑な推論タスクにおいては、Chain-of-Thought(CoT)プロンプティングが、特に自己整合性と組み合わされた際に印象的な結果をもたらしています。それにもかかわらず、一部のタスクはLLMsにとって特に難しいままです。Thoughts of Tree(ToT)およびThoughts of Graph(GoT)は、複雑な問題をサブ問題のパスに分割する代替手段として登場しました。本論文では、ToTのより単純なバージョンであるTree of Problems(ToP)を提案し、同一のサブタスクに分割できる複雑なタスクに対してより良い機能を発揮すると仮説立てています。実証結果は、提案手法がToTおよびGoTを上回り、さらにCoTよりも複雑な推論タスクで優れたパフォーマンスを発揮することを示しています。本論文のすべてのコードは、こちらで公開されています:https://github.com/ArmelRandy/tree-of-problems。
長い文脈を持つ大規模言語モデル(LLM)を展開することは重要ですが、膨大な計算とメモリの課題を引き起こします。すべての注意ヘッドにわたるすべてのKeyとValue(KV)状態をキャッシュすることは、膨大なメモリを消費します。既存のKVキャッシュの剪定方法は、LLMの長い文脈能力を損なうか、効率の改善が限定されるものです。本論文では、ごく一部の注意ヘッド、すなわち、検索ヘッドとして知られるものが、長い文脈を処理する際に重要であり、すべてのトークンにわたって完全な注意を必要とすることを特定します。それに対し、最近のトークンと注意の焦点である他のすべてのヘッド、すなわち、ストリーミングヘッドは、完全な注意を必要としません。この洞察に基づいて、我々はDuoAttentionを導入します。これは、検索ヘッドにのみ完全なKVキャッシュを適用し、ストリーミングヘッドには軽量で一定長のKVキャッシュを使用するフレームワークです。これにより、LLMのデコーディングと事前充填のメモリと遅延が削減され、長い文脈能力が損なわれることなく、効率が向上します。DuoAttentionは、軽量で最適化ベースのアルゴリズムを使用し、合成データを用いて検索ヘッドを正確に特定します。当社の手法は、MHAモデルに対して最大2.55倍、GQAモデルに対して最大1.67倍の長い文脈推論メモリを削減し、デコーディングを最大2.18倍、1.50倍、事前充填を最大1.73倍、1.63倍高速化します。これにより、完全な注意と比較して最小限の精度損失で、Llama-3-8Bのデコーディングを単一のA100 GPUで330万のコンテキスト長で実現します。コードはhttps://github.com/mit-han-lab/duo-attentionで提供されています。
多様な環境で自律運転が可能なヒューマノイドロボットは、長らくロボティクスの目標でした。しかしながら、ヒューマノイドロボットによる自律操作は、一般化可能なスキルを獲得する難しさから、主に特定のシーンに制限されてきました。最近の3D視覚モーターポリシー、例えば3Dディフュージョンポリシー(DP3)などの進歩により、これらの能力をより広範な環境に拡張する可能性が示されています。しかしながら、3D視覚モーターポリシーは、しばしばカメラキャリブレーションやポイントクラウドセグメンテーションに依存しており、これはヒューマノイドなどの移動ロボットに展開する際に課題を提起しています。本研究では、これらの制約を排除するために内観的3D視覚表現を活用する新しい3D視覚モーターポリシーである改良3Dディフュージョンポリシー(iDP3)を紹介します。iDP3により、ラボで収集されたデータのみを使用して、フルサイズのヒューマノイドロボットが多様な実世界シナリオでスキルを自律的に実行できることを示します。動画は以下でご覧いただけます:https://humanoid-manipulation.github.io
大規模言語モデルは、ビジョンモデルと統合されることで印象的なパフォーマンスを発揮し、ビデオ理解さえ可能にしています。ただし、これらのビデオモデルを評価することには独自の課題があり、そのためにいくつかのベンチマークが提案されています。本論文では、現在最も使用されているビデオ言語ベンチマークが、時間的推論をほとんど必要とせずに解決できることを示します。既存のデータセットには、次の3つの主要な問題点が特定されました:(i) 単一フレームからの静的情報だけでタスクを解決するのに十分なことが多いこと、(ii) 質問と候補回答のテキストが過剰に情報提供されており、モデルが視覚的入力に依存せずに正しく回答できること、(iii) 世界知識だけで多くの質問に回答できることで、ベンチマークは視覚的推論ではなく知識複製のテストとなっています。さらに、ビデオ理解のためのオープンエンドの質疑応答ベンチマークも同様の問題を抱えており、LLMによる自動評価プロセスは信頼性に欠けるため、適切な代替手段とはなりません。その解決策として、我々はTVBenchを提案します。これは新しいオープンソースのビデオ多肢選択質疑応答ベンチマークであり、広範な評価を通じて高度な時間理解が必要であることを示しています。驚くべきことに、最近の最先端のビデオ言語モデルのほとんどがTVBenchでランダムなパフォーマンスと同等の結果を示し、Gemini-ProとTarsierのみがこのベースラインを明らかに上回っていることがわかりました。
機械的解釈可能性から新しいツールを用いて、大規模言語モデル(LLMs)の内部構造が、それらが訓練された言語の基盤となる言語構造と対応しているかどうかを問う。具体的には、(1)2つの言語が同じ形態-統語的プロセスを使用する場合、LLMsはそれらを共有の内部回路を用いて処理するか?そして(2)2つの言語が異なる形態-統語的プロセスを必要とする場合、LLMsは異なる内部回路を用いてそれらを処理するか?英語と中国語の多言語および単言語モデルを用いて、2つのタスクに関与する内部回路を分析する。我々は、モデルが同じ構文プロセスを処理するために同じ回路を使用し、それが発生する言語に関係なく、さらに、完全に独立して訓練された単言語モデルにも当てはまる証拠を見つける。さらに、多言語モデルが、一部の言語にのみ存在する言語プロセス(例:形態的マーキング)を処理するために必要な場合、言語固有の構成要素(注意ヘッドおよびフィードフォワードネットワーク)を使用することを示す。これらの結果は、LLMsが複数の言語を同時にモデリングする際に、共通の構造を活用するとともに言語の違いを維持する方法について新しい洞察を提供する。
LayerNormは、現代の大規模言語モデル(LLM)において、トレーニングの安定化と滑らかな最適化を確保するための重要な要素です。ただし、それは機械的な解釈可能性、外れ値特徴の抑制、忠実な信号伝播、およびプライベート推論の計算および通信の複雑さに重要な課題をもたらします。この研究は、正規化フリーのデコーダー専用LLMにおける望ましい活性化関数を探求しています。従来のトランスフォーマーベースモデルにおけるGELUへの一般的な好みとは対照的に、我々の経験的な結果は「逆の傾向」を示しており、LayerNormフリーモデルにおいてReLUがGELUを大幅に上回り、パープレキシティが8.2%改善されています。我々は、GELUに関する重要な問題を発見しました。早い段階のレイヤーがエントロピックな過負荷を経験し、アテンションヘッドの表現能力の未使用につながっています。これは、GELUのような滑らかな活性化関数はLayerNormフリーアーキテクチャには適していない一方、ReLUの幾何学的特性(入力空間での特殊化とクラス内選択性)は、LayerNormのない状況での改善された学習ダイナミクスと情報の保持をもたらします。この研究は、LayerNormが重要な課題を導入するトランスフォーマーアーキテクチャの最適化に向けた重要な洞察を提供しています。
一般的なアクションモデル(LAPA)のための潜在アクション事前トレーニングを紹介します。これは、地面の真実のロボットアクションラベルがない状態で、Vision-Language-Action(VLA)モデルを事前トレーニングするための教師なし手法です。既存のVision-Language-Actionモデルは、通常、事前トレーニング中に人間のテレオペレーターによって収集されるアクションラベルが必要であり、これは可能なデータソースとスケールを大幅に制限します。この研究では、ロボットアクションラベルのないインターネット規模のビデオから学習する方法を提案しています。最初に、画像フレーム間の離散的な潜在アクションを学習するためにVQ-VAEベースの目的を活用したアクション量子化モデルをトレーニングし、次に、これらの潜在アクションを観察とタスクの説明から予測するための潜在VLAモデルを事前トレーニングし、最後に、潜在からロボットアクションへのマッピングを行うために、小規模なロボット操作データでVLAを微調整します。実験結果は、当社の手法が大規模なビデオからロボット操作ポリシーをトレーニングする既存の技術を大幅に上回ることを示しています。さらに、言語の条件付け、未知のオブジェクトへの一般化、未知の命令への意味論的一般化が必要な実世界の操作タスクでロボットアクションラベルでトレーニングされた最先端のVLAモデルを上回っています。人間の操作ビデオのみでトレーニングした結果もポジティブな転送が示され、ロボティクス基盤モデルにおいてWebスケールのデータを活用する可能性が開かれています。