翻訳付きの日次キュレーションされたAI研究論文
人工知能のグランドチャレンジの一つは、科学的な研究を行い新たな知識を発見できるエージェントを開発することです。最先端のモデルはすでに人間の科学者を支援するために使用されていますが、例えばアイデアのブレインストーミング、コードの作成、予測タスクなど、科学プロセスのごく一部しか実行していません。本論文は、最先端の大規模言語モデルが独立して研究を行い、その発見を伝えることができる完全自動化された科学的発見のための初の包括的なフレームワークを提示します。私たちは「AI Scientist」を紹介します。これは、新たな研究アイデアを生成し、コードを書き、実験を実行し、結果を可視化し、完全な科学論文を執筆してその発見を記述し、評価のためにシミュレートされた査読プロセスを実行します。原理的には、このプロセスを繰り返すことで、人間の科学コミュニティのように、オープンエンドでアイデアを反復的に発展させることができます。私たちは、拡散モデリング、トランスフォーマーベースの言語モデリング、学習ダイナミクスという機械学習の3つの異なるサブフィールドに適用することで、その汎用性を実証します。各アイデアは実装され、論文1本あたり15ドル未満のコストで完全な論文に発展します。生成された論文を評価するために、自動化された査読者を設計し、その査読者が論文スコアの評価において人間に近い性能を達成することを示します。AI Scientistは、私たちの自動化された査読者が判断するトップの機械学習会議の採択基準を超える論文を生成することができます。このアプローチは、機械学習における科学的発見の新たな時代の始まりを示しています。AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界の最も困難な問題に対して無限の手頃な創造性と革新を解き放つ世界に私たちを近づけます。私たちのコードはhttps://github.com/SakanaAI/AI-Scientistでオープンソース化されています。
本論文では、ファインチューニングや上位モデルを必要とせずに、小型言語モデル(SLM)の推論能力を大幅に向上させる自己対戦型相互推論アプローチ「rStar」を紹介する。rStarは、推論を自己対戦型の生成-識別プロセスに分離する。まず、ターゲットSLMがモンテカルロ木探索(MCTS)を人間のような豊富な推論アクションで拡張し、より高品質な推論軌道を構築する。次に、ターゲットSLMと同等の能力を持つ別のSLMが識別器として機能し、ターゲットSLMによって生成された各軌道を検証する。相互に合意された推論軌道は相互に一貫していると見なされ、正しい可能性が高い。5つのSLMにわたる広範な実験により、rStarがGSM8K、GSM-Hard、MATH、SVAMP、StrategyQAなど多様な推論問題を効果的に解決できることが示された。特に、rStarはLLaMA2-7BのGSM8K精度を12.51%から63.91%に、Mistral-7Bを36.46%から81.88%に、LLaMA3-8B-Instructを74.53%から91.13%に向上させた。コードはhttps://github.com/zhentingqi/rStarで公開予定である。
拡散モデルは、画像および動画生成において顕著で堅牢な能力を実証してきました。生成結果に対するより高度な制御を実現するため、研究者たちはControlNet、Adapters、ReferenceNetなどの追加アーキテクチャを導入し、条件付け制御を統合しています。しかし、現在の制御可能な生成手法は、特に動画生成において、大幅な追加計算リソースを必要とし、トレーニングにおける課題や弱い制御に直面しています。本論文では、制御可能な画像および動画生成のための強力で効率的な手法であるControlNeXtを提案します。まず、より簡潔で効率的なアーキテクチャを設計し、ベースモデルと比較して最小限の追加コストで重い追加ブランチを置き換えます。この簡潔な構造により、追加のトレーニングを必要とせずにスタイル変更を可能にする他のLoRA重みとシームレスに統合することができます。トレーニングに関しては、代替手法と比較して最大90%の学習可能なパラメータを削減します。さらに、高速で安定したトレーニング収束を実現するために、Zero-Convolutionの代替としてCross Normalization(CN)と呼ばれる別の手法を提案します。画像と動画にわたるさまざまなベースモデルを用いた実験を行い、本手法の堅牢性を実証しました。
Med42-v2は、医療現場における汎用モデルの限界に対処するために設計された一連の臨床用大規模言語モデル(LLM)を導入しています。これらのモデルはLlama3アーキテクチャを基盤としており、専門的な臨床データを用いてファインチューニングされています。自然なプロンプトに効果的に対応するために、多段階の選好アライメントを経ています。汎用モデルは予防策として臨床的な質問に答えないように選好アライメントされることが多いですが、Med42-v2はこの限界を克服するために特別に訓練されており、臨床現場での使用を可能にしています。Med42-v2モデルは、8Bおよび70Bパラメータ構成のオリジナルLlama3モデルやGPT-4と比較して、さまざまな医療ベンチマークで優れた性能を示しています。これらのLLMは、臨床的な質問を理解し、推論タスクを実行し、臨床環境で有益な支援を提供するために開発されています。これらのモデルは現在、https://huggingface.co/m42-health{https://huggingface.co/m42-health}で公開されています。
CogVideoXを紹介します。これは、テキストプロンプトに基づいて動画を生成するために設計された大規模な拡散トランスフォーマーモデルです。動画データを効率的にモデル化するために、空間的および時間的次元に沿って動画を圧縮する3D変分オートエンコーダ(VAE)を活用することを提案します。テキストと動画の整合性を向上させるために、エキスパートトランスフォーマーとエキスパート適応型LayerNormを提案し、二つのモダリティ間の深い融合を促進します。段階的なトレーニング技術を採用することで、CogVideoXは、大幅な動きを特徴とする一貫性のある長時間の動画を生成するのに適しています。さらに、様々なデータ前処理戦略と動画キャプショニング方法を含む効果的なテキスト-動画データ処理パイプラインを開発します。これは、CogVideoXのパフォーマンスを大幅に向上させ、生成品質と意味的整合性の両方を改善するのに役立ちます。結果は、CogVideoXが複数の機械的メトリクスと人間の評価の両方で最先端のパフォーマンスを示すことを示しています。3D因果VAEとCogVideoXのモデル重みは、https://github.com/THUDM/CogVideoで公開されています。
本論文では、FruitNeRFという統一的な果実計数フレームワークを紹介します。このフレームワークは、最先端の視点合成手法を活用し、任意の果実タイプを直接3D空間で計数します。本フレームワークは、単眼カメラで撮影されたポーズ付き画像の無秩序なセットを入力とし、各画像内の果実をセグメンテーションします。果実タイプに依存しないシステムを実現するため、任意の果実に対して二値セグメンテーションマスクを生成するファウンデーションモデルを採用しています。RGBとセマンティックの両モダリティを活用し、セマンティックニューラルラジアンスフィールドを学習します。暗黙的なFruit Fieldを均一な体積サンプリングすることで、果実のみの点群を取得します。抽出された点群にカスケードクラスタリングを適用することで、正確な果実計数を実現します。ニューラルラジアンスフィールドの使用は、オブジェクトトラッキングやオプティカルフローといった従来手法に対して大きな利点を提供します。なぜなら、計数そのものが3D空間に持ち上げられるからです。本手法は、果実の二重計数を防ぎ、無関係な果実の計数を回避します。本手法は、実世界データセットと合成データセットの両方を用いて評価を行いました。実世界データセットは、手動で計数されたグラウンドトゥルースを持つ3本のリンゴの木と、1列分のリンゴとその果実位置のグラウンドトゥルースを持つベンチマークリンゴデータセットで構成されています。一方、合成データセットは、リンゴ、プラム、レモン、梨、桃、マンゴーなど様々な果実タイプを含んでいます。さらに、ファウンデーションモデルとU-Netを用いた果実計数の性能を比較評価しました。
大規模マルチモーダルモデル(LMMs)は、言語と視覚の能力を統合し、高度に有能な視覚基盤エージェントを形成することで、人工知能の新たな時代を切り開きました。これらのエージェントは、多様なタスクにおいて優れた性能を発揮し、汎用人工知能に近づく可能性があるとされています。しかし、既存のベンチマークは、複雑な現実世界の環境においてLMMsの真の潜在能力を十分に試したり、示したりするには至っていません。このギャップを埋めるため、我々はVisualAgentBench(VAB)を導入します。これは、LMMsを視覚基盤エージェントとして多様なシナリオ(具体化、グラフィカルユーザーインターフェース、視覚デザインなど)で訓練・評価するために特別に設計された包括的で先駆的なベンチマークであり、LMMsの理解力と相互作用能力の深さを探るタスクを提供します。9つの独自LMM APIと8つのオープンモデルを対象とした厳密なテストを通じて、これらのモデルのエージェント能力が相当なものの、まだ発展途上であることを示します。さらに、VABは、プログラムベースのソルバー、LMMエージェントのブートストラップ、人間によるデモンストレーションを含むハイブリッド手法で構築された軌跡訓練セットを提供し、行動クローニングを通じてLMMsの大幅な性能向上を促進します。我々の研究は、既存のモデルをベンチマークするだけでなく、視覚基盤エージェントの将来の発展に向けた堅固な基盤を提供することを目指しています。コード、訓練・テストデータ、および一部のファインチューニングされたオープンLMMsは、https://github.com/THUDM/VisualAgentBench で公開されています。
本論文では、高忠実度かつアニメーション可能なロバスト性を備えた、少数の実世界データから汎化可能な新しい3Dヘッドアバター作成手法を提案する。この問題の制約が少ない性質を考慮し、事前知識の組み込みが不可欠である。そこで、事前学習フェーズとアバター作成フェーズから構成されるフレームワークを提案する。事前学習フェーズでは、大規模なマルチビューダイナミックデータセットから導出された3Dヘッド事前情報を活用し、アバター作成フェーズではこれらの事前情報を少数ショットのパーソナライゼーションに適用する。我々の手法は、パートベースのダイナミックモデリングを備えたガウススプラッティングベースのオートデコーダネットワークを利用することで、これらの事前情報を効果的に捉える。個々のアイデンティティに対して、パーソナライズされた潜在コードを用いたアイデンティティ共有エンコーディングを採用し、ガウスプリミティブの属性を学習する。アバター作成フェーズでは、インバージョンとファインチューニング戦略を活用することで、高速なヘッドアバターパーソナライゼーションを実現する。大規模な実験により、我々のモデルがヘッド事前情報を効果的に活用し、少数ショットのパーソナライゼーションに成功し、フォトリアルなレンダリング品質、マルチビュー一貫性、安定したアニメーションを達成することが実証された。
本論文では、UniPortraitという革新的な人物画像パーソナライゼーションフレームワークを提案する。UniPortraitは、単一IDと複数IDのカスタマイズを統合し、高い顔の忠実度、広範な顔編集性、自由形式の入力記述、多様なレイアウト生成を実現する。UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールという2つのプラグアンドプレイモジュールのみで構成されている。ID埋め込みモジュールは、各IDに対してデカップリング戦略を用いて多様な編集可能な顔特徴を抽出し、それらを拡散モデルのコンテキスト空間に埋め込む。IDルーティングモジュールは、これらの埋め込みを適応的に結合し、合成画像内のそれぞれの領域に分配することで、単一および複数IDのカスタマイズを実現する。慎重に設計された2段階のトレーニングスキームにより、UniPortraitは単一IDおよび複数IDのカスタマイズにおいて優れた性能を発揮する。定量的および定性的な実験により、本手法が既存のアプローチに対する優位性と、既存の生成制御ツールとの普遍的な互換性など、良好な拡張性を有していることが示された。プロジェクトページはhttps://aigcdesigngroup.github.io/UniPortrait-Page/ にある。
近年、Transformerアーキテクチャは自然言語処理やコンピュータビジョンに適用される機械学習アルゴリズムのデファクトスタンダードとなっている。ロボット学習の文脈においてもこのアーキテクチャの成功例が報告されているが、我々は、従来のTransformerがロボット学習問題の構造を十分に活用していないと主張する。そこで我々は、ロボットの身体性を活用し、学習プロセスを導く帰納的バイアスを提供するBody Transformer(BoT)アーキテクチャを提案する。ロボットの身体をセンサーとアクチュエータのグラフとして表現し、マスクドアテンションを用いてアーキテクチャ全体で情報を集約する。その結果、模倣学習や強化学習のポリシーを表現する際に、BoTアーキテクチャは従来のTransformerや古典的な多層パーセプトロンを上回るタスク達成率、スケーリング特性、計算効率を示す。オープンソースコードを含む追加資料はhttps://sferrazza.cc/bot_siteで公開されている。
近年成功を収めているTransformerベースの大規模言語モデルにもかかわらず、驚くべき失敗モードが存在します。その代表的な例が、長さ一般化の欠如です。これは、推論時に訓練中に見たものよりも長い問題インスタンスを解決できないという現象です。本研究では、単純なパリティタスクにおけるモデルの挙動を詳細に分析することで、この失敗の根本原因をさらに探求します。私たちの分析によると、長さ一般化の失敗は、モデルがそのコンテキストウィンドウ内でランダムなメモリアクセスを実行できないことと密接に関連していることが示唆されています。この仮説を支持する証拠として、インデックス付けの必要性を回避する方法論や、コンテンツベースのアドレッシングを通じて間接的にランダムなトークンアクセスを可能にする手法の有効性を実証します。さらに、アテンションマップの可視化を通じて、ランダムメモリアクセスの失敗がどこでどのように現れるかを示します。