翻訳付きの日次キュレーションされたAI研究論文
本論文では、Fuyu-8Bから進化した革新的なマルチモーダルモデルであるOtterHD-8Bを紹介する。このモデルは、高解像度の視覚入力を細部まで正確に解釈するために特別に設計されている。固定サイズのビジョンエンコーダに制約される従来のモデルとは異なり、OtterHD-8Bは柔軟な入力次元を扱う能力を備えており、さまざまな推論要件に対応する汎用性を確保している。このモデルとともに、微小な物体の詳細や空間関係を識別するモデルの能力を精査するための評価フレームワークであるMagnifierBenchを導入する。比較分析の結果、現在の主要モデルはこのベンチマークで苦戦する一方で、特に高解像度入力を直接処理する場合のOtterHD-8Bは、他のモデルを大幅に上回る性能を示すことが明らかになった。これらの知見は、異なるモデル間での視覚情報処理の構造的差異、およびビジョンエンコーダの事前学習解像度の違いが、このようなベンチマークにおけるモデルの有効性に与える影響を浮き彫りにしている。本研究は、大規模マルチモーダルモデルにおける柔軟性と高解像度入力能力の重要性を強調するとともに、複雑な視覚データを扱うためのFuyuアーキテクチャのシンプルさに内在する可能性を例示している。
マルチモーダル大規模言語モデル(MLLM)は、様々なオープンエンドタスクにおいて印象的な指示能力を発揮してきました。しかし、従来の手法は主にマルチモーダル能力の向上に焦点を当てていました。本研究では、テキストタスクとマルチモーダルタスクの両方で性能を向上させるために、モダリティ間の協調を効果的に活用する汎用マルチモーダル大規模言語モデルmPLUG-Owl2を提案します。mPLUG-Owl2はモジュール化されたネットワーク設計を採用し、言語デコーダが異なるモダリティを管理するためのユニバーサルインターフェースとして機能します。具体的には、mPLUG-Owl2はモダリティ間の協調を促進する共有機能モジュールを組み込み、モダリティ固有の特徴を保持するモダリティ適応モジュールを導入します。大規模な実験により、mPLUG-Owl2がテキストタスクとマルチモーダルタスクの両方に汎化可能であり、単一の汎用モデルで最先端の性能を達成できることが明らかになりました。特に、mPLUG-Owl2は純粋なテキストとマルチモーダルの両シナリオでモダリティ協調現象を示す初めてのMLLMモデルであり、将来のマルチモーダル基盤モデルの開発において先駆的な道を切り開いています。
大規模言語モデル(LLMs)の最近の進展により、複雑な問題を「思考」と呼ばれるより管理可能な言語シーケンスに分解することで、意思決定が革新されました。効果的な思考設計では、パフォーマンス、効率性、柔軟性という3つの重要な視点を考慮する必要があります。しかし、既存の思考はせいぜいこれらの属性のうち2つしか示すことができません。これらの制限に対処するため、我々は「Everything of Thoughts」(XoT)と呼ばれる新しい思考プロンプト手法を導入し、既存の思考パラダイムの「ペンローズの三角形」の法則に挑戦します。XoTは、事前学習された強化学習とモンテカルロ木探索(MCTS)を活用して、外部のドメイン知識を思考に組み込み、LLMsの能力を向上させ、未見の問題に効率的に一般化することを可能にします。MCTS-LLM協調思考修正フレームワークを利用することで、このアプローチは最小限のLLMインタラクションで高品質な包括的認知マッピングを自律的に生成します。さらに、XoTはLLMsに制約のない思考を可能にし、複数の解決策を持つ問題に対して柔軟な認知マッピングを実現します。
部屋の音響特性は、その部屋の幾何学的形状、部屋内の物体、およびそれらの特定の位置によって決定されます。部屋の音響特性は、音源とリスナーの位置間のインパルス応答(RIR)によって特徴づけられるか、あるいは部屋内に存在する自然な信号の録音から大まかに推測することができます。部屋内の物体の位置の変化は、RIRによって特徴づけられるように、部屋の音響特性に測定可能な変化をもたらすことがあります。既存のRIRデータセットは、環境内の物体の位置を体系的に変化させていないか、またはシミュレーションされたRIRのみで構成されています。本論文では、これまでに公開された中で最大の「実世界の部屋」からのユニークなRIRデータセットであるSoundCamを紹介します。これには、制御された音響実験室、実世界のリビングルーム、および会議室という3つの異なる部屋において、それぞれの部屋に配置された異なる人間を含む、5,000件の10チャンネルの実世界の部屋インパルス応答の測定と、2,000件の10チャンネルの音楽録音が含まれています。これらの測定が、人間の検出や識別、およびその位置の追跡といった興味深いタスクに利用できることを示します。
大規模言語モデル(LLMs)が現実世界での責任を増大させながら展開されるにつれ、これらのシステムの動作を信頼性のある方法で指定し制約することが重要となっています。モデル開発者は「虐待的なコンテンツを生成しない」といった明示的なルールを設定したい場合がありますが、これらのルールはジャイルブレイク技術によって回避される可能性があります。敵対的な入力に対してLLMsが開発者提供のルールをどの程度遵守しているかを評価するには、通常、手動レビューが必要であり、これが監視や手法開発を遅らせます。この問題に対処するため、我々は「ルール遵守言語評価シナリオ(RuLES)」を提案します。RuLESは、LLMsのルール遵守能力を測定するためのプログラム的フレームワークです。RuLESは15のシンプルなテキストシナリオで構成され、モデルは自然言語で指定された一連のルールを遵守しながら人間のユーザーと対話するよう指示されます。各シナリオには、会話中にモデルがルールを破ったかどうかを判定する簡潔な評価プログラムが含まれています。シナリオにおけるモデルの動作を手動で探索することで、我々は6つの攻撃戦略カテゴリーを特定し、2つのテストケーススイートを収集しました。1つは手動テストからのユニークな会話で構成され、もう1つは6つのカテゴリーからの戦略を体系的に実装しています。GPT-4やLlama 2など、さまざまな人気のあるプロプライエタリおよびオープンモデルを対象に調査した結果、すべてのモデルが多様な手作り敵対的ユーザー入力に対して脆弱であることがわかりましたが、GPT-4が最も優れたパフォーマンスを示しました。さらに、勾配ベースの攻撃下でのオープンモデルを評価し、重大な脆弱性を発見しました。我々はRuLESを、LLMsに対する手動および自動攻撃の探索と防御に関する研究のための新たな挑戦的な設定として提案します。
Neural MMO 2.0は、強化学習研究のための大規模マルチエージェント環境です。この新バージョンの主な特徴は、幅広い目的と報酬信号を定義できる柔軟なタスクシステムです。私たちは、訓練中に見たことのないタスク、マップ、対戦相手に対して一般化できるエージェントを訓練することを研究者に挑戦します。Neural MMOは、標準設定で128エージェントが参加する手続き的に生成されたマップを特徴とし、最大で対応しています。バージョン2.0は、前身を完全に書き直し、性能を3倍向上させ、CleanRLとの互換性を実現しました。このプラットフォームは無料のオープンソースソフトウェアとして公開されており、詳細なドキュメントがneuralmmo.github.ioで提供され、活発なコミュニティDiscordもあります。この新プラットフォームでの初期研究を促進するため、NeurIPS 2023で同時にコンペティションを開催しています。
従来のビデオマッティングでは、ビデオフレーム内に現れるすべてのインスタンスに対して単一のアルファマットを出力するため、個々のインスタンスを区別することができません。一方、ビデオインスタンスセグメンテーションは時間的に一貫したインスタンスマスクを提供しますが、特に二値化が適用されるため、マッティングアプリケーションでは結果が不十分です。この欠点を補うため、我々はVideo Instance Matting(VIM)、つまりビデオシーケンスの各フレームにおける各インスタンスのアルファマットを推定する手法を提案します。この難しい問題に取り組むために、MSG-VIM(Mask Sequence Guided Video Instance Matting)ニューラルネットワークを、VIMの新しいベースラインモデルとして提示します。MSG-VIMは、不正確で一貫性のないマスクガイダンスに対して予測をロバストにするために、マスク拡張の組み合わせを活用します。また、時間的なマスクと時間的特徴ガイダンスを取り入れることで、アルファマット予測の時間的一貫性を向上させます。さらに、VIMのための新しいベンチマークであるVIM50を構築しました。VIM50は、複数の人間インスタンスを前景オブジェクトとする50のビデオクリップで構成されています。VIMタスクの性能を評価するために、Video Instance-aware Matting Quality(VIMQ)と呼ばれる適切な指標を導入します。我々が提案するモデルMSG-VIMは、VIM50ベンチマークにおいて強力なベースラインを設定し、既存の手法を大きく上回る性能を示します。本プロジェクトはhttps://github.com/SHI-Labs/VIMでオープンソース化されています。
大規模言語モデルが普及するにつれ、それらが引き起こす可能性のある有害または不適切な応答が懸念材料となっています。本論文では、そのような有害または不適切な応答を誘発することを目的とした、質問形式の敵対的例を含む独自のデータセット「AttaQ」を紹介します。我々は、このデータセットを用いて様々なモデルの脆弱性を分析し、その有効性を評価します。さらに、モデルが有害な出力を生成しやすい入力意味領域(脆弱な意味領域)を特定し命名するための新しい自動手法を提案します。これは、入力攻撃の意味的類似性とモデルの応答の有害性の両方を考慮した特殊なクラスタリング技術を適用することで実現されます。脆弱な意味領域を自動的に特定することで、モデルの弱点評価が強化され、その安全性メカニズムと全体的な信頼性を対象的に改善することが容易になります。
自己教師あり表現学習は、表現にエンコードされる不変性を指定するためにデータ拡張に大きく依存しています。これまでの研究では、多様なデータ拡張を適用することが下流タスクの性能向上に重要であることが示されていますが、拡張技術はまだ十分に探求されていません。本研究では、ガウシアンランダム場に基づく新しい局所変換のファミリーを提案し、自己教師あり表現学習のための画像拡張を生成します。これらの変換は、よく確立されたアフィン変換や色変換(平行移動、回転、色ジッターなど)を一般化し、変換パラメータの値をピクセルごとに変化させることで、拡張の空間を大幅に増やします。パラメータは空間座標の連続関数として扱われ、独立したガウシアンランダム場としてモデル化されます。実験結果は、新しい変換が自己教師あり表現学習に有効であることを示しています。具体的には、ImageNetの下流分類タスクでベースラインよりも1.7%のトップ1精度向上を達成し、分布外データであるiNaturalistの下流分類タスクでは3.6%の向上を達成しました。しかし、新しい変換の柔軟性のため、学習された表現はハイパーパラメータに敏感です。穏やかな変換は表現を改善しますが、強い変換は画像の構造を劣化させる可能性があり、拡張の多様性と強度のバランスを取ることが、学習された表現の汎化性能を向上させるために重要であることが示唆されています。
形式的検証は、重要なシステムソフトウェアの正しさを証明可能に保証できるが、その高い証明負担が長らく広範な採用を妨げてきた。最近、大規模言語モデル(LLMs)がコード分析と合成において成功を収めている。本論文では、LLMsと静的解析を組み合わせて、Rustベースの形式的検証フレームワークであるVerusのための不変条件、表明、およびその他の証明構造を合成する手法を提案する。Few-shot設定において、LLMsは特に短いコードスニペットを分析する際に、事後条件やループ不変条件の生成において印象的な論理能力を示す。しかし、LLMsは従来の静的解析の強みである文脈情報の保持と伝播の能力を欠いている。これらの観察に基づき、OpenAIのGPT-4モデルを基にしたプロトタイプを開発した。このプロトタイプは検証タスクを複数の小さなタスクに分解し、GPT-4に反復的にクエリを送信し、その出力を軽量な静的解析と組み合わせる。開発者が自動化ループに参加した状態で、20のベクトル操作プログラムに対してプロトタイプを評価した。その結果、初級レベルの証明コードの作成における人的労力を大幅に削減できることが示された。