翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は非常に強力な能力を示しています。成功を収めるための重要な要素の1つは、LLMの出力を人間の好みに合わせることです。このアラインメントプロセスは、しばしばわずかなデータ量で効率的にLLMのパフォーマンスを向上させることができます。効果的である一方、この分野の研究は複数の領域にわたり、関連する方法は比較的理解が難しいです。異なる方法間の関係はあまり探求されておらず、好みのアラインメントの発展が制限されています。このため、既存の人気のあるアラインメント戦略を異なるコンポーネントに分解し、現在のアラインメント戦略を研究するための統一されたフレームワークを提供し、それらの間のつながりを確立します。この調査では、好み学習のすべての戦略をモデル、データ、フィードバック、アルゴリズムの4つのコンポーネントに分解します。この統一された視点は、既存のアラインメントアルゴリズムの深い理解を提供すると同時に、異なる戦略の強みを統合する可能性を開くものです。さらに、一般的な既存のアルゴリズムの詳細な動作例を提示し、読者が包括的に理解するのを支援します。最後に、統一された視点に基づいて、大規模言語モデルを人間の好みに合わせるための課題と将来の研究方向を探求します。
Multimodal Large Language Models (MLLMs)の開発は、重要な進展を見ています。しかしながら、多様性と質の高いマルチモーダルな指示データは、その進展において重要なボトルネックとして浮かび上がっています。マルチモーダルな指示データを手動で作成することは時間がかかり効率が悪く、高度な複雑性を持つ指示を生成する際に課題を提起しています。さらに、ブラックボックスの商用モデル(例:GPT-4o、GPT-4V)から指示データを抽出することは、しばしば単純化された指示データをもたらし、これらのモデルの性能に制約を与えます。多様で複雑な指示データを収集するという課題は依然として大きなものです。私たちは、MMEvolという新しいマルチモーダルな指示データ進化フレームワークを提案します。このフレームワークは、微細な知覚進化、認知的推論進化、および相互作用進化を組み合わせています。この反復的なアプローチは、データ品質のボトルネックを突破し、複雑で多様な画像テキスト指示データセットを生成することで、MLLMに強化された機能を提供します。初期の指示セットであるSEED-163Kを用い、MMEvolを活用して指示タイプの多様性を体系的に拡大し、認知能力を高めるための推論ステップを統合し、画像から詳細な情報を抽出して視覚理解と頑健性を向上させます。私たちのデータの効果を包括的に評価するために、進化したデータを使用してLLaVA-NeXTを訓練し、13のビジョン言語タスクで実験を行います。シードデータで訓練されたベースラインと比較して、私たちのアプローチは平均精度が3.1ポイント向上し、これらのタスクのうち9つで最先端のパフォーマンスを達成しています。
最近の大規模言語モデル(LLM)の進歩にもかかわらず、さまざまな自然言語処理(NLP)タスクの生成能力を大幅に向上させたものの、LLMは直接的に検索タスクを処理する際には制約に直面しています。ただし、多くの実用的なアプリケーションでは、検索と生成の両方をシームレスに統合することが求められます。本論文では、新しい効率的なワンパス生成と検索フレームワーク(OneGen)を導入し、生成と検索の両方を必要とするタスクにおけるLLMのパフォーマンスを向上させることを目指します。提案されたフレームワークは、検索トークンを自己回帰的に生成することで、従来は別々に行われていた生成と検索のトレーニングアプローチを結びつけます。これにより、単一のLLMが統一された前向きパスで両方のタスクを同時に処理できるようになります。RAGとEntity Linkingという2つの異なる種類の複合タスクで実験を行い、OneGenのトレーニングと推論における差し込み可能性、効果、効率性を検証します。さらに、結果は、生成と検索を同じコンテキスト内で統合することが、LLMの生成能力を保持しながら検索パフォーマンスを向上させることを示しています。私たちの知る限り、OneGenはLLMに対して生成中にベクトル検索を実行させる最初のものです。
Retrieval-Augmented Generation(RAG)は、外部データベースにアクセスするために検索ツールを活用し、最適化されたコンテキストを通じて大規模言語モデル(LLMs)の生成品質を向上させます。ただし、既存の検索方法は、明示的に述べられたクエリと整形された知識との関連性マッチングしか行えないため、曖昧な情報ニーズや非構造化された知識を扱うことができません。その結果、既存のRAGシステムは主に単純な質問応答タスクに効果的です。本研究では、長期記憶によって強化された新しい検索増強生成パラダイムであるMemoRAGを提案します。MemoRAGは、デュアルシステムアーキテクチャを採用しています。一方で、軽量ながら長距離のLLMを使用してデータベースのグローバルメモリを形成します。タスクが提示されると、ドラフト回答を生成し、検索ツールにデータベース内の有用な情報を見つける手掛かりを与えます。他方で、高価だが表現力豊かなLLMを活用し、取得した情報に基づいて究極の回答を生成します。この一般的なフレームワークを基に、MemoRAGの性能をさらに最適化するために、手掛かりメカニズムと記憶容量を強化しています。実験では、MemoRAGが、従来のRAGが失敗する複雑なタスクや、RAGが一般的に適用される単純なタスクを含むさまざまな評価タスクで優れたパフォーマンスを達成しています。
科学研究が増加する中、研究者は膨大な文献を読み解くという困難な課題に直面しています。既存の解決策である文献QAなどは、個別かつ最新情報を効率的に提供することができません。本研究では、思考検索、ユーザープロファイル、高性能最適化に基づいて設計された自己進化型の効率的なLLMシステムであるPaper Copilotを提案します。具体的には、Paper Copilotはリアルタイムに更新されたデータベースを維持し、個別の研究サービスを提供することができます。定量的評価によると、Paper Copilotは効率的な展開後に時間を69.92%節約することが示されています。本論文では、Paper Copilotの設計と実装について詳細に説明し、個別の学術サポートへの貢献と研究プロセスの効率化への潜在的な可能性を強調しています。
近年、ビジョン言語モデルは著しい進歩を遂げ、光学文字認識や幾何学的問題解決などのタスクで優れた成績を収めています。しかしながら、いくつかの重要な課題が残っています。1) プロプライエタリなモデルはしばしばアーキテクチャに関して透明性を欠いており、一方、オープンソースのモデルはより詳細なトレーニング戦略の分析が必要です。2) オープンソースの作業における事前トレーニングデータは未開拓であり、データセットが経験的に追加されるため、プロセスが煩雑です。3) ファインチューニングはしばしばデータセットの追加に焦点を当て、収益の減少につながります。これらの課題に対処するため、以下の貢献を提案します。1) 最新のビジョン言語モデルの進歩を活用し、効果的な改善を導入し、各手法について包括的な削除と検証を行い、堅牢なベースラインモデルをトレーニングしました。2) 大規模言語モデルに関する最近の研究に触発され、パープレキシティを使用して事前トレーニングデータをフィルタリングし、トレーニング用に最も低いパープレキシティのデータを選択しました。このアプローチにより、キュレーションされた100万のデータセットでトレーニングを行い、競争力のあるパフォーマンスを達成しました。3) ビジュアルインストラクションのチューニング中、追加のデータセットが限られた改善しかもたらさない場合には、異なるデータセットでモデルスープを使用しました。これらの革新により、最先端のモデルと競争力のあるパフォーマンスを発揮する9Bパラメータモデルが生まれました。私たちの戦略は効率的で軽量であり、コミュニティによって簡単に採用されることができます。
ロボットモデル、特に大量のデータで訓練されたモデルは、最近、多様な現実世界の操作およびナビゲーション能力を示しています。複数の独立した取り組みが、環境での十分な訓練データが与えられた場合、ロボットポリシーがその環境での変動にも一般化できることを示しています。ただし、新しい環境ごとにロボットモデルを微調整する必要性は、言語やビジョンのモデルがオープンワールドの問題にゼロショットで展開できるのとは対照的です。本研究では、新しい環境に直接一般化できるゼロショットロボットポリシーを訓練および展開するためのフレームワークである「Robot Utility Models (RUMs)」を提案します。RUMsを効率的に作成するために、モバイル操作タスクのデータを迅速に収集するための新しいツールを開発し、そのようなデータをマルチモーダルな模倣学習を用いたポリシーに統合し、Hello Robot Stretchという安価な商用ロボット上でポリシーをデバイスに展開し、再試行のための外部mLLM検証ツールを備えます。キャビネットの扉を開ける、引き出しを開ける、ナプキンを取る、紙袋を取る、倒れたオブジェクトを再配置するといった5つのユーティリティモデルを訓練します。平均して、当システムは、未知の環境で未知のオブジェクトとやり取りし、90%の成功率を達成します。さらに、ユーティリティモデルは、追加のデータ、訓練、微調整なしで異なるロボットおよびカメラセットアップでも成功することができます。私たちの主な教訓の中で、訓練アルゴリズムやポリシークラスよりも訓練データの重要性、データのスケーリングに関するガイダンス、多様でありながら高品質なデモンストレーションの必要性、個々の環境でのパフォーマンス向上のためのロボットの内省と再試行のレシピが挙げられます。当社のコード、データ、モデル、ハードウェア設計、実験および展開ビデオはオープンソースであり、プロジェクトウェブサイト(https://robotutilitymodels.com)で入手できます。
大規模言語モデル(LLM)は顕著な生成能力を示す一方、幻覚のような欠陥を抱えています。特に特定の言語や領域に適用されると、この問題はさらに顕著になります。例えば、LLMは中国の古詩、諺、または慣用句を処理する際に、特定の知識の不足から無意味な情報を生成する可能性があります。この論文では、この問題に対処するために、知識編集を通じてLLM内の中国の知識を修正するためのベンチマークを紹介します。具体的には、古典的なテキスト、慣用句、および百度貼吧若智吧などのさまざまな情報源から七種類の知識を収集し、中国語固有の多重性、対照法、および論理構造を考慮して、新しい中国語データセットであるCKnowEditを紹介します。このデータセットの分析により、現在のLLMが中国語を習得する際に直面する課題を明らかにします。さらに、このデータセットでの最先端の知識編集技術の評価により、中国語知識の修正における大きな進歩の余地が明らかになります。コードとデータセットはhttps://github.com/zjunlp/EasyEdit で入手可能です。
この研究では、カラカルパク語向けにいくつかの貢献を提供しています。FLORES+の開発テストデータセットをカラカルパク語に翻訳し、それぞれ10万ペアのウズベク語-カラカルパク語、ロシア語-カラカルパク語、英語-カラカルパク語の平行コーパスを作成し、これらの言語間の翻訳用にオープンソースのファインチューニングされたニューラルモデルを提供しています。私たちの実験では、異なるモデルのバリアントやトレーニングアプローチを比較し、既存のベースラインに対する改善を示しています。この研究は、Open Language Data Initiative (OLDI) 共有タスクの一環として行われ、カラカルパク語の機械翻訳能力を向上させ、NLP技術における言語多様性の拡大に貢献することを目指しています。
人間の観察者とビジョンモデル間の3D形状推論タスクにおける整合性を直接評価するためのベンチマークを紹介します。我々は、認知科学からの実験デザインを活用し、オブジェクトの形状に関するゼロショットの視覚推論を行います。与えられた画像セットから、被験者は、かなりの視点の違いがあるにも関わらず、同じ/異なるオブジェクトが含まれている画像を特定します。一般的なオブジェクト(例:椅子)だけでなく、抽象的な形状(つまり手続き的に生成された「ナンセンス」オブジェクト)を含む多様な画像を活用します。2000以上のユニークな画像セットを構築した後、これらのタスクを500人以上の被験者に実施し、合計35,000回の行動データを収集しました。これには明示的な選択行動だけでなく、反応時間や注視データなどの中間的な指標も含まれます。その後、一般的なビジョンモデル(例:DINOv2、MAE、CLIP)の性能を評価します。我々は、人間が全てのモデルを大きく上回ることを発見しました。マルチスケールの評価手法を用いて、モデルと人間の間の基本的な類似点と相違点を特定します。人間とモデルのパフォーマンスには相関がありますが、人間は難しい試行により多くの時間/処理を割り当てています。全ての画像、データ、コードは当社のプロジェクトページからアクセスできます。
ロボティクスと拡張現実におけるスマートソリューションへの顧客需要の増加により、ポイントクラウドからの3Dオブジェクト検出に対する注目が集まっています。しかし、個々に収集された既存の屋内データセットは小さすぎて多様性に欠け、強力で汎用性のある3Dオブジェクト検出モデルをトレーニングするには不十分です。一方で、特定のタスクのための教師付きトレーニングに基づく手法よりも、基盤モデルを利用した一般的なアプローチはまだ品質が劣っています。本研究では、様々な屋内データセットでトレーニングされ、さまざまな屋内環境で動作する能力を持つ、シンプルで効果的な3Dオブジェクト検出モデルを提案します。異なるラベル空間を統一することで、教師付き共同トレーニングスキームを通じて複数のデータセット間で強力な表現を学習することが可能です。提案されたネットワークアーキテクチャは、バニラのトランスフォーマーエンコーダに基づいて構築されており、実用的な使用のために予測パイプラインを簡単に実行、カスタマイズ、拡張することができます。包括的な実験により、既存の3Dオブジェクト検出手法に比べて有意な改善が得られることが示されました。6つの屋内ベンチマークでの結果は、ScanNet(+1.1 mAP50)、ARKitScenes(+19.4 mAP25)、S3DIS(+9.1 mAP50)、MultiScan(+9.3 mAP50)、3RScan(+3.2 mAP50)、ScanNet++(+2.7 mAP50)です。コードはhttps://github.com/filapro/unidet3d で入手可能です。
この論文では、16の最先端大規模言語モデル(LLM)をWebApp1Kベンチマークで評価した結果についての洞察を示す。このベンチマークは、LLMがWebアプリケーションコードを生成する能力を評価するために設計されたテストスイートである。結果から、すべてのモデルが類似した基礎知識を持っている一方、彼らのパフォーマンスは彼らが犯すミスの頻度によって異なることが明らかになった。コード行数(LOC)とエラー分布を分析することで、正しいコードを書くことは誤ったコードを生成するよりも複雑であることがわかった。さらに、プロンプトエンジニアリングは特定のケースを超えてエラーを減らす効果が限定されていることが示された。これらの知見から、コーディングLLMのさらなる進展は、モデルの信頼性とミスの最小化に重点を置くべきであることが示唆されている。