翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、さまざまなアプリケーションにおいて比類のないテキスト生成能力を発揮する画期的な技術として登場しました。しかしながら、生成される内容の正確性と適切性に関する懸念が依然として残っています。これらの問題に対する解決策として、自己修正という現代的な手法が提案されています。この前提に基づき、本論文ではLLMsにおける自己修正の役割と有効性を批判的に検証し、その真の可能性と限界を明らかにします。我々の調査の中心となるのは、外部からのフィードバックに頼ることなく、LLMがその内在的な能力のみに基づいて初期の応答を修正しようとする「内在的自己修正」の概念です。推論の文脈において、我々の研究は、LLMsが外部フィードバックなしに自己修正を行うことに苦戦し、時には自己修正後のパフォーマンスが低下する可能性があることを示しています。これらの知見を踏まえ、今後の研究と実践的な応用に向けた提言を行います。
近年、テキストから画像を生成するタスクや、テキストに基づく画像編集、特定の主題に基づく画像生成、制御ガイドによる画像生成など、さまざまな下流タスクに対応するための条件付き画像生成および編集モデルが多数開発されています。しかし、実験条件(データセット、推論、評価指標)に大きな不整合が見られ、公平な比較が困難な状況です。本論文では、すべての条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリ「ImagenHub」を提案します。まず、7つの主要なタスクを定義し、それらに対する高品質な評価データセットを整備しました。次に、公平な比較を保証するための統一された推論パイプラインを構築しました。さらに、生成された画像を評価するための2つの人間による評価スコア、すなわち「意味的一貫性(Semantic Consistency)」と「知覚的品質(Perceptual Quality)」を設計し、包括的なガイドラインを策定しました。専門の評価者を訓練し、提案された指標に基づいてモデルの出力を評価しました。人間による評価では、76%のモデルにおいてKrippendorffのα値が0.4を超える高い評価者間一致率を達成しました。合計約30のモデルを包括的に評価し、以下の3つの重要な知見を得ました:(1) 既存のモデルの性能は、テキストガイドによる画像生成と主題駆動型画像生成を除いて、一般的に満足のいくものではなく、74%のモデルが全体スコア0.5未満でした。(2) 公開された論文の主張を検証したところ、83%が例外を除いて成立していました。(3) 主題駆動型画像生成を除いて、既存の自動評価指標のSpearman相関係数は0.2を超えるものはありませんでした。今後も、新たに発表されるモデルの評価を継続し、リーダーボードを更新して条件付き画像生成の進展を追跡していく予定です。
Chain-of-Thought (CoT)プロンプティングは、言語モデルが推論タスクにおいて印象的な性能を示すが、通常、推論プロセスのラベル付き例を必要とする。本研究では、大規模言語モデルの推論プロセスを自動的に導く新しいプロンプティング手法である「類推プロンプティング(Analogical Prompting)」を提案する。この手法は、人間が新しい問題に取り組む際に関連する過去の経験を引き出す認知プロセスである類推推論に着想を得ており、言語モデルに与えられた問題を解決する前に、文脈内で関連する例や知識を自己生成するよう促す。この方法にはいくつかの利点がある:例のラベル付けや検索の必要性をなくし、汎用性と利便性を提供する;また、生成される例や知識を各問題に合わせて調整できるため、適応性も提供する。実験結果は、GSM8KやMATHにおける数学問題解決、Codeforcesにおけるコード生成、BIG-Benchにおけるその他の推論タスクなど、さまざまな推論タスクにおいて、本手法が0-shot CoTや手動のfew-shot CoTを上回ることを示している。
近年の大規模言語モデル(LLM)は、知的エージェントや次世代の自動化に向けて大きな可能性を示していますが、現在のところ、LLMをエージェントとして評価するための体系的なベンチマークが不足しています。私たちは、SmartPlayを紹介します。これは、LLMをエージェントとして評価するための挑戦的なベンチマークであり、方法論でもあります。SmartPlayは、じゃんけん、ハノイの塔、Minecraftなど、6つの異なるゲームで構成されています。各ゲームは独自の設定を特徴としており、最大20の評価設定と無限の環境バリエーションを提供します。SmartPlayの各ゲームは、知的LLMエージェントの重要な9つの能力のサブセットを独自に挑戦します。これには、オブジェクトの依存関係を考慮した推論、先を見据えた計画、空間的推論、履歴からの学習、ランダム性の理解などが含まれます。各ゲームがテストする能力セットの違いにより、各能力を個別に分析することが可能です。SmartPlayは、LLMエージェントの全体的な性能を評価するための厳密なテスト場としてだけでなく、現在の方法論におけるギャップを特定するためのロードマップとしても機能します。私たちは、このベンチマークをgithub.com/LLMsmartplay/SmartPlayで公開しています。