翻訳付きの日次キュレーションされたAI研究論文
GPT-4oなどのマルチモーダル基盤モデルは最近目覚ましい進歩を遂げていますが、これらのモデルが視覚理解においてどの程度の位置にあるかは明確ではありません。本論文では、人気のあるマルチモーダル基盤モデル(GPT-4o、o4-mini、Gemini 1.5 Pro、Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2)を、標準的なコンピュータビジョンタスク(セマンティックセグメンテーション、物体検出、画像分類、深度および表面法線予測)において、確立されたデータセット(例:COCO、ImageNetおよびその変種など)を用いてベンチマークします。 この取り組みにおける主な課題は以下の通りです:1)ほとんどのモデルはテキストを出力するように訓練されており、セグメントや3Dジオメトリなどの多様な領域をネイティブに表現できないこと、2)多くの主要なモデルはプロプライエタリであり、APIレベルでのみアクセス可能で、重みへのアクセスがないため、それらを適応させることができないことです。これらの課題に対処するため、標準的なビジョンタスクを等価なテキストプロンプト可能かつAPI互換のタスクに変換し、プロンプトチェーンを用いて標準化されたベンチマークフレームワークを構築します。 観察された結果は以下の通りです:1)どのタスクにおいても、これらのモデルは最先端の専門モデルには及ばない。しかし、2)それらは立派なジェネラリストであり、これは主に画像-テキストベースのタスクで訓練されていることを考えると注目に値する。3)セマンティックタスクはジオメトリックタスクよりも顕著に優れている。4)プロンプトチェーン技術は性能に影響を与えるが、優れたモデルほどプロンプトの変動に対する感度が低い。5)GPT-4oは非推論モデルの中で最も優れており、6つのタスクのうち4つでトップの位置を確保している。6)o3などの推論モデルはジオメトリックタスクで改善を示す。7)最新のGPT-4oのようなネイティブ画像生成機能を持つモデルの予備的分析では、幻覚や空間的なずれなどの癖が見られる。
拡散モデルの推論時の高い計算コストは、高速な物理エミュレータとしての使用を妨げる要因となっている。画像や動画生成の文脈では、この計算上の欠点は、ピクセル空間ではなくオートエンコーダの潜在空間で生成を行うことで対処されてきた。本研究では、同様の戦略が動的システムのエミュレーションに効果的に適用できるか、またその際のコストについて調査する。その結果、潜在空間でのエミュレーションの精度は、広範囲の圧縮率(最大1000倍)に対して驚くほど頑健であることがわかった。また、拡散ベースのエミュレータは、非生成的モデルと比較して一貫して高精度であり、予測の不確実性を補うために多様性を高めることも示された。最後に、潜在空間エミュレータの訓練において重要な、アーキテクチャからオプティマイザに至る実践的な設計選択についても取り上げる。
大規模言語モデル(LLMs)の急速な進展に伴い、英語中心のベンチマークを超え、インドのような言語的多様性を持つ地域の要件に対応する評価フレームワークの必要性が高まっています。本論文では、EKA-EVALを紹介します。これは、推論、数学、ツール使用、長文理解、読解などのカテゴリにまたがる35以上のベンチマーク(うち10はインド固有のデータセット)を統合した、本番環境対応の統一評価フレームワークです。既存のインド言語評価ツールと比較して、EKA-EVALはより広範なベンチマークカバレッジを提供し、分散推論、量子化、マルチGPU使用のサポートを内蔵しています。体系的な比較を通じて、EKA-EVALはグローバルおよびインドのLLMs向けにカスタマイズされた初のエンドツーエンドで拡張可能な評価スイートとして位置づけられ、多言語ベンチマークの障壁を大幅に低減します。このフレームワークはオープンソースで、https://github.com/lingo-iitgn/eka-eval で公開されており、100以上のベンチマークにスケールアップし、LLMsのための堅牢な多言語評価エコシステムを確立することを目指すEKAイニシアチブ(https://eka.soket.ai)の一部です。
大規模言語モデル(LLM)によって生成された創造的な文章を評価することは、オープンエンドの物語には正解が存在しないため、依然として困難な課題です。効果的な自動評価手法がない中で、既存の言語モデル(OTS)がゼロショットの評価者として使用されていますが、この文脈におけるその信頼性は不明確です。創造的な文章の堅牢な評価を目指して、私たちはLitBenchを導入しました。これは、創造的文章検証のための初の標準化されたベンチマークとペアデータセットであり、Redditから抽出された2,480件のバイアス除去済み人間ラベル付きストーリー比較からなるテストセットと、43,827ペアの人間の選好ラベルからなるトレーニングコーパスで構成されています。LitBenchを使用して、私たちは(i)ゼロショットLLM評価者のベンチマークを行い、(ii)Bradley Terryモデルと生成的報酬モデルをトレーニングし、(iii)新たにLLM生成されたストーリーに対する報酬モデルのランキングを検証するためのオンライン人間調査を実施しました。私たちのベンチマークでは、Claude-3.7-Sonnetが最も優れた既存の評価者であり、人間の選好との一致率は73%に達しました。トレーニングされた報酬モデルの中では、Bradley-Terryモデルと生成的報酬モデルの両方が78%の精度を達成し、すべての既存評価者を上回りました。オンライン人間調査では、トレーニングされた報酬モデルが新たにLLM生成されたストーリーにおいても一貫して人間の選好と一致することがさらに確認されました。私たちはLitBenchと報酬モデルをhttps://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461で公開し、創造的文章システムの信頼性のある自動評価と最適化のための検証済みリソースを提供しています。