翻訳付きの日次キュレーションされたAI研究論文
ベンチマークは、大規模言語モデル(LLM)の能力の急速な進歩を追跡するための重要なツールです。しかし、ベンチマークは難易度で遅れを取っています。LLMは現在、MMLUなどの人気ベンチマークで90%以上の精度を達成しており、最先端のLLM能力の情報通りの測定を制限しています。このため、私たちはHumanity's Last Exam(HLE)を導入します。これは、人類の知識の最前線に位置する多面的なベンチマークであり、幅広い科目を対象とした最後の閉じられた形式の学術的ベンチマークとして設計されています。HLEには、数学、人文科学、自然科学など、数十の科目にわたる3,000問の問題が含まれています。HLEは、世界中の専門家によって開発され、自動採点に適した多肢選択および短答え形式の問題で構成されています。各問題には明確で容易に検証可能な既知の解決策がありますが、インターネット検索ではすぐに回答できません。最先端のLLMは、HLEにおいて低い精度と較正を示し、閉じられた形式の学術的な問題における現在のLLM能力と専門家の人間の最前線との間に著しいギャップを浮き彫りにします。モデルの能力について明確な理解をもとに研究や政策立案を行うために、私たちはHLEをhttps://lastexam.aiで一般公開します。
本論文では、最終的な回答を生成する前に関連情報を段階的に取得および推論するo1のようなRAGモデルを訓練するアプローチを紹介しています。従来のRAG手法は通常、生成プロセスの前に単一の取得ステップを実行しますが、これは不完全な取得結果により複雑なクエリに対処する際に効果が制限されます。これに対して、提案されたCoRAG(Chain-of-Retrieval Augmented Generation)手法では、モデルが進化する状態に基づいてクエリを動的に再構築できます。CoRAGを効果的に訓練するために、既存のRAGデータセットを補完するために拒否サンプリングを利用して中間取得チェーンを自動生成します。テスト時には、モデルのテスト時計算をスケーリングするために、サンプリングされる取得チェーンの長さと数を制御するためのさまざまなデコーディング戦略を提案します。複数のベンチマークを通じた実験結果は、特にマルチホップ質問応答タスクにおいて、CoRAGの有効性を検証し、強力なベースラインと比較してEMスコアで10ポイント以上の改善が観察されました。KILTベンチマークでは、CoRAGが知識集約的なタスクの幅広い範囲で新たな最先端のパフォーマンスを確立しています。さらに、CoRAGのスケーリング動作を理解するための包括的な分析を提供し、将来の研究の基盤となる事実に基づいたモデルの開発に向けた準備を行っています。
大規模言語モデル(LLMs)の性能を向上させるためには、批評は重要です。これにより、欠陥を特定し改善策を提案することで、自己改善と他者への建設的フィードバックの両方が可能となります。しかし、LLMsの批評能力を評価することは、タスクのオープンエンド性により大きな課題があります。本研究では、LLMsの批評能力を評価するために設計された新しいベンチマークを紹介します。既存のベンチマークは通常オープンループ方式で機能するのに対し、当該手法は修正の品質を評価するクローズドループ手法を採用しています。さらに、このベンチマークには自己批評、クロス批評、反復批評などの機能が組み込まれており、高度な推論モデルと従来のモデルを区別する上で重要です。当該ベンチマークは、8つの難解な推論タスクを使用して実装されています。いくつか興味深い知見があります。まず、直接的な思考連鎖生成においては、古典的LLMsと比較して、全ての批評シナリオで高度な推論ベースのモデルo1-miniが著しく優れた性能を示していることです。第二に、自己批評や反復批評の設定では、古典的LLMsはベースラインの能力に比べて性能が低下することさえあります。このベンチマークが、将来の進歩を導く貴重なリソースとなることを期待しています。コードとデータはhttps://github.com/tangzhy/RealCritic で入手可能です。
マルチモダリティ大規模言語モデル(MLLMs)の急速なイテレーションと分野の進化する要求により、毎年生産されるベンチマークの数は数百に急増しています。急速な成長は、ベンチマーク間で重要な冗長性が生じることを避けられません。そのため、現在の冗長性を批判的に評価し、効果的なMLLMベンチマークの構築のためのターゲットとなる原則を提案することが重要です。本論文では、3つの主要な観点から冗長性に焦点を当てます:1)ベンチマークの能力次元の冗長性、2)テスト質問の数の冗長性、および3)特定の領域内でのベンチマーク間の相互冗長性。20以上のベンチマークにわたる数百のMLLMのパフォーマンスを包括的に分析することで、既存のMLLM評価に存在する冗長性のレベルを定量的に測定し、MLLMベンチマークの将来の開発を導く貴重な洞察を提供し、冗長性の問題を効果的に洗練し対処するための戦略を提供します。
もし人工知能が、訓練された問題を解決するだけでなく、新しい問題を解決するために自己教育を学ぶことができたらどうでしょうか(つまり、メタラーニング)?本研究では、複数のエピソードにわたって強化学習で微調整された事前学習済みのトランスフォーマーが、これまでに遭遇したことのない問題を解決する能力を獲得することを示します - これをIn-Context Reinforcement Learning(ICRL)と呼ぶ新たな能力です。この強力なメタラーナーは、未知の分布内環境を驚異的なサンプル効率で解決するだけでなく、分布外環境でも優れたパフォーマンスを発揮します。さらに、トレーニングデータの品質に対する頑健性、コンテキストからの振る舞いのシームレスな結合、非定常環境への適応性を示します。これらの振る舞いは、強化学習で訓練されたトランスフォーマーが自身の解決策を反復的に改善できることを示し、優れた汎用問題解決者となります。
私たちは、細かい顔や手を含むディテールを持つリライト可能なフルボディガウス符号化アバターをモデリングする新しいアプローチである「Relightable Full-Body Gaussian Codec Avatars」を提案します。リライト可能なフルボディアバターのユニークな課題は、ボディの関節運動によって引き起こされる大きな変形と、光の伝達によって引き起こされる外観への影響にあります。ボディポーズの変化は、ボディ表面の光に対する向きを劇的に変化させ、局所的な光伝達関数の変化による局所的な外観変化と、ボディパーツ間の遮蔽による非局所的な変化の両方をもたらします。これに対処するために、光の伝達を局所的な効果と非局所的な効果に分解します。局所的な外観変化は、拡散放射輸送のための学習可能なゾーナル調和を使用してモデル化されます。球面調和とは異なり、ゾーナル調和は関節運動下で高効率に回転できます。これにより、局所座標フレームで拡散放射輸送を学習し、ボディの関節運動から局所放射輸送を分離することができます。非局所的な外観変化を考慮するために、事前計算された基本メッシュ上の入射放射輝度を与えられた影ネットワークを導入します。これにより、ボディパーツ間の非局所的な影の学習が容易になります。最後に、眼光などの反射やハイライトをよりよく捉えるために、スペキュラー放射輸送をモデル化するために遅延シェーディングアプローチを使用します。私たちのアプローチが、リライト可能なフルボディアバターに必要な局所的および非局所的な光伝達を成功裏にモデル化し、新しい照明条件や見慣れないポーズ下で優れた汎化能力を持つことを示します。
医療システムは、大量の電子健康記録(EHR)を継続的に生成し、一般的にはFast Healthcare Interoperability Resources(FHIR)標準で保存されています。これらの記録には豊富な情報がありますが、その複雑さと量のため、ユーザーが重要な健康情報を取得および解釈することが困難です。大規模言語モデル(LLM)の最近の進歩は、医療データ上で意味論的な質問応答(QA)を可能にし、ユーザーが健康記録と効果的にやり取りできるようにします。ただし、プライバシーとコンプライアンスの確保には、LLMのエッジおよびプライベート展開が必要です。 本論文では、最初にユーザークエリに最も関連性の高いFHIRリソースを特定し(Task1)、その後、これらのリソースに基づいてクエリに回答するアプローチを提案しています(Task2)。私たちは、プライベートホストされた、ファインチューニングされたLLMのパフォーマンスを探求し、GPT-4やGPT-4oなどのベンチマークモデルと比較して評価しています。私たちの結果は、ファインチューニングされたLLMがサイズが250倍小さくても、Task1のF1スコアでGPT-4ファミリーモデルを0.55%上回り、Task2のMeteor Taskで42%上回ることを示しています。さらに、シーケンシャルファインチューニング、モデルの自己評価(ナルシシスティック評価)、およびトレーニングデータサイズがパフォーマンスに与える影響など、LLMの高度な側面を検討しています。モデルとデータセットはこちらで入手可能です:https://huggingface.co/genloop
最近の大規模多モーダルモデル(LMMs)の進歩により、微細なグラウンディングが視覚理解と対話における重要な要素として認識されています。ただし、このような表現の利点は自然画像領域に限定されており、これらのモデルはリモートセンシング(RS)に対して性能が低いです。高解像度のRS画像における独自の課題として、独特の上空視点、スケールの変動、および小さなオブジェクトの存在が領域レベルの理解において特別な挑戦を提供しています。さらに、RS内でのLMMsのグラウンディング対話能力の開発は、粒状でRS特有のグラウンディングされたデータの不足によって妨げられています。これらの制限に対処するために、私たちはGeoPixelを提案します - 高解像度RS-LMMであり、ピクセルレベルのグラウンディングをサポートする最初のエンドツーエンドモデルです。この機能により、対話中に交互にマスクを生成することで微細な視覚認識が可能となります。GeoPixelは、高精度なRS画像解析に適した、どんなアスペクト比でも4K HD解像度をサポートしています。RS画像におけるグラウンディング対話生成(GCG)をサポートするために、私たちは、RSデータに適したセットオブマークプロンプトと空間事前情報を利用した半自動パイプラインを通じて、視覚的にグラウンディングされたデータセットGeoPixelDを編纂しています。GeoPixelは、ピクセルレベルの理解において優れた性能を発揮し、既存のLMMsを超える単一ターゲットおよび複数ターゲットのセグメンテーションタスクで優れた結果を示しています。私たちの手法論的な削減研究は、全体的なアーキテクチャ内の各コンポーネントの効果を検証しています。私たちのコードとデータは公開されます。
ビジョン基盤モデル、特にViTファミリーは、豊かな意味的特徴を提供することで画像理解を革新しました。しかし、2D理解における成功にも関わらず、3D空間関係の把握能力は依然として不明確です。本研究では、ViTベースのモデルの3D認識を評価および向上させます。まず、彼らが3D同変特徴を学習する能力を体系的に評価し、特に異なる視点間での意味的埋め込みの一貫性を検討します。我々の調査結果は、改善された3D同変性が、ポーズ推定、トラッキング、および意味転送を含むさまざまな下流タスクでのパフォーマンス向上につながることを示しています。この洞察を基に、既存のビジョンモデルの3D対応理解を著しく向上させる、3D対応に基づくシンプルで効果的なファインチューニング戦略を提案します。驚くべきことに、たった1つのオブジェクトに対して1回のイテレーションでのファインチューニングでも、大幅なパフォーマンス向上が得られます。すべてのコードとリソースは、3D認識を向上させるためにさらなる進歩を支援するために公開されます。我々のコードはhttps://github.com/qq456cvb/3DCorrEnhanceで入手可能です。
バーチャル試着(VTON)技術は、画像や動画のリアルな衣服の視覚化を可能にすることで、オンライン小売業を変革する潜在能力から注目を集めています。しかし、既存の多くの手法は、特に長い動画シナリオにおいて、画像や動画の試着タスクで高品質な結果を達成するのに苦労しています。本研究では、CatV2TONという、単一の拡散トランスフォーマーモデルを用いて画像と動画の試着タスクの両方をサポートする、シンプルで効果的なビジョンベースのバーチャル試着(V2TON)手法を紹介します。衣服と人物の入力を時間的に連結し、画像と動画のデータセットの混合でトレーニングすることにより、CatV2TONは静的および動的な環境で堅牢な試着パフォーマンスを実現します。効率的な長い動画生成のために、連続フレームガイダンスと適応的クリップ正規化(AdaCN)を使用した、時間的一貫性を維持しつつリソース要求を削減するオーバーラップクリップベースの推論戦略を提案します。また、向きを変えたフレームのフィルタリングと3Dマスクのスムージングを適用することで、強化された時間的一貫性を実現した、洗練された動画試着データセットであるViViD-Sを提示します。包括的な実験により、CatV2TONが画像と動画の試着タスクの両方で既存の手法を上回り、多様なシナリオでリアルなバーチャル試着のための汎用かつ信頼性の高いソリューションを提供していることが示されます。
画像取得プロセスでは、ノイズ、ヘイズ、雨など、さまざまな劣化が頻繁に導入されます。これらの劣化は、通常、カメラの固有の制限や不利な周囲の条件から生じます。劣化したバージョンからクリーンな画像を回復するためには、特定の種類の劣化を対象とするさまざまな専門の復元手法が開発されてきました。最近では、オールインワンのアルゴリズムが注目を集めており、入力の劣化タイプの事前情報を必要とせず、異なる種類の劣化に対処することができます。ただし、これらの手法は純粋に空間領域で動作し、異なる劣化タイプ固有の周波数変動には踏み込んでいません。このギャップを埋めるために、周波数のマイニングと変調に基づく適応型オールインワン画像復元ネットワークを提案します。我々のアプローチは、異なる劣化タイプが画像コンテンツに異なる周波数サブバンドに影響を与えることから、各復元タスクには異なる処理が必要とされるという観察に基づいています。具体的には、まず、劣化画像の適応的に分離されたスペクトルに導かれた入力特徴から低周波と高周波情報を抽出します。抽出された特徴は、異なる周波数成分間の相互作用を促進するために双方向演算子によって変調されます。最後に、変調された特徴は、元の入力に逐次的にガイドされた復元のためにマージされます。このアプローチにより、モデルは、異なる入力の劣化に応じて情報量の多い周波数サブバンドを強調することで適応的な再構築を実現します。包括的な実験により、提案手法がノイズ除去、ヘイズ除去、雨除去、モーションブラー除去、および低照度画像の向上など、さまざまな画像復元タスクで最先端のパフォーマンスを達成していることが示されています。当該手法のコードは、https://github.com/c-yn/AdaIR で入手可能です。
学習ベースの画像修復手法は大きな進展を遂げてきましたが、合成データでのトレーニングによって引き起こされる実世界シナリオへの限定的な汎化性の欠如により、実際の状況に対応するのに苦労しています。既存の手法は、データ合成パイプラインの改善、劣化カーネルの推定、深層内部学習の利用、ドメイン適応および正則化を行うことで、この問題に対処しています。これまでのドメイン適応手法は、特徴空間またはピクセル空間のいずれかでドメイン不変の知識を学習することによって、ドメイン間のギャップを埋めることを目指してきました。しかし、これらの手法は、安定かつコンパクトなフレームワーク内で低レベルビジョンタスクに拡張するのにしばしば苦労します。本論文では、拡散モデルを使用してノイズ空間を介したドメイン適応が可能であることを示します。特に、補助条件入力が複数ステップのノイズ除去プロセスにどのように影響を与えるかという独自の特性を活用することで、修復モデルを導く有意義な拡散損失を導出し、修復された合成および実世界の出力を目標のクリーン分布と段階的に整合させる手法を提案します。この手法を適応ノイズ除去と呼びます。共同トレーニング中のショートカットを防ぐために、チャネルシャッフリング層や残差スワッピングコントラスティブラーニングなどの重要な戦略を拡散モデルに提示します。これらは、条件付き合成データと実データの境界をぼかし、モデルが簡単に区別可能な特徴に依存するのを防ぎます。ノイズ除去、ぼかし除去、雨除去という3つの古典的な画像修復タスクに対する実験結果は、提案手法の効果を示しています。