AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

統一されたマルチモーダル理解と生成モデル：進展、課題、そして機会
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

近年、マルチモーダル理解モデルと画像生成モデルの両分野で目覚ましい進展が見られています。それぞれの成功にもかかわらず、これらの分野は独立して進化し、異なるアーキテクチャのパラダイムを形成してきました。マルチモーダル理解では自己回帰型アーキテクチャが主流である一方、画像生成では拡散モデルが基盤となっています。最近、これらのタスクを統合する統一フレームワークの開発に対する関心が高まっています。GPT-4oの新機能の登場はこの傾向を象徴しており、統合の可能性を示しています。しかし、両分野のアーキテクチャの違いは大きな課題となっています。統合に向けた現在の取り組みを明確に概観するため、将来の研究を導くことを目的とした包括的な調査を提示します。まず、マルチモーダル理解とテキストから画像生成モデルの基礎概念と最近の進展を紹介します。次に、既存の統一モデルをレビューし、それらを拡散ベース、自己回帰ベース、および自己回帰と拡散メカニズムを融合したハイブリッドアプローチの3つの主要なアーキテクチャパラダイムに分類します。各カテゴリーについて、関連研究が導入した構造設計と革新を分析します。さらに、統一モデルに特化したデータセットとベンチマークをまとめ、将来の探求のためのリソースを提供します。最後に、トークン化戦略、クロスモーダルアテンション、データなど、この新興分野が直面する主要な課題について議論します。この分野はまだ初期段階にあるため、急速な進展が予想され、本調査を定期的に更新する予定です。私たちの目標は、さらなる研究を刺激し、コミュニティにとって貴重な参考資料を提供することです。本調査に関連する参考文献はGitHub（https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models）で公開されています。

ZeroSearch: 検索を行わずにLLMの検索能力を促進する
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

効果的な情報検索は、大規模言語モデル（LLM）の推論能力と生成能力を向上させるために不可欠である。最近の研究では、現実世界の環境で実際の検索エンジンと対話することで、LLMの検索能力を強化するために強化学習（RL）を活用する手法が探求されている。これらのアプローチは有望な結果を示しているが、二つの主要な課題に直面している：(1) ドキュメント品質の制御不能性：検索エンジンが返すドキュメントの品質は予測不可能であり、トレーニングプロセスにノイズと不安定性をもたらす。(2) 過剰なAPIコスト：RLトレーニングは頻繁なロールアウトを必要とし、数十万回の検索リクエストが発生する可能性があり、これにより莫大なAPI費用がかかり、スケーラビリティが大幅に制約される。これらの課題に対処するため、我々はZeroSearchを提案する。これは、実際の検索エンジンと対話することなく、LLMの検索能力を促進する強化学習フレームワークである。我々のアプローチは、軽量な教師ありファインチューニングから始まり、LLMを検索モジュールに変換し、クエリに対して関連性のあるドキュメントとノイズを含むドキュメントを生成できるようにする。RLトレーニング中には、カリキュラムベースのロールアウト戦略を採用し、生成されるドキュメントの品質を段階的に低下させることで、モデルに次第に困難な検索シナリオを提示し、その推論能力を徐々に引き出す。広範な実験により、ZeroSearchが3BのLLMを検索モジュールとして使用することで、LLMの検索能力を効果的に促進することが示された。特に、7Bの検索モジュールは実際の検索エンジンと同等の性能を達成し、14Bの検索モジュールはそれを上回る性能を示した。さらに、この手法は様々なパラメータサイズのベースモデルおよび指示チューニングモデルにおいても良好な汎化性能を示し、幅広いRLアルゴリズムと互換性がある。

HunyuanCustom：カスタムビデオ生成のためのマルチモーダル駆動型アーキテクチャ
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

カスタマイズ動画生成は、柔軟なユーザー定義条件のもとで特定の被写体を特徴とする動画を生成することを目指すが、既存の手法では被写体の一貫性や入力モダリティの制限に課題がある。本論文では、HunyuanCustomを提案する。これは、画像、音声、動画、テキストの条件をサポートしつつ、被写体の一貫性を重視したマルチモーダルカスタマイズ動画生成フレームワークである。HunyuanVideoを基盤とした本モデルは、まず画像-テキスト条件付き生成タスクに対処するため、LLaVAに基づくテキスト-画像融合モジュールを導入し、マルチモーダル理解を強化する。さらに、フレーム間のID特徴を強化するため、時間的連結を活用した画像ID強化モジュールを採用する。音声および動画条件付き生成を可能にするため、モダリティ固有の条件注入メカニズムを提案する。具体的には、空間的クロスアテンションによる階層的アラインメントを実現するAudioNetモジュールと、パッチ化ベースの特徴アラインメントネットワークを通じて潜在圧縮された条件付き動画を統合する動画駆動注入モジュールである。単一被写体および複数被写体シナリオにおける広範な実験により、HunyuanCustomがID一貫性、リアリズム、テキスト-動画アラインメントの点で、オープンソースおよびクローズドソースの最先端手法を大幅に上回ることを実証した。さらに、音声および動画駆動のカスタマイズ動画生成を含む下流タスクにおける堅牢性を検証した。我々の結果は、制御可能な動画生成を進化させる上で、マルチモーダル条件付けとID保存戦略の有効性を強調している。全てのコードとモデルはhttps://hunyuancustom.github.ioで公開されている。

OpenVision：マルチモーダル学習のための完全オープンでコスト効率の高い先進的ビジョンエンコーダファミリー
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

OpenAIが2021年初頭にリリースしたCLIPは、長らくマルチモーダル基盤モデルを構築するためのビジョンエンコーダとしての定番選択肢となってきた。最近ではSigLIPなどの代替案がこの現状に挑戦し始めているものの、私たちの知る限り、完全にオープンなものは存在しない。それらのトレーニングデータはプロプライエタリであり、あるいはトレーニングレシピが公開されていない。本論文はこのギャップを埋めるOpenVisionを提案する。OpenVisionは、LLaVAのようなマルチモーダルフレームワークに統合した際に、OpenAIのCLIPの性能を匹敵または凌駕する、完全にオープンでコスト効率の良いビジョンエンコーダのファミリーである。OpenVisionは既存の研究——例えば、トレーニングフレームワークとしてのCLIPSやトレーニングデータとしてのRecap-DataComp-1B——を基盤としつつ、エンコーダの品質を向上させるための複数の重要な洞察を明らかにし、マルチモーダルモデルの進化における実用的な利点を実証している。5.9Mから632.1Mパラメータにわたるビジョンエンコーダをリリースすることで、OpenVisionはマルチモーダルモデルを構築する際に、容量と効率の間の柔軟なトレードオフを実践者に提供する。より大きなモデルはマルチモーダル性能を向上させ、より小さなバージョンは軽量でエッジ対応のマルチモーダル展開を可能にする。

PrimitiveAnything: オートリグレッシブTransformerを用いた人間が作成した3Dプリミティブアセンブリ生成
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

複雑な3D形状を単純な幾何学的要素に分解する形状プリミティブ抽象化は、人間の視覚認知において重要な役割を果たし、コンピュータビジョンやグラフィックスにおいて幅広い応用があります。近年の3Dコンテンツ生成の進歩は目覚ましいものの、既存のプリミティブ抽象化手法は、限られた意味理解に基づく幾何学的最適化に依存するか、小規模でカテゴリ固有のデータセットから学習するため、多様な形状カテゴリにわたる汎化に苦労しています。本論文では、形状プリミティブ抽象化をプリミティブアセンブリ生成タスクとして再定式化する新しいフレームワーク、PrimitiveAnythingを提案します。PrimitiveAnythingは、形状条件付きプリミティブトランスフォーマーによる自己回帰的生成と、複数種類のプリミティブを統一的な方法で表現する曖昧さのないパラメータ化スキームを含みます。提案フレームワークは、大規模な人手による抽象化から直接プリミティブアセンブリのプロセスを学習し、人間が複雑な形状をプリミティブ要素に分解する方法を捉えることを可能にします。広範な実験を通じて、PrimitiveAnythingが、人間の知覚により良く一致しつつ、多様な形状カテゴリにわたる幾何学的忠実性を維持する高品質なプリミティブアセンブリを生成できることを示します。これは様々な3Dアプリケーションに有益であり、ゲームにおけるプリミティブベースのユーザー生成コンテンツ（UGC）を可能にする可能性を示しています。プロジェクトページ: https://primitiveanything.github.io

R&B: 効率的な基盤モデル訓練のためのドメイン再編成とデータ混合バランス調整
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

データ混合戦略は、言語モデルのトレーニングに伴うコストを削減することに成功してきました。しかし、このような手法には2つの欠点があります。第一に、事前に定義されたデータドメイン（例：データソース、タスクタイプ）に依存しており、重要な意味的ニュアンスを捉え損ねる可能性があり、性能を十分に引き出せないことがあります。第二に、これらの手法はドメインの数に応じて計算量が指数的に増加するため、計算コストが高くなります。これらの課題に対処するため、我々はR&Bというフレームワークを提案します。R&Bは、意味的類似性に基づいてトレーニングデータを再分割（Regroup）し、より細かい粒度のドメインを作成し、トレーニング全体で得られるドメイン勾配によって誘導されるグラム行列を活用してデータ構成を効率的に最適化（Balance）します。従来の手法とは異なり、損失や勾配などの評価情報を取得するための追加の計算を必要としません。我々は、標準的な正則条件の下でこの技術を分析し、非適応的な混合手法と比較してR&Bの有効性を理論的に裏付けます。実験的には、自然言語から推論、マルチモーダルタスクに至る5つの多様なデータセットにおいてR&Bの有効性を実証します。わずか0.01%の追加計算オーバーヘッドで、R&Bは最先端のデータ混合戦略の性能に匹敵するか、それを上回る結果を示します。

認識を超えて：視覚言語モデルにおける視点取得能力の評価
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

視覚言語モデル（VLMs）の視点取得能力を調査するため、確立された人間のテストに着想を得た新たな視覚タスクセットを用いました。本アプローチでは、単一のヒューマノイドミニフィギュアと単一のオブジェクトを組み合わせた、厳密に制御されたシーンを活用しています。オブジェクトの位置やヒューマノイドミニフィギュアの向きといった空間配置を体系的に変化させ、鳥瞰図と地上レベルの視点の両方を使用することで、144のユニークな視覚タスクを作成しました。各視覚タスクは、シーン理解、空間推論、視点取得という3つのレベルの視覚認知を評価するために設計された7つの診断質問とペアになっています。GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct、およびClaude Sonnetのバリエーションを含むいくつかの最先端モデルを評価した結果、シーン理解では優れた性能を示すものの、空間推論では性能が大幅に低下し、視点取得ではさらに悪化することが明らかになりました。分析結果から、表層的な物体認識と、複雑な視覚タスクに必要な深い空間的・視点的推論との間にギャップがあることが示唆され、今後のVLM開発において明示的な幾何学的表現と特化したトレーニングプロトコルの統合が必要であることが指摘されました。

LLMの群知能のベンチマーキング
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

大規模言語モデル（LLM）は複雑な推論能力を示すが、自然な群れに特徴的な局所的な知覚と通信の制約といった厳しい条件下でのマルチエージェントシステム（MAS）における創発的協調能力は、特に群知能のニュアンスに関して、ほとんど未解明のままである。既存のベンチマークは、エージェントが不完全な時空間情報で動作する際に生じる分散型協調の独自の課題を十分に捉えていないことが多い。このギャップを埋めるため、我々はSwarmBenchを導入する。これは、分散型エージェントとして動作するLLMの群知能能力を体系的に評価するための新しいベンチマークである。SwarmBenchは、設定可能な2Dグリッド環境内で5つの基本的なMAS協調タスクを特徴とし、エージェントに主に局所的な感覚入力（k x kビュー）と局所的な通信に依存することを強いる。我々は協調効果のための指標を提案し、創発的なグループダイナミクスを分析する。ゼロショット設定でいくつかの主要なLLMを評価した結果、タスク間で顕著な性能のばらつきが見られ、局所的な情報制約がもたらす困難が浮き彫りになった。一部の協調は見られるものの、結果はこれらの分散型シナリオにおける不確実性下での堅牢な計画と戦略形成の限界を示している。群れのような条件下でLLMを評価することは、将来の分散型システムにおけるその潜在能力を実現するために重要である。我々はSwarmBenchを、定義された機械的特性を持つカスタマイズ可能でスケーラブルな物理システムに基づいたオープンで拡張可能なツールキットとして公開する。これにより、環境、プロンプト、評価スクリプト、および生成された包括的な実験データセットを提供し、LLMベースのMAS協調と具現化されたMASの理論的基盤に関する再現可能な研究を促進することを目指している。我々のコードリポジトリはhttps://github.com/x66ccff/swarmbenchで利用可能である。

LLMに依存しない適応型RAG：質問自体が語ることを許す
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

大規模言語モデル（LLM）は幻覚を起こしやすい傾向があり、検索拡張生成（RAG）はこれを緩和するが、高い計算コストを伴い、誤情報のリスクも伴う。適応的検索は必要な場合にのみ検索を行うことを目指すが、既存のアプローチはLLMベースの不確実性推定に依存しており、非効率で実用的ではない。本研究では、外部情報に基づいた軽量でLLMに依存しない適応的検索手法を提案する。27の特徴量を7つのグループに分類し、それらのハイブリッド組み合わせを調査した。6つのQAデータセットにおいて、これらの手法を評価し、QA性能と効率性を検証した。結果は、我々のアプローチが複雑なLLMベースの手法と同等の性能を維持しつつ、大幅な効率向上を達成することを示しており、適応的検索における外部情報の可能性を実証している。

定理証明を超えて：形式的問題解決のための定式化、フレームワーク、ベンチマーク
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

一見自明なタスクとして、問題解決は科学と工学において重要な要素となってきた。しかし、問題解決そのものに対する一般的かつ具体的な定式化は未だ存在しない。近年のAIベースの問題解決エージェントの発展に伴い、プロセスレベルでの検証可能性に対する需要が急速に高まっているが、これはまだ十分に探求されていない。これらのギャップを埋めるため、我々は問題解決を決定論的マルコフ決定過程として原理的に定式化し、既存のFTP（形式的定理証明）環境を活用してプロセス検証済みの問題解決を行う新たなフレームワークFPS（Formal Problem-Solving）、および解決と回答検証を分離することで人間との整合性を高めたD-FPS（Deductive FPS）を提案する。これらのフレームワークの表現力、健全性、完全性を証明する。我々は問題解決に関する3つのベンチマークを構築した：MATH500ベンチマークの一部を形式化したFormalMath500、FTPベンチマークMiniF2FとPutnamBenchを適応させたMiniF2F-SolvingとPutnamBench-Solvingである。忠実で解釈可能かつ人間との整合性を重視した評価のために、形式的検証によって回答の正しさを判定する記号的手法RPE（Restricted Propositional Equivalence）を提案する。我々は4つの主要なFTPモデルと2つのプロンプト手法をベースラインとして評価し、FormalMath500の最大23.77%、MiniF2F-Solvingの27.47%、PutnamBench-Solvingの0.31%を解決した。

OmniGIRL: GitHub Issue解決のための多言語・多モーダルベンチマーク
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7

ByLianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng

GitHubイシュー解決タスクは、リポジトリで報告されたイシューを自動的に解決することを目的としています。大規模言語モデル（LLM）の進展に伴い、このタスクは注目を集めており、LLMのイシュー解決能力を評価するためのいくつかのベンチマークが提案されています。しかし、既存のベンチマークには3つの主な制限があります。まず、現在のベンチマークは単一のプログラミング言語に焦点を当てており、異なる言語のリポジトリからのイシューを評価するには限界があります。次に、通常、狭い範囲のドメインをカバーしており、実世界のイシューの多様性を十分に代表できない可能性があります。第三に、既存のベンチマークはイシュー説明文のテキスト情報のみに依存しており、イシュー内の画像などのマルチモーダル情報を見落としています。本論文では、多言語、マルチモーダル、かつ多ドメインのGitHubイシュー解決ベンチマークであるOmniGIRLを提案します。OmniGIRLは、4つのプログラミング言語（Python、JavaScript、TypeScript、Java）と8つの異なるドメインにわたるリポジトリから収集された959のタスクインスタンスを含んでいます。評価の結果、現在のLLMはOmniGIRLにおいて限定的な性能しか示しませんでした。特に、最高性能のモデルであるGPT-4oでも、イシューの8.6%しか解決できませんでした。さらに、現在のLLMは画像の理解を必要とするイシューの解決に苦戦していることがわかりました。画像情報を含むイシューにおいて、最高性能を達成したClaude-3.5-Sonnetでも、10.5%のイシューしか解決できませんでした。最後に、現在のLLMがOmniGIRLで失敗する理由を分析し、今後の改善のための洞察を提供します。

大規模言語モデルを用いた知識拡張型複雑問題解決：サーベイ
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

May 6

ByDa Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen

問題解決は、数多くの領域において人類の進歩を促す基本的な原動力となってきた。人工知能の進展に伴い、大規模言語モデル（LLMs）は、多様な領域にわたる複雑な問題に取り組むことができる強力なツールとして登場した。従来の計算システムとは異なり、LLMsは生の計算能力と人間の推論を近似する能力を組み合わせることで、解決策を生成し、推論を行い、さらには外部の計算ツールを活用することさえ可能にしている。しかし、LLMsを現実世界の問題解決に適用するには、多段階推論、領域知識の統合、結果の検証といった重要な課題が存在する。本調査では、複雑な問題解決におけるLLMsの能力と限界を探り、Chain-of-Thought（CoT）推論、知識拡張、および様々なLLMベースおよびツールベースの検証技術を検討する。さらに、ソフトウェアエンジニアリング、数学的推論と証明、データ分析とモデリング、科学研究といった様々な領域における領域固有の課題を強調する。本論文では、さらに、現在のLLMソリューションの根本的な限界と、多段階推論、領域知識の統合、結果の検証の観点から見たLLMベースの複雑な問題解決の将来の方向性について議論する。

OpenHelix: ロボットマニピュレーションのための短いサーベイ、実証分析、およびオープンソースのデュアルシステムVLAモデル
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang

デュアルシステムVLA（Vision-Language-Action）アーキテクチャは、エンボディードインテリジェンス研究におけるホットトピックとなっていますが、さらなる性能分析と最適化のための十分なオープンソース作業が不足しています。この問題に対処するため、本論文では既存のデュアルシステムアーキテクチャの構造設計をまとめ、比較し、既存のデュアルシステムアーキテクチャのコア設計要素について体系的な実証評価を行います。最終的には、さらなる探求のための低コストのオープンソースモデルを提供します。もちろん、このプロジェクトは、より多くの実験的結論と性能が向上したオープンソースモデルを継続的に更新し、誰もが選択できるようにします。プロジェクトページ: https://openhelix-robot.github.io/。

OSUniverse: マルチモーダルGUIナビゲーションAIエージェントのベンチマーク
OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

May 6

ByMariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan

本論文では、OSUniverseを紹介します。これは、高度なGUIナビゲーションAIエージェント向けの複雑でマルチモーダルなデスクトップ指向タスクのベンチマークであり、使いやすさ、拡張性、テストケースの包括的なカバレッジ、および自動検証に焦点を当てています。タスクは、基本的な精密クリックから、器用さ、精度、明確な思考を要するマルチステップかつマルチアプリケーションのテストまで、複雑さのレベルに応じて分類されています。ここで紹介するバージョン1のベンチマークでは、公開時点でのSOTA（State of the Art）エージェントが50%以上の結果を達成できないようにテストケースの複雑さを調整し、一方で平均的なホワイトカラーワーカーがこれらのタスクを完璧に実行できるようにしています。ベンチマークは手動で採点することもできますが、平均誤差率が2%未満の自動検証メカニズムも導入しています。したがって、このベンチマークは、短期および中期の視野で、GUIナビゲーションAIエージェントの進捗、能力、および有効性を完全に自動化して測定するための確固たる基盤を提供します。ベンチマークのソースコードはhttps://github.com/agentsea/osuniverseで公開されています。

AutoLibra: オープンエンドなフィードバックからのエージェントメトリック誘導
AutoLibra: Agent Metric Induction from Open-Ended Feedback

May 5

ByHao Zhu, Phil Cuvin, Xinkai Yu, Charlotte Ka Yee Yan, Jason Zhang, Diyi Yang

エージェントの評価と最適化は主にタスク成功率の指標に基づいて行われており、これらは大まかで、専門家による手動設計に依存し、中間段階で現れる行動を適切に評価できていない。我々はAutoLibraというエージェント評価のフレームワークを提案する。これは、例えば「ボタンが無効になっている場合、再度クリックしないでください」や「このエージェントは自分で何をするかを決定する際に自律性が高すぎる」といった、オープンエンドな人間のフィードバックを、エージェントの軌跡における細かい行動を評価する指標に変換する。AutoLibraは、フィードバックをエージェントの行動に基づいて具体化し、類似した肯定的および否定的な行動をクラスタリングし、明確な定義と具体的な例を持つ具体的な指標を作成することでこれを実現する。これらの指標は、LLM-as-a-Judge（評価者としての大規模言語モデル）を促すために使用できる。さらに、我々はオープンなフィードバックと（誘導された）指標セットの整合性を評価するための2つのメタ指標「カバレッジ」と「冗長性」を提案する。これらのメタ指標を最適化することで、AutoLibraが従来のエージェント評価ベンチマークで提案されたものよりも具体的なエージェント評価指標を誘導し、エージェントを分析するための新しい指標を発見する能力を実験的に実証する。また、AutoLibraのエージェント改善における2つの応用例を示す。まず、AutoLibraによって誘導された指標が、テキストゲームタスクの広範な範囲において、タスク成功率よりも優れたプロンプトエンジニアリングの目標として機能し、ベースラインよりも平均20%のエージェント性能向上をもたらすことを示す。次に、AutoLibraがウェブナビゲーションエージェントの高品質なファインチューニングデータを反復的に選択できることを示す。我々の結果は、AutoLibraが言語エージェントを評価し改善するための強力なタスク非依存ツールであることを示唆している。

不確実性を考慮した画像-イベントマルチモーダル融合による動画異常検出
Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

May 5

BySungheon Jeong, Jihong Park, Mohsen Imani

既存のビデオ異常検出器の多くはRGBフレームのみに依存しており、異常事象の重要な指標である急激または一時的な動きの手がかりを捉えるのに必要な時間分解能が不足しています。この制限を解決するため、本研究ではRGBビデオから直接イベント表現を合成し、画像特徴と不確実性を考慮した原則に基づくプロセスで融合するImage-Event Fusion for Video Anomaly Detection (IEF-VAD)フレームワークを提案します。このシステムは、(i) スチューデントのt分布尤度を用いてセンサノイズの重い裾をモデル化し、ラプラス近似を通じて値レベルの逆分散重みを導出します。(ii) カルマンフィルタスタイルのフレーム単位の更新を適用し、時間経過に伴うモダリティのバランスを取ります。(iii) 融合された潜在状態を反復的に洗練し、残存するクロスモーダルノイズを除去します。専用のイベントセンサやフレームレベルのラベルを一切使用せずに、IEF-VADは複数の実世界の異常検出ベンチマークで新たな最先端の性能を達成しました。これらの結果は、RGBフレームでは十分に表現されないことが多い動きの手がかりを強調する合成イベント表現の有用性を示しており、専用のイベントセンサを必要とせずに多様なアプリケーションにおいて正確かつ堅牢なビデオ理解を可能にします。コードとモデルはhttps://github.com/EavnJeong/IEF-VADで公開されています。

COSMOS: LLMの予測可能かつコスト効率的な適応
COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Apr 30

ByJiayu Wang, Aws Albarghouthi, Frederic Sala

大規模言語モデル（LLM）は、多様な適応戦略を用いることで、数多くのタスクで顕著な性能を達成しています。しかし、リソース制約下で最適なモデルと適応戦略を選択することは困難であり、しばしば大規模な実験を必要とします。本研究では、高コストな試行を伴わずに、性能とコストを正確に予測することが可能かどうかを調査します。我々はLLMの戦略選択問題を形式化し、最小限のコストで適応結果を効率的に推定する統一予測フレームワークであるCOSMOSを導入します。このフレームワークの能力を、強力な2つの予測器を通じて具体化し、検証します。すなわち、ファインチューニング性能を予測するための埋め込み拡張軽量プロキシモデルと、検索拡張インコンテキスト学習を予測するための低サンプルスケーリング則です。8つの代表的なベンチマークでの広範な評価により、COSMOSが高い予測精度を達成しつつ、平均で92.72%、リソース集約的なシナリオでは最大98.71%の計算コストを削減できることが示されました。我々の結果は、適応結果の効率的な予測が可能であるだけでなく、LLMのデプロイメントにおける計算オーバーヘッドを大幅に削減しつつ、性能基準を維持できることを示しています。

マルチモーダル汎用モデルへの道：汎用レベルと汎用ベンチマーク
On Path to Multimodal Generalist: General-Level and General-Bench

May 7

ByHao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Weiming Wu, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang

マルチモーダル大規模言語モデル（MLLM）は、現在、LLMの高度な能力によって急速に成長を遂げています。従来の専門家モデルとは異なり、既存のMLLMはマルチモーダル汎用モデル（Multimodal Generalist）のパラダイムへと進化しています。当初は複数のモダリティを理解する能力に限定されていたこれらのモデルは、現在では理解だけでなく、モダリティを超えた生成も可能になっています。その能力は、粗粒度から細粒度のマルチモーダル理解へ、また限定的なモダリティのサポートから任意のモダリティのサポートへと拡大しています。MLLMを評価するための多くのベンチマークが存在しますが、重要な疑問が浮かびます：タスク全体での高いパフォーマンスが、より強力なMLLM能力を示し、人間レベルのAIに近づいていると単純に仮定できるでしょうか？私たちは、その答えはそう単純ではないと主張します。このプロジェクトでは、General-Levelという評価フレームワークを導入し、MLLMのパフォーマンスと汎用性を5段階のスケールで定義し、MLLMを比較し、既存のシステムがより強力なマルチモーダル汎用モデル、そして最終的にはAGI（人工汎用知能）に向けてどの程度進歩しているかを測る方法論を提供します。このフレームワークの核心は、Synergyという概念であり、モデルが理解と生成、そして複数のモダリティにわたって一貫した能力を維持しているかを測定します。この評価をサポートするために、General-Benchを提示します。これは、700以上のタスクと325,800のインスタンスを含む、より広範なスキル、モダリティ、フォーマット、および能力を網羅しています。100以上の最先端MLLMを対象とした評価結果から、汎用モデルの能力ランキングが明らかになり、真のAIに到達するための課題が浮き彫りになりました。このプロジェクトが、次世代のマルチモーダル基盤モデルに関する将来の研究の道を開き、AGIの実現を加速するための堅牢なインフラを提供することを期待しています。プロジェクトページ: https://generalist.top/

RAIL: CBCTにおける半教師あり歯科セグメンテーションのための領域認識型指導学習
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

May 6

ByChuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu

半教師あり学習は、CBCTスキャンからの3D歯科セグメンテーションにおいて、ラベル付きデータが限られている状況で有力なアプローチとなっています。しかし、既存の手法では依然として2つの課題が残っています。1つは、教師あり学習中に構造的に曖昧な領域や誤ラベルが付いた領域での修正的な監督が限られていること、もう1つは、ラベルなしデータに対する信頼性の低い擬似ラベルによる性能低下です。これらの問題を解決するため、我々はRegion-Aware Instructive Learning (RAIL)を提案します。RAILは、デュアルグループ・デュアルステューデントの半教師あり学習フレームワークであり、各グループは共有の教師ネットワークによって導かれる2つの学生モデルを含みます。2つのグループ間で交互に学習を行うことで、RAILはグループ間の知識転送と協調的な領域認識指導を促進し、単一モデルの特性への過剰適合を軽減します。具体的には、RAILは2つの指導メカニズムを導入します。Disagreement-Focused Supervision (DFS) Controllerは、学生の出力が正解データと最良の学生モデルの両方から乖離している領域のみに予測を指導することで、構造的に曖昧な領域や誤ラベルが付いた領域に監督を集中させ、教師あり学習を改善します。教師なし学習段階では、Confidence-Aware Learning (CAL) Modulatorが、モデルの確信度が高い領域での一致を強化し、学習中の低信頼度予測の影響を軽減します。これにより、不安定なパターンを学習することを防ぎ、擬似ラベルの全体的な信頼性を向上させます。4つのCBCT歯科セグメンテーションデータセットでの大規模な実験により、RAILが限られたアノテーション下で最先端の手法を凌駕することが示されました。我々のコードはhttps://github.com/Tournesol-Saturday/RAILで公開予定です。

コグニティオ・エメルゲンス：人間とAIの知識共創における主体性、次元、ダイナミクス
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

May 6

ByXule Lin

科学的知識の創造は、人間とAIシステムが道具と使用者の関係を超えて共進化的な認識的パートナーシップへと進化するにつれ、根本的に変容しつつある。AlphaFoldがタンパク質構造予測に革命をもたらした際、研究者たちは、基本的な関係の概念化の仕方を再構築する認識的パートナーとの関わりを語った。本論文では、既存のモデルが静的な役割や狭い指標に焦点を当て、時間をかけた再帰的な人間-AI相互作用を通じて科学的理解がどのように生まれるかを捉えられていないという重大な限界に対処する枠組みとして、Cognitio Emergens（CE）を紹介する。CEは、これらの限界に対処する3つの構成要素を統合している：人間とAIの間で権威がどのように分配されるかを記述するエージェンシー構成（指示型、貢献型、パートナーシップ型）であり、パートナーシップは線形の進展ではなく構成間を動的に振動する；発見、統合、投影の軸を横断する協働を通じて生まれる6つの特定の能力を捉える認識的次元であり、開発を導く独特の「能力シグネチャ」を創出する；そして、これらの関係がどのように進化するかを形作る力を特定するパートナーシップダイナミクスであり、特に研究者が正式に承認した知識に対する解釈的コントロールを失う認識的疎外のリスクに焦点を当てる。オートポイエーシス理論、社会システム理論、組織モジュール性から着想を得たCEは、役割、価値、組織構造の継続的な交渉を通じて知識の共創がどのように生まれるかを明らかにする。人間-AIの科学的協働を根本的に共進化的なものとして再概念化することにより、CEは、AIの進化する役割を無批判に称賛することも、不必要に恐れることもないバランスの取れた視点を提供し、意味のある人間の参加を維持しながら変革的な科学的ブレークスルーを可能にするパートナーシップを育むための概念的なツールを提供する。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

統一されたマルチモーダル理解と生成モデル：進展、課題、そして機会
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

May 5

ByXinjie Zhang, Jintao Guo, Shanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

ZeroSearch: 検索を行わずにLLMの検索能力を促進する
ZeroSearch: Incentivize the Search Capability of LLMs without Searching

May 7

ByHao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

HunyuanCustom：カスタムビデオ生成のためのマルチモーダル駆動型アーキテクチャ
HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

May 7

ByTeng Hu, Zhentao Yu, Zhengguang Zhou, Sen Liang, Yuan Zhou, Qin Lin, Qinglin Lu

OpenVision：マルチモーダル学習のための完全オープンでコスト効率の高い先進的ビジョンエンコーダファミリー
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

May 7

ByXianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

PrimitiveAnything: オートリグレッシブTransformerを用いた人間が作成した3Dプリミティブアセンブリ生成
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer

May 7

ByJingwen Ye, Yuze He, Yanning Zhou, Yiqin Zhu, Kaiwen Xiao, Yong-Jin Liu, Wei Yang, Xiao Han

R&B: 効率的な基盤モデル訓練のためのドメイン再編成とデータ混合バランス調整
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

May 1

ByAlbert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala

認識を超えて：視覚言語モデルにおける視点取得能力の評価
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3

ByGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

LLMの群知能のベンチマーキング
Benchmarking LLMs' Swarm intelligence

May 7

ByKai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun

LLMに依存しない適応型RAG：質問自体が語ることを許す
LLM-Independent Adaptive RAG: Let the Question Speak for Itself

May 7

ByMaria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

定理証明を超えて：形式的問題解決のための定式化、フレームワーク、ベンチマーク
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

May 7

ByQi Liu, Xinhao Zheng, Renqiu Xia, Xingzhi Qi, Qinxiang Cao, Junchi Yan

OmniGIRL: GitHub Issue解決のための多言語・多モーダルベンチマーク
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7

ByLianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng

大規模言語モデルを用いた知識拡張型複雑問題解決：サーベイ
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey

May 6

ByDa Zheng, Lun Du, Junwei Su, Yuchen Tian, Yuqi Zhu, Jintian Zhang, Lanning Wei, Ningyu Zhang, Huajun Chen

OpenHelix: ロボットマニピュレーションのための短いサーベイ、実証分析、およびオープンソースのデュアルシステムVLAモデル
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

May 6

ByCan Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang

RAIL: CBCTにおける半教師あり歯科セグメンテーションのための領域認識型指導学習
RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

May 6

ByChuyu Zhao, Hao Huang, Jiashuo Guo, Ziyu Shen, Zhongwei Zhou, Jie Liu, Zekuan Yu

コグニティオ・エメルゲンス：人間とAIの知識共創における主体性、次元、ダイナミクス
Cognitio Emergens: Agency, Dimensions, and Dynamics in Human-AI Knowledge Co-Creation

May 6

ByXule Lin