AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

AutoCrawler: Webクローラー生成のための漸進的理解型Webエージェント
AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

Apr 19

ByWenhao Huang, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen

ウェブ自動化は、一般的なウェブ操作を自動化することで複雑なウェブタスクを達成し、業務効率を向上させ、手動介入の必要性を低減する重要な技術です。従来の方法、例えばラッパーは、新しいウェブサイトに直面した際に適応性と拡張性が限られるという課題を抱えています。一方、大規模言語モデル（LLM）を活用した生成エージェントは、オープンワールドシナリオにおいて性能と再利用性が低いという問題があります。本研究では、垂直情報ウェブページ向けのクローラー生成タスクと、LLMとクローラーを組み合わせるパラダイムを提案し、クローラーが多様で変化するウェブ環境をより効率的に処理することを支援します。我々は、HTMLの階層構造を活用して段階的な理解を進める二段階フレームワークであるAutoCrawlerを提案します。トップダウンおよびステップバック操作を通じて、AutoCrawlerは誤った操作から学習し、HTMLを継続的に刈り込むことでより良い操作生成を実現します。複数のLLMを用いた包括的な実験を行い、本フレームワークの有効性を実証しました。本論文のリソースはhttps://github.com/EZ-hwh/AutoCrawlerで公開されています。

Groma: マルチモーダル大規模言語モデルの接地のための局所化視覚トークン化
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Apr 19

ByChuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi

本論文では、Gromaと呼ばれるマルチモーダル大規模言語モデル（MLLM）を紹介する。Gromaは、グラウンドされた細粒度の視覚知覚能力を有しており、画像全体の理解に加えて、領域レベルのタスク（領域キャプショニングや視覚的グラウンディングなど）に優れている。これらの能力は、局所的な視覚トークン化メカニズムに基づいて構築されており、画像入力は関心領域に分解され、その後領域トークンとしてエンコードされる。領域トークンをユーザー指示やモデルの応答に統合することで、Gromaはユーザーが指定した領域入力を理解し、テキスト出力を画像にグラウンドすることが可能となる。さらに、Gromaのグラウンドされたチャット能力を強化するため、GPT-4Vと視覚的プロンプト技術を活用して、視覚的にグラウンドされた指示データセットを構築した。言語モデルや外部モジュールに依存するMLLMと比較して、Gromaは標準的な参照およびグラウンディングベンチマークにおいて一貫して優れた性能を示し、画像トークン化に局所化を組み込むことの利点を強調している。プロジェクトページ: https://groma-mllm.github.io/。

TextSquare: テキスト中心の視覚的指示チューニングのスケールアップ
TextSquare: Scaling up Text-Centric Visual Instruction Tuning

Apr 19

ByJingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang

テキスト中心の視覚的質問応答（VQA）は、マルチモーダル大規模言語モデル（MLLMs）の進展により大きな進歩を遂げていますが、オープンソースのモデルはGPT4VやGeminiなどの主要モデルに及ばない状況が続いています。その一因として、広範で高品質な指示チューニングデータの不足が挙げられます。この課題に対処するため、我々はクローズドソースのMLLMsを活用して生成された大規模で高品質な指示チューニングデータセット、Square-10Mを構築する新たなアプローチを提案します。このデータ構築プロセスは「Square」と名付けられ、自己質問、回答、推論、評価の4つのステップで構成されます。Square-10Mを用いた実験から、以下の3つの重要な知見が得られました：1）我々のモデル、TextSquareは、オープンソースの従来の最先端テキスト中心MLLMsを大幅に上回り、OCRBenchで新たな基準（62.2%）を確立しました。さらに、10のテキスト中心ベンチマークのうち6つでGPT4VやGeminiなどのトップモデルを凌駕しました。2）また、VQA推論データが特定の質問に対する包括的な文脈的洞察を提供する上で重要な役割を果たすことを示しました。これにより、精度が向上するだけでなく、幻覚（hallucination）が大幅に軽減されます。具体的には、TextSquareは4つの一般的なVQAおよび幻覚評価データセットで平均75.1%のスコアを記録し、従来の最先端モデルを上回りました。3）特に、テキスト中心VQAデータセットのスケーリングにおいて観察された現象は、指示チューニングデータ量の指数関数的な増加がモデルの性能向上に直接比例するという明確なパターンを明らかにし、データセットの規模の必要性とSquare-10Mの高品質を裏付けました。

PhysDreamer: ビデオ生成による3Dオブジェクトとの物理ベースインタラクション
PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation

Apr 19

ByTianyuan Zhang, Hong-Xing Yu, Rundi Wu, Brandon Y. Feng, Changxi Zheng, Noah Snavely, Jiajun Wu, William T. Freeman

現実的な物体の相互作用は、没入型の仮想体験を創出する上で極めて重要である。しかし、新たな相互作用に対する現実的な3D物体のダイナミクスを合成することは、依然として大きな課題である。無条件またはテキスト条件付きのダイナミクス生成とは異なり、行動条件付きダイナミクスでは、物体の物理的な材質特性を認識し、物体の剛性などの特性に基づいて3Dモーション予測を根拠付ける必要がある。しかし、物理的な材質特性を推定することは、材質の真値データが不足しているため未解決の問題であり、実物体のこれらの特性を測定することは非常に困難である。本論文では、PhysDreamerを提案する。これは、ビデオ生成モデルによって学習された物体ダイナミクスの事前知識を活用して、静的な3D物体にインタラクティブなダイナミクスを付与する物理ベースのアプローチである。これらの事前知識を蒸留することにより、PhysDreamerは、外力やエージェントの操作などの新たな相互作用に対する現実的な物体の応答を合成することが可能となる。我々は、弾性物体の多様な例に対して本アプローチを実証し、ユーザスタディを通じて合成された相互作用の現実性を評価する。PhysDreamerは、静的な3D物体がインタラクティブな刺激に対して物理的に妥当な方法で動的に応答することを可能にすることで、より魅力的で現実的な仮想体験に向けた一歩を踏み出す。プロジェクトページはhttps://physdreamer.github.io/を参照のこと。

LLM-R2: クエリ効率向上のための大規模言語モデル拡張ルールベース書き換えシステム
LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency

Apr 19

ByZhaodonghui Li, Haitao Yuan, Huiming Wang, Gao Cong, Lidong Bing

クエリ書き換えは、SQLクエリの構造を変更しながらクエリ結果を変えずにより効率的なクエリを生成することを目的としており、重要な研究課題となってきました。書き換え中に元のクエリと書き換え後のクエリの等価性を維持するため、従来のクエリ書き換え手法は常に特定の書き換えルールに従ってクエリを書き換えます。しかし、いくつかの問題が依然として残っています。まず、最適な書き換えルールの選択やシーケンスを見つける既存の手法はまだ限られており、そのプロセスには多くのリソースがかかります。新しい書き換えルールを発見する手法は、通常、構造論理の複雑な証明や大規模なユーザーインタラクションを必要とします。次に、現在のクエリ書き換え手法は、しばしば正確ではないDBMSのコスト推定器に大きく依存しています。本論文では、これらの問題に対処するため、大規模言語モデル（LLM）を採用してデータベース書き換えシステムのための可能な書き換えルールを提案する、LLM-R2という新しいクエリ書き換え手法を提案します。LLMが書き換えルールを推薦する際の推論能力をさらに向上させるため、カリキュラム学習によってコントラスティブモデルを訓練し、クエリ表現を学習し、LLMのための効果的なクエリデモンストレーションを選択します。実験結果は、我々の手法がクエリ実行効率を大幅に改善し、ベースライン手法を上回ることを示しています。さらに、我々の手法は異なるデータセット間で高いロバスト性を享受しています。

ガウススプラッティングはSFM初期化を必要とするか？
Does Gaussian Splatting need SFM Initialization?

Apr 18

ByYalda Foroutan, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi

3Dガウシアンスプラッティングは、その高品質な結果とハードウェアラスタライゼーションとの互換性から、シーン再構築と新規視点合成のための汎用的で効果的な手法として最近注目を集めています。しかし、その利点にもかかわらず、ガウシアンスプラッティングがStructure-from-Motion（SFM）アルゴリズムによる高品質な点群初期化に依存している点は、克服すべき重要な制約です。この問題に対処するため、我々はガウシアンスプラッティングのための様々な初期化戦略を調査し、Neural Radiance Fields（NeRF）からのボリュメトリック再構築を活用してSFMデータへの依存を回避する方法を探求しました。我々の研究結果は、慎重に設計されたランダム初期化がより優れた性能を発揮しうること、そして改善された初期化戦略と低コストなNeRFモデルからの構造蒸留を組み合わせることで、SFM初期化から得られる結果と同等、あるいは時にはそれ以上の結果を達成可能であることを示しています。

実用的な関数レベルプログラム修復はどこまで進化できるのか？
How Far Can We Go with Practical Function-Level Program Repair?

Apr 19

ByJiahong Xiang, Xiaoyang Xu, Fanchu Kong, Mingyuan Wu, Haotian Zhang, Yuqun Zhang

近年、大規模言語モデル（LLM）に基づく複数の自動プログラム修復（APR）技術が提案され、修復性能の向上が図られてきた。これらの技術は主に単一行またはハンクレベルの修復に焦点を当てているが、修復タスクの範囲が限定的であり、ステートメントレベルの障害箇所特定にコストがかかるため、実世界での応用には大きな課題がある。しかし、より実用的な関数レベルAPRは、APRタスクの範囲を拡大してバグのある関数全体を修正し、コスト効率の良い関数レベルの障害箇所特定のみを必要とするにもかかわらず、十分に研究されていない。本論文では、LLMベースの関数レベルAPRに関する初の包括的な研究を行い、Few-shot学習メカニズムの効果と補助的な修復関連情報の影響を調査する。具体的には、広く研究されている6つのLLMを採用し、Defects4J 1.2および2.0データセットでベンチマークを構築する。我々の研究は、ゼロショット学習を用いたLLMが既に強力な関数レベルAPR技術であることを示し、Few-shot学習メカニズムを適用すると修復性能が大きく異なることを明らかにした。さらに、補助的な修復関連情報を直接LLMに適用することで、関数レベル修復性能が大幅に向上することを発見した。これらの知見に基づき、我々はSRepairというLLMベースの関数レベルAPR技術を提案する。SRepairは、補助的な修復関連情報の力を活用して修復性能を向上させるために、デュアルLLMフレームワークを採用している。評価結果は、SRepairがDefects4Jデータセットの300の単一関数バグを正しく修正し、コストのかかるステートメントレベルの障害箇所特定情報を必要とせずに、これまでのすべてのAPR技術を少なくとも85%上回ることを示している。さらに、SRepairはDefects4Jデータセットの32の複数関数バグを成功裏に修正し、これは我々の知る限り、APR技術として初めての成果である。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

AutoCrawler: Webクローラー生成のための漸進的理解型Webエージェント
AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

Apr 19

ByWenhao Huang, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen

Groma: マルチモーダル大規模言語モデルの接地のための局所化視覚トークン化
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Apr 19

ByChuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi

TextSquare: テキスト中心の視覚的指示チューニングのスケールアップ
TextSquare: Scaling up Text-Centric Visual Instruction Tuning

Apr 19

ByJingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang

PhysDreamer: ビデオ生成による3Dオブジェクトとの物理ベースインタラクション
PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation

Apr 19

ByTianyuan Zhang, Hong-Xing Yu, Rundi Wu, Brandon Y. Feng, Changxi Zheng, Noah Snavely, Jiajun Wu, William T. Freeman

LLM-R2: クエリ効率向上のための大規模言語モデル拡張ルールベース書き換えシステム
LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency

Apr 19

ByZhaodonghui Li, Haitao Yuan, Huiming Wang, Gao Cong, Lidong Bing

ガウススプラッティングはSFM初期化を必要とするか？
Does Gaussian Splatting need SFM Initialization?

Apr 18

ByYalda Foroutan, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi

実用的な関数レベルプログラム修復はどこまで進化できるのか？
How Far Can We Go with Practical Function-Level Program Repair?

Apr 19

ByJiahong Xiang, Xiaoyang Xu, Fanchu Kong, Mingyuan Wu, Haotian Zhang, Yuqun Zhang