GUI(Graphical User Interfaces)は長い間、人間とコンピュータのインタラクションに中心的な役割を果たしており、直感的で視覚的な方法でデジタルシステムにアクセスし、相互作用する手段を提供してきました。特に多様なモダリティモデルを含むLLM(Large Language Models)の出現は、GUIの自動化の新時代をもたらしました。これらは、自然言語理解、コード生成、および視覚処理において優れた能力を示しています。これにより、複雑なGUI要素を解釈し、自然言語の指示に基づいて自律的にアクションを実行することができる新世代のLLM搭載GUIエージェントが可能となりました。これらのエージェントは、ユーザーが簡単な会話コマンドを通じて複雑な多段階のタスクを実行できるようにし、パラダイムシフトを表しています。これらのアプリケーションは、ウェブナビゲーション、モバイルアプリの相互作用、およびデスクトップ自動化を横断し、ソフトウェアとのインタラクション方法を革新する変革的なユーザーエクスペリエンスを提供しています。この新興分野は、研究と産業の両面で急速に進化しています。
このトレンドを構造化した理解を提供するため、本論文では、LLM搭載GUIエージェントの包括的な調査を行い、その歴史的な進化、中核コンポーネント、および高度な技術を探求します。既存のGUIエージェントフレームワーク、特化したGUIエージェントのトレーニング用データの収集と利用、GUIタスク向けの大規模なアクションモデルの開発、および有効性を評価するために必要な評価尺度やベンチマークなど、研究課題に取り組みます。さらに、これらのエージェントによって可能となる新興アプリケーションについても検討します。この調査を通じて、研究の欠陥を特定し、この分野での将来の進展のためのロードマップを概説します。基礎知識と最新の進歩を統合することで、この研究は、研究者と実務者の両方が課題を克服し、LLM搭載GUIエージェントのフルポテンシャルを引き出す手助けとなることを目指しています。
ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
15
5
最近の放射輝度場再構築の進歩、例えば3Dガウススプラッティング(3DGS)は、ガウス原理の組成でシーンを表現することにより、高品質な新しい視点合成と高速レンダリングを達成しています。しかし、3Dガウスはシーン再構築にいくつかの制限を持っています。硬いエッジを正確に捉えることは、ガウスの数を大幅に増やさないと難しく、大きなメモリフットプリントを作成します。さらに、彼らは平坦な表面を表現するのに苦労し、空間に拡散します。手作りの正則化子がないと、実際の表面の周りに不規則に分散する傾向があります。これらの問題を回避するために、私たちは3Dスムース凸スプラッティング(3DCS)という新しい手法を導入します。これは、幾何学的に意味のある放射輝度場をマルチビュー画像からモデリングするために3Dスムース凸体を原始体として利用します。スムースな凸形状はガウスよりも柔軟性があり、少ない原始体を使用して、硬いエッジと密なボリュームを持つ3Dシーンをより良く表現できます。私たちの効率的なCUDAベースのラスタライザによって強化された3DCSは、Mip-NeRF360、Tanks and Temples、Deep Blendingなどのベンチマークで3DGSに比べて優れたパフォーマンスを達成します。具体的には、PSNRで最大0.81、LPIPSで0.026の向上を達成し、高速なレンダリング速度を維持しつつ必要な原始体の数を減らします。私たちの結果は、3Dスムース凸スプラッティングが高品質なシーン再構築と新しい視点合成の新たな標準になる可能性を示しています。プロジェクトページ:convexsplatting.github.io。
最近のビデオ大規模言語モデル(VideoLLM)に関する研究は、主にモデルアーキテクチャとトレーニングデータセットに焦点を当てており、ユーザーとモデルのインタラクション形式が未開拓のままとなっています。既存の研究では、ユーザーは通常、ビデオ全体とクエリを入力として使用してVideoLLMとやり取りし、その後モデルが応答を生成します。このインタラクション形式は、ビデオが終わらずリアルタイムで応答が必要なライブストリーミング理解などのシナリオでのVideoLLMの適用を制限し、また、ビデオセグメントのローカライズが必要な時間的に敏感なタスクでのパフォーマンスが不十分であるという結果をもたらします。本論文では、ビデオテキストデュエットのインタラクション形式に焦点を当てています。このインタラクション形式は、ビデオの連続再生と、ユーザーとモデルがビデオ再生中に任意の位置にテキストメッセージを挿入できることを特徴としています。テキストメッセージが終了すると、ビデオは再生を続け、デュエットのパフォーマーの代替と同様です。私たちは、VideoLLMをビデオテキストデュエットのインタラクション形式に適応させるために設計されたMMDuetITというビデオテキストトレーニングデータセットを構築します。また、リアルタイム応答能力を評価するためにMulti-Answer Grounded Video Question Answering(MAGQA)タスクを導入します。MMDuetITでトレーニングされたMMDuetは、ビデオテキストデュエットのインタラクション形式を採用することで、さまざまな時間的に敏感なタスク(YouCook2の密なビデオキャプショニングで76%のCIDEr、QVHighlightsのハイライト検出で90%のmAP、Charades-STAの時間的ビデオグラウンディングで25%のR@0.5)で著しい改善を達成し、トレーニングの努力を最小限に抑えつつ、ビデオ再生中にリアルタイムで応答することも可能となります。コード、データ、デモは以下で入手可能です:https://github.com/yellow-binary-tree/MMDuet.
大規模言語モデル(LLM)の急速な進化、例えばGPT-3、PaLM、およびLlamaなどは、自然言語処理を大きく変革し、言語の理解と生成において顕著な能力を示しています。ただし、これらのモデルは、複雑な推論を必要とするタスクでしばしば苦労します。特に数学的問題解決においては、洗練された推論能力を訓練するために必要な大規模で高品質な特定領域のデータセットが不足しているためです。この制限に対処するために、私たちはTemplate-based Data Generation(TDG)を導入します。これは、LLM(GPT-4)を活用してパラメータ化されたメタテンプレートを自動生成し、それを使用して多様な高品質の問題と解を合成する革新的な手法です。TDGを活用して、私たちはTemplateMath Part I: TemplateGSMを作成しました。これは、700万以上の合成された小学校の数学問題からなるデータセットで、それぞれがコードベースと自然言語の解とともに提供されており、効果的に無限の問題を生成する可能性があります。このデータセットは大規模な数学データセットの不足を緩和し、数学的推論においてLLMの事前トレーニング、微調整、評価に貴重なリソースとして機能します。私たちの手法は、ほぼ無限のデータ生成だけでなく、GPT-4をメタテンプレート生成に使用することで、多様で高品質な問題構造を確保し、データ拡張を新たなレベルに引き上げます。TemplateMath Part I: TemplateGSMデータセットは、https://huggingface.co/datasets/math-ai/TemplateGSM で公開されています。コードはhttps://github.com/iiis-ai/TemplateMath で入手可能です。