HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

7 papers found

LLaVA-o1：ビジョン言語モデルが段階的に推論する
LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Nov 15

ByGuowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan

105

大規模言語モデルは、推論時間のスケーリングを通じて、特に推論能力の面で著しい進歩を示しており、OpenAIのo1などのモデルによって示されています。しかし、現在のビジョン・ランゲージ・モデル（VLM）は、複雑なビジュアル質問応答タスクを処理する際に特に体系的かつ構造化された推論を行うのに苦労することがよくあります。本研究では、自律的な多段階推論を実行するために設計された新しいVLMであるLLaVA-o1を紹介します。LLaVA-o1は、思考の連鎖には頼らず、要約、視覚的解釈、論理的推論、結論生成の各段階で独立して関与します。この構造化されたアプローチにより、LLaVA-o1は推論集中タスクにおいて精度の向上を達成します。これを達成するために、様々なビジュアル質問応答ソースからサンプルを統合し、構造化された推論注釈を提供するLLaVA-o1-100kデータセットを編纂します。さらに、推論時間の段階レベルのビームサーチ手法を提案し、効果的な推論時間のスケーリングを実現します。驚くべきことに、わずか100kのトレーニングサンプルとシンプルで効果的な推論時間スケーリング手法で、LLaVA-o1は、多様なマルチモーダル推論ベンチマークでベースモデルを8.9%上回るだけでなく、Gemini-1.5-pro、GPT-4o-mini、Llama-3.2-90B-Vision-Instructなどのより大きな、さらにはクローズドソースのモデルをも凌駕します。

ハードバインディングとソフトリファインメントを介した領域認識テキストから画像生成
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai

本論文では、RAG（Regional-Aware text-to-image Generation）を提案し、地域記述に基づく正確なレイアウト構成のための手法を紹介します。細かい空間制御を可能にする地域プロンプティング、または構成生成は、実世界の応用において実用的であるため、注目を集めています。しかしながら、従来の手法は、追加の学習可能なモジュールを導入するか、または注意マスクを使用してクロスアテンション層内のスコアマップを操作することで、制御強度が制限されるため、特定のモデルにのみ適用可能でした。これらの制限に対処するために、我々はマルチリージョン生成を2つのサブタスクに分割しました。すなわち、個々のリージョンの構築（Regional Hard Binding）と全体的な詳細の微調整（Regional Soft Refinement）です。Regional Hard Bindingは、地域プロンプトが適切に実行されることを保証し、Regional Soft Refinementは、視覚的境界を無視し隣接する相互作用を強化することで、リージョン全体に対する詳細な調整を行います。さらに、RAGは再塗装を可能にし、ユーザーが最後の生成物の特定の不満足な領域を変更する際に、他の全ての領域を変更せずに維持できるようにします。この際、追加のインペインティングモデルに依存する必要はありません。我々のアプローチはチューニング不要であり、他のフレームワークに適用可能であり、プロンプトに従う性質の強化として機能します。定量的および定性的な実験により、RAGが従来のチューニング不要な手法よりも属性のバインディングやオブジェクトの関係において優れた性能を達成することが示されています。

GUI エージェントの誕生: Claude 3.5 コンピュータを用いた予備的なケーススタディ
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

Nov 15

BySiyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou

最近リリースされたモデル、Claude 3.5 Computer Useは、公開ベータ版として初めてコンピュータの使用をグラフィカルユーザインターフェース（GUI）エージェントとして提供する最先端のAIモデルとして際立っています。この早期ベータ版では、実世界の複雑な環境での能力は未知のままです。Claude 3.5 Computer Useを探求するこのケーススタディでは、様々な領域やソフトウェアを対象とした、注意深く設計されたタスクのコレクションを収集し整理します。これらのケースからの観察結果は、Claude 3.5 Computer Useの未曾有のエンドツーエンドの言語からデスクトップアクションへの能力を示しています。この研究と共に、APIベースのGUI自動化モデルを簡単に実装できるエージェントフレームワークを提供します。私たちのケーススタディは、Claude 3.5 Computer Useの能力と限界の基礎を詳細に分析し、今後の改善のために考慮すべき計画、アクション、批評についての問題を明らかにします。この初期の探索がGUIエージェントコミュニティへの将来の研究を刺激することを願っています。論文中のすべてのテストケースは、以下のプロジェクトを通じて試すことができます：https://github.com/showlab/computer_use_ootb。

GaussianAnything：3D生成のためのインタラクティブなポイントクラウド潜在拡散
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Nov 12

ByYushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy

3Dコンテンツ生成は大きく進歩していますが、既存の方法は入力形式、潜在空間設計、出力表現に課題を抱えています。本論文では、これらの課題に対処する革新的な3D生成フレームワークを紹介します。このフレームワークは、インタラクティブなポイントクラウド構造の潜在空間を使用し、スケーラブルで高品質な3D生成を提供します。当フレームワークは、入力としてマルチビューのRGB-D(深度)-N(法線)レンダリングを使用する変分オートエンコーダ(Variational Autoencoder, VAE)を採用し、3D形状情報を保持する独自の潜在空間設計を行い、改善された形状-テクスチャの分離のためにカスケード状の潜在拡散モデルを組み込んでいます。提案された手法である「GaussianAnything」は、ポイントクラウド、キャプション、およびシングル/マルチビュー画像の入力をサポートするマルチモーダル条件付き3D生成を可能とします。特筆すべきは、新たに提案された潜在空間が幾何学-テクスチャの分離を自然に可能にし、したがって3Dに関する編集を可能にすることです。実験結果は、複数のデータセットでの当手法の効果を示し、テキストおよび画像条件付きの3D生成の両方で既存の方法を凌駕しています。

Xmodel-1.5: 1Bスケールの多言語LLM
Xmodel-1.5: An 1B-scale Multilingual LLM

Nov 15

ByWang Qun, Liu Yang, Lin Qingquan, Jiang Ling

Xmodel-1.5を紹介します。これは、約2兆トークンで事前学習された新しい10億パラメータの多言語大規模モデルです。このモデルは、いくつかの言語で強力なパフォーマンスを示し、特にタイ語、アラビア語、フランス語で顕著な結果を示し、中国語と英語でも効果的です。さらに、私たちはタイの評価データセットを研究コミュニティに提供しています。このデータセットには、チュラロンコーン大学統合イノベーション学部の学生によってアノテーションされた数百の質問が含まれています。結果は有望ですが、改善の余地があることを認識しています。この研究が多言語AI研究の取り組みを前進させ、さまざまな自然言語処理タスクにおけるより良い言語間理解を促進することを願っています。当社のモデルとコードは、GitHub（https://github.com/XiaoduoAILab/XmodelLM）で公開されています。

ナンバリングする：マンガをめくるような動画の時間的な位置合わせ
Number it: Temporal Grounding Videos like Flipping Manga

Nov 15

ByYongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

ビデオ大規模言語モデル（Vid-LLMs）は、QAダイアログのビデオコンテンツを理解する上で顕著な進展を遂げています。ただし、ビデオ時間的位置合わせ（VTG）として知られる正確な時間的位置合わせを必要とするタスクにこの視覚理解を拡張するのに苦労しています。このギャップに対処するために、我々はNumber-Prompt（NumPro）を導入します。これは、各ビデオフレームに固有の数値識別子を追加することで、Vid-LLMsが視覚理解と時間的位置合わせを結びつけるのを支援する革新的な手法です。ビデオを番号付きフレーム画像のシーケンスとして扱うことで、NumProはVTGを直感的なプロセスに変換します。これにより、Vid-LLMsはイベントのタイムラインを「読む」ことができ、視覚コンテンツを対応する時間情報と正確にリンクさせることができます。私たちの実験は、NumProが追加の計算コストなしで、トップクラスのVid-LLMsのVTG性能を大幅に向上させることを示しています。さらに、NumProで強化されたデータセットでのファインチューニングは、瞬間検索のmIoUで最大6.9％、ハイライト検出のmAPで最大8.5％、以前の最高性能手法を上回る、VTGの新たな最先端を定義します。コードはhttps://github.com/yongliang-wu/NumProで入手可能です。

MARS: 大規模モデルのトレーニングにおける分散削減の力を解放する
MARS: Unleashing the Power of Variance Reduction for Training Large Models

Nov 15

ByHuizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou, Quanquan Gu

深層ニューラルネットワークのトレーニング、そしてより最近では大規模モデルのトレーニングには、効率的かつスケーラブルな最適化手法が求められます。Adam、AdamW、およびそれらの派生物などの適応的勾配アルゴリズムは、この課題に中心的な役割を果たしてきました。過去10年間に数多くの分散分散軽減アルゴリズムが開発され、凸面および非凸面の両方で確率的最適化を加速することを目指してきましたが、分散軽減は深層ニューラルネットワークや大規模言語モデルのトレーニングで広く成功を収めていません。その結果、現代のAIにおいてはあまり好まれないアプローチとなっています。本論文では、大規模モデルの効率的なトレーニングのために分散軽減の力を解き放つために、事前条件付き勾配法と分散軽減をスケーリングされた確率的再帰的モーメント技術を介して調和させる統一された最適化フレームワーク、MARS（Make vAriance Reduction Shine）を提案します。当フレームワーク内で、AdamW、Lion、Shampooに基づく事前条件付き勾配更新を活用するMARSの3つのインスタンスを紹介します。また、当アルゴリズムと既存の最適化手法との関連性についても述べます。GPT-2モデルのトレーニング実験結果は、MARSが一貫してAdamWを大きく上回ることを示しています。

ハードバインディングとソフトリファインメントを介した領域認識テキストから画像生成
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai