AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

MolmoとPixMo：最先端のマルチモーダルモデルのためのオープンウェイトとオープンデータ
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

Sep 25

ByMatt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi

121

現在、最も先進的なマルチモーダルモデルはプロプライエタリなものが残っています。最も強力なオープンウェイトモデルは、良好なパフォーマンスを実現するために、プロプライエタリなVLMからの合成データに大きく依存しており、これらのクローズドモデルをオープンに蒸留しています。その結果、コミュニティは、パフォーマンスの高いVLMをゼロから構築する方法に関する基本的な知識がまだ不足しています。私たちは、Molmoという新しいVLMファミリーを紹介します。このファミリーは、そのオープン性のクラスで最先端のものです。私たちの主要な革新点は、音声に基づいた説明を使用して完全に人間の注釈者から収集された画像キャプションの新しい、非常に詳細なデータセットです。さまざまなユーザーインタラクションを可能にするために、我々はまた、ファインチューニング用に、野生のQ&Aや革新的な2Dポイントデータを含む多様なデータセットの組み合わせを導入しています。私たちのアプローチの成功は、モデルアーキテクチャの詳細な選択肢、適切に調整されたトレーニングパイプライン、そして何よりも、新しく収集されたデータセットの品質に依存しており、これらはすべて公開されます。Molmoファミリー内の最高クラスの72Bモデルは、オープンウェイトおよびデータモデルのクラスで他を凌駕するだけでなく、GPT-4o、Claude 3.5、Gemini 1.5などのプロプライエタリシステムとも、学術的ベンチマークや人間の評価の両方で有利な比較を示しています。私たちは、近日中にすべてのモデルの重み、キャプションおよびファインチューニングデータ、ソースコードを公開します。一部のモデルの重み、推論コード、デモは、https://molmo.allenai.org で利用可能です。

すべての例をプログラミングする：専門家レベルのスケールで事前トレーニングデータの品質を向上させる
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Sep 25

ByFan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu

大規模言語モデルの事前学習は従来、人間の専門家がコーパスの品質を向上させるためのヒューリスティクスを作成することに依存しており、これまでに多数のルールが開発されてきました。しかし、これらのルールは個々の例の独自の特性に効果的に対処する柔軟性に欠けています。一方、個々の例に適したルールを適用することは、人間の専門家にとって実用的ではありません。本論文では、わずか0.3Bのパラメータを持つ小規模言語モデルでも、人間の専門家と同等の大幅なデータ精製能力を示すことを示します。私たちは、プログラミング・エブリー・エグザンプル（ProX）という、データ精製をプログラミング課題として扱い、各個々の例に対して文字列の正規化などの細かい操作を生成および実行することで、モデルがコーパスを精製できるようにする新しいフレームワークを紹介します。実験結果は、ProXでキュレーションされたデータで事前学習されたモデルが、さまざまな下流ベンチマークで、他の選択方法でフィルタリングされたオリジナルデータよりも2%以上の性能を発揮することを示しています。その効果は、C4、RedPajama-V2、FineWebを含むさまざまなモデルサイズと事前学習コーパスにわたります。さらに、ProXは、ドメイン固有の継続的事前学習においても大きな潜在能力を示します。ドメイン固有の設計なしでOpenWebMathで訓練されたモデルは、ProXで精製されたモデルによって、Mistral-7Bよりも平均精度を7.6%向上させ、Llama-2-7Bでは14.6%、CodeLlama-7Bでは20.3%向上させ、200Bトークンで訓練されたLlemma-7Bなどのモデルと同等の10Bトークンで競合することができます。さらなる分析では、ProXは訓練のFLOPを大幅に節約し、効率的なLLM事前学習の有望な道筋を提供しています。私たちは、再現可能な研究と将来のイノベーションのために、ProXを100B以上のコーパス、モデルとともにオープンソース化し、すべての訓練および実装の詳細を共有しています。コード：https://github.com/GAIR-NLP/ProX

取得したコンテキストを通じてヘルスケアLLMの向上
Boosting Healthcare LLMs Through Retrieved Context

Sep 23

ByJordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla

大規模言語モデル（LLMs）は自然言語処理において顕著な能力を示していますが、その事実の不正確さや幻覚は、特に医療のような重要な領域での適用を制限しています。文脈検索手法は、関連情報を入力として導入することで、LLMの事実性と信頼性を向上させるための重要なアプローチとして登場しています。本研究は、医療領域内での文脈検索手法の限界を探求し、その構成要素を最適化し、オープンおよびクローズドな代替手法とのパフォーマンスをベンチマークにしました。研究結果は、最適化された検索システムで強化されたオープンLLMsが、確立された医療ベンチマーク（多肢選択問題回答）において、最大の民間ソリューションと同等のパフォーマンスを達成できることを示しています。問題の可能な回答を質問内に含めることの現実味の欠如（医学試験でのみ見られる設定）を認識し、それらの選択肢がない場合に強力なLLMパフォーマンスの低下を評価した後、文脈検索システムをその方向に拡張しました。具体的には、より信頼性の高い自由回答の生成を改善するパイプラインであるOpenMedPromptを提案し、この技術を実用的な適用に近づけています。

DreamWaltz-G: 骨格ガイド付き2D拡散からの表現豊かな3Dガウスアバター
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion

Sep 25

ByYukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu

事前学習済みの2D拡散モデルとスコア蒸留サンプリング（SDS）を活用することで、最近の手法はテキストから3Dアバターを生成する際に有望な結果を示しています。しかし、表現豊かなアニメーションが可能な高品質な3Dアバターを生成することは依然として難しい課題です。本研究では、テキストからアニメーション可能な3Dアバターを生成するための新しい学習フレームワークであるDreamWaltz-Gを提案します。このフレームワークの中核は、スケルトンガイド付きスコア蒸留とハイブリッド3Dガウスアバター表現にあります。具体的には、提案されたスケルトンガイド付きスコア蒸留は、3Dヒューマンテンプレートからのスケルトンコントロールを2D拡散モデルに統合し、視点と人間のポーズの観点からSDS監督の一貫性を高めます。これにより、高品質なアバターの生成が容易になり、複数の顔、余分な肢、ぼやけなどの問題が軽減されます。提案されたハイブリッド3Dガウスアバター表現は、効率的な3Dガウス関数に基づき、ニューラル暗黙の領域とパラメータ化された3Dメッシュを組み合わせることで、リアルタイムのレンダリング、安定したSDS最適化、表現豊かなアニメーションを実現します。幅広い実験により、DreamWaltz-Gが3Dアバターの生成とアニメーションにおいて非常に効果的であり、視覚的品質とアニメーション表現力の両方で既存の手法を上回っていることが示されました。さらに、当フレームワークは、人間のビデオ再現や複数主体のシーン構成など、多様なアプリケーションをサポートしています。

AIM 2024 スパースニューラルレンダリングチャレンジ：データセットとベンチマーク
AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark

Sep 23

ByMichal Nazarczuk, Thomas Tanay, Sibi Catley-Chandar, Richard Shaw, Radu Timofte, Eduardo Pérez-Pellitero

最近の微分可能レンダリングとニューラルレンダリングの進歩により、新しい視点合成、3D再構築などのさまざまな2Dおよび3Dタスクで印象的な進展が見られました。通常、微分可能レンダリングは、シーンの密な視点カバレッジに依存しており、そのためジオメトリは外観の観測だけから曖昧さを解消できます。入力ビューがわずかしかない場合、一般的には疎またはフューショットニューラルレンダリングと呼ばれるいくつかの課題が発生します。これは過不足のある問題であるため、ほとんどの既存の手法は、正則化の使用を導入し、学習されたさまざまな事前確率と手作りの事前確率と共に使用されます。疎なレンダリング文献で頻繁に見られる問題は、均質で最新のデータセットと評価プロトコルの欠如です。高解像度のデータセットが密な再構築文献では標準ですが、疎なレンダリング手法はしばしば低解像度の画像で評価されます。さらに、データ分割は異なる論文間で一貫しておらず、テスト用の正解画像が一般に利用可能であり、これが過学習につながる可能性があります。本研究では、Sparse Rendering（SpaRe）データセットとベンチマークを提案します。DTU MVSデータセットのセットアップに従う新しいデータセットを紹介します。このデータセットは、合成された高品質アセットに基づく97の新しいシーンで構成されています。各シーンには最大64のカメラビューと7つの照明構成があり、1600x1200の解像度でレンダリングされています。一般化された手法を促進するために、82のシーンのトレーニング分割を公開し、検証およびテストセット用のオンライン評価プラットフォームを提供し、その正解画像は非公開となっています。2つの異なる疎な構成（それぞれ3および9の入力画像）を提案します。これにより、再現性のある評価のための強力で便利なツールが提供され、研究者が最先端のパフォーマンススコアを持つパブリックリーダーボードに簡単にアクセスできるようになります。詳細は以下をご参照ください：https://sparebenchmark.github.io/

拡散事前情報を用いた劣化ガイド付きワンステップ画像超解像
Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors

Sep 25

ByAiping Zhang, Zongsheng Yue, Renjing Pei, Wenqi Ren, Xiaochun Cao

拡散ベースの画像超解像（SR）手法は、大規模な事前学習済みのテキストから画像への拡散モデルを事前情報として活用することで、顕著な成功を収めてきました。しかし、これらの手法は依然として2つの課題に直面しています。1つは満足できる結果を得るために数十のサンプリングステップが必要であり、これは実際のシナリオにおいて効率を制限するものです。もう1つは、SR問題の解決において重要な補助情報である劣化モデルが無視されていることです。本研究では、拡散ベースのSR手法の効率の問題に大きく対処する革新的なワンステップSRモデルを導入しました。既存の微調整戦略とは異なり、SR向けに特別に設計された劣化ガイド付きの低ランク適応（LoRA）モジュールを開発しました。このモジュールは、低解像度画像から事前に推定された劣化情報に基づいてモデルパラメータを修正し、強力なデータ依存性または劣化依存性のSRモデルを促進するだけでなく、事前に学習された拡散モデルの生成事前知識を可能な限り維持します。さらに、オンライン負例生成戦略を導入することで、新しいトレーニングパイプラインをカスタマイズしました。推論中のクラシファイア不使用のガイダンス戦略と組み合わせることで、超解像結果の知覚品質を大幅に向上させます。幅広い実験により、提案されたモデルが最近の最先端手法と比較して優れた効率性と効果を実証しました。

HyperAgent: 拡張性を持つソフトウェアエンジニアリングエージェントによるコーディングタスクの解決
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale

Sep 9

ByHuy Nhat Phan, Phong X. Nguyen, Nghi D. Q. Bui

大規模言語モデル（LLMs）はソフトウェアエンジニアリング（SE）を革新し、さまざまなコーディングタスクで顕著な能力を示しています。最近の取り組みでは、LLMsに基づく自律ソフトウェアエージェントがエンドツーエンドの開発タスクに使用されていますが、これらのシステムは通常、特定のSEタスク向けに設計されています。私たちは、人間の開発者のワークフローを模倣することで、さまざまなプログラミング言語にわたるSEタスクの幅広いスペクトルに対処するために設計された新しい汎用マルチエージェントシステムであるHyperAgentを紹介します。Planner、Navigator、Code Editor、Executorの4つの専門エージェントで構成されるHyperAgentは、SEタスクの全ライフサイクルを初期構想から最終検証まで管理します。広範な評価を通じて、HyperAgentはさまざまなSEタスクで最先端のパフォーマンスを達成しています：SWE-Bench-Liteでは25.01％の成功率、GitHubの問題解決においてはSWE-Bench-Verifiedで31.40％を達成し、既存の手法を上回っています。さらに、HyperAgentはリポジトリレベルのコード生成（RepoExec）や欠陥の特定およびプログラム修復（Defects4J）において、専門システムをしのぐことがよくあり、SOTAのパフォーマンスを示しています。この研究は、さまざまなドメインや言語を横断する複雑な多段階SEタスクを処理できる多目的で自律的なエージェントへの重要な進歩を表しており、AI支援ソフトウェア開発プラクティスの変革をもたらす可能性があります。

物理ベースの巧みなギター演奏のためのデュアルハンドの同期
Synchronize Dual Hands for Physics-Based Dexterous Guitar Playing

Sep 25

ByPei Xu, Ruocheng Wang

物理シミュレートされた手の器用な動きを合成する革新的なアプローチを提案します。高い時間的精度を要する課題において、2つの手の制御の間で調整が必要なタスクにおいて、2つの手の制御を直接学習するのではなく、各手を個別のエージェントとして扱い、協力学習を通じて双手制御を行う当該アプローチを実行します。各手の個別のポリシーはまず別々にトレーニングされ、その後、中央集権的な環境で潜在空間の操作を通じて同期され、2つの手の制御のための共同ポリシーとして機能します。これにより、2つの手の高次元の共同状態行動空間でのポリシー学習を直接行うことを回避し、全体的なトレーニング効率を大幅に向上させます。提案されたアプローチの効果を、難しいギター演奏タスクで示します。当該アプローチによってトレーニングされた仮想ギタリストは、一般的なギター演奏練習の動きの非構造化参照データから動きを合成し、参照データに存在しない入力ギタータブに基づいて複雑なコード押さえやストリングピッキングパターンを正確に演奏できます。本論文とともに、ポリシートレーニングのための参照として収集したモーションキャプチャデータを提供します。コードはこちらで入手可能：https://pei-xu.github.io/guitar。

ノートライン：大規模言語モデルを用いたキーポイントからのリアルタイムノート取りをサポート
NoTeeline: Supporting Real-Time Notetaking from Keypoints with Large Language Models

Sep 24

ByFaria Huq, Abdus Samee, David Chuan-en Lin, Xiaodi Alice Tang, Jeffrey P. Bigham

ビデオは情報共有や消費のための人気のあるメディア形態となっています。しかし、ビデオを視聴しながらメモを取ることはかなりの時間と労力を必要とします。この課題に対処するために、私たちは新しいインタラクティブシステム、NoTeelineを提案します。NoTeelineは、ユーザーが素早くキーポイント（マイクロノート）をメモし、それが自動的にユーザーのマイクロノートの内容を捉え、ユーザーの執筆スタイルに適合した完全なノートに展開されるシステムです。被験者間研究（N=12）において、NoTeelineを使用することで、ユーザーが高品質なノートを作成し、そのノートがユーザーのマイクロノートの本質を正確に捉え、事実の正確性が高い（93.2%）ことがわかりました。NoTeelineを使用する際、参加者は著しく精神的な努力を軽減し、47%少ないテキストで満足できるノートを記述し、手作業のノート作成と比較して43.9%短い時間でノート作成を完了しました。

Game4Loc：ゲームデータからのUAVジオロケーションベンチマーク
Game4Loc: A UAV Geo-Localization Benchmark from Game Data

Sep 25

ByYuxiang Ji, Boyong He, Zhuoyue Tan, Liaoni Wu

UAVのためのビジョンベースの地理位置特定技術は、グローバルナビゲーション衛星システム（GNSS）に加えてGPS情報の副次的なソースとして機能し、GPSが利用できない環境でも独立して動作することができます。最近の深層学習ベースの手法は、これを画像のマッチングと検索の課題として捉えています。地理情報付き衛星画像データベースからドローン視点の画像を検索することで、おおまかな位置情報を取得できます。しかし、高コストやプライバシー上の懸念から、連続した領域から大量のドローン視点の画像を入手することは通常困難です。既存のドローン視点のデータセットは、ほとんどが完璧な一対一の整列した参照画像が存在するという強い前提の小規模な空中写真で構成されており、実践的な位置特定シナリオとは大きなギャップが残っています。本研究では、現代のコンピュータゲームを使用して、複数の飛行高度、姿勢、シーン、およびターゲットを特徴とする大範囲の連続した領域UAV地理位置特定データセットであるGTA-UAVを構築します。このデータセットに基づいて、部分的なクロスビューのペアデータの一致を含むより実践的なUAV地理位置特定タスクを紹介し、画像レベルの検索を実際の距離（メートル）に関して位置特定に拡張します。ドローン視点と衛星視点のペアの構築には、追加の事後処理のマッチング手順を回避しながら効果的な学習を可能にする重みベースの対照学習アプローチを採用します。実験は、UAV地理位置特定のための当社のデータとトレーニング手法の効果、および現実世界のシナリオへの一般化能力を示しています。

コントラスティブなランダムウォークによるセルフ教師付きの任意点追跡
Self-Supervised Any-Point Tracking by Contrastive Random Walks

Sep 24

ByAyush Shrivastava, Andrew Owens

Tracking Any Point（TAP）問題に対するシンプルで自己教師付きのアプローチを提案します。我々は、グローバルマッチングトランスフォーマーを訓練して、コントラスティブランダムウォークを介してビデオ内でサイクル一貫したトラックを見つける方法を提案します。トランスフォーマーのアテンションベースのグローバルマッチングを使用して、空間-時間グラフ上のランダムウォークの遷移行列を定義します。点間の「全ペア」比較を行う能力により、モデルは高い空間的精度を得ると同時に強力なコントラスティブラーニング信号を得ることができます。最近のアプローチ（例：粗-細マッチング）の多くの複雑さを回避しながら、この方法により、グローバルマッチングアーキテクチャをサイクル一貫性を用いた自己教師付きで訓練することが可能となります。例えば、トランスフォーマーベースの手法はショートカット解に敏感であることを特定し、それらに対処するためのデータ拡張スキームを提案します。我々の手法はTapVidベンチマークで強力なパフォーマンスを達成し、DIFTなどの以前の自己教師付きトラッキング手法を凌駕し、いくつかの教師付き手法と競合しています。

TalkinNeRF: フルボディの話す人間のためのアニメータブルニューラルフィールド
TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

Sep 25

ByAggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos

モノクル動画から全身を話す人間のための動的ニューラル輝度場（NeRF）を学習する新しいフレームワークを紹介します。これまでの研究では、体のポーズまたは顔のみを表現していました。しかし、人間は体のポーズ、手のジェスチャー、そして表情を組み合わせてコミュニケーションを行います。本研究では、全身の話す人間のための統合NeRFベースのネットワークであるTalkinNeRFを提案します。被写体のモノクル動画が与えられた場合、体、顔、および手の対応するモジュールを学習し、それらを組み合わせて最終結果を生成します。複雑な指の関節を捉えるために、手のための追加の変形フィールドを学習します。複数の被写体の同時トレーニングを可能にする多重アイデンティティ表現により、完全に未知のポーズ下での堅牢なアニメーションや、入力として短いビデオのみが与えられた場合の新しいアイデンティティへの汎化も実現します。細かい手の関節運動と表情を持つ全身を話す人間のアニメーションにおいて、最先端のパフォーマンスを実証します。