翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの導入により、コード生成は大きく進化しました。しかし、オープンソースモデルは、GPT-4 Code Interpreterのような高度なシステムが持つ実行能力や反復的な改良を欠いていることが多いです。この問題に対処するため、私たちはOpenCodeInterpreterを紹介します。これは、コードの生成、実行、反復的な改良を目的とした一連のオープンソースコードシステムです。68Kのマルチターンインタラクションを含むCode-Feedbackデータセットに支えられ、OpenCodeInterpreterは実行と人間のフィードバックを統合し、動的なコード改良を実現します。HumanEval、MBPP、およびEvalPlusによるそれらの拡張版といった主要なベンチマークでの包括的な評価により、OpenCodeInterpreterの卓越した性能が明らかになりました。特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(および拡張版)で83.2(76.4)の精度を達成し、GPT-4の84.2(76.2)に迫る性能を示し、さらにGPT-4からの合成された人間のフィードバックを用いることで91.6(84.6)まで向上します。OpenCodeInterpreterは、オープンソースのコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリシステムとのギャップを埋めるものです。
Transformerは様々なアプリケーション分野で大きな進歩をもたらしてきたが、複雑な意思決定タスクを解決する際には、依然として従来の記号的プランナーに後れを取っている。本研究では、Transformerを訓練して複雑なプランニングタスクを解決する方法を示し、SearchformerというTransformerモデルを提案する。Searchformerは、未見のソコバンパズルを93.7%の確率で最適に解決し、標準的なA^*探索と比べて最大26.8%少ない探索ステップを使用する。Searchformerは、A^*の探索ダイナミクスを予測するように訓練されたエンコーダ-デコーダ型Transformerモデルである。このモデルは、専門家による反復学習を通じて微調整され、A^*探索よりも少ない探索ステップで最適なプランを生成する。我々の訓練方法では、A^*の探索ダイナミクスは、記号的プランニング中にタスク状態が探索木に追加・削除されるタイミングを概説するトークンシーケンスとして表現される。迷路ナビゲーションに関するアブレーション研究では、Searchformerが最適なプランを直接予測するベースラインを大幅に上回り、モデルサイズが5~10分の1、訓練データセットが10分の1で優れた性能を発揮することがわかった。また、Searchformerがソコバンのようなより大規模で複雑な意思決定タスクにスケールアップし、解決率の向上と探索ダイナミクスの短縮を実現する方法も示す。
より包括的なVision-Languageモデル(VLM)を目指して、本研究ではPaloと呼ばれる大規模多言語マルチモーダルモデルを提案します。Paloは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論能力を提供し、合計約50億人(世界人口の65%)をカバーします。私たちのアプローチは、ファインチューニングされた大規模言語モデルを使用して、マルチモーダル指示データセットを英語から対象言語に適応させる半自動翻訳手法を採用しており、高い言語的忠実性を確保しつつ、最小限の手作業で拡張性を実現します。多様な指示セットの組み込みにより、特にヒンディー語、アラビア語、ベンガル語、ウルドゥー語などの過小評価されている言語を含む複数言語での全体的なパフォーマンスが向上します。結果として得られたモデルは、3つのスケール(1.7B、7B、13Bパラメータ)でトレーニングされ、強力なベースラインと比較して大幅な改善が見られる一般化と拡張性を示します。また、今後のアプローチが言語間での視覚-言語推論能力を評価するための最初の多言語マルチモーダルベンチマークを提案します。コード: https://github.com/mbzuai-oryx/PALO。
我々は、小規模な大規模マルチモーダルモデル(LMMs)の設計と分析において統一的な視点を提供するTinyLLaVAフレームワークを提案します。異なる視覚エンコーダ、接続モジュール、言語モデル、トレーニングデータ、およびトレーニングレシピの効果を実証的に研究しました。我々の広範な実験により、より高品質なデータとより優れたトレーニングレシピを組み合わせることで、小規模なLMMsがより大規模なLMMsと同等の性能を一貫して達成できることが示されました。本フレームワークの下で、我々は一連の小規模LMMsをトレーニングしました。我々の最良のモデルであるTinyLLaVA-3.1Bは、LLaVA-1.5やQwen-VLなどの既存の7Bモデルに対して、より優れた全体的な性能を達成しました。我々の発見が、データスケーリング、トレーニング設定、およびモデル選択に関する将来の研究のベースラインとして役立つことを期待しています。我々のモデルウェイトとコードは公開される予定です。
Transformerベースの視覚モデルは通常、画像を固定サイズの正方形パッチとしてトークン化し、入力単位とします。しかし、この方法では画像内容への適応性が欠如し、ピクセルのグループ構造を十分に考慮していません。言語モデルで広く採用されているサブワードトークン化に着想を得て、我々はサブオブジェクトレベルでの画像トークナイザーを提案します。ここで、サブオブジェクトはセグメンテーションモデル(例:Segment Anythingモデル)によって得られる意味的に有意義な画像セグメントとして表現されます。サブオブジェクトトークン化に基づく学習システムを実装するため、まず、様々なサイズや形状のサブオブジェクトセグメントをコンパクトな埋め込みベクトルに圧縮するSequence-to-sequence AutoEncoder(SeqAE)を導入しました。その後、サブオブジェクトの埋め込みを大規模言語モデルに入力し、視覚言語学習を行いました。実験結果から、従来のパッチレベルトークン化と比較して、サブオブジェクトレベルのトークン化が画像をオブジェクトや属性の記述に変換する効率的な学習を大幅に促進することが示されました。コードとモデルはhttps://github.com/ChenDelong1999/subobjectsで公開予定です。
実験設計の広範な領域において、回帰は特定のパラメータ群が与えられた際に、システムやモデルの結果指標を正確に予測する強力なツールとして機能してきました。しかし、従来は特定のタスクにのみ適用可能な手法に制限されていました。本論文では、多様な現実世界の実験から得られた(x, y)評価データに対して、言語モデルを汎用的なエンドツーエンド回帰器として訓練するフレームワークであるOmniPredを提案します。世界最大級のブラックボックス最適化データベースの一つであるGoogle Vizierから取得したデータを用いた大規模な実験を通じて、数学的パラメータと値のテキスト表現のみを用いても、言語モデルが非常に精密な数値回帰を可能とし、複数のタスクにわたって訓練する機会が与えられれば、従来の回帰モデルを大幅に上回る性能を発揮できることを実証しました。
大規模言語モデル(LLMs)の急速な進展に伴い、マルチエージェントアプリケーションにおいても大きな進歩が見られています。しかし、エージェント間の協調を調整することの複雑さや、LLMsの不安定な性能は、堅牢で効率的なマルチエージェントアプリケーションの開発において重要な課題となっています。これらの課題に対処するため、我々はAgentScopeを提案します。これは、メッセージ交換を中核的な通信メカニズムとする、開発者中心のマルチエージェントプラットフォームです。豊富な構文ツール、組み込みリソース、ユーザーフレンドリーなインタラクションとともに、この通信メカニズムは開発と理解の両方における障壁を大幅に低減します。堅牢で柔軟なマルチエージェントアプリケーションを実現するために、AgentScopeは組み込みのフォールトトレランスメカニズムとカスタマイズ可能なフォールトトレランスメカニズムを提供し、さらにマルチモーダルデータの生成、保存、伝送に対するシステムレベルのサポートも備えています。加えて、アクターベースの分散フレームワークを設計し、ローカルと分散デプロイメント間の容易な変換と、追加の労力を必要としない自動並列最適化を可能にしています。これらの機能により、AgentScopeは開発者がインテリジェントエージェントの潜在能力を最大限に発揮するアプリケーションを構築することを可能にします。我々はAgentScopeをhttps://github.com/modelscope/agentscopeで公開しており、この急速に進化する分野における幅広い参加とイノベーションを期待しています。
拡散確率モデル(DPM)からのサンプリングは、高品質な画像生成においてしばしば計算コストが高く、通常、大規模なモデルを使用して多くのステップを必要とします。本論文では、サンプリング効率を向上させ、生成品質の低下を最小限に抑えるためのシンプルで効率的な手法であるTrajectory Stitching T-Stitchを紹介します。T-Stitchは、サンプリング軌跡全体にわたって大規模なDPMのみを使用するのではなく、初期ステップにおいてより小規模なDPMを大規模なDPMの代替として活用し、後段階で大規模なDPMに切り替えます。我々の重要な洞察は、異なる拡散モデルが同じ訓練データ分布の下で類似したエンコーディングを学習し、小規模なモデルが初期ステップにおいて良好なグローバル構造を生成できるということです。広範な実験により、T-Stitchが訓練不要であり、異なるアーキテクチャに一般的に適用可能で、既存の高速サンプリング手法と柔軟な速度と品質のトレードオフを補完することが示されています。例えば、DiT-XLにおいて、クラス条件付きImageNet生成において性能低下なしに、初期タイムステップの40%を10倍高速なDiT-Sに安全に置き換えることができます。さらに、我々の手法が、人気のある事前訓練済みのStable Diffusion(SD)モデルの加速だけでなく、公開モデルゾーンのスタイル化されたSDモデルのプロンプトアラインメントを改善するためのドロップインテクニックとしても使用できることを示します。コードはhttps://github.com/NVlabs/T-Stitchで公開されています。
大規模言語モデル(LLM)を統合開発環境(IDE)に組み込むことは、現代のソフトウェア開発における重要な焦点となっています。OpenAI GPT-3.5/4やCode LlamaなどのLLMは、インテリジェントなチャット駆動型プログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上させる可能性を秘めています。しかし、LLMをそのまま使用することは、特定のシナリオにおいて最適とは言えません。むしろ、各システムにおいて、LLMをそのヒューリスティックに合わせて調整することが、最高のパフォーマンスを保証するために必要です。本論文では、Copilot評価ハーネスを紹介します。これは、LLMが導くIDEの相互作用を評価するためのデータとツールのセットであり、さまざまなプログラミングシナリオと言語をカバーしています。我々は、従来の最先端の評価システムよりも堅牢で情報量の多い評価を提供するメトリクスを提案します。我々は、自然言語からのコード生成(generate)、コードからのドキュメント生成(doc)、テストケース生成(test)、バグ修正(fix)、ワークスペースの理解とクエリ解決(workspace)など、幅広い開発者タスクを包含するシナリオに対して、静的および実行ベースの成功メトリクスを設計し、計算します。これらの成功メトリクスは、特定のIDEとそのパラメータ空間内でのLLMのパフォーマンスを評価するために設計されています。これらのメトリクスを使用して3つの一般的なLLMを評価した結果から得られた知見は、LLMが導くIDEにおける将来のシナリオの開発と検証に役立つ情報を提供します。
低リソース言語におけるデータ不足の問題は、高リソース言語のラベル付きタスクデータを二言語辞書を用いて単語レベルで翻訳することで対処できます。しかし、二言語辞書はタスクデータとの語彙的重複が限定的であることが多く、翻訳の網羅性や辞書の活用度が低くなりがちです。本研究では、二言語辞書を条件としたデータ生成手法「LexC-Gen」を提案します。この手法は、低リソース言語の分類タスクデータを大規模に生成するものです。 具体的には、LexC-Genはまず二言語辞書から高リソース言語の単語を用いて辞書互換のタスクデータを生成し、その後、単語翻訳を通じて低リソース言語に翻訳します。17の極低リソース言語において、LexC-Genが生成したデータは専門家による翻訳のゴールドデータに匹敵する品質を示し、感情分析とトピック分類タスクにおいて、既存の辞書ベースの単語翻訳手法と比較して平均5.6ポイントと8.9ポイントの改善を達成しました。二言語辞書を条件とすることがLexC-Genの鍵となる要素であることを示します。LexC-Genは実用的でもあります――単一のGPUで大規模なデータ生成が可能であり、オープンアクセスの大規模言語モデル(LLM)と良好に連携し、GPT-4ベースの多言語データ生成コストの5分の1で済みます。
本研究では、手と物体の相互作用(HOI)のノイズ除去という難題に取り組みます。誤った相互作用シーケンスが与えられた場合、その目的は、不正確な手の軌跡を洗練し、相互作用によるアーティファクトを除去して、知覚的に現実的なシーケンスを生成することです。この課題には、不自然な手の姿勢や誤った手と物体の関係といった複雑な相互作用ノイズが含まれるほか、新しい相互作用や多様なノイズパターンに対する堅牢な汎化能力が求められます。我々はこれらの課題に対処するため、GeneOH Diffusionという新たなアプローチを提案します。このアプローチは、2つの主要な設計要素を組み込んでいます:接触中心のHOI表現であるGeneOHと、新しいドメイン汎化可能なノイズ除去スキームです。接触中心の表現であるGeneOHは、HOIプロセスを情報豊かにパラメータ化し、さまざまなHOIシナリオにわたる汎化能力を向上させます。新しいノイズ除去スキームは、ホワイトノイズ空間からクリーンデータ多様体へのノイズデータサンプルの射影を学習する標準的なノイズ除去モデルと、「拡散によるノイズ除去」戦略で構成されます。この戦略では、まず入力軌跡を拡散してホワイトノイズ空間に整列させ、その後標準的なノイズ除去器でクリーンアップします。ドメイン変動が大きい4つのベンチマークでの広範な実験により、本手法の優れた有効性が実証されました。GeneOH Diffusionは、さまざまな下流アプリケーションにも有望な結果を示しています。プロジェクトウェブサイト:https://meowuu7.github.io/GeneOH-Diffusion/。
大規模言語モデル(LLM)はコンテンツモデレーションの強力なツールであるが、その推論コストとレイテンシの高さから、Google Adsリポジトリのような大規模データセットでの日常的な使用には適していない。本研究では、Google AdsにおけるコンテンツモデレーションのためのLLMレビューをスケールアップする方法を提案する。まず、ヒューリスティックを用いてフィルタリングと重複除去により候補を選び、広告のクラスタを作成し、各クラスタから代表広告を1つ選択する。次に、LLMを使用して代表広告のみをレビューする。最後に、代表広告に対するLLMの判定をそのクラスタ全体に伝播させる。この方法により、レビュー数は3桁以上削減され、非LLMベースラインモデルと比較して2倍の再現率を達成した。このアプローチの成功は、クラスタリングとラベル伝播に使用される表現に強く依存しており、クロスモーダル類似性表現がユニモーダル表現よりも優れた結果をもたらすことがわかった。
大規模なテキストから画像へのモデルは、テキストプロンプトや空間制御を用いて、幅広い画像編集技術を可能にします。しかし、これらの編集手法を単一シーンを描いた多視点画像に適用すると、3D整合性のない結果が生じます。本研究では、空間制御に基づく幾何学的操作に焦点を当て、さまざまな視点間で編集プロセスを統合する方法を提案します。私たちは次の2つの洞察に基づいて取り組みます:(1)生成プロセス全体で一貫した特徴を維持することが、多視点編集における整合性を達成するのに役立つこと、(2)自己注意層のクエリが画像構造に大きな影響を与えること。したがって、クエリの整合性を強化することで、編集された画像の幾何学的整合性を向上させることを提案します。そのために、編集された画像の内部クエリ特徴に基づいて訓練されたニューラルラジアンスフィールド(QNeRF)を導入します。一度訓練されると、QNeRFは3D整合性のあるクエリをレンダリングし、それらを生成中に自己注意層にソフトに注入することで、多視点整合性を大幅に向上させます。また、拡散タイムステップ間でクエリをより良く統合するために、漸進的で反復的な方法を通じてプロセスを洗練します。私たちの手法を既存の技術と比較し、より優れた多視点整合性と入力シーンへの忠実度を達成できることを示します。これらの利点により、視覚的なアーティファクトが少なく、目標とする幾何学に適切に整列したNeRFを訓練することが可能になります。
3Dガウシアンスプラッティング(3DGS)の登場は、ニューラルレンダリングの分野に革命をもたらし、リアルタイム速度での高品質なレンダリングを可能にしました。しかし、3DGSはStructure-from-Motion(SfM)技術によって生成された初期化点群に大きく依存しています。テクスチャのない表面が避けられない大規模シーンを扱う場合、SfM技術はこれらの表面で十分な点を生成できず、3DGSの良好な初期化を提供できません。その結果、3DGSは最適化が困難で、低品質なレンダリングに悩まされます。本論文では、古典的なマルチビューステレオ(MVS)技術に着想を得て、3Dガウシアンの密度化を導くための漸進的伝播戦略を適用した新しい手法、GaussianProを提案します。3DGSで使用される単純な分割とクローン戦略と比較して、我々の手法はシーンの既存の再構築ジオメトリの事前情報とパッチマッチング技術を活用し、正確な位置と方向を持つ新しいガウシアンを生成します。大規模および小規模シーンでの実験により、我々の手法の有効性が検証され、Waymoデータセットにおいて3DGSを大幅に上回り、PSNRで1.15dBの改善を示しました。
本論文では、実世界のタスクに対してシミュレーション環境における人間のデモンストレーションを活用する新しいロボット模倣学習手法「CyberDemo」を紹介します。シミュレーション環境での大規模なデータ拡張を組み込むことで、CyberDemoは実世界に転移した際に、従来の実世界ドメイン内のデモンストレーションを上回り、多様な物理的・視覚的条件に対応します。データ収集の経済性と利便性に加え、CyberDemoは様々なタスクにおいてベースライン手法を成功率で上回り、未見の物体に対する汎化性能も示します。例えば、人間のデモンストレーションが三方向バルブのみを含む場合でも、新規の四方向バルブや五方向バルブを回転させることができます。本研究は、実世界の器用な操作タスクにおけるシミュレーション環境での人間デモンストレーションの大きな可能性を示しています。詳細はhttps://cyber-demo.github.ioをご覧ください。
有望な3D生成技術として、マルチビューディフュージョン(MVD)は、その汎用性、品質、効率性の点で多くの注目を集めています。事前学習済みの大規模画像ディフュージョンモデルを3Dデータでファインチューニングすることにより、MVD手法はまず画像やテキストプロンプトに基づいて3Dオブジェクトの複数のビューを生成し、その後マルチビュー3D再構成によって3D形状を再構築します。しかし、生成された画像のスパースなビューと一貫性のない詳細は、3D再構成を困難にします。本論文では、マルチビューディフュージョン(MVD)画像のための効率的な3D再構築手法であるMVD^2を提案します。MVD^2は、投影と畳み込みによって画像特徴を3D特徴ボリュームに集約し、その後ボリューム特徴を3Dメッシュにデコードします。MVD^2を、3D形状コレクションと3D形状のレンダリングビューによってプロンプトされたMVD画像を用いて学習させます。生成されたマルチビュー画像と3D形状のグラウンドトゥルースビューとの不一致に対処するために、シンプルでありながら効率的なビュー依存の学習スキームを設計します。MVD^2は、MVDの3D生成品質を向上させ、高速であり、さまざまなMVD手法に対してロバストです。学習後、マルチビュー画像から1秒以内に効率的に3Dメッシュをデコードできます。Zero-123++とObjectVerse-LVIS 3Dデータセットを用いてMVD^2を学習させ、異なるMVD手法によって生成されたマルチビュー画像から3Dモデルを生成する際の優れた性能を、合成画像と実画像の両方のプロンプトを用いて実証します。
近年の研究により、特に線形アテンションモデルを含むトランスフォーマーが、フォワード推論ステップにおいて、コンテキスト内で提供されたデータに対して勾配降下法に似たアルゴリズムを暗黙的に実行することが実証されています。しかし、より複雑な問題を処理する能力については未解明のままです。本論文では、任意の線形トランスフォーマーが暗黙的な線形モデルを維持し、前処理付き勾配降下法の一種を実行していると解釈できることを証明します。また、学習データが異なるレベルのノイズで汚染されているという困難なシナリオにおける線形トランスフォーマーの使用についても調査します。驚くべきことに、この問題に対して線形トランスフォーマーが複雑で非常に効果的な最適化アルゴリズムを発見し、多くの合理的なベースラインを上回るか同等の性能を達成することを実証します。このアルゴリズムを逆解析し、ノイズレベルに基づくモーメンタムと適応的リスケーリングを組み込んだ新規のアプローチであることを示します。我々の発見は、線形トランスフォーマーでさえも、洗練された最適化戦略を発見する驚くべき能力を有していることを示しています。
模倣学習は、手動で設計された報酬関数を必要とせずに、デモンストレーションからポリシーを学習します。多くのロボットタスク、例えば自律レースにおいて、模倣されたポリシーは複雑な環境ダイナミクスと人間の意思決定をモデル化する必要があります。シーケンスモデリングは、運動シーケンスの複雑なパターンを捉えるのに非常に効果的ですが、現実世界のロボットタスクで一般的な新しい環境や分布シフトに適応するのが困難です。一方、敵対的模倣学習(AIL)はこの効果を緩和できますが、サンプル効率の低さや複雑な運動パターンの扱いに苦労します。そこで、我々はBeTAIL: Behavior Transformer Adversarial Imitation Learningを提案します。これは、人間のデモンストレーションから得られたBehavior Transformer(BeT)ポリシーとオンラインAILを組み合わせたものです。BeTAILは、BeTポリシーにAIL残差ポリシーを追加し、人間の専門家の逐次的意思決定プロセスをモデル化し、分布外の状態や環境ダイナミクスのシフトを補正します。我々は、Gran Turismo Sportにおける実際の人間のゲームプレイのエキスパートレベルのデモンストレーションを用いて、BeTAILを3つの課題でテストしました。提案された残差BeTAILは、環境との相互作用を減らし、レースのパフォーマンスと安定性を向上させ、BeTが下流学習とは異なるトラックで事前学習されていた場合でも効果を発揮しました。動画とコードは以下で公開しています: https://sites.google.com/berkeley.edu/BeTAIL/home。