翻訳付きの日次キュレーションされたAI研究論文
推論時最適化は、効果的なパフォーマンスを得るために慎重な推論ステップを導出する計算をスケールします。これまでの探索ベースの戦略は、自己回帰生成の近視眼的な性質に対処してきましたが、広大な探索空間は過剰な探索と不十分な活用を引き起こします。最適なステップを導出するために効率的なバランスを取るため、我々はデコード戦略を先見サンプリングとして定式化し、シミュレートされた将来のステップを活用してグローバルに最適なステップ推定を取得します。これを基に、我々はphi-Decodingという新しいデコード戦略を提案します。ステップ値の正確で表現力豊かな推定を提供するために、phi-Decodingは先見とクラスタリングを通じて2つの分布を近似します。結合分布からサンプリングすることで、最適なステップを選択して活用することができます。適応的な計算割り当てをサポートするために、我々はin-widthおよびin-depthプルーニング戦略を提案し、推論効率を達成するための軽量なソリューションを特徴とします。7つのベンチマークにわたる広範な実験により、phi-Decodingが性能と効率の両面で強力なベースラインを上回ることが示されています。追加の分析により、様々な大規模言語モデル(LLM)にわたる汎用性と、広範な計算予算にわたるスケーラビリティが実証されています。コードはhttps://github.com/xufangzhi/phi-Decodingで公開され、オープンソースのPyPIパッケージも近日公開予定です。
CLIPやSigLIPのような画像-テキスト対照モデルの最近の成功にもかかわらず、これらのモデルは、計数、深度推定、細粒度の物体認識など、高忠実度の画像理解を必要とする視覚中心のタスクに苦戦することが多い。これらのモデルは、言語アラインメントを行うことで、視覚的理解よりも高レベルの意味論を優先する傾向があり、画像理解が弱まってしまう。一方、視覚に特化したモデルは視覚情報の処理に優れているが、言語の理解に苦労し、言語駆動型タスクに対する柔軟性が制限される。本研究では、既存のCLIP類似モデルのドロップイン代替となるオープンソースのTULIPを紹介する。我々の手法は、生成的なデータ拡張、強化された画像-画像およびテキスト-テキスト対照学習、画像/テキスト再構成正則化を活用し、グローバルな意味論的アラインメントを維持しながら、細粒度の視覚的特徴を学習する。10億以上のパラメータにスケーリングする我々のアプローチは、複数のベンチマークで既存の最先端(SOTA)モデルを上回り、ImageNet-1Kで新たなSOTAゼロショット性能を確立し、RxRx1でのFew-shot分類の線形プローブにおいてSigLIPに対して最大2倍の向上を達成し、視覚言語モデルを改善し、MMVPでSigLIPよりも3倍以上のスコアを達成した。我々のコード/チェックポイントはhttps://tulip-berkeley.github.ioで公開されている。
三角形メッシュは、効率的な操作とレンダリングのための3Dアプリケーションにおいて重要な役割を果たします。自己回帰手法は離散的な頂点トークンを予測することで構造化されたメッシュを生成しますが、面数の制限やメッシュの不完全性に制約されることが多いです。これらの課題に対処するため、我々はDeepMeshを提案します。このフレームワークは、以下の2つの主要な革新を通じてメッシュ生成を最適化します:(1) 新しいトークン化アルゴリズムを組み込んだ効率的な事前学習戦略と、データのキュレーションおよび処理の改善、(2) 3Dメッシュ生成に強化学習(RL)を導入し、Direct Preference Optimization(DPO)を通じて人間の好みに合わせることを実現します。我々は、人間の評価と3Dメトリクスを組み合わせたスコアリング基準を設計し、DPOのための選好ペアを収集することで、視覚的な魅力と幾何学的な正確さの両方を確保します。点群と画像を条件として、DeepMeshは複雑な詳細と正確なトポロジーを持つメッシュを生成し、精度と品質の両方において最先端の手法を上回ります。プロジェクトページ: https://zhaorw02.github.io/DeepMesh/
膨大なデータで訓練された基盤モデルは、テキスト、画像、音声、ビデオといった領域において、驚くべき推論能力と生成能力を示しています。Robloxにおける私たちの目標は、3D知能のためのそのような基盤モデルを構築することです。このモデルは、3Dオブジェクトやシーンの生成から、アニメーション用のキャラクターリギング、オブジェクトの動作を記述するプログラムスクリプトの作成まで、Roblox体験のあらゆる側面を開発者が制作するのを支援できるものです。私たちは、そのような3D基盤モデルに対する3つの主要な設計要件について議論し、そのモデル構築に向けた最初のステップを提示します。3D幾何形状がコアデータタイプになると予想し、3D形状トークナイザーのための私たちのソリューションを説明します。私たちのトークン化スキームが、テキストから形状の生成、形状からテキストの生成、テキストからシーンの生成といったアプリケーションでどのように使用できるかを示します。これらのアプリケーションが、既存の大規模言語モデル(LLM)と連携してシーン分析と推論を実行する方法を実証します。最後に、3D知能のための完全に統合された基盤モデルを構築するための私たちの道筋を概説する議論で締めくくります。
汎用知識グラフ(Generalized Knowledge Graph, GKG)の構築は、知識グラフ、イベント知識グラフ、常識知識グラフを含むものであり、様々な自然言語処理タスクの基盤となる。現在の研究では、これらのグラフを個別に構築するのが一般的であり、全体的な洞察や、計算リソースや使用の観点で有益となる可能性のある統一化を見落としている。しかし、GKGの統一フレームワークを開発する上での主要な課題は、タスク固有の差異から生じる障害である。本研究では、この課題に対処するために、汎用知識グラフを構築するための統一フレームワークを提案する。まず、3種類のグラフにわたる29のデータセットから15のサブタスクのデータを収集し、それらをインサンプル、カウンタータスク、および分布外(OOD)データに分類する。次に、3段階のカリキュラム学習によるファインチューニングフレームワークを提案し、3種類のグラフからの知識を大規模言語モデルに反復的に注入する。大規模な実験により、提案モデルが、ドメイン内、OOD、およびカウンタータスクデータにわたる全ての3種類のグラフの構築を改善することが示された。
時間的品質はビデオ生成において重要な側面であり、フレーム間の一貫した動きと現実的なダイナミクスを保証します。しかし、高い時間的コヒーレンスと多様性を達成することは依然として困難です。本研究では、初めてビデオ生成における時間的拡張を探求し、時間的品質を向上させるための戦略としてFluxFlowを導入します。データレベルで動作するFluxFlowは、アーキテクチャの変更を必要とせずに制御された時間的摂動を適用します。UCF-101およびVBenchベンチマークでの広範な実験により、FluxFlowがU-Net、DiT、ARベースのアーキテクチャを含む様々なビデオ生成モデルにおいて、空間的忠実度を保ちつつ時間的コヒーレンスと多様性を大幅に向上させることが実証されました。これらの発見は、時間的拡張がビデオ生成品質を向上させるためのシンプルかつ効果的なアプローチとしての可能性を強調しています。
生成技術の急速な進歩は諸刃の剣として現れている。利便性を高める強力なツールを提供する一方で、重大な社会的懸念も引き起こしている。防御手段として、現在の合成画像検出手法はアーティファクトレベルのテキスト解釈可能性を欠き、画像操作検出に過度に焦点を当てていることが多く、現在のデータセットは通常、時代遅れの生成器と細粒度のアノテーションの欠如に悩まされている。本論文では、SynthScarsを紹介する。これは、人間の専門家によるアノテーションが付いた12,236枚の完全合成画像からなる高品質で多様なデータセットである。4つの異なる画像コンテンツタイプ、3つのカテゴリのアーティファクト、およびピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルをカバーする細粒度のアノテーションを特徴としている。さらに、LEGION(LEarning to Ground and explain for Synthetic Image detectiON)を提案する。これは、アーティファクト検出、セグメンテーション、説明を統合したマルチモーダル大規模言語モデル(MLLM)ベースの画像偽造分析フレームワークである。この能力を基盤として、LEGIONをコントローラーとして探索し、画像精緻化パイプラインに統合して、より高品質で現実的な画像の生成を導く。大規模な実験により、LEGIONが複数のベンチマークで既存の手法を上回り、特にSynthScarsにおいて2番目に優れた従来の専門家をmIoUで3.31%、F1スコアで7.75%上回ることが示された。さらに、その指導の下で生成された精緻化画像は、人間の好みとの強い一致を示す。コード、モデル、データセットは公開される予定である。
大規模言語モデル(LLMs)は、数学的推論タスクを解決する上で有望な能力を示しており、Chain-of-Thought(CoT)データを活用して回答生成を導く重要な要素として利用しています。現在のパラダイムでは、通常、与えられた問題に対して直接CoTと回答を生成しますが、これは人間の問題解決戦略とはある程度異なります。人間はしばしば、類似した事例を思い出し、その解決策を活用して現在のタスクを推論します。この認知プロセスに着想を得て、我々はMetaLadderという新しいフレームワークを提案します。MetaLadderは、LLMsに対して、ターゲット問題に取り組む前に、構造的または意味的に類似した問題であるメタ問題とそのCoT解決策を思い出し、反映することを明示的に促します。さらに、問題を再記述するメカニズムを導入し、元の質問を再生成することでモデルのターゲット問題の理解を向上させ、推論精度をさらに高めます。これにより、モデルは類推問題からの推論転移を達成し、人間のような「例から学ぶ」能力と汎化能力を模倣することができます。数学的ベンチマークでの広範な実験により、我々のMetaLadderがLLMsの問題解決精度を大幅に向上させ、標準的なCoTベースの手法(10.3%の精度向上)や他の手法を大きく上回ることが実証されました。我々のコードとデータはhttps://github.com/LHL3341/MetaLadderで公開されています。
視覚的推論は人間の認知の中核をなすものであり、個人が環境を解釈し抽象的に理解することを可能にします。近年のマルチモーダル大規模言語モデル(MLLM)は、言語および視覚-言語タスクにおいて印象的な性能を示していますが、既存のベンチマークは主に認識ベースのスキルを測定するものであり、真の視覚的推論能力を十分に評価できていません。この重要なギャップを埋めるため、我々はVERIFYを導入します。これは、最先端のMLLMの視覚的推論能力を分離し厳密に評価するために明示的に設計されたベンチマークです。VERIFYは、モデルに視覚情報を主に基に推論させることで、ドメイン固有の知識や言語的バイアスへの依存を減らすために最小限のテキストコンテキストを提供します。各問題には人間による注釈付きの推論パスが付属しており、モデルの意思決定プロセスを詳細に評価する初のベンチマークとなっています。さらに、単なる精度を超えた視覚的推論の忠実度を評価する新しい指標を提案し、現在のモデルの推論パターンにおける重要な不均衡を浮き彫りにします。主要なMLLMの包括的なベンチマークを通じて、知覚と推論の両方に対するバランスの取れた包括的なアプローチの必要性を強調する重要な限界が明らかになりました。詳細なティーザーやテストについては、プロジェクトページ(https://verify-eqh.pages.dev/)をご覧ください。
拡散モデルは画像合成において顕著な性能を示していますが、その訓練、ファインチューニング、推論には膨大な計算リソースとメモリが必要です。高度な量子化技術により推論時のメモリ使用量は最小化されましたが、量子化モデルの訓練やファインチューニングでは、勾配の正確な計算や勾配ベースのアルゴリズムのための逆伝播のために、依然として大きなメモリを必要とします。しかし、プライベートデータを扱うモバイル端末などのエッジデバイス上で実行されることが多いパーソナライゼーションのようなアプリケーションでは、メモリ効率の良いファインチューニングが特に望まれます。本研究では、Textual Inversionを用いて拡散モデルを量子化し、ゼロ次最適化を活用してパーソナライゼーショントークンを量子化状態のまま最適化することで、逆伝播に必要な勾配と活性化の保存を不要とし、メモリ使用量を大幅に削減する手法を提案します。パーソナライゼーションにおいて単一または少数の画像に対するゼロ次最適化による勾配推定はノイズが多いため、過去のトークンの履歴を用いて構築された部分空間に勾配を投影することでノイズを除去する「部分空間勾配」を提案します。さらに、テキスト埋め込みが画像生成に与える影響を調査し、効果的な拡散タイムステップをサンプリングするための「部分一様タイムステップサンプリング」を提案します。本手法は、Stable Diffusionのパーソナライゼーションにおいて、従来手法と同等の画像とテキストの整合性スコアを達成しつつ、訓練メモリ要求量を最大8.2倍削減します。
長文テキストの事実性を評価するためのDecompose-Then-Verifyパラダイムに関する現在の研究では、分解と検証を孤立して扱うことが一般的であり、それらの相互作用や潜在的な不整合を見落としています。既存の分解ポリシー、通常は手作業で作成されたデモンストレーションは、情報密度を定量化する新しい指標である原子性の観点で、下流の検証器と十分に整合しておらず、最適ではない検証結果を招いていることがわかりました。最適な検証のための最適な分解ポリシーを見つけることを、二段階最適化問題として定式化します。この強NP困難問題の近似解を得るために、検証器のフィードバックを活用して、検証器が好む原子性に基づいてクレームを動的に分解するポリシーを学習する強化学習フレームワークである動的分解を提案します。実験結果は、動的分解が既存の分解ポリシーを上回り、様々な検証器、データセット、入力クレームの原子性において、検証の信頼度を平均0.07、精度を0.12(0-1スケール)向上させることを示しています。
グラフィカルユーザーインターフェースを自律的に操作するAIエージェントの開発は、長年にわたる挑戦的な課題である。データスケーリング則の最近の進展は、スケーリングされた指示セットを用いてコンピュータ使用エージェントを訓練することを可能にしたが、行動クローニングを用いたエージェントの訓練には依然として膨大な高品質な軌跡データが必要である。スケーラビリティのニーズに対応するため、我々はコンピュータ使用エージェント訓練のためのステップ検証パイプラインであるSTEVEを設計した。まず、コンピュータ使用エージェントのための大規模な指示セットを確立し、いくつかの準最適なエージェントを用いて軌跡データを収集する。GPT-4oを用いて、アクション実行前後の画面に基づいて軌跡内の各ステップの正しさを検証し、各ステップに二値ラベルを付与する。最後に、カーネマンとトベルスキーの最適化を採用して、二値のステップワイズラベルからエージェントを最適化する。大規模な実験により、我々のエージェントは軌跡内の正と負の両方のアクションを活用することで、教師ありファインチューニングを上回る性能を発揮することが示された。また、STEVEを用いることで、7Bの視覚言語モデルをコンピュータ使用エージェントとして訓練し、挑戦的なライブデスクトップ環境であるWinAgentArenaにおいて、効率的かつ低コストでリーディングな性能を達成した。コードとデータ: https://github.com/FanbinLu/STEVE。
大規模言語モデル(LLM)エージェントは、現実世界のタスクにおいて多段階のインタラクションを実行する必要がある。しかし、LLMエージェントを最適化するための既存の多段階強化学習(RL)アルゴリズムは、複数の段階にわたる効果的なクレジット割り当てを行いながらLLMの汎化能力を活用することができず、そのようなアルゴリズムをどのように開発するかは未だ不明確である。この問題を研究するため、我々はまず新しいベンチマーク「ColBench」を導入した。このベンチマークでは、LLMエージェントが人間の協力者と複数の段階にわたってインタラクションを行い、バックエンドプログラミングやフロントエンドデザインといった現実的なタスクを解決する。このベンチマークを基に、我々は新しいRLアルゴリズム「SWEET-RL(Step-WisE Evaluation from Training-time informationを活用したRL)」を提案した。このアルゴリズムは、追加のトレーニング時情報にアクセス可能な批評家モデルを訓練するために慎重に設計された最適化目標を使用する。批評家は、ポリシーモデルを改善するためのステップレベルの報酬を提供する。我々の実験では、SWEET-RLがColBenchにおいて他の最先端の多段階RLアルゴリズムと比較して成功率と勝利率で6%の絶対的な改善を達成し、Llama-3.1-8Bが現実的な協調コンテンツ作成においてGPT4-oの性能に匹敵またはそれを上回ることを示した。
最近のLLM事前学習の進展では、より長いシーケンスを処理するためにコンテキストウィンドウが拡大し続けています。しかし、私たちのパイロットスタディでは、固定されたトークン予算の下で、短いコンテキストウィンドウで事前学習されたモデルが、長いコンテキストのモデルを一貫して上回ることが明らかになりました。この発見は、長いコンテキストの能力と事前学習の効率性をより良くバランスさせるための最適なコンテキストウィンドウスケジューリング戦略を探求する動機となりました。この目的のために、私たちはSkyLadderを提案します。これは、短いコンテキストウィンドウから長いコンテキストウィンドウへの移行を実装するシンプルで効果的なアプローチです。SkyLadderは、標準ベンチマークでの強力な性能を維持しつつ、長いコンテキストタスクではベースラインを上回るか同等の結果を達成します。広範な実験を通じて、1Bパラメータのモデル(最大32Kコンテキスト)と3Bパラメータのモデル(8Kコンテキスト)を100Bトークンで事前学習し、SkyLadderが一般的なベンチマークで最大3.7%の一貫した向上をもたらし、ベースラインと比較して最大22%の高速なトレーニング速度を達成することを実証しました。コードはhttps://github.com/sail-sg/SkyLadderにあります。
私たちは、指定された音楽トラックに同期した高品質なダンスビデオを生成するアプローチであるMusicInfuserを紹介します。新しいマルチモーダルな音声-ビデオモデルを設計・訓練するのではなく、既存のビデオ拡散モデルを音楽入力に合わせて適応させる方法を示します。これには、軽量な音楽-ビデオクロスアテンションと低ランクアダプターを導入します。モーションキャプチャデータを必要とする従来の研究とは異なり、私たちのアプローチはダンスビデオのみに基づいてファインチューニングを行います。MusicInfuserは、基盤となるモデルの柔軟性と生成能力を維持しながら、高品質な音楽駆動型ビデオ生成を実現します。また、Video-LLMを使用してダンス生成の品質を多角的に評価するフレームワークを導入します。プロジェクトページとコードはhttps://susunghong.github.io/MusicInfuserで公開されています。
3Dシーンの分解的再構築、特に全てのオブジェクトの完全な形状と詳細なテクスチャを伴うものは、下流のアプリケーションにとって興味深いものの、特に疎なビューを入力とする場合、依然として課題が残っています。最近のアプローチでは、この問題に対処するために意味的または幾何学的な正則化が取り入れられていますが、制約の少ない領域での著しい劣化や、隠蔽された領域の回復に失敗しています。この問題を解決する鍵は、これらの領域に欠けている情報を補完することにあると私たちは主張します。この目的のために、私たちはDP-Reconを提案します。これは、新しいビュー下での各個別オブジェクトのニューラル表現を最適化するために、Score Distillation Sampling(SDS)の形で拡散事前分布を採用します。これにより、制約の少ない領域に対する追加情報が提供されますが、拡散事前分布を直接組み込むことは、再構築と生成的ガイダンスの間の潜在的な衝突を引き起こします。そのため、私たちはさらに、可視性に基づいたアプローチを導入し、ピクセルごとのSDS損失の重みを動的に調整します。これらのコンポーネントを組み合わせることで、入力画像に忠実でありながら、幾何学と外観の回復を両方とも強化します。ReplicaとScanNet++にわたる広範な実験により、私たちの方法がSOTAメソッドを大幅に上回ることが示されています。特に、10ビュー下でのオブジェクト再構築が、ベースラインの100ビュー下での再構築よりも優れています。私たちの方法は、SDS最適化を通じて幾何学と外観のシームレスなテキストベース編集を可能にし、フォトリアルな視覚効果(VFX)編集をサポートする詳細なUVマップを伴う分解されたオブジェクトメッシュを生成します。プロジェクトページはhttps://dp-recon.github.io/で利用可能です。
大規模マルチモーダルモデル(LMM)の最近の進展は、主にオフラインの映像理解に焦点が当てられています。一方、ストリーミング映像の理解は、その時間敏感性、全モーダル性、およびインタラクティブ性の特性から、最近のモデルにとって大きな課題となっています。本研究では、ストリーミング映像理解を新たな視点から拡張し、モデルが視覚的コンテンツを認識し、そこから指示を抽出することを学ぶべき新たなタスク「Visual Instruction Feedback」を提案します。例えば、ユーザーがエージェントに向かって手を振ると、エージェントはそのジェスチャーを認識し、ウェルカム情報を用いて会話を開始するべきです。このように、視覚モダリティにおける指示に従うことは、ユーザーとエージェントのインタラクションを大幅に向上させます。研究を促進するため、視覚モダリティと密接に関連する7つの主要なサブタスクを定義し、トレーニング用のViSpeak-Instructデータセットと評価用のViSpeak-Benchを収集しました。さらに、GPT-4oレベルの性能を様々なストリーミング映像理解ベンチマークで達成するSOTAのストリーミング映像理解LMMであるViSpeakモデルを提案します。ViSpeak-Instructデータセットでファインチューニングを行った後、ViSpeakは基本的な視覚指示フィードバック能力を備え、将来の研究のための堅固なベースラインとして機能します。
自動特徴量エンジニアリングは、表形式データ学習タスクにおける予測モデルの性能向上に重要な役割を果たします。従来の自動特徴量エンジニアリング手法は、事前に定義された変換に依存し、手動で設計された固定の探索空間に制限されるため、ドメイン知識を十分に活用できないことが課題でした。近年、大規模言語モデル(LLM)の進展により、特徴量エンジニアリングプロセスにドメイン知識を統合することが可能になりました。しかし、既存のLLMベースのアプローチは、直接的なプロンプトを使用するか、検証スコアのみに依存して特徴量を選択するため、過去の特徴量発見実験からの洞察を活用できず、特徴量生成とデータ駆動型性能の間の意味のある推論を確立できていませんでした。これらの課題に対処するため、我々はLLM-FEを提案します。LLM-FEは、進化的探索とLLMのドメイン知識および推論能力を組み合わせ、表形式データ学習タスクにおいて効果的な特徴量を自動的に発見する新しいフレームワークです。LLM-FEは、特徴量エンジニアリングをプログラム探索問題として定式化し、LLMが新しい特徴量変換プログラムを反復的に提案し、データ駆動型フィードバックが探索プロセスを導きます。実験結果は、LLM-FEが最先端のベースラインを一貫して上回り、多様な分類および回帰ベンチマークにおいて表形式予測モデルの性能を大幅に向上させることを示しています。
音声駆動型単一画像話者ポートレート生成は、仮想現実、デジタルヒューマン作成、映画制作において重要な役割を果たします。既存のアプローチは、一般にキーポイントベースと画像ベースの方法に分類されます。キーポイントベースの方法はキャラクターの同一性を効果的に保持しますが、3D Morphable Modelの固定点制限により、細かい顔の詳細を捉えることが困難です。さらに、従来の生成ネットワークは、限られたデータセット上で音声とキーポイントの間の因果関係を確立するのに苦労し、ポーズの多様性が低くなります。一方、画像ベースのアプローチは、拡散ネットワークを使用して多様な詳細を持つ高品質なポートレートを生成しますが、同一性の歪みと高額な計算コストが発生します。本研究では、教師なし暗黙的3Dキーポイントと時空間拡散モデルを組み合わせた初めてのフレームワークであるKDTalkerを提案します。教師なし暗黙的3Dキーポイントを活用することで、KDTalkerは顔の情報密度を適応させ、拡散プロセスが多様な頭部ポーズをモデル化し、柔軟に細かい顔の詳細を捉えることを可能にします。カスタム設計された時空間注意メカニズムは、正確なリップシンクロを確保し、時間的に一貫した高品質なアニメーションを生成しながら、計算効率を向上させます。実験結果は、KDTalkerがリップシンクロ精度、頭部ポーズの多様性、実行効率において最先端の性能を達成することを示しています。私たちのコードはhttps://github.com/chaolongy/KDTalkerで利用可能です。
我々はELTEX(Efficient LLM Token Extraction)を提案する。これは専門領域における高品質な合成トレーニングデータを生成するためのドメイン駆動型フレームワークである。大規模言語モデル(LLM)は一般的な能力において印象的な成果を示しているが、サイバーセキュリティのような専門領域では、ドメイン固有のトレーニングデータの不足により性能が制限されている。ELTEXはこの課題に対処するため、明示的なドメイン指標抽出と動的プロンプティングを体系的に統合し、生成プロセス全体で重要なドメイン知識を保持する。我々はブロックチェーン関連のサイバー攻撃検出を文脈としてELTEXの有効性を実証し、Gemma-2Bを実データとELTEX生成データの様々な組み合わせでファインチューニングした。その結果、ELTEXを適用したモデルは、標準的な分類指標と不確実性キャリブレーションの両方においてGPT-4に匹敵する性能を達成しつつ、大幅に少ない計算リソースを必要とすることを示した。我々はブロックチェーンにおけるサイバー攻撃検出のための精選されたソーシャルメディアテキストの合成データセットを公開する。本研究は、ドメイン駆動型の合成データ生成が、専門領域においてリソース効率の良いモデルと大規模アーキテクチャの性能差を効果的に埋めることができることを実証している。
大規模言語モデル(LLMs)の最近の進展は、推論能力の向上を示しており、Chain-of-Thought(CoT)プロンプティングから、OpenAI o1のような高度で製品指向のソリューションへと進化しています。このモデルの再実装中に、視覚入力を必要とするマルチモーダルタスク(例えば、幾何学問題)において、マルチモーダルLLMs(MLLMs)が視覚情報に集中し続けることが困難であることに気づきました。言い換えると、MLLMsは推論が進むにつれて視覚情報への注意が徐々に低下し、テキストに過度に依存した出力を生成する傾向があります。これを調査するため、長い連鎖推論中に画像入力を除去しました。具体的には、推論プロセスを途中で切り詰め、その後、入力画像を除去して推論プロセスを再完了させました。その結果、MathVistaのtest-hardサブセットにおいて、精度の低下はわずか約2%であり、モデルのテキスト出力がその後の推論プロセスを支配していることが明らかになりました。この知見に基づき、Take-along Visual Conditioning(TVC)を提案します。これは、画像入力を重要な推論段階にシフトし、動的プルーニングを通じて冗長な視覚トークンを圧縮する戦略です。この方法論により、モデルは推論全体を通じて視覚要素に注意を保つことができます。我々のアプローチは、5つの数学的推論ベンチマークにおいて平均的に最先端の性能を達成し(従来のsota比+3.4%)、TVCがマルチモーダル推論システムを強化する効果を実証しました。
科学的な問題解決には、専門知識を応用しながら情報を統合することが含まれます。本論文では、大規模言語モデル(LLMs)の科学的問題解決能力と、現実的な科学ワークフローにおける科学者支援の可能性を測定するための科学的長文脈理解・推論・情報抽出ベンチマーク「CURIE」を紹介します。このベンチマークでは、材料科学、凝縮系物理学、量子コンピューティング、地理空間分析、生物多様性、タンパク質の6分野の専門家によって厳選された580の問題と解答のペアを含む10の挑戦的なタスクを導入しています。これらは、科学における実験的および理論的なワークフローの両方をカバーしています。CURIEのタスクでは、ドメイン知識、長文脈情報の理解、多段階推論が要求され、さまざまなクローズドおよびオープンなLLMsを評価しました。Gemini Flash 2.0とClaude-3はドメインを横断して一貫して高い理解力を示しましたが、人気のGPT-4oとcommand-R+はタンパク質配列タスクで著しく失敗しました。最高性能でも32%であり、すべてのモデルに改善の余地が大いにあります。CURIEから得られた知見が、科学分野におけるLLMsの将来の開発を導くことを期待しています。評価コードとデータはhttps://github.com/google/curieにあります。
複雑なマルチエージェント環境において、効率的な学習と望ましい行動を達成することは、マルチエージェント強化学習(MARL)システムにとって重要な課題です。本研究では、MARLと大規模言語モデル(LLM)を介した介入を組み合わせることで、エージェントをより望ましい行動に導く可能性を探ります。具体的には、複数のエージェントの学習軌跡を形成するための介入を解釈し、促進するためにLLMをどのように利用できるかを調査します。我々は、Natural Language(NL)コントローラとRule-Based(RB)コントローラという2種類の介入(コントローラ)を実験しました。LLMを使用して人間のような介入をシミュレートするNLコントローラは、RBコントローラよりも強い影響を示しました。我々の調査結果は、特に早期の介入がエージェントにとって有益であり、より効率的なトレーニングと高いパフォーマンスにつながることを示しています。両方の介入タイプは、介入なしのベースラインを上回り、困難な環境におけるMARLのトレーニングを加速し、パフォーマンスを向上させるためのLLMを介したガイダンスの可能性を強調しています。