翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)が様々なタスクで優れるためには、推論が重要です。Chain-of-Thought(CoT)推論などの手法は、問題を中間ステップに分解することでLLMの性能を向上させますが、トークンの使用量が増加し、コストが上昇するという重大なオーバーヘッドも発生します。現在のLLMの推論プロセスは不必要に長く、プロンプトに適切なトークン予算を含めることで圧縮できることが分かりましたが、トークン予算の選択が実際の圧縮効果に重要な役割を果たします。そこで、推論の複雑さに基づいて異なる問題に対するトークン予算を動的に推定し、推論プロセスを誘導するために推定されたトークン予算を使用するトークン予算に注意したLLM推論フレームワークを提案します。実験の結果、当社の手法はCoT推論においてトークンコストを効果的に削減し、僅かな性能低下のみで、LLM推論における効率と精度のバランスを提供する実用的な解決策となります。コード:https://github.com/GeniusHTX/TALE.
本研究では、質問を理解し解決するMLLMを開発することを目指しています。このMLLMは、推論の各中間ステップを作成することを学習し、最終的な回答まで関与する推論の各段階を理解するものです。このために、効果的かつ効率的な推論パスの探索と学習のために、「CoMCTS(Collective Monte Carlo Tree Search)」というMLLM向けの新しい推論学習手法を提案します。CoMCTSの中核アイデアは、複数のモデルからの集合知識を活用して、拡張、シミュレーションとエラー位置決定、逆伝播、選択を含む4つの反復操作を介して、正しい回答に向けた効果的な推論パスを共同で推測、探索、特定することです。CoMCTSを使用して、各質問に対して豊富で明確かつ明確に定義された推論ノードのツリーを持つマルベリー260kという多モーダルデータセットを構築します。Mulberry-260kを使用して、モデルMulberryを訓練するために集合的SFTを実行し、ステップバイステップの推論と反射能力を持つMLLMのシリーズを構築します。幅広い実験により、提案手法の様々なベンチマークにおける優越性が示されます。コードはhttps://github.com/HJYao00/Mulberry で入手可能です。
我々は、効率的なエンコーダーフリーなアプローチを提案し、競争力のある性能を実現しつつ、計算オーバーヘッドを大幅に削減するビデオ言語理解手法を紹介します。現在のビデオ言語モデルは通常、重量級の画像エンコーダー(300M-1.1Bパラメータ)またはビデオエンコーダー(1B-1.4Bパラメータ)に依存しており、複数フレームのビデオを処理する際に膨大な計算負荷を生じさせます。当社の手法は、従来のアプローチと比較して、視覚処理に45Mパラメータのみを使用し、少なくとも6.5倍の削減を実現する新しい空間時間アライメントブロック(STAB)を導入します。STABアーキテクチャは、細かい特徴抽出のためのローカル空間時間エンコーディング、学習された注意を介した効率的な空間ダウンサンプリング、およびフレームレベルとビデオレベルの関係をモデリングするための別々のメカニズムを組み合わせています。当社のモデルは、標準ベンチマークでのオープンエンドのビデオ質問応答において、エンコーダーベースのアプローチと比較して同等または優れた性能を達成しています。細かい粒度のビデオ質問応答評価は、当社のモデルの効果を示し、エンコーダーベースのアプローチであるVideo-ChatGPTおよびVideo-LLaVAを、正確性や時間理解などの重要な側面で凌駕しています。包括的な削除研究は、当社のアーキテクチャの選択を検証し、従来の手法より3-4倍高速な処理速度を達成しつつ、当社の空間時間モデリングアプローチの効果を示しています。コードはhttps://github.com/jh-yi/Video-Pandaで入手可能です。
ラジオは、大量の情報を普及させるための普及したメディアであり、AM/FM放送局は、スマートフォンを利用したソーシャルネットワーキングやライブテレビよりも多くのアメリカ人に到達しています。最近では、ラジオ放送はオンラインでストリーミングされ、インターネット経由でアクセスされるようになっています。本研究では、リアルタイムでラジオコンテンツを記録、文書化、分析するWavePulseフレームワークを提案します。当フレームワークは一般的に適用可能ですが、2024年の大統領選挙に焦点を当てた政治学者チームとの共同プロジェクトでWavePulseの有効性を紹介します。私たちは、396のニュースラジオ局のライブストリームを3か月間モニターし、約50万時間のオーディオストリームを処理しました。これらのストリームは、タイムスタンプ付きのダイアライズされたトランスクリプトに変換され、全国および州レベルで政治学の重要な問題を追跡するために分析されました。私たちの分析により、地元の問題が全国的なトレンドとどのように相互作用するかが明らかになり、情報フローに関する洞察が得られました。私たちの結果は、Webからのラジオライブストリームのコンテンツを捉え、分析するWavePulseの有効性を示しています。コードとデータセットは、https://wave-pulse.io からアクセスできます。
同時音声テキスト変換(SimulST)は、話者の音声と同時にソース言語の音声をターゲット言語のテキストに変換し、ユーザーの理解を向上させるための低遅延を確保します。この技術は、無制限の音声に適用されることを意図していますが、ほとんどの研究は人間によって事前に区切られた音声に焦点を当てており、課題を簡略化し、重要な課題を見落としています。この狭い焦点は、広範な用語の不一致と組み合わさることで、研究成果の実世界への適用を制限し、結果として分野の進歩を妨げています。私たちが行った110の論文の包括的な文献レビューは、現在の研究におけるこれらの重要な問題を明らかにするだけでなく、私たちの主要な貢献の基盤となっています。具体的には、1)SimulSTシステムの手順と主要コンポーネントを定義し、標準化された用語と分類法を提案します。2)コミュニティのトレンドを徹底的に分析し、3)評価フレームワークからシステムアーキテクチャまで、既存文献のギャップを埋めるための具体的な推奨事項と将来の方向性を提供し、より現実的で効果的なSimulSTソリューションへの分野の進展を促進します。
ペプチド医薬品は、糖尿病やがんなどの疾患で顕著な成功を収めており、GLP-1受容体アゴニストなどの画期的な例により、2型糖尿病や肥満の治療が革新されています。その成功にもかかわらず、標的結合親和性、溶解性、および膜透過性など、複数の相反する目標を満たすペプチドを設計することは依然として大きな課題です。従来の薬物開発や構造ベースの設計は、治療効果に重要なグローバルな機能特性を最適化することができないため、このようなタスクには効果がありません。既存の生成フレームワークは、主に連続空間、非条件付き出力、または単一目的のガイダンスに限定されており、複数の特性にわたる離散系列の最適化には適していません。この課題に対処するため、我々はPepTuneを提案します。これは、治療用ペプチドSMILESの同時生成と最適化のための多目的離散拡散モデルです。Masked Discrete Language Model(MDLM)フレームワークに基づいて構築されたPepTuneは、状態依存のマスキングスケジュールとペナルティベースの目的を用いて有効なペプチド構造を確保します。拡散プロセスをガイドするために、Monte Carlo Tree Search(MCTS)ベースの戦略を提案し、探索と活用をバランスよく取り入れてパレート最適なシーケンスを反復的に洗練します。MCTSは、分類器ベースの報酬と探索木の展開を統合し、離散空間固有の勾配推定の課題とデータのまばらさを克服します。PepTuneを用いて、標的結合親和性、膜透過性、溶解性、溶血作用、および各種疾患関連標的における非付着特性など、複数の治療特性に最適化された多様な化学修飾ペプチドを生成します。総じて、我々の結果は、MCTSによる離散拡散が離散状態空間における多目的シーケンス設計において強力かつモジュラーなアプローチであることを示しています。