HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

4 papers found

YuLan-Mini: オープンでデータ効率の良い言語モデル
YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

大規模言語モデル（LLM）の効果的な事前学習は、膨大なリソース要求と関連する技術プロセスの複雑さにより、困難を極めてきました。本論文では、2.42Bのパラメータを持つ高性能な基本モデルであるYuLan-Miniについて、同様のパラメータ規模のモデルの中で最高水準の性能を達成する詳細な技術レポートを提供します。私たちの事前学習アプローチは、トレーニングの効果を向上させることに焦点を当て、次の3つの主要な技術的貢献によって行われます：データクリーニングとデータスケジュール戦略を組み合わせた緻密なデータパイプライン、トレーニングの不安定性を緩和するための頑健な最適化手法、そして、ターゲットデータ選択と長いコンテキストトレーニングを組み込んだ効果的なアニーリング手法。驚くべきことに、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界をリードするモデルと同等の性能を達成しています。再現性を促進するために、各トレーニングフェーズのデータ構成の詳細を公開しています。プロジェクトの詳細は、以下のリンクからアクセスできます：https://github.com/RUC-GSAI/YuLan-Mini.

完全な注意を得るための銀の弾丸か妥協か？要約トークンベースのコンテキスト圧縮の包括的研究
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

本研究では、大規模言語モデルにおける長い文脈処理の改善を図るため、要旨に基づくコンテキスト圧縮手法を徹底的に調査します。我々は、以下の2つの主要な問いに焦点を当てます：(1) これらの手法が完全な注意モデルをどれだけ置き換えることができるか？および(2) 圧縮によって生じる潜在的な失敗パターンは何か？多くの実験を通じて、要旨に基づく圧縮が、検索補助生成や長文書QAなどのタスクにおいてほぼ損失のないパフォーマンスを達成できる一方、合成的なリコールなどのタスクにおいて課題に直面することを示します。さらに、我々は、3つの主要な失敗パターンを特定します：境界で失われる、驚きがある場合に失われる、途中で失われる。これらの問題を緩和するために、我々は2つの効果的な戦略を提案します：細かい粒度の自己符号化により、元のトークン情報の再構築を向上させ、セグメントごとのトークン重要度推定により、トークン間の依存関係に基づいて最適化を調整します。本研究は、要旨トークンベースのコンテキスト圧縮の理解に貢献し、圧縮能力を向上させるための実践的な戦略を提供します。

MMFactory: ビジョン-言語タスクのための汎用ソリューション検索エンジン
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

AIの基盤とビジョン言語モデルの進歩や効果的なファインチューニング技術により、様々な視覚タスク向けに一般的または特定用途向けの多数のモデルが開発されています。これらのモデルは柔軟性とアクセシビリティに優れていますが、どのモデルもすべてのタスクや/または潜在的なユーザーが考える可能性のあるアプリケーションを処理することができるわけではありません。最近のアプローチでは、ビジュアルプログラミングや統合ツールを備えたマルチモーダルLLMによって、プログラム合成を通じて複雑な視覚タスクに取り組もうとしています。しかし、このようなアプローチはユーザーの制約（例：パフォーマンス/計算ニーズ）を見落とし、デプロイが難しいテスト時のサンプル固有の解決策を生成し、時には素人ユーザーの能力を超える低レベルの命令が必要とされます。これらの制約に対処するために、我々はMMFactoryを導入します。これは、モデルとメトリクスのルーティングコンポーネントを含む汎用フレームワークであり、さまざまな利用可能なモデルを横断してソリューション検索エンジンのように機能します。タスクの説明と少数のサンプル入出力ペア、および（オプションで）リソースおよび/またはパフォーマンスの制約に基づいて、MMFactoryは、モデルリポジトリからの視覚言語ツールをインスタンス化および組み合わせることで、プログラムソリューションの多様なプールを提案することができます。これらのソリューションを合成するだけでなく、MMFactoryはパフォーマンス/リソース特性を評価し、ユーザーが独自の設計制約を満たすソリューションを選択できるようにします。技術的な観点から、ユーザー向けに実行可能で多様で普遍的かつ堅牢なソリューションを生成するために、マルチエージェントLLM会話を活用する委員会ベースのソリューション提案者を導入しました。実験結果は、MMFactoryが、ユーザーの問題仕様に合わせた最先端のソリューションを提供することで、既存の手法を上回ることを示しています。プロジェクトページはhttps://davidhalladay.github.io/mmfactory_demoでご覧いただけます。

モラール：協調フィルタリングアライメントを備えたマルチモーダルLLMによる強化されたシーケンシャル推薦
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang

過去10年間で、連続推薦（SR）システムは大きく進化し、従来の協調フィルタリングから深層学習アプローチ、そしてさらに最近では大規模言語モデル（LLM）へと移行してきました。LLMの採用により大きな進歩がもたらされましたが、これらのモデルには協調フィルタリング情報が不足しており、主にテキストコンテンツデータに依存して他のモダリティを無視し、したがって最適な推薦パフォーマンスを達成できていません。この制限に対処するために、私たちはMolarという、複数のコンテンツモダリティをID情報と統合し、協調信号を効果的に捉える大規模言語連続推薦フレームワークを提案します。Molarは、テキストと非テキストデータの両方から統一されたアイテム表現を生成するためにMLLMを使用し、包括的なマルチモーダルモデリングを促進し、アイテムの埋め込みを豊かにします。さらに、コンテンツベースとIDベースのモデルからユーザー表現を整列させるポストアライメントメカニズムを介して協調フィルタリング信号を組み込み、正確な個別化と堅牢なパフォーマンスを確保します。マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザーの興味と文脈的意味を両方捉え、優れた推薦精度を実現します。包括的な実験により、Molarが従来のベースラインやLLMベースのモデルを大幅に上回ることが検証され、マルチモーダルデータと協調信号を連続推薦タスクに活用する強みが示されました。ソースコードはhttps://anonymous.4open.science/r/Molar-8B06/で入手可能です。

MMFactory: ビジョン-言語タスクのための汎用ソリューション検索エンジン
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal