AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

RedPajama: 大規模言語モデルのトレーニングのためのオープンデータセット
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

大規模言語モデルは、人工知能、科学、そして社会全体においてますます中核技術となっていますが、データセットの構成とフィルタリングの最適戦略は依然としてほとんど解明されていません。多くのトップパフォーマンスを発揮するモデルは、データセットのキュレーションやモデル開発プロセスにおいて透明性を欠いており、完全にオープンな言語モデルの開発に障害をもたらしています。本論文では、オープンソースの言語モデルを進展させるために取り組むべき3つの中核的なデータ関連課題を特定します。それらは、(1) モデル開発における透明性、データキュレーションプロセスを含むこと、(2) 大量の高品質データへのアクセス、および(3) データセットのキュレーションと分析のためのアーティファクトとメタデータの入手可能性です。これらの課題に対処するために、私たちはLLaMAトレーニングデータセットのオープン再現であるRedPajama-V1を公開します。さらに、生のフィルタリングされていないテキストデータと品質信号、メタデータから成る巨大なウェブ専用データセットであるRedPajama-V2を公開します。RedPajamaデータセットは、複数のドメインにまたがる100兆トークン以上を含み、その品質信号によりデータのフィルタリングを容易にし、多くの新しいデータセットの開発を促進することを目指しています。これらのデータセットは既に、本番で使用されている強力な言語モデルのトレーニングに使用されており、例えばSnowflake Arctic、SalesforceのXGen、AI2のOLMoなどがあります。RedPajamaの品質に関する洞察を提供するために、最大1.6Bのパラメータを持つデコーダーのみの言語モデルを用いた一連の分析と除去研究を提示します。私たちの調査結果は、ウェブデータの品質信号を効果的に活用してデータの高品質なサブセットをキュレーションする方法を示し、RedPajamaが透明性と高性能を備えた大規模言語モデルの開発を進展させる潜在能力を強調しています。

FlipSketch: 静的な図面をテキストによって誘導されたスケッチアニメーションに変換する
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

スケッチアニメーションは、シンプルなフリップブックの落書きからプロのスタジオ制作まで、視覚的なストーリーテリングに強力なメディアを提供します。従来のアニメーションでは、熟練したアーティストチームがキーフレームや中間フレームを描く必要がありましたが、既存の自動化手法は依然として正確なモーションパスやキーフレームの指定を通じてかなりの芸術的努力を要求します。私たちはFlipSketchを提案します。このシステムは、フリップブックアニメーションの魔法を取り戻します。アイデアを描き、どのように動かしたいかを説明するだけです。私たちのアプローチは、テキストからビデオへの拡散モデルからのモーション事前情報を活用し、スケッチアニメーションを生成するための3つの主要な革新を通じてそれらを適応させます：(i)スケッチスタイルのフレーム生成のための微調整、(ii)入力スケッチの視覚的整合性をノイズの微調整を通じて保持するリファレンスフレームメカニズム、および(iii)視覚的一貫性を失うことなく流動的な動きを可能にするデュアルアテンション構成。制約のあるベクトルアニメーションとは異なり、私たちのラスターフレームはダイナミックなスケッチ変換をサポートし、従来のアニメーションの表現の自由を捉えます。その結果、スケッチアニメーションを簡単な落書きと説明にする直感的なシステムが生まれますが、手描きアニメーションの芸術的本質を維持します。

SymDPO: 大規模マルチモーダルモデルのインコンテキスト学習を記号デモンストレーションによる直接選好最適化で強化
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

言語モデルのスケーリングが進むにつれ、大規模言語モデル（LLM）はインコンテキスト学習（ICL）において新たな能力を発現し、少数のインコンテキストデモンストレーション（ICD）を文脈として付与するだけで言語タスクを解決できるようになった。この進展に触発され、研究者らはこれらの技術を拡張し、ICL能力を備えた大規模マルチモーダルモデル（LMM）の開発を進めてきた。しかし、既存のLMMには重大な課題がある：マルチモーダルなデモンストレーションにおける視覚的文脈を効果的に活用できず、単にテキストのパターンを追従する傾向が見られる。これは、LMMがマルチモーダルなデモンストレーションとモデル出力の間で効果的な整合を達成できていないことを示唆する。この問題を解決するため、我々は記号デモンストレーション直接選好最適化（SymDPO）を提案する。具体的には、SymDPOは従来のマルチモーダルデモンストレーション構築のパラダイムを打破し、インスタンス内のテキスト回答を無作為な記号で置き換えることを目的とする。これによりモデルはデモンストレーション画像を注意深く理解し、画像と記号の関係性を確立することで正しく質問に回答することを強制される。我々は複数のベンチマークで本手法の有効性を検証し、SymDPOによってLMMが事例内のマルチモーダル文脈をより効果的に理解し、この知識を活用して質問に回答できることを実証した。

自己回帰画像生成のための連続的仮説解読
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

連続値オートレグレッシブ（AR）画像生成モデルは、離散トークンの対応物よりも著しい優越性を示し、著しい再構築品質と高い生成忠実度を披露しています。ただし、オートレグレッシブフレームワークの計算要件は、著しい推論オーバーヘッドをもたらします。仮説的デコーディングは、大規模言語モデル（LLM）の加速に効果的であることが証明されていますが、これを連続値ビジュアルオートレグレッシブモデルに適応する試みは未踏の領域です。本研究では、ディフュージョン分布に特有の出力分布の固有の特性を分析し、そのようなモデルに広く存在する拡散分布に適した受容基準を確立します。仮説的デコーディング出力分布に生じる不一致を克服するために、ノイズ除去軌道整列およびトークン事前補充手法を導入します。さらに、拒否段階で発生したサンプリング困難な分布を特定します。この問題を緩和するために、適切な上限を持つ入念な受容-拒否サンプリング手法を提案し、複雑な積分を回避します。実験結果は、当社の連続的仮説的デコーディングが、市販モデルで出色の2.33倍の高速化を達成し、出力分布を維持していることを示しています。コードはhttps://github.com/MarkXCloud/CSpD で入手可能です。

ITACLIP：画像、テキスト、およびアーキテクチャの強化によるトレーニングフリーの意味的セグメンテーションの向上
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

最近の基盤となるビジョン言語モデル（VLMs）の進歩は、コンピュータビジョンタスクにおける評価パラダイムを変革しました。特にCLIPなどの基盤モデルは、Open-Vocabulary Semantic Segmentation（OVSS）を含むオープンボキャブラリーのコンピュータビジョンタスクの研究を加速させました。初期の結果は有望ですが、VLMsの密な予測能力はさらなる改善が必要です。本研究では、新しいモジュールと修正を導入することで、CLIPの意味セグメンテーションのパフォーマンスを向上させます： 1）ViTの最終層でのアーキテクチャの変更と、中間層からのアテンションマップを最終層と組み合わせること、2）画像エンジニアリング：入力画像表現を豊かにするためのデータ拡張の適用、および3）各クラス名の定義と同義語を生成するためにLarge Language Models（LLMs）を使用し、CLIPのオープンボキャブラリーの能力を活用します。当社のトレーニングフリーメソッド、ITACLIPは、COCO-Stuff、COCO-Object、Pascal Context、Pascal VOCなどのセグメンテーションベンチマークで現行の最先端手法を上回ります。当社のコードはhttps://github.com/m-arda-aydn/ITACLIPで入手可能です。

信頼構築：AIにおけるセキュリティ、安全性、透明性の基盤
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

本論文では、急速に進化する公開AIモデルのエコシステムと、セキュリティおよび安全性の景観への潜在的な影響について探究します。AIモデルがますます普及する中、その潜在的なリスクや脆弱性を理解することが重要です。現在のセキュリティおよび安全性のシナリオを検討し、トラッキングの問題、是正、AIモデルのライフサイクルや所有権プロセスの明白な不在などの課題を強調します。モデル開発者とエンドユーザーの両方のセキュリティと安全性を向上させる包括的な戦略が提案されています。本論文は、AIモデルの開発と運用、およびそれを取り巻く大規模なオープンエコシステムとコミュニティにおけるより標準化されたセキュリティ、安全性、透明性の基盤となるいくつかの要素を提供することを目的としています。

ソフトロボットによるダイナミックな手の中でのペン回し
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

ソフトロボットシステムにおいて、安全で適応性の高い相互作用に優れる一方で高速な動的タスクに苦労する、手の中での動的な操作は依然として難しい課題です。本研究では、ソフトで適応性のあるロボットハンドを用いて動的なタスクを学習するためのシステムであるSWIFTを提案します。従来のシミュレーションや準静的なアクション、正確な物体モデルに依存する従来の研究とは異なり、提案されたシステムは、ペンを回転させることを試行錯誤することで、ペンの物理的属性の明示的な事前知識を必要とせずに、実世界のデータのみを用いて学習します。実世界からサンプリングされた自己ラベル付けされたトライアルにより、システムは、ソフトハンドがペンを堅牢かつ信頼性を持って回転させるためのペンの把持と回転の基本パラメータのセットを発見します。オブジェクトごとに130回のサンプリングされたアクションの後、SWIFTは、異なる重さと重量分布を持つ3本のペンに対して100%の成功率を達成し、システムのオブジェクトの特性の変化に対する汎用性と頑健性を示しています。その結果、ソフトロボットのエンドエフェクタが迅速な手の中での操作を含む動的なタスクを遂行する潜在能力が示されています。また、SWIFTが、ブラシやドライバーなどの異なる形状と重さのアイテムを回転させることにも汎用化され、それぞれ10/10と5/10の成功率で回転させることを示しています。ビデオ、データ、コードはhttps://soft-spin.github.io で入手可能です。

SEAGULL: 関心領域に対する非参照画像品質評価におけるビジョン言語指示チューニング
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

既存の画像品質評価（IQA）手法は、全体的な画像の品質を分析するのに顕著な成功を収めていますが、わずかな研究が興味領域（ROIs）の品質分析を探求しています。ROIsの品質分析は、画像品質の向上のための細かい指針を提供し、領域レベルの品質に焦点を当てたシナリオにおいて重要です。本論文では、SEAGULLという新しいネットワークを提案します。このネットワークは、大規模なビジョン・ランゲージモデルからのガイダンスを受けて、ROIsの品質を見て評価できます。SEAGULLは、ビジョン・ランゲージモデル（VLM）、ROIsを指定するために生成されたセグメント・アニシング・モデル（SAM）によるマスク、そして指定されたROIsのための丹念に設計されたマスクベースの特徴抽出器（MFE）を組み込んでおり、指定されたROIsのためのグローバルおよびローカルトークンを抽出することで、ROIsの正確な細かい品質評価を可能にしています。さらに、本論文では、2つのROIベースのIQAデータセット、SEAGULL-100wとSEAGULL-3kを構築しています。SEAGULL-100wには、約100wの合成歪み画像が含まれており、3300万のROIsが含まれています。これは、モデルの領域ごとの品質認識能力を向上させるための事前トレーニングに使用されます。一方、SEAGULL-3kには、約3kの本物の歪みROIsが含まれており、モデルが実世界の歪みを認識する能力を向上させます。SEAGULL-100wでの事前トレーニングとSEAGULL-3kでの微調整の後、SEAGULLは、細かいROIs品質評価で顕著なパフォーマンスを示します。コードとデータセットは、https://github.com/chencn2020/Seagull で公開されています。

大規模言語モデルのトークナイザー性能を評価する公式インド言語間
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

Transformerアーキテクチャに基づく大規模言語モデル（LLMs）は、トークナイゼーションが前処理および微調整段階で中心的な役割を果たすことで、さまざまな領域を革新しました。特にインド諸言語向けに調整された多言語モデルでは、効果的なトークナイゼーションがパフォーマンスを最適化する上で重要です。本論文では、インドの22の公用語全てにわたる12つのLLMsで使用されるトークナイザーの包括的な評価を行い、そのトークナイゼーションプロセスの効率性を比較することに焦点を当てています。分析において、正規化されたシーケンス長（NSL）を主要な指標として採用しました。研究結果によると、SUTRAトークナイザーが、14の言語を含む複数のインド諸言語において、他のモデルを凌駕していることが明らかになりました。注目すべき洞察には、SUTRAトークナイザーがインド諸言語を優れた方法で処理する点、GPT-4oが前身であるGPT-4よりもインドの言語を処理する面で進化している点、およびProject Indusが特定の言語において限られたパフォーマンスを示す点が含まれます。この研究は、多言語およびインド中心のモデル向けにターゲットを絞ったトークナイゼーション戦略を開発することの重要性を強調し、トークナイザー設計の将来の改善を促して、言語カバレッジとモデルの効率性を向上させる基盤を築いています。