翻訳付きの日次キュレーションされたAI研究論文
コード用大規模言語モデル(LLMs)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で不可欠な存在となっている。オープンアクセスのコードLLMsは、プロプライエタリモデルの性能レベルにますます近づきつつあるが、厳密な科学的調査に適した高品質なコードLLMs、特に再現可能なデータ処理パイプラインと透明性のあるトレーニングプロトコルを備えたものは、依然として限られている。この不足は、リソースの制約、倫理的考慮事項、モデルの先進性を維持するための競争上の優位性など、さまざまな課題に起因している。このギャップを埋めるため、我々はOpenCoderを紹介する。これは、主要なモデルに匹敵する性能を達成するだけでなく、研究コミュニティにとっての「オープンなクックブック」としても機能するトップクラスのコードLLMである。これまでのほとんどの取り組みとは異なり、我々はモデルの重みと推論コードだけでなく、再現可能なトレーニングデータ、完全なデータ処理パイプライン、厳密な実験的アブレーション結果、そしてオープンな科学研究のための詳細なトレーニングプロトコルも公開する。この包括的な公開を通じて、トップクラスのコードLLMを構築するための重要な要素を特定した:(1)コード最適化されたヒューリスティックルールによるデータクリーニングとデータ重複排除の方法、(2)コードに関連するテキストコーパスのリコール、(3)アニーリング段階と教師あり微調整段階の両方における高品質な合成データ。このレベルのオープン性を提供することで、我々はトップクラスのコードLLMのすべての側面へのアクセスを広げ、OpenCoderが強力なモデルとしてだけでなく、研究を加速し、コードAIにおける再現可能な進歩を可能にするオープンな基盤としても機能することを目指している。
1ビット大規模言語モデル(LLMs)に関する最近の研究、例えばBitNet b1.58は、LLMsの推論コストを削減しつつ性能を維持する有望な方向性を示している。本研究では、1ビットLLMsに対して4ビット活性化を可能にするBitNet a4.8を提案する。BitNet a4.8は、外れ値チャネルによって導入される量子化誤差を軽減するために、ハイブリッド量子化とスパース化戦略を採用している。具体的には、注意層とフィードフォワードネットワーク層への入力に対して4ビット活性化を利用し、中間状態をスパース化した後に8ビット量子化を行う。大規模な実験により、BitNet a4.8は同等の学習コストでBitNet b1.58と同等の性能を達成しつつ、4ビット(INT4/FP4)カーネルを有効化することで推論速度が向上することが示された。さらに、BitNet a4.8はパラメータの55%のみを活性化し、3ビットKVキャッシュをサポートすることで、大規模LLMの展開と推論の効率をさらに向上させている。
本論文では、単一の画像とビデオ拡散からフォトリアルな3Dおよび4Dシーンを生成するためのフレームワークであるDimensionXを紹介する。我々のアプローチは、3Dシーンの空間構造と4Dシーンの時間的進化の両方が、ビデオフレームのシーケンスを通じて効果的に表現できるという洞察から始まる。最近のビデオ拡散モデルは鮮やかなビジュアルを生成する点で顕著な成功を収めているが、生成中の空間的および時間的制御性の限界から、直接的に3D/4Dシーンを復元するには課題がある。これを克服するため、我々はST-Directorを提案し、次元変動データから次元認識型LoRAを学習することで、ビデオ拡散における空間的および時間的要因を分離する。この制御可能なビデオ拡散アプローチにより、空間構造と時間的ダイナミクスを精密に操作し、空間的および時間的次元の組み合わせを通じてシーケンシャルフレームから3Dおよび4D表現を再構築することが可能となる。さらに、生成されたビデオと現実世界のシーンの間のギャップを埋めるため、3D生成のための軌跡認識メカニズムと、4D生成のための同一性保持型ノイズ除去戦略を導入する。様々な現実世界および合成データセットを用いた広範な実験により、DimensionXが従来の手法と比較して、制御可能なビデオ生成および3D/4Dシーン生成において優れた結果を達成することが示された。
大規模言語モデル(LLMs)の開発は、テキスト、画像、音声を統一的に処理可能なマルチモーダルシステムへと拡大している。これらのモデルの訓練は、テキストのみのLLMsと比較して、はるかに大規模なデータセットと計算リソースを必要とする。スケーリングの課題に対処するため、本研究ではMixture-of-Transformers(MoT)を提案する。MoTは、事前訓練の計算コストを大幅に削減するスパースなマルチモーダルトランスフォーマーアーキテクチャである。MoTは、フィードフォワードネットワーク、アテンションマトリックス、レイヤー正規化を含むモデルの非埋め込みパラメータをモダリティごとに分離し、全入力シーケンスに対するグローバルなセルフアテンションを可能にする。MoTは、複数の設定とモデルスケールで評価された。Chameleon 7B設定(自己回帰的なテキストと画像生成)では、MoTはFLOPsの55.8%のみを使用して、密なベースラインの性能に匹敵する。音声を含むように拡張すると、MoTはFLOPsの37.2%のみで、密なベースラインに匹敵する音声性能を達成する。Transfusion設定では、テキストと画像が異なる目的で訓練されるが、7BのMoTモデルはFLOPsの3分の1で密なベースラインの画像モダリティ性能に匹敵し、760MのMoTモデルは主要な画像生成指標において1.4Bの密なベースラインを上回る。システムプロファイリングはさらに、MoTの実用的な利点を強調し、密なベースラインの画像品質を47.2%の壁時間で、テキスト品質を75.6%の壁時間で達成する(AWS p4de.24xlargeインスタンスとNVIDIA A100 GPUで測定)。
文書からの質問に答えるドキュメント視覚質問応答(DocVQA)パイプラインは、幅広い応用が可能である。既存の手法は、マルチモーダル言語モデル(MLM)を用いて単一ページの文書を処理することに焦点を当てるか、光学文字認識(OCR)などのテキスト抽出ツールを使用したテキストベースの検索拡張生成(RAG)に依存している。しかし、これらの手法を現実世界のシナリオに適用するには困難が伴う:(a)質問はしばしば異なるページや文書にまたがる情報を必要とし、MLMは多くの長文書を処理できない;(b)文書には図表などの視覚要素に重要な情報が含まれることが多いが、テキスト抽出ツールはそれらを無視する。我々は、M3DocRAGという新しいマルチモーダルRAGフレームワークを導入する。このフレームワークは、様々な文書コンテキスト(クローズドドメインとオープンドメイン)、質問のホップ数(シングルホップとマルチホップ)、および証拠のモダリティ(テキスト、チャート、図表など)を柔軟に扱うことができる。M3DocRAGは、マルチモーダル検索器とMLMを使用して関連文書を見つけ、質問に答えることで、視覚情報を保持しながら単一または多数の文書を効率的に処理できる。従来のDocVQAデータセットは特定の文書のコンテキストで質問を行うため、我々はまた、3,000以上のPDF文書と40,000以上のページにわたるオープンドメインDocVQAを評価するための新しいベンチマークであるM3DocVQAを提示する。3つのベンチマーク(M3DocVQA/MMLongBench-Doc/MP-DocVQA)において、ColPaliとQwen2-VL 7Bを使用したM3DocRAGは、多くの強力なベースラインを上回る優れた性能を発揮し、MP-DocVQAでは最先端の性能を達成した。我々は、異なるインデックス作成、MLM、および検索モデルの包括的な分析を提供する。最後に、M3DocRAGが複数のページにまたがる関連情報や、画像にのみ存在する回答証拠など、様々なシナリオを成功裏に処理できることを定性的に示す。
ビデオとテキストの細粒度なアラインメントは、ビデオ内の複雑な空間的および時間的ダイナミクスにより困難である。既存のビデオベースの大規模マルチモーダルモデル(LMM)は基本的な会話を処理できるが、ビデオ内の正確なピクセルレベルのグラウンディングには苦戦している。この問題に対処するため、ユーザー提供のテキスト入力に基づいてビデオ内の細粒度なピクセルレベルのグラウンディングを可能にするVideoGLaMMを提案する。我々の設計は、大規模言語モデル、空間的および時間的詳細を強調するデュアルビジョンエンコーダ、正確なマスク生成のための時空間デコーダという3つの主要コンポーネントをシームレスに接続する。この接続は、密接なビジョンと言語(VL)のアラインメントを可能にする調整可能なV-LおよびL-Vアダプターによって促進される。このアーキテクチャは、ビデオコンテンツの空間的および時間的要素をテキスト指示と同期させるように訓練されている。細粒度なグラウンディングを可能にするため、半自動アノテーションパイプラインを使用して詳細な視覚的グラウンディング会話を特徴とするマルチモーダルデータセットをキュレーションし、38kのビデオ-QAトリプレット、83kのオブジェクト、および671kのマスクを含む多様なセットを作成した。VideoGLaMMを、グラウンディング会話生成、視覚的グラウンディング、および参照ビデオセグメンテーションという3つの挑戦的なタスクで評価した。実験結果は、我々のモデルがこれら3つのタスクすべてにおいて既存のアプローチを一貫して上回ることを示している。
視覚と言語タスクのためのTransformerベースモデル、例えばLLaVAやChameleonの導入により、画像の離散的なトークン化表現に対する新たな関心が高まっている。これらのモデルは、画像パッチを自然言語における単語と同様に離散的なトークンとして扱い、視覚と言語の間の共同アラインメントを学習する。しかし、これらの視覚言語の統計的振る舞いについてはほとんど知られていない。具体的には、それらが自然言語と同様の頻度分布、文法構造、またはトポロジーに従うかどうかは不明である。本論文では、自然言語中心のアプローチを採用して離散的な視覚言語を分析し、驚くべき類似点と根本的な差異を明らかにする。視覚言語がZipf分布に従う一方で、より高いトークン革新がエントロピーの増大と圧縮率の低下を引き起こし、トークンが主に物体の部分を表す中間的な粒度を示すことを実証する。また、視覚言語には結束性のある文法構造が欠如しており、自然言語と比較して高いパープレキシティと弱い階層的組織化をもたらすことを示す。最後に、視覚モデルが他のモデルよりも自然言語に近いアラインメントを示すものの、そのアラインメントは自然言語内に見られる結束性に比べて依然として著しく弱いことを実証する。これらの実験を通じて、離散的な視覚言語の統計的特性を理解することが、より効果的なコンピュータビジョンモデルの設計にどのように役立つかを示す。
対話者との社会的絆を強化するため、人間は自然と、どの会話スキルがその状況に最も適しているかを考慮し、適切に応答する能力を獲得します。このプロセスを我々は「スキル・オブ・マインド」と呼びます。大規模言語モデル(LLM)ベースの対話エージェントにとって、人間のように適切な会話スキルを計画することは、特にインタラクティブなシナリオにおける社会対話の複雑さから、困難です。これを解決するため、我々は「多面的スキル・オブ・マインド」という、多面的かつ多ターンの会話スキルを様々なインタラクティブシナリオ(例:長期的、カウンセリング、タスク指向)に基づいて注釈付きで収録した会話データセットを提案します。このデータセットは、多様な社会的文脈(例:人口統計、ペルソナ、経験則)に基づいており、約10万の会話で構成されています。このデータセットを用いて、我々は1B、3B、8Bパラメータのモデルサイズを持つ「Thanos」という新たなスキル・オブ・マインドを組み込んだLLMファミリーを導入します。広範な実験を通じて、これらのモデルはスキル・オブ・マインドのプロセスを成功裏に示し、様々な領域にわたる多面的スキルの推論において強い汎化性能を発揮します。さらに、ThanosはLLMベースの対話エージェントが生成する応答の品質を大幅に向上させ、人間評価においてもプロソーシャル行動を促進することを示します。
拡散モデルは、高品質な画像生成において非常に効果的であることが証明されています。しかし、これらのモデルが大きくなるにつれ、メモリ使用量が大幅に増加し、レイテンシも高くなるため、デプロイメントにおいて大きな課題となっています。本研究では、拡散モデルの重みと活性化を4ビットに量子化することで高速化を目指します。このような積極的な量子化レベルでは、重みと活性化の両方が非常に敏感であり、大規模言語モデルにおける従来のポストトレーニング量子化手法(例えばスムージング)では不十分です。この制限を克服するため、我々はSVDQuantという新しい4ビット量子化パラダイムを提案します。スムージングが重みと活性化の間で外れ値を再分配するのとは異なり、我々のアプローチでは低ランク分岐を用いてこれらの外れ値を吸収します。まず、活性化から重みへ外れ値をシフトすることで外れ値を統合し、その後、特異値分解(SVD)を用いて高精度の低ランク分岐で重みの外れ値を取り込みます。このプロセスにより、両側の量子化が容易になります。しかし、低ランク分岐を独立して実行すると、活性化の追加データ移動により大きなオーバーヘッドが発生し、量子化による高速化が相殺されます。この問題に対処するため、我々は低ランク分岐のカーネルを低ビット分岐のカーネルに融合させ、冗長なメモリアクセスを削減する推論エンジンNunchakuを共同設計しました。これにより、再量子化を必要とせずに既存の低ランクアダプター(LoRA)をシームレスにサポートすることも可能です。SDXL、PixArt-Sigma、FLUX.1における広範な実験により、SVDQuantが画像品質を維持する効果を検証しました。12B FLUX.1モデルのメモリ使用量を3.5倍削減し、16GBラップトップの4090 GPU上で4ビット重みのみの量子化ベースラインに対して3.0倍の高速化を達成し、PC上でのよりインタラクティブなアプリケーションの道を開きました。我々の量子化ライブラリと推論エンジンはオープンソースとして公開されています。
大規模言語モデル(LLMs)のコンテキスト制限が拡大するにつれ、可能な応用範囲や下流タスクの幅も広がっている。多くの現実世界のタスクでは、意思決定はしばしば無関係な情報が大半を占める異種の文書群に散在する詳細に依存している。長文コンテキストを扱えるLLMsは、従来コストと時間がかかるとされてきたこの種の複雑な情報検索と推論に適しているように見える。しかし、近年の長文コンテキストモデルの開発は急速に進展しているものの、LLMsがそのコンテキストをどの程度効果的に利用しているかについての理解は追いついていない。この問題に対処するため、我々は17の主要なLLMsの能力を評価するための一連の検索実験を実施し、特にコンテキストウィンドウを通じて情報のスレッドを追跡する能力に焦点を当てた。驚くべきことに、多くのモデルが「スレッドセーフ」であることが判明した。つまり、複数のスレッドを同時に追跡しても性能が著しく低下しないという特性を示した。しかし、多くのモデルにおいて、有効なコンテキスト制限はサポートされているコンテキスト長よりも大幅に短く、コンテキストウィンドウが大きくなるにつれて精度が低下する傾向が見られた。また、本研究は、異なるトークナイザーからのトークン数を直接比較すべきではないという重要な点を強調している。それらはしばしば大幅に異なる文字数に対応するためである。我々は、コードと長文コンテキスト実験データを公開する。
オープン語彙モバイルマニピュレーションにおいて、ロボットが自然言語の記述に基づいて任意の環境でタスクを実行することを目指す研究が大きく進展している。しかし、現在のほとんどのシステムは静的な環境を前提としており、人間の介入やロボット自身の動作によって環境が頻繁に変化する現実世界のシナリオでの適用性が制限されている。本研究では、動的時空間意味メモリを使用してロボットの環境を表現する、オープンワールドモバイルマニピュレーションの新しいアプローチであるDynaMemを提案する。DynaMemは、ポイントクラウドの動的メモリを維持するための3Dデータ構造を構築し、マルチモーダルLLMや最先端の視覚言語モデルによって生成されたオープン語彙特徴を使用して、オープン語彙オブジェクト位置特定クエリに応答する。DynaMemを活用することで、ロボットは新しい環境を探索し、メモリ内に見つからないオブジェクトを検索し、シーン内でオブジェクトが移動、出現、または消失する際にメモリを継続的に更新することができる。Stretch SE3ロボットを使用して、3つの実環境と9つのオフラインシーンで広範な実験を行い、非静止オブジェクトに対する平均ピックアンドドロップ成功率70%を達成した。これは、最先端の静的システムと比較して2倍以上の改善である。私たちのコードおよび実験と展開のビデオはオープンソース化されており、プロジェクトウェブサイト(https://dynamem.github.io/)で確認できる。
コードミキシングは、複数の言語からの語彙的および文法的要素を一つの文に統合する言語現象であり、特に多言語社会で広く見られる。インドでは、ソーシャルメディアのユーザーがローマ字を用いたコードミキシング会話を頻繁に行っており、特に移住者コミュニティがオンライングループを形成して関連する地域情報を共有する場面で顕著である。本論文は、ローマ字転写されたベンガル語と英語が混在したコードミキシング会話から関連情報を抽出する際の課題に焦点を当てる。この課題に対処するため、コードミキシング会話から最も関連性の高い回答を自動的に識別するメカニズムを開発する新たなアプローチを提案する。我々は、Facebookからのクエリとドキュメント、およびクエリ関連性ファイル(QRels)を含むデータセットを用いて実験を行った。その結果、複雑なコードミキシングデジタル会話から適切な情報を抽出する本アプローチの有効性が示され、多言語および非公式テキスト環境における自然言語処理の分野に貢献するものである。我々は、GPT-3.5 Turboをプロンプティングに使用し、関連ドキュメントの連続性を利用して、クエリに対応する関連ドキュメントを検出する数学モデルを構築した。
既存の基盤モデル評価のためのベンチマークは、主に単一ドキュメントのテキストのみのタスクに焦点を当てている。しかし、これらのベンチマークは、非テキストデータの解釈や複数のドキュメントにわたる情報収集を含む研究ワークフローの複雑さを十分に捉えられないことが多い。このギャップを埋めるため、我々はM3SciQAを導入する。これは、基盤モデルのより包括的な評価を目的とした、マルチモーダルかつマルチドキュメントの科学的質問応答ベンチマークである。M3SciQAは、70の自然言語処理論文クラスターにわたる1,452の専門家による注釈付き質問で構成されており、各クラスターは主要論文とその引用文献を表し、マルチモーダルおよびマルチドキュメントデータを必要とする単一論文の理解ワークフローを反映している。M3SciQAを用いて、18の基盤モデルを包括的に評価した。その結果、現在の基盤モデルは、マルチモーダル情報検索や複数の科学ドキュメントにわたる推論において、人間の専門家と比較して依然として大幅に性能が劣ることが示された。さらに、これらの発見が、マルチモーダル科学文献分析における基盤モデルの将来の進展に与える影響についても探求した。
本論文では、ユーザーの視線が示す位置に基づいて視覚コンテンツ(画像や動画)を生成するユーザーインタラクションシステム「GazeGen」を提案する。GazeGenは、視線を用いて関心領域をターゲットとすることで、視覚コンテンツの直感的な操作を可能にする。物体検出と生成AIの先進的な技術を活用し、GazeGenは視線制御による画像の追加・削除、再配置、画像オブジェクトの表面材質変更、および静止画から動画への変換を実行する。GazeGenの中核となるのは、DFT Gaze(Distilled and Fine-Tuned Gaze)エージェントであり、わずか281Kのパラメータを持つ超軽量モデルで、小型エッジデバイス上で個々のユーザーの目に特化した正確なリアルタイム視線予測を行う。GazeGenは、リアルタイム視線推定と視覚コンテンツ生成を初めて組み合わせたシステムであり、これはDFT Gazeによってのみ実現可能である。このリアルタイム視線推定により、ユーザーの視線によって制御される多様な視覚コンテンツ生成タスクが可能となる。DFT Gazeへの入力はユーザーの目の画像であり、視覚コンテンツ生成への入力はユーザーの視野とDFT Gazeから予測された視線点である。効率的な視線予測を実現するため、我々は大規模モデル(10倍のサイズ)から新たな知識蒸留と個人適応技術を介して小型モデルを導出した。知識蒸留をマスクドオートエンコーダと統合し、コンパクトでありながら強力な視線推定モデルを開発した。このモデルはさらにアダプターを用いて微調整され、最小限のユーザー入力で高精度かつパーソナライズされた視線予測を可能にする。DFT Gazeは低遅延かつ正確な視線追跡を保証し、幅広い視線駆動タスクをサポートする。我々は、AEAおよびOpenEDS2020ベンチマークにおいてDFT Gazeの性能を検証し、エッジデバイス(Raspberry Pi 4)上での低角度視線誤差と低遅延を実証した。さらに、GazeGenの応用例を説明し、様々な使用シナリオにおけるその汎用性と有効性を示す。
画像から動画を生成する手法は、写真のようにリアルな品質を実現しています。しかし、生成された動画内の特定の要素、例えば物体の動きやカメラの動きを調整することは、試行錯誤を繰り返す面倒なプロセスであることが多く、異なるランダムシードで動画を再生成するなどの作業が必要です。最近の技術では、事前学習済みモデルを微調整して、バウンディングボックスや点の軌跡などの条件付け信号に従わせることでこの問題に対処しています。しかし、この微調整プロセスは計算コストが高く、物体の動きに注釈が付いたデータセットが必要であり、そのようなデータセットを入手するのは困難な場合があります。本研究では、SG-I2Vという制御可能な画像から動画を生成するフレームワークを提案します。このフレームワークは自己誘導型であり、事前学習済みの画像から動画を生成する拡散モデルに含まれる知識のみに依存して、微調整や外部の知識を必要とせずにゼロショット制御を提供します。私たちのゼロショット手法は、教師なしベースラインを上回り、視覚品質と動きの忠実度において教師ありモデルと競合する性能を示します。
高忠実度な画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有望な結果を示しています。しかし、既存の研究の多くは、拡散モデルを認識タスクのための独立したコンポーネントとして扱い、それらを単に既製のデータ拡張ツールとして使用するか、あるいは単なる特徴抽出器として使用しています。これらの孤立した、したがって最適とは言えない取り組みとは対照的に、我々は、拡散-ノイズ除去プロセスを独自に活用することで、多モーダルデータ生成と密な視覚認識の両方を同時に扱える統一された汎用的な拡散ベースのフレームワーク、Diff-2-in-1を提案します。このフレームワーク内で、我々はさらに、ノイズ除去ネットワークを利用して、元のトレーニングセットの分布を反映する多モーダルデータを作成することで、識別的視覚認識を強化します。重要なことに、Diff-2-in-1は、新たな自己改善学習メカニズムを活用することで、作成された多様で忠実なデータの利用を最適化します。包括的な実験的評価により、我々のフレームワークの有効性が検証され、様々な識別的バックボーンにわたる一貫した性能向上と、現実性と有用性を兼ね備えた高品質な多モーダルデータ生成が示されています。