翻訳付きの日次キュレーションされたAI研究論文
従来のOCRシステム(OCR-1.0)は、人工光学文字の知的処理の需要が高まる中、人々の利用ニーズにますます対応できなくなっています。本論文では、すべての人工光学信号(例:プレーンテキスト、数学/分子式、表、図表、楽譜、さらには幾何学的形状など)を「文字」と総称し、一般OCR理論と優れたモデルであるGOTを提案して、OCR-2.0の到来を促進します。GOTは、580Mのパラメータを持つ統一された、エレガントでエンドツーエンドのモデルであり、高圧縮エンコーダと長いコンテキストデコーダから構成されています。OCR-2.0モデルとして、GOTはさまざまなOCRタスクで上記の「文字」すべてを処理できます。入力側では、モデルはスライスおよび全ページスタイルの一般的に使用されるシーンおよびドキュメントスタイルの画像をサポートしています。出力側では、GOTは簡単なプロンプトを介してプレーンまたはフォーマット済みの結果(markdown/tikz/smiles/kern)を生成できます。さらに、モデルは、座標や色によって誘導される領域レベルの認識を備えた対話型OCR機能を享受しています。さらに、より実用的にするために、GOTに動的解像度およびマルチページOCR技術を適応しています。実験では、当社のモデルの優越性を証明する十分な結果を提供しています。
OLMoEは、スパースなエキスパートの混合(MoE)を活用した最先端の言語モデルであり、完全にオープンソースです。OLMoE-1B-7Bは70億(B)のパラメータを持ちますが、入力トークンごとに10億しか使用しません。我々は5兆トークンで事前学習し、さらにそれを活用してOLMoE-1B-7B-Instructを作成しました。当社のモデルは、同様のアクティブパラメータを持つすべての利用可能なモデルを凌駕し、Llama2-13B-ChatやDeepSeekMoE-16Bなどのより大きなモデルをも上回ります。MoEのトレーニングに関するさまざまな実験を行い、当社のモデルにおける高い特化を示すルーティングを分析し、モデルの重み、トレーニングデータ、コード、ログなど、当社の作業のすべての側面をオープンソース化しています。
私たちは、胃腸(GI)診断における高度な機械学習タスクを容易にするために、HyperKvasirおよびKvasir-Instrumentデータセットから派生した拡張データセットであるKvasir-VQAを紹介します。このデータセットには、さまざまなGIトラクトの状態や外科器具を含む6,500枚の注釈付き画像が含まれており、yes/no、選択肢、位置、数値カウントなどの複数の質問タイプをサポートしています。このデータセットは、画像キャプショニング、Visual Question Answering(VQA)、合成医用画像のテキストベース生成、物体検出、および分類などのアプリケーションを想定しています。私たちの実験は、3つの選択されたタスクのモデルトレーニングにおけるデータセットの効果を示し、医用画像解析と診断における重要な応用を示しています。また、各タスクの評価メトリクスを提示し、当該データセットの使いやすさと汎用性を強調しています。データセットと関連資料は、https://datasets.simula.no/kvasir-vqa で入手可能です。
大規模言語モデル(LLMs)は、事前学習中の有効なコンテキストウィンドウサイズの制限により、長いコンテキストタスクを処理する際に重要な課題に直面しています。これにより、LLMsの一般化能力が制限されます。一方、LLMsのコンテキストウィンドウを事前学習後に拡張することは、非常にリソースを消費します。この問題に対処するために、私たちは**LongRecipe**を導入します。これは、影響力のあるトークン分析、位置インデックス変換、およびトレーニング最適化戦略を含む、LLMsのコンテキストウィンドウを拡張するための効率的なトレーニング戦略です。これにより、トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、モデルが長距離依存関係を理解する能力が大幅に向上します。3種類のLLMsに対する実験では、LongRecipeが長いシーケンスを利用でき、対象のコンテキストウィンドウサイズの30%のみが必要であり、計算トレーニングリソースをフルシーケンストレーニングと比較して85%以上削減します。さらに、LongRecipeは一般的なタスクにおいて元のLLMの機能を維持します。最終的に、*オープンソースのLLMsの有効なコンテキストウィンドウを8kから128kに拡張し、80Gメモリを搭載した単一GPUを使用して1日だけの専用トレーニングで、GPT-4に近い性能を達成できます。* 私たちのコードは[リンク](https://github.com/zhiyuanhubj/LongRecipe)で公開されています。
静止画像における単眼深度推定の大幅な進歩があるにもかかわらず、オープンワールドにおけるビデオ深度の推定は依然として困難であり、オープンワールドのビデオはコンテンツ、動き、カメラの移動、長さが非常に多様であるためです。私たちは、カメラの位置やオプティカルフローなどの補助情報を必要とせずに、オープンワールドのビデオ向けに複雑な詳細を持つ時間的に一貫した長い深度シーケンスを生成する革新的な手法であるDepthCrafterを提案します。DepthCrafterは、コンパイルされたペアのビデオ深度データセットを用いた、緻密に設計された3段階のトレーニング戦略を通じて、事前にトレーニングされた画像からビデオへの拡散モデルからビデオから深度へのモデルをトレーニングすることで、オープンワールドのビデオに対する一般化能力を実現します。私たちのトレーニングアプローチにより、110フレームまでの可変長の深度シーケンスを一度に生成し、リアルおよび合成データセットから正確な深度の詳細と豊富なコンテンツの多様性を収集することが可能となります。また、セグメントごとの推定とシームレスなステッチングを通じて、非常に長いビデオを処理する推論戦略も提案しています。複数のデータセットでの包括的な評価により、DepthCrafterがゼロショット設定下でオープンワールドビデオ深度推定において最先端の性能を達成していることが明らかとなります。さらに、DepthCrafterは、深度に基づくビジュアルエフェクトや条件付きビデオ生成など、さまざまな下流アプリケーションを容易にします。
現代の拡散モデルは、特にTransformerベースのUNetをノイズ除去に利用するモデルは、複雑な空間関係を管理するために自己注意メカニズムに大きく依存しており、それにより印象的な生成パフォーマンスを達成しています。しかしながら、この既存のパラダイムは、空間トークンの数に対して2次の時間とメモリの複雑さを持つため、高解像度のビジュアルコンテンツの生成において重要な課題に直面しています。この制限に対処するために、本論文では新しい線形注意メカニズムを代替手段として提案します。具体的には、最近導入されたMamba、Mamba2、およびGated Linear Attentionなどの線形複雑性を持つモデルから探索を開始し、注意の正規化と非因果推論という2つの重要な特徴を特定し、高解像度のビジュアル生成パフォーマンスを向上させます。これらの知見を基に、一般化された線形注意パラダイムを導入し、広範囲の人気のある線形トークンミキサーの低ランク近似として機能します。トレーニングコストを節約し、事前学習済みモデルをより効果的に活用するために、我々はモデルを初期化し、事前学習済みのStableDiffusion(SD)からの知識を蒸留します。蒸留されたモデルであるLinFusionは、控えめなトレーニング後に元のSDと同等またはそれ以上のパフォーマンスを達成し、時間とメモリの複雑さを大幅に削減します。SD-v1.5、SD-v2.1、およびSD-XLに対する広範な実験により、LinFusionが16K解像度などの高解像度画像を生成するなど、満足のいくゼロショットのクロス解像度生成パフォーマンスを提供することが示されました。さらに、ControlNetやIP-Adapterなどの事前学習済みSDコンポーネントと非常に互換性があり、適応の努力が不要です。コードはhttps://github.com/Huage001/LinFusionで入手可能です。
この論文では、拡散ベースの整流フローTransformerを拡張した、テキストから音楽を生成するための単純な手法であるFluxMusicについて探究します。一般的に、高度なFluxモデルの設計に加えて、我々はそれをメルスペクトルの潜在VAE空間に変換します。これには、最初に独立したアテンションのシーケンスを二重のテキスト-音楽ストリームに適用し、その後、ノイズの除去されたパッチ予測のためのスタックされた単一の音楽ストリームを続けることが含まれます。我々は、キャプションの意味情報と推論の柔軟性を十分に捉えるために、複数の事前学習済みテキストエンコーダを使用します。その間、粗いテキスト情報は時間ステップ埋め込みと組み合わせて調整メカニズムで使用され、細かいテキストの詳細は音楽パッチシーケンスと入力として連結されます。詳細な研究を通じて、最適化されたアーキテクチャでの整流フロー訓練が、自動評価メトリクスや人間の選好評価によって証明されるように、テキストから音楽へのタスクにおいて確立された拡散手法を大幅に上回ることを示します。実験データ、コード、およびモデルの重みは、以下のURLから一般に公開されています:https://github.com/feizc/FluxMusic.
最近の大規模ビデオ言語モデルの進歩は、リアルタイムの計画と詳細な対話において著しい潜在能力を示しています。しかしながら、高い計算要求とアノテーション付きデータセットの不足が、これらのモデルを学術研究者にとって実用的に制限しています。本研究では、VideoLLaMBという新しいフレームワークを紹介し、ブリッジ層内で時間的メモリトークンを活用することで、ビデオシーケンス全体と歴史的視覚データのエンコーディングを可能にし、意味の連続性を保持し、様々なタスクでモデルのパフォーマンスを向上させます。この手法には、再帰メモリトークンとSceneTillingアルゴリズムが含まれており、ビデオを独立した意味的ユニットにセグメント化して意味の整合性を保持します。実証的に、VideoLLaMBは既存のビデオ言語モデルを大きく凌駕し、3つのVideoQAベンチマークで競合モデルに比べて5.5ポイントの改善を示し、エゴセントリックな計画では2.06ポイントの向上を達成します。MVBenchでの包括的な結果は、VideoLLaMB-7Bが同じLLMの以前の7Bモデルよりもはるかに優れた結果を達成していることを示しています。驚くべきことに、ビデオの長さが8倍に増加してもPLLAVAと同様に堅牢なパフォーマンスを維持します。また、専門的なNeedle in a Video Haystack(NIAVH)ベンチマークでのフレーム検索結果は、VideoLLaMBが長いビデオ内の特定のフレームを正確に特定する能力をさらに裏付けています。SceneTillingアルゴリズムは、追加のトレーニングを必要とせずにストリーミングビデオキャプションの生成を可能にしました。効率面では、16フレームでトレーニングされたVideoLLaMBは、Nvidia A100 GPU1台で最大320フレームをサポートし、GPUメモリの線形スケーリングを実現して、高いパフォーマンスとコスト効率を両立させ、学術および実用アプリケーションにおける長尺ビデオ言語モデルの新たな基盤を築きました。
私たちは、連続制御およびロボット学習タスクにおいて拡散ベースのポリシー(例:拡散ポリシー)を微調整するためのベストプラクティスを含むアルゴリズムフレームワークであるDiffusion Policy Policy Optimization(DPPO)を紹介します。これには、強化学習(RL)からのポリシーグラディエント(PG)メソッドを使用しています。PGメソッドは、他のポリシーパラメータ化を使用してRLポリシーをトレーニングする際に広く使用されていますが、拡散ベースのポリシーに対しては効率が低いと推測されていました。驚くべきことに、DPPOが、一般的なベンチマークにおいて他のRLメソッドや他のポリシーパラメータ化のPG微調整と比較して、最も強力な全体的なパフォーマンスと効率を達成することを示しています。実験的な調査により、DPPOがRL微調整と拡散パラメータ化の間の独自のシナジーを活用し、構造化されたマニフォールド上の探索、安定したトレーニング、強力なポリシーの堅牢性をもたらすことがわかりました。さらに、ピクセル観測を使用したシミュレートされたロボティックタスクや、長期間のマルチステージ操作タスクにおけるロボットハードウェア上のシミュレーショントレーニングされたポリシーのゼロショット展開を通じて、DPPOの強みを実証しています。コード付きのウェブサイト:diffusion-ppo.github.io
強力な生成モデルと大規模なインターネットデータの利用により、テキストからビデオを生成する分野で大きな進展が見られています。しかしながら、生成されたビデオ内の個々の概念、例えば特定のキャラクターの動きや外見、視点の移動などを正確に制御するという重要な課題が残っています。本研究では、各概念を3D表現で個別に生成し、それらを大規模言語モデル(LLM)と2D拡散モデルの事前知識と組み合わせる新しいパラダイムを提案しています。具体的には、入力されたテキストプロンプトに対して、以下の3段階からなる手法を提案しています。1) 複雑なクエリを複数のサブプロンプトに分解し、ビデオ内の個々の概念(例:シーン、オブジェクト、動き)を示すようにLLMを利用し、事前学習済みの専門モデルを呼び出して対応する概念の3D表現を取得します。2) これらの表現を構成するために、マルチモーダルLLMに粗いガイダンスを与え、オブジェクトの軌道のスケールと座標に関する情報を生成させます。3) 生成されたフレームが自然な画像分布に従うようにするために、2D拡散事前知識を活用し、スコア蒸留サンプリングを使用して構成を洗練させます。幅広い実験により、当手法が多様な動きと各概念に対する柔軟な制御を持つ高品質なビデオをテキストから生成できることが示されています。プロジェクトページ:https://aka.ms/c3v。
変分オートエンコーダー(VAE)は、動画を潜在表現に圧縮することで、潜在動画拡散モデル(LVDMs)の重要な前段階となります。同じ再構成品質であれば、VAEが動画のために行う圧縮がより十分であれば、LVDMsはより効率的になります。しかし、ほとんどのLVDMsは2次元画像VAEを使用し、その動画の圧縮は空間次元のみであり、時間次元はしばしば無視されています。動画のためにVAEで時間的な圧縮を行い、より簡潔な潜在表現を得る方法はほとんど探求されていません。このギャップを埋めるために、私たちは全次元圧縮VAEと名付けたOD-VAEを提案します。OD-VAEのより十分な圧縮は、動画の再構成に大きな挑戦をもたらしますが、私たちの細かい設計により高い再構成精度を実現できます。動画の再構成品質と圧縮速度のより良いトレードオフを得るために、OD-VAEの4つのバリアントを導入して分析します。さらに、OD-VAEをより効率的に訓練するための新しいテイル初期化が設計され、限られたGPUメモリで任意の長さの動画を処理できるようにするための新しい推論戦略が提案されています。動画の再構成およびLVDMに基づく動画生成に関する包括的な実験は、私たちの提案手法の有効性と効率性を実証しています。
言語モデルは、応答を生成する際に提供された情報をどのように活用するのでしょうか?特定の生成された文が実際にコンテキストに基づいているか、誤解されているか、あるいは捏造されているかを推測することは可能でしょうか?これらの問いに答えるために、コンテキストの帰属という問題を導入します。これは、モデルが特定の文を生成する際にどの部分のコンテキスト(あれば)が影響を与えたかを特定するものです。次に、ContextCiteという、どんな既存の言語モデルにも適用できるシンプルでスケーラブルなコンテキストの帰属方法を紹介します。最後に、ContextCiteの有用性を示すために、次の3つのアプリケーションを紹介します:(1)生成された文の検証の支援、(2)コンテキストの剪定による応答品質の向上、(3)毒入り攻撃の検出。ContextCiteのコードは、https://github.com/MadryLab/context-cite で提供されています。
テキストから画像への拡散モデルは、テキストのプロンプトを与えられた際に高品質な画像生成のための強力なフレームワークとして台頭しています。その成功により、本番向けの拡散モデルの急速な開発が進み、これらは一貫してサイズが拡大し、すでに数十億のパラメータを含んでいます。その結果、最先端のテキストから画像へのモデルは、特にリソースに制約のある環境では実用的には利用しにくくなっています。事後トレーニング量子化(PTQ)は、事前にトレーニングされたモデルの重みを低ビット表現に圧縮することで、この問題に取り組んでいます。最近の拡散量子化技術は主に一様スカラー量子化に依存しており、4ビットに圧縮されたモデルに対してまずまずの性能を提供しています。この研究は、より多目的なベクトル量子化(VQ)が大規模なテキストから画像への拡散モデルに対してより高い圧縮率を達成できる可能性があることを示しています。具体的には、最近の数十億規模のテキストから画像へのモデル(SDXLおよびSDXL-Turbo)にベクトルベースのPTQ手法を適用し、VQを使用して2B+パラメータの拡散モデルを約3ビットに圧縮すると、以前の4ビットの圧縮技術と同様の画質とテキストの整合性が得られることを示しています。
過去の多くのAI研究は、知能と能力を最大化するために一体型モデルの開発に焦点を当ててきました。その主な目標は特定のタスクでのパフォーマンスを向上させることでした。一方、本論文では、ワークフローを使用してモデル、データソース、およびパイプラインを統合し、複雑で多様なタスクを解決するための協調型AIシステムを探求しています。我々は、LLMベースのフレームワークであるGenAgentを紹介し、一体型モデルと比較して柔軟性とスケーラビリティが向上します。GenAgentの中核的な革新は、コードでワークフローを表現し、協調エージェントによって段階的にワークフローを構築することにあります。我々はGenAgentをComfyUIプラットフォーム上で実装し、新しいベンチマークであるOpenComfyを提案します。結果は、GenAgentがランレベルおよびタスクレベルの評価の両方でベースライン手法を上回り、複雑なワークフローをより効果的かつ安定して生成する能力を示しています。
この論文は、高解像度ビデオのアウトペインティングと内容生成に焦点を当てています。既存の手法がビデオの大規模なアウトペインティングを試みる際に直面する一般的な問題点を指摘します:低品質なコンテンツの生成とGPUメモリによる制約。これらの課題に対処するため、私たちは「Follow-Your-Canvas」と呼ばれる拡散ベースの手法を提案します。この手法は、2つの中核的な設計に基づいて構築されています。まず、一発のアウトペインティングの一般的な手法を採用する代わりに、タスクを空間ウィンドウに分散させ、シームレスに統合します。これにより、GPUメモリに制約されることなく、任意のサイズや解像度のビデオをアウトペインティングすることが可能となります。第二に、各ウィンドウの生成プロセスにソースビデオとその相対的な位置関係を導入します。これにより、各ウィンドウ内の生成された空間レイアウトがソースビデオと調和するようになります。これら2つの設計と組み合わせることで、空間的および時間的な一貫性を保ちつつ、豊富なコンテンツを持つ高解像度のアウトペインティングビデオを生成することが可能となります。Follow-Your-Canvasは、512X512から1152X2048(9倍)などの大規模ビデオのアウトペインティングに優れており、高品質で美しく見栄えのする結果を生み出します。さまざまな解像度とスケールのセットアップにおいて最良の定量的結果を達成しています。コードはhttps://github.com/mayuelala/FollowYourCanvas で公開されています。
音声に基づくうつ病検出は、個々の特徴やデータの希少性により、自動検出において著しい課題を抱えています。これらの課題に対処するために、音声特徴抽出とうつ病検出のための2つのパラメータ効率的で説明可能なモデルであるDAAMAudioCNNLSTMとDAAMAudioTransformerを紹介します。DAAMAudioCNNLSTMは、情報のある音声セグメントに動的に焦点を当てるマルチヘッド密度適応的注意メカニズム(DAAM)を備えた革新的なCNN-LSTMフレームワークを特徴としています。DAAMAudioTransformerは、CNN-LSTMアーキテクチャの代わりにトランスフォーマーエンコーダを活用し、同じDAAMモジュールを組み込んで注意力と解釈性を向上させています。これらのアプローチは、検出の堅牢性と解釈性を向上させるだけでなく、DAIC-WOZデータセットにおいてDAAMAudioCNNLSTMがF1マクロスコア0.702、DAAMAudioTransformerがF1マクロスコア0.72を達成し、以前のアプローチと異なり、母音の位置や話者情報などの補足情報に依存せずにトレーニング/バリデーションを行っています。両モデルの顕著な説明可能性と音声信号を活用した効率性は、より信頼性の高い臨床で有用な診断ツールに向けた飛躍を示し、音声とメンタルヘルスケアの分野での進歩を約束しています。この分野におけるさらなる研究を促進するために、コードを公開しています。
ハイブリッド検索は、異なるマッチングパラダイムの制限を相殺する効果的な戦略として登場しました。特に、異なるドメインの文脈において、検索品質の著しい改善が観察される場合に重要です。しかしながら、既存の研究は、主に限られた検索方法に焦点を当て、英語の汎用データセットでのみ評価しています。本研究では、フランス語の法律分野における未開拓の領域で、著名な検索モデルの効果を調査し、ゼロショットおよびインドメインのシナリオを評価します。我々の研究結果は、ゼロショットのコンテキストにおいて、異なる汎用モデルを統合することが、どのような統合方法を使用しても、スタンドアロンモデルを使用するよりも一貫してパフォーマンスを向上させることを示しています。驚くべきことに、モデルがインドメインで訓練された場合、最良の単一システムを使用することに比べて、統合は一般的にパフォーマンスを低下させることがわかります。ただし、スコアを慎重に調整された重みで統合する場合は除きます。これらの新しい知見などが、以前の研究結果を新しい分野や言語に拡張し、英語以外の専門分野におけるハイブリッド検索の理解を深めるのに貢献しています。
本論文では、学校の成績レポートのコンテキストにおいて、テキスト、画像、レイアウトを含む多様なモーダルで完全にラベル付けされたMERITデータセットを紹介しています。400以上のラベルと33,000以上のサンプルから成るMERITデータセットは、視覚豊かな文書理解(VrDU)タスクのモデルを訓練するための貴重なリソースです。MERITデータセットの性質(学生の成績レポート)から、制御された方法でバイアスを含める可能性があり、これは言語モデル(LLMs)に誘発されるバイアスをベンチマークするための貴重なツールとなります。論文では、データセットの生成パイプラインを概説し、テキスト、ビジュアル、レイアウト、およびバイアスの領域での主な特徴を強調しています。データセットの有用性を示すために、トークン分類モデルを使用したベンチマークを提示し、データセットがSOTAモデルにとっても大きな挑戦であり、これらのモデルが事前学習フェーズでMERITデータセットからサンプルを取り込むことで大きな恩恵を受けることが示されています。
言語モデル(LM)は、個人向けコミュニケーションシナリオ(例:メールの送信、ソーシャルメディア投稿の作成)で広く利用されており、ある程度の機構を持っているため、コンテキストに応じたプライバシー規範に従うことがますます重要になっています。しかし、LMのプライバシー規範への認識とLMを介したコミュニケーションにおける新興のプライバシーリスクを定量化することは、プライバシーに敏感なケースの文脈依存性と長尾性、および現実的なアプリケーションシナリオを捉える評価手法の欠如により困難です。これらの課題に対処するために、私たちはPrivacyLensという新しいフレームワークを提案します。このフレームワークは、プライバシーに敏感なシードを表現豊かな短編小説に拡張し、さらにエージェントの軌跡にまで拡張することで、LMエージェントの行動におけるプライバシーリークの多レベル評価を可能にします。私たちは、プライバシー文献に根ざしたプライバシー規範とクラウドソーシングされたシードを使用してPrivacyLensを具体化します。このデータセットを使用して、探求的な質問に回答する際のLMのパフォーマンスと、エージェント設定でユーザーの指示を実行する際の実際の行動との間に乖離があることを明らかにします。GPT-4やLlama-3-70Bなどの最先端のLMは、プライバシー強化の指示を受けても、25.68%および38.69%のケースで機密情報を漏洩させます。また、各シードを複数の軌跡に拡張して、LMのプライバシーリークリスクを赤チームで示すことで、PrivacyLensの動的性質を示します。データセットとコードはhttps://github.com/SALT-NLP/PrivacyLens で入手可能です。