翻訳付きの日次キュレーションされたAI研究論文
私たちは、Sapiensというモデルファミリーを提案します。このファミリーは、4つの基本的な人間中心のビジョンタスク、つまり2Dポーズ推定、ボディパーツセグメンテーション、深度推定、および表面法線予測に使用されます。当社のモデルは、ネイティブで1Kの高解像度推論をサポートし、3億枚以上の野生の人間画像で事前学習されたモデルを単純に微調整することで、個々のタスクに簡単に適応できます。同じ計算予算を使用した場合、人間画像のキュレーションされたデータセットでの自己教師付き事前学習は、多様な人間中心のタスクのパフォーマンスを大幅に向上させることが観察されます。結果として得られるモデルは、ラベル付きデータが少ないか完全に合成されている場合でも、野生のデータに対する顕著な汎化能力を示します。また、当社のシンプルなモデル設計は、拡張性ももたらします。パラメータ数を0.3から20億までスケーリングすると、タスク全体でのモデルパフォーマンスが向上します。Sapiensは、さまざまな人間中心のベンチマークで既存のベースラインを一貫して上回っています。Poseに関するHumans-5Kでは、mAPが7.6、Part-segに関するHumans-2KではmIoUが17.1、Depthに関するHi4Dでは相対RMSEが22.4%、Normalに関するTHuman2では相対角度誤差が53.5%改善されました。
自然言語処理(NLP)において、大規模言語モデル(LLM)は高いテキスト生成品質を示しています。しかしながら、実世界のアプリケーションにおいて、LLMはますます複雑な要件を満たさなければなりません。誤解を招くか不適切なコンテンツを避けるだけでなく、LLMは特定のユーザーのニーズに合わせることが期待されており、特定の文章スタイルの模倣や詩的な豊かさを持つテキストの生成などが含まれます。これら多様な要求は、制御可能なテキスト生成(CTG)技術の開発を促進し、出力が安全性、感情、テーマの一貫性、言語スタイルなどの事前定義された制御条件に従いつつ、助けになる、流暢で多様性の高い基準を維持することを確実にします。 本論文は、LLM向けCTGの最新の進展を体系的にレビューし、その中核概念の包括的な定義を提供し、制御条件とテキスト品質の要件を明確にします。CTGタスクをコンテンツ制御と属性制御の2つの主要タイプに分類し、モデルの再トレーニング、ファインチューニング、強化学習、プロンプトエンジニアリング、潜在空間の操作、デコーディング時の介入など、主要な手法について議論します。各手法の特性、利点、制限を分析し、生成制御を達成するための微妙な洞察を提供します。さらに、CTGの評価方法を検討し、領域全体での応用をまとめ、現在の研究における流暢性や実用性の低下など、主要な課題に取り組みます。また、将来の研究において実世界のアプリケーションに重点を置くなど、いくつかの提言を行います。本論文は、この分野の研究者や開発者に貴重なガイダンスを提供することを目的としています。当該論文の参考文献リストと中国語版は、https://github.com/IAAR-Shanghai/CTGSurvey でオープンソースで公開されています。
大規模言語モデル(LLMs)は金融アプリケーションの進化に貢献していますが、しばしば十分な金融知識が欠如しており、テーブルや時系列データなどのマルチモーダル入力を扱うタスクに苦労しています。これらの制約に対処するために、私たちはOpen-FinLLMsを導入します。これは、金融LLMsのシリーズです。我々は、52億トークンの金融コーパスで事前学習されたFinLLaMAから始め、テキスト、テーブル、時系列データを組み込んで包括的な金融知識を埋め込みます。その後、FinLLaMAは573Kの金融命令で指示を微調整し、タスクのパフォーマンスを向上させたFinLLaMA-instructを生み出します。最後に、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAを提供します。これは、複雑な金融データタイプを処理するためのものです。包括的な評価により、FinLLaMAは、ゼロショットおよびフューショットの両方の設定で、それぞれ19および4つのデータセットでLLaMA3-8B、LLaMA3.1-8B、およびBloombergGPTよりも優れたパフォーマンスを発揮しています。FinLLaMA-instructは、15のデータセットでGPT-4や他の金融LLMsを凌駕しています。FinLLaVAは、4つのマルチモーダルタスクでテーブルやチャートを理解するのに優れています。さらに、FinLLaMAは取引シミュレーションで印象的なシャープレシオを達成し、その堅牢な金融アプリケーション能力を強調しています。私たちは、学術界や産業界における持続的なイノベーションを支援するために、モデルとベンチマークを継続的に維持し、改善していきます。
指示(または「チャット」)チューニングされたモデルは、ほとんどの人々が大規模言語モデルとやり取りする主要な方法となっています。通常の「ベース」または「基礎」モデルとは異なり、指示チューニングされたモデルは命令文に応答するよう最適化されています。本論文では、強力な推論力と創造力を備えた中立な一般指示およびツール利用モデルであるHermes 3を提案します。その最大バージョンであるHermes 3 405Bは、いくつかの公開ベンチマークにおいてオープンウェイトモデルの最先端の性能を達成しています。
我々は、多様なモーダルの理解と生成を統合する統一されたTransformer、すなわちShow-oを提案します。完全な自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統合し、さまざまで混在したモーダリティの入力と出力を適応的に処理します。この統一モデルは、視覚と言語の幅広いタスクを柔軟にサポートし、視覚的な質問応答、テキストから画像の生成、テキストによる修復/外挿、および混在モダリティの生成を含みます。さまざまなベンチマークにおいて、既存の個々のモデルと同等またはそれ以上の性能を、理解または生成向けに調整された同等またはより大きなパラメータ数で示しています。これは、次世代の基盤モデルとしての潜在的な可能性を著しく示しています。コードとモデルは、https://github.com/showlab/Show-o で公開されています。
私たちは、テキストからビデオ(T2V)を生成するxGen-VideoSyn-1というモデルを提案します。このモデルは、テキストの記述から現実的なシーンを生成することができます。最近の進歩、例えばOpenAIのSoraなどに基づいて、潜在拡散モデル(LDM)アーキテクチャを探求し、ビデオ変分オートエンコーダー(VidVAE)を導入しています。VidVAEは、ビデオデータを空間的および時間的に圧縮し、視覚トークンの長さと長いシーケンスのビデオ生成に伴う計算要件を大幅に削減します。計算コストにさらに対処するために、時間的一貫性を保持する分割と統合の戦略を提案しています。私たちの拡散トランスフォーマー(DiT)モデルは、空間的および時間的自己注意層を組み込んでおり、異なる時間枠やアスペクト比にわたる堅牢な汎化を実現しています。私たちは、最初からデータ処理パイプラインを設計し、1300万以上の高品質なビデオテキストペアを収集しました。このパイプラインには、クリッピング、テキスト検出、動きの推定、美的スコアリング、および自社のビデオ-LLMモデルに基づく密なキャプショニングなど、複数のステップが含まれています。VidVAEとDiTモデルのトレーニングには、それぞれ約40日と642日のH100が必要でした。私たちのモデルは、エンドツーエンドで14秒以上の720pビデオ生成をサポートし、最先端のT2Vモデルに対して競争力のあるパフォーマンスを示しています。
私たちは、Jambaアーキテクチャに基づく新しい命令チューニングされた大規模言語モデルであるJamba-1.5を提案します。Jambaは、高いスループットと低いメモリ使用量を提供するハイブリッドTransformer-Mambaエキスパートミックスアーキテクチャであり、コンテキスト長にわたってTransformerモデルと同等以上の品質を維持します。私たちは、Jamba-1.5-Large(活性パラメータ94B)とJamba-1.5-Mini(活性パラメータ12B)の2つのモデルサイズをリリースします。両モデルは、さまざまな会話および命令に従う能力に微調整されており、256Kトークンの効果的なコンテキスト長を持ち、オープンウェイトモデルの中で最大のものです。コスト効果の高い推論をサポートするために、256Kトークンのコンテキストを処理する際にJamba-1.5-Largeを8つの80GB GPUを搭載したマシンに適合させることを可能にする新しい量子化技術であるExpertsInt8を導入します。さまざまな学術およびチャットボットのベンチマークで評価した結果、Jamba-1.5モデルは優れた結果を達成し、高いスループットを提供し、長いコンテキストのベンチマークで他のオープンウェイトモデルを凌駕しています。両サイズのモデルウェイトはJambaオープンモデルライセンスの下で一般に利用可能であり、ExpertsInt8はオープンソースとして公開されています。
私たちはデジタルメディアの繁栄する時代に生きており、誰もが個人の映画製作者になる可能性を持っています。映画転送に関する現在の研究は、映画製作者に古典的なショットから視覚要素(例:撮影技法やキャラクターの振る舞い)を再現し操作する力を与えています。しかし、再構想された映画のキャラクターは依然として手作業に頼っており、これには複雑な技術的要素と高いコストがかかり、一般ユーザーには手の届かないものとなっています。さらに、推定された撮影技法は、フレーム間の動きの不適切な捉え方や物理的な軌跡のモデリングの不足により、滑らかさを欠いています。幸いなことに、2Dおよび3D AIGCの顕著な成功により、ユーザーのニーズに合わせて効率的にキャラクターを生成し、撮影技法を多様化する可能性が開かれました。本論文では、ユーザーフレンドリーな映画制作を促進することを目的として、映画製作パラダイムに生成AIを先駆けとする新しい映画転送フレームワークであるDreamCinemaを提案します。具体的には、まず映画的要素(すなわち、人間とカメラのポーズ)を抽出し、カメラの軌跡を最適化します。次に、キャラクタージェネレータを適用して、人間の構造を事前に持つ3D高品質キャラクターを効率的に作成します。最後に、生成されたキャラクターを映画制作に組み込み、3Dグラフィックスエンジンを介してスムーズに転送するための構造に基づいたモーショントランスファ戦略を開発します。幅広い実験により、自由なカメラと3Dキャラクターを使用した高品質映画の作成に対する当社の手法の効果が示されています。
埋め込みモデルは、自然言語処理(NLP)において重要な役割を果たし、情報検索や意味的なテキスト類似性の評価など、さまざまなタスクで使用されるテキスト埋め込みを生成します。本論文は、ロシア語に関連する埋め込みモデルに焦点を当てています。新しいロシア語に焦点を当てた埋め込みモデルであるru-en-RoSBERTaと、Massive Text Embedding Benchmark(MTEB)を拡張したロシア語版であるruMTEBベンチマークを紹介しています。当社のベンチマークには、意味的なテキスト類似性、テキスト分類、再ランキング、検索など、7つのカテゴリのタスクが含まれています。また、提案されたベンチマークでロシア語および多言語モデルの代表的なセットを評価しています。調査結果によると、新しいモデルはロシア語において最先端のモデルと同等の結果を達成しています。当社はモデルru-en-RoSBERTaを公開し、ruMTEBフレームワークはオープンソースコード、元のフレームワークへの統合、およびパブリックリーダーボードを提供しています。
私たちは、Mambaアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介します。AiMは、線形時間複雑性を持つ長いシーケンスモデリングにおいて優れた性能を発揮する革新的な状態空間モデルであるMambaを利用し、AR画像生成モデルで一般的に使用されるTransformersを置き換えることを目指しています。従来の手法がMambaを2次元信号を処理するために多方向スキャンを用いて適応させるのに対し、AiMは自己回帰画像生成のために次のトークン予測パラダイムを直接利用します。このアプローチにより、Mambaが2D空間表現を学習するための大幅な変更が不要となります。視覚生成タスク向けに簡潔かつ戦略的にターゲットを絞った修正を実装することで、Mambaのコア構造を維持し、効率的な長いシーケンスモデリング能力とスケーラビリティを十分に活用しています。パラメータ数が148Mから1.3Bまでの様々なスケールのAiMモデルを提供しています。ImageNet1K 256*256のベンチマークでは、最高のAiMモデルが2.21のFIDを達成し、同等のパラメータ数を持つすべての既存のARモデルを上回り、2倍から10倍高速な推論速度で拡散モデルに対しても大きな競争力を示しています。コードはhttps://github.com/hp-l33/AiMで入手可能です。
このレポートでは、ベトナム語タスク向けの信頼性の高い10億パラメータのマルチモーダル大規模言語モデル(MLLM)であるVintern-1Bを紹介します。Qwen2-0.5B-Instruct言語モデルとInternViT-300M-448pxビジュアルモデルを統合することで、Vintern-1Bは、光学文字認識(OCR)、文書抽出、およびベトナム語コンテキストでの一般的な質問応答を含むさまざまなアプリケーションに最適化されています。このモデルは、300万以上の画像-質問-回答ペアからなる幅広いデータセットでファインチューニングされており、OpenViVQAやViTextVQAなどの複数のベトナム語言語ベンチマークで堅牢なパフォーマンスと信頼性の高い結果を達成しています。Vintern-1Bは、さまざまなオンデバイスアプリケーションに簡単に適合するほど小さくなっています。さらに、Gemini 1.5 Flashを使用して作成されたテキストと図表用の複数のベトナム語ビジョン質問応答(VQA)データセットをオープンソース化しています。当社のモデルは以下から入手可能です:https://huggingface.co/5CD-AI/Vintern-1B-v2.
私たちは、Pyramid Attention Broadcast(PAB)を提案します。これは、DiTベースのビデオ生成においてリアルタイムで高品質かつトレーニング不要なアプローチです。当社の手法は、拡散プロセスにおける注意の違いがU字型のパターンを示し、重要な冗長性を示しているという観察に基づいています。この冗長性を軽減するために、注目度の出力をピラミッドスタイルで後続のステップにブロードキャストします。各注意に対してその分散に基づいて異なるブロードキャスト戦略を適用し、最適な効率を実現します。さらに、より効率的な分散推論のためにブロードキャストシーケンスパラレルを導入しています。PABは、3つのモデルにおいてベースラインと比較して優れた結果を示し、最大720pのビデオに対してリアルタイム生成を実現しています。私たちは、当社のシンプルで効果的な手法が堅牢なベースラインとなり、将来のビデオ生成の研究や応用を促進することが期待されると考えています。
本論文では、LLM(Large Language Models)を活用した新しい手法Strategistを提案し、自己改善プロセスを通じてマルチエージェントゲームをプレイするための新しいスキルを獲得します。当手法は、Monte Carlo tree searchとLLMベースの反映を用いた自己対戦シミュレーションによって質の高いフィードバックを収集し、それを活用して低レベルの実行を導く状態の評価方法など、高レベルの戦略スキルを学習します。当手法がゲームの行動計画と対話生成の両方で活用され、ゲームの文脈で良好なパフォーマンスを達成する方法を示します。具体的には、当手法が、GOP(Game of Pure Strategy)やThe Resistance: Avalonなどのゲームにおいて、従来の強化学習ベースのアプローチや他のLLMベースのスキル学習アプローチよりも優れたパフォーマンスを持つエージェントのトレーニングを支援できることを示します。
大規模ビジョン言語モデル(LVLMs)は、テキストに整列したビジョン入力によって大幅に進化しています。ビジョン入力とテキストモダリティを整合させることで、コンピュータビジョンタスクにおいて著しい進歩を遂げています。RGBを超えたサーマル、深度、医用X線画像を含むマルチビジョンセンサを組み込む試みもあります。しかし、現在のLVLMsは、マルチビジョンセンサから取得した画像を、物理的特性を考慮せずに同じRGBドメイン内で扱っていることが観察されます。これにより、データセットから基本的なマルチビジョンセンサ情報や対応するコンテキスト知識を適切に伝えられず、実際の物理環境からの情報とテキストとの整合が正しく達成されず、物理環境を考慮した複雑なセンサ関連の質問に答えることが困難になっています。本論文では、画像とマルチビジョンセンサ間の基本的な情報ギャップを縮小できるマルチビジョンセンサ知覚および推論ベンチマークであるSPARKを確立することを目指します。異なる形式をカバーするさまざまなタイプのセンサ関連質問にわたる物理センサ知識の熟練度を調査するために、6,248のビジョン言語テストサンプルを自動生成し、マルチビジョンセンサの知覚と推論を評価するためにこれらのサンプルを使用しました。結果は、ほとんどのモデルがさまざまな程度でマルチビジョンセンサ推論に欠陥を示していることを示しました。コードとデータはhttps://github.com/top-yun/SPARKで入手可能です。
大規模言語モデル(LLMs)は、多くの分野で印象的な進歩を達成していますが、幻覚の主要な原因である知識の衝突という重要な問題はほとんど研究されていませんでした。LLMsの固有の知識と取得した文脈知識との間の衝突を探究した研究はごくわずかであり、LLMsにおける知識の衝突の徹底的な評価はまだ欠けています。この研究の隙間を埋めるために、我々はConflictBankを提案します。これは、知識の衝突を系統的に評価するために開発された初の包括的なベンチマークです。この評価は、(i) 取得した知識に遭遇する衝突、(ii) モデルがエンコードした知識内の衝突、および (iii) これらの衝突形態の相互作用に焦点を当てています。我々の調査は、4つのモデルファミリーと12のLLMインスタンスに掘り下げ、誤情報、時間的な不一致、および意味的な相違から生じる衝突を入念に分析しています。提案された新しい構築フレームワークに基づき、7,453,853の主張-根拠ペアと553,117のQAペアを作成しています。モデルの規模、衝突の原因、および衝突のタイプに関する多くの知見を提示しています。我々は、我々のConflictBankベンチマークがコミュニティが衝突におけるモデルの振る舞いをよりよく理解し、より信頼性の高いLLMsを開発するのに役立つことを望んでいます。
最近、Multimodal Large Language Models (MLLMs) は、通常、Vision Encoder、Adapter、およびLarge Language Model (LLM) から構成される、顕著な知覚および推論能力を示しています。アダプタは、視覚と言語のコンポーネント間の重要な橋渡しとして機能します。ただし、画像レベルの監督を使用してアダプタをトレーニングすると、しばしば大幅な不整合が生じ、Multimodal LLMs の能力が損なわれ、潜在能力が制限されます。この問題に対処するために、我々はSupervised Embedding Alignment (SEA) を導入します。SEA は、CLIPなどのビジョン-言語事前トレーニングモデルを活用し、コントラスティブラーニングを介して視覚トークンをLLMの埋め込み空間に整列させる、トークンレベルの整列方法です。このアプローチにより、視覚と言語表現がより一貫して統合され、Multimodal LLMs のパフォーマンスと解釈可能性が向上し、固有の能力が保持されます。包括的な実験では、SEA が特に小規模モデルに追加のデータや推論計算を必要とせずに、MLLMs を効果的に改善することが示されました。SEA は、より一般的で適応可能なソリューションを開発するための基盤を築くと同時に、Multimodal システムを強化するための手法の構築にも貢献します。
従来のアニメーション生成方法は、人間がラベル付けしたデータを使用して生成モデルを訓練することに依存しており、洗練された多段階のパイプラインを必要とし、膨大な人間の労力を要し、高い訓練コストを発生させます。これらの方法は通常、制約のあるプロンプト計画により、簡潔で情報量が少なく、文脈にそぐわないアニメーションを生成します。これらの制約を克服し、アニメーションプロセスを自動化するために、私たちは大規模なマルチモーダルモデル(LMMs)を導入し、自律型アニメーション制作エージェントであるAnim-Directorを構築する先駆者となりました。このエージェントは、主にLMMsと生成AIツールの高度な理解力と推論能力を活用して、簡潔な物語や単純な指示からアニメーションビデオを作成します。具体的には、次の3つの主要段階で操作されます。まず、Anim-Directorはユーザーの入力から一貫したストーリーラインを生成し、その後、キャラクタープロファイルや室内/室外の設定、登場人物、室内または室外、およびシーンイベントを含む文脈にそったシーンの詳細な監督台本を作成します。次に、画像生成ツールを使用したLMMsを採用して、設定やシーンの視覚的な画像を生成します。これらの画像は、シーンの説明と登場人物や設定の画像を組み合わせた視覚言語プロンプティング手法を使用して、異なるシーン間で視覚的な一貫性を維持するように設計されています。最後に、シーン画像はアニメーションビデオの制作の基盤となり、LMMsがこのプロセスをガイドするためのプロンプトを生成します。この全プロセスは、LMMsがプロンプトを生成し、視覚的な品質を評価し、最適な出力を最適化するために最良のものを選択する際に、手動介入なしに自動的に行われます。
散乱材料から作られた物体の3D再構築と再照明は、表面下の複雑な光伝播により著しい課題を提供します。3Dガウススプラッティングは、リアルタイムの高品質な新しい視点合成を導入しました。3Dガウス関数はオブジェクトの表面を効率的に近似しますが、表面下の散乱の体積特性を捉えることができません。我々は、マルチビューのOLAT(一度に1つの光)データを用いて、オブジェクトの形状と放射輸送場を最適化するためのフレームワークを提案します。我々の手法は、シーンを3Dガウス関数で表現された明示的な表面と、空間的に変化するBRDF、および散乱成分の暗黙的な体積表現に分解します。学習された入射光場が影を考慮します。我々は、レイトレースされた微分可能なレンダリングを介してすべてのパラメータを共同で最適化します。当社のアプローチは、インタラクティブな速度での素材編集、再照明、および新しい視点合成を可能にします。我々は、合成データでの成功した応用と、ライトステージ設定内のオブジェクトの新たに取得したマルチビュー・マルチライトデータセットを紹介します。以前の研究と比較して、最適化およびレンダリング時間の一部で同等またはより良い結果を達成し、素材属性に対する詳細な制御を可能にします。プロジェクトページ https://sss.jdihlmann.com/
マルチメディア制作において、フォーリー音合成は重要であり、音声と映像を時間的、意味的に同期させることでユーザーエクスペリエンスを向上させます。最近の研究では、この労力を要するプロセスをビデオから音声への生成を通じて自動化しようとする取り組みが重要な課題に直面しています。明示的な時間的特徴を欠いたシステムは、コントロール性とアライメントの面で問題を抱えており、タイムスタンプベースのモデルはコストがかかり主観的な人間の注釈が必要です。私たちは、Root Mean Square(RMS)を時間的イベント条件とし、意味的な音色プロンプト(音声またはテキスト)を使用するビデオから音声へのシステムであるVideo-Foleyを提案します。RMSは、オーディオの意味に密接に関連するフレームレベルの強度エンベロープ特徴であり、高いコントロール性と同期性を確保します。注釈不要の自己教師付き学習フレームワークは、Video2RMSとRMS2Soundの2つの段階で構成されており、RMSの離散化や事前学習されたテキストからオーディオへのモデルを組み込んだRMS-ControlNetなどの新しいアイデアが取り入れられています。私たちの包括的な評価によると、Video-Foleyは音のタイミング、強度、音色、ニュアンスにおける音声と視覚のアライメントとコントロール性において最先端のパフォーマンスを達成しています。コード、モデルの重み、デモは、関連するウェブサイトで入手可能です。(https://jnwnlee.github.io/video-foley-demo)
ソーシャルメディア上でのデマの広範な拡散を考慮すると、オンラインの主張に対する事実チェックメカニズムの実装は不可欠です。すべての主張を手動で検証することは非常に困難であり、自動化された事実チェックシステムの必要性が強調されています。本論文では、この問題に対処するために設計された当社のシステムを紹介します。私たちはAveritecデータセットを使用して主張の真偽を評価しています。真偽の予測に加えて、当社のシステムはデータセットから抽出された支持する証拠を提供します。私たちは、関連する証拠文を知識ベースから抽出する「Retrieve and Generate (RAG)」パイプラインを開発し、それらを主張とともに大規模言語モデル(LLM)に入力して分類します。また、複数のLLMの少数ショットの「In-Context Learning (ICL)」能力を評価しています。当社のシステムは、ベースラインよりも22%の絶対改善である「Averitec」スコア0.33を達成しています。すべてのコードはhttps://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llmsで利用可能となります。