翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は、単純な科学問題の解決において有望な能力を示していますが、複雑な問題に対しては幻覚を生じることがよくあります。LLMsをツールと統合することで信頼性を向上させることができますが、このアプローチは通常、ツールへの過度の依存をもたらし、基本的な推論を通じて単純な問題を解決するモデルの能力を低下させます。これに対し、人間の専門家は、適切な解決方法を選択する前に、ドメイン知識を用いて問題の複雑さを最初に評価します。この人間の問題解決プロセスに着想を得て、私たちは新しい二要素の微調整方法を提案します。最初の要素であるWorld Knowledge Distillation(WKD)では、LLMsは、ツールの情報を使用して生成された解決策から直接学習し、ドメイン知識を内面化します。2番目の要素であるTool Usage Adaptation(TUA)では、モデルの直接回答精度に基づいて問題を簡単なものと難しいものに分割します。WKDと同様に簡単な問題に対しては同じアライメントターゲットを維持しつつ、より難しい問題に対してはモデルが知的にツールの使用に切り替えるようにトレーニングします。私たちは、数学、気候科学、および疫学を含む6つの科学ベンチマークデータセットで当社の手法を検証しました。平均して、当社のモデルは、すべてのデータセットで回答精度が28.18%向上し、ツールの使用精度が13.89%向上し、GPT-4oやClaude-3.5などの最先端モデルを上回りました。
GUI エージェントの構築における既存の取り組みは、GPT-4o や GeminiProVision などの堅牢な商用 Vision-Language モデル(VLMs)の利用に大きく依存しています。実務家は、GUI のグラウンディングや分布外(OOD)シナリオにおいて、オープンソースの VLMs が閉鎖ソースの対応物に比べて著しい性能の遅れがあるため、これらを利用することをためらうことがよくあります。この領域における将来の研究を促進するために、私たちは OS-Atlas を開発しました - GUI グラウンディングや OOD エージェントタスクにおいて優れた基礎となる GUI アクションモデルで、データとモデリングの両方で革新を成し遂げています。私たちは、Windows、Linux、MacOS、Android、およびウェブを含む複数のプラットフォームで GUI グラウンディングデータを合成するためのオープンソースツールキットの開発に多大なエンジニアリング努力を投入してきました。このツールキットを活用して、私たちはこれまでで最大のオープンソースのクロスプラットフォーム GUI グラウンディングコーパスを公開し、1300万以上の GUI 要素を含んでいます。このデータセットは、モデルトレーニングの革新と組み合わせることで、OS-Atlas が GUI スクリーンショットを理解し、見慣れないインタフェースにも一般化できる堅固な基盤を提供します。モバイル、デスクトップ、ウェブの 3 つの異なるプラットフォームにまたがる 6 つのベンチマークでの包括的な評価を通じて、OS-Atlas は従来の最先端モデルに比べて著しい性能向上を示しています。私たちの評価は、オープンソースの VLMs のエージェント機能を継続的に向上させ、スケーリングするための貴重な洞察を明らかにしています。
最近、大規模言語モデル(LLMs)の個別化は、幅広い応用においてますます重要となっています。重要性と最近の進歩にもかかわらず、個別化されたLLMsに関する既存の研究のほとんどは、(a) 個別化されたテキスト生成、または(b) 推薦システムなどの個別化関連の下流アプリケーションにLLMsを活用することに完全に焦点を当ててきました。本研究では、これら2つの異なる主要方向の間のギャップを初めて埋めることで、個別化されたLLMの使用に関する分類法を導入し、主要な違いと課題を要約します。私たちは、個別化されたLLMsの基盤の形式化を提供し、LLMsの個別化の概念を統合し拡大し、個別化、使用、および個別化されたLLMsの望ましい要素の定義と議論を行います。次に、個別化の粒度、個別化技術、データセット、評価方法、および個別化されたLLMsの応用に対する体系的な分類法を提案することで、これら多様な分野と使用シナリオの文献を統一します。最後に、取り組む必要がある課題と重要な未解決の問題を強調します。提案された分類法を使用して最近の研究を統一し調査することで、既存の文献とLLMsにおける個別化の異なる側面について明確なガイドを提供し、研究者と実務家の両方に力を与えることを目指しています。
修正フローと再流フロー手法は、普通の微分方程式(ODE)フローを徐々に直線化することで、高速生成を著しく進化させてきました。これらは、画像とノイズのペアであるカップリングが、一定の速度で直線的な軌跡で近似できるという仮定の下で動作します。しかし、一定の速度でモデリングを行い、再流手法を使用することは、ペア間の直線的な軌跡を正確に学習する際に制約があり、数段の生成において最適でないパフォーマンスをもたらします。これらの制約に対処するために、我々は定加速度フロー(CAF)を導入します。これは、単純な一定加速度方程式に基づく新しいフレームワークです。CAFは、加速度を追加の学習可能な変数として導入し、ODEフローのより表現豊かで正確な推定を可能にします。さらに、加速度モデルの初速条件化と初速のための再流プロセスを提案します。おもちゃのデータセット、CIFAR-10、およびImageNet 64x64に関する包括的な研究により、CAFが1段階生成において最先端のベースラインを上回ることが示されました。また、CAFが、数段のカップリング保存と逆変換をRectified flowよりも劇的に改善することも示されました。コードはhttps://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}で入手可能です。
最新のマルチモーダル基盤モデル(MFMs)がビデオ理解のために時間的コンテキストを活用する際に達成する卓越した性能をよく示す既存のベンチマークがあります。しかし、これらのモデルがビジュアル時間的推論をどれだけ正確に行うかは実際にはどうでしょうか?私たちが行った既存のベンチマークの研究によると、MFMsのこの能力は多くの質問が単一、少数、または順不同のフレームを使用して解決できるため、過大評価されている可能性があります。現在のビジュアル時間的推論タスクを体系的に調査するために、我々は次の3つの原則とそれに対応するメトリクスを提案します:(1)マルチフレームゲイン、(2)フレーム順序感度、および(3)フレーム情報の不一致。これらの原則に従い、ビデオ理解におけるMFMsの時間的推論能力を厳密に評価するために、Temporal Reasoning Multimodal Evaluation(TOMATO)を導入します。TOMATOは、1,484の注意深く選定された人間によるアノテーションが施された質問と、人間中心、現実世界、およびシミュレートされたシナリオを含む1,417のビデオに適用される6つのタスク(アクション数、方向、回転、形状と傾向、速度と周波数、および視覚的手がかり)から構成されています。我々の包括的な評価により、最も性能の良いモデルとの間に57.3%の人間-モデルの性能差が明らかになりました。さらに、我々の詳細な分析により、現在のMFMsのこの差を超えたより基本的な制限が明らかになりました。これらのモデルは孤立したフレームでイベントを正確に認識できる一方で、これらのフレームを連続したシーケンスとして解釈することができません。TOMATOは、次世代のMFMsを評価するための重要なテストベッドとして、そしてAIシステムがビデオモダリティを通じて人間の世界のダイナミクスを理解する能力を開発するためのコミュニティへの呼びかけとして役立つと考えています。
本論文では、視覚生成のためのランダム化オートレグレッシブモデリング(RAR)を提案し、画像生成タスクにおいて新たな最高性能を達成すると同時に、言語モデリングフレームワークと完全に互換性を維持します。提案されたRARはシンプルであり、標準のオートレグレッシブなトレーニングプロセス中に、次のトークン予測目標を持つ入力シーケンス(通常はラスタ形式で順序付けられる)が、確率rで異なる因数分解順序にランダムに置換されます。ここでrは1から始まり、トレーニングの過程で線形に0に減衰します。このアニーリングトレーニング戦略により、モデルは全ての因数分解順序にわたる期待尤度を最大化することを学習し、双方向コンテキストをモデリングする能力を効果的に向上させます。重要なことに、RARはオートレグレッシブモデリングフレームワークの完全性を保持し、言語モデリングと完全に互換性を確保しつつ、画像生成において性能を著しく向上させます。ImageNet-256ベンチマークでは、RARは1.48のFIDスコアを達成し、これは従来の最先端のオートレグレッシブ画像生成器を超えるだけでなく、主要な拡散ベースおよびマスクトランスフォーマーベースの手法も上回ります。コードとモデルはhttps://github.com/bytedance/1d-tokenizer で公開されます。
次のトークン予測(NTP)における基礎物理を発見しました。NTP内での情報保存の法則を特定し、情報容量の第一法則(IC-1)を提案し、自己回帰モデルにおける知性の出現の本質が基本的に情報伝達のプロセスであることを実証しました。また、NTPにLandauerの原理を導入し、情報容量の第二法則(IC-2)を定式化し、自己回帰モデルのトレーニングとエネルギー消費との関係を確立しました。さらに、実用的な意義を持ついくつかの系結論を提示しました。最後に、既存の理論との互換性と補完性を検証しました。
マスクされた言語モデリングと因果言語モデリングを組み合わせる簡単な方法を提案します。このハイブリッドトレーニング目的は、単一のトランスフォーマースタック内で両方のモデリングパラダイムの強みを組み合わせたモデルを生み出します。GPT-BERTは、通常の因果またはマスクされた言語モデルと同様に透過的に使用できます。この柔軟な振る舞いを可能にする事前トレーニングプロセスをBabyLM Challenge 2024でテストします。結果は、ハイブリッド事前トレーニングが、単にマスクされたモデルまたは因果モデルよりも優れていることを示しています。モデル、トレーニングコーパス、およびコードを公開します。
生成AIの応用は非常に印象的になり、ユーザーとAIの相互作用もさらにそうです。現在の人間とAIの相互作用に関する文献は、人間が生成AIとどのように相互作用するかを広く調査していますが、これらのアプリケーションを作成する際に使用されるユーザーインターフェースの設計やパターンに関しては具体性が欠けています。そのため、私たちは、人間がAIとどのように相互作用し、さまざまな関連するユースケースのニーズを満たすために設計されたユーザーインタラクションパターンの分類を包括的に提示する調査を行います。主にユーザーが開始する相互作用に焦点を当て、ユーザーからの暗黙の信号を含まない相互作用を調査します。この調査により、デザイナーや開発者の両方が参照として使用できるさまざまなユーザーインタラクションパターンのコンペンディウムを作成することを目指します。これにより、生成AIアプリケーションの設計についてさらに学ぼうとする人々の敷居を下げることも目指しています。
私たちは、仮想試着動画を生成するためのビデオ拡散モデル(VDM)であるFashion-VDMを提案します。入力として与えられた衣類画像と人物ビデオに対し、当社の手法は、与えられた衣類を着用した人物の高品質な試着動画を生成することを目指しています。画像ベースの仮想試着は印象的な結果を示していますが、既存のビデオ仮想試着(VVT)手法は依然として衣類の詳細や時間的一貫性に欠けています。これらの問題に対処するために、ビデオ仮想試着のための拡散ベースのアーキテクチャ、条件付け入力をより細かく制御するための分類器フリーガイダンスの分割、および単一パス64フレーム、512pxビデオ生成のためのプログレッシブな時間的トレーニング戦略を提案します。また、ビデオ試着のための画像とビデオの共同トレーニングの効果を実証し、特にビデオデータが限られている場合に有効であることを示します。私たちの定性的および定量的実験は、当社のアプローチがビデオ仮想試着の新たな最先端を示していることを示しています。追加の結果については、プロジェクトページをご覧ください:https://johannakarras.github.io/Fashion-VDM。
最近の研究 arXiv:2410.15027 では、拡散トランスフォーマー(DiTs)を用いて、画像生成のためのタスクに依存しない手法が探究されました。この手法は、単純に画像間で注意トークンを連結することで実現されます。しかし、膨大な計算リソースにも関わらず、生成された画像の忠実度は最適とは言えません。本研究では、テキストから画像への DiTs が、コンテキスト内での生成能力を本質的に持つという仮説を立て、これを活性化するために最小限の調整のみが必要であると再評価し、フレームワークを合理化します。多様なタスク実験を通じて、既存のテキストから画像への DiTs が、調整なしで効果的にコンテキスト内での生成を行うことを質的に示します。この洞察を基に、DiTs のコンテキスト内能力を活用するための非常にシンプルなパイプラインを提案します:(1)トークンの代わりに画像を連結、(2)複数の画像の共同キャプショニングを行い、(3)大規模なデータセットではなく、小規模なデータセット(例:20から100サンプル)を使用してタスク固有の LoRA 調整を適用します。このアプローチは、In-Context LoRA(IC-LoRA)と名付けられています。この手法は、元の DiT モデルに変更を加える必要はなく、トレーニングデータのみが変更されます。驚くべきことに、当社のパイプラインは、プロンプトにより適合した高忠実度の画像セットを生成します。調整データに関してはタスク固有ですが、当社のフレームワークはアーキテクチャとパイプラインにおいてタスクに依存しないため、コミュニティにとって強力なツールを提供し、製品レベルのタスクに依存しない生成システムに関するさらなる研究に貴重な示唆を提供します。当社のコード、データ、およびモデルは、https://github.com/ali-vilab/In-Context-LoRA で公開されています。
最近、3次元ガウススプラッティング(3DGS)は輝度場再構築を革新し、効率的かつ高品質な新しい視点合成を実現しています。しかし、特に大規模かつ複雑なシナリオにおいて表面を正確に表現することは、3DGSの非構造化の性質により依然として重要な課題です。本論文では、幾何学的精度と効率に関連する重要な課題に取り組む大規模シーン再構築のための新しい手法であるCityGaussianV2を提案します。2次元ガウススプラッティング(2DGS)の有利な一般化能力に基づき、その収束性とスケーラビリティの問題に対処します。具体的には、ぼやけたアーティファクトを除去し収束を加速するために、分解勾配ベースの密度化および深度回帰技術を実装します。スケーリングアップするために、2DGSの退化によるガウス数の爆発を緩和する伸長フィルターを導入します。さらに、CityGaussianパイプラインを並列トレーニングに最適化し、最大10倍の圧縮、トレーニング時間の少なくとも25%の節約、およびメモリ使用量の50%の減少を達成します。また、大規模シーンにおける標準的な幾何学的ベンチマークを確立しました。実験結果は、当社の手法が視覚品質、幾何学的精度、およびストレージとトレーニングコストの間で有望なバランスを実現していることを示しています。プロジェクトページはhttps://dekuliutesla.github.io/CityGaussianV2/ でご覧いただけます。
ニューラルモデルにおける単語埋め込み空間は歪んでおり、これを修正することでタスクのパフォーマンスを向上させることができます。我々は、埋め込み空間の対称性をモデリング、修正、測定するためのほとんどのアプローチが、単語の頻度が一様であると暗黙的に仮定していることを指摘します。実際には、単語の頻度は非常に一様でない分布に従い、それがジップの法則として知られています。驚くべきことに、ジップの法則に従う経験的な単語頻度によって重み付けされたPCAホワイトニングを単純に行うことで、確立されたベースラインを超えるタスクのパフォーマンスが著しく向上します。理論的な観点から見ると、我々のアプローチと既存の方法の両方を明確に分類することができます。単語表現は、均一またはジップの基本測度を持つ指数ファミリーに従って分布しています。後者のアプローチを採用することで、情報幾何学的な観点から、ベクトルノルムに関して情報量の多い低頻度の単語を自然に強調することができ、また、不均衡な分類のための損失関数に関しても明らかになります。さらに、我々の理論は、スキップグラム負サンプリング、WhiteningBERT、ヘッドレス言語モデルなどの一般的な自然言語処理手法がうまく機能するのは、単語埋め込みが経験的な単語頻度を基にした確率モデルにエンコードされているためであることを裏付けています。
我々は、テキストから画像への基盤モデルにアダプタを挿入する効果的な手法を提案します。これにより、基本モデルの汎化能力を維持しながら、複雑な下流タスクを実行することが可能となります。この手法の中心的なアイデアは、2次元特徴マップに関連する注意メカニズムを最適化することで、アダプタの性能を向上させることです。このアプローチは、ミーム動画生成のタスクで検証され、重要な結果を達成しました。この研究が大規模なテキストから画像へのモデルの事後トレーニングタスクに示唆を与えることを期待しています。さらに、この手法がSD1.5派生モデルとの互換性が高いことを示しているため、オープンソースコミュニティにとって一定の価値があります。したがって、関連するコードを公開する予定です(https://songkey.github.io/hellomeme)。
現在の顔の匿名化技術は、しばしば顔認識モデルによって計算されるアイデンティティの喪失に依存していますが、これは不正確で信頼性に欠けることがあります。さらに、多くの手法では、合成プロセスをガイドするために顔のランドマークやマスクなどの補助データが必要です。それに対し、私たちのアプローチは、再構成損失のみを持つ拡散モデルを使用し、顔のランドマークやマスクの必要性を排除しつつも、複雑で細かい詳細を持つ画像を生成します。私たちは、公開されている2つのベンチマークで、定量的および定性的評価を通じて結果を検証しました。私たちのモデルは、アイデンティティの匿名化、顔の属性保存、画像の品質という3つの主要分野で最先端のパフォーマンスを達成しています。匿名化の主な機能を超えて、私たちのモデルは、追加の顔の画像を入力として取り込むことで、顔の交換タスクも実行でき、その汎用性と多様な応用可能性を示しています。私たちのコードとモデルは、https://github.com/hanweikung/face_anon_simple で入手可能です。
大規模言語モデル(LLM)は、高度な推論能力により、マルチホップ質問応答(M-QA)で優れた成績を収めています。ただし、LLMのM-QAパフォーマンスにおける固有の推論構造の影響は不明確であり、それはQAデータセットが詳細な推論構造を提供していないことが主な理由です。このギャップを埋めるために、私たちはグラフ推論構造化質問応答データセット(GRS-QA)を導入しました。このデータセットには、QAペアのための意味的文脈と推論構造の両方が含まれています。既存のM-QAデータセットとは異なり、異なる推論構造が絡み合っているものではなく、GRS-QAは推論グラフを構築することで複雑な推論経路を明示的に捉え、ノードがテキストコンテキストを表し、エッジが論理的なフローを示します。これら異なる構造の推論グラフは、さまざまな推論構造にわたるLLMの推論能力を詳細に評価することを可能にします。私たちの経験的分析により、LLMは異なる推論構造を扱う際に異なるパフォーマンスを発揮することが明らかになりました。この知見は、意味と比較してテキスト構造の探索を促進します。
リチウムイオン電池の健康状態(SOH)は、電池の残存容量や残存寿命を決定する重要なパラメータです。本論文では、Li-ion電池の健康状態を予測するための革新的な構造化状態空間モデル(SSM)であるSambaMixerを提案します。提案されたSSMは、多変量時系列を扱うよう設計されたMambaMixerアーキテクチャに基づいています。NASAの電池放電データセットでモデルを評価し、当該データセットにおいて当モデルが最先端技術を上回ることを示します。さらに、予想される長さの時間信号を確保すると同時に拡張手法として機能する、新しいアンカーベースのリサンプリング手法を導入します。最後に、サンプル時間とサイクル時間の差を位置符号化を用いて条件付けし、モデルの性能を向上させるとともに回復効果を学習します。我々の結果は、当モデルが高い精度と堅牢性でLi-ion電池のSOHを予測することができることを証明しています。
ソフトウェアエンジニアリングにおいて、リポジトリレベルのコード補完は大きな注目を集めており、いくつかのベンチマークデータセットが導入されています。しかし、既存のリポジトリレベルのコード補完ベンチマークは通常、限られた数の言語(5未満)に焦点を当てており、既存の大規模言語モデル(LLMs)における異なる言語間の一般的なコード知能能力を評価することができません。さらに、既存のベンチマークは通常、異なる言語の全体的な平均スコアを報告しており、異なる補完シナリオにおける細かい能力が無視されています。そのため、多言語シナリオにおけるコードLLMsの研究を促進するために、18のプログラミング言語をカバーする大規模多言語リポジトリレベルのコード補完ベンチマーク(M2RC-EVALと呼ばれる)を提案し、異なる補完シナリオにおけるバケットレベルと意味レベルの2種類の細かい注釈を提供します。これらの注釈は、解析された抽象構文木に基づいて取得しています。さらに、既存のコードLLMsのリポジトリレベルのコード補完能力を向上させるために、大規模多言語の命令コーパスであるM2RC-INSTRUCTデータセットを収集しています。包括的な実験結果は、当社のM2RC-EVALおよびM2RC-INSTRUCTの効果を実証しています。
本論文では、多言語固有表現認識コーパスであるWikiNERコーパスの品質について取り上げ、それを統合したバージョンを提供します。WikiNERの注釈付けは、半教師付きの方法で行われました。つまり、事後に手作業での検証は行われていません。このようなコーパスは銀標準と呼ばれます。本論文では、WikiNERのフランス語部分の改訂版であるWikiNER-fr-goldを提案します。当該コーパスは、元のフランス語サブコーパス(26,818文、700kトークン)のランダムに抽出された20%から構成されています。我々は、各カテゴリに含まれるエンティティタイプを要約し、注釈付けのガイドラインを定義した後、コーパスの改訂に取り組みます。最後に、WikiNER-frコーパスで観察されたエラーや不整合性の分析を提示し、今後の研究方向について議論します。