翻訳付きの日次キュレーションされたAI研究論文
BitNet b1.58 2B4Tを紹介します。これは、20億パラメータ規模で初めてのオープンソース、ネイティブ1ビット大規模言語モデル(LLM)です。4兆トークンのコーパスで学習されたこのモデルは、言語理解、数学的推論、コーディング能力、会話能力をカバーするベンチマークで厳密に評価されています。その結果、BitNet b1.58 2B4Tは、同規模の主要なオープンウェイト・フルプレシジョンLLMと同等の性能を達成しつつ、メモリ使用量、エネルギー消費、デコード遅延を大幅に削減するなど、計算効率において大きな利点を提供することが示されました。さらなる研究と採用を促進するため、モデルの重みはHugging Faceを通じて公開され、GPUおよびCPUアーキテクチャ向けのオープンソース推論実装も提供されています。
推論モデル(例:DeepSeek R1)は強化学習(RL)によって訓練され、テキスト推論において優れた性能を発揮しますが、幾何学的推論、簡潔な計算、または複雑な方程式の解法など、構造化された問題解決を必要とするシナリオでは苦戦します。これらの領域では、コードインタプリタ(CI)などの計算ツールが明確な利点を示します。このギャップを埋めるため、我々はReToolを提案します。ReToolは、ツール統合学習を通じて長文推論を強化し、以下の2つの主要な特徴を備えています:(1)自然言語推論プロセス内でのリアルタイムコード実行の動的なインタリーブ、(2)マルチターンのリアルタイムコード実行を伴うポリシーロールアウトを可能にし、結果フィードバックに基づいてモデルにツールの呼び出しタイミングと方法を教える自動化されたRLパラダイム。ReToolは、合成コールドスタートデータ生成から始まる体系的なトレーニングフレームワークを採用し、ベースモデルのファインチューニングのためのコード拡張長文推論トレースを生成します。その後、RLトレーニングではタスクの結果を報酬として活用し、モデルのツール使用戦略を反復的に洗練させ、人間の事前知識なしに最適なツール呼び出しパターンを自律的に発見できるようにします。難易度の高いMATH OlympiadベンチマークAIMEでの実験は、ReToolの優位性を示しています:我々の32Bモデルは400トレーニングステップで67%の精度を達成し、テキストベースのRLベースライン(40%精度、1080ステップ)を効率と性能の両面で上回りました。さらに、ReTool-32Bは拡張設定で72.5%の精度を達成し、OpenAIのo1-previewを27.9%上回りました。さらなる分析では、コードの自己修正などの創発的な振る舞いが観察され、モデルが適応的なツール使用を自律的に習得する「アハ体験」を示しています。これらの発見は、複雑な数学的推論を進めるための結果駆動型ツール統合の可能性を強調し、ハイブリッドニューロシンボリックシステムに関する新たな洞察を提供します。
色は人間の知覚において重要な役割を果たし、視覚的推論においてしばしば決定的な手がかりを提供します。しかし、視覚言語モデル(VLMs)が色を人間のように知覚し、理解し、活用できるかどうか、またその方法については不明です。本論文では、色の理解能力を評価するために、色の知覚、推論、堅牢性を含むColorBenchという革新的なベンチマークを紹介します。実アプリケーションに基づいた多様なテストシナリオを厳選し、ColorBenchはこれらのモデルが色をどのように知覚し、色に基づく手がかりから意味を推論し、さまざまな色変換下で一貫した性能を維持するかを評価します。32の異なる言語モデルと視覚エンコーダを持つVLMsを広範に評価することで、本論文はいくつかの未発見の知見を明らかにします:(i) スケーリング則(大きなモデルほど優れている)はColorBenchにおいても成立するが、言語モデルは視覚エンコーダよりも重要な役割を果たす。(ii) しかし、モデル間の性能差は比較的小さく、色の理解が既存のVLMsによって大きく無視されていることを示唆する。(iii) CoT推論は色の理解精度と堅牢性を向上させるが、それらは視覚中心のタスクである。(iv) 色の手がかりはColorBenchにおいて確かにVLMsによって活用されるが、一部のタスクではモデルを誤解させることもある。これらの知見は、現在のVLMsの重大な限界を浮き彫りにし、色の理解を強化する必要性を強調します。我々のColorBenchは、マルチモーダルAIにおける人間レベルの色の理解を進めるための基礎的なツールとして役立つでしょう。
漫画制作業界では、高精度で効率的、文脈的一貫性があり、柔軟な制御が可能な参照ベースの線画彩色が求められています。漫画の1ページには多様なキャラクター、物体、背景が含まれるため、彩色プロセスは複雑になります。画像生成における拡散モデルの進展にもかかわらず、線画彩色への応用は限られており、大量の参照画像の処理、時間のかかる推論、柔軟な制御に関する課題に直面しています。本研究では、線画彩色の品質に対する広範な文脈的画像ガイダンスの必要性を調査します。これらの課題に対処するため、我々はCobraを提案します。これは、カラーヒントをサポートし、200枚以上の参照画像を利用しながら低遅延を維持する効率的で汎用的な手法です。Cobraの中核となるのはCausal Sparse DiTアーキテクチャで、特別に設計された位置エンコーディング、因果的スパースアテンション、Key-Value Cacheを活用して、長文脈の参照を効果的に管理し、色の同一性を保証します。結果は、Cobraが広範な文脈的参照を通じて正確な線画彩色を実現し、推論速度とインタラクティブ性を大幅に向上させ、重要な産業ニーズを満たすことを示しています。コードとモデルはプロジェクトページ(https://zhuang2002.github.io/Cobra/)で公開しています。
本研究では、大規模視覚言語モデル(LVLM)のトレーニングにおける主流の手法である教師ありファインチューニング(SFT)と強化学習(RL)のパラダイムを再検証し、重要な発見を明らかにしました。SFTは、専門家モデルから模倣された「疑似推論パス」を誘発することで、その後のRLを著しく損なう可能性があります。これらのパスはRLモデルの本来の推論パスに似ているように見えるものの、しばしば冗長で躊躇しがちな、情報量の少ないステップや誤った推論を含んでいます。この効果を体系的に研究するため、我々はVLAA-Thinkingという新しいマルチモーダルデータセットを導入しました。このデータセットは、キャプショニング、推論蒸留、回答書き換え、検証を含む6段階のパイプラインを経て構築され、SFTのための高品質な段階的視覚推論トレースと、同じデータソースからのより挑戦的なRL分割を含んでいます。このデータセットを用いて、SFT、RL、およびそれらの組み合わせを比較する広範な実験を行いました。結果は、SFTがモデルに推論形式を学習させる一方で、整列されたモデルを模倣的で硬直した推論モードに固定し、さらなる学習を妨げることが多いことを示しています。一方、我々のRLアプローチは、知覚と認知の両方の信号を統合した新しい混合報酬モジュールを備えたGroup Relative Policy Optimization(GRPO)に基づいており、より本物の適応的な推論行動を促進します。特に、Qwen2.5VL 3Bに基づく我々のモデルVLAA-Thinkerは、Open LMM Reasoning Leaderboard(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)において、4BスケールのLVLMの中でトップ1の性能を達成し、従来の最先端を1.8%上回りました。我々の発見が、推論能力を持つLVLMの開発に貴重な洞察を提供し、この分野の将来の研究に役立つことを願っています。
AlayaDBは、AlayaDB AIにおける大規模言語モデル(LLM)の効率的かつ効果的な長文脈推論のためにネイティブに設計された最先端のベクトルデータベースシステムです。具体的には、LLM推論システムからKVキャッシュとアテンション計算を分離し、それらを新たなベクトルデータベースシステムにカプセル化しています。Model as a Serviceプロバイダー(MaaS)にとって、AlayaDBは既存の代替ソリューション(例:KVキャッシュの分離、検索ベースのスパースアテンション)と比較して、より少ないハードウェアリソースを消費し、さまざまな種類のサービスレベル目標(SLO)を持つワークロードに対して高い生成品質を提供します。AlayaDBの核心は、LLM推論のためのアテンション計算とキャッシュ管理をクエリ処理プロシージャに抽象化し、ネイティブのクエリオプティマイザを介してパフォーマンスを最適化することにあります。本論文では、(i)業界パートナーからの3つのユースケースと、(ii)LLM推論ベンチマークにおける広範な実験結果を通じて、AlayaDBの有効性を実証します。
本論文では、根本的な疑問に取り組む:「潜在拡散モデルを変分自己符号化器(VAE)トークナイザーとエンドツーエンドで同時に訓練することは可能か?」従来の深層学習の知見では、可能な限りエンドツーエンド訓練が望ましいとされている。しかし、潜在拡散トランスフォーマーにおいては、標準的な拡散損失を用いてVAEと拡散モデルを同時に訓練することは効果的でなく、最終的な性能の低下を引き起こすことが観察されている。我々は、拡散損失が効果的でない一方で、表現アライメント(REPA)損失を通じてエンドツーエンド訓練が可能になることを示す。これにより、訓練プロセス中にVAEと拡散モデルの両方を同時に調整することが可能となる。提案された訓練手法(REPA-E)は単純ながらも驚くべき性能を示し、拡散モデルの訓練速度をREPAおよび従来の訓練手法と比較してそれぞれ17倍以上、45倍以上高速化する。興味深いことに、REPA-Eを用いたエンドツーエンド調整はVAE自体も改善し、潜在空間の構造と下流の生成性能が向上する。最終的な性能において、我々のアプローチは新たな最先端を達成し、ImageNet 256×256において分類器不要ガイダンスの有無でそれぞれFID 1.26および1.83を達成した。コードはhttps://end2end-diffusion.github.ioで公開されている。
既存の大規模言語モデル(LLM)エージェントの科学的発見に関する評価では、提案手法の実現可能性を客観的に評価するためのベースラインや指標が不足している。この問題に対処するため、我々はMLRC-Benchを導入した。これは、言語エージェントが挑戦的な機械学習(ML)研究コンペティションにどの程度効果的に対処できるかを定量化するためのベンチマークである。我々のベンチマークは、新たな方法論を必要とする未解決の研究問題に焦点を当てており、OpenAIのMLE-Bench(Chan et al., 2024)やMETRのRE-Bench(Wijk et al., 2024)などの最近のベンチマークとは対照的である。これらのベンチマークは、十分なエンジニアリング努力によって解決可能な確立された研究タスクに焦点を当てている。従来の研究、例えばAI Scientist(Lu et al., 2024b)とは異なり、MLRC-BenchはLLM-as-a-judgeを使用してエンドツーエンドのエージェントパイプラインを評価するのではなく、新たな研究方法を提案し実装する主要なステップを測定し、新たに提案された厳密なプロトコルと客観的な指標で評価する。我々が選定した7つのコンペティションタスクのスイートは、LLMエージェントにとって重要な課題を明らかにしている。テストされた最良のエージェント(MLAB(Huang et al., 2024a)のgemini-exp-1206)でさえ、ベースラインとトップの人間参加者のスコアの間のギャップを9.3%しか埋められなかった。さらに、我々の分析は、LLMが判断した革新性と、最先端のML研究問題における実際のパフォーマンスとの間にミスアライメントがあることを明らかにしている。MLRC-Benchは動的なベンチマークであり、新しいMLコンペティションと共に継続的に成長するように設計されており、AIの研究能力を厳密かつ客観的に評価することを奨励する。
SIFT(Speech Instruction Fine-Tuning)を紹介します。これは、音声-テキスト大規模言語モデル(LLMs)の指示ファインチューニングおよび事前学習のために設計された5000万例のデータセットです。SIFT-50Mは、公開されている音声コーパスから構築されており、合計14,000時間の音声を含み、LLMsと既存の専門家モデルを活用しています。このデータセットは5つの言語をカバーし、多様な音声理解と制御可能な音声生成の指示を含んでいます。SIFT-50Mを使用して、SIFT-LLMを学習させ、指示追従ベンチマークにおいて既存の音声-テキストLLMsを上回り、基本的な音声タスクでも競争力のある性能を達成しました。さらに研究を支援するため、音声-テキストLLMsの指示追従能力を評価するために特別に設計されたベンチマークデータセットであるEvalSIFTも導入しました。
機械生成コンテンツに対する理想的な検出システムは、日々進化するより高度な大規模言語モデル(LLM)に対しても、あらゆる生成器において良好に機能することが求められる。既存のシステムは、短いテキストにおけるAI生成コンテンツの正確な識別に苦戦することが多い。さらに、すべてのテキストが完全に人間またはLLMによって作成されているわけではないため、我々は部分的なケース、すなわち人間とLLMが共著したテキストに焦点を当てた。本論文では、トークン分類タスクのために構築された一連のモデルを紹介する。これらのモデルは、人間と機械が共著したテキストの大規模なコレクションで訓練され、未知のドメイン、未知の生成器、非ネイティブスピーカーによるテキスト、および敵対的入力に対するテキストにおいても良好な性能を示した。また、23言語にわたる複数の人気のあるプロプライエタリLLMが主に共著した240万以上のテキストからなる新しいデータセットを紹介する。さらに、各ドメインおよび各生成器のテキストに対するモデルの性能に関する知見を提示する。追加の知見として、各敵対的手法に対する性能の比較、入力テキストの長さ、および生成されたテキストの特性と元の人間が作成したテキストとの比較が含まれる。
本論文では、Lidarベースの形状補完を実現するCAL(Complete Anything in Lidar)を提案します。これは、Lidarベースの意味的/パノプティックシーン補完と密接に関連しています。しかし、既存のLidarデータセットにラベル付けされた閉じた語彙からしか物体を補完・認識できない従来手法とは異なり、我々のゼロショットアプローチでは、マルチモーダルセンサーシーケンスから得られる時間的文脈を活用して、観測された物体の形状と意味的特徴を抽出します。これらはその後、Lidarのみのインスタンスレベル補完・認識モデルに蒸留されます。部分的な形状補完しか抽出していないにもかかわらず、我々の蒸留モデルは、データセット全体にわたる複数の部分観測から完全な物体形状を推論することを学習します。我々のモデルが、意味的およびパノプティックシーン補完の標準ベンチマークでプロンプトされ、物体を(アモーダルな)3Dバウンディングボックスとして位置特定し、固定クラス語彙を超えて物体を認識できることを示します。プロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/complete-anything-lidarです。
単眼動画から4次元の動的シーンを再構築することは価値があるが、各タイムスタンプが単一の視点からしか観測されないため、非常に困難な課題です。本論文では、Vivid4Dという新しいアプローチを提案します。これは、観測視点を拡張することで4次元単眼動画の合成を向上させるもので、単眼入力から多視点動画を生成します。既存の手法は、幾何学的な事前知識のみを利用するか、あるいは幾何学を無視して生成的アプローチを採用するかのどちらかでしたが、我々は両者を統合します。これにより、視点拡張をビデオインペインティングタスクとして再定式化し、単眼深度の事前知識に基づいて観測された視点を新しい視点にワープさせます。これを実現するため、ワープによるオクルージョンを模倣した合成マスクを用いて、ポーズ情報のないウェブ動画でビデオインペインティングモデルを訓練し、欠損領域の空間的・時間的一貫性を保証します。さらに、単眼深度の事前知識の不正確さを軽減するため、反復的な視点拡張戦略とロバストな再構成損失を導入します。実験結果から、本手法が単眼4Dシーンの再構築と補完を効果的に改善することが示されました。
Chain-of-Thought (CoT)プロンプティングは、問題を逐次的なステップに分解し、人間の論理を模倣してエラーを減らすことで、大規模言語モデル(LLM)の推論能力を向上させます。しかし、膨大な解空間と曖昧な制約を伴う複雑なタスクは、単一の推論チェーンの能力を超えることが多いです。可換環論と代数幾何学におけるMinimal Free Resolution (MFR)に着想を得て、我々はSyzygy of Thoughts (SoT)を提案します。これは、補助的で相互に関連する推論パスを導入することでCoTを拡張する新しいフレームワークです。SoTはより深い論理的依存関係を捉え、より堅牢で構造化された問題解決を可能にします。MFRはモジュールを最小ランクの自由モジュールの列に分解し、複雑なシステムに対する構造化された分析アプローチを提供します。この手法は「モジュール」「ベッティ数」「自由性」「写像」「完全性」「最小性」といった概念を導入し、元の複雑な問題を論理的に完結した最小部分問題に体系的に分解しながら、問題の主要な特徴を保持し、推論の長さを短縮します。我々はSoTを多様なデータセット(例:GSM8K、MATH)とモデル(例:GPT-4o-mini、Qwen2.5)でテストし、主流のCoT標準に匹敵またはそれを上回る推論精度を達成しました。さらに、サンプリングプロセスを代数的制約に整合させることで、LLMの推論時間のスケーラビリティを向上させ、透明な推論と高いパフォーマンスを両立させます。我々のコードはhttps://github.com/dlMARiA/Syzygy-of-thoughtsで公開されます。
3Dガウススプラッティング(3DGS)の最近の進展は、新規視点合成タスクにおいて顕著な可能性を示しています。分割統治パラダイムにより大規模シーン再構成が可能となりましたが、シーンの分割、最適化、および統合プロセスにおいて依然として重要な課題が残されています。本論文では、BlockGaussianという新しいフレームワークを紹介します。このフレームワークは、コンテンツを考慮したシーン分割戦略と可視性を考慮したブロック最適化を組み込むことで、効率的かつ高品質な大規模シーン再構成を実現します。具体的には、異なる領域間のコンテンツ複雑度の変動を考慮し、シーン分割時の計算負荷をバランスさせることで、効率的なシーン再構成を可能にします。独立したブロック最適化時の監督ミスマッチ問題に対処するため、個々のブロック最適化中に補助点を導入し、グラウンドトゥルースの監督を整合させ、再構成品質を向上させます。さらに、ブロック統合時に発生する空中浮遊物によるレンダリングの劣化を効果的に軽減する疑似視点幾何制約を提案します。大規模シーンにおける広範な実験により、本手法が再構成効率とレンダリング品質の両方において最先端の性能を達成し、最適化速度が5倍向上し、複数のベンチマークで平均PSNRが1.21 dB向上することが示されました。特に、BlockGaussianは計算要件を大幅に削減し、単一の24GB VRAMデバイスでの大規模シーン再構成を可能にします。プロジェクトページはhttps://github.com/SunshineWYC/BlockGaussianで公開されています。
我々は、コミュニティで質問された質問と回答から情報検索(IR)評価ベンチマークを自動的に構築するための再利用可能なフレームワークであるFreshStackを紹介します。FreshStackは以下のステップを実行します:(1)コードと技術文書からの自動コーパス収集、(2)コミュニティで質問された質問と回答からのナゲット生成、(3)ナゲットレベルのサポート、検索技術とハイブリッドアーキテクチャの融合を用いた文書検索。我々はFreshStackを使用して、急速に成長している最新のニッチなトピックに関する5つのデータセットを構築し、タスクが十分に挑戦的であることを保証します。FreshStackにおいて、既存の検索モデルをそのまま適用すると、5つのトピックすべてでオラクルアプローチに大きく劣り、IR品質を向上させる余地が十分にあることが示されています。さらに、リランカーが第一段階の検索精度を明確に向上させないケース(5つのトピックのうち2つ)を特定しました。我々は、FreshStackが現実的でスケーラブル、かつ汚染されていないIRおよびRAG評価ベンチマークの構築に向けた将来の研究を促進することを期待しています。FreshStackのデータセットは以下で利用可能です:https://fresh-stack.github.io。
人工知能(AI)による音声生成および音声クローニング技術の最近の進歩により、自然な音声と正確な音声再現が可能となった。しかし、多様なアクセントや言語的特徴を跨いだ社会技術システムへの影響は十分に理解されていない。本研究では、2つの合成AI音声サービス(SpeechifyとElevenLabs)を、アンケートとインタビューを用いた混合手法で評価し、技術的な性能を評価するとともに、ユーザーの生活経験がこれらの音声技術におけるアクセントの違いに対する認識にどのように影響するかを明らかにする。我々の調査結果は、5つの地域的な英語アクセントにわたる技術的性能の差異を明らかにし、現在の音声生成技術が意図せずに言語的特権やアクセントに基づく差別を強化し、新たな形のデジタル排除を生み出す可能性があることを示している。全体として、本研究は、開発者、政策立案者、組織が公平で社会的に責任あるAI音声技術を確保するための実践的な洞察を提供することで、包括的な設計と規制の必要性を強調している。