HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

27 papers found

潜在推論を用いたテスト時計算のスケーリングアップ：再帰的深層アプローチ
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

Feb 7

ByJonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein

150

我々は、潜在空間で推論を暗黙的に行うことで、テスト時の計算をスケーリングすることができる新しい言語モデルアーキテクチャを研究しています。当該モデルは、再帰ブロックを反復することによって動作し、テスト時に任意の深さまで展開されます。これは、より多くのトークンを生成することで計算をスケーリングする主流の推論モデルとは対照的です。思考の連鎖に基づくアプローチとは異なり、当該アプローチは特別なトレーニングデータを必要とせず、小さなコンテキストウィンドウで動作し、単語で簡単に表現できない種類の推論を捉えることができます。私たちは、35億のパラメータと8000億のトークンにスケールした概念実証モデルを提示します。その結果のモデルは、推論のベンチマークでのパフォーマンスを向上させることができ、時には50億のパラメータに相当する計算負荷まで劇的に向上することを示します。

Goku: フローベースのビデオ生成基盤モデル
Goku: Flow Based Video Generative Foundation Models

Feb 7

ByShoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu

106

本論文では、最先端のジョイント画像およびビデオ生成モデルファミリーであるGokuを紹介します。このモデルは、修正フローTransformerを活用して産業をリードするパフォーマンスを実現しています。高品質なビジュアル生成を可能にする基本要素について詳細に説明し、データキュレーションパイプライン、モデルアーキテクチャ設計、フロー式、効率的かつ堅牢な大規模トレーニングのための高度なインフラを含めます。Gokuモデルは、定性的および定量的評価の両方で優れたパフォーマンスを示し、主要なタスク全体で新たな基準を確立しています。具体的には、Gokuは、GenEvalでは0.76、DPG-Benchでは83.65（テキストから画像生成）、およびVBenchでは84.85（テキストからビデオタスク）を達成しています。この研究は、ジョイント画像およびビデオ生成モデルの開発において、研究コミュニティに貴重な示唆と実用的な進歩を提供していると考えています。

VideoRoPE: 優れたビデオロータリーポジション埋め込みの条件
VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Feb 7

ByXilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin

Rotary Position Embedding（RoPE）およびその派生物は、長い文脈を持つ能力により広く採用されていますが、1D RoPEをビデオに拡張することは、その複雑な時空間構造のために未解決の課題となっています。本研究では、RoPEをビデオに効果的に適応させるために重要な4つの特性を特定する包括的な分析を初めて紹介しましたが、これらの特性は以前の研究で十分に考慮されていませんでした。分析の一環として、V-NIAH（Visual Needle-In-A-Haystack）に周期的なジャマ要素を追加したV-NIAH-D（Visual Needle-In-A-Haystack with Distractors）タスクを導入しました。V-NIAH-Dタスクは、適切な時間次元の割り当てが欠如している以前のRoPE派生物がジャマ要素に簡単に惑わされることを示しています。分析に基づき、時空間関係を保持するように設計された3D構造を持つVideoRoPEを導入しました。VideoRoPEは、周期的な振動を緩和するための低周波数の時間割り当て、空間的対称性を維持するための対角配置、および時間と空間のインデックス付けを分離するための調整可能な時間間隔を特徴としています。VideoRoPEは、長いビデオ検索、ビデオ理解、およびビデオ幻想などの多様な下流タスクにわたって、以前のRoPE派生物を常に上回っています。弊社のコードは、以下のリンクから入手可能です：https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE}。

スライディングタイルアテンションを用いた高速ビデオ生成
Fast Video Generation with Sliding Tile Attention

Feb 6

ByPeiyuan Zhang, Yongqi Chen, Runlong Su, Hangliang Ding, Ion Stoica, Zhenghong Liu, Hao Zhang

拡散トランスフォーマー（DiTs）は、最先端のビデオ生成を実現していますが、計算コストが高くなっています。たとえば、720Pの5秒間のビデオを生成する際、全推論時間の945秒のうち、注意機構だけで800秒を要します。本論文では、この課題に取り組むために、スライディングタイルアテンション（STA）を導入しています。STAは、事前学習されたビデオ拡散モデルにおける注意スコアが主に局所化された3Dウィンドウ内に集中しているという観察に基づいています。STAは、局所的な時空間領域をスライドさせ、その領域に注目することで、完全な注意から冗長性を取り除きます。従来のトークン単位のスライディングウィンドウアテンション（SWA）とは異なり、STAは、ハードウェアに適したスライディングウィンドウデザインに基づいて、タイルごとに操作を行い、表現力を保ちながらハードウェア効率を向上させます。慎重なカーネルレベルの最適化により、STAは初めて効率的な2D/3Dスライディングウィンドウのようなアテンション実装を提供し、58.79%のMFUを達成しています。具体的には、STAはFlashAttention-2（FA2）に対して2.8〜17倍、FlashAttention-3（FA3）に対して1.6〜10倍の速度でアテンションを加速します。主要なビデオDiTであるHunyuanVideoにおいて、STAは品質の低下なしに、FA3の945秒から685秒までのエンドツーエンドのレイテンシを削減し、トレーニングを必要としません。ファインチューニングを可能にすることで、レイテンシを268秒まで低下させ、VBenchでわずか0.09%の低下を実現します。

QuEST: 1 ビットの重みと活性化関数を持つLLMの安定したトレーニング
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations

Feb 7

ByAndrei Panferov, Jiale Chen, Soroush Tabesh, Roberto L. Castro, Mahdi Nikdan, Dan Alistarh

大規模言語モデル（LLMs）の膨大なコストを削減するアプローチの1つは、トレーニングや展開において量子化されたまたは疎な表現を使用することです。トレーニング後の圧縮手法は非常に人気がありますが、そのような表現を直接トレーニングすることでより正確な圧縮モデルを得る問題、つまり、量子化感知トレーニング（QAT）はまだ解決されていません。例えば、最近の研究（arXiv:2411.04330v2）では、QATを使用してトレーニングできる「最適な」ビット幅を、標準のFP16/BF16精度と同等の精度を維持しながら、重みと活性化に8ビットを設定しました。私たちは、QuESTと呼ばれる新しい手法によってこの最先端技術を進化させ、FP16とパレート競争力を持ち、つまり、より低いモデルサイズでより優れた精度を提供し、重みと活性化を4ビット以下でトレーニングします。さらに、QuESTは1ビットの重みと活性化で安定したトレーニングを可能にします。QuESTは、QAT手法の2つの重要な側面を改善することによってこれを達成します：（1）Hadamard正規化およびMSE最適適合を介した重みと活性化の（連続的な）分布の正確で高速な量子化；（2）量子化された状態上で計算されたノイズの勾配と「真の」（しかし未知の）フル精度勾配との誤差を明示的に最小化するアイデアに基づいた新しい信頼勾配推定器。Llama型アーキテクチャ上の実験では、QuESTがハードウェアでサポートされる精度の全範囲にわたって安定したスケーリング則を導入し、疎な表現に拡張できることを示しています。QuESTによって生成されたモデルは効率的に実行できることを示すGPUカーネルサポートを提供します。当社のコードはhttps://github.com/IST-DASLab/QuESTで入手可能です。

AuraFusion360：360°無限シーン補完のための参照ベースの見えない領域の拡張を行うAI
AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

Feb 7

ByChung-Ho Wu, Yang-Jung Chen, Ying-Huan Chen, Jie-Ying Lee, Bo-Hsu Ke, Chun-Wei Tuan Mu, Yi-Chuan Huang, Chin-Yang Lin, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu

仮想現実から建築ビジュアライゼーションに至るアプリケーションにおいて、三次元シーンの修復は重要ですが、既存の手法は360度の無制限なシーンにおける視点の一貫性と幾何学的精度に課題を抱えています。本研究では、ガウススプラッティングで表現された3Dシーンにおいて高品質なオブジェクト除去と穴埋めを可能にする新しい参照ベースの手法であるAuraFusion360を提案します。当手法は、(1) 正確な遮蔽識別のための深度に敏感な未見マスク生成、(2) 追加のトレーニングを必要とせず正確な初期点配置を可能にするゼロショット手法である適応型ガイド付き深度拡散、および(3) 複数ビューの整合性のためのSDEditベースの詳細強調を導入します。また、360度の無制限なシーン修復のための初の包括的なデータセットである360-USIDを紹介します。幅広い実験により、AuraFusion360が既存の手法を大幅に上回り、劇的な視点変更において幾何学的精度を維持しつつ、優れた知覚品質を達成することが示されました。ビデオ結果やデータセットについては、弊社のプロジェクトページをご覧ください：https://kkennethwu.github.io/aurafusion360/。

前に戻って前進する：言語モデルの推論を向上させるための自己バックトラッキング
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

Feb 6

ByXiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li

大規模言語モデル（LLM）における遅い思考メカニズムの統合は、OpenAIのo1などのシステムによって示されるように、レベル2のAGIリーソナーを達成するための有望な方法を提供します。ただし、効率の悪い過剰思考や補助報酬モデルへの過度な依存など、いくつかの重要な課題が残っています。これらの制限は、効果的な推論の重要な要素である探索プロセスをLLMが内面化できないことから生じていることを指摘します。この問題に対処するための重要なステップとして、LLMがトレーニングと推論の両方でいつ、どこでバックトラックするかを自律的に決定できるようにすることが挙げられます。このため、我々は、自己バックトラッキングメカニズムを提案し、LLMにトレーニングと推論の両方でバックトラックする能力を備えさせます。このメカニズムは、遅い思考プロセスを自己改善を通じて高速思考に変換することで、推論能力だけでなく効率も向上させます。経験的評価により、提案手法が最適パスの教師付き微調整方法と比較して40％以上の性能向上を達成し、LLMの推論能力を大幅に向上させることが示されました。この研究が、より高度で堅牢なリーソナーの開発に向けた新しい有望な道筋を提示していると考えています。

フラッシュビデオ：効率的な高解像度ビデオ生成のための詳細への忠実な流れ
FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Feb 7

ByShilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo

DiT拡散モデルは、モデル容量とデータ規模の拡張性を活用して、テキストからビデオへの生成において大きな成功を収めています。ただし、テキストプロンプトと整合性の高いコンテンツと動きの忠実度を実現するには、しばしば大規模なモデルパラメータと多数の関数評価（NFEs）が必要です。リアルで視覚的に魅力的な詳細は通常、高解像度の出力に反映されるため、特に単一段階のDiTモデルでは計算要件がさらに増大します。これらの課題に対処するために、私たちは新しい2段階フレームワーク、FlashVideoを提案します。このフレームワークは、モデル容量とNFEsを段階ごとに戦略的に割り当てて生成の忠実度と品質をバランスさせます。最初の段階では、計算効率を向上させるために大規模なパラメータと十分なNFEsを利用した低解像度生成プロセスを通じてプロンプトの忠実度が優先されます。2段階目では、低解像度と高解像度の間でフローマッチングを確立し、最小限のNFEsで細部を効果的に生成します。定量的および視覚的な結果は、FlashVideoが最先端の高解像度ビデオ生成を優れた計算効率で達成していることを示しています。さらに、2段階設計により、ユーザーは完全な解像度生成に踏み切る前に初期出力をプレビューできるため、計算コストや待ち時間を大幅に削減し、商業的実用性を向上させることが可能となります。

エージェンシーはフレームに依存しています。
Agency Is Frame-Dependent

Feb 6

ByDavid Abel, André Barreto, Michael Bowling, Will Dabney, Shi Dong, Steven Hansen, Anna Harutyunyan, Khimya Khetarpal, Clare Lyle, Razvan Pascanu, Georgios Piliouras, Doina Precup, Jonathan Richens, Mark Rowland, Tom Schaul, Satinder Singh

エージェンシーとは、システムが目標に向かって結果を誘導する能力であり、生物学、哲学、認知科学、人工知能の分野で研究されている中心的なトピックです。システムがエージェンシーを示すかどうかを判断することは、有名な難問です。例えば、Dennett（1989）は、岩、温度調節器、またはロボットがそれぞれエージェンシーを持つかどうかを決定する原則をどのように決定するかというパズルを強調しています。ここでは、強化学習の観点からこのパズルに取り組み、エージェンシーは基本的にフレーム依存であると主張します。システムのエージェンシーを測定する際には、参照フレームに対して行われる必要があると考えます。Barandiaranら（2009）やMoreno（2018）によって提案されたエージェンシーの基本的な特性が、それ自体がフレーム依存であるという哲学的な議論を提示することで、この主張を支持します。エージェンシーの基礎科学にはフレーム依存性が必要であり、この主張が強化学習に与える影響について議論します。

DuoGuard: 多言語LLMのための2プレイヤーRL駆動フレームワーク　Guardrails
DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

Feb 7

ByYihe Deng, Yu Yang, Junkai Zhang, Wei Wang, Bo Li

大規模言語モデル（LLMs）の急速な進歩により、責任ある使用を確保するためのガードレールモデルの必要性が増しており、特に危険なコンテンツや違法コンテンツの検出において重要です。英語にはかなりの安全データが存在しますが、他言語のオープンソースの安全データが不足しているため、多言語ガードレールモデリングは未だ未開拓の領域です。このギャップを埋めるために、我々は新しい二人対戦型強化学習（RL）フレームワークを提案します。ここでは、ジェネレータとガードレールモデルが敵対的に共進化し、多言語ガードレールトレーニングのための高品質な合成データを生成します。この相互作用を二人対戦ゲームとして理論的に形式化し、ナッシュ均衡への収束を証明します。実証評価によると、我々のモデル「\ours」は最先端のモデルを凌駕し、英語のベンチマークでLlamaGuard3（8B）よりもほぼ10%の改善を達成し、推論時には4.5倍高速で、かつ大幅に小さなモデル（0.5B）です。収集された実データにおいて、低リソース言語の不均衡を解消する上で、多言語安全タスクにおいて大幅な進歩を達成します。削減研究は、英語と他言語のオープンソースデータの不均衡を埋めるために合成データ生成が果たす重要な役割を強調しています。これらの知見は、合成データ生成のための拡張可能で効率的なアプローチを確立し、LLMの安全性を向上させるための改良された多言語ガードレールモデルの道を開くものです。コード、モデル、データは https://github.com/yihedeng9/DuoGuard でオープンソース化されます。

大規模言語モデルのテスト時スケーリングを用いたシンボリック世界モデルの生成
Generating Symbolic World Models via Test-time Scaling of Large Language Models

Feb 7

ByZhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu

複雑な計画問題を解決するには、大規模言語モデル（LLM）が状態遷移を明示的にモデル化して規則違反を回避し、制約を遵守し、最適性を確保する必要があります。これは、自然言語の固有の曖昧さによって妨げられるタスクです。このような曖昧さを克服するために、計画ドメイン定義言語（PDDL）が計画の抽象化として活用され、正確で形式的な状態記述を可能にします。PDDLを使用することで、記号的な世界モデルを生成し、A*などのクラシックな探索アルゴリズムを適用して最適な計画を見つけることができます。ただし、現在のLLMによるPDDLドメインの直接生成は、PDDLトレーニングデータの不足により未解決の課題です。この課題に対処するために、私たちはLLMのテスト時計算を拡大してPDDL推論能力を向上させ、高品質なPDDLドメインの生成を可能にすることを提案します。具体的には、初期解の品質を向上させるためにBest-of-Nサンプリングアプローチを最初に使用し、その後、口頭での機械学習によって解を精緻に改良するシンプルかつ効果的なアルゴリズムを導入します。私たちの手法は、PDDLドメインの生成においてo1-miniを大幅に上回り、2つのタスク（つまり、自然言語の記述またはPDDL問題からPDDLドメインを生成する）で50％以上の成功率を達成します。これは追加のトレーニングを必要とせずに行われます。PDDLを状態の抽象化として活用することで、私たちの手法は、競技レベルのほとんどすべての計画タスクで現在の最先端の手法を上回ることができます。

CMoE: 効率的なLLM推論のためのMixture-of-Expertsの迅速な彫刻
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference

Feb 6

ByZehua Pei, Lancheng Zou, Hui-Ling Zhen, Xianzhi Yu, Wulong Liu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu

大規模言語モデル（LLMs）は、モデルパラメータをスケーリングすることで印象的な性能を達成していますが、これには著しい推論オーバーヘッドが伴います。LLMパラメータを支配するフィードフォワードネットワーク（FFNs）は、隠れニューロンで高い活性スパース性を示しています。これを活用するために、一部のパラメータのみがアクティブ化されるMixture-of-Experts（MoE）アーキテクチャの使用が提案されています。ただし、既存のアプローチはしばしば多大なトレーニングデータとリソースが必要であり、実用性が制限されています。私たちは、密なモデルから効率的にMoEモデルを切り出すための新しいフレームワークであるCMoE（Carved MoE）を提案します。CMoEは、効率的な専門家グループ化と軽量な適応を通じて卓越したパフォーマンスを達成します。まず、ニューロンは活性化率に基づいて共有された専門家とルーティングされた専門家にグループ化されます。次に、異なる可能性のあるルーティングプロセスと負荷分散を組み込んだ、ゼロからのトレーニングを必要としないルーティングメカニズムを構築します。控えめなデータを使用して、CMoEは、7Bの密なモデルからMoEを5分以内に生成します。軽量なファインチューニングにより、1時間未満で高性能の回復を達成します。私たちは、https://github.com/JarvisPei/CMoE でコードを公開しています。

オンデバイスのSora：モバイルデバイス向けの拡散ベースのテキストからビデオへの生成を可能にする
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

Feb 5

ByBosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee

オンデバイスSoraを提案します。これは、スマートフォン向けに効率的に動作する拡散ベースのオンデバイステキストからビデオへの生成の初の先駆的なソリューションです。Open-Soraをベースに構築されたオンデバイスSoraは、計算およびメモリに制限のあるモバイルデバイス上での拡散ベースのテキストからビデオへの生成の課題に対処するために、3つの新しい技術を適用しています。まず、リニアプロポーショナルリープ（LPL）は、効率的なリープベースのアプローチを通じて、ビデオの拡散に必要な過剰なノイズ除去ステップを削減します。2つ目は、時間次元トークンマージング（TDTM）であり、注意層における集中的なトークン処理計算を、時間次元に沿って連続するトークンをマージすることで最小限に抑えます。3つ目は、動的ロードによる同時推論（CI-DL）であり、大きなモデルを小さなブロックに動的に分割し、メモリに読み込んで同時モデル推論を行うことで、デバイスメモリの制限に効果的に対処します。オンデバイスSoraをiPhone 15 Proに実装し、実験評価により、高品質なビデオを生成する能力があり、高性能GPU上で実行されるOpen-Soraに匹敵します。これらの結果は、オンデバイスSoraがリソースに制約のあるモバイルデバイスで効率的かつ高品質なビデオ生成を可能にし、アクセシビリティを拡大し、ユーザーのプライバシーを保護し、クラウドインフラへの依存を減らし、関連するコストを削減することを示しています。提案されたオンデバイスSoraは、最先端の生成技術を民主化し、コモディティモバイルおよび組み込みデバイスでのビデオ生成機能を可能にする重要な第一歩として展望されます。コードの実装はGitHubリポジトリで公開されています：https://github.com/eai-lab/On-device-Sora。

LMの合成的汎化と幻覚における線形相関
Linear Correlation in LM's Compositional Generalization and Hallucination

Feb 6

ByLetian Peng, Chenyang An, Shibo Hao, Chengyu Dong, Jingbo Shang

言語モデル（LMs）の一般化に関する議論が活発化しており、それらの一般知能への潜在的な可能性と基本的な知識構成（例：逆/遷移の呪い）との戦いが対照されています。本論文では、知識構成中のLMsにおける線形相関の現象を明らかにします。説明すると、特定の関連する知識間には、次のトークン予測のロジットをマッピングする特定の線形変換が存在し、例えば、与えられたXに対して、「X lives in the city of」⇒「X lives in the country of」となります。これは、パリ⇒フランスなどの人間の知識構成における線形性を反映しています。私たちの調査結果は、線形変換が大規模な微調整に対して強靭であり、現実世界の関係と整合する場合に更新された知識を一般化するが、それが逸脱すると幻覚を引き起こすことを示しています。経験的結果は、線形相関がLMの一般化の潜在的な識別子として機能する可能性があることを示唆しています。最後に、このような線形相関は、単一のフィードフォワードネットワークと事前学習された語彙表現を用いて学習できることを示し、LMの一般化が後者に大きく依存していることを示しています。

パッチ化におけるスケーリング則：1枚の画像は50,176トークン以上の価値がある
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Feb 6

ByFeng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie

Vision Transformer（ViT）の導入以来、パッチ化は平易な視覚アーキテクチャのための画像トークン化手法として事実上のものと見なされてきました。画像の空間サイズを圧縮することで、この手法はトークンシーケンスを効果的に短縮し、ViTのような平易なアーキテクチャの計算コストを削減することができます。本研究では、このパッチ化ベースの圧縮符号化パラダイムによって引き起こされる情報損失と、それが視覚理解にどのように影響するかを徹底的に調査することを目的としています。私たちは広範囲なパッチサイズスケーリング実験を実施し、興味深いスケーリング則を観察しました。つまり、モデルはパッチサイズが減少すると一貫して利益を得て予測性能が向上し、最小の1x1のパッチサイズ、つまりピクセルトークン化に達するまでです。この結論は、異なるビジョンタスク、さまざまな入力スケール、ViTや最近のMambaモデルなど、さまざまなアーキテクチャに広く適用されます。さらに、副産物として、より小さなパッチでは、タスク固有のデコーダヘッドが密な予測に対してより重要でなくなることを発見しました。実験では、ビジュアルシーケンスを50,176トークンという非常に長い長さにスケーリングし、ImageNet-1kベンチマークでベースサイズのモデルで競争力のあるテスト精度84.6％を達成しました。この研究が、非圧縮のビジョンモデルの構築に関する将来の研究の洞察と理論的基盤を提供できればと願っています。コードはhttps://github.com/wangf3014/Patch_Scalingで入手可能です。

取り残されたタスクはありません：共通およびタスク固有の部分空間を持つ等方モデルのマージング
No Task Left Behind: Isotropic Model Merging with Common and Task-Specific Subspaces

Feb 7

ByDaniel Marczak, Simone Magistri, Sebastian Cygert, Bartłomiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer

モデルの統合は、複数のタスク固有モデルの重みを1つのマルチタスクモデルに統合します。この問題に対する最近の関心にもかかわらず、統合されたモデルとシングルタスクモデルとの間には、大きな性能差が残っています。本論文では、事前にトレーニングされたモデルに適用される重み更新行列であるタスク行列の主要な特性を調査し、効果的な統合を可能にする要因を検討します。タスク固有および統合された行列の特異成分間の整合性が、事前にトレーニングされたモデルに対する性能向上と強く相関していることを示します。これに基づき、タスク行列の特異値スペクトルを平坦化し、整合性を向上させ、性能差を減少させる等方的統合フレームワークを提案します。さらに、共通およびタスク固有の部分空間を組み込むことで、整合性と性能をさらに向上させます。提案手法は、さまざまなタスクセットやモデルスケールを含む複数のシナリオで最先端の性能を達成します。この研究は、モデルの統合ダイナミクスの理解を進展させ、追加のトレーニングを必要とせずにモデルを統合する効果的な方法論を提供します。コードはhttps://github.com/danielm1405/iso-merging で入手可能です。

CodeSteer: コード/テキストガイダンスを介したシンボリック拡張言語モデル
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

Feb 4

ByYongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan

既存の手法は、大規模言語モデル（LLM）をテキスト推論とコード生成の間で効果的に誘導することに失敗し、象徴的な計算能力が十分に活用されていません。本研究では、LLMのコード/テキスト生成を効果的に誘導するための方法であるCodeSteerを紹介します。我々は、調整可能な複雑さを持つ37の象徴的なタスクからなる包括的なベンチマークSymBenchを構築し、また、12,000のマルチラウンド誘導/生成軌跡と5,500の誘導比較ペアのデータセットを合成します。新しく設計されたマルチラウンド教師付き微調整（SFT）と直接的な選好最適化（DPO）を用いて、Llama-3-8Bモデルを微調整します。提案された象徴的および自己回答チェッカーを組み込んだ結果のモデルであるCodeSteerLLMは、より大きなモデルのコード/テキスト生成を効果的に誘導します。CodeSteerをGPT-4oに組み込むことで、平均パフォーマンススコアが53.3から86.4に向上し、既存の最高のLLMであるOpenAI o1（82.7）、o1-preview（74.8）、およびDeepSeek R1（76.8）を上回ります（28の既知タスク、9の未知タスクを含む37のタスク全体）。GPT-4o向けにトレーニングされたCodeSteerは、Claude、Mistral、およびGPT-3.5において平均41.8のパフォーマンス向上を示し、優れた汎用性を実証します。CodeSteerによって誘導されたLLMは、象徴的な計算を十分に活用して高度に複雑なタスクで強力なパフォーマンスを維持します。モデル、データセット、コードは以下のリンクから入手可能です：https://github.com/yongchao98/CodeSteer-v1.0.

QLIP：テキストに整列したビジュアルトークン化は、自己回帰的多モーダル理解と生成を統一します。
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

Feb 7

ByYue Zhao, Fuzhao Xue, Scott Reed, Linxi Fan, Yuke Zhu, Jan Kautz, Zhiding Yu, Philipp Krähenbühl, De-An Huang

我々は、最先端の再構成品質と最先端のゼロショット画像理解を組み合わせた、Quantized Language-Image Pretraining（QLIP）という視覚トークン化手法を紹介します。QLIPは、再構成と言語-画像の整合性の目的を持つバイナリ球面量子化ベースのオートエンコーダを訓練します。我々は、これら2つの目的が相いれない必要はないことを初めて示しました。訓練中に2つの損失項目を動的にバランスさせ、画像-言語の事前訓練の大規模バッチ要件と再構成目的によって課せられるメモリボトルネックを効果的に組み合わせるための2段階の訓練パイプラインが効果的であることを示しました。QLIPの有効性を検証し、マルチモーダル理解とテキスト条件付き画像生成のための単一モデルとしてのQLIPの性能を示します。具体的には、QLIPは、LLaVAのビジュアルエンコーダやLlamaGenの画像トークナイザーの代替として、同等またはそれ以上の性能で機能します。最後に、QLIPが理解と生成のための統一された混合モダリティ自己回帰モデルを実現することを示します。

時間の迷子：マルチモーダルLLMにおける時計とカレンダーの理解に関する課題
Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

Feb 7

ByRohit Saxena, Aryo Pradipta Gema, Pasquale Minervini

視覚表現から時間を理解することは、基本的な認知スキルですが、マルチモーダル大規模言語モデル（MLLMs）にとっては依然として課題です。本研究では、アナログ時計と年間カレンダーを通じた時間と日付の解釈能力をMLLMsについて調査しています。このために、構造化されたデータセットを収集しました。このデータセットには、以下の2つのサブセットが含まれています。1）ClockQAは、さまざまな種類の時計スタイル（標準、黒文字盤、秒針なし、ローマ数字、矢印針時計）と時間に関連する質問がペアになっています。2）CalendarQAは、年間カレンダー画像と、クリスマス、元日などの一般的に知られている日付から、年の100日目や153日目などの計算に基づく日付まで幅広い質問が含まれています。MLLMsが時間に関連する視覚データを提示された際に、視覚認識、数理推論、時間推論をどのように実行できるかを分析することを目指しています。私たちの評価によると、最近の進歩にもかかわらず、時間を信頼性を持って理解することは、MLLMsにとって依然として大きな課題であることが示されています。

大規模言語モデルを使用した質問応答におけるARR：分析、検索、および推論を通じて
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

Feb 7

ByYuwei Yin, Giuseppe Carenini

大規模言語モデル（LLMs）は、しばしば複数選択式の質問応答（QA）タスクとして構造化される難解なベンチマークで顕著なパフォーマンスを達成しています。ゼロショットのChain-of-Thought（CoT）プロンプティングは、LLMsの推論を向上させますが、「段階的に考える」という曖昧で一般的なガイダンスしか提供しません。本論文では、QA問題の解決において質問の意図を分析し、関連情報を取得し、段階的に推論するという3つの重要なステップを明示的に組み込む直感的で効果的なゼロショットプロンプティング手法であるARRを紹介します。多様で困難なQAタスク全体にわたる包括的な実験は、ARRが一貫してベースライン（ARRプロンプティングなし）を改善し、CoTを上回ることを示しています。部分削除実験と事例研究は、分析、取得、推論の各要素の肯定的な貢献をさらに検証しています。特に、意図分析はARRにおいて重要な役割を果たします。さらに、さまざまなモデルサイズ、LLMシリーズ、生成設定全体にわたる詳細な評価は、ARRの効果、堅牢性、一般性を確固たるものにしています。

価値ベースの深層強化学習は予測可能にスケールします。
Value-Based Deep RL Scales Predictably

Feb 6

ByOleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar

データと計算のスケーリングは、機械学習の成功にとって重要です。ただし、スケーリングには予測可能性が求められます：より多くの計算リソースやデータを使用しても、パフォーマンスが向上するだけでなく、小規模な実験からもそのパフォーマンスを予測できる方法が必要です。本論文では、価値ベースのオフポリシー強化学習手法が、その病的な振る舞いに関するコミュニティの伝説にもかかわらず、予測可能であることを示します。まず、与えられたパフォーマンスレベルを達成するためのデータと計算リソースの要件がパレートフロンティア上にあり、これはデータ更新率（UTD）によって制御されています。このフロンティアを推定することで、より多くの計算リソースが与えられた場合のデータ要件、およびより多くのデータが与えられた場合の計算要件を予測できます。第二に、与えられたパフォーマンスに対してデータと計算リソース全体の予算を最適に割り当て、与えられた予算でパフォーマンスを最大化するためのハイパーパラメータを決定します。第三に、このスケーリング振る舞いは、まず強化学習に固有の過学習や可塑性損失の影響を管理するために、ハイパーパラメータ間の予測可能な関係を最初に推定することによって可能になります。我々は、DeepMind Control、OpenAI gym、IsaacGymにおいて、データ、計算リソース、予算、またはパフォーマンスの高いレベルへの外挿時に、SAC、BRO、PQLの3つのアルゴリズムを使用して、このアプローチを検証します。

YINYANG-ALIGN：相反する目標のベンチマークおよびテキストから画像へのアラインメントのための多目的最適化ベースのDPOの提案
YINYANG-ALIGN: Benchmarking Contradictory Objectives and Proposing Multi-Objective Optimization based DPO for Text-to-Image Alignment

Feb 5

ByAmitava Das, Yaswanth Narsupalli, Gurpreet Singh, Vinija Jain, Vasu Sharma, Suranjana Trivedy, Aman Chadha, Amit Sheth

テキストから画像（T2I）システムにおける正確なアラインメントは、生成されたビジュアルがユーザーの意図を正確に表現するだけでなく、厳格な倫理的および美的基準に準拠することを確実にするために重要です。Google Geminiのような事例では、アラインメントの誤りが重大な公衆からの反発を引き起こしました。これは、堅牢なアラインメントメカニズムの重要性を強調しています。一方、大規模言語モデル（LLMs）はアラインメントにおいて注目すべき成功を収めています。これらの進展を基に、研究者たちは、直接的な選好最適化（DPO）などの類似のアラインメント手法をT2Iシステムに適用し、画像生成の忠実度と信頼性を向上させることに意欲を燃やしています。 YinYangAlignは、T2Iシステムのアラインメントの忠実度を系統的に定量化する先進的なベンチマークフレームワークを提供します。このフレームワークは、画像生成における基本的で本質的に矛盾する6つの設計目標に対処しています。各ペアは、ユーザープロンプトへの遵守と創造的な変更のバランス調整や、視覚的な一貫性と並行して多様性を維持するなど、画像生成における基本的な緊張関係を表しています。YinYangAlignには、人間のプロンプト、アラインされた（選択された）応答、アラインメントの誤り（拒否された）AI生成の出力、および矛盾の根底にある説明が含まれる詳細な公理データセットが含まれています。

持続的状態を持つ連続3D知覚モデル
Continuous 3D Perception Model with Persistent State

Jan 21

ByQianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa

幅広い3Dタスクを解決できる統合フレームワークを提案します。当該手法は、状態を持つ再帰モデルを特徴とし、各新しい観測ごとにその状態表現を連続的に更新します。画像のストリームが与えられると、この進化する状態は、オンラインで新しい入力ごとにメトリックスケールのポイントマップ（ピクセルごとの3Dポイント）を生成するために使用できます。これらのポイントマップは共通の座標系内に存在し、新しい画像が到着するたびに更新される一貫した密なシーン再構築に蓄積できます。CUT3R（3D再構築用の連続更新トランスフォーマー）と呼ばれる当該モデルは、現実世界のシーンの豊富な先行事項を捉えます。画像の観測から正確なポイントマップを予測するだけでなく、未見のシーン領域を探査することで、仮想的な未観測ビューで推論することもできます。当該手法はシンプルでありながら非常に柔軟であり、ビデオストリームまたは順不同の写真コレクションである可能性があり、静的および動的なコンテンツの両方を含む画像の長さを自然に受け入れます。我々は、さまざまな3D/4Dタスクで当該手法を評価し、各タスクで競争力のあるまたは最先端のパフォーマンスを示します。プロジェクトページ：https://cut3r.github.io/

会議代理者：LLMのベンチマークを設定し、我々の代わりに会議に出席することに関するもの
MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf

Feb 5

ByLingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

現代の職場において、会議はアイデアの交換やチームの調整を確保するために不可欠ですが、時間の消費、スケジュールの衝突、効率の低い参加などの課題に直面することがよくあります。最近の大規模言語モデル（LLMs）の進歩は、自然言語生成や推論における強力な能力を示しており、LLMsが会議において参加者を効果的に代理できるかという問いを促しています。このために、我々はプロトタイプのLLMパワード会議代理システムを開発し、実際の会議の記録を使用して包括的なベンチマークを作成します。我々の評価によると、GPT-4/4oは積極的で慎重な参加戦略の間でバランスの取れたパフォーマンスを維持しています。一方、Gemini 1.5 Proはより慎重な傾向があり、Gemini 1.5 FlashやLlama3-8B/70Bはより積極的な傾向を示しています。全体として、約60％の応答が少なくとも一つの重要なポイントに対処しています。ただし、現実の環境でよく見られる転写エラーを軽減し、関連性のないまたは繰り返しの内容を減らすために改善が必要です。さらに、我々はシステムを実践的な環境に実装し、デモからの実世界のフィードバックを収集します。我々の調査結果は、会議の負担を軽減するためにLLMsを会議代理として利用する可能性と課題を強調し、実用的な応用に関する貴重な示唆を提供しています。

ベクトルQを用いた適応型セマンティックプロンプトキャッシング
Adaptive Semantic Prompt Caching with VectorQ

Feb 6

ByLuis Gaspar Schroeder, Shu Liu, Alejandro Cuadron, Mark Zhao, Stephan Krusche, Alfons Kemper, Matei Zaharia, Joseph E. Gonzalez

意味的なプロンプトキャッシュは、類似の意味を持つプロンプトに対してキャッシュされた大規模言語モデル（LLM）生成応答を再利用することで、LLM推論の遅延とコストを削減します。ベクトル類似度メトリクスは、埋め込まれたプロンプトとキャッシュ内の最近傍の間の類似性を数量化する数値スコアを割り当てます。既存のシステムは、類似性スコアが十分に高いかどうかを判定するために静的な閾値に依存しています。私たちは、このワンサイズフィットオールの閾値が異なるプロンプト間で不十分であることを示します。私たちは、埋め込みの複雑さと不確実性に適応する埋め込み固有の閾値領域を学習するためのVectorQフレームワークを提案します。4つの異なるデータセットの組み合わせでの評価を通じて、VectorQがすべての静的閾値で最先端のシステムを一貫して上回り、キャッシュヒット率が最大12倍向上し、エラーレートが最大92％削減されることを示します。

SPARC: LLMにおける領域感知型プロンプト適応による堅牢な継続学習
SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs

Feb 5

ByDinithi Jayasuriya, Sina Tayebati, Davide Ettori, Ranganath Krishnan, Amit Ranjan Trivedi

大規模言語モデル（LLM）向けの軽量な継続学習フレームワークであるSPARCを提案します。このフレームワークは、主成分分析（PCA）を活用して、トレーニングデータのコンパクトな部分空間を特定します。この低次元空間でプロンプトを最適化することで、トレーニング効率が向上し、最も関連性の高い特徴に焦点を当てつつ、計算オーバーヘッドを削減します。さらに、モデルの内部構造が変更されないため、事前トレーニングで獲得した豊富な知識が完全に保持され、適応中に以前に学習した情報が損なわれることはありません。我々の手法は、タスク増分およびドメイン増分の継続学習セットアップの両方で高い知識保持を実現し、モデルのパラメータのわずか0.04％のみを微調整します。さらに、LoRAを統合することで、計算上の制約に適応性を高め、精度とトレーニングコストのトレードオフを可能にします。SuperGLUEベンチマークでの実験では、PCAベースのプロンプトチューニングとLoRAを組み合わせることで、モデルのパラメータのわずか1％を利用しつつ、完全な知識保持を維持し、精度を向上させることが示されました。これらの結果は、LLMにおける継続学習のためのスケーラブルでリソース効率の良いソリューションとして、当社のアプローチを確立しています。

エッジにおける堅牢な自律性のためのインテリジェントセンシングからアクションへ：機会と課題
Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges

Feb 4

ByAmit Ranjan Trivedi, Sina Tayebati, Hemant Kumawat, Nastaran Darabi, Divake Kumar, Adarsh Kumar Kosta, Yeshwanth Venkatesha, Dinithi Jayasuriya, Nethmi Jayasinghe, Priyadarshini Panda, Saibal Mukhopadhyay, Kaushik Roy

ロボティクス、スマートシティ、自律車両における自律エッジコンピューティングは、動的環境におけるリアルタイム意思決定のためにセンシング、処理、アクチュエーションのシームレスな統合に依存しています。その中心にあるのは、センシングからアクションへのループであり、センサー入力を計算モデルに反復的に整合させて適応制御戦略を推進します。これらのループはハイパーローカルな状況に適応し、リソース効率と応答性を向上させますが、リソース制約、マルチモーダルデータフュージョンにおける同期遅延、フィードバックループにおけるエラーの連鎖リスクなどの課題に直面します。本稿では、先進的でコンテキストに適したセンシングからアクションへの適応とアクションからセンシングへの適応が、環境の一部のみをセンシングし残りを予測するなど、タスク要件に基づいてセンシングと計算を動的に調整することで効率を向上させる方法に焦点を当てます。制御アクションを通じてセンシングを導くことで、アクションからセンシングへの経路はタスクの関連性とリソース利用を向上させますが、エラーの連鎖を防ぎ信頼性を維持するために堅牢なモニタリングが必要です。複数エージェントのセンシングアクションループは、分散エージェント間での協調によりリソース利用を最適化し、協力による多様な能力をさらに拡張します。さらに、生物学的システムに触発されたニューロモーフィックコンピューティングは、エネルギーを節約し、遅延を減少させ、階層的制御をサポートするスパイクベースのイベント駆動処理の効率的なフレームワークを提供し、複数エージェントの最適化に適しています。本稿は、アルゴリズムモデルをハードウェアと環境ダイナミクスに整合させ、スループット、精度、適応性を向上させるためにクロスレイヤーの相互依存関係を改善し、複雑な環境におけるエネルギー効率のエッジ自律性を向上させるためのエンドツーエンドの共同設計戦略の重要性を強調しています。