翻訳付きの日次キュレーションされたAI研究論文
現在の長文脈対応大規模言語モデル(LLM)は最大10万トークンの入力を処理できますが、2,000語という控えめな長さの出力を超える生成には苦戦しています。制御実験を通じて、モデルの有効な生成長は、教師ありファインチューニング(SFT)中に見たサンプルによって本質的に制限されていることがわかりました。言い換えれば、既存のSFTデータセットにおける長い出力の例の不足が、出力制限の原因となっています。この問題に対処するため、我々はAgentWriteを導入しました。これは、超長文生成タスクをサブタスクに分解し、既存のLLMが20,000語を超える一貫性のある出力を生成できるようにするエージェントベースのパイプラインです。AgentWriteを活用して、出力長が2,000語から32,000語までの6,000件のSFTデータを含むLongWriter-6kデータセットを構築しました。このデータセットをモデルトレーニングに組み込むことで、既存モデルの出力長を10,000語以上に拡張しつつ、出力品質を維持することに成功しました。また、超長文生成能力を評価するための包括的なベンチマークであるLongBench-Writeを開発しました。DPOを通じてさらに改善された9Bパラメータモデルは、このベンチマークにおいて最先端の性能を達成し、はるかに大規模なプロプライエタリモデルさえも凌駕しました。一般的に、我々の研究は、既存の長文脈LLMが既により大きな出力ウィンドウの可能性を秘めていることを示しています。モデルアラインメント中に拡張された出力を持つデータがあれば、この能力を引き出すことができるのです。我々のコードとモデルは、https://github.com/THUDM/LongWriter にあります。
Imagen 3を紹介します。これはテキストプロンプトから高品質な画像を生成する潜在拡散モデルです。品質と責任に関する評価について説明します。評価時点において、Imagen 3は他の最先端(SOTA)モデルよりも好まれる結果を示しました。さらに、安全性と表現に関する課題、およびモデルがもたらす潜在的な危害を最小化するために用いた手法についても議論します。
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェアエンジニアリング(SWE)問題を解決する上で大きな可能性を示しています。最も先進的なオープンソースのSWEエージェントは、SWE-Bench Liteにおける実際のGitHubイシューの27%以上を解決することができます。しかし、これらの高度なエージェントフレームワークは、特定のタスクでは優れている一方で、他のタスクでは性能が低いという多様な強みを持っています。これらのエージェントの多様性を最大限に活用するために、我々はDEI(Diversity Empowered Intelligence)というフレームワークを提案します。DEIは、既存のSWEエージェントフレームワークの上にメタモジュールとして機能し、エージェント集団を管理して問題解決を強化します。実験結果によると、DEIが導くエージェント委員会は、最良の個別エージェントの性能を大幅に上回ることができます。例えば、SWE-Bench Liteで最大27.3%の解決率を持つオープンソースSWEエージェントのグループは、DEIを使用することで34.3%の解決率を達成し、25%の改善を実現し、ほとんどのクローズドソースソリューションを上回ります。我々の最高性能グループは55%の解決率で優れ、SWE-Bench Liteで最高ランクを獲得しました。我々の研究結果は、協調型AIシステムとその複雑なソフトウェアエンジニアリング課題を解決する可能性に関する研究の拡大に貢献します。
科学文献の急速な増加は、研究者が自身の分野における最新の進展を把握し、新たな領域に深く入り込むことに大きな課題を突きつけています。本稿では、人工知能(AI)技術を活用して研究プロセスを加速し、研究者の多様な質問に答える革新的なプラットフォーム「OpenResearcher」を紹介します。OpenResearcherは、Retrieval-Augmented Generation(RAG)を基盤として構築され、大規模言語モデル(LLMs)を最新のドメイン固有の知識と統合します。さらに、OpenResearcherのために、研究者の質問を理解し、科学文献から検索し、取得した情報をフィルタリングし、正確かつ包括的な回答を提供し、これらの回答を自己修正するための様々なツールを開発しました。OpenResearcherはこれらのツールを柔軟に使用して、効率と効果のバランスを取ることができます。その結果、OpenResearcherは研究者が時間を節約し、新たな洞察を発見し、科学的ブレークスルーを推進する可能性を高めることを可能にします。デモ、ビデオ、コードは以下のURLで利用可能です:https://github.com/GAIR-NLP/OpenResearcher。
大規模言語モデル(LLM)のスケーリングは、様々なタスクにおける能力を革命的に向上させてきたが、この成長には効率的な計算戦略が不可欠である。Mixture-of-Experts(MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなくモデルサイズをスケールできる点で注目されている。しかし、現在のMoEモデルはパラメータ効率が低いことが多い。例えば、520億パラメータを持つ事前学習済みのMoEベースのLLMは、67億パラメータの標準モデルと同等の性能を示すことがある。MoEの重要な要素である現在のルーターは、異なる層で独立してトークンを割り当て、過去のルーティング情報を活用しないため、最適でないトークンとエキスパートの組み合わせが生じ、パラメータ効率の問題を引き起こす可能性がある。この問題を緩和するため、我々はLayerwise Recurrent Router for Mixture-of-Experts(RMoE)を提案する。RMoEは、Gated Recurrent Unit(GRU)を利用して、連続する層間のルーティング決定に依存関係を確立する。この層間再帰は、入力トークンに対して効率的に並列計算が可能であり、許容可能なコストを導入する。我々の広範な実験的評価により、RMoEベースの言語モデルが一連のベースラインモデルを一貫して上回ることが示された。さらに、RMoEは既存の手法と直交する新しい計算段階を統合しており、他のMoEアーキテクチャとのシームレスな互換性を可能にする。我々の分析によれば、RMoEの性能向上は、効果的な層間情報共有によるものであり、これがエキスパート選択と多様性を改善している。我々のコードはhttps://github.com/qiuzh20/RMoEで公開されている。
大規模言語モデルの発展は、「事前学習→調整」というパラダイムの形成につながっている。このパラダイムでは、モデルは通常大規模なテキストコーパスで事前学習され、その後人間の好みや下流タスクに合わせるためのチューニング段階を経る。本研究では、複数の中間段階の事前学習済みモデルチェックポイントをファインチューニングすることで、事前学習とファインチューニングの関係を調査した。18のデータセットでの結果から以下のことが示唆された:i) 継続的な事前学習は、ファインチューニング後に明らかになる潜在的な方法でモデルを改善する;ii) 追加のファインチューニングにより、事前学習段階でモデルが良好な性能を示さなかったデータセットは、良好な性能を示したデータセットよりも大幅に改善される;iii) 教師ありファインチューニングによりモデルは大幅に恩恵を受けるが、以前に習得したドメイン知識やファインチューニング中に見られなかったタスクを忘れる可能性がある;iv) 教師ありファインチューニング後、モデルは評価プロンプトに対して高い感度を示すが、この感度はさらなる事前学習によって緩和できる。
複雑な視覚シーンから物体中心の抽象概念を抽出する能力は、人間レベルの汎化能力の基盤をなす。物体中心学習手法の著しい進展にもかかわらず、3D物理世界における物体中心表現の学習は依然として重要な課題である。本研究では、SlotLifterという新しい物体中心放射モデルを提案する。このモデルは、スロット誘導特徴リフティングを通じてシーン再構築と分解を同時に行う。この設計により、物体中心学習表現と画像ベースレンダリング手法が統合され、4つの挑戦的な合成データセットと4つの複雑な実世界データセットにおいて、シーン分解と新規視点合成において最先端の性能を発揮し、既存の3D物体中心学習手法を大きく上回る。広範なアブレーション研究を通じて、SlotLifterの設計の有効性を実証し、将来の潜在的な方向性に対する重要な洞察を明らかにする。
ジェフリー・ヒントンが強調した「形状を認識するには、まずそれを生成することを学べ」という生成モデリングの考え方に触発され、我々は3次元拡散モデルを用いた物体分類の可能性を探求した。これらのモデルから得られる密度推定を活用し、我々のアプローチである「3次元物体のための拡散分類器(DC3DO)」は、追加の学習なしで3次元形状のゼロショット分類を可能にする。平均して、本手法はマルチビュー方式と比較して12.5%の性能向上を達成し、識別的アプローチを超える優れたマルチモーダル推論能力を示している。DC3DOはShapeNetで学習されたクラス条件付き拡散モデルを採用し、椅子と車の点群に対して推論を実行する。本研究は、3次元物体分類における生成モデルの可能性を浮き彫りにしている。
UniTは、触覚表現学習における新しいアプローチであり、VQVAEを使用してコンパクトな潜在空間を学習し、触覚表現として機能します。単一の単純な物体から得られた触覚画像を使用して、転移性と汎用性を備えた表現を学習します。この触覚表現は、知覚タスクや操作ポリシー学習を含むさまざまな下流タスクにゼロショット転移することができます。手内3D姿勢推定タスクでのベンチマークでは、UniTが既存の視覚的および触覚的表現学習手法を上回ることを示しています。さらに、UniTのポリシー学習における有効性は、多様な操作対象物と複雑なロボット-物体-環境の相互作用を含む3つの実世界タスクで実証されています。広範な実験を通じて、UniTは学習が簡単でプラグアンドプレイでありながら、広く有効な触覚表現学習手法であることが示されています。詳細については、オープンソースリポジトリhttps://github.com/ZhengtongXu/UniTとプロジェクトウェブサイトhttps://zhengtongxu.github.io/unifiedtactile.github.io/をご参照ください。
大規模言語モデル(LLM)は、幅広いタスクにおいてその能力を発揮してきた。しかし、多くのLLMは、高リソース言語と低リソース言語の間で性能に大きな差が見られる。この課題を緩和するため、我々は研究コミュニティのニーズに応えるべく、バランスの取れた高性能な多言語能力を備えたオープンソースの多言語LLM「FuxiTranyu」を提案する。FuxiTranyu-8Bは、80億パラメータを有するベースモデルであり、43の自然言語と16のプログラミング言語をカバーする6000億トークンからなる慎重にバランスを取った多言語データリポジトリを用いてゼロから訓練されている。ベースモデルに加えて、我々は2つの指示チューニングモデルも開発した。多様な多言語指示データセットでファインチューニングされたFuxiTranyu-8B-SFTと、アライメント能力を強化するために選好データセットでDPO(Direct Preference Optimization)を用いてさらに洗練されたFuxiTranyu-8B-DPOである。多岐にわたる多言語ベンチマークでの広範な実験により、FuxiTranyuが既存の多言語LLM(例:BLOOM-7B、PolyLM-13B、Llama-2-Chat-7B、Mistral-7B-Instruct)に対して競争力のある性能を発揮することが示された。ニューロンおよび表現レベルでの解釈可能性分析は、FuxiTranyuが異なる言語間で一貫した多言語表現を学習できることを示唆している。多言語LLMとその動作メカニズムに関するさらなる研究を促進するため、我々はベースモデルと指示チューニングモデルの両方、および58の事前学習チェックポイントをHuggingFaceとGithubで公開する。
映画脚本の要約は、長い入力文脈と映画特有の様々な要素を理解する必要があるため、挑戦的な課題です。大規模言語モデルは文書要約において大きな進歩を見せていますが、長い入力文脈の処理には依然として苦戦しています。さらに、テレビ番組の台本は最近の研究で注目を集めていますが、映画脚本の要約はまだ十分に研究されていません。この分野の研究を促進するため、私たちは映画脚本の抽象的要約のための新しいデータセット、MovieSumを提供します。このデータセットは、2200本の映画脚本とそれに対応するWikipediaのプロット概要で構成されています。私たちは、映画脚本の構造的要素を表現するために、手動でフォーマットを行いました。既存のデータセットと比較して、MovieSumにはいくつかの特徴があります:(1)テレビエピソードの脚本よりも長い映画脚本を含んでいます。(2)以前の映画脚本データセットの2倍の規模です。(3)追加の外部知識へのアクセスを容易にするため、IMDb IDを含むメタデータを提供します。また、最近リリースされた大規模言語モデルを私たちのデータセットに適用した要約の結果を示し、詳細なベースラインを提供します。
事前学習済みの大規模言語モデル(LLM)は、要約や固有表現認識といった従来の自然言語処理(NLP)タスクにおいて、顕著な能力を発揮してきました。本論文では、LLMを高品質なタンパク質配列の生成に応用する方法を探ります。具体的には、Mistral-7B1、Llama-2-7B2、Llama-3-8B3、gemma-7B4といった一連の事前学習済みLLMを採用し、有効なタンパク質配列を生成します。これらのモデルは全て公開されています。この分野の従来の研究とは異なり、我々のアプローチでは42,000種類のヒトタンパク質配列からなる比較的小規模なデータセットを利用します。これらのモデルを再学習させ、タンパク質関連データを処理し、生物学的に実現可能なタンパク質構造を生成することを保証します。我々の研究結果は、限られたデータ量であっても、適応させたモデルが数百万のタンパク質配列で学習されたProGenシリーズ、ProtGPT2、ProLLaMAといった確立されたタンパク質特化モデルと同等の効率性を示すことを実証しています。モデルの性能を検証し定量化するため、pLDDT、RMSD、TMスコア、REUといった標準的な指標を用いた比較分析を行います。さらに、計算生物学分野における透明性と協力を促進するため、学習済みの4つのモデル全てのバージョンを公開することを約束します。
人間とロボットの両方にとって、触覚センシングとして知られる触覚は、接触の多い操作タスクを実行する上で極めて重要です。ロボットの触覚センシングにおける3つの主要な課題は、1)センサ信号の解釈、2)新しいシナリオでのセンサ信号の生成、3)センサベースのポリシーの学習です。視覚触覚センサの場合、解釈は視覚センサ(例:RGBカメラ)との密接な関係によって容易になっています。しかし、生成は依然として困難です。なぜなら、視覚触覚センサは通常、接触、変形、照明、およびイメージングを伴い、これらをシミュレートするにはコストがかかるためです。その結果、ポリシーの学習も難航しています。なぜなら、シミュレーションを大規模なデータ収集に活用できないからです。本論文では、GPUベースの視覚触覚センサシミュレーションと学習のためのライブラリであるTacSL(タクセル)を紹介します。TacSLは、視覚触覚画像をシミュレートし、接触力分布を抽出するために、従来の最先端技術よりも200倍以上高速に動作し、広く使用されているIsaac Gymシミュレータ内で実行できます。さらに、TacSLは、複数のセンサーモデル、接触を多用するトレーニング環境、およびシミュレーションから現実への応用を促進するオンライン/オフラインアルゴリズムを含む学習ツールキットを提供します。アルゴリズム面では、シミュレーション内で効果的かつ効率的に触覚ベースのポリシーを学習し、現実世界に転移可能な新しいオンライン強化学習アルゴリズムである非対称アクター-クリティック蒸留(\sysName)を導入します。最後に、本ライブラリとアルゴリズムの有用性を、蒸留とマルチモーダルセンシングの利点を評価し、最も重要な点として、シミュレーションから現実への転移を実行することで実証します。補足ビデオと結果はhttps://iakinola23.github.io/tacsl/にあります。
拡散モデルに基づくテキストから画像生成モデルは、アートコンテンツ合成の分野を大きく進展させてきました。しかし、現在の肖像画スタイル化手法は、一般的に例に基づくモデルの微調整か、DDIM逆変換を用いて画像をノイズ空間に戻すことを必要とし、どちらも画像生成プロセスを大幅に遅らせます。これらの制限を克服するため、本論文では拡散モデルに基づく逆変換不要の肖像画スタイル化フレームワークを提案します。このフレームワークは、わずか4つのサンプリングステップでコンテンツとスタイルの特徴融合を実現します。我々は、一貫性蒸留を用いた潜在一貫性モデルが、ノイズの多い画像から代表的な一貫性特徴を効果的に抽出できることを観察しました。コンテンツ画像とスタイル画像の両方から抽出された一貫性特徴を融合するために、ターゲット画像のアテンション空間内でコンテンツとスタイルの特徴を緻密に統合するスタイル強調アテンション制御技術を導入しました。さらに、一貫性特徴における冗長な特徴を統合するための特徴融合戦略を提案し、アテンション制御の計算負荷を軽減します。広範な実験により、提案フレームワークがスタイル化の効率と忠実度を向上させる効果を検証しました。コードはhttps://github.com/liujin112/ZePoで公開されています。
一般的な分離ベースの話者匿名化システムは、通常、個別のエンコーダを使用して音声を内容、話者、およびプロソディの特徴に分離します。本論文では、新しい音声属性(例えば、感情)をより多く保持する必要がある場合に、このようなシステムをどのように適応させるかを探ります。既存のシステムは話者埋め込みを匿名化するのに優れていますが、感情を保持するようには設計されていません。このための2つの戦略を検討します。まず、事前に訓練された感情エンコーダから感情埋め込みを統合することで、プライバシー保護がわずかに損なわれるものの、感情の手がかりを保持できることを示します。あるいは、匿名化された話者埋め込みに適用する後処理ステップとして、感情補償戦略を提案します。これにより、元の話者の身元を隠蔽し、話者埋め込みの匿名化中に失われた感情的特徴を再導入します。具体的には、サポートベクターマシンを使用して感情属性をモデル化し、各感情に対して個別の境界を学習します。推論時には、元の話者埋め込みを2つの方法で処理します。1つは、感情インジケータを使用して感情を予測し、正確に感情に一致するSVMを選択する方法です。もう1つは、話者匿名化器を使用して話者の特徴を隠蔽する方法です。その後、匿名化された話者埋め込みを対応するSVM境界に沿って強化された感情方向に修正し、感情の手がかりを保持します。提案された戦略は、一般的な分離ベースの話者匿名化システムを他の目標とするパラ言語属性を保持するように適応させるためにも有用であり、幅広い下流タスクに潜在的な可能性を秘めています。