AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

RobustFT: ノイズのある応答下での大規模言語モデルのための頑健な教師付きファインチューニング
RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Dec 19

ByJunyu Luo, Xiao Luo, Kaize Ding, Jingyang Yuan, Zhiping Xiao, Ming Zhang

監督されたファインチューニング（SFT）は、大規模言語モデル（LLMs）を特定の領域やタスクに適応させる上で重要な役割を果たします。しかしながら、実用的な応用において収集されたデータには避けられないノイズが含まれるため、モデルの性能に大きな影響を及ぼす下流タスクにおいて重要な課題が生じます。そのため、ノイズに強いSFTフレームワークが急務となっており、モデルの下流タスクにおける能力を向上させる必要があります。この課題に対処するため、我々はノイズ検出と再ラベリングを行うロバストなSFTフレームワーク（RobustFT）を導入します。ノイズの識別には、推論を強化したモデルを用いた複数の専門家による協力システムを採用し、優れたノイズ検出を実現します。ノイズ除去フェーズでは、最も関連性が高く確信度の高い知識を取り入れ、信頼性の高い注釈を生成するための慎重な評価を行うコンテキスト強化戦略を採用します。さらに、応答エントロピーに基づく効果的なデータ選択メカニズムを導入し、ファインチューニングに保持されるのは高品質なサンプルのみとなるようにします。5つのデータセットを対象とした幅広い実験により、RobustFTがノイズの多いシナリオにおいて優れたパフォーマンスを発揮することが示されました。

B-STaR: 自己学習型Reasonersにおける探索と活用の監視とバランス調整
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Dec 23

ByWeihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He

複雑な推論タスクのための十分な人手による注釈付きデータがない場合、自己改善、つまりモデルが自身の出力によって訓練される方法が、性能向上の主要な手法として登場しています。ただし、これらの反復的な自己改善方法のメカニズムの根幹となる要因は、自己改善が効果的である条件や、現在の反復におけるボトルネックなど、依然として十分に理解されていません。本研究では、この反復プロセスにおける2つの重要な要因を監視し、提案する方法を特定します。それは、(1) モデルが十分に多様な応答を生成する能力（探索）と、(2) 外部報酬が高品質な候補と低品質な候補を区別する効果（活用）です。数学的推論を事例として用い、探索と活用のダイナミクスを追跡するための定量的分析を開始しました。その結果、モデルの探索能力が反復ごとに急速に低下し、外部報酬を活用する効果も低下することが明らかとなりました。これらの知見に基づいて、現在のポリシーモデルと利用可能な報酬に基づいて、探索と活用をバランスよく調整する自己学習推論フレームワークであるB-STaRを導入します。数学的推論、コーディング、常識的推論に関する実験では、B-STaRがトレーニング全体でモデルの探索能力を向上させるだけでなく、探索と活用のより効果的なバランスを実現し、優れた性能を発揮することが示されました。

マルチモーダル推論のための自己進化トレーニングに没入する
Diving into Self-Evolving Training for Multimodal Reasoning

Dec 23

ByWei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He

大規模多モーダルモデル（LMMs）においては、推論能力は不可欠です。多モーダルの連鎖的思考アノテーションデータが不足している場合、モデルが自らの出力から学習する自己進化型トレーニングが、推論能力を向上させるための効果的かつスケーラブルなアプローチとして登場しています。その利用が増加しているにも関わらず、特に多モーダル推論の文脈における自己進化型トレーニングの包括的な理解は限られています。本論文では、多モーダル推論のための自己進化型トレーニングの複雑さに深く踏み込み、トレーニング方法、報酬モデル、およびプロンプトの変化という3つの主要要因を特定します。各要因を体系的に検証し、さまざまな構成がトレーニングの効果にどのように影響するかを探ります。当社の分析により、各要因に対する最適なベストプラクティスの一連が導かれ、多モーダル推論を最適化することを目指しています。さらに、トレーニング中の自己進化ダイナミクスと、パフォーマンス向上における自動バランシングメカニズムの影響を探求します。すべての調査を経て、多モーダル推論における自己進化型トレーニングの最終的なレシピを提示し、これらの設計選択をMSTaR（Reasoning用のMultimodal Self-evolving Training）と呼ぶフレームワークに結集させます。このフレームワークは、異なるベンチマークで異なるサイズのモデルに対して普遍的に効果的であり、MiniCPM-V-2.5（8B）、Phi-3.5-Vision（4B）、InternVL2（2B）などの5つの多モーダル推論ベンチマークで、追加の人間のアノテーションを使用せずに事前進化モデルを大幅に上回ることを実証しています。この研究は、多モーダル推論のための自己進化型トレーニングの理解における重要なギャップを埋め、将来の研究のための堅牢なフレームワークを提供しています。当社のポリシーおよび報酬モデル、収集されたデータは、多モーダル推論におけるさらなる調査を促進するために公開されています。

蒸留デコーディング1：フローマッチングを用いた画像オートレグレッシブモデルのワンステップサンプリング
Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching

Dec 22

ByEnshu Liu, Xuefei Ning, Yu Wang, Zinan Lin

自己回帰（AR）モデルは、テキストや画像生成において最先端の性能を達成していますが、トークンごとの処理による生成の遅さに悩まされています。我々は野心的な問いを投げかけます：事前に学習されたARモデルを適応して、わずか1〜2ステップで出力を生成することは可能か？成功すれば、ARモデルの開発と展開を大幅に前進させるでしょう。既存の作業では、一度に複数のトークンを生成してAR生成を高速化しようとする試みは、トークン間の条件付き依存関係により出力分布を捉えることが基本的にできないため、数ステップの生成には効果が限定されています。この課題に対処するために、我々は蒸留されたデコーディング（DD）を提案します。これは、フローのマッチングを使用して、事前に学習されたARモデルの出力分布からガウス分布への確定的なマッピングを作成します。その後、このマッピングを蒸留するネットワークをトレーニングし、数ステップの生成を可能にします。DDは元のARモデルのトレーニングデータを必要とせず、より実用的です。我々は、最先端の画像ARモデルにおいてDDを評価し、ImageNet-256において有望な結果を示します。VARに対しては、10ステップの生成が必要な場合、DDは1ステップの生成を可能にし（6.3倍の高速化）、FIDが4.19から9.96に許容範囲内で増加します。LlamaGenにおいては、DDは256ステップから1ステップの生成に削減し、FIDが4.11から11.35に増加しつつ217.8倍の高速化を達成します。いずれの場合も、ベースライン手法はFIDが100を超えると完全に失敗します。DDはまた、テキストから画像への生成においても優れており、LlamaGenにおいて256ステップから2ステップの生成に削減し、FIDが25.70から28.95にわずかに増加します。画像ARモデルにおいて1ステップ生成の可能性を示す最初の作業として、DDはARモデルが本質的に遅いという一般的な考えに挑戦し、効率的なAR生成の新たな機会を開拓します。プロジェクトのウェブサイトは、https://imagination-research.github.io/distilled-decoding にあります。

OpenAI o1 システムカード
OpenAI o1 System Card

Dec 21

ByOpenAI, Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, Alex Iftimie, Alex Karpenko, Alex Tachard Passos, Alexander Neitz, Alexander Prokofiev, Alexander Wei, Allison Tam, Ally Bennett, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Duberstein, Andrew Kondrich, Andrey Mishchenko, Andy Applebaum, Angela Jiang, Ashvin Nair, Barret Zoph, Behrooz Ghorbani, Ben Rossen, Benjamin Sokolowsky, Boaz Barak, Bob McGrew, Borys Minaiev, Botao Hao, Bowen Baker, Brandon Houghton, Brandon McKinzie, Brydon Eastman, Camillo Lugaresi, Cary Bassin, Cary Hudson, Chak Ming Li, Charles de Bourcy, Chelsea Voss, Chen Shen, Chong Zhang, Chris Koch, Chris Orsinger, Christopher Hesse, Claudia Fischer, Clive Chan, Dan Roberts, Daniel Kappler, Daniel Levy, Daniel Selsam, David Dohan, David Farhi, David Mely, David Robinson, Dimitris Tsipras, Doug Li, Dragos Oprica, Eben Freeman, Eddie Zhang, Edmund Wong, Elizabeth Proehl, Enoch Cheung, Eric Mitchell, Eric Wallace, Erik Ritter, Evan Mays, Fan Wang, Felipe Petroski Such, Filippo Raso, Florencia Leoni, Foivos Tsimpourlas, Francis Song, Fred von Lohmann, Freddie Sulit, Geoff Salmon, Giambattista Parascandolo, Gildas Chabot, Grace Zhao, Greg Brockman, Guillaume Leclerc, Hadi Salman, Haiming Bao, Hao Sheng, Hart Andrin, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyung Won Chung, Ian Kivlichan, Ian O'Connell, Ian Osband, Ignasi Clavera Gilaberte, Ilge Akkaya, Ilya Kostrikov, Ilya Sutskever, Irina Kofman, Jakub Pachocki, James Lennon, Jason Wei, Jean Harb, Jerry Twore, Jiacheng Feng, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joaquin Quiñonero Candela, Joe Palermo, Joel Parish, Johannes Heidecke, John Hallman, John Rizzo, Jonathan Gordon, Jonathan Uesato, Jonathan Uesato, Jonathan Ward, Joost Huizinga, Julie Wang, Kai Chen, Kai Xiao, Karan Singhal, Karina Nguyen, Karl Cobbe, Katy Shi, Kayla Wood, Kendra Rimbach, Keren Gu-Lemberg, Keren GuLemberg, Kevin Liu, Kevin Lu, Kevin Stone, Kevin Yu, Lama Ahmad, Lauren Yang, Leo Liu, Leon Maksin, Leyton Ho, Liam Fedus, Lilian Weng, Linden Li, Lindsay McCallum, Lindsey Held, Lorenz Kuhn, Lukas Kondraciuk, Lukasz Kaiser, Luke Metz, Madelaine Boyd, Maja Trebacz, Manas Joglekar, Mark Chen, Marko Tintor, Mason Meyer, Matt Jones, Matt Kaufer, Max Schwarzer, Meghan Shah, Mehmet Yatbaz, Melody Guan, Mengyuan Xu, Mengyuan Yan, Mia Glaese, Mianna Chen, Mianna Chen, Michael Lampe, Michael Malek, Michele Wang, Michelle Fradin, Mike McClay, Mikhail Pavlov, Miles Wang, Mingxuan Wang, Mira Murati, Mo Bavarian, Mostafa Rohaninejad, Nat McAleese, Neil Chowdhury, Neil Chowdhury, Nick Ryder, Nikolas Tezak, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Patrick Chao, Paul Ashbourne, Pavel Izmailov, Peter Zhokhov, Rachel Dias, Rahul Arora, Randall Lin, Rapha Gontijo Lopes, Raz Gaon, Reah Miyara, Reimar Leike, Renny Hwang, Rhythm Garg, Robin Brown, Roshan James, Rui Shu, Ryan Cheu, Ryan Greene, Saachi Jain, Sam Altman, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Santiago Hernandez, Sasha Baker, Scott McKinney, Scottie Yan, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shraman Ray Chaudhuri, Shuyuan Zhang, Siyuan Fu, Spencer Papay, Steph Lin, Suchir Balaji, Suvansh Sanjeev, Szymon Sidor, Tal Broda, Aidan Clark, Tao Wang, Taylor Gordon, Ted Sanders, Tejal Patwardhan, Thibault Sottiaux, Thomas Degry, Thomas Dimson, Tianhao Zheng, Timur Garipov, Tom Stasi, Trapit Bansal, Trevor Creech, Troy Peterson, Tyna Eloundou, Valerie Qi, Vineet Kosaraju, Vinnie Monaco, Vitchyr Pong, Vlad Fomenko, Weiyi Zheng, Wenda Zhou, Wes McCabe, Wojciech Zaremba, Yann Dubois, Yinghai Lu, Yining Chen, Young Cha, Yu Bai, Yuchen He, Yuchen Zhang, Yunyun Wang, Zheng Shao, Zhuohan Li

o1モデルシリーズは、大規模な強化学習を用いて推論する能力を持つようにトレーニングされています。これらの高度な推論能力は、モデルの安全性と堅牢性を向上させる新たな手段を提供します。特に、私たちのモデルは、潜在的に安全でないプロンプトに対応する際に、熟考的な整合性を通じて安全ポリシーについて推論することができます。これにより、違法なアドバイスの生成、ステレオタイプな応答の選択、既知のジェイルブレイクに陥るリスクなどの特定のベンチマークにおいて最先端のパフォーマンスが実現されます。回答する前に思考の連鎖を組み込むようモデルをトレーニングすることは、大きな利点を開放する可能性がありますが、知能の高まりから生じる潜在的なリスクも増加させることになります。私たちの結果は、堅牢な整合性手法の構築、その有効性の徹底的なストレステスト、および細心のリスク管理プロトコルの維持の必要性を強調しています。この報告書では、OpenAI o1およびOpenAI o1-miniモデルに対する実施された安全作業、安全性評価、外部レッドチームによるテスト、および準備フレームワークの評価について概説しています。

微分可能なキャッシュ拡張を介した潜在空間における熟考
Deliberation in Latent Space via Differentiable Cache Augmentation

Dec 23

ByLuyang Liu, Jonas Pfeiffer, Jiaxing Wu, Jun Xie, Arthur Szlam

大規模言語モデル（LLM）が中間推論ステップを生成し、それに注意を払うことで「より考える」ことを可能にする技術は、複雑な問題の解決に有望性を示しています。しかしながら、標準的なアプローチは、応答の直前に離散トークンのシーケンスを生成するため、著しい遅延コストが発生し、最適化が難しいことがあります。本研究では、凍結されたLLMにオフラインコプロセッサを追加することで、モデルのキー・バリュー（kv）キャッシュ上で動作することができることを示します。このコプロセッサは、キャッシュに一連の潜在的な埋め込みを追加し、後続のデコーディングの忠実度を向上させるよう設計されています。我々は、このコプロセッサを、デコーダーの標準事前トレーニングデータ上での言語モデリング損失を使用してトレーニングし、デコーダー自体は凍結したままにします。このアプローチにより、モデルはエンドツーエンドで微分可能な方法で、kvキャッシュに追加の計算を蒸留する方法を学習することができます。デコーダーが変更されていないため、コプロセッサはオフラインおよび非同期で動作し、コプロセッサが利用できない場合や特定のキャッシュが追加の計算を必要としない場合でも、言語モデルは通常通り機能することができます。実験的に示されたように、キャッシュが拡張されると、デコーダーは多数の後続トークンでより低いパープレキシティを達成します。さらに、タスク固有のトレーニングがなくても、実験は、キャッシュの拡張が一貫してパープレキシティを低下させ、推論集約的なタスクの性能を向上させることを示しています。

長いコンテキスト言語モデルを用いたインコンテキスト学習の再検討
Revisiting In-Context Learning with Long Context Language Models

Dec 22

ByJinheon Baek, Sun Jae Lee, Prakhar Gupta, Geunseob, Oh, Siddharth Dalmia, Prateek Kolhar

イン・コンテキスト・ラーニング（ICL）は、言語モデルが入力コンテキストに提供された例に基づいて予測を行う技術です。以前は、コンテキストウィンドウのサイズが表示できる例の数に制限を課しており、例の選択技術が重要で、最も効果的な例のセットを特定するために必要でした。しかし、最近登場したロングコンテキスト言語モデル（LCLMs）により、コンテキストに含めることができる例の数が大幅に増加しました。これにより、多数の例を使用する状況におけるICLのパフォーマンスがサンプル選択方法に依存するかどうかという重要な問題が生じました。この問いに答えるために、我々はLCLMsのコンテキストにおいてこれらのアプローチを再検討し、4つのタスクをカバーする18のデータセットで包括的な実験を行いました。驚くべきことに、洗練された例の選択技術は、単純なランダムサンプル選択方法よりも著しい改善をもたらさないことが観察されました。代わりに、LCLMsの登場により、ICLの課題が最も効果的な例を選択することから、コンテキストウィンドウを埋めるために十分な例を収集することへと基本的に変化したことが分かりました。特に、特定のデータセットでは、利用可能なすべての例を含めてもコンテキストウィンドウを十分に活用できないことがあります。しかし、単純なデータ拡張アプローチを用いてコンテキスト内の例を増やすことで、ICLのパフォーマンスを5%向上させることができました。

クロスモーダルビデオVAEを用いた大規模動画オートエンコーディング
Large Motion Video Autoencoding with Cross-modal Video VAE

Dec 23

ByYazhou Xing, Yang Fei, Yingqing He, Jingye Chen, Jiaxin Xie, Xiaowei Chi, Qifeng Chen

頑健なビデオ変分オートエンコーダ（VAE）を学習することは、ビデオの冗長性を減らし、効率的なビデオ生成を促進するために不可欠です。個々のフレームに画像VAEを直接適用することは、時間的な不整合や最適でない圧縮率を引き起こす可能性があります。既存のビデオVAEは時間的な圧縮に取り組み始めていますが、しばしば不十分な再構成性能に苦しんでいます。本論文では、高品質なビデオエンコーディングが可能な新しい強力なビデオオートエンコーダを提案します。まず、画像VAEを3D VAEに拡張するだけで空間と時間の圧縮を絡めることが、動きのぼやけや詳細の歪みのアーティファクトを導入する可能性があることに気付きました。したがって、空間情報をより良く符号化および復号化するために時間に注意した空間圧縮を提案します。さらに、軽量な動きの圧縮モデルを統合して、時間的な圧縮をさらに向上させます。次に、テキストからビデオデータセットに固有のテキスト情報を活用し、モデルにテキストガイダンスを組み込みます。これにより、再構成品質が大幅に向上し、特に詳細の保存と時間的な安定性が向上します。さらに、画像とビデオの両方についての共同トレーニングを通じて、モデルの汎用性をさらに向上させます。これにより、再構成品質が向上するだけでなく、画像とビデオの両方のオートエンコーディングを実行できるようになります。強力な最近のベースラインに対する包括的な評価は、当社の手法の優れた性能を示しています。プロジェクトのウェブサイトは、https://yzxing87.github.io/vae/ で見つけることができます。

LearnLM: 学習のためのGeminiの改善
LearnLM: Improving Gemini for Learning

Dec 21

ByLearnLM Team, Abhinit Modi, Aditya Srikanth Veerubhotla, Aliya Rysbek, Andrea Huber, Brett Wiltshire, Brian Veprek, Daniel Gillick, Daniel Kasenberg, Derek Ahmed, Irina Jurenka, James Cohan, Jennifer She, Julia Wilkowski, Kaiz Alarakyia, Kevin McKee, Lisa Wang, Markus Kunesch, Mike Schaekermann, Miruna Pîslar, Nikhil Joshi, Parsa Mahmoudieh, Paul Jhun, Sara Wiltberger, Shakir Mohamed, Shashank Agarwal, Shubham Milind Phal, Sun Jae Lee, Theofilos Strinopoulos, Wei-Jen Ko, Amy Wang, Ankit Anand, Avishkar Bhoopchand, Dan Wild, Divya Pandya, Filip Bar, Garth Graham, Holger Winnemoeller, Mahvish Nagda, Prateek Kolhar, Renee Schneider, Shaojian Zhu, Stephanie Chan, Steve Yadlowsky, Viknesh Sounderajah, Yannis Assael

現在の生成AIシステムは、デフォルトで情報を提示するように調整されており、人間のチューターのように学習を促進することはありません。これらのシステムの様々な教育利用事例に対処するために、私たちは教育行動の注入の課題を教育的指示の追跡として再構築しました。トレーニングと評価の例には、後続のモデルのターンで現れる特定の教育属性を記述するシステムレベルの指示が含まれます。このフレームワークは、モデルを特定の教育学の定義に拘束することを避け、代わりに教師や開発者が望ましいモデルの振る舞いを指定できるようにします。また、迅速に拡大するGeminiモデルの機能に加えて、学習のためのGeminiモデルの改善の道を開けます。これらは、初期の技術レポートとは大きく異なる重要な変更点です。教育的指示の追跡を行うトレーニングが、Google AI Studioで利用可能なLearnLMモデルを生み出し、様々な学習シナリオで専門家によって大幅に好まれることを示します。平均的な好みの強さは、GPT-4oより31\%、Claude 3.5より11\%、Gemini 1.5 Proモデルに基づくLearnLMより13\%高いです。

DRT-o1: 長い推論チェーンを介した最適化された深層推論翻訳
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

Dec 23

ByJiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou

最近、O1のようなモデルが代表的な例として登場し、数学やコーディングなどの推論タスクにおける長い思考連鎖（CoT）の効果を示しています。本論文では、長いCoTの成功をニューラル機械翻訳（MT）にもたらす試みとして、DRT-o1を紹介します。具体的には、比喩や隠喩を含む文学書を考慮した場合、これらのテキストを目標言語に翻訳することは文化の違いから実践上非常に難しいです。このような場合、直訳はしばしば意図された意味を効果的に伝えることができません。プロの人間翻訳者でさえ、翻訳プロセス全体で意味を保持するために相当な考慮が必要です。MTにおけるLLMの長い思考能力をシミュレートするために、まず既存の文学書から比喩や隠喩を含む文を収集し、その後、長い思考を介してこれらの文を翻訳するためのマルチエージェントフレームワークを開発します。マルチエージェントフレームワークでは、翻訳者がアドバイザーからの提案に基づいてソース文を反復的に翻訳し、長い思考を行います。長い思考の効果を確保するために、評価者も採用され、現在のラウンドでの翻訳が前回よりも優れているかどうかを判断します。このようにして、数万件の長い思考MTデータを収集し、それをDRT-o1のトレーニングに使用します。文学翻訳の実験結果は、DRT-o1の効果を示しています。Qwen2.5-7BおよびQwen2.5-14Bをバックボーンとして使用することで、DRT-o1によって達成された改善は、7.33〜8.26 BLEUおよび1.66〜3.36 CometScoreです。さらに、DRT-o1-7Bは、QwQ-32B-Previewを7.82 BLEUおよび1.46 CometScoreで上回り、その効果を示しています。このプロジェクトは、https://github.com/krystalan/DRT-o1 で入手可能です。

コード生成のための結果を洗練するプロセス監督
Outcome-Refining Process Supervision for Code Generation

Dec 19

ByZhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang

大規模言語モデルは、コード生成において顕著な能力を示していますが、深いアルゴリズム的推論が必要な複雑なプログラミングタスクにはしばしば苦労します。学習された報酬モデルを介したプロセス監督は、推論ステップのガイドにおいて有望であるが、高価なトレーニングデータが必要であり、信頼性の低い評価に苦しんでいます。私たちは、アウトカムを洗練するプロセス監督という新しいパラダイムを提案します。このフレームワークは、推論ステップの監督対象としてアウトカムの洗練自体を扱います。私たちのアプローチは、具体的な実行シグナルを活用して推論ステップの監督を基礎付けし、同時に複数の解の軌跡を維持するために木構造の探索を使用します。実験では、私たちのアプローチがより小さなモデルでも競争的なプログラミングタスクにおいて高い成功精度とパフォーマンスメトリクスを達成できることが示され、従来の報酬モデルよりも信頼性の高い検証を作成でき、トレーニングPRMを必要としないことが示されました。私たちのアプローチは、5つのモデルと3つのデータセット全体で著しい改善を達成しています：正確性が平均26.9％、効率性が42.2％向上しています。結果は、具体的な検証シグナルを用いた構造化された推論空間を提供することが、複雑なプログラミングタスクの解決にとって重要であることを示唆しています。私たちはすべてのコードとデータを以下でオープンソース化しています：https://github.com/zhuohaoyu/ORPS

研究都市：人間研究コミュニティのシミュレータ
ResearchTown: Simulator of Human Research Community

Dec 23

ByHaofei Yu, Zhaochen Hong, Zirui Cheng, Kunlun Zhu, Keyang Xuan, Jinwei Yao, Tao Feng, Jiaxuan You

大規模言語モデル（LLMs）は科学分野で顕著な潜在能力を示していますが、根本的な疑問が未解決のままです。LLMsで人間の研究コミュニティをシミュレートすることは可能なのでしょうか？この問いに取り組むことは、アイデアのブレインストーミングの背後にあるプロセスを理解し、新しい科学的洞察を自動的に発見するインスピレーションを与える可能性があります。本研究では、ResearchTownという研究コミュニティシミュレーションのためのマルチエージェントフレームワークを提案します。このフレームワークでは、人間の研究コミュニティはエージェントデータグラフとして単純化され、研究者と論文はそれぞれエージェントタイプとデータタイプのノードとして表され、協力関係に基づいて接続されます。また、TextGNNというテキストベースの推論フレームワークを導入し、研究活動（例：論文の読み込み、論文の執筆、レビューの執筆など）をエージェントデータグラフ上の統一されたメッセージパッシングプロセスの特別な形態としてモデル化します。研究シミュレーションの品質を評価するために、ノードマスキング予測タスクを使用したスケーラブルで客観的な評価に基づくベンチマークであるResearchBenchを提案します。実験から、以下の3つの主要な結果が明らかになりました：（1）ResearchTownは、論文執筆やレビュー執筆などの共同研究活動をリアルにシミュレートできること；（2）ResearchTownは、複数の研究者と多様な論文による堅牢なシミュレーションを維持できること；（3）ResearchTownは、新しい研究方向をインスピレーションとして提供する可能性のある学際的な研究アイデアを生み出すことができることが示されました。

PC エージェント：あなたが眠っている間、AI が作業を行います -- デジタル世界への認知的旅路
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World

Dec 23

ByYanheng He, Jiahe Jin, Shijie Xia, Jiadi Su, Runze Fan, Haoyang Zou, Xiangkun Hu, Pengfei Liu

AIがあなたの仕事を処理する世界を想像してみてください - 研究資料を整理したり、レポートを起案したり、明日必要なプレゼンテーションを作成したりする間、あなたは眠っています。ただし、現在のデジタルエージェントは単純なタスクを実行できるものの、人間が日常的に行う複雑な実世界の仕事を処理する能力には程遠いです。私たちは、人間の認知を移転することを通じてこのビジョンに向けた重要な一歩を示すAIシステムであるPCエージェントを提案します。私たちの主要な洞察は、単純な「タスク」の実行から複雑な「仕事」の処理への道は、コンピュータの使用中に人間の認知プロセスを効率的に捉えて学ぶことにあるということです。この仮説を検証するために、次の3つの主要な革新を導入します：（1）高品質な人間-コンピュータ相互作用軌跡を完全な認知コンテキストで効率的に収集する軽量なインフラストラクチャであるPCトラッカー；（2）アクションの意味論と思考プロセスを完了して、生の相互作用データを豊かな認知軌跡に変換する2段階の認知完了パイプライン；および（3）意思決定のための計画エージェントと堅牢なビジュアルグラウンディングのためのグラウンディングエージェントを組み合わせたマルチエージェントシステム。PowerPointプレゼンテーション作成における初期実験では、わずか133の認知軌跡で訓練されたPCエージェントが、複数のアプリケーションをまたいで最大50のステップにわたる洗練された作業シナリオを処理できることが示されました。これは、私たちのアプローチのデータ効率性を示し、能力のあるデジタルエージェントを訓練する鍵は人間の認知データの収集にあることを強調しています。データ収集インフラストラクチャや認知完了方法を含む完全なフレームワークをオープンソース化することで、研究コミュニティに本当に能力のあるデジタルエージェントを開発する障壁を下げることを目指しています。

Agent-SafetyBench：LLM エージェントの安全性評価
Agent-SafetyBench: Evaluating the Safety of LLM Agents

Dec 19

ByZhexin Zhang, Shiyao Cui, Yida Lu, Jingzhuo Zhou, Junxiao Yang, Hongning Wang, Minlie Huang

大規模言語モデル（LLM）がエージェントとしてますます展開されるにつれて、対話環境への統合やツールの使用は、モデル自体に関連する安全性に加えて新たな安全性の課題をもたらします。ただし、エージェントの安全性を評価する包括的なベンチマークが不足しているため、効果的な評価とさらなる改善が阻害されています。本論文では、LLMエージェントの安全性を評価するために設計された包括的なベンチマークであるAgent-SafetyBenchを紹介します。Agent-SafetyBenchには349の対話環境と2,000のテストケースが含まれ、8つの安全リスクカテゴリを評価し、危険な相互作用で頻繁に遭遇する10の一般的な障害モードをカバーしています。16の人気のあるLLMエージェントの評価では、懸念すべき結果が明らかになりました：エージェントのいずれも安全スコアが60％を超えていません。これは、LLMエージェントにおける重大な安全性の課題を浮き彫りにし、改善の必要性を強調しています。定量的な分析を通じて、重要な障害モードを特定し、現在のLLMエージェントにおける2つの基本的な安全性欠陥をまとめました：堅牢性の欠如とリスク認識の欠如。さらに、我々の調査結果は、防御プロンプトへの依存だけではこれらの安全性問題に対処するのに不十分であり、より高度で堅牢な戦略が必要であることを強調しています。Agent-SafetyBenchは、エージェントの安全性評価と改善におけるさらなる研究とイノベーションを促進するために、https://github.com/thu-coai/Agent-SafetyBench で公開されています。

Friends-MMC: マルチモーダルマルチパーティ会話理解のためのデータセット
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Dec 23

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao

マルチモーダル多人数会話（MMC）は、あまり研究されていないが重要な研究トピックであり、実世界のシナリオに適しているため、より広く利用される可能性があります。従来のマルチモーダル会話と比較して、MMCは、視覚的およびテキストの文脈の両方に現れる多くの対話者がいるため、より強力なキャラクター中心の理解能力が必要です。この問題の研究を促進するために、本論文ではFriends-MMCを提案し、24,000以上のユニークな発話がビデオコンテキストとペアになったMMCデータセットを含んでいます。対話のキャラクター中心の理解を探求するために、各発話のスピーカー、ビデオに現れる顔の名前と境界ボックスも注釈付けしています。このFriends-MMCデータセットを基に、会話スピーカーの識別と会話応答予測という2つの基本的なMMCタスクをさらに研究しています。どちらもビデオまたは画像を視覚的コンテキストとする多人数性を持っています。会話スピーカーの識別では、事前学習済みモデルなどの既存の手法の非効率性を示し、2つのモダリティのコンテキストを活用してより良いパフォーマンスを達成するために最適化ソルバーを利用するシンプルかつ効果的なベースライン手法を提案しています。会話応答予測では、Friend-MMCで生成的ダイアログモデルを微調整し、スピーカー情報の利点を分析しています。コードとデータセットはhttps://github.com/yellow-binary-tree/Friends-MMCで公開されており、会話の理解時にスピーカー情報のモデリングにさらなる注意を呼びかけています。

OpenRFT: 強化微調整を用いた特定ドメインタスク向けのReasoning Foundation Modelの適応
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

Dec 22

ByYuxiang Zhang, Yuqi Yang, Jiangming Shu, Yuhang Wang, Jinlin Xiao, Jitao Sang

OpenAIの最近のReinforcement Fine-Tuning（RFT）の導入は、推論基盤モデルの潜在能力を示し、単純なパターン模倣を超えたファインチューニングの新しいパラダイムを提供しています。この技術レポートでは、OpenRFTを紹介し、RFTと同じ設定で汎用推論モデルをドメイン固有のタスクにファインチューニングする試みを紹介します。OpenRFTは、推論ステップデータの不足とトレーニングサンプルの数量の制約という2つの主要な課題に対処するために、ドメイン固有のサンプルを3つの方法で活用します：質問の拡張、推論プロセスデータの合成、およびフューショットICL。評価はSciKnowEvalで行われ、OpenRFTは各タスクにつきわずか100のドメイン固有サンプルで顕著な性能向上を達成しています。より多くの実験結果は後続バージョンで継続的に更新されます。ソースコード、データセット、モデルは以下で公開されています：https://github.com/ADaM-BJTU/OpenRFT

NILE: 大規模言語モデルにおける内部整合性アライメント
NILE: Internal Consistency Alignment in Large Language Models

Dec 21

ByMinda Hu, Qiyuan Zhang, Yufei Wang, Bowei He, Hongru Wang, Jingyan Zhou, Liangyou Li, Yasheng Wang, Chen Ma, Irwin King

LLM（Large Language Models）の人間の意図との整合性を高めるための重要なステップとして、Instruction Fine-Tuning（IFT）はデータセットの品質に高い要求をしています。しかしながら、既存のIFTデータセットには、LLMの事前学習フェーズで学習した内部知識と矛盾する知識が含まれていることがよくあり、これはIFTの効果に大きく影響する可能性があります。この問題に対処するために、私たちはNILE（iNternal consIstency aLignmEnt）フレームワークを導入しました。このフレームワークは、IFTデータセットを最適化してLLMの能力をさらに引き出すことを目的としています。NILEは、指示データに対応する目標事前学習LLMの内部知識を引き出すことによって機能します。この内部知識は、IFTデータセット内の回答を修正するために活用されます。さらに、訓練サンプルをフィルタリングするための新しいInternal Consistency Filtering（ICF）手法を提案しており、これにより、LLMの内部知識との高い整合性が確保されます。私たちの実験では、NILEに整合したIFTデータセットが、複数のLLM能力評価データセット全体でLLMの性能を急激に向上させ、Arena-Hardでは最大66.6％、Alpaca-Eval V2では68.5％の向上を達成しました。さらなる分析により、NILEフレームワークの各構成要素がこれらの大幅な性能向上に貢献しており、事前学習の内部知識とのデータセットの整合性がLLMの潜在能力を最大限に引き出すために重要であるという説得力のある証拠が提供されています。