Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
112
画像ジオローカライゼーションは、画像の特定の位置を予測するタスクであり、視覚的、地理的、文化的な文脈にわたる複雑な推論を必要とします。従来のVision Language Models(VLMs)はこのタスクにおいて最高の精度を誇りますが、分析的推論のための高品質なデータセットとモデルが不足しています。私たちはまず、人気の地理ゲームであるGeoGuessrから派生した高品質なデータセット「NaviClues」を作成し、言語からの専門家の推論例を提供します。このデータセットを使用して、グローバルな情報と細粒度な画像情報を統合した包括的な画像ジオローカライゼーションフレームワーク「Navig」を提案します。言語を用いた推論により、Navigは従来の最先端モデルと比較して平均距離誤差を14%削減し、1000未満のトレーニングサンプルしか必要としません。私たちのデータセットとコードはhttps://github.com/SparrowZheyuan18/Navig/で公開されています。
Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
32
大規模言語モデル(LLMs)は、ユーザークエリに基づいて非常に長い文脈から一貫性のある要約を生成することが可能です。証拠スパンを抽出し適切に引用することは、これらの要約の透明性と信頼性を向上させるのに役立つでしょう。同時に、LLMsはどの情報を理解し注目するかについて位置バイアスに悩まされており、これは証拠引用に影響を与える可能性があります。これまでの研究では、事前に定義された粒度レベル(例:文、段落、ドキュメントなど)での証拠引用に焦点が当てられてきましたが、我々は非構造化証拠引用を伴う長文脈クエリ指向要約タスクを提案します。既存のシステムが文脈から非構造化証拠を生成し適切に引用することに苦労し、証拠が「中間で失われる」傾向があることを示します。これを緩和するため、我々はSummaries with Unstructured Evidence Textデータセット(SUnsET)を作成しました。これは、新しいドメイン非依存のパイプラインを使用して生成された合成データセットであり、LLMsをこのタスクに適応させるための教師データとして使用できます。異なるサイズの5つのLLMsと、様々なドキュメントタイプと長さを持つ4つのデータセットにわたって、SUnsETデータで適応させたLLMsが、ベースモデルよりも関連性が高く事実に一貫した証拠を生成し、文脈内のより多様な位置から証拠を抽出し、より関連性が高く一貫性のある要約を生成できることを実証しました。