Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Qwen2.5-VL
Qwen2.5-VL Technical Report

Feb 19

ByShuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin

213

Представляем Qwen2.5-VL, новейшую флагманскую модель серии Qwen для обработки визуальных и языковых данных, которая демонстрирует значительные улучшения как в базовых возможностях, так и в инновационных функциях. Qwen2.5-VL совершает существенный прорыв в понимании и взаимодействии с миром благодаря улучшенному визуальному распознаванию, точной локализации объектов, надежному анализу документов и пониманию длинных видео. Одной из ключевых особенностей Qwen2.5-VL является способность точно локализовать объекты с использованием ограничивающих рамок или точек. Модель обеспечивает надежное извлечение структурированных данных из счетов, форм и таблиц, а также детальный анализ графиков, диаграмм и макетов. Для обработки сложных входных данных Qwen2.5-VL внедряет динамическое разрешение и кодирование абсолютного времени, что позволяет ей обрабатывать изображения различных размеров и видео продолжительностью до нескольких часов с локализацией событий на уровне секунд. Это позволяет модели естественно воспринимать пространственные масштабы и временные динамики без использования традиционных методов нормализации. Обучая Vision Transformer (ViT) с динамическим разрешением с нуля и внедряя Window Attention, мы снижаем вычислительные затраты, сохраняя при этом исходное разрешение. В результате Qwen2.5-VL превосходно справляется не только с пониманием статических изображений и документов, но и выступает в роли интерактивного визуального агента, способного к рассуждениям, использованию инструментов и выполнению задач в реальных сценариях, таких как управление компьютерами и мобильными устройствами. Qwen2.5-VL доступна в трех размерах, охватывая различные варианты использования — от edge AI до высокопроизводительных вычислений. Флагманская модель Qwen2.5-VL-72B соответствует современным моделям, таким как GPT-4o и Claude 3.5 Sonnet, особенно выделяясь в понимании документов и диаграмм. Кроме того, Qwen2.5-VL сохраняет высокую лингвистическую производительность, поддерживая ключевые языковые компетенции модели Qwen2.5 LLM.

О надежности генеративных базовых моделей: руководство, оценка и перспективы
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Feb 20

ByYue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Yujun Zhou, Yanbo Wang, Jiayi Ye, Jiawen Shi, Qihui Zhang, Yuan Li, Han Bao, Zhaoyi Liu, Tianrui Guan, Dongping Chen, Ruoxi Chen, Kehan Guo, Andy Zou, Bryan Hooi Kuen-Yew, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jaehong Yoon, Jieyu Zhang, Kai Shu, Kaijie Zhu, Ranjay Krishna, Swabha Swayamdipta, Taiwei Shi, Weijia Shi, Xiang Li, Yiwei Li, Yuexing Hao, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V. Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Xiangliang Zhang

Генеративные базовые модели (GenFMs) стали революционным инструментом. Однако их широкое внедрение вызывает серьезные опасения в отношении доверия по различным аспектам. В данной статье представлена комплексная структура для решения этих проблем через три ключевых вклада. Во-первых, мы систематически анализируем глобальные законы и политики в области регулирования ИИ, разработанные правительствами и регулирующими органами, а также отраслевые практики и стандарты. На основе этого анализа мы предлагаем набор руководящих принципов для GenFMs, разработанных в ходе обширного междисциплинарного сотрудничества, объединяющего технические, этические, юридические и социальные перспективы. Во-вторых, мы представляем TrustGen — первую динамическую платформу для бенчмаркинга, предназначенную для оценки доверия по множеству аспектов и типов моделей, включая текстово-изобразительные, крупные языковые и визуально-языковые модели. TrustGen использует модульные компоненты — курацию метаданных, генерацию тестовых случаев и контекстуальные вариации — для обеспечения адаптивных и итеративных оценок, преодолевая ограничения статических методов оценки. С помощью TrustGen мы демонстрируем значительный прогресс в области доверия, одновременно выявляя сохраняющиеся проблемы. Наконец, мы предоставляем углубленное обсуждение вызовов и будущих направлений для создания доверенных GenFMs, раскрывая сложную и развивающуюся природу доверия, подчеркивая тонкие компромиссы между полезностью и доверием, а также учитывая различные приложения, выявляя сохраняющиеся проблемы и предлагая стратегическую дорожную карту для будущих исследований. Эта работа устанавливает целостную структуру для продвижения доверия в генеративном ИИ, прокладывая путь для более безопасной и ответственной интеграции GenFMs в критически важные приложения. Для содействия прогрессу в сообществе мы выпускаем инструментарий для динамической оценки.

MMTEB: Масштабный бенчмарк для мультиязычных текстовых эмбеддингов
MMTEB: Massive Multilingual Text Embedding Benchmark

Feb 19

ByKenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemiński, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystrøm, Roman Solomatin, Ömer Çağatan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafał Poświata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Björn Plüster, Jan Philipp Harries, Loïc Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek Šuppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Günther, Mengzhou Xia, Weijia Shi, Xing Han Lù, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff

Текстовые эмбеддинги обычно оцениваются на ограниченном наборе задач, которые ограничены языком, предметной областью и разнообразием задач. Чтобы устранить эти ограничения и обеспечить более всестороннюю оценку, мы представляем Massive Multilingual Text Embedding Benchmark (MMTEB) — крупномасштабное, разработанное сообществом расширение MTEB, охватывающее более 500 качественно контролируемых оценочных задач на более чем 250 языках. MMTEB включает разнообразный набор сложных, новых задач, таких как выполнение инструкций, поиск в длинных документах и поиск кода, представляя собой крупнейшую на сегодняшний день многоязычную коллекцию оценочных задач для моделей эмбеддингов. Используя эту коллекцию, мы разрабатываем несколько высоко многоязычных бенчмарков, которые применяем для оценки репрезентативного набора моделей. Мы обнаруживаем, что, хотя крупные языковые модели (LLM) с миллиардами параметров могут достигать передовых результатов на определенных подмножествах языков и категориях задач, лучшей из общедоступных моделей является multilingual-e5-large-instruct с всего 560 миллионами параметров. Для повышения доступности и снижения вычислительных затрат мы представляем новый метод даунсэмплинга, основанный на межзадачной корреляции, обеспечивая разнообразный выбор при сохранении относительных рейтингов моделей. Кроме того, мы оптимизируем такие задачи, как поиск, путем выборки сложных негативных примеров, создавая меньшие, но эффективные разделы. Эти оптимизации позволяют нам ввести бенчмарки, которые значительно снижают вычислительные требования. Например, наш новый zero-shot бенчмарк для английского языка сохраняет порядок ранжирования, аналогичный полномасштабной версии, но при значительно меньших вычислительных затратах.

SongGen: Одноэтапный авторегрессивный трансформер для генерации песен из текста
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Feb 18

ByZihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Генерация песен из текста, задача создания вокала и аккомпанемента на основе текстовых входных данных, представляет значительные сложности из-за сложности предметной области и недостатка данных. Существующие подходы часто используют многоэтапные процедуры генерации, что приводит к громоздким процессам обучения и вывода. В данной работе мы предлагаем SongGen, полностью открытую одноэтапную авторегрессивную трансформерную модель, предназначенную для управляемой генерации песен. Предложенная модель обеспечивает детальный контроль над различными музыкальными атрибутами, включая текст песни и текстовые описания инструментовки, жанра, настроения и тембра, а также предлагает опциональный трехсекундный референсный фрагмент для клонирования голоса. В рамках единой авторегрессивной структуры SongGen поддерживает два режима вывода: смешанный режим, который напрямую генерирует микс вокала и аккомпанемента, и двухтрековый режим, который синтезирует их отдельно для большей гибкости в последующих приложениях. Мы исследуем различные стратегии токенизации для каждого режима, что приводит к значительным улучшениям и ценным инсайтам. Кроме того, мы разрабатываем автоматизированный конвейер предобработки данных с эффективным контролем качества. Для вовлечения сообщества и будущих исследований мы опубликуем веса модели, код обучения, аннотированные данные и конвейер предобработки. Сгенерированные примеры представлены на нашей странице проекта по адресу https://liuzh-19.github.io/SongGen/, а код будет доступен по адресу https://github.com/LiuZH-19/SongGen.

Малые модели испытывают трудности в обучении на основе сильных рассуждающих систем.
Small Models Struggle to Learn from Strong Reasoners

Feb 17

ByYuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran

Крупные языковые модели (LLM) демонстрируют выдающиеся результаты в задачах сложного логического рассуждения, и перенос их способностей к рассуждению в меньшие модели показал свою перспективность. Однако мы обнаружили интересное явление, которое назвали Проблемой Обучаемости Малых Моделей: небольшие модели (≤3B параметров) не всегда получают пользу от длинных цепочек рассуждений (CoT) или дистилляции из более крупных моделей. Вместо этого они показывают лучшие результаты, когда дообучаются на более коротких и простых цепочках рассуждений, которые лучше соответствуют их внутренней способности к обучению. Для решения этой проблемы мы предлагаем Mix Distillation — простую, но эффективную стратегию, которая балансирует сложность рассуждений, комбинируя длинные и короткие примеры CoT или рассуждения как из крупных, так и из малых моделей. Наши эксперименты показывают, что Mix Distillation значительно улучшает способность малых моделей к рассуждениям по сравнению с обучением только на одном типе данных. Эти результаты подчеркивают ограничения прямой дистилляции из сильных моделей и важность адаптации сложности рассуждений для эффективного переноса способностей к логическому мышлению.

RAD: Обучение сквозной политики вождения с использованием крупномасштабного обучения с подкреплением на основе 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Feb 18

ByHao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

Существующие алгоритмы сквозного автономного вождения (AD) обычно следуют парадигме обучения с подражанием (Imitation Learning, IL), которая сталкивается с такими проблемами, как причинно-следственная путаница и разрыв в открытом цикле. В данной работе мы предлагаем новую парадигму обучения с подкреплением (Reinforcement Learning, RL) в замкнутом цикле, основанную на 3DGS-технологиях. Используя методы 3DGS, мы создаем фотореалистичную цифровую копию реального физического мира, что позволяет политике AD активно исследовать пространство состояний и обучаться справляться с ситуациями, выходящими за пределы распределения, через масштабные пробы и ошибки. Для повышения безопасности мы разрабатываем специализированные вознаграждения, которые направляют политику на эффективное реагирование на критические события и понимание причинно-следственных связей в реальном мире. Для лучшего соответствия поведению человека за рулем, IL интегрируется в обучение RL в качестве регуляризатора. Мы представляем эталонный тест для оценки в замкнутом цикле, состоящий из разнообразных, ранее не встречавшихся 3DGS-сред. По сравнению с методами на основе IL, RAD демонстрирует более высокую производительность по большинству метрик замкнутого цикла, особенно с трехкратным снижением частоты столкновений. Обширные результаты тестирования в замкнутом цикле представлены на https://hgao-cv.github.io/RAD.

MoM: Моделирование линейных последовательностей с использованием смеси памяти
MoM: Linear Sequence Modeling with Mixture-of-Memories

Feb 19

ByJusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng

Методы линейного моделирования последовательностей, такие как линейное внимание, моделирование пространства состояний и линейные рекуррентные нейронные сети (RNN), предлагают значительное повышение эффективности за счет снижения сложности обучения и вывода. Однако эти методы обычно сжимают всю входную последовательность в одно фиксированное состояние памяти, что приводит к неоптимальной производительности на задачах, требующих интенсивного воспроизведения информации. Вдохновляясь нейробиологией, в частности способностью мозга поддерживать устойчивую долговременную память, минимизируя "интерференцию памяти", мы представляем новую архитектуру под названием Mixture-of-Memories (MoM). MoM использует несколько независимых состояний памяти, а сеть-маршрутизатор направляет входные токены в конкретные состояния памяти. Этот подход значительно увеличивает общую емкость памяти, минимизируя интерференцию. В результате MoM демонстрирует исключительную производительность на задачах, требующих интенсивного воспроизведения, превосходя существующие методы линейного моделирования последовательностей. Несмотря на использование нескольких состояний памяти, вычисление каждого состояния остается линейным по сложности, что позволяет MoM сохранять преимущество линейной сложности при обучении и постоянной сложности при выводе. Наши эксперименты показывают, что MoM значительно превосходит современные линейные модели последовательностей на языковых задачах, особенно на задачах, требующих интенсивного воспроизведения, и даже достигает производительности, сравнимой с моделями Transformer. Код доступен по адресу https://github.com/OpenSparseLLMs/MoM и также является частью https://github.com/OpenSparseLLMs/Linear-MoE.

Craw4LLM: Эффективный веб-краулинг для предварительного обучения языковых моделей
Craw4LLM: Efficient Web Crawling for LLM Pretraining

Feb 19

ByShi Yu, Zhiyuan Liu, Chenyan Xiong

Веб-краулинг является основным источником данных для предварительного обучения больших языковых моделей (LLM), однако большинство сканируемых веб-страниц отбрасываются из-за низкого качества данных. В данной статье представлен Crawl4LLM — эффективный метод веб-краулинга, который исследует веб-граф с учетом предпочтений для предварительного обучения LLM. В частности, он использует влияние веб-страницы на предварительное обучение LLM в качестве приоритетного показателя для планировщика веб-краулера, заменяя стандартный приоритет, основанный на связности графа. Наши эксперименты на веб-графе, содержащем 900 миллионов веб-страниц из индекса коммерческой поисковой системы, демонстрируют эффективность Crawl4LLM в получении высококачественных данных для предварительного обучения. При сканировании всего 21% URL-адресов LLM, обученные на данных Crawl4LLM, достигают тех же результатов на тестовых задачах, что и при использовании предыдущих методов краулинга, значительно сокращая объем ненужных данных и снижая нагрузку на веб-сайты. Наш код доступен по адресу https://github.com/cxcscmu/Crawl4LLM.

Это ваш окончательный ответ? Масштабирование во время тестирования улучшает избирательное ответы на вопросы
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

Feb 19

ByWilliam Jurayj, Jeffrey Cheng, Benjamin Van Durme

Масштабирование вычислительных ресурсов на этапе тестирования больших языковых моделей демонстрирует впечатляющие результаты на бенчмарках, связанных с рассуждениями. Однако существующие оценки масштабирования на этапе тестирования основываются на сильном предположении, что система рассуждений всегда должна давать ответ на любой предоставленный вопрос. Это упускает из виду вопросы о том, уверена ли модель в своем ответе и уместно ли всегда предоставлять ответ. Чтобы устранить эти проблемы, мы извлекаем оценки уверенности в процессе рассуждений для пороговой фильтрации ответов модели. Мы обнаруживаем, что увеличение вычислительного бюджета на этапе вывода не только помогает моделям правильно отвечать на большее количество вопросов, но и повышает уверенность в правильных ответах. Затем мы расширяем текущую парадигму нулевого риска при оценке ответов, рассматривая сценарии с ненулевым уровнем риска, и предлагаем методику для представления оценок в таких условиях.

LongPO: Самоэволюция языковых моделей с длинным контекстом через оптимизацию предпочтений от короткого к длинному
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Feb 19

ByGuanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing

Крупные языковые модели (LLM) продемонстрировали впечатляющие возможности благодаря предварительному обучению и согласованию. Однако высокопроизводительные LLM, оптимизированные для коротких контекстов, могут показывать низкие результаты в сценариях с длинными контекстами из-за недостаточного согласования для таких задач. Этот процесс согласования остается сложным из-за непрактичности ручной аннотации для длинных контекстов и трудности балансировки производительности в коротких и длинных контекстах. Для решения этих проблем мы представляем LongPO — метод, который позволяет LLM, оптимизированным для коротких контекстов, самостоятельно развиваться и преуспевать в задачах с длинными контекстами за счет внутреннего переноса возможностей, полученных в коротких контекстах. LongPO использует LLM для обучения на данных о предпочтениях, сгенерированных самими моделями, которые включают парные ответы на одинаковые инструкции с длинными контекстами и их сжатые аналоги с короткими контекстами. Эти предпочтения раскрывают возможности и потенциал LLM, развитые в ходе согласования для коротких контекстов, которые могут быть утрачены в недостаточно согласованных сценариях с длинными контекстами. Кроме того, LongPO включает ограничение KL (Кулбака-Лейблера) для минимизации снижения производительности в коротких контекстах в процессе согласования для длинных контекстов. Примененный к модели Mistral-7B-Instruct-v0.2 для контекстов длиной от 128K до 512K, LongPO полностью сохраняет производительность в коротких контекстах и значительно превосходит наивное SFT (Supervised Fine-Tuning) и DPO (Direct Preference Optimization) как в задачах с длинными, так и с короткими контекстами. В частности, модели, обученные с использованием \ourMethod, достигают результатов на тестах для длинных контекстов, сопоставимых или даже превосходящих результаты более мощных LLM (например, GPT-4-128K), которые требуют обширной аннотации для длинных контекстов и большего масштаба параметров.

Autellix: Эффективный механизм обслуживания агентов на основе больших языковых моделей как универсальных программ
Autellix: An Efficient Serving Engine for LLM Agents as General Programs

Feb 19

ByMichael Luo, Xiaoxiang Shi, Colin Cai, Tianjun Zhang, Justin Wong, Yichuan Wang, Chi Wang, Yanping Huang, Zhifeng Chen, Joseph E. Gonzalez, Ion Stoica

Приложения, основанные на больших языковых моделях (LLM), эволюционируют за пределы простых чат-ботов, превращаясь в динамические, универсальные агентские программы, которые масштабируют вызовы LLM и выходные токены, чтобы помочь ИИ-агентам рассуждать, исследовать и решать сложные задачи. Однако существующие системы обслуживания LLM игнорируют зависимости между программами и вызовами, упуская значительные возможности для оптимизации. Наш анализ показывает, что программы, отправленные в системы обслуживания LLM, сталкиваются с длительными совокупными временами ожидания, в основном из-за блокировки в начале очереди как на уровне отдельных запросов LLM, так и на уровне программы. Для решения этой проблемы мы представляем Autellix — систему обслуживания LLM, которая рассматривает программы как объекты первого класса, чтобы минимизировать их сквозные задержки. Autellix перехватывает вызовы LLM, отправленные программами, обогащая планировщики контекстом на уровне программы. Мы предлагаем два алгоритма планирования — для однопоточных и распределенных программ, — которые прерывают и приоритизируют вызовы LLM на основе ранее завершенных вызовов их программ. Наши оценки показывают, что для различных LLM и агентских рабочих нагрузок Autellix повышает пропускную способность программ в 4–15 раз при той же задержке по сравнению с передовыми системами, такими как vLLM.

Оптимизация предпочтений мышления
Thinking Preference Optimization

Feb 17

ByWang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han

Контролируемая тонкая настройка (Supervised Fine-Tuning, SFT) является проверенным и эффективным методом для улучшения длинных цепочек рассуждений (Chain-of-Thought, CoT) в относительно небольших языковых моделях (LLM) путем их тонкой настройки с использованием длинных CoT-ответов от более крупных LLM. Для постоянного улучшения способностей к рассуждению можно либо собирать новые высококачественные данные SFT с длинными CoT-рассуждениями, либо повторно обучать модели на существующих наборах данных SFT. Однако получение новых данных SFT с длинными CoT-рассуждениями является дорогостоящим и ограниченным процессом, а повторное обучение часто приводит к плато или снижению производительности. Чтобы дополнительно повысить эффективность с использованием данных SFT, мы предлагаем метод Оптимизации Предпочтений Рассуждений (Thinking Preference Optimization, ThinkPO) — простой, но эффективный подход, применяемый после SFT, который улучшает длинные CoT-рассуждения без необходимости в новых длинных CoT-ответах. Вместо этого ThinkPO использует легко доступные или легко получаемые короткие CoT-рассуждения в качестве отвергнутых ответов и длинные CoT-ответы в качестве выбранных ответов на один и тот же вопрос. Затем метод применяет прямую оптимизацию предпочтений, чтобы побудить модель отдавать предпочтение более длинным выводам рассуждений. Эксперименты показывают, что ThinkPO дополнительно улучшает производительность моделей, прошедших SFT, например, увеличивает точность математических рассуждений на 8,6% и длину вывода на 25,9%. Примечательно, что ThinkPO способен постоянно повышать производительность публично доступных моделей, прошедших SFT, например, увеличивая производительность официальной модели DeepSeek-R1-Distill-Qwen-7B на тесте MATH500 с 87,4% до 91,2%.

SearchRAG: Могут ли поисковые системы быть полезны для ответов на медицинские вопросы с использованием языковых моделей?
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

Feb 18

ByYucheng Shi, Tianze Yang, Canyu Chen, Quanzheng Li, Tianming Liu, Xiang Li, Ninghao Liu

Крупные языковые модели (LLM) демонстрируют впечатляющие способности в общих областях, но часто испытывают трудности с задачами, требующими специализированных знаний. Традиционные методы генерации с усилением за счёт извлечения (RAG) обычно извлекают внешнюю информацию из статических баз знаний, которые могут быть устаревшими или неполными, упуская детализированные клинические данные, необходимые для точного ответа на медицинские вопросы. В данной работе мы предлагаем SearchRAG — новый подход, который преодолевает эти ограничения за счёт использования поисковых систем в реальном времени. Наш метод применяет синтетическую генерацию запросов для преобразования сложных медицинских вопросов в запросы, удобные для поисковых систем, и использует выбор знаний на основе неопределённости для фильтрации и включения наиболее релевантной и информативной медицинской информации во входные данные LLM. Экспериментальные результаты показывают, что наш метод значительно повышает точность ответов в задачах медицинского вопросно-ответного взаимодействия, особенно для сложных вопросов, требующих детализированных и актуальных знаний.

Обучай мало, выводи много: Эффективное по памяти обучение LoRA для больших языковых моделей
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Feb 19

ByJun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Yang You, Guiming Xie, Xuejian Gong, Kunlong Zhou

Крупные языковые модели (LLM) значительно продвинули обработку естественного языка благодаря исключительной способности к обобщению задач. Низкоранговая адаптация (LoRA) предлагает экономичное решение для тонкой настройки, замораживая параметры исходной модели и обучая только легковесные низкоранговые адаптерные матрицы. Однако объем памяти, занимаемый LoRA, в основном определяется параметрами исходной модели. Чтобы смягчить эту проблему, мы предлагаем LoRAM — эффективную с точки зрения памяти схему обучения LoRA, основанную на интуиции, что многие нейроны в перепараметризованных LLM имеют низкую полезность для обучения, но необходимы для вывода. LoRAM предлагает уникальный подход: обучение проводится на урезанной (маленькой) модели для получения урезанных низкоранговых матриц, которые затем восстанавливаются и используются с исходной (большой) моделью для вывода. Дополнительно, минимально затратное непрерывное предварительное обучение, выполняемое издателями моделей заранее, устраняет расхождение в знаниях между урезанной и исходной моделями. Наши обширные эксперименты демонстрируют эффективность LoRAM при различных стратегиях урезания и последующих задачах. Для модели с 70 миллиардами параметров LoRAM позволяет проводить обучение на GPU с объемом памяти всего 20 ГБ HBM, заменяя GPU A100-80G для обучения LoRA и 15 GPU для полной тонкой настройки. В частности, QLoRAM, реализованный с использованием структурированного урезания в сочетании с 4-битной квантизацией для LLaMA-3.1-70B (LLaMA-2-70B), снижает затраты на хранение параметров, которые доминируют в использовании памяти при обучении низкоранговых матриц, в 15,81 раза (16,95 раза), при этом достигая значительного прироста производительности по сравнению как с исходной LLaMA-3.1-70B (LLaMA-2-70B), так и с LLaMA-3.1-8B (LLaMA-2-13B), обученной с использованием LoRA.

Предполагаемая культурная идентичность: как имена влияют на ответы языковых моделей
Presumed Cultural Identity: How Names Shape LLM Responses

Feb 17

BySiddhesh Pawar, Arnav Arora, Lucie-Aimée Kaffee, Isabelle Augenstein

Имена тесно связаны с человеческой идентичностью. Они могут служить маркерами индивидуальности, культурного наследия и личной истории. Однако использование имен в качестве основного индикатора идентичности может привести к упрощению сложных идентичностей. При взаимодействии с языковыми моделями (LLM) имена пользователей являются важным источником информации для персонализации. Имена могут появляться в диалогах с чат-ботами через прямое введение пользователем (запрашиваемое ботами), в контексте задач, таких как анализ резюме, или в качестве встроенных функций памяти, которые сохраняют информацию о пользователе для персонализации. Мы исследуем предубеждения, связанные с именами, измеряя культурные предположения в ответах, генерируемых LLM, на типичные запросы, связанные с поиском рекомендаций, которые могут включать предположения о пользователе. Наши анализы демонстрируют сильные предположения о культурной идентичности, связанной с именами, которые присутствуют в генерациях LLM для различных культур. Наша работа имеет значение для проектирования более тонких систем персонализации, которые избегают усиления стереотипов, сохраняя при этом значимую настройку.

Почему защищенные корабли садятся на мель? Механизмы безопасности выровненных больших языковых моделей склонны закрепляться в шаблонной области
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

Feb 19

ByChak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li

Безопасность крупных языковых моделей (LLM) остается уязвимой, так как их начальное поведение может быть легко нарушено даже относительно простыми атаками. Поскольку заполнение фиксированного шаблона между входной инструкцией и начальным выводом модели является распространенной практикой для существующих LLM, мы предполагаем, что этот шаблон является ключевым фактором их уязвимостей: принятие решений, связанных с безопасностью, в LLM чрезмерно зависит от агрегированной информации из области шаблона, что существенно влияет на безопасное поведение этих моделей. Мы называем эту проблему "безопасностью, закрепленной за шаблоном". В данной статье мы проводим обширные эксперименты и подтверждаем, что безопасность, закрепленная за шаблоном, широко распространена среди различных выровненных LLM. Наши механистические анализы демонстрируют, как это приводит к уязвимости моделей при столкновении с атаками на этапе вывода. Кроме того, мы показываем, что отделение механизмов безопасности от области шаблона является перспективным подходом для снижения уязвимости к атакам. Мы призываем будущие исследования разрабатывать более надежные методы обеспечения безопасности, которые уменьшают зависимость от области шаблона.

InfiR: Создание эффективных малых языковых моделей и мультимодальных малых языковых моделей для задач рассуждения
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

Feb 17

ByCongkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang

Крупные языковые модели (LLM) и мультимодальные крупные языковые модели (MLLM) достигли значительного прогресса в способностях к рассуждению. Однако они по-прежнему сталкиваются с такими проблемами, как высокие вычислительные требования и вопросы конфиденциальности. В данной статье основное внимание уделяется разработке эффективных малых языковых моделей (SLM) и мультимодальных малых языковых моделей (MSLM), которые сохраняют конкурентоспособные способности к рассуждению. Мы представляем новый подход к обучению, который улучшает способности к рассуждению и облегчает развертывание на периферийных устройствах, достигая передовых показателей производительности при минимизации затрат на разработку. \InfR~ направлен на развитие систем искусственного интеллекта за счет улучшения способностей к рассуждению, снижения барьеров для внедрения и решения вопросов конфиденциальности благодаря уменьшению размеров моделей. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiR.

NExT-Mol: 3D-диффузия встречается с 1D-языковым моделированием для генерации 3D-молекул
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

Feb 18

ByZhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua

Генерация 3D молекул играет ключевую роль в открытии лекарств и проектировании материалов. Хотя предыдущие исследования сосредоточены на 3D диффузионных моделях благодаря их преимуществам в моделировании непрерывных 3D конформеров, они упускают из виду достоинства 1D языковых моделей (Language Models, LMs), основанных на SELFIES, которые способны генерировать 100% валидные молекулы и использовать миллиардные наборы данных 1D молекул. Чтобы объединить эти преимущества для генерации 3D молекул, мы предлагаем базовую модель — NExT-Mol: 3D диффузия встречается с 1D языковым моделированием для генерации 3D молекул. NExT-Mol использует предварительно обученную молекулярную LM для генерации 1D молекул, а затем предсказывает 3D конформеры сгенерированных молекул с помощью 3D диффузионной модели. Мы улучшаем производительность NExT-Mol, увеличивая размер модели LM, совершенствуя архитектуру диффузионной нейронной сети и применяя обучение с переносом от 1D к 3D. Примечательно, что наша 1D молекулярная LM значительно превосходит базовые модели по сходству распределений, обеспечивая при этом валидность, а наша 3D диффузионная модель демонстрирует лидирующие результаты в предсказании конформеров. Благодаря этим улучшениям в 1D и 3D моделировании, NExT-Mol достигает 26% относительного улучшения в 3D FCD для de novo генерации 3D молекул на данных GEOM-DRUGS и 13% среднего относительного прироста для условной генерации 3D молекул на данных QM9-2014. Наши коды и предварительно обученные модели доступны по адресу https://github.com/acharkq/NExT-Mol.

AIDE: Исследование пространства кода с использованием искусственного интеллекта
AIDE: AI-Driven Exploration in the Space of Code

Feb 18

ByZhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, Yuxiang Wu

Машинное обучение, основа современного искусственного интеллекта, стало движущей силой инноваций, которые коренным образом изменили мир. Однако за этими достижениями скрывается сложный и зачастую утомительный процесс, требующий трудоемких и вычислительно интенсивных итераций и экспериментов. Инженеры и ученые, разрабатывающие модели машинного обучения, тратят большую часть своего времени на задачи методом проб и ошибок, вместо того чтобы сосредоточиться на концептуализации инновационных решений или исследовательских гипотез. Для решения этой проблемы мы представляем AI-Driven Exploration (AIDE) — агента инженерии машинного обучения, основанного на больших языковых моделях (LLM). AIDE рассматривает инженерию машинного обучения как задачу оптимизации кода и формулирует процесс проб и ошибок как поиск в дереве возможных решений. Стратегически повторно используя и улучшая перспективные решения, AIDE эффективно обменивает вычислительные ресурсы на повышение производительности, достигая передовых результатов на множестве эталонных тестов инженерии машинного обучения, включая наши оценки на Kaggle, OpenAI MLE-Bench и METRs RE-Bench.

AdaptiveStep: Автоматическое разделение шагов рассуждений на основе уверенности модели
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Feb 19

ByYuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin

Современные подходы к обучению моделей вознаграждения процессов (PRMs) часто включают разбиение ответов на несколько шагов рассуждения с использованием правил, таких как применение предопределённых токенов-заполнителей или фиксация длины шага рассуждения. Эти подходы упускают из виду тот факт, что конкретные слова обычно не являются истинными точками принятия решений в тексте. Для решения этой проблемы мы предлагаем метод AdaptiveStep, который разделяет шаги рассуждения на основе уверенности модели в предсказании следующего слова. Такой подход обеспечивает больше информации для принятия решений на каждом шаге, улучшая выполнение последующих задач, таких как обучение модели вознаграждения. Кроме того, наш метод не требует ручной аннотации. Мы демонстрируем его эффективность в экспериментах с PRMs, обученными с использованием AdaptiveStep, на задачах математического рассуждения и генерации кода. Результаты экспериментов показывают, что полученная PRM достигает наилучших показателей в стратегии Best-of-N, превосходя стратегию жадного поиска с декодированием, управляемым значением на уровне токенов, а также снижает затраты на построение более чем на 30% по сравнению с существующими открытыми PRMs. Дополнительно мы проводим детальный анализ и кейс-стади по производительности, переносимости и обобщающей способности PRM.

TESS 2: Крупномасштабная универсальная диффузионная языковая модель
TESS 2: A Large-Scale Generalist Diffusion Language Model

Feb 19

ByJaesung Tae, Hamish Ivison, Sachin Kumar, Arman Cohan

Мы представляем TESS 2 — универсальную диффузионную языковую модель, способную выполнять инструкции, которая превосходит современные диффузионные модели, настроенные на выполнение инструкций, а также сопоставима, а иногда и превосходит сильные авторегрессивные (AR) модели. Мы обучаем TESS 2, сначала адаптируя мощную AR-модель с помощью продолженного предобучения с использованием стандартной кросс-энтропии в качестве диффузионной функции потерь, а затем проводим дополнительную настройку на выполнение инструкций. Мы обнаруживаем, что адаптационное обучение, а также выбор базовой модели имеют решающее значение для обучения качественных диффузионных моделей, способных выполнять инструкции. Кроме того, мы предлагаем метод награждающего управления — новый и модульный подход к управлению на этапе вывода, который позволяет согласовывать выходные данные модели без необходимости переобучения основной модели. Наконец, мы показываем, что TESS 2 демонстрирует улучшение с увеличением вычислительных ресурсов на этапе вывода, подчеркивая полезность диффузионных языковых моделей в обеспечении детального контроля над объемом вычислений, используемых на этапе вывода. Код и модели доступны по адресу https://github.com/hamishivi/tess-2.

REALTALK: 21-дневный набор данных реальных диалогов для долгосрочного общения
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Feb 18

ByDong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri

Долгосрочные способности к открытому диалогу имеют ключевое значение для чат-ботов, стремящихся запоминать прошлые взаимодействия и демонстрировать эмоциональный интеллект (ЭИ). Однако большинство существующих исследований опирается на синтетические данные, сгенерированные крупными языковыми моделями (LLM), что оставляет открытыми вопросы о реальных паттернах общения. Чтобы восполнить этот пробел, мы представляем REALTALK — 21-дневный корпус аутентичных диалогов из мессенджеров, который служит прямым эталоном для сравнения с реальными человеческими взаимодействиями. Сначала мы проводим анализ набора данных, сосредотачиваясь на атрибутах ЭИ и согласованности личности, чтобы понять уникальные вызовы, которые ставят реальные диалоги. Сравнивая их с диалогами, сгенерированными LLM, мы выделяем ключевые различия, включая разнообразие эмоциональных выражений и вариации в стабильности личности, которые синтетические диалоги часто не способны передать. На основе этих наблюдений мы вводим две эталонные задачи: (1) симуляция личности, где модель продолжает диалог от имени конкретного пользователя, учитывая контекст предыдущих сообщений; и (2) проверка памяти, где модель отвечает на целевые вопросы, требующие долгосрочного запоминания прошлых взаимодействий. Наши результаты показывают, что модели испытывают трудности в симуляции пользователя исключительно на основе истории диалогов, в то время как дообучение на конкретных чатах улучшает эмуляцию личности. Кроме того, существующие модели сталкиваются с существенными сложностями в запоминании и использовании долгосрочного контекста в рамках реальных разговоров.

От инструментов к коллегам: оценка языковых моделей в многосессионных взаимодействиях при программировании
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Feb 19

ByNathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici

Крупные языковые модели (LLM) всё чаще используются в рабочих средах для решения широкого круга задач, демонстрируя высокую эффективность в решении отдельных изолированных проблем. Однако способны ли они также эффективно сотрудничать в долгосрочных взаимодействиях? Чтобы исследовать этот вопрос, мы представляем MemoryCode — синтетический набор данных для многосессионного тестирования, предназначенный для проверки способности LLM отслеживать и выполнять простые инструкции по кодированию в условиях наличия нерелевантной информации, что имитирует реалистичную среду. Хотя все протестированные модели хорошо справляются с изолированными инструкциями, даже производительность передовых моделей, таких как GPT-4o, ухудшается, когда инструкции распределены между сессиями. Наш анализ показывает, что это связано с их неспособностью извлекать и интегрировать информацию в длинных цепочках инструкций. Результаты подчеркивают фундаментальное ограничение современных LLM, которое ограничивает их способность эффективно сотрудничать в долгосрочных взаимодействиях.

ActionPiece: Контекстуальная токенизация последовательностей действий для генеративных рекомендательных систем
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Feb 19

ByYupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng

Генеративная рекомендация (GR) — это новая парадигма, в которой действия пользователей токенизируются в дискретные шаблоны токенов и авторегрессивно генерируются как предсказания. Однако существующие модели GR токенизируют каждое действие независимо, присваивая одинаковые фиксированные токены идентичным действиям во всех последовательностях, не учитывая контекстуальные связи. Это отсутствие учета контекста может приводить к неоптимальной производительности, поскольку одно и то же действие может иметь разное значение в зависимости от окружающего контекста. Чтобы решить эту проблему, мы предлагаем метод ActionPiece, который явно учитывает контекст при токенизации последовательностей действий. В ActionPiece каждое действие представлено как набор характеристик элементов, которые служат начальными токенами. На основе корпусов последовательностей действий мы строим словарь, объединяя шаблоны характеристик в новые токены на основе их частоты совместного появления как внутри отдельных наборов, так и между соседними наборами. Учитывая неупорядоченный характер наборов характеристик, мы также вводим регуляризацию перестановок наборов, которая создает несколько сегментаций последовательностей действий с одинаковой семантикой. Эксперименты на публичных наборах данных показывают, что ActionPiece стабильно превосходит существующие методы токенизации действий, улучшая NDCG@10 на 6,00% до 12,82%.

Оценка оценщиков: Сборник суждений о релевантности, сгенерированных языковыми моделями
Judging the Judges: A Collection of LLM-Generated Relevance Judgements

Feb 19

ByHossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz

Использование больших языковых моделей (LLM) для оценки релевантности открывает многообещающие возможности для улучшения информационного поиска (IR), обработки естественного языка (NLP) и смежных областей. Действительно, LLM позволяют исследователям в области IR создавать коллекции для оценки с минимальными затратами ручного труда, что особенно полезно для новых тем, по которым пока недостаточно данных, а также для решения проблем оценки ранжирующих систем в условиях ограниченных ресурсов, где сложно найти человеческих аннотаторов. Учитывая стремительное развитие этой области, многие вопросы, связанные с использованием LLM в качестве оценщиков, остаются без ответа. Среди аспектов, требующих дальнейшего изучения, можно выделить влияние различных компонентов в процессе генерации суждений о релевантности, таких как используемый промт или выбранная LLM. В данной статье представлены результаты масштабной автоматической оценки релевантности, проведенной в рамках конкурса LLMJudge на конференции SIGIR 2024, где были предложены различные подходы к оценке релевантности. В частности, мы публикуем и анализируем 42 метки, сгенерированные LLM для суждений о релевантности трека TREC 2023 Deep Learning, созданные восемью международными командами, участвовавшими в конкурсе. Благодаря своему разнообразию, эти автоматически сгенерированные суждения о релевантности могут помочь сообществу не только исследовать систематические ошибки, вызванные LLM, но и изучить эффективность ансамблевых моделей, проанализировать компромиссы между различными моделями и человеческими оценщиками, а также разработать методики для улучшения автоматизированных методов оценки. Опубликованный ресурс доступен по следующей ссылке: https://llm4eval.github.io/LLMJudge-benchmark/

REFIND: Обнаружение фактических галлюцинаций в больших языковых моделях с использованием поискового усиления
REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models

Feb 19

ByDongGeon Lee, Hwanjo Yu

Галлюцинации в выводах больших языковых моделей (LLM) существенно ограничивают их надежность в задачах, требующих глубоких знаний, таких как ответы на вопросы. Для решения этой проблемы мы представляем REFIND (Retrieval-augmented Factuality hallucINation Detection) — новый фреймворк, который обнаруживает галлюцинированные фрагменты в выводах LLM, напрямую используя извлеченные документы. В рамках REFIND мы предлагаем Context Sensitivity Ratio (CSR) — новую метрику, которая количественно оценивает чувствительность выводов LLM к извлеченным доказательствам. Этот инновационный подход позволяет REFIND эффективно и точно обнаруживать галлюцинации, выделяя его среди существующих методов. В ходе оценки REFIND продемонстрировал устойчивость в девяти языках, включая низкоресурсные среды, и значительно превзошел базовые модели, достигнув превосходных показателей IoU в идентификации галлюцинированных фрагментов. Эта работа подчеркивает эффективность количественной оценки чувствительности к контексту для обнаружения галлюцинаций, прокладывая путь к более надежным и доверенным приложениям LLM на различных языках.

Синтез новых видов с высокой точностью с использованием диффузии, управляемой сплаттингом
High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

Feb 18

ByXiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers

Несмотря на недавние достижения в области синтеза новых ракурсов (Novel View Synthesis, NVS), генерация высококачественных изображений на основе одного или нескольких наблюдений остается сложной задачей. Существующие подходы, основанные на сплаттинге, часто приводят к искажениям геометрии из-за ошибок сплаттинга. В то время как методы, основанные на диффузии, используют богатые 3D-приоры для улучшения геометрии, они часто страдают от галлюцинаций текстур. В данной статье мы представляем SplatDiff — модель видеодиффузии, управляемую пиксельным сплаттингом, предназначенную для синтеза высококачественных новых ракурсов на основе одного изображения. В частности, мы предлагаем стратегию согласованного синтеза для точного управления целевыми ракурсами и синтеза геометрически согласованных видов. Для минимизации галлюцинаций текстур мы разработали модуль текстурирования, который обеспечивает генерацию высококачественных текстур за счет адаптивного слияния признаков. Таким образом, SplatDiff объединяет преимущества сплаттинга и диффузии для генерации новых ракурсов с согласованной геометрией и высококачественными деталями. Многочисленные эксперименты подтверждают передовые характеристики SplatDiff в задаче синтеза новых ракурсов на основе одного изображения. Кроме того, без дополнительного обучения SplatDiff демонстрирует впечатляющую производительность в задачах нулевого сэмплинга, включая синтез новых ракурсов на основе нескольких изображений и преобразование стереовидео.

Какой из этих вариантов лучше всего описывает множественный выбор при оценке с использованием больших языковых моделей? A) Вынужденный B) Несовершенный C) Исправимый D) Все вышеперечисленное
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

Feb 19

ByNishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber

Множественный выбор ответов (MCQA) популярен для оценки больших языковых моделей (LLM) благодаря своей простоте и сходству с человеческим тестированием, однако мы выступаем за его реформу. Сначала мы выявляем недостатки формата MCQA, так как он не способен: 1) тестировать генерацию и субъективность; 2) соответствовать сценариям использования LLM; 3) полноценно проверять знания. Вместо этого мы предлагаем использовать генеративные форматы, основанные на человеческом тестировании, где LLM создают и объясняют ответы, что лучше отражает потребности пользователей и проверяет знания, оставаясь при этом простым для оценки. Затем мы показываем, что даже когда MCQA является полезным форматом, его наборы данных страдают от: утечек; невозможности ответа; упрощённых решений; и насыщения. Для каждой из этих проблем мы предлагаем решения из области образования, такие как рубрики для написания вопросов с множественным выбором; методы оценки, ограничивающие угадывание; и теорию ответа на задания (Item Response Theory) для создания более сложных вопросов. Наконец, мы обсуждаем ошибки LLM в MCQA — устойчивость, предвзятость и недостоверные объяснения — показывая, как наши предложенные решения лучше измеряют или устраняют эти проблемы. Хотя нам не нужно полностью отказываться от MCQA, мы призываем приложить больше усилий для улучшения этой задачи на основе образовательного тестирования, продвигая более совершенные методы оценки.

GIMMICK — Глобально инклюзивный мультимодальный мультизадачный бенчмарк культурных знаний
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

Feb 19

ByFlorian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher

Крупные визуально-языковые модели (LVLMs) недавно привлекли внимание благодаря их выдающейся производительности и широкой применимости. Хотя ранее было показано, что их эффективность в сценариях использования, связанных с не-западными контекстами, оставляет желать лучшего, существующие исследования ограничены по охвату, затрагивая лишь узкий круг культур, сосредотачиваясь исключительно на небольшом количестве культурных аспектов или оценивая ограниченный набор моделей только на одной задаче. В направлении глобально инклюзивных исследований LVLM мы представляем GIMMICK — обширный мультимодальный бенчмарк, разработанный для оценки широкого спектра культурных знаний в 144 странах, представляющих шесть глобальных макрорегионов. GIMMICK включает шесть задач, основанных на трех новых наборах данных, охватывающих 728 уникальных культурных событий или аспектов, на которых мы оценили 20 LVLM и 11 LLM, включая пять проприетарных и 26 моделей с открытыми весами всех размеров. Мы систематически исследуем (1) региональные культурные предубеждения, (2) влияние размера модели, (3) входные модальности и (4) внешние подсказки. Наши анализы выявляют сильные предубеждения в сторону западных культур среди моделей и задач, а также подчеркивают сильную корреляцию между размером модели и производительностью, а также эффективность мультимодального ввода и внешних географических подсказок. Мы также обнаруживаем, что модели обладают большими знаниями о материальных, чем о нематериальных аспектах (например, еда vs. ритуалы), и что они преуспевают в распознавании широких культурных истоков, но испытывают трудности с более тонким пониманием.

Шум может содержать передаваемые знания: понимание полуконтролируемой гетерогенной адаптации доменов с эмпирической точки зрения
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective

Feb 19

ByYuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang

Полуавтоматическая адаптация к гетерогенным доменам (SHDA) решает задачу обучения в условиях, когда домены имеют различные представления признаков и распределения, при этом образцы исходного домена размечены, а большинство образцов целевого домена не размечены, за исключением небольшой их части. Кроме того, отсутствует прямое соответствие между образцами исходного и целевого доменов. Хотя для решения этой проблемы было разработано множество методов SHDA, природа знаний, передаваемых между гетерогенными доменами, остается неясной. В данной статье этот вопрос исследуется с эмпирической точки зрения. Мы проводим обширные эксперименты на примерно 330 задачах SHDA, используя два метода обучения с учителем и семь репрезентативных методов SHDA. Удивительно, но наши наблюдения показывают, что информация о категориях и признаках образцов исходного домена не оказывает значительного влияния на производительность в целевом домене. Кроме того, шум, извлеченный из простых распределений, при использовании в качестве образцов исходного домена может содержать передаваемые знания. Основываясь на этом инсайте, мы проводим серию экспериментов, чтобы раскрыть основные принципы передаваемых знаний в SHDA. В частности, мы разрабатываем унифицированную Структуру Передачи Знаний (KTF) для SHDA. На основе KTF мы обнаруживаем, что передаваемые знания в SHDA в основном происходят из переносимости и различимости исходного домена. Следовательно, обеспечение этих свойств в образцах исходного домена, независимо от их происхождения (например, изображения, текст, шум), может повысить эффективность передачи знаний в задачах SHDA. Коды и наборы данных доступны по адресу https://github.com/yyyaoyuan/SHDA.

MVL-SIB: Масштабный мультиязычный бенчмарк для сопоставления тем в задачах взаимодействия визуальных и текстовых данных
MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

Feb 18

ByFabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš

Существующие мультиязычные бенчмарки для задач, связанных с визуальным и языковым восприятием (vision-language, VL), часто охватывают лишь ограниченное количество языков. В результате оценки крупных моделей, работающих с визуальными и языковыми данными (large vision-language models, LVLMs), в основном сосредоточены на языках с высоким уровнем ресурсной обеспеченности, что подчеркивает необходимость в данных для оценки языков с низким уровнем ресурсов. Чтобы устранить этот недостаток, мы представляем MVL-SIB — массово мультиязычный бенчмарк для задач VL, который оценивает как кросс-модальное, так и текстовое тематическое соответствие для 205 языков — более чем на 100 языков больше, чем охватывают самые мультиязычные существующие бенчмарки VL. Затем мы тестируем ряд открытых моделей LVLM вместе с GPT-4o(-mini) на MVL-SIB. Наши результаты показывают, что LVLM испытывают трудности с кросс-модальным тематическим соответствием для языков с низким уровнем ресурсов, демонстрируя результаты не лучше случайных для таких языков, как N'Koo. Наш анализ также выявляет, что поддержка VL в LVLM снижается непропорционально по сравнению с текстовой поддержкой для языков с низким уровнем ресурсов, что подтверждается сравнением производительности в кросс-модальном и текстовом тематическом соответствии. Мы также отмечаем, что открытые модели LVLM не получают преимущества от представления темы с использованием более чем одного изображения, что указывает на то, что эти модели пока не полностью эффективны в задачах, связанных с обработкой нескольких изображений. Сопоставляя результаты на MVL-SIB с другими мультиязычными бенчмарками VL, мы подчеркиваем, что MVL-SIB служит всесторонним инструментом для исследования мультиязычного понимания VL в LVLM.

Снижение галлюцинаций при генерации SPARQL-запросов на основе языковых моделей с использованием извлечения из памяти после генерации
Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

Feb 19

ByAditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal

Способность генерировать SPARQL-запросы на основе вопросов на естественном языке имеет решающее значение для обеспечения эффективного и точного извлечения структурированных данных из графов знаний (KG). Хотя крупные языковые модели (LLM) широко используются для генерации SPARQL-запросов, они часто подвержены галлюцинациям и ошибкам, связанным с выходом за пределы распределения, при создании элементов KG, таких как унифицированные идентификаторы ресурсов (URI), на основе внутренних параметрических знаний. Это часто приводит к созданию контента, который кажется правдоподобным, но фактически является ошибочным, что создает значительные трудности для их использования в реальных приложениях информационного поиска (IR). Это привело к увеличению исследований, направленных на обнаружение и устранение таких ошибок. В данной статье мы представляем PGMR (Post-Generation Memory Retrieval), модульную структуру, которая включает непараметрический модуль памяти для извлечения элементов KG и улучшения генерации SPARQL-запросов на основе LLM. Наши экспериментальные результаты показывают, что PGMR демонстрирует стабильно высокую производительность на различных наборах данных, распределениях данных и LLM. В частности, PGMR значительно снижает количество галлюцинаций URI, практически устраняя эту проблему в ряде сценариев.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Qwen2.5-VL
Qwen2.5-VL Technical Report

Feb 19

213

О надежности генеративных базовых моделей: руководство, оценка и перспективы
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Feb 20

MMTEB: Масштабный бенчмарк для мультиязычных текстовых эмбеддингов
MMTEB: Massive Multilingual Text Embedding Benchmark

Feb 19

SongGen: Одноэтапный авторегрессивный трансформер для генерации песен из текста
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Feb 18

ByZihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Малые модели испытывают трудности в обучении на основе сильных рассуждающих систем.
Small Models Struggle to Learn from Strong Reasoners

Feb 17

ByYuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran

RAD: Обучение сквозной политики вождения с использованием крупномасштабного обучения с подкреплением на основе 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Feb 18

ByHao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

MoM: Моделирование линейных последовательностей с использованием смеси памяти
MoM: Linear Sequence Modeling with Mixture-of-Memories

Feb 19

ByJusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng

Craw4LLM: Эффективный веб-краулинг для предварительного обучения языковых моделей
Craw4LLM: Efficient Web Crawling for LLM Pretraining

Feb 19

ByShi Yu, Zhiyuan Liu, Chenyan Xiong

Это ваш окончательный ответ? Масштабирование во время тестирования улучшает избирательное ответы на вопросы
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

Feb 19

ByWilliam Jurayj, Jeffrey Cheng, Benjamin Van Durme

LongPO: Самоэволюция языковых моделей с длинным контекстом через оптимизацию предпочтений от короткого к длинному
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Feb 19

ByGuanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing

Autellix: Эффективный механизм обслуживания агентов на основе больших языковых моделей как универсальных программ
Autellix: An Efficient Serving Engine for LLM Agents as General Programs

Feb 19

ByMichael Luo, Xiaoxiang Shi, Colin Cai, Tianjun Zhang, Justin Wong, Yichuan Wang, Chi Wang, Yanping Huang, Zhifeng Chen, Joseph E. Gonzalez, Ion Stoica

Оптимизация предпочтений мышления
Thinking Preference Optimization

Feb 17

ByWang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han

SearchRAG: Могут ли поисковые системы быть полезны для ответов на медицинские вопросы с использованием языковых моделей?
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

Feb 18

ByYucheng Shi, Tianze Yang, Canyu Chen, Quanzheng Li, Tianming Liu, Xiang Li, Ninghao Liu

Обучай мало, выводи много: Эффективное по памяти обучение LoRA для больших языковых моделей
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Feb 19

ByJun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Yang You, Guiming Xie, Xuejian Gong, Kunlong Zhou

Предполагаемая культурная идентичность: как имена влияют на ответы языковых моделей
Presumed Cultural Identity: How Names Shape LLM Responses

Feb 17

BySiddhesh Pawar, Arnav Arora, Lucie-Aimée Kaffee, Isabelle Augenstein

Почему защищенные корабли садятся на мель? Механизмы безопасности выровненных больших языковых моделей склонны закрепляться в шаблонной области
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

Feb 19

ByChak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li

InfiR: Создание эффективных малых языковых моделей и мультимодальных малых языковых моделей для задач рассуждения
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

Feb 17

NExT-Mol: 3D-диффузия встречается с 1D-языковым моделированием для генерации 3D-молекул
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

Feb 18

ByZhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua

AIDE: Исследование пространства кода с использованием искусственного интеллекта
AIDE: AI-Driven Exploration in the Space of Code

Feb 18

ByZhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, Yuxiang Wu

AdaptiveStep: Автоматическое разделение шагов рассуждений на основе уверенности модели
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Feb 19

ByYuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin

TESS 2: Крупномасштабная универсальная диффузионная языковая модель
TESS 2: A Large-Scale Generalist Diffusion Language Model

Feb 19

ByJaesung Tae, Hamish Ivison, Sachin Kumar, Arman Cohan

REALTALK: 21-дневный набор данных реальных диалогов для долгосрочного общения
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Feb 18

ByDong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri

От инструментов к коллегам: оценка языковых моделей в многосессионных взаимодействиях при программировании
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Feb 19

ByNathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici

ActionPiece: Контекстуальная токенизация последовательностей действий для генеративных рекомендательных систем
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Feb 19

ByYupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng

Оценка оценщиков: Сборник суждений о релевантности, сгенерированных языковыми моделями
Judging the Judges: A Collection of LLM-Generated Relevance Judgements

Feb 19

ByHossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz