HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

38 papers found

Нативное разреженное внимание: аппаратно-ориентированное и изначально обучаемое разреженное внимание
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Feb 16

ByJingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng

166

Моделирование длинных контекстов имеет ключевое значение для языковых моделей следующего поколения, однако высокая вычислительная стоимость стандартных механизмов внимания создает значительные вычислительные трудности. Разреженное внимание предлагает перспективное направление для повышения эффективности при сохранении возможностей модели. Мы представляем NSA (Natively trainable Sparse Attention) — механизм разреженного внимания, который интегрирует алгоритмические инновации с оптимизациями, ориентированными на аппаратное обеспечение, для достижения эффективного моделирования длинных контекстов. NSA использует динамическую иерархическую стратегию разрежения, сочетая грубое сжатие токенов с точным выбором токенов для сохранения как глобальной осведомленности о контексте, так и локальной точности. Наш подход продвигает дизайн разреженного внимания с двумя ключевыми инновациями: (1) Мы достигаем значительного ускорения за счет сбалансированного по арифметической интенсивности проектирования алгоритма с оптимизациями для современного оборудования. (2) Мы обеспечиваем сквозное обучение, сокращая вычисления на этапе предварительного обучения без ущерба для производительности модели. Как показано на Рисунке 1, эксперименты демонстрируют, что модель, предварительно обученная с использованием NSA, сохраняет или превосходит модели с полным вниманием на общих бенчмарках, задачах с длинным контекстом и рассуждениях на основе инструкций. При этом NSA достигает значительного ускорения по сравнению с полным вниманием на последовательностях длиной 64k токенов на этапах декодирования, прямого и обратного распространения, подтверждая свою эффективность на протяжении всего жизненного цикла модели.

SWE-Lancer: Могут ли модели LLM "Frontier" заработать $1 миллион на фрилансе по программной инженерии в реальном мире?
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

Feb 17

BySamuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke

Мы представляем SWE-Lancer, бенчмарк из более чем 1 400 задач по фрилансу в области программной инженерии с платформы Upwork, общей стоимостью в 1 миллион долларов США в реальных выплатах. SWE-Lancer охватывает как независимые инженерные задачи - от 50 исправлений ошибок до реализации функций на сумму до 32 000 долларов, так и управленческие задачи, где модели выбирают между техническими предложениями по реализации. Независимые задачи оцениваются с помощью комплексных тестов, проверенных тремя опытными программистами, в то время как управленческие решения оцениваются по выбору оригинальных нанятых менеджеров по инженерии. Мы оцениваем производительность модели и обнаруживаем, что передовые модели все еще не способны решить большинство задач. Для облегчения будущих исследований мы предоставляем в открытый доступ унифицированный образ Docker и общедоступное разделение на оценку, SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). Путем сопоставления производительности модели с денежной стоимостью мы надеемся, что SWE-Lancer позволит провести более глубокие исследования в области экономического влияния разработки моделей искусственного интеллекта.

Обучение политикам вставания для гуманоидных роботов в реальном мире.
Learning Getting-Up Policies for Real-World Humanoid Robots

Feb 17

ByXialin He, Runpei Dong, Zixuan Chen, Saurabh Gupta

Автоматическое восстановление после падения является важным предварительным условием перед надежным развертыванием гуманоидных роботов. Ручное проектирование контроллеров для вставания затруднительно из-за разнообразных конфигураций, в которых гуманоид может оказаться после падения, а также из-за сложных местностей, на которых ожидается работа гуманоидных роботов. В данной статье разрабатывается обучающая структура для создания контроллеров, позволяющих гуманоидным роботам вставать из различных конфигураций на различных местностях. В отличие от предыдущих успешных применений обучения гуманоидной локомоции, задача вставания включает в себя сложные контактные паттерны, что требует точного моделирования геометрии столкновения и более разреженных вознаграждений. Мы решаем эти проблемы через двухфазный подход, который следует учебному плану. Первая стадия сосредотачивается на поиске оптимальной траектории вставания с минимальными ограничениями на плавность или пределы скорости/момента. Вторая стадия затем улучшает обнаруженные движения до развертываемых (т.е. плавных и медленных) движений, устойчивых к изменениям начальной конфигурации и местности. Мы обнаружили, что эти инновации позволяют реальному гуманоидному роботу G1 вставать из двух основных ситуаций, которые мы рассматривали: а) лежа лицом вверх и б) лежа лицом вниз, обе протестированы на плоских, деформируемых, скользких поверхностях и склонах (например, крутой траве и снежном поле). На наш взгляд, это первая успешная демонстрация изученных политик вставания для гуманоидных роботов человеческого размера в реальном мире. Страница проекта: https://humanoid-getup.github.io/

Я мыслю, следовательно, диффундирую: реализация мультимодального контекстного рассуждения в диффузионных моделях
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Feb 12

ByZhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu

В данной статье представлен ThinkDiff — новая парадигма выравнивания, которая наделяет модели диффузии "текст-изображение" способностью к мультимодальному пониманию и рассуждению в контексте, интегрируя преимущества моделей "визуальный язык" (VLMs). Существующие методы тонкой настройки мультимодальной диффузии в основном сосредоточены на реконструкции на уровне пикселей, а не на рассуждениях в контексте, и ограничены сложностью и ограниченной доступностью наборов данных, ориентированных на рассуждения. ThinkDiff решает эти проблемы, используя обучение на задачах "визуальный язык" в качестве прокси-задачи, выравнивая VLMs с декодером модели языка с кодировщиком-декодером (LLM) вместо декодера диффузии. Эта прокси-задача основана на наблюдении, что декодер LLM использует то же пространство входных признаков, что и декодеры диффузии, которые применяют соответствующий кодировщик LLM для встраивания запросов. В результате выравнивание VLMs с декодерами диффузии можно упростить через выравнивание с декодером LLM. Без сложного обучения и наборов данных ThinkDiff эффективно раскрывает способности к пониманию, рассуждению и композиции в моделях диффузии. Эксперименты показывают, что ThinkDiff значительно улучшает точность с 19,2% до 46,3% на сложном бенчмарке CoBSAT для генерации мультимодальных рассуждений в контексте, при этом обучение занимает всего 5 часов на 4 GPU A100. Кроме того, ThinkDiff демонстрирует выдающуюся производительность в композиции нескольких изображений и текстов в логически согласованные изображения. Страница проекта: https://mizhenxing.github.io/ThinkDiff.

ReLearn: Забывание через Обучение для Больших Языковых Моделей
ReLearn: Unlearning via Learning for Large Language Models

Feb 16

ByHaoming Xu, Ningyuan Zhao, Liming Yang, Sendong Zhao, Shumin Deng, Mengru Wang, Bryan Hooi, Nay Oo, Huajun Chen, Ningyu Zhang

Существующие методы отказа от обучения для больших языковых моделей обычно основаны на обратной оптимизации для снижения вероятностей целевых токенов. Однако этот подход нарушает предсказание последующих токенов, что снижает производительность модели и лингвистическую связность. Более того, существующие метрики оценки переобучения слишком сосредоточены на контекстном забывании, недостаточно оценивая связность и релевантность ответов. Для решения этих проблем мы предлагаем ReLearn - конвейер для эффективного отказа от обучения с использованием аугментации данных и донастройки, а также комплексную систему оценки. Эта система вводит показатели Скорость Забывания Знаний (KFR) и Скорость Сохранения Знаний (KRR) для измерения сохранения уровня знаний, а также Лингвистический Оценочный Балл (LS) для оценки качества генерации. Наши эксперименты показывают, что ReLearn успешно достигает целевого забывания, сохраняя при этом высококачественный вывод. Через механистический анализ мы также демонстрируем, как обратная оптимизация нарушает когерентную генерацию текста, в то время как ReLearn сохраняет эту важную способность. Код доступен по ссылке https://github.com/zjunlp/unlearn.

Как LLM-модели приобретают новые знания? Перспектива циркуляции знаний о постоянном предварительном обучении.
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

Feb 16

ByYixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen

Несмотря на исключительные возможности в задачах, требующих большого объема знаний, большие языковые модели (Large Language Models, LLM) сталкиваются с критическим разрывом в понимании того, как они усваивают новые знания, особенно как структурно внедрить усвоенные знания в свои нейронные вычисления. Мы решаем эту проблему через призму эволюции знаниевых цепей, выявляя вычислительные подграфы, которые облегчают хранение и обработку знаний. Наша систематическая аналитика эволюции цепей на протяжении непрерывного предварительного обучения выявляет несколько ключевых результатов: (1) усвоение новых знаний влияет на их значимость для предварительно существующих знаний; (2) эволюция знаниевых цепей проявляет отчетливый сдвиг фазы от формирования к оптимизации; (3) эволюция знаниевых цепей следует глубокому-к поверхностному шаблону. Эти исследования не только продвигают наше теоретическое понимание механизмов усвоения новых знаний в LLM, но также предоставляют потенциальные выводы для улучшения стратегий непрерывного предварительного обучения для повышения производительности модели. Код и данные будут доступны на https://github.com/zjunlp/DynamicKnowledgeCircuits.

CRANE: Рассуждения с ограниченной генерацией LLM
CRANE: Reasoning with constrained LLM generation

Feb 13

ByDebangshu Banerjee, Tarun Suresh, Shubham Ugare, Sasa Misailovic, Gagandeep Singh

Генерация кода, символьное математическое рассуждение и другие задачи требуют от LLM'ов производить выходные данные, которые будут как синтаксически, так и семантически корректными. Генерация ограниченных LLM'ов - это перспективное направление для обеспечения соблюдения формальной грамматики, однако предшествующие работы эмпирически наблюдали, что строгое соблюдение формальных ограничений часто снижает способности к рассуждению LLM'ов. В данной работе мы в первую очередь предоставляем теоретическое объяснение того, почему ограничение выходных данных LLM'ов до очень строгих грамматик, позволяющих только синтаксически правильные конечные ответы, снижает способности к рассуждению модели. Во-вторых, мы демонстрируем, что, дополнив грамматику вывода тщательно разработанными дополнительными правилами, всегда можно сохранить способности к рассуждению LLM'ов, обеспечивая синтаксическую и семантическую корректность в их выходных данных. Основываясь на этих теоретических идеях, мы предлагаем алгоритм декодирования с усилением рассуждений, CRANE, который эффективно балансирует корректность ограниченной генерации с гибкостью неконтролируемой генерации. Эксперименты на нескольких LLM'ах с открытым исходным кодом и бенчмарках показывают, что CRANE значительно превосходит как стратегии ограниченного декодирования нового поколения, так и стандартное неконтролируемое декодирование, демонстрируя улучшение точности на уровне до 10% по сравнению с базовыми показателями на сложных символьных бенчмарках рассуждения GSM-symbolic и FOLIO.

IHEval: Оценка языковых моделей на следование иерархии инструкций
IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Feb 12

ByZhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang

Иерархия инструкций, которая устанавливает порядок приоритетов от системных сообщений к пользовательским, истории диалогов и выводам инструментов, играет ключевую роль в обеспечении согласованного и безопасного поведения языковых моделей (ЯМ). Несмотря на её важность, этой теме уделяется недостаточно внимания, а также отсутствуют комплексные эталоны для оценки способности моделей следовать иерархии инструкций. Мы устраняем этот пробел, представляя IHEval — новый эталон, включающий 3,538 примеров по девяти задачам, охватывающим случаи, когда инструкции разных приоритетов либо согласуются, либо конфликтуют. Наша оценка популярных ЯМ выявила их трудности в распознавании приоритетов инструкций. Все протестированные модели демонстрируют резкое снижение производительности при столкновении с конфликтующими инструкциями по сравнению с их исходной способностью следовать инструкциям. Более того, наиболее конкурентоспособная модель с открытым исходным кодом достигает лишь 48% точности в разрешении таких конфликтов. Наши результаты подчеркивают необходимость целенаправленной оптимизации в будущем развитии ЯМ.

Интуитивное понимание физики возникает в результате самоконтролируемого предварительного обучения на естественных видеозаписях
Intuitive physics understanding emerges from self-supervised pretraining on natural videos

Feb 17

ByQuentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun

Мы исследуем возникновение интуитивного понимания физики в универсальных глубоких нейронных сетях, обученных предсказывать замаскированные области в естественных видеозаписях. Используя метод нарушения ожиданий, мы обнаруживаем, что модели предсказания видео, обученные прогнозировать результаты в изученном пространстве представлений, демонстрируют понимание различных свойств интуитивной физики, таких как постоянство объектов и согласованность формы. В то же время, модели предсказания видео в пространстве пикселей и мультимодальные крупные языковые модели, которые рассуждают через текст, показывают результаты, близкие к случайным. Наше сравнение этих архитектур показывает, что совместное изучение абстрактного пространства представлений при предсказании отсутствующих частей сенсорного ввода, аналогично предсказательному кодированию, достаточно для приобретения понимания интуитивной физики, и что даже модели, обученные на одной неделе уникальных видеозаписей, показывают результаты выше случайных. Это ставит под сомнение идею о том, что базовые знания — набор врожденных систем для понимания мира — должны быть жестко запрограммированы для развития понимания интуитивной физики.

Sailor2: Покорение Юго-Восточной Азии с инклюзивными многоязычными LLM
Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

Feb 18

ByLongxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydlíček, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin

Sailor2 представляет собой семейство передовых многоязычных языковых моделей для языков Юго-Восточной Азии (ЮВА), доступных в размерах 1B, 8B и 20B для различных приложений. Основанная на Qwen2.5, модель Sailor2 проходит непрерывное предварительное обучение на 500 миллиардах токенов (400 миллиардов специфичных для ЮВА и 100 миллиардов повторяющихся токенов) для поддержки 13 языков ЮВА, сохраняя при этом владение китайским и английским языками. Модель Sailor2-20B демонстрирует 50-50 соотношение побед против GPT-4o на языках ЮВА. Мы также предоставляем подробное руководство по эффективной разработке многоязычной модели, охватывающее пять ключевых аспектов: подготовка данных, предварительное обучение, пост-обучение, настройка модели и оценка. Мы надеемся, что модель Sailor2 (лицензия Apache 2.0) будет способствовать развитию языков в регионе ЮВА, а руководство Sailor2 вдохновит исследователей на создание более инклюзивных языковых моделей для других недостаточно охваченных языков.

HermesFlow: Безупречное сокрытие разрыва в мультимодальном понимании и генерации
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

Feb 17

ByLing Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui

Замечательный успех парадигмы авторегрессии привел к значительному прогрессу в моделях многомодального крупномасштабного языка (MLLM), с мощными моделями, такими как Show-o, Transfusion и Emu3, достигающими значительных успехов в объединенном понимании и генерации изображений. Впервые мы выявляем общее явление: способности понимания MLLM обычно сильнее, чем их способности к генерации, с значительным разрывом между ними. Основываясь на этом понимании, мы предлагаем HermesFlow, простую, но общую структуру, разработанную для плавного преодоления разрыва между пониманием и генерацией в MLLM. Конкретно, мы берем гомологичные данные в качестве входных данных для курирования гомологичных предпочтений данных как для понимания, так и для генерации. Через парное DPO и самоиграющую оптимизацию, HermesFlow эффективно выравнивает многомодальное понимание и генерацию, используя гомологичные предпочтения данных. Обширные эксперименты демонстрируют значительное превосходство нашего подхода над предыдущими методами, особенно в уменьшении разрыва между многомодальным пониманием и генерацией. Эти результаты подчеркивают потенциал HermesFlow как общей структуры выравнивания для моделей многомодальных фундаментов следующего поколения. Код: https://github.com/Gen-Verse/HermesFlow

Запрос в любой модальности: всесторонний обзор мультимодального поисково-усиленного генеративного подхода
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Feb 12

ByMohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari

Крупные языковые модели (LLM) сталкиваются с проблемами галлюцинаций и устаревших знаний из-за их зависимости от статических обучающих данных. Метод генерации с усилением поиска (RAG) смягчает эти проблемы за счёт интеграции внешней динамической информации, что улучшает фактическую и актуальную основу. Последние достижения в области мультимодального обучения привели к разработке мультимодального RAG, который включает несколько модальностей, таких как текст, изображения, аудио и видео, для улучшения генерируемых результатов. Однако кросс-модальное согласование и рассуждение создают уникальные вызовы для мультимодального RAG, отличая его от традиционного одномодального RAG. Данный обзор предлагает структурированный и всесторонний анализ систем мультимодального RAG, охватывая наборы данных, метрики, бенчмарки, оценку, методологии и инновации в области поиска, слияния, усиления и генерации. Мы подробно рассматриваем стратегии обучения, улучшения устойчивости и функции потерь, а также исследуем различные сценарии мультимодального RAG. Кроме того, мы обсуждаем открытые вызовы и будущие направления исследований для поддержки прогресса в этой развивающейся области. Этот обзор закладывает основу для создания более мощных и надёжных ИИ-систем, эффективно использующих мультимодальные динамические внешние базы знаний. Ресурсы доступны по адресу: https://github.com/llm-lab-org/Multimodal-RAG-Survey.

Диффузионное уточнение: настройка моделей диффузии с уточнением траектории шумоподавления
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Feb 17

ByYe Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui

Мы предлагаем метод Diffusion-Sharpening, подход к настройке fein-tuning, который улучшает выравнивание на уровне ниже путем оптимизации траекторий выборки. Существующие методы настройки fein-tuning на основе RL сосредотачиваются на одиночных временных шагах обучения и пренебрегают выравниванием на уровне траектории, в то время как недавние методы оптимизации траекторий выборки влекут значительные затраты на NFE вывода. Diffusion-Sharpening преодолевает это, используя каркас интеграла пути для выбора оптимальных траекторий во время обучения, опираясь на обратную связь по вознаграждению и амортизируя затраты вывода. Наш метод демонстрирует превосходную эффективность обучения с более быстрой сходимостью и лучшей эффективностью вывода без необходимости дополнительных NFE. Обширные эксперименты показывают, что Diffusion-Sharpening превосходит методы настройки fein-tuning на основе RL (например, Diffusion-DPO) и методы оптимизации траекторий выборки (например, Inference Scaling) по разнообразным метрикам, включая выравнивание текста, композиционные возможности и предпочтения человека, предлагая масштабируемое и эффективное решение для будущей настройки модели диффузии. Код: https://github.com/Gen-Verse/Diffusion-Sharpening

Генерация системных сообщений для пользовательских предпочтений с использованием моделей с открытым исходным кодом.
System Message Generation for User Preferences using Open-Source Models

Feb 17

ByMinbyul Jeong, Jungho Cho, Minsoo Khang, Dawoon Jung, Teakgyu Hong

Системные сообщения играют ключевую роль во взаимодействии с большими языковыми моделями (LLM), часто служа как подсказки для начала разговоров. Через системные сообщения пользователи могут назначать конкретные роли, выполнять задачи, включать фоновую информацию, указывать различные форматы вывода и стили коммуникации. Несмотря на такую гибкость, общедоступные данные часто лишены системных сообщений и подвержены строгим лицензионным ограничениям в индустриальной сфере. Ручная разметка общедоступных данных с системными сообщениями, соответствующими инструкциям пользователя, требует значительных ресурсов. В свете таких вызовов наша работа представляет SysGen, конвейер для генерации системных сообщений с лучшими ответами ассистента, выровненными по надзорному натаскивающему набору данных без системных сообщений. Обучение на данных SysGen продемонстрировало существенное улучшение соответствия ответов модели системным сообщениям и инструкциям пользователя, что подтверждается на различных моделях с открытым исходным кодом на бенчмарке Multifacet, сохраняя минимальное воздействие на другие неизвестные бенчмарки, такие как Open LLM Leaderboard 2. Наше качественное анализирует важность разнообразных системных сообщений для обеспечения лучшей адаптивности в различных контекстах.

Говорить структурно, действовать иерархически: совместная платформа для LLM мультиагентных систем
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems

Feb 16

ByZhao Wang, Sota Moriyama, Wei-Yao Wang, Briti Gangopadhyay, Shingo Takamatsu

Недавние достижения в системах на основе LLM для мультиагентных систем (LLM-MA) показали потенциал, однако остаются значительные проблемы в управлении коммуникацией и усовершенствованием при совместной работе агентов над сложными задачами. В данной статье мы предлагаем Talk Structurally, Act Hierarchically (TalkHier), новую концепцию, которая вводит структурированный протокол коммуникации для обменов контекстно насыщенной информацией и иерархическую систему усовершенствования для решения проблем, таких как неправильные выводы, ложные утверждения и предвзятость. TalkHier превосходит различные типы SoTA, включая модель масштабирования выводов (OpenAI-o1), мультиагентные модели с открытым исходным кодом (например, AgentVerse) и стратегии большинственного голосования на текущих LLM и одноагентных базовых моделях (например, ReAct, GPT4o), на разнообразных задачах, включая ответы на вопросы в открытой области, доменно-специфическое селективное опросное и практическое создание рекламных текстов. Эти результаты подчеркивают его потенциал для установления нового стандарта для систем LLM-MA, открывая путь к более эффективным, адаптивным и совместным мультиагентным структурам. Код доступен по ссылке https://github.com/sony/talkhier.

SURGE: О потенциале крупных языковых моделей в качестве универсальных исполнителей кода-заменителей.
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Feb 16

ByBohan Lyu, Siqiao Huang, Zichen Liang

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в задачах, связанных с кодом, таких как понимание кода и генерация кода. Однако одинаково важный, но недостаточно исследованный вопрос заключается в том, могут ли LLM служить в качестве универсальных заменителей исполнителей кода, чтобы предсказывать вывод и поведение программы без ее фактического запуска. Для систематического изучения этой возможности мы представляем SURGE, обширный бенчмарк, охватывающий восемь ключевых аспектов: задачи многих языков программирования, проблемы программирования на уровне соревнований, анализ кода на уровне репозитория, вычисления в области научных исследований высокой стоимости, алгоритмы с высокой вычислительной сложностью, анализ ошибок в коде, программы, зависящие от конкретных компиляторов или сред выполнения, и формальная математическая проверка доказательств. Мы оцениваем несколько открытых и закрытых LLM на SURGE и проводим исследование масштабирования для анализа влияния размера модели и масштаба обучающих данных на точность заменительного исполнения. Кроме того, мы классифицируем ошибки прогнозирования модели и исследуем потенциальные области для улучшения. Наши результаты показывают, что хотя LLM могут предсказывать результаты выполнения кода в определенных случаях, они проявляют ограничения в универсальном заменительном исполнении. Это исследование предоставляет эмпирические понимания о возможности использования LLM в качестве заменителей исполнителей кода. Код и набор данных доступны по ссылке https://github.com/Imbernoulli/SURGE.

Исследователь: Масштабирование синтеза веб-траекторий, ориентированного на исследование, для мультимодальных веб-агентов
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Feb 17

ByVardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah

Недавние успехи в области крупных мультимодальных моделей (LMM) открыли перспективы для создания агентов, способных автономно выполнять сложные веб-задачи. Хотя открытые LMM-агенты достигли значительных успехов в оффлайн-бенчмарках, их производительность всё ещё существенно отстаёт от человеческого уровня в более реалистичных онлайн-сценариях. Основным ограничением является отсутствие разнообразных и масштабных наборов данных на уровне траекторий в различных доменах, сбор которых требует значительных затрат. В данной работе мы решаем эту проблему, разработав масштабируемую методику для синтеза крупнейшего и наиболее разнообразного набора данных на уровне траекторий, содержащего более 94K успешных мультимодальных веб-траекторий, охватывающих 49K уникальных URL-адресов, 720K скриншотов и 33M веб-элементов. В частности, мы используем обширное веб-исследование и уточнение для получения разнообразных намерений задач. Средняя стоимость составляет 28 центов за успешную траекторию, что делает её доступной для широкого круга пользователей. Используя этот набор данных, мы обучаем Explorer — мультимодального веб-агента — и демонстрируем высокую производительность как в оффлайн, так и в онлайн бенчмарках, таких как Mind2Web-Live, Multimodal-Mind2Web и MiniWob++. Кроме того, наши эксперименты подчёркивают, что масштабирование данных является ключевым фактором для улучшения возможностей веб-агентов. Мы надеемся, что это исследование сделает передовые исследования на основе LMM-агентов более доступными для широкого круга специалистов.

Мираж редактирования моделей: переосмысление оценки в реальных условиях
The Mirage of Model Editing: Revisiting Evaluation in the Wild

Feb 16

ByWanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng

Несмотря на почти идеальные результаты в искусственных оценках, эффективность редактирования моделей в реальных приложениях остается неисследованной. Чтобы устранить этот пробел, мы предлагаем изучить редактирование моделей в задачах ответов на вопросы (QA), установив строгую практику оценки для определения эффективности методов редактирования в исправлении ошибок больших языковых моделей (LLM). Наш подход включает QAEdit — новый бенчмарк, созданный на основе популярных наборов данных QA, и стандартизированную структуру оценки. Наши эксперименты с единичным редактированием показывают, что текущие методы редактирования работают значительно хуже, чем сообщалось ранее (38,5% против ~96%). С помощью анализа модулей и контролируемых экспериментов мы демонстрируем, что это снижение производительности связано с проблемами в практике оценки в предыдущих исследованиях редактирования. Одной из ключевых проблем является неподходящее использование teacher forcing при тестировании, которое предотвращает распространение ошибок путем подачи эталонных токенов (недоступных в реальных сценариях) на вход. Кроме того, мы моделируем реальное развертывание с помощью последовательного редактирования, показывая, что текущие подходы терпят крах уже после 1000 правок. Наш анализ представляет собой фундаментальный пересмотр как применимости существующих методов редактирования моделей в реальных условиях, так и практик их оценки, а также устанавливает строгую структуру оценки с ключевыми инсайтами для продвижения надежных и практических исследований в области редактирования моделей.

Видео-SALMONN-o1: Модель крупного языка с улучшенным рассуждением на основе аудио-визуальных данных
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Feb 17

ByGuangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang

Недавние достижения в оптимизации рассуждений значительно улучшили возможности крупных языковых моделей (LLM), однако существующие усилия по улучшению рассуждений ограничивались решением математических задач и фокусировались на визуальных графических входах, игнорируя более широкие применения в общем понимании видео. В данной статье предлагается video-SALMONN-o1, первая открытая модель языка с улучшенными рассуждениями для аудио-визуального понимания видео задач общего характера. Для улучшения ее рассуждательных способностей мы разработали набор данных, требующий интенсивного использования рассуждений, включающий сложные аудио-визуальные вопросы с пошаговыми решениями. Мы также предлагаем оптимизацию прямого предпочтения процесса (pDPO), которая использует контрастный выбор шага для достижения эффективного моделирования вознаграждения на уровне шага, адаптированного для мультимодальных входов. Кроме того, мы представляем RivaBench, первый бенчмарк интенсивного использования рассуждений в понимании видео, включающий более 4 000 высококачественных вопросов-ответов, отобранных экспертами, по сценариям, таким как стендап-комедия, академические презентации и синтетическое обнаружение видео. video-SALMONN-o1 достигает улучшения точности на 3-8% по сравнению с базовым уровнем LLaVA-OneVision на различных видео-бенчмарках по рассуждениям. Кроме того, pDPO достигает улучшения на 6-8% по сравнению с моделью обучения с учителем на бенчмарке RivaBench. Улучшенные рассуждения позволяют video-SALMONN-o1 обнаруживать синтетические видео в режиме нулевой настройки.

MagicArticulate: Подготовьте ваши 3D-модели к артикуляции
MagicArticulate: Make Your 3D Models Articulation-Ready

Feb 17

ByChaoyue Song, Jianfeng Zhang, Xiu Li, Fan Yang, Yiwen Chen, Zhongcong Xu, Jun Hao Liew, Xiaoyang Guo, Fayao Liu, Jiashi Feng, Guosheng Lin

С бурным ростом создания 3D-контента возникает всё большая потребность в автоматическом преобразовании статических 3D-моделей в версии, готовые к артикуляции и поддерживающие реалистичную анимацию. Традиционные подходы в значительной степени полагаются на ручную аннотацию, что является трудоёмким и затратным по времени процессом. Более того, отсутствие крупномасштабных бенчмарков сдерживало развитие решений на основе обучения. В данной работе мы представляем MagicArticulate — эффективный фреймворк, который автоматически преобразует статические 3D-модели в ресурсы, готовые к артикуляции. Наши ключевые вклады заключаются в трёх аспектах. Во-первых, мы представляем Articulation-XL — крупномасштабный бенчмарк, содержащий более 33 тысяч 3D-моделей с высококачественными аннотациями артикуляции, тщательно отобранными из Objaverse-XL. Во-вторых, мы предлагаем новый метод генерации скелетов, который формулирует задачу как проблему моделирования последовательностей, используя авторегрессивный трансформер для естественного обработки различного количества костей или суставов в скелетах и их внутренних зависимостей в различных 3D-моделях. В-третьих, мы предсказываем веса скиннинга с помощью функционального диффузионного процесса, который учитывает приоритеты объёмных геодезических расстояний между вершинами и суставами. Многочисленные эксперименты демонстрируют, что MagicArticulate значительно превосходит существующие методы в различных категориях объектов, обеспечивая высококачественную артикуляцию, которая позволяет создавать реалистичную анимацию. Страница проекта: https://chaoyuesong.github.io/MagicArticulate.

Диффузионные модели без использования классификатора без руководства
Diffusion Models without Classifier-free Guidance

Feb 17

ByZhicong Tang, Jianmin Bao, Dong Chen, Baining Guo

В данной статье представлен Model-guidance (MG) — новый подход к обучению диффузионных моделей, который устраняет необходимость в широко используемом Classifier-free guidance (CFG). Наш инновационный метод выходит за рамки стандартного моделирования только распределения данных, включая в себя апостериорную вероятность условий. Предложенная техника основана на идее CFG, проста в реализации, но эффективна, что делает её модулем plug-and-play для существующих моделей. Наш метод значительно ускоряет процесс обучения, удваивает скорость вывода и достигает исключительного качества, сопоставимого и даже превосходящего современные диффузионные модели с CFG. Многочисленные эксперименты демонстрируют эффективность, производительность и масштабируемость метода на различных моделях и наборах данных. В заключение мы устанавливаем новое состояние искусства на бенчмарке ImageNet 256 с показателем FID, равным 1.34. Наш код доступен по адресу https://github.com/tzco/Diffusion-wo-CFG.

EQ-VAE: Эквивариантно-регуляризованное латентное пространство для улучшенного генеративного моделирования изображений
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Feb 13

ByTheodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis

Латентные генеративные модели стали ведущим подходом для синтеза изображений высокого качества. Эти модели используют автоэнкодер для сжатия изображений в латентное пространство, за которым следует генеративная модель, изучающая распределение в этом пространстве. Мы обнаружили, что существующие автоэнкодеры не обладают эквивариантностью к семантически сохраняющим преобразованиям, таким как масштабирование и вращение, что приводит к сложным латентным пространствам, ухудшающим генеративную производительность. Для решения этой проблемы мы предлагаем EQ-VAE — простой метод регуляризации, который обеспечивает эквивариантность в латентном пространстве, снижая его сложность без ухудшения качества реконструкции. Путем тонкой настройки предобученных автоэнкодеров с использованием EQ-VAE мы улучшаем производительность нескольких современных генеративных моделей, включая DiT, SiT, REPA и MaskGIT, достигая ускорения в 7 раз для DiT-XL/2 всего за пять эпох тонкой настройки SD-VAE. EQ-VAE совместим как с непрерывными, так и с дискретными автоэнкодерами, что делает его универсальным улучшением для широкого спектра латентных генеративных моделей. Страница проекта и код: https://eq-vae.github.io/.

SAFE-SQL: Самоулучшающееся контекстное обучение с тонкой выборкой примеров для преобразования текста в SQL.
SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL

Feb 17

ByJimin Lee, Ingeol Baek, Byeongjeong Kim, Hwanhee Lee

Text-to-SQL направлен на преобразование естественноязыковых вопросов в исполняемые SQL-запросы. В то время как предыдущие подходы, такие как скелетно-маскированный выбор, продемонстрировали высокую производительность, извлекая похожие обучающие примеры для направления крупных языковых моделей (LLM), они испытывают трудности в реальных сценариях, где такие примеры недоступны. Для преодоления этого ограничения мы предлагаем самоувеличение в контекстном обучении с тонким выбором примеров для Text-to-SQL (SAFE-SQL), новую структуру, которая улучшает генерацию SQL путем создания и фильтрации самоувеличенных примеров. SAFE-SQL сначала подталкивает LLM к созданию нескольких примеров Text-to-SQL, соответствующих тестовому вводу. Затем SAFE-SQL фильтрует эти примеры через три оценки релевантности, создавая высококачественные примеры контекстного обучения. Используя самосгенерированные примеры, SAFE-SQL превосходит предыдущие нулевые и малочисленные Text-to-SQL структуры, достигая более высокой точности выполнения. Особенно наш подход обеспечивает дополнительный прирост производительности в дополнительно сложных и невидимых сценариях, где обычные методы часто терпят неудачу.

Один пример показан, много концепций известно! Рассуждения на основе контрпримеров в математических LLMs.
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs

Feb 12

ByYinghui Li, Jiayi Kuang, Haojing Huang, Zhikun Xu, Xinnian Liang, Yi Yu, Wenlian Lu, Yangning Li, Xiaoyu Tan, Chao Qu, Ying Shen, Hai-Tao Zheng, Philip S. Yu

Использование математических моделей больших языков (LLM) для генерации доказательств является фундаментальной темой в исследованиях LLM. Мы утверждаем, что способность текущих LLM доказывать утверждения в значительной степени зависит от того, сталкивались ли они с соответствующим процессом доказательства во время обучения. Эта зависимость ограничивает их глубокое понимание математических теорем и связанных концепций. Вдохновленные педагогическим методом "доказательства контрпримерами", широко используемым в образовании по математике, наша работа направлена на улучшение способности LLM к математическому мышлению и доказательствам через контрпримеры. В частности, мы вручную создаем высококачественный университетский математический бенчмарк, CounterMATH, который требует от LLM доказать математические утверждения, предоставляя контрпримеры, тем самым оценивая их понимание математических концепций. Кроме того, мы разрабатываем фреймворк инженерии данных для автоматического получения обучающих данных для дальнейшего улучшения модели. Обширные эксперименты и детальные анализы показывают, что CounterMATH является сложным, что указывает на недостаточные возможности LLM, таких как OpenAI o1, в доказательствах на основе контрпримеров. Более того, наше исследование в области обучения моделей показывает, что укрепление способностей LLM к концептуальному мышлению на основе контрпримеров критически важно для улучшения их общих математических возможностей. Мы считаем, что наша работа предлагает новые перспективы для сообщества математических LLM.

Dyve: Быстрое и медленное мышление для динамической верификации процессов
Dyve: Thinking Fast and Slow for Dynamic Process Verification

Feb 16

ByJianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Qiang Xu

Мы представляем Dyve — динамический верификатор процессов, который улучшает обнаружение ошибок рассуждений в больших языковых моделях за счет интеграции быстрого и медленного мышления, вдохновленного теорией систем Канемана. Dyve адаптивно применяет немедленное подтверждение на уровне токенов (Система 1) для простых шагов и всесторонний анализ (Система 2) для сложных. Используя новую технику пошагового консенсус-фильтрованного контроля процессов, сочетающую оценку методом Монте-Карло с оценкой на основе языковых моделей, Dyve извлекает высококачественные сигналы контроля из зашумленных данных. Экспериментальные результаты на ProcessBench и наборе данных MATH подтверждают, что Dyve значительно превосходит существующие процессно-ориентированные верификаторы и повышает производительность в настройках Best-of-N.

Кукушка: свободный наездник ИИ, выведенный массовым питанием в гнезде LLM
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

Feb 16

ByLetian Peng, Zilong Wang, Feng Yao, Jingbo Shang

Для инкубации передовых крупных языковых моделей (LLM) были тщательно подготовлены обширные данные высокого качества, включая необработанные тексты для предварительного обучения и аннотации для последующего обучения. В отличие от этого, для извлечения информации (IE) данные для предварительного обучения, такие как последовательности с метками BIO, сложно масштабировать. Мы показываем, что модели IE могут использовать ресурсы LLM, переформулируя предсказание следующего токена в извлечение токенов, уже присутствующих в контексте. В частности, наш предложенный парадигма извлечения следующих токенов (NTE) обучает универсальную модель IE, Cuckoo, с 102,6 млн извлекаемых данных, преобразованных из данных для предварительного и последующего обучения LLM. В условиях малого количества обучающих примеров Cuckoo эффективно адаптируется к традиционному и сложному извлечению информации по инструкциям с лучшей производительностью, чем у существующих предварительно обученных моделей IE. В качестве "попутчика" Cuckoo естественным образом развивается вместе с продвижениями в подготовке данных LLM, получая преимущества от улучшений в процессах обучения LLM без дополнительных ручных усилий.

PhysReason: Комплексный эталонный тест для оценки физически обоснованных рассуждений
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

Feb 17

ByXinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu

Крупные языковые модели демонстрируют впечатляющие способности в различных областях, особенно в математике и логическом мышлении. Однако текущие оценки упускают из виду физическое рассуждение — сложную задачу, требующую применения физических теорем и ограничений. Мы представляем PhysReason, набор из 1200 задач, включающий вопросы на основе знаний (25%) и задачи на рассуждение (75%), где последние разделены на три уровня сложности (легкий, средний, сложный). Примечательно, что задачи требуют в среднем 8,1 шага для решения, а сложные задачи — 15,6, что отражает сложность физического рассуждения. Мы предлагаем Фреймворк автоматической оценки физических решений, включающий эффективную оценку на уровне ответов и всестороннюю оценку на уровне шагов. Лучшие модели, такие как Deepseek-R1, Gemini-2.0-Flash-Thinking и o3-mini-high, показывают менее 60% на уровне ответов, при этом производительность снижается от вопросов на знания (75,11%) до сложных задач (31,95%). С помощью оценки на уровне шагов мы выявили четыре ключевых узких места: Применение физических теорем, Понимание физических процессов, Вычисления и Анализ физических условий. Эти результаты позиционируют PhysReason как новый и всеобъемлющий бенчмарк для оценки способностей крупных языковых моделей к физическому рассуждению. Наш код и данные будут опубликованы на https://dxzxy12138.github.io/PhysReason.

Память, Бенчмарки и Роботы: Бенчмарк для решения сложных задач с использованием обучения с подкреплением
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Feb 14

ByEgor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov

Память играет ключевую роль в способности агентов решать сложные задачи с временными и пространственными зависимостями. Хотя многие алгоритмы обучения с подкреплением (RL) включают механизмы памяти, в этой области отсутствует универсальный бенчмарк для оценки возможностей памяти агентов в различных сценариях. Этот пробел особенно заметен в задачах манипуляции на столе для роботов, где память необходима для решения задач с частичной наблюдаемостью и обеспечения устойчивой производительности, однако стандартизированные бенчмарки отсутствуют. Чтобы устранить этот пробел, мы представляем MIKASA (Memory-Intensive Skills Assessment Suite for Agents) — комплексный бенчмарк для RL с акцентом на память, который включает три ключевых вклада: (1) мы предлагаем всеобъемлющую классификационную структуру для задач RL, требующих интенсивного использования памяти, (2) мы создаем MIKASA-Base — унифицированный бенчмарк, позволяющий систематически оценивать агентов с улучшенной памятью в разнообразных сценариях, и (3) разрабатываем MIKASA-Robo — новый бенчмарк из 32 тщательно разработанных задач, оценивающих возможности памяти в задачах манипуляции на столе для роботов. Наши вклады создают унифицированную основу для продвижения исследований в области RL с акцентом на память, способствуя разработке более надежных систем для реальных приложений. Код доступен по адресу https://sites.google.com/view/memorybenchrobots/.

Создание программиста, ориентированного на доказательства, который на 64% лучше, чем GPT-4o при ограниченности данных
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity

Feb 17

ByDylan Zhang, Justin Wang, Tianran Sun

Существующие языковые модели испытывают трудности с программированием, ориентированным на доказательства, из-за недостатка данных, что проявляется двумя основными способами: (1) отсутствием достаточных корпусов для языков программирования, ориентированных на доказательства, таких как F*, и (2) отсутствием масштабных реализаций программ, ориентированных на доказательства на уровне проекта, способных обучить модель сложному процессу рассуждения при выполнении программирования, ориентированного на доказательства. Мы представляем первый метод синтетического увеличения данных для программирования на уровне проекта, ориентированного на доказательства, как для генерации, так и для исправления. Наш метод решает проблему недостатка данных путем синтеза базовых задач программирования, ориентированных на доказательства, для владения этим языком; включения разнообразных данных кодирования для вызова способности к рассуждению и создания новых доказательств и данных по исправлению в существующих репозиториях. Этот подход позволяет языковым моделям как синтезировать, так и исправлять доказательства для кода на уровне функций и репозиториев. Мы показываем, что наша донастроенная модель с 14 миллиардами параметров, PoPilot, может превзойти производительность моделей, превосходящих GPT-4o в программировании на уровне проекта, ориентированного на доказательства, на 64% относительной маржой, и может улучшить производительность GPT-4o на 54% путем исправления ее выводов по сравнению с самостоятельным исправлением GPT-4o.

Может ли одна модель овладеть как многоходовыми диалогами, так и использованием инструментов? CALM: Унифицированная агентская языковая модель для диалогов
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model

Feb 12

ByEmre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur

Крупные языковые модели (LLM) с возможностью вызова API позволили создавать эффективные языковые агенты (LA), одновременно революционизируя традиционную парадигму целеориентированного диалога (TOD). Однако современные подходы сталкиваются с критической дилеммой: системы TOD часто обучаются на ограниченном наборе целевых API, требуя новых данных для поддержания качества при взаимодействии с новыми сервисами, в то время как LA не обучаются для сохранения намерений пользователя в многоходовых диалогах. Поскольку как устойчивое управление многоходовыми диалогами, так и продвинутый вызов функций являются ключевыми для эффективных диалоговых агентов, мы оцениваем эти навыки на трех популярных бенчмарках: MultiWOZ 2.4 (TOD), BFCL V3 (LA) и API-Bank (LA). Наш анализ показывает, что специализированные подходы преуспевают в одной области, но уступают в другой. Чтобы преодолеть этот разрыв, мы представляем CALM (Conversational Agentic Language Model) — унифицированный подход, объединяющий как диалоговые, так и агентские возможности. Мы создали CALM-IT, тщательно разработанный мультизадачный набор данных, который сочетает многоходовое рассуждение ReAct с использованием сложных API. Используя CALM-IT, мы обучаем три модели: CALM 8B, CALM 70B и CALM 405B, которые превосходят лучшие специализированные модели, включая GPT-4o, на всех трех бенчмарках.

Покажите мне работу: требования фактчекеров к объяснимой автоматизированной проверке фактов
Show Me the Work: Fact-Checkers' Requirements for Explainable Automated Fact-Checking

Feb 13

ByGreta Warren, Irina Shklovski, Isabelle Augenstein

Широкое распространение больших языковых моделей и генеративного ИИ в онлайн-медиа усилило потребность в эффективной автоматизированной проверке фактов, чтобы помочь специалистам справляться с растущим объемом и усложнением дезинформации. Сложный характер проверки фактов требует, чтобы автоматизированные системы предоставляли объяснения, позволяющие специалистам тщательно анализировать их результаты. Однако остается неясным, как эти объяснения должны соответствовать процессам принятия решений и рассуждений специалистов, чтобы быть эффективно интегрированными в их рабочие процессы. Посредством полуструктурированных интервью с профессионалами в области проверки фактов мы устраняем этот пробел, выполняя следующие шаги: (i) описываем, как специалисты оценивают доказательства, принимают решения и объясняют свои процессы; (ii) исследуем, как специалисты используют автоматизированные инструменты на практике; и (iii) определяем требования специалистов к объяснениям, предоставляемым автоматизированными инструментами проверки фактов. Результаты исследования выявляют неудовлетворенные потребности в объяснениях и определяют важные критерии для воспроизводимых объяснений, которые отслеживают путь рассуждений модели, ссылаются на конкретные доказательства и выделяют неопределенности и пробелы в информации.

ILIAS: Поиск изображений на уровне экземпляров в масштабе
ILIAS: Instance-Level Image retrieval At Scale

Feb 17

ByGiorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias

Данная работа представляет ILIAS — новый тестовый набор данных для задач поиска изображений на уровне экземпляров в масштабе. Он предназначен для оценки способности современных и будущих базовых моделей и методов поиска распознавать конкретные объекты. Основные преимущества перед существующими наборами данных включают масштабность, разнообразие доменов, точные эталонные данные и производительность, далекую от насыщения. ILIAS содержит запросы и положительные изображения для 1 000 экземпляров объектов, собранных вручную для отражения сложных условий и разнообразных областей. Масштабный поиск осуществляется среди 100 миллионов отвлекающих изображений из YFCC100M. Чтобы избежать ложных отрицательных результатов без дополнительных усилий по аннотированию, мы включаем только объекты запросов, появление которых подтверждено после 2014 года, то есть даты составления YFCC100M. Проведено обширное тестирование, в ходе которого сделаны следующие наблюдения: i) модели, дообученные на конкретных доменах, таких как достопримечательности или товары, показывают отличные результаты в этих доменах, но терпят неудачу на ILIAS; ii) обучение линейного адаптационного слоя с использованием мультидоменного классового надзора приводит к улучшению производительности, особенно для моделей, работающих с визуальными и текстовыми данными; iii) локальные дескрипторы при повторном ранжировании поиска остаются ключевым компонентом, особенно в условиях сильного фонового шума; iv) производительность базовых моделей, работающих с текстом и изображениями, при поиске по тексту удивительно близка к случаю поиска по изображению. Веб-сайт: https://vrg.fel.cvut.cz/ilias/

К эффективному предобучению с ограниченным объемом данных для предсказания атомных свойств
Towards Data-Efficient Pretraining for Atomic Property Prediction

Feb 16

ByYasir Ghunaim, Hasan Abed Al Kader Hammoud, Bernard Ghanem

В данной статье подвергается сомнению недавно сложившаяся парадигма в прогнозировании атомных свойств, которая связывает прогресс с увеличением размеров наборов данных и вычислительных ресурсов. Мы демонстрируем, что предварительное обучение на тщательно отобранном, релевантном для задачи наборе данных может соответствовать или даже превосходить крупномасштабное предварительное обучение, при этом используя лишь 1/24 вычислительных затрат. Мы представляем Индекс Химического Сходства (Chemical Similarity Index, CSI) — новый метрический подход, вдохновленный расстоянием Фреше в компьютерном зрении, который количественно оценивает соответствие между наборами данных для предварительного обучения и целевыми задачами для молекулярных графов. Выбирая наиболее релевантный набор данных с минимальным расстоянием CSI, мы показываем, что модели, предварительно обученные на меньшем, целенаправленном наборе данных, стабильно превосходят модели, обученные на крупных, смешанных наборах данных, таких как JMP, даже если эти большие наборы включают релевантные данные. Контринтуитивно, мы также обнаруживаем, что бездумное добавление большего объема данных может ухудшить производительность модели, если дополнительные данные плохо соответствуют поставленной задаче. Наши результаты подчеркивают, что качество часто превосходит количество при предварительном обучении для прогнозирования атомных свойств.

Большие языковые модели и сбои в математическом рассуждении
Large Language Models and Mathematical Reasoning Failures

Feb 17

ByJohan Boye, Birger Moell

Данная статья исследует математические способности крупных языковых моделей (LLM) с использованием 50 недавно созданных школьных текстовых задач уровня старших классов. В отличие от предыдущих исследований, сосредотачивающихся исключительно на правильности ответов, мы тщательно анализируем как конечные ответы, так и шаги решения, чтобы выявить неудачи в рассуждениях. Оценивая восемь передовых моделей, включая Mixtral, Llama, Gemini, GPT-4o и варианты OpenAI o1, мы обнаружили, что, хотя более новые модели (например, o3-mini, deepseek-r1) достигают более высокой точности, все модели допускают ошибки в пространственном мышлении, стратегическом планировании и арифметике, иногда давая правильные ответы за счет ошибочной логики. Распространенные виды неудач включают неподтвержденные предположения, чрезмерную зависимость от числовых закономерностей и трудности в переводе физического интуитивного понимания в математические шаги. Ручной анализ показывает, что модели испытывают затруднения с задачами, требующими многократного вывода или знаний о реальном мире, несмотря на широкие математические знания. Наши результаты подчеркивают важность оценки процессов рассуждения, а не только ответов, и предостерегают от переоценки профессионализма LLM в решении проблем. Исследование выявляет постоянные пробелы в обобщающих способностях LLM, подчеркивая необходимость целенаправленных улучшений в структурированных рассуждениях и обработке ограничений.

Улучшенные эмбеддинги с использованием связанного Adam
Better Embeddings with Coupled Adam

Feb 12

ByFelix Stollenwerk, Tobias Stollenwerk

Несмотря на их впечатляющие возможности, крупные языковые модели (LLM) изучают представления слов, которые демонстрируют нежелательную, но малоизученную особенность — анизотропию. В данной статье мы утверждаем, что второй момент в оптимизаторе Adam является причиной анизотропных эмбеддингов, и предлагаем модифицированный оптимизатор под названием Coupled Adam для смягчения этой проблемы. Наши эксперименты показывают, что Coupled Adam значительно улучшает качество эмбеддингов, а также приводит к лучшей производительности как на предварительных, так и на последующих задачах при работе с достаточно большими наборами данных.

Оценка данных с использованием нейронных сетей для эффективной тонкой настройки инструкций
Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning

Feb 14

ByIshika Agarwal, Dilek Hakkani-Tür

Функции влияния предоставляют важные инсайты в процесс обучения моделей, однако существующие методы страдают от высоких вычислительных затрат и ограниченной обобщаемости. В частности, в последних работах предложены различные метрики и алгоритмы для расчета влияния данных с использованием языковых моделей, которые плохо масштабируются на большие модели и наборы данных. Это связано с дорогостоящими прямыми и обратными проходами, необходимыми для вычислений, значительными требованиями к памяти для хранения крупных моделей и слабой обобщаемостью оценок влияния на новые данные. В данной работе мы исследуем использование небольших нейронных сетей — которые мы называем InfluenceNetwork — для оценки значений влияния, достигая сокращения затрат до 99%. Наши оценки показывают, что значения влияния могут быть оценены с помощью моделей, размер которых составляет всего 0,0027% от полных языковых моделей (мы используем версии на 7B и 8B параметров). Мы применяем наш алгоритм оценки значений влияния (названный NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) к задаче выбора подмножества данных для тонкой настройки на общих инструкциях. В нашем исследовании мы включаем четыре современных функции влияния и показываем, что NN-CIFT не уступает по производительности оригинальным функциям влияния, несмотря на значительное ускорение. Мы предоставляем детальный анализ гиперпараметров NN-CIFT. Код нашего метода доступен по ссылке: https://github.com/agarwalishika/NN-CIFT.

Измерение сложности языка как шумный нулевой прокси-показатель для оценки производительности LLM.
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance

Feb 17

ByBirger Moell, Johan Boye

Большие языковые модели (LLM) сделали значительные успехи в генерации естественного языка, но часто сталкиваются с трудностями в задачах, требующих точных расчетов и структурного анализа. В данной статье исследуется производительность передовых LLM на задачах измерения сложности языка, путем вычисления метрики удобочитаемости LIX и среднего расстояния зависимости (ADD). Используя эссе старшей школы и университетского уровня на шведском языке, мы оцениваем способности моделей вычислять оценки LIX и выполнять синтаксический анализ, сравнивая их результаты с установленными эталонами. Наши результаты показывают, что хотя все модели проявляют некоторую способность к выполнению этих задач, ChatGPT-o1-mini демонстрирует наибольшую последовательность, достигая наивысшей точности как в вычислении LIX, так и в синтаксическом анализе. Кроме того, мы наблюдаем сильную значимую корреляцию -0.875 p 0.026 (N=6) между точностью моделей в вычислении LIX и их общей производительностью на бенчмарке Massive Multitask Language Understanding (MMLU). Эти результаты позволяют предположить, что способности измерения сложности языка могут служить шумными нулевыми приближениями для оценки общих возможностей LLM, предоставляя практический метод оценки модели без необходимости обширных наборов данных для тестирования.

ExaGPT: Обнаружение машинно-сгенерированного текста на основе примеров для интерпретируемости человеком
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability

Feb 17

ByRyuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki

Обнаружение текстов, сгенерированных крупными языковыми моделями (LLM), может привести к серьезным ошибкам из-за неверных решений, таких как подрыв академического достоинства студентов. Поэтому обнаружение текстов LLM должно обеспечивать интерпретируемость решения, что помогает пользователям оценить, насколько надежно его предсказание. Когда люди проверяют, написан ли текст человеком или сгенерирован LLM, они интуитивно исследуют, с каким из них текст имеет больше схожих фрагментов. Однако существующие интерпретируемые детекторы не соответствуют процессу принятия решений человеком и не предоставляют доказательств, которые пользователи могли бы легко понять. Чтобы устранить этот разрыв, мы представляем ExaGPT — интерпретируемый подход к обнаружению, основанный на процессе принятия решений человеком для проверки происхождения текста. ExaGPT идентифицирует текст, проверяя, имеет ли он больше схожих фрагментов с текстами, написанными человеком, или с текстами, сгенерированными LLM, из хранилища данных. Этот подход может предоставить примеры схожих фрагментов, которые способствуют принятию решения для каждого фрагмента текста, в качестве доказательства. Наша оценка с участием людей показывает, что предоставление примеров схожих фрагментов способствует более эффективному суждению о правильности решения, чем существующие интерпретируемые методы. Более того, обширные эксперименты в четырех областях и с тремя генераторами демонстрируют, что ExaGPT значительно превосходит предыдущие мощные детекторы, достигая увеличения точности на +40,9 процентных пункта при уровне ложных срабатываний в 1%.