HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

26 papers found

Ожидайте неожиданного: FailSafe Long Context QA для финансов
Expect the Unexpected: FailSafe Long Context QA for Finance

Feb 10

ByKiran Kamble, Melisa Russak, Dmytro Mozolevskyi, Muayad Ali, Mateusz Russak, Waseem AlShikh

132

Мы предлагаем новый долгосрочный финансовый бенчмарк FailSafeQA, разработанный для проверки устойчивости и контекстоспособности LLM по шести вариациям человеко-интерфейсных взаимодействий в системах вопрос-ответ на основе LLM в финансовой сфере. Мы сосредотачиваемся на двух кейс-исследованиях: Отказ в запросе и Отказ в контексте. В сценарии Отказа в запросе мы искажаем исходный запрос для изменения уровня экспертизы домена, полноты и лингвистической точности. В случае Отказа в контексте мы симулируем загрузку ухудшенных, несвязанных и пустых документов. Мы используем методологию LLM-как-судья с Qwen2.5-72B-Instruct и применяем критерии оценки с Feinberg-Grund и Compliance для определения и расчета показателей Устойчивости, Контекстной опоры и Соответствия для 24 моделей из коробки. Результаты показывают, что хотя некоторые модели отлично справляются с устранением входных искажений, им необходимо находить баланс между устойчивым ответом и способностью воздерживаться от галлюцинаций. Особенно стоит отметить, что модель Palmyra-Fin-128k-Instruct, признанная наиболее соответствующей, сохраняла высокую базовую производительность, но столкнулась с трудностями в поддержании устойчивых прогнозов в 17% тестовых случаев. С другой стороны, наиболее устойчивая модель OpenAI o3-mini, выдумывала информацию в 41% протестированных случаев. Результаты показывают, что даже у высокопроизводительных моделей есть значительный потенциал для улучшения и подчеркивают роль FailSafeQA как инструмента для разработки LLM, оптимизированных для надежности в финансовых приложениях. Набор данных доступен по ссылке: https://huggingface.co/datasets/Writer/FailSafeQA

Соревновательное программирование с использованием больших моделей рассуждений
Competitive Programming with Large Reasoning Models

Feb 3

ByOpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou

Мы показываем, что обучение с подкреплением, примененное к большим языковым моделям (LLM), значительно повышает производительность на сложных задачах кодирования и рассуждений. Кроме того, мы сравниваем две общие модели рассуждений - OpenAI o1 и раннюю точку о3 - с системой, специфичной для области, o1-ioi, которая использует ручные стратегии вывода, разработанные для участия в Международной олимпиаде по информатике (IOI) 2024. Мы участвовали в прямом эфире на IOI 2024 с o1-ioi и, используя ручные стратегии на этапе тестирования, заняли 49-й процентиль. При более мягких ограничениях соревнования o1-ioi получил золотую медаль. Однако при оценке более поздних моделей, таких как o3, мы обнаружили, что o3 достигает золота без ручных специфичных для области стратегий или смягченных ограничений. Наши результаты показывают, что хотя специализированные конвейеры, такие как o1-ioi, приводят к существенным улучшениям, масштабируемая общепринятая модель o3 превосходит эти результаты, не полагаясь на ручные эвристики вывода. Следует отметить, что o3 достигает золотой медали на IOI 2024 и получает рейтинг Codeforces на уровне элитных человеческих соперников. В целом, эти результаты указывают на то, что масштабирование общепринятого обучения с подкреплением, вместо полаганиясь на специфические для области техники, предлагает надежный путь к передовому искусству в области искусственного интеллекта в областях рассуждений, таких как соревновательное программирование.

CodeI/O: Сжатие паттернов рассуждений с помощью предсказания ввода-вывода кода
CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

Feb 11

ByJunlong Li, Daya Guo, Dejian Yang, Runxin Xu, Yu Wu, Junxian He

Рассуждение является фундаментальной способностью крупных языковых моделей. В то время как предыдущие исследования в основном сосредотачивались на улучшении узких навыков, таких как математика или генерация кода, улучшение производительности на многих других задачах рассуждения остается сложной из-за ограниченных и фрагментированных обучающих данных. Для решения этой проблемы мы предлагаем CodeI/O, новый подход, который систематически сжимает разнообразные образцы рассуждений, встроенные в контекстуально обоснованные коды, путем преобразования исходного кода в формат предсказания ввода-вывода кода. Обучая модели предсказывать входы/выходы на основе кода и тестовых случаев полностью на естественном языке в виде цепочки рассуждений (CoT), мы подвергаем их универсальным примитивам рассуждения - таким как планирование логического потока, поиск пространства состояний, обход дерева решений и модульное декомпозиция - одновременно отделяя структурированное рассуждение от специфического для кода синтаксиса и сохраняя процедурную строгость. Экспериментальные результаты показывают, что CodeI/O приводит к последовательному улучшению результатов на символьных, научных, логических, математических и числовых и общезначимых задачах рассуждения. Путем сопоставления существующих выходных данных или повторного выполнения кода с предсказанными входами мы можем проверить каждое предсказание и дополнительно улучшить цепочки рассуждений через многократную ревизию, что приводит к CodeI/O++ и достижению более высокой производительности. Наши данные и модели доступны по адресу https://github.com/hkust-nlp/CodeIO.

Улучшенные модели больших языков с поиском для прогнозирования финансовых временных рядов
Retrieval-augmented Large Language Models for Financial Time Series Forecasting

Feb 9

ByMengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie

Прогнозирование движения акций, основная задача в прогнозировании финансовых временных рядов, требует идентификации и извлечения критически важных влияющих факторов из огромного объема временных рядов. Однако существующие методы поиска, основанные на тексте или числовом сходстве, не справляются с анализом сложных финансовых данных. Для решения этой проблемы мы предлагаем первую рамочную модель с увеличением поиска (RAG) для прогнозирования финансовых временных рядов, включающую три ключевых инновации: тонко настроенную модель языка с 1 миллиардом параметров (StockLLM) в качестве основы, новый метод выбора кандидатов, использующий обратную связь LLM, и целевую функцию обучения, максимизирующую сходство между запросами и исторически значимыми последовательностями. Это позволяет нашему поисковику, FinSeer, выявлять значимые закономерности, минимизируя шум в сложных финансовых данных. Мы также создаем новые наборы данных, интегрируя финансовые показатели и исторические цены акций для обучения FinSeer и обеспечения надежной оценки. Экспериментальные результаты показывают, что наша рамочная модель RAG превосходит базовую модель StockLLM и случайный поиск, подчеркивая ее эффективность, в то время как FinSeer превосходит существующие методы поиска, достигая на 8\% более высокой точности на BIGDATA22 и извлекая более значимые последовательности. Эта работа подчеркивает важность индивидуальных моделей поиска в финансовом прогнозировании и предоставляет новую рамочную модель для будущих исследований.

LLM-модели могут легко научиться рассуждать по структуре демонстраций. Важна не сама информация, а ее структура!
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Feb 11

ByDacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

Большие модели рассуждений (Large Reasoning Models, LRMs) решают сложные проблемы рассуждений, следуя длинным цепям мыслей (Long CoT), которые включают в себя отражение, откат и самопроверку. Однако методики обучения и требования к данным для вызова Long CoT остаются плохо понятыми. В данной работе мы обнаружили, что Большая Языковая модель (Large Language Model, LLM) может эффективно изучать рассуждения Long CoT через эффективное обучение с учителем на основе данных (Data-Efficient Supervised Fine-Tuning, SFT) и параметрически эффективную адаптацию низкого ранга (Parameter-Efficient Low-Rank Adaptation, LoRA). С помощью всего 17 тыс. обучающих выборок Long CoT модель Qwen2.5-32B-Instruct достигает значительных улучшений на широком спектре математических и кодовых бенчмарков, включая 56,7% (+40,0%) на AIME 2024 и 57,0% (+8,1%) на LiveCodeBench, конкурентоспособно по сравнению со счетом собственной модели o1-preview в размере 44,6% и 59,1%. Более того, мы обнаружили, что структура Long CoT критична для процесса обучения, в то время как содержание отдельных шагов рассуждений оказывает минимальное влияние. Воздействия, затрагивающие содержание, такие как обучение на неправильных образцах или удаление ключевых слов рассуждения, имеют незначительное влияние на производительность. В отличие от этого, структурные модификации, нарушающие логическую последовательность в Long CoT, такие как перетасовка или удаление шагов рассуждений, значительно снижают точность. Например, модель, обученная на образцах Long CoT с неправильными ответами, все равно достигает лишь на 3,2% более низкой точности по сравнению с обучением на полностью правильных образцах. Эти умозаключения углубляют наше понимание того, как вызывать рассуждательные способности в LLM и выделяют ключевые соображения для эффективного обучения следующего поколения моделей рассуждений. Это академическая статья нашей предыдущей выпущенной модели Sky-T1-32B-Preview. Коды доступны по ссылке https://github.com/NovaSky-AI/SkyThought.

Магия 1-в-1: Генерация видеороликов продолжительностью одну минуту за одну минуту
Magic 1-For-1: Generating One Minute Video Clips within One Minute

Feb 11

ByHongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou

В данном техническом отчете мы представляем Magic 1-For-1 (Magic141), эффективную модель генерации видео с оптимизированным потреблением памяти и задержкой вывода. Основная идея проста: факторизация задачи генерации текста в видео на два отдельных более простых этапа для дистилляции шага диффузии, а именно генерация текста в изображение и изображения в видео. Мы подтверждаем, что при использовании того же алгоритма оптимизации задача изображения в видео действительно легче сходится, чем задача текста в видео. Мы также исследуем набор трюков оптимизации для снижения вычислительных затрат на обучение моделей изображения в видео (I2V) с трех аспектов: 1) ускорение сходимости модели с помощью инъекции мультимодального априорного условия; 2) ускорение задержки вывода путем применения адверсариальной дистилляции шага и 3) оптимизация затрат памяти вывода с помощью разрежения параметров. С помощью этих техник мы можем генерировать видеоролики длиной 5 секунд менее чем за 3 секунды. Применяя скользящее окно времени тестирования, мы можем создавать видео длиной в минуту менее чем за минуту с значительно улучшенным визуальным качеством и динамикой движения, затрачивая менее 1 секунды на создание видеороликов длительностью в 1 секунду в среднем. Мы проводим ряд предварительных исследований, чтобы выяснить оптимальный баланс между вычислительными затратами и качеством видео во время дистилляции шага диффузии и надеемся, что это может стать хорошей моделью-основой для исследований с открытым исходным кодом. Код и веса модели доступны на https://github.com/DA-Group-PKU/Magic-1-For-1.

Масштабирование предварительного обучения до ста миллиардов данных для моделей видео-языка.
Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Feb 11

ByXiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai

Мы проводим эмпирическое исследование потенциала предварительного обучения моделей видео-языкового восприятия в масштабах, ранее не встречавшихся: 100 миллиардов примеров. Мы обнаружили, что производительность модели имеет тенденцию к насыщению на этом масштабе на многих распространенных классификационных и поисковых бенчмарках, таких как COCO Captions. Тем не менее, задачи культурного разнообразия достигают более существенных улучшений благодаря веб-данным масштаба 100 миллиардов, за счет охвата уникальных концепций. Кроме того, мы анализируем мультиязычность модели и показываем улучшения в языках с ограниченными ресурсами. Кроме того, мы замечаем, что уменьшение размера набора данных для предварительного обучения с помощью фильтров качества, таких как использование CLIP, обычно применяемых для улучшения производительности, может нежелательно снизить культурное разнообразие, представленное даже в крупномасштабных наборах данных. Наши результаты подчеркивают, что в то время как традиционные бенчмарки могут не получить значительной выгоды от масштабирования шумных, необработанных веб-данных до 100 миллиардов примеров, этот масштаб данных важен для создания по-настоящему инклюзивных мультимодальных систем.

Драгоценные камни: модельный набор для многогранных законов масштабирования
Gemstones: A Model Suite for Multi-Faceted Scaling Laws

Feb 7

BySean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein

Законы масштабирования обычно подбираются с использованием семейства моделей с узким диапазоном замороженных выборов гиперпараметров. В данной работе мы изучаем законы масштабирования, используя широкий спектр архитектур и выборов гиперпараметров, и выделяем их влияние на получаемые рекомендации. В качестве основного артефакта нашего исследования мы выпускаем Gemstones: самый полный набор данных по законам масштабирования на сегодняшний день, состоящий из более чем 4000 контрольных точек от трансформеров с до 2 миллиардами параметров; эти модели были обучены с различными скоростями обучения, расписаниями остывания и архитектурными формами. Наши контрольные точки позволяют более сложные исследования масштабирования, такие как закон, предсказывающий производительность языкового моделирования как функцию ширины и глубины модели. Изучая различные аспекты нашего набора моделей, мы обнаруживаем, что рекомендации законов масштабирования могут быть чрезвычайно чувствительны к процессу экспериментального проектирования и конкретным контрольным точкам модели, использованным во время подгонки. Код: https://github.com/mcleish7/gemstone-scaling-laws

Обучение языковых моделей критике с использованием обучения с подкреплением
Teaching Language Models to Critique via Reinforcement Learning

Feb 5

ByZhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong

Обучение больших языковых моделей (LLM) критиковать и улучшать свои выводы является ключевым для создания систем, способных итеративно улучшаться, однако это фундаментально ограничивается способностью предоставлять точные суждения и действенные предложения. В данной работе мы изучаем критиков LLM для генерации кода и предлагаем CTRL, фреймворк для Обучения Критика через Обучение с Подкреплением, который обучает модель критика генерировать обратную связь, максимизирующую производительность коррекции для фиксированной модели генератора без участия человека. Наши результаты демонстрируют, что критики, обученные с помощью CTRL, значительно улучшают проходные баллы и смягчают накапливающиеся ошибки как для базовых, так и для более мощных моделей генераторов. Более того, мы показываем, что эти модели критиков действуют как точные генеративные модели вознаграждения и позволяют масштабирование на этапе тестирования через итеративное критическое редактирование, достигая до 106,1% относительного улучшения по сложным бенчмаркам генерации кода.

Улучшение видео: качественное сгенерированное видео бесплатно
Enhance-A-Video: Better Generated Video for Free

Feb 11

ByYang Luo, Xuanlei Zhao, Mengzhao Chen, Kaipeng Zhang, Wenqi Shao, Kai Wang, Zhangyang Wang, Yang You

Генерация видео на основе DiT достигла замечательных результатов, однако исследования по улучшению существующих моделей остаются относительно неисследованными. В данной работе мы представляем подход к улучшению согласованности и качества видео, сгенерированных на основе DiT, без необходимости обучения, который мы назвали Enhance-A-Video. Основная идея заключается в улучшении корреляций между кадрами на основе временного внимания, не ограниченного диагональю. Благодаря простому дизайну наш подход может быть легко применен к большинству фреймворков генерации видео на основе DiT без необходимости повторного обучения или донастройки. На различных моделях генерации видео на основе DiT наш подход продемонстрировал многообещающие улучшения как во временной согласованности, так и в визуальном качестве. Мы надеемся, что эти исследования могут вдохновить будущие исследования в области улучшения генерации видео.

Гефест: Улучшение основных возможностей агента больших языковых моделей через непрерывное предварительное обучение
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

Feb 10

ByYuchen Zhuang, Jingfeng Yang, Haoming Jiang, Xin Liu, Kewei Cheng, Sanket Lokegaonkar, Yifan Gao, Qing Ping, Tianyi Liu, Binxuan Huang, Zheng Li, Zhengyang Wang, Pei Chen, Ruijie Wang, Rongzhi Zhang, Nasser Zalmout, Priyanka Nigam, Bing Yin, Chao Zhang

В связи с недостатком предварительных данных, ориентированных на агента, автономные агенты на основе LLM обычно полагаются на сложные подсказки или обширное донастройка, что часто не позволяет внедрить новые возможности, сохраняя при этом сильную обобщаемость. Мы представляем Hephaestus-Forge, первый крупномасштабный корпус предварительного обучения, разработанный для улучшения основных возможностей агентов LLM в вызове функций API, внутреннем рассуждении и планировании, а также в адаптации к обратной связи от окружающей среды. Hephaestus-Forge включает в себя 103 млрд агенто-специфических данных, охватывающих 76 537 API, включая как документацию по инструментам для введения знаний о функциях API, так и траектории вызова функций для укрепления внутреннего рассуждения. Для изучения эффективных протоколов обучения мы исследуем законы масштабирования для определения оптимального рецепта в соотношениях смешивания данных. Путем непрерывного предварительного обучения на Hephaestus-Forge, Hephaestus превосходит мало- и среднемасштабные LLM с открытым исходным кодом и конкурирует с коммерческими LLM на трех агентных бенчмарках, демонстрируя эффективность нашего корпуса предварительного обучения в улучшении основных агентных возможностей и обобщения LLM на новые задачи или среды.

NatureLM: Расшифровка языка природы для научных открытий
NatureLM: Deciphering the Language of Nature for Scientific Discovery

Feb 11

ByYingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin

Фундаментальные модели революционизировали обработку естественного языка и искусственный интеллект, значительно улучшив способность машин понимать и генерировать человеческие языки. Вдохновленные успехом этих фундаментальных моделей, исследователи разработали фундаментальные модели для отдельных научных областей, включая малые молекулы, материалы, белки, ДНК и РНК. Однако эти модели обычно обучаются изолированно, лишены возможности интеграции между различными научными областями. Признавая, что сущности в этих областях могут быть представлены в виде последовательностей, которые вместе формируют "язык природы", мы представляем модель Nature Language Model (кратко NatureLM) - на основе последовательностей фундаментальную научную модель, разработанную для научных открытий. Предварительно обученная данными из различных научных областей, NatureLM предлагает объединенную, универсальную модель, способную к различным применениям, включая: (i) генерацию и оптимизацию малых молекул, белков, РНК и материалов с использованием текстовых инструкций; (ii) генерацию/дизайн между областями, такие как преобразование белка в молекулу и белка в РНК; и (iii) достижение передовой производительности в задачах, таких как перевод SMILES в IUPAC и ретросинтез на USPTO-50k. NatureLM предлагает многообещающий обобщенный подход для различных научных задач, включая поиск лекарств (генерация/оптимизация хитов, оптимизация ADMET, синтез), разработку новых материалов и создание терапевтических белков или нуклеотидов. Мы разработали модели NatureLM различного размера (1 миллиард, 8 миллиардов и 46,7 миллиарда параметров) и обнаружили явное улучшение производительности с увеличением размера модели.

VidCRAFT3: Управление камерой, объектами и освещением для генерации изображений в видеоформат.
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Feb 11

BySixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu

Недавние методы генерации изображений в видео продемонстрировали успех в обеспечении контроля над одним или двумя визуальными элементами, такими как траектория камеры или движение объекта. Однако эти методы не могут обеспечить контроль над несколькими визуальными элементами из-за ограничений в данных и эффективности сети. В данной статье мы представляем VidCRAFT3, новую концепцию для точной генерации изображений в видео, которая позволяет одновременно контролировать движение камеры, движение объекта и направление освещения. Для более эффективного разделения контроля над каждым визуальным элементом мы предлагаем Пространственный Тройной-Внимательный Трансформер, интегрирующий направление освещения, текст и изображение симметричным образом. Поскольку большинство видеоданных из реального мира не содержат аннотаций по освещению, мы создаем высококачественный синтетический набор данных видео, названный VideoLightingDirection (VLD). Этот набор данных включает аннотации по направлению освещения и объекты с различным внешним видом, что позволяет VidCRAFT3 эффективно обрабатывать сильные эффекты преломления и отражения света. Кроме того, мы предлагаем трехэтапную стратегию обучения, которая устраняет необходимость в обучающих данных с аннотациями по нескольким визуальным элементам (движение камеры, движение объекта и направление освещения) одновременно. Обширные эксперименты на стандартных наборах данных демонстрируют эффективность VidCRAFT3 в создании видеоконтента высокого качества, превосходящего существующие передовые методы по показателям детализации контроля и визуальной последовательности. Весь код и данные будут общедоступны. Страница проекта: https://sixiaozheng.github.io/VidCRAFT3/.

Pippo: Многозрительные человекоподобные изображения высокого разрешения из одного изображения
Pippo: High-Resolution Multi-View Humans from a Single Image

Feb 11

ByYash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov

Мы представляем Pippo, генеративную модель, способную создавать видео с плотным оборотом разрешением 1K человека на основе одного случайно сделанного фото. Pippo - это многообзорный диффузионный трансформер, который не требует дополнительных входных данных, например, подгоняемой параметрической модели или параметров камеры входного изображения. Мы предварительно обучаем Pippo на 3 миллиардах изображений людей без подписей и проводим многообзорное обучение в середине и после обучения на людях, сфотографированных в студии. Во время обучения в середине, чтобы быстро усвоить данные из студии, мы уменьшаем шум нескольких (до 48) видов с низким разрешением и грубо кодируем целевые камеры, используя неглубокую MLP. Во время пост-обучения мы уменьшаем шум меньшего количества видов с высоким разрешением и используем управление, выровненное по пикселям (например, пространственный якорь и лучи Плюккера), чтобы обеспечить 3D-согласованные генерации. На этапе вывода мы предлагаем технику смещения внимания, позволяющую Pippo одновременно генерировать более чем в 5 раз больше видов, чем видел во время обучения. Наконец, мы также представляем улучшенную метрику для оценки 3D-согласованности многообзорных генераций и показываем, что Pippo превосходит существующие работы по многообзорной генерации человека на основе одного изображения.

Забудьте о том, что вы знаете о оценках LLM - LLM подобны хамелеону.
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

Feb 11

ByNurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen

Большие языковые модели (LLM) часто проявляют выдающиеся результаты на общедоступных бенчмарках, но эти высокие оценки могут скрывать чрезмерную зависимость от специфических для набора данных признаков на поверхности, а не от истинного понимания языка. Мы представляем детектор переобучения на бенчмарке Хамелеон (C-BOD), фреймворк метаоценки, который систематически искажает запросы бенчмарка с помощью параметрического преобразования и обнаруживает переобучение LLM. Путем переформулирования входных данных, сохраняя их семантическое содержание и метки, C-BOD показывает, является ли производительность модели обусловлена запомненными шаблонами. Оцененный на бенчмарке MMLU с использованием 26 ведущих LLM, наш метод показывает среднее снижение производительности на 2,15% при небольших искажениях, причем 20 из 26 моделей демонстрируют статистически значимые различия. Замечательно, что модели с более высокой базовой точностью показывают более значительные различия в производительности при искажении, а более крупные LLM, как правило, более чувствительны к переформулировкам, что указывает на то, что в обоих случаях может наблюдаться чрезмерная зависимость от фиксированных шаблонов запросов. В отличие от этого, семейство Llama и модели с более низкой базовой точностью показывают незначительное снижение, что указывает на уменьшенную зависимость от поверхностных признаков. Более того, дизайн C-BOD, независимый от набора данных и модели, позволяет легко интегрировать его в процессы обучения для поощрения более надежного понимания языка. Наши результаты ставят перед сообществом задачу преодоления оценок в рейтингах и приоритизации устойчивости и обобщения в оценке LLM.

Hypencoder: Гиперсети для информационного поиска
Hypencoder: Hypernetworks for Information Retrieval

Feb 7

ByJulian Killingback, Hansi Zeng, Hamed Zamani

Большинство моделей поиска зависят от внутренних произведений векторов для создания оценки релевантности между запросом и документом. Это естественным образом ограничивает выразительность оценки релевантности, которая может быть использована. Мы предлагаем новую парадигму: вместо создания вектора для представления запроса мы создаем небольшую нейронную сеть, которая действует как обученная функция релевантности. Эта небольшая нейронная сеть принимает представление документа, в данной статье мы используем один вектор, и создает скалярную оценку релевантности. Для создания этой небольшой нейронной сети мы используем гиперсеть, сеть, которая создает веса для других сетей, в качестве нашего кодера запросов или, как мы называем его, Гипкодера. Эксперименты на задачах поиска внутри домена показывают, что Гипкодер способен значительно превзойти сильные модели плотного поиска и имеет более высокие метрики, чем модели переранжирования и модели порядка в десятки раз большие. Гипкодер также показывает хорошую обобщающую способность на задачах поиска вне домена. Для оценки возможностей Гипкодера мы проводим оценку на наборе сложных задач поиска, включая поиск на кончике языка и задачи по следованию инструкциям, и обнаруживаем, что разрыв в производительности существенно увеличивается по сравнению со стандартными задачами поиска. Кроме того, чтобы продемонстрировать практичность нашего метода, мы реализуем приближенный алгоритм поиска и показываем, что наша модель способна искать 8,8 млн документов менее чем за 60 мс.

Эклер -- Извлечение содержимого и макета с интегрированным порядком чтения для документов
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

Feb 6

ByIlia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra

Технология оптического распознавания символов (OCR) широко используется для извлечения текста из изображений документов, обеспечивая эффективную цифровизацию и извлечение данных. Однако простое извлечение текста недостаточно при работе с сложными документами. Полное понимание таких документов требует понимания их структуры, включая форматирование, формулы, таблицы, порядок чтения нескольких блоков и столбцов на нескольких страницах, а также семантической информации для обнаружения элементов, таких как сноски и подписи к изображениям. Это всестороннее понимание критично для последующих задач, таких как извлечение, ответы на вопросы по документам и курирование данных для обучения больших языковых моделей (LLM) и моделей языка и зрения (VLM). Для решения этой проблемы мы представляем \'Eclair, универсальный инструмент для извлечения текста, специально разработанный для обработки широкого спектра типов документов. Получив изображение, \'Eclair способен извлекать отформатированный текст в порядке чтения, а также ограничивающие рамки и соответствующие семантические классы. Для тщательной оценки этих новых возможностей мы представляем наш разнообразный человеко-аннотированный бенчмарк для OCR на уровне документа и семантической классификации. \'Eclair достигает передовой точности на этом бенчмарке, превосходя другие методы по ключевым метрикам. Кроме того, мы оцениваем \'Eclair на установленных бенчмарках, демонстрируя его универсальность и силу по различным стандартам оценки.

Доказательство Гёделя: модель фронтового уровня для автоматизированного доказательства теорем с открытым исходным кодом
Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

Feb 11

ByYong Lin, Shange Tang, Bohan Lyu, Jiayun Wu, Hongzhou Lin, Kaiyu Yang, Jia Li, Mengzhou Xia, Danqi Chen, Sanjeev Arora, Chi Jin

Мы представляем Goedel-Prover, открытую модель большого языка (LLM), которая достигает передовой производительности в автоматическом создании формальных доказательств для математических задач. Основным вызовом в этой области является дефицит формализованных математических утверждений и доказательств, с которым мы справляемся следующим образом. Мы обучаем формализаторы утверждений для перевода естественноязычных математических задач из Numina на формальный язык (Lean 4), создавая набор данных из 1,64 миллиона формальных утверждений. LLM используются для проверки того, что формальные утверждения точно сохраняют содержание исходных естественноязычных задач. Затем мы итеративно создаем большой набор данных формальных доказательств, обучая серию доказывателей. Каждый доказыватель успешно доказывает множество утверждений, которые предыдущие не могли, и эти новые доказательства добавляются в обучающий набор данных для следующего доказывателя. Финальный доказыватель превосходит все существующие модели с открытым исходным кодом в создании полных доказательств. На мини-тесте miniF2F он достигает успеха в 57,6% случаев (Pass@32), превосходя предыдущую лучшую модель с открытым исходным кодом на 7,6%. На тесте PutnamBench Goedel-Prover успешно решает 7 задач (Pass@512), занимая первое место в рейтинге. Более того, он генерирует 29,7 тыс. формальных доказательств для задач Lean Workbook, почти вдвое больше, чем 15,7 тыс., созданных ранее.

CoS: Цепочка-выстрелов для понимания длинных видео
CoS: Chain-of-Shot Prompting for Long Video Understanding

Feb 10

ByJian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong

Многомодельные модели больших языков (MLLM) испытывают трудности с длинными видео из-за необходимости большого количества визуальных токенов. Эти токены значительно превышают длину контекста MLLM, что приводит к заполнению избыточными задачно-нерелевантными кадрами. Проблема выбора кадров остается нерешенной и критической: разреженная выборка может упустить ключевые детали, в то время как исчерпывающая выборка перегружает модель нерелевантным контентом, что приводит к непониманию видео. Для решения этой проблемы мы предлагаем метод "Цепочка подсказок кадров" (CoS). Основная идея заключается в том, чтобы представить выбор кадров как оптимизацию визуальной подсказки во время тестирования, выбирая кадры, адаптированные к семантической задаче понимания видео путем оптимизации соответствия между кадрами и задачей. CoS состоит из двух ключевых частей: (1) механизм бинарного видеорезюме, выполняющий псевдо-временное привязывание, обнаруживающий бинарное кодирование для идентификации задачно-релевантных кадров, и (2) модуль видео-совместного рассуждения, который использует бинарное кодирование для сопоставления (обучения выравниванию) задачно-релевантных положительных кадров с нерелевантными отрицательными кадрами. Он встраивает оптимизированный выбор кадров в исходное видео, обеспечивая фокус на соответствующем контексте для оптимизации понимания длинного видео. Эксперименты на трех базовых уровнях и пяти наборах данных демонстрируют эффективность и адаптивность CoS. Код предоставлен по ссылке https://lwpyh.github.io/CoS.

Редактор CAD: Фреймворк "Найти-затем-заполнить" с автоматизированным синтезом обучающих данных для редактирования CAD на основе текста.
CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing

Feb 6

ByYu Yuan, Shizhao Sun, Qi Liu, Jiang Bian

Система компьютерного проектирования (Computer Aided Design, CAD) является неотъемлемой в различных отраслях. Редактирование CAD на основе текста, которое автоматизирует модификацию CAD-моделей на основе текстовых инструкций, имеет большой потенциал, но остается недостаточно исследованным. Существующие методы в основном сосредотачиваются на генерации вариаций дизайна или создании CAD на основе текста, либо не обеспечивают поддержку управления на основе текста, либо игнорируют существующие CAD-модели как ограничения. Мы представляем CAD-Editor, первую платформу для редактирования CAD на основе текста. Для решения проблемы требования тройных данных с точным соответствием для обучения мы предлагаем автоматизированную конвейерную синтезацию данных. Этот конвейер использует модели вариации дизайна для генерации пар оригинальных и отредактированных CAD-моделей и использует большие модели видение-язык (Large Vision-Language Models, LVLMs) для обобщения их различий в инструкции по редактированию. Для решения сложной природы редактирования CAD на основе текста мы предлагаем рамочную модель "найти-заполнить", которая декомпозирует задачу на две узконаправленные подзадачи: поиск областей, требующих модификации, и заполнение этих областей соответствующими изменениями. Большие языковые модели (Large Language Models, LLMs) служат основой для обеих подзадач, используя свои возможности в понимании естественного языка и знании CAD. Эксперименты показывают, что CAD-Editor достигает превосходной производительности как количественно, так и качественно.

Улучшенное маскирование для авторегрессивного прогнозирования: меньше внимания для более эффективного обучения
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

Feb 11

ByXialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu

Большие языковые модели (LLM) обнаружены страдать от точного извлечения ключевой информации. Для решения этой проблемы мы предлагаем Масочное Улучшение Авторегрессивного Прогнозирования (MEAP), простую, но эффективную парадигму обучения, которая плавно интегрирует Масочное Языковое Моделирование (MLM) в Прогнозирование Следующего Токена (NTP) для улучшения способностей последнего к извлечению информации в контексте. Конкретно, MEAP сначала случайным образом маскирует небольшую долю входных токенов, а затем непосредственно выполняет стандартное авторегрессивное прогнозирование следующего токена с использованием только декодера Transformer. MEAP устраняет необходимость в двунаправленном внимании или архитектурах кодер-декодер для MLM, не принося дополнительной вычислительной нагрузки во время предварительного обучения или вывода. Интенсивные эксперименты демонстрируют, что MEAP значительно превосходит NTP в извлечении ключевой информации и задачах рассуждения на длинных контекстах, при этом показывая сопоставимые или лучшие результаты в задачах здравого смысла. Преимущества MEAP также распространяются на надзорное дообучение, где он демонстрирует замечательные преимущества в сценариях потерянного в середине, превосходя NTP на 11,77 процентных пункта. Наш анализ показывает, что эффективность MEAP проистекает из его способности сосредотачиваться на более различимых оценках внимания, концентрируясь на уменьшенном наборе немаскированных токенов. Этот механизм улучшает фокус модели на сигналах, релевантных для задачи, смягчая влияние периферийного контекста. Эти результаты позиционируют MEAP как многообещающую парадигму обучения для больших языковых моделей.

Разреженные автоэнкодеры для научно обоснованной интерпретации моделей зрения
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

Feb 10

BySamuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su

Для полного понимания моделей зрения необходимо не только интерпретировать их выученные характеристики, но и подтверждать эти интерпретации с помощью контролируемых экспериментов. Нынешние подходы либо предоставляют интерпретируемые характеристики без возможности проверки их причинного влияния, либо позволяют редактировать модель без интерпретируемых контролов. Мы представляем унифицированную структуру, используя разреженные автокодировщики (SAE), которая заполняет этот разрыв, позволяя нам обнаружить человеко-интерпретируемые визуальные характеристики и точно их манипулировать для проверки гипотез о поведении модели. Применяя наш метод к передовым моделям зрения, мы раскрываем ключевые различия в семантических абстракциях, выученных моделями с различными целями предварительного обучения. Затем мы демонстрируем практическое использование нашей структуры через контролируемые вмешательства в рамках нескольких задач зрения. Мы показываем, что SAE могут надежно идентифицировать и манипулировать интерпретируемыми визуальными характеристиками без повторного обучения модели, предоставляя мощный инструмент для понимания и управления поведением модели зрения. Мы предоставляем код, демонстрации и модели на нашем веб-сайте проекта: https://osu-nlp-group.github.io/SAE-V.

Проверка кэширования запросов в API языковых моделей
Auditing Prompt Caching in Language Model APIs

Feb 11

ByChenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto

Кэширование подсказок в больших языковых моделях (LLM) приводит к зависимым от данных временным вариациям: кэшированные подсказки обрабатываются быстрее, чем некэшированные. Эти временные различия представляют риск временных атак через боковые каналы. Например, если кеш общий для пользователей, злоумышленник может идентифицировать кэшированные подсказки по быстрым временам ответа API, чтобы получить информацию о подсказках других пользователей. Поскольку кэширование подсказок может вызвать утечку конфиденциальной информации, важна прозрачность в отношении политик кэширования у поставщиков API. В этом контексте мы разрабатываем и проводим статистические проверки для обнаружения кэширования подсказок у поставщиков реальных LLM API. Мы обнаруживаем глобальное общее использование кеша между пользователями в семи поставщиках API, включая OpenAI, что приводит к потенциальной утечке конфиденциальной информации о подсказках пользователей. Вариации времени из-за кэширования подсказок также могут привести к утечке информации о структуре модели. В частности, мы обнаруживаем доказательства того, что модель встраивания OpenAI является только декодером Transformer, что ранее не было общедоступной информацией.

Расширение навыков и композиция в пространстве параметров
Skill Expansion and Composition in Parameter Space

Feb 9

ByTenglong Liu, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, Xianyuan Zhan

Люди отличаются способностью повторно использовать предыдущие знания для решения новых задач и развития навыков в процессе решения проблем. Этот подход становится все более популярным в разработке автономных агентов, поскольку он позволяет создавать системы, способные самостоятельно эволюционировать в ответ на новые вызовы, подобно человеку. Однако существующие методы сталкиваются с ограниченной эффективностью обучения при расширении новых навыков и не полностью используют предыдущие знания для облегчения обучения новым задачам. В данной статье мы предлагаем Параметрическое Расширение и Композицию Навыков (PSEC) - новую концепцию, разработанную для итеративного развития возможностей агентов и эффективного решения новых вызовов путем поддержания управляемой библиотеки навыков. Эта библиотека может постепенно интегрировать навыковые примитивы в виде модулей низкоранговой адаптации (LoRA) "подключи и играй" при параметрически эффективной донастройке, облегчая эффективное и гибкое расширение навыков. Такая структура также позволяет прямое объединение навыков в пространстве параметров путем слияния модулей LoRA, кодирующих различные навыки, что позволяет эффективно программировать новые навыки, используя общую информацию между навыками. На основе этого мы предлагаем модуль, способный динамически активировать различные навыки для совместного решения новых задач. Обладая разнообразными применениями, включая многокритериальную композицию, изменение динамики и непрерывное изменение стратегии, результаты на наборах данных D4RL, DSRL и пакете управления DeepMind показывают, что PSEC обладает превосходной способностью использовать предыдущие знания для эффективного решения новых вызовов, а также расширять свою библиотеку навыков для развития возможностей. Веб-сайт проекта: https://ltlhuuu.github.io/PSEC/.

FocalCodec: Кодирование речи с низким битрейтом с помощью сетей фокусного модуляции
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

Feb 6

ByLuca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli

Большие языковые модели революционизировали обработку естественного языка через предварительное обучение без учителя на огромных наборах данных. Вдохновленные этим успехом, исследователи исследовали возможность адаптации этих методов к речи путем дискретизации непрерывного аудио на токены с использованием нейронных аудио кодеков. Однако существующие подходы сталкиваются с ограничениями, включая высокие битрейты, потерю либо семантической, либо акустической информации, и использование множественных кодовых книг при попытке уловить оба аспекта, что увеличивает архитектурную сложность для последующих задач. Для решения этих проблем мы представляем FocalCodec, эффективный кодек с низким битрейтом на основе фокусной модуляции, который использует одну двоичную кодовую книгу для сжатия речи между 0,16 и 0,65 кбит/с. FocalCodec обеспечивает конкурентоспособное качество в ресинтезе речи и конвертации голоса при более низких битрейтах, чем у текущего передового метода, эффективно обрабатывая многоязычную речь и шумные среды. Оценка на последующих задачах показывает, что FocalCodec успешно сохраняет достаточное количество семантической и акустической информации, а также хорошо подходит для генеративного моделирования. Демонстрационные образцы, код и контрольные точки доступны по адресу https://lucadellalib.github.io/focalcodec-web/.

Обучение конформных политик воздерживания для адаптивного управления рисками в больших моделях языка и моделях видео-языка.
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models

Feb 8

BySina Tayebati, Divake Kumar, Nastaran Darabi, Dinithi Jayasuriya, Ranganath Krishnan, Amit Ranjan Trivedi

Большие модели языка и модели языка-видео (LLM/VLM) все чаще используются в приложениях, связанных с безопасностью, однако их непрозрачное принятие решений затрудняет оценку рисков и надежности. Количественная оценка неопределенности (UQ) помогает оценить уверенность в прогнозе и позволяет воздерживаться, когда неопределенность высока. Конформальное предсказание (CP), ведущий метод UQ, обеспечивает статистические гарантии, но зависит от статических порогов, которые не адаптируются к сложности задачи и изменяющимся распределениям данных, что приводит к неоптимальным компромиссам в точности, охвате и информативности. Для решения этой проблемы мы предлагаем обучаемое конформальное воздерживание, интегрируя обучение с подкреплением (RL) с CP для оптимизации порогов воздерживания динамически. Обрабатывая пороги CP как адаптивные действия, наш подход балансирует несколько целей, минимизируя размер набора прогнозов, сохраняя надежное покрытие. Обширные оценки на различных бенчмарках LLM/VLM показывают, что наш метод превосходит наименее двусмысленные классификаторы (LAC) и адаптивные наборы прогнозов (APS), улучшая точность до 3,2%, увеличивая AUROC для обнаружения галлюцинаций на 22,19%, улучшая выборочную генерацию на основе неопределенности (AUARC) на 21,17% и снижая ошибку калибровки на 70-85%. Эти улучшения проявляются на различных моделях и наборах данных, при этом надежно достигается цель в 90% покрытия, утверждая наш подход как более эффективное и гибкое решение для надежного принятия решений в приложениях, связанных с безопасностью. Код доступен по ссылке: {https://github.com/sinatayebati/vlm-uncertainty}.