HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

5 papers found

Большие языковые модели, оркестрирующие структурированное мышление, достигают уровня Грандмастера на платформе Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

Мы представляем Агента К v1.0, полностью автономного агента по науке о данных, разработанного для автоматизации, оптимизации и обобщения различных задач науки о данных. Полностью автоматизированный Агент К v1.0 управляет всем жизненным циклом науки о данных, обучаясь на опыте. Он использует высоко гибкий структурированный каркас рассуждений, позволяющий ему динамически обрабатывать память во вложенной структуре, эффективно учась на накопленном опыте для решения сложных задач рассуждения. Он оптимизирует долговременную и кратковременную память, выборочно сохраняя и извлекая ключевую информацию, направляя будущие решения на основе окружающих вознаграждений. Этот итеративный подход позволяет ему улучшать решения без тонкой настройки или обратного распространения ошибки, достигая непрерывного улучшения через опытное обучение. Мы оцениваем возможности нашего агента, используя соревнования Kaggle в качестве кейс-стади. Следуя полностью автоматизированному протоколу, Агент К v1.0 систематически решает сложные и мультимодальные задачи науки о данных, используя байесовскую оптимизацию для настройки гиперпараметров и инженерии признаков. Наша новая система оценки строго оценивает конечные возможности Агента К v1.0 по генерации и отправке представлений, начиная с URL-адреса соревнования Kaggle. Результаты показывают, что Агент К v1.0 достигает успешности на уровне 92,5\% по всем задачам, охватывая табличные данные, компьютерное зрение, NLP и мультимодальные области. При сравнении с 5 856 участниками Kaggle с помощью расчета рейтингов Elo-MMR для каждого, Агент К v1.0 занимает место в топ-38\%, демонстрируя общий уровень навыков, сопоставимый с уровнем экспертов. Заметно, что его рейтинг Elo-MMR находится между первым и третьим квартилями рейтингов, достигнутых человеческими Гроссмейстерами. Более того, наши результаты показывают, что Агент К v1.0 достиг уровня производительности, эквивалентного Гроссмейстеру Kaggle, имея в своем активе 6 золотых, 3 серебряных и 7 бронзовых медалей, согласно системе прогрессирования Kaggle.

И текст, и изображения утекли! Систематический анализ мультимодального LLM: загрязнение данных
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

Быстрое развитие мультимодальных моделей больших языков (MLLM) продемонстрировало превосходную производительность на различных мультимодальных бенчмарках. Однако проблема загрязнения данных во время обучения создает вызовы при оценке производительности и сравнении. Хотя существует множество методов для обнаружения загрязнения набора данных в больших языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и нескольких этапов обучения. В данном исследовании мы представляем мультимодальную систему обнаружения загрязнения данных, MM-Detect, разработанную для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и способен выявлять значительные улучшения производительности из-за утечки обучающего набора мультимодальных бенчмарков. Кроме того, мы также исследуем возможность загрязнения, исходящего из этапа предварительного обучения LLM, используемого MLLM, и этапа донастройки MLLM, предлагая новые идеи о том, на каких этапах может быть внесено загрязнение.

Полиномиальные композиционные активации: раскрывая динамику крупных языковых моделей
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

Трансформеры нашли широкое применение в различных областях благодаря их мощным возможностям аппроксимации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в первоначальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для увеличения нелинейности и, следовательно, увеличения объема представления. В данной статье мы предлагаем новую категорию активаций полиномиальной композиции (PolyCom), разработанную для оптимизации динамики трансформеров. Теоретически мы предоставляем всесторонний математический анализ PolyCom, выделяя его улучшенную экспрессивность и эффективность по сравнению с другими функциями активации. Особенно мы демонстрируем, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на предварительной настройке крупных языковых моделей (LLM), включая как плотные, так и разреженные архитектуры. Заменяя традиционные функции активации на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, тем самым улучшая показатели производительности в терминах точности и скорости сходимости. Обширные результаты экспериментов демонстрируют эффективность нашего метода, показывая значительные улучшения по сравнению с другими функциями активации. Код доступен по ссылке https://github.com/BryceZhuo/PolyCom.

Оптимизация предпочтения самосогласованности
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

Самоподгонка, при которой модели учатся улучшать себя без участия человека, является быстрорастущей областью исследований. Однако существующие методики часто не способны улучшить сложные задачи рассуждения из-за трудностей в назначении правильных вознаграждений. Ортогональный подход, который известен своей способностью улучшать корректность, - это самосогласованность, метод, применяемый во время вывода на основе множественного выбора для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию самосогласованности для помощи в обучении моделей. Мы представляем оптимизацию предпочтения самосогласованности (ScPO), которая итеративно обучает согласованные ответы предпочитаться несогласованным на неконтролируемых новых задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с обычным обучением модели по вознаграждениям на задачах рассуждения, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинирование ScPO со стандартным контролируемым обучением дает еще лучшие результаты. На ZebraLogic ScPO настраивает Llama-3 8B на более высокий уровень, чем Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.

От Medprompt к o1: Исследование стратегий времени выполнения для медицинских проблем вызова и за их пределами
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Стратегии управления времени выполнения, такие как Medprompt, ценны для направления крупных языковых моделей (LLM) на высокие результаты в сложных задачах. Medprompt демонстрирует, что общая LLM может быть сосредоточена на достижении передовых результатов в специализированных областях, таких как медицина, используя подсказку для вызова стратегии времени выполнения, включающей цепочку рассуждений и ансамблирование. Модель o1-preview от OpenAI представляет новый парадигму, где модель разработана для выполнения рассуждений времени выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение модели o1-preview на разнообразном наборе медицинских бенчмарков. Продолжая исследование Medprompt с GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Заметно, что даже без техник подсказок, модель o1-preview в значительной степени превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, представленных Medprompt, в новой парадигме моделей рассуждений. Мы обнаружили, что подсказка с небольшим числом примеров затрудняет производительность o1, что указывает на то, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей с встроенным рассуждением. В то время как ансамблирование остается жизнеспособным, оно требует больших ресурсов и тщательной оптимизации стоимости и производительности. Наш анализ стоимости и точности стратегий времени выполнения показывает фронт Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов за более высокую цену. Хотя o1-preview предлагает передовые результаты, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет ценность в конкретных контекстах. Более того, мы отмечаем, что модель o1-preview достигла почти полного насыщения на многих существующих медицинских бенчмарках, подчеркивая необходимость новых, сложных бенчмарков. Мы завершаем рассмотрение общих направлений для вычислений времени вывода с LLM.

Большие языковые модели, оркестрирующие структурированное мышление, достигают уровня Грандмастера на платформе Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5