Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Агента К v1.0, полностью автономного агента по науке о данных, разработанного для автоматизации, оптимизации и обобщения различных задач науки о данных. Полностью автоматизированный Агент К v1.0 управляет всем жизненным циклом науки о данных, обучаясь на опыте. Он использует высоко гибкий структурированный каркас рассуждений, позволяющий ему динамически обрабатывать память во вложенной структуре, эффективно учась на накопленном опыте для решения сложных задач рассуждения. Он оптимизирует долговременную и кратковременную память, выборочно сохраняя и извлекая ключевую информацию, направляя будущие решения на основе окружающих вознаграждений. Этот итеративный подход позволяет ему улучшать решения без тонкой настройки или обратного распространения ошибки, достигая непрерывного улучшения через опытное обучение. Мы оцениваем возможности нашего агента, используя соревнования Kaggle в качестве кейс-стади. Следуя полностью автоматизированному протоколу, Агент К v1.0 систематически решает сложные и мультимодальные задачи науки о данных, используя байесовскую оптимизацию для настройки гиперпараметров и инженерии признаков. Наша новая система оценки строго оценивает конечные возможности Агента К v1.0 по генерации и отправке представлений, начиная с URL-адреса соревнования Kaggle. Результаты показывают, что Агент К v1.0 достигает успешности на уровне 92,5\% по всем задачам, охватывая табличные данные, компьютерное зрение, NLP и мультимодальные области. При сравнении с 5 856 участниками Kaggle с помощью расчета рейтингов Elo-MMR для каждого, Агент К v1.0 занимает место в топ-38\%, демонстрируя общий уровень навыков, сопоставимый с уровнем экспертов. Заметно, что его рейтинг Elo-MMR находится между первым и третьим квартилями рейтингов, достигнутых человеческими Гроссмейстерами. Более того, наши результаты показывают, что Агент К v1.0 достиг уровня производительности, эквивалентного Гроссмейстеру Kaggle, имея в своем активе 6 золотых, 3 серебряных и 7 бронзовых медалей, согласно системе прогрессирования Kaggle.
Быстрое развитие мультимодальных моделей больших языков (MLLM) продемонстрировало превосходную производительность на различных мультимодальных бенчмарках. Однако проблема загрязнения данных во время обучения создает вызовы при оценке производительности и сравнении. Хотя существует множество методов для обнаружения загрязнения набора данных в больших языковых моделях (LLM), они менее эффективны для MLLM из-за их различных модальностей и нескольких этапов обучения. В данном исследовании мы представляем мультимодальную систему обнаружения загрязнения данных, MM-Detect, разработанную для MLLM. Наши экспериментальные результаты показывают, что MM-Detect чувствителен к различным степеням загрязнения и способен выявлять значительные улучшения производительности из-за утечки обучающего набора мультимодальных бенчмарков. Кроме того, мы также исследуем возможность загрязнения, исходящего из этапа предварительного обучения LLM, используемого MLLM, и этапа донастройки MLLM, предлагая новые идеи о том, на каких этапах может быть внесено загрязнение.
Трансформеры нашли широкое применение в различных областях благодаря их мощным возможностям аппроксимации. Этот успех частично обусловлен их врожденной нелинейностью. Таким образом, помимо функции ReLU, используемой в первоначальной архитектуре трансформера, исследователи исследовали альтернативные модули, такие как GeLU и SwishGLU, для увеличения нелинейности и, следовательно, увеличения объема представления. В данной статье мы предлагаем новую категорию активаций полиномиальной композиции (PolyCom), разработанную для оптимизации динамики трансформеров. Теоретически мы предоставляем всесторонний математический анализ PolyCom, выделяя его улучшенную экспрессивность и эффективность по сравнению с другими функциями активации. Особенно мы демонстрируем, что сети, включающие PolyCom, достигают оптимальной скорости аппроксимации, что указывает на то, что сети PolyCom требуют минимального количества параметров для аппроксимации общих гладких функций в пространствах Соболева. Мы проводим эмпирические эксперименты на предварительной настройке крупных языковых моделей (LLM), включая как плотные, так и разреженные архитектуры. Заменяя традиционные функции активации на PolyCom, мы позволяем LLM захватывать взаимодействия более высокого порядка в данных, тем самым улучшая показатели производительности в терминах точности и скорости сходимости. Обширные результаты экспериментов демонстрируют эффективность нашего метода, показывая значительные улучшения по сравнению с другими функциями активации. Код доступен по ссылке https://github.com/BryceZhuo/PolyCom.
Самоподгонка, при которой модели учатся улучшать себя без участия человека, является быстрорастущей областью исследований. Однако существующие методики часто не способны улучшить сложные задачи рассуждения из-за трудностей в назначении правильных вознаграждений. Ортогональный подход, который известен своей способностью улучшать корректность, - это самосогласованность, метод, применяемый во время вывода на основе множественного выбора для нахождения наиболее согласованного ответа. В данной работе мы расширяем концепцию самосогласованности для помощи в обучении моделей. Мы представляем оптимизацию предпочтения самосогласованности (ScPO), которая итеративно обучает согласованные ответы предпочитаться несогласованным на неконтролируемых новых задачах. Мы показываем, что ScPO приводит к значительным улучшениям по сравнению с обычным обучением модели по вознаграждениям на задачах рассуждения, таких как GSM8K и MATH, сокращая разрыв с контролируемым обучением с золотыми ответами или предпочтениями, и что комбинирование ScPO со стандартным контролируемым обучением дает еще лучшие результаты. На ZebraLogic ScPO настраивает Llama-3 8B на более высокий уровень, чем Llama-3 70B, Gemma-2 27B и Claude-3 Haiku.
Стратегии управления времени выполнения, такие как Medprompt, ценны для направления крупных языковых моделей (LLM) на высокие результаты в сложных задачах. Medprompt демонстрирует, что общая LLM может быть сосредоточена на достижении передовых результатов в специализированных областях, таких как медицина, используя подсказку для вызова стратегии времени выполнения, включающей цепочку рассуждений и ансамблирование. Модель o1-preview от OpenAI представляет новый парадигму, где модель разработана для выполнения рассуждений времени выполнения перед генерацией окончательных ответов. Мы стремимся понять поведение модели o1-preview на разнообразном наборе медицинских бенчмарков. Продолжая исследование Medprompt с GPT-4, мы систематически оцениваем модель o1-preview на различных медицинских бенчмарках. Заметно, что даже без техник подсказок, модель o1-preview в значительной степени превосходит серию GPT-4 с Medprompt. Мы также систематически изучаем эффективность классических стратегий инженерии подсказок, представленных Medprompt, в новой парадигме моделей рассуждений. Мы обнаружили, что подсказка с небольшим числом примеров затрудняет производительность o1, что указывает на то, что обучение в контексте может больше не быть эффективным подходом к управлению для моделей с встроенным рассуждением. В то время как ансамблирование остается жизнеспособным, оно требует больших ресурсов и тщательной оптимизации стоимости и производительности. Наш анализ стоимости и точности стратегий времени выполнения показывает фронт Парето, где GPT-4o представляет собой более доступный вариант, а o1-preview достигает передовых результатов за более высокую цену. Хотя o1-preview предлагает передовые результаты, GPT-4o с такими стратегиями управления, как Medprompt, сохраняет ценность в конкретных контекстах. Более того, мы отмечаем, что модель o1-preview достигла почти полного насыщения на многих существующих медицинских бенчмарках, подчеркивая необходимость новых, сложных бенчмарков. Мы завершаем рассмотрение общих направлений для вычислений времени вывода с LLM.