Ежедневно отобранные исследовательские статьи по ИИ с переводами
Надзорное донастройка (SFT) часто используется для обучения языковых моделей имитировать аннотированные ответы на заданные инструкции. В данной статье мы оспариваем эту парадигму и предлагаем Критическую донастройку (CFT), стратегию, при которой модели учатся критиковать шумные ответы, а не просто имитировать правильные. Вдохновленные человеческими процессами обучения, акцентирующими критическое мышление, CFT поощряет более глубокий анализ и нюансированное понимание - черты, часто игнорируемые стандартным SFT. Для проверки эффективности CFT мы создаем набор данных из 50 тыс. примеров из WebInstruct, используя GPT-4o в качестве учителя для генерации критик в форме (ввод=[запрос; шумный ответ], вывод=критика). Применение CFT к этому набору данных приводит к последовательному улучшению на 4-10% по сравнению с SFT на шести математических бенчмарках с различными базовыми моделями, такими как Qwen2.5, Qwen2.5-Math и DeepSeek-Math. Мы также расширяемся на наборы данных MetaMath и NuminaMath и наблюдаем аналогичный прирост по сравнению с SFT. Заметно, что наша модель Qwen2.5-Math-CFT, обученная всего на 50 тыс. примерах, соответствует или превосходит конкурентные модели, такие как AceMath и Qwen2.5-Math-Instruct на большинстве бенчмарков, обе из которых используют более 2 млн примеров. Исследования абляции показывают, что CFT устойчив к источнику шумного ответа и модели учителя критики. На основе этих результатов мы утверждаем, что обучение на основе критики предлагает более эффективную альтернативу для развития рассуждений языковых моделей.
Мы представляем Atla Selene Mini - современную модель-судью малого размера (SLMJ). Selene Mini - это универсальный оценщик, который превосходит лучшие SLMJ и GPT-4o-mini по общей производительности на 11 внеобучающих выборках, охватывающих абсолютное оценивание, классификацию и задачи парных предпочтений. Это самая эффективная 8B генеративная модель на RewardBench, превосходящая сильные базовые уровни, такие как GPT-4o и специализированные судьи. Для достижения этого мы разработали принципиальную стратегию курирования данных, которая дополняет общедоступные наборы данных синтетически сгенерированными критиками и обеспечивает высокое качество путем фильтрации и абляций наборов данных. Мы обучаем нашу модель на комбинированной прямой оптимизации предпочтений (DPO) и обучении с учителем (SFT), и создаем высокоадаптивный оценщик, который превосходит в реальных сценариях. Selene Mini показывает значительно улучшенное согласие "нулевого шота" с оценками экспертов по финансовым и медицинским наборам данных. Он также устойчив к вариациям формата запроса. Предварительные результаты показывают, что Selene Mini является лучшим оценщиком в живом, сообщественно-ориентированном соревновании Judge Arena. Мы выпускаем веса модели на HuggingFace (https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B) и Ollama, чтобы поощрить широкое принятие сообществом.
Быстрый рост искусственного интеллекта (ИИ), особенно больших языковых моделей (LLM), вызвал опасения относительно его глобального экологического воздействия, которое выходит за пределы выбросов парниковых газов и включает в себя учет процессов производства аппаратуры и утилизации. Недостаточная прозрачность крупных поставщиков затрудняет возможность компаний оценить свое экологическое воздействие, связанное с ИИ, и достичь целей по достижению нулевого углеродного следа. В данной статье мы предлагаем методологию для оценки экологического воздействия портфеля ИИ компании, предоставляя действенные исследования без необходимости обширных знаний в области оценки жизненного цикла ИИ (LCA). Результаты подтверждают, что крупные генеративные модели ИИ потребляют до 4600 раз больше энергии, чем традиционные модели. Наш подход к моделированию, учитывающий увеличение использования ИИ, эффективность вычислений аппаратуры и изменения в энергетической структуре в соответствии с сценариями IPCC, прогнозирует использование электроэнергии для ИИ до 2030 года. При высоком сценарии принятия, обусловленном широким принятием генеративного ИИ и агентов, связанных с все более сложными моделями и фреймворками, использование электроэнергии для ИИ прогнозируется увеличиться в 24,4 раза. Смягчение экологического воздействия генеративного ИИ к 2030 году требует скоординированных усилий по всей цепочке создания ценности ИИ. Изолированные меры в области эффективности аппаратуры, эффективности моделей или улучшения сети в отдельности недостаточны. Мы выступаем за стандартизированные рамки оценки в области экологии, большую прозрачность со стороны всех участников цепочки создания ценности и введение метрики "Возврат на окружающую среду" для согласования развития ИИ с целями по достижению нулевого углеродного следа.
Виртуальная примерка на основе изображений (VTON) направлена на создание виртуального примерочного результата путем передачи входной одежды на изображение целевого человека. Однако недостаток сопоставленных данных одежда-модель затрудняет существующим методам достижение высокой обобщаемости и качества в VTON. Это также ограничивает возможность создания примерок без масок. Для решения проблемы нехватки данных подходы, такие как Stable Garment и MMTryon, используют стратегию синтетических данных, эффективно увеличивая количество сопоставленных данных на стороне модели. Однако существующие методы обычно ограничиваются выполнением конкретных задач примерки и лишены удобства использования. Для улучшения обобщаемости и управляемости генерации VTON мы предлагаем Any2AnyTryon, способный создавать результаты примерки на основе различных текстовых инструкций и изображений модельной одежды для удовлетворения различных потребностей, устраняя зависимость от масок, поз или других условий. Конкретно, мы сначала создаем набор данных виртуальной примерки LAION-Garment, самый крупный известный открытый набор данных для виртуальной примерки одежды. Затем мы вводим адаптивное позиционное вложение, которое позволяет модели создавать удовлетворительные изображения модели в одежде или изображения одежды на основе входных изображений различных размеров и категорий, значительно улучшая обобщаемость и управляемость генерации VTON. В наших экспериментах мы демонстрируем эффективность нашего Any2AnyTryon и сравниваем его с существующими методами. Результаты показывают, что Any2AnyTryon обеспечивает гибкую, управляемую и качественную генерацию виртуальной примерки на основе изображений.
В данной статье мы изучаем, насколько хорошо люди могут обнаруживать текст, сгенерированный коммерческими языковыми моделями (GPT-4o, Claude, o1). Мы нанимаем аннотаторов для чтения 300 научно-популярных англоязычных статей, помечаем их как написанные человеком или созданные ИИ, и предоставляем объяснения длиной в абзац к своим решениям. Наши эксперименты показывают, что аннотаторы, часто использующие языковые модели для задач написания, отлично справляются с обнаружением текста, созданного ИИ, даже без специальной подготовки или обратной связи. Фактически, большинство голосов среди пятерых таких "экспертов" аннотаторов ошибается всего в 1 из 300 статей, значительно превосходя большинство коммерческих и открытых детекторов, которые мы оценили, даже в условиях тактик уклонения, таких как перефразирование и гуманизация. Качественный анализ свободных объяснений экспертов показывает, что хотя они сильно полагаются на специфические лексические признаки ('словарь ИИ'), они также замечают более сложные явления в тексте (например, формальность, оригинальность, ясность), которые вызывают трудности для автоматических детекторов. Мы публикуем наш набор данных с аннотациями и кодом для стимулирования будущих исследований как в области человеческого, так и автоматического обнаружения текстов, созданных ИИ.
Большие языковые модели (LLM) стали неотъемлемой частью нашей повседневной жизни. Однако они несут определенные риски, включая те, которые могут нанести вред частной жизни людей, усилить предвзятости и распространять дезинформацию. Эти риски подчеркивают необходимость надежных механизмов безопасности, этических руководящих принципов и тщательного тестирования для обеспечения ответственного внедрения. Безопасность LLM является ключевым свойством, которое необходимо тщательно тестировать перед развертыванием модели и доступом для общих пользователей. В данной статье представлен опыт внешнего тестирования безопасности, проведенный исследователями из Университета Мондрагон и Университета Севильи на новой модели LLM o3-mini от OpenAI в рамках программы досрочного доступа для тестирования безопасности. В частности, мы применяем наш инструмент, ASTRAL, для автоматической и систематической генерации актуальных небезопасных тестовых входов (т.е. подсказок), которые помогают нам тестировать и оценивать различные категории безопасности LLM. Мы автоматически генерируем и выполняем общее количество 10 080 небезопасных тестовых входов на ранней бета-версии o3-mini. После ручной проверки тестовых случаев, классифицированных как небезопасные ASTRAL, мы выявляем общее количество 87 фактических случаев небезопасного поведения LLM. Мы выделяем основные идеи и результаты, выявленные во время фазы внешнего тестирования перед развертыванием последней модели LLM от OpenAI.
Недавние исследования показывают, что большие языковые модели (LLM) уязвимы к вредоносным атакам на тонкую настройку - модели теряют свою способность к безопасной настройке после настройки на нескольких вредоносных образцах. Для смягчения рисков обычно используется защитный барьер, чтобы отфильтровать вредоносные образцы перед тонкой настройкой. Разработав новый метод красной команды, мы в этой статье показываем, что полное доверие только к защитному барьеру для фильтрации данных не является надежным. Наш предложенный метод атаки, названный Вирус, легко обходит защитный барьер путем незначительного изменения вредоносных данных. Экспериментальные результаты показывают, что вредоносные данные, оптимизированные Вирусом, не обнаруживаются защитным барьером с утечкой до 100\% и одновременно достигают превосходной атакующей производительности. Наконец, ключевое сообщение, которое мы хотим донести через эту статью, заключается в том, что: бессмысленно считать защитный барьер единственным способом защиты от вредоносной тонкой настройки, поскольку он не решает врожденной проблемы безопасности предварительно обученных LLM. Наш код доступен по адресу https://github.com/git-disl/Virus