Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мультимодальные большие языковые модели (MLLM) в настоящее время переживают стремительный рост, обусловленный передовыми возможностями языковых моделей (LLM). В отличие от более ранних специализированных решений, современные MLLM развиваются в сторону парадигмы мультимодальных универсалов. Изначально ограниченные пониманием множества модальностей, эти модели продвинулись до уровня не только понимания, но и генерации данных в различных модальностях. Их возможности расширились от грубого до детализированного мультимодального понимания и от поддержки ограниченного числа модальностей до произвольных. Хотя существует множество бенчмарков для оценки MLLM, возникает важный вопрос: можно ли просто предположить, что более высокая производительность в различных задачах указывает на более сильные возможности MLLM, приближая нас к искусственному интеллекту уровня человека? Мы утверждаем, что ответ не так прост, как кажется. Этот проект представляет General-Level — оценочную структуру, которая определяет 5 уровней производительности и универсальности MLLM, предлагая методологию для сравнения MLLM и оценки прогресса существующих систем в направлении более устойчивых мультимодальных универсалов и, в конечном итоге, к искусственному общему интеллекту (AGI). В основе структуры лежит концепция Синергии, которая измеряет, сохраняют ли модели согласованные возможности в понимании и генерации, а также в различных модальностях. Для поддержки этой оценки мы представляем General-Bench, который охватывает более широкий спектр навыков, модальностей, форматов и возможностей, включая более 700 задач и 325 800 примеров. Результаты оценки, в которой участвовало более 100 современных MLLM, раскрывают рейтинги возможностей универсалов, подчеркивая сложности достижения подлинного искусственного интеллекта. Мы ожидаем, что этот проект проложит путь для будущих исследований в области мультимодальных базовых моделей следующего поколения, предоставляя надежную инфраструктуру для ускорения реализации AGI. Страница проекта: https://generalist.top/
Крупные языковые модели (LLM) склонны к галлюцинациям, и подход Retrieval-Augmented Generation (RAG) помогает смягчить эту проблему, однако требует значительных вычислительных ресурсов и может приводить к распространению недостоверной информации. Адаптивное извлечение данных направлено на поиск информации только в случае необходимости, но существующие методы основываются на оценке неопределенности с использованием LLM, что остается неэффективным и непрактичным. В данном исследовании мы представляем легковесные методы адаптивного извлечения, независимые от LLM и основанные на внешней информации. Мы изучили 27 признаков, объединенных в 7 групп, и их гибридные комбинации. Эти методы были протестированы на 6 наборах данных для вопросно-ответных систем (QA) с оценкой их производительности и эффективности. Результаты показывают, что наш подход сопоставим по производительности с более сложными методами на основе LLM, при этом обеспечивая значительное повышение эффективности, что демонстрирует потенциал использования внешней информации для адаптивного извлечения данных.
В последние годы наблюдается значительный прогресс как в моделях мультимодального понимания, так и в моделях генерации изображений. Несмотря на их успехи, эти две области развивались независимо, что привело к различным архитектурным парадигмам: в то время как авторегрессионные архитектуры доминируют в мультимодальном понимании, диффузионные модели стали основой генерации изображений. В последнее время растет интерес к разработке унифицированных фреймворков, объединяющих эти задачи. Появление новых возможностей GPT-4o иллюстрирует эту тенденцию, подчеркивая потенциал унификации. Однако архитектурные различия между этими областями создают значительные трудности. Чтобы предоставить четкий обзор текущих усилий по унификации, мы представляем всесторонний обзор, направленный на руководство будущими исследованиями. Сначала мы вводим основные концепции и последние достижения в моделях мультимодального понимания и генерации изображений на основе текста. Затем мы рассматриваем существующие унифицированные модели, классифицируя их на три основные архитектурные парадигмы: диффузионные, авторегрессионные и гибридные подходы, объединяющие авторегрессионные и диффузионные механизмы. Для каждой категории мы анализируем структурные решения и инновации, предложенные в соответствующих работах. Кроме того, мы собираем наборы данных и бенчмарки, адаптированные для унифицированных моделей, предоставляя ресурсы для будущих исследований. Наконец, мы обсуждаем ключевые вызовы, стоящие перед этой зарождающейся областью, включая стратегии токенизации, кросс-модальное внимание и данные. Поскольку эта область находится на ранних этапах развития, мы ожидаем быстрого прогресса и будем регулярно обновлять этот обзор. Наша цель — вдохновить дальнейшие исследования и предоставить ценное справочное пособие для сообщества. Ссылки, связанные с этим обзором, доступны на GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
Эффективный поиск информации имеет решающее значение для улучшения способностей крупных языковых моделей (LLM) к рассуждению и генерации. В последних исследованиях изучалось использование обучения с подкреплением (RL) для повышения поисковых возможностей LLM путем взаимодействия с реальными поисковыми системами в реальных условиях. Хотя эти подходы демонстрируют многообещающие результаты, они сталкиваются с двумя основными проблемами: (1) Непредсказуемое качество документов: качество документов, возвращаемых поисковыми системами, часто оказывается непредсказуемым, что вносит шум и нестабильность в процесс обучения. (2) Чрезмерно высокие затраты на API: обучение с подкреплением требует частых запусков, потенциально включающих сотни тысяч поисковых запросов, что приводит к значительным расходам на API и серьезно ограничивает масштабируемость. Для решения этих проблем мы представляем ZeroSearch — фреймворк обучения с подкреплением, который стимулирует поисковые способности LLM без взаимодействия с реальными поисковыми системами. Наш подход начинается с легкой контролируемой тонкой настройки, которая превращает LLM в модуль поиска, способный генерировать как релевантные, так и зашумленные документы в ответ на запрос. В процессе обучения с подкреплением мы используем стратегию поэтапного запуска, которая постепенно ухудшает качество генерируемых документов, последовательно развивая способность модели к рассуждению, подвергая её всё более сложным сценариям поиска. Многочисленные эксперименты показывают, что ZeroSearch эффективно стимулирует поисковые способности LLM, используя 3B LLM в качестве модуля поиска. Примечательно, что 7B модуль поиска демонстрирует сопоставимую производительность с реальной поисковой системой, а 14B модуль даже превосходит её. Кроме того, подход хорошо обобщается как на базовые, так и на настроенные на инструкции модели различных размеров параметров и совместим с широким спектром алгоритмов обучения с подкреплением.
Генерация персонализированных видео направлена на создание видеороликов с определенными объектами в условиях, гибко задаваемых пользователем, однако существующие методы часто сталкиваются с проблемами сохранения идентичности и ограниченного числа входных модальностей. В данной статье мы представляем HunyuanCustom — многомодальную систему для персонализированной генерации видео, которая делает акцент на сохранении идентичности объекта и поддерживает условия в виде изображений, аудио, видео и текста. Построенная на основе HunyuanVideo, наша модель сначала решает задачу генерации с условиями в виде изображений и текста, вводя модуль слияния текста и изображений на основе LLaVA для улучшенного многомодального понимания, а также модуль усиления идентичности изображения, который использует временную конкатенацию для укрепления идентификационных признаков между кадрами. Для включения генерации с условиями в виде аудио и видео мы дополнительно предлагаем механизмы ввода модальностей: модуль AudioNet, который достигает иерархического выравнивания через пространственное кросс-внимание, и модуль ввода на основе видео, который интегрирует латентно-сжатое условное видео через сеть выравнивания признаков на основе патчей. Многочисленные эксперименты в сценариях с одним и несколькими объектами демонстрируют, что HunyuanCustom значительно превосходит современные открытые и закрытые методы по параметрам сохранения идентичности, реалистичности и соответствия текста и видео. Более того, мы подтверждаем ее устойчивость в различных прикладных задачах, включая генерацию персонализированных видео на основе аудио и видео. Наши результаты подчеркивают эффективность многомодальных условий и стратегий сохранения идентичности в продвижении контролируемой генерации видео. Весь код и модели доступны по адресу https://hunyuancustom.github.io.
Абстракция примитивов формы, которая разлагает сложные 3D-формы на простые геометрические элементы, играет ключевую роль в визуальном восприятии человека и имеет широкое применение в компьютерном зрении и графике. Хотя последние достижения в генерации 3D-контента демонстрируют значительный прогресс, существующие методы абстракции примитивов либо полагаются на геометрическую оптимизацию с ограниченным семантическим пониманием, либо обучаются на небольших наборах данных, специфичных для определённых категорий, что затрудняет их обобщение на разнообразные категории форм. Мы представляем PrimitiveAnything — новый фреймворк, который переосмысливает абстракцию примитивов формы как задачу генерации сборки примитивов. PrimitiveAnything включает трансформер примитивов, обусловленный формой, для авторегрессивной генерации, а также схему параметризации, свободную от неоднозначностей, для унифицированного представления различных типов примитивов. Предложенный фреймворк напрямую изучает процесс сборки примитивов на основе крупномасштабных абстракций, созданных человеком, что позволяет ему улавливать, как люди разлагают сложные формы на примитивные элементы. В ходе обширных экспериментов мы демонстрируем, что PrimitiveAnything способен генерировать высококачественные сборки примитивов, которые лучше соответствуют человеческому восприятию, сохраняя при этом геометрическую точность для разнообразных категорий форм. Это приносит пользу различным 3D-приложениям и открывает потенциал для создания пользовательского контента (UGC) на основе примитивов в играх. Страница проекта: https://primitiveanything.github.io
CLIP от OpenAI, выпущенный в начале 2021 года, долгое время был основным выбором в качестве визуального энкодера для создания мультимодальных базовых моделей. Хотя недавние альтернативы, такие как SigLIP, начали бросать вызов этому статус-кво, насколько нам известно, ни одна из них не является полностью открытой: их обучающие данные остаются проприетарными, и/или их методики обучения не опубликованы. Данная статья заполняет этот пробел, представляя OpenVision — полностью открытое семейство визуальных энкодеров, которое по эффективности и стоимости соответствует или превосходит CLIP от OpenAI при интеграции в мультимодальные фреймворки, такие как LLaVA. OpenVision основывается на существующих работах — например, CLIPS для фреймворка обучения и Recap-DataComp-1B для обучающих данных — при этом раскрывая несколько ключевых идей для повышения качества энкодеров и демонстрируя практические преимущества в развитии мультимодальных моделей. Предоставляя визуальные энкодеры с количеством параметров от 5,9 млн до 632,1 млн, OpenVision предлагает разработчикам гибкий выбор между мощностью и эффективностью при создании мультимодальных моделей: более крупные модели обеспечивают улучшенную мультимодальную производительность, а более компактные версии позволяют реализовать легковесные мультимодальные решения для устройств с ограниченными ресурсами.
Мы исследуем способность моделей, объединяющих зрение и язык (Vision Language Models, VLMs), выполнять задачи визуального принятия перспективы с использованием нового набора визуальных задач, вдохновленных известными тестами для людей. Наш подход основан на тщательно контролируемых сценах, в которых одна антропоморфная минифигурка сочетается с одним объектом. Систематически варьируя пространственные конфигурации — такие как положение объекта относительно минифигурки и ориентация самой минифигурки — и используя как вид сверху, так и вид на уровне поверхности, мы создали 144 уникальные визуальные задачи. Каждая задача сопровождается серией из 7 диагностических вопросов, предназначенных для оценки трех уровней визуального познания: понимания сцены, пространственного мышления и принятия визуальной перспективы. Наша оценка нескольких современных моделей, включая GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct и варианты Claude Sonnet, показывает, что, хотя они преуспевают в понимании сцены, их производительность значительно снижается в задачах пространственного мышления и еще больше ухудшается в задачах принятия перспективы. Наш анализ указывает на разрыв между поверхностным распознаванием объектов и более глубоким пространственным и перспективным мышлением, необходимым для сложных визуальных задач, что подчеркивает необходимость интеграции явных геометрических представлений и специализированных протоколов обучения в будущем развитии VLMs.
Стратегии смешивания данных успешно снизили затраты на обучение языковых моделей. Однако, несмотря на их перспективность, такие методы имеют два недостатка. Во-первых, они опираются на заранее определённые домены данных (например, источники данных, типы задач), что может не учитывать важные семантические нюансы, оставляя потенциал производительности нереализованным. Во-вторых, эти методы масштабируются с увеличением числа доменов в вычислительно неэффективной манере. Мы решаем эти проблемы с помощью R&B — фреймворка, который перераспределяет обучающие данные на основе семантического сходства (Regroup) для создания более детализированных доменов и эффективно оптимизирует состав данных (Balance), используя матрицу Грама, индуцированную градиентами доменов, полученными в процессе обучения. В отличие от предыдущих работ, он устраняет необходимость в дополнительных вычислениях для получения оценочной информации, такой как потери или градиенты. Мы анализируем эту технику в рамках стандартных условий регулярности и предоставляем теоретические обоснования, подтверждающие эффективность R&B по сравнению с неадаптивными подходами к смешиванию данных. Эмпирически мы демонстрируем эффективность R&B на пяти разнообразных наборах данных, охватывающих задачи от обработки естественного языка до рассуждений и мультимодальных задач. С дополнительными вычислительными затратами всего в 0,01% R&B достигает или превосходит производительность современных стратегий смешивания данных.
Крупные языковые модели (LLM) демонстрируют потенциал для сложных рассуждений, однако их способность к эмерджентной координации в многоагентных системах (MAS) при работе в условиях строгих ограничений — таких как ограниченное локальное восприятие и коммуникация, характерные для природных роев — остается в значительной степени неисследованной, особенно в контексте нюансов роевого интеллекта. Существующие бенчмарки часто не полностью охватывают уникальные проблемы децентрализованной координации, возникающие, когда агенты оперируют неполной пространственно-временной информацией. Чтобы устранить этот пробел, мы представляем SwarmBench — новый бенчмарк, разработанный для систематической оценки способностей LLM к роевому интеллекту в роли децентрализованных агентов. SwarmBench включает пять базовых задач координации MAS в настраиваемой 2D-среде, вынуждая агентов полагаться в основном на локальные сенсорные данные (обзор k x k) и локальную коммуникацию. Мы предлагаем метрики для оценки эффективности координации и анализируем эмерджентную групповую динамику. Оценивая несколько ведущих LLM в условиях zero-shot, мы обнаруживаем значительные различия в производительности между задачами, подчеркивая сложности, вызванные ограничениями локальной информации. Хотя некоторая координация возникает, результаты указывают на ограничения в надежном планировании и формировании стратегий в условиях неопределенности в этих децентрализованных сценариях. Оценка LLM в условиях, приближенных к роевым, имеет решающее значение для реализации их потенциала в будущих децентрализованных системах. Мы выпускаем SwarmBench как открытый, расширяемый инструментарий, построенный на основе настраиваемой и масштабируемой физической системы с определенными механическими свойствами. Он предоставляет среды, промпты, скрипты для оценки и всеобъемлющие экспериментальные данные, сгенерированные в ходе исследований, с целью способствовать воспроизводимым исследованиям в области координации MAS на основе LLM и теоретических основ воплощенных MAS. Наш репозиторий кода доступен по адресу https://github.com/x66ccff/swarmbench.
Решение задач, казалось бы, является интуитивно понятным процессом и играет важную роль в науке и технике. Однако общая, но конкретная формулировка самого процесса решения задач отсутствует. С недавним развитием агентов на основе ИИ, способных решать задачи, спрос на проверяемость на уровне процесса стремительно растет, но остается недостаточно изученным. Чтобы восполнить эти пробелы, мы предлагаем принципиальную формулировку решения задач как детерминированного марковского процесса принятия решений; новую структуру FPS (Formal Problem-Solving), которая использует существующие среды FTP (формального доказательства теорем) для выполнения проверяемого на уровне процесса решения задач; и D-FPS (Deductive FPS), разделяющую решение и проверку ответа для лучшего согласования с человеческим мышлением. Доказаны выразительность, корректность и полнота предложенных структур. Мы создаем три эталона для оценки решения задач: FormalMath500, формализацию подмножества эталона MATH500; MiniF2F-Solving и PutnamBench-Solving, адаптации эталонов FTP MiniF2F и PutnamBench. Для достоверной, интерпретируемой и согласованной с человеческим мышлением оценки мы предлагаем RPE (Restricted Propositional Equivalence), символический подход для определения правильности ответов с помощью формальной проверки. Мы оцениваем четыре популярные модели FTP и два метода подсказок в качестве базовых, решая максимум 23,77% задач FormalMath500, 27,47% задач MiniF2F-Solving и 0,31% задач PutnamBench-Solving.
Задача разрешения проблем на GitHub направлена на автоматическое устранение проблем, зарегистрированных в репозиториях. С развитием больших языковых моделей (LLM) эта задача привлекает все больше внимания, и было предложено несколько бенчмарков для оценки способности LLM решать проблемы. Однако существующие бенчмарки имеют три основных ограничения. Во-первых, текущие бенчмарки сосредоточены на одном языке программирования, что ограничивает оценку проблем из репозиториев на разных языках. Во-вторых, они обычно охватывают узкий круг областей, что может не отражать разнообразия реальных проблем. В-третьих, существующие бенчмарки полагаются исключительно на текстовую информацию в описаниях проблем, игнорируя мультимодальные данные, такие как изображения. В этой статье мы предлагаем OmniGIRL — бенчмарк для разрешения проблем на GitHub, который является многоязычным, мультимодальным и охватывает множество областей. OmniGIRL включает 959 задач, собранных из репозиториев на четырех языках программирования (Python, JavaScript, TypeScript и Java) и восьми различных областях. Наша оценка показывает, что текущие LLM демонстрируют ограниченные результаты на OmniGIRL. В частности, лучшая модель, GPT-4o, решает только 8,6% проблем. Кроме того, мы обнаружили, что текущие LLM испытывают трудности с решением проблем, требующих понимания изображений. Лучший результат показала модель Claude-3.5-Sonnet, которая решает только 10,5% проблем с изображениями. Наконец, мы анализируем причины неудач текущих LLM на OmniGIRL, предоставляя идеи для будущих улучшений.
Двухсистемные архитектуры VLA (Vision-Language-Action) стали актуальной темой в исследованиях воплощённого интеллекта, однако существует недостаток открытых реализаций для дальнейшего анализа производительности и оптимизации. Для решения этой проблемы в данной статье будут обобщены и сравнены структурные проекты существующих двухсистемных архитектур, а также проведены систематические эмпирические оценки ключевых элементов их дизайна. В итоге будет предоставлена низкозатратная открытая модель для дальнейшего изучения. Безусловно, проект будет продолжать обновляться с добавлением новых экспериментальных выводов и открытых моделей с улучшенной производительностью, доступных для выбора. Страница проекта: https://openhelix-robot.github.io/.
Решение проблем всегда было ключевым двигателем человеческого прогресса в различных областях. С развитием искусственного интеллекта крупные языковые модели (LLM) стали мощными инструментами, способными решать сложные задачи в самых разных сферах. В отличие от традиционных вычислительных систем, LLM сочетают в себе вычислительную мощь с приближением к человеческому мышлению, что позволяет им генерировать решения, делать выводы и даже использовать внешние вычислительные инструменты. Однако применение LLM к решению реальных задач сопряжено с серьёзными трудностями, включая многошаговое рассуждение, интеграцию предметных знаний и проверку результатов. В данном обзоре исследуются возможности и ограничения LLM в решении сложных задач, рассматриваются такие методы, как рассуждение по цепочке мыслей (Chain-of-Thought, CoT), расширение знаний, а также различные подходы к проверке результатов, основанные на LLM и внешних инструментах. Кроме того, подчеркиваются специфические вызовы в различных областях, таких как разработка программного обеспечения, математические рассуждения и доказательства, анализ данных и моделирование, а также научные исследования. В статье также обсуждаются фундаментальные ограничения современных решений на основе LLM и перспективные направления развития решения сложных задач с использованием LLM с точки зрения многошагового рассуждения, интеграции предметных знаний и проверки результатов.
В данной статье мы представляем OSUniverse: эталонный набор сложных, мультимодальных задач, ориентированных на работу с рабочим столом, для продвинутых ИИ-агентов, специализирующихся на навигации в графическом интерфейсе. Основное внимание уделяется простоте использования, расширяемости, всестороннему охвату тестовых сценариев и автоматизированной проверке. Мы разделяем задачи по возрастающим уровням сложности — от базового точного клика до многошаговых тестов, требующих от агента ловкости, точности и ясного мышления при работе с несколькими приложениями. В первой версии эталонного набора, представленной здесь, мы откалибровали сложность тестовых сценариев, чтобы гарантировать, что современные (State of the Art) агенты (на момент публикации) не показывают результаты выше 50%, в то время как средний офисный работник выполняет все эти задачи с абсолютной точностью. Эталонный набор может оцениваться вручную, но мы также внедряем автоматизированный механизм проверки, средняя ошибка которого составляет менее 2%. Таким образом, этот эталонный набор предоставляет надежную основу для полностью автоматизированного измерения прогресса, возможностей и эффективности ИИ-агентов, ориентированных на навигацию в графическом интерфейсе, в краткосрочной и среднесрочной перспективе. Исходный код эталонного набора доступен по адресу https://github.com/agentsea/osuniverse.
Агенты преимущественно оцениваются и оптимизируются с использованием метрик успешности выполнения задач, которые являются грубыми, требуют ручного проектирования экспертами и не учитывают промежуточные возникающие поведения. Мы предлагаем AutoLibra — фреймворк для оценки агентов, который преобразует открытые отзывы людей, например, "Если вы видите, что кнопка отключена, не нажимайте её снова" или "Этот агент обладает слишком большой автономией в принятии решений", в метрики для оценки детализированных поведений в траекториях агентов. AutoLibra достигает этого, связывая отзывы с поведением агента, группируя схожие положительные и отрицательные поведения и создавая конкретные метрики с четкими определениями и примерами, которые могут использоваться для запросов к LLM-as-a-Judge в качестве оценщиков. Мы также предлагаем две мета-метрики для оценки соответствия набора (индуцированных) метрик открытым отзывам: "покрытие" и "избыточность". Оптимизируя эти мета-метрики, мы экспериментально демонстрируем способность AutoLibra индуцировать более конкретные метрики оценки агентов, чем те, что предлагались в предыдущих бенчмарках, и обнаруживаем новые метрики для анализа агентов. Мы также представляем два применения AutoLibra для улучшения агентов: во-первых, показываем, что индуцированные AutoLibra метрики служат лучшими целями для инженерии запросов, чем показатель успешности выполнения задач, в широком спектре текстовых игр, улучшая производительность агентов на 20% в среднем по сравнению с базовым уровнем. Во-вторых, демонстрируем, что AutoLibra может итеративно выбирать высококачественные данные для тонкой настройки агентов веб-навигации. Наши результаты свидетельствуют о том, что AutoLibra является мощным инструментом, не зависящим от конкретной задачи, для оценки и улучшения языковых агентов.
Большинство существующих детекторов аномалий в видео полагаются исключительно на RGB-кадры, которые не обладают достаточным временным разрешением для захвата резких или кратковременных движений, являющихся ключевыми индикаторами аномальных событий. Чтобы устранить это ограничение, мы предлагаем метод Image-Event Fusion for Video Anomaly Detection (IEF-VAD) — фреймворк, который синтезирует представления событий непосредственно из RGB-видео и объединяет их с признаками изображений через принципиальный, учитывающий неопределенности процесс. Система (i) моделирует шум сенсоров с тяжелыми хвостами с использованием функции правдоподобия Стьюдента, получая веса обратной дисперсии на уровне значений с помощью аппроксимации Лапласа; (ii) применяет калмановские пошаговые обновления для балансировки модальностей во времени; и (iii) итеративно уточняет объединенное латентное состояние для устранения остаточного кросс-модального шума. Без использования специализированных сенсоров событий или меток на уровне кадров IEF-VAD устанавливает новый уровень точности на нескольких реальных бенчмарках для обнаружения аномалий. Эти результаты подчеркивают полезность синтетических представлений событий для выделения движений, которые часто недостаточно представлены в RGB-кадрах, что позволяет достичь точного и устойчивого понимания видео в различных приложениях без необходимости использования специализированных сенсоров событий. Код и модели доступны по адресу https://github.com/EavnJeong/IEF-VAD.
Крупные языковые модели (LLM) демонстрируют выдающуюся производительность в решении множества задач благодаря использованию разнообразных стратегий адаптации. Однако оптимальный выбор модели и стратегии адаптации при ограниченных ресурсах является сложной задачей и часто требует проведения масштабных экспериментов. Мы исследуем возможность точного прогнозирования как производительности, так и затрат без проведения дорогостоящих испытаний. Мы формализуем проблему выбора стратегии для LLM и представляем COSMOS — унифицированную прогностическую платформу, которая эффективно оценивает результаты адаптации с минимальными затратами. Мы реализуем и изучаем возможности нашей платформы с помощью двух мощных предикторов: облегченных прокси-моделей, дополненных эмбеддингами, для прогнозирования производительности тонкой настройки, и законов масштабирования на основе малых выборок для прогнозирования обучения с извлечением в контексте. Обширная оценка на восьми репрезентативных бенчмарках показывает, что COSMOS достигает высокой точности прогнозирования, одновременно снижая вычислительные затраты в среднем на 92,72%, а в ресурсоемких сценариях — до 98,71%. Наши результаты демонстрируют, что эффективное прогнозирование результатов адаптации не только возможно, но и может существенно снизить вычислительные издержки при развертывании LLM, сохраняя при этом стандарты производительности.
Полуавтоматическое обучение стало перспективным подходом для сегментации 3D-зубов по данным КЛКТ (конусно-лучевой компьютерной томографии), где размеченные данные ограничены. Однако существующие методы по-прежнему сталкиваются с двумя устойчивыми проблемами: недостаточным корректирующим контролем в структурно неоднозначных или ошибочно размеченных областях во время контролируемого обучения и ухудшением производительности из-за ненадежных псевдо-меток на неразмеченных данных. Для решения этих проблем мы предлагаем Region-Aware Instructive Learning (RAIL) — полуавтоматическую структуру с двумя группами и двумя студенческими моделями, управляемыми общей учительской сетью. Чередуя обучение между двумя группами, RAIL способствует межгрупповому обмену знаниями и совместному регионально-ориентированному обучению, одновременно снижая переобучение характеристикам любой отдельной модели. В частности, RAIL вводит два обучающих механизма. Контролер Disagreement-Focused Supervision (DFS) улучшает контролируемое обучение, направляя предсказания только в тех областях, где выходы студентов расходятся как с истинными данными, так и с лучшим студентом, тем самым концентрируя контроль на структурно неоднозначных или ошибочно размеченных областях. На этапе неконтролируемого обучения модулятор Confidence-Aware Learning (CAL) усиливает согласованность в областях с высокой уверенностью модели, одновременно снижая влияние предсказаний с низкой уверенностью во время обучения. Это помогает предотвратить обучение модели нестабильным паттернам и повышает общую надежность псевдо-меток. Эксперименты на четырех наборах данных для сегментации зубов по КЛКТ показывают, что RAIL превосходит современные методы при ограниченной аннотации. Наш код будет доступен по адресу https://github.com/Tournesol-Saturday/RAIL.
Создание научного знания претерпевает фундаментальные изменения по мере того, как люди и системы искусственного интеллекта (ИИ) выходят за рамки отношений "инструмент-пользователь" и превращаются в соэволюционные эпистемические партнерства. Когда AlphaFold произвел революцию в предсказании структуры белков, исследователи описали взаимодействие с эпистемическим партнером, которое изменило их представление о фундаментальных взаимосвязях. В данной статье представлена концепция Cognitio Emergens (CE) — структура, которая устраняет ключевые ограничения существующих моделей, сосредоточенных на статических ролях или узких метриках, но не учитывающих, как научное понимание возникает через рекурсивное взаимодействие человека и ИИ во времени. CE интегрирует три компонента, решающих эти ограничения: Конфигурации агентства, описывающие распределение полномочий между человеком и ИИ (Направляемое, Вносящее вклад, Партнерство), причем партнерства динамически колеблются между конфигурациями, а не следуют линейному прогрессу; Эпистемические измерения, охватывающие шесть конкретных способностей, возникающих в результате сотрудничества по осям Открытия, Интеграции и Проекции, создавая уникальные "сигнатуры способностей", которые направляют развитие; и Динамика партнерства, выявляющая силы, формирующие эволюцию этих отношений, особенно риск эпистемического отчуждения, когда исследователи теряют интерпретационный контроль над знанием, которое они формально одобряют. Опираясь на теорию аутопоэзиса, теорию социальных систем и организационную модульность, CE раскрывает, как совместное создание знания возникает через непрерывное согласование ролей, ценностей и организационных структур. Переосмысливая научное сотрудничество человека и ИИ как принципиально соэволюционное, CE предлагает сбалансированный подход, который не бездумно восхваляет и не излишне опасается развивающейся роли ИИ, а вместо этого предоставляет концептуальные инструменты для формирования партнерств, сохраняющих значимое участие человека и способствующих трансформационным научным прорывам.