Ежедневно отобранные исследовательские статьи по ИИ с переводами
Научные большие языковые модели (Sci-LLMs) трансформируют способы представления, интеграции и применения знаний в научных исследованиях, однако их прогресс определяется сложной природой научных данных. В данном обзоре представлен всесторонний, ориентированный на данные синтез, который переосмысливает развитие Sci-LLMs как совместную эволюцию моделей и их базового субстрата данных. Мы формулируем унифицированную таксономию научных данных и иерархическую модель научного знания, подчеркивая мультимодальные, межмасштабные и предметно-ориентированные вызовы, которые отличают научные корпуса от общих наборов данных для обработки естественного языка. Мы систематически рассматриваем последние достижения в области Sci-LLMs, начиная с универсальных базовых моделей и заканчивая специализированными моделями для различных научных дисциплин, а также проводим обширный анализ более 270 наборов данных для предварительного и последующего обучения, показывая, почему Sci-LLMs предъявляют уникальные требования — гетерогенные, многомасштабные, насыщенные неопределенностью корпуса, которые требуют представлений, сохраняющих инвариантность предметной области и обеспечивающих межмодальные рассуждения. В части оценки мы исследуем более 190 эталонных наборов данных и отмечаем переход от статических тестов к процессно- и открыто-ориентированным оценкам с использованием передовых протоколов. Эти ориентированные на данные анализы подчеркивают сохраняющиеся проблемы в разработке научных данных и обсуждают появляющиеся решения, включая полуавтоматизированные конвейеры аннотирования и экспертной валидации. Наконец, мы намечаем сдвиг парадигмы в сторону замкнутых систем, где автономные агенты на основе Sci-LLMs активно экспериментируют, проверяют и вносят вклад в живущую, развивающуюся базу знаний. В совокупности эта работа предоставляет дорожную карту для создания надежных, постоянно развивающихся систем искусственного интеллекта (ИИ), которые функционируют как настоящие партнеры в ускорении научных открытий.
Мультимодальные большие языковые модели (MLLM), оснащённые способностью к пошаговому мышлению, продемонстрировали впечатляющие результаты в решении сложных задач, требующих рассуждений. Однако этот процесс мышления избыточен для простых задач, которые могут быть решены без сложных рассуждений. Для устранения этой неэффективности мы предлагаем R-4B — автономную MLLM, которая может адаптивно решать, когда включать процесс мышления, в зависимости от сложности задачи. Основная идея R-4B заключается в наделении модели как способностью к мышлению, так и возможностью обходиться без него, используя би-модовый отжиг, а также в применении оптимизации би-модовой политики (BPO) для повышения точности модели в определении необходимости активации процесса мышления. В частности, сначала модель обучается на тщательно отобранном наборе данных, охватывающем различные темы и содержащем примеры как с включённым, так и с выключенным процессом мышления. Затем она проходит второй этап обучения в рамках улучшенной структуры GRPO, где модель политики вынуждена генерировать ответы для каждого входного запроса в обоих режимах. Экспериментальные результаты показывают, что R-4B достигает наилучших результатов на 25 сложных тестовых наборах. Она превосходит Qwen2.5-VL-7B в большинстве задач и демонстрирует производительность, сопоставимую с более крупными моделями, такими как Kimi-VL-A3B-Thinking-2506 (16B), на тестах, требующих интенсивных рассуждений, при меньших вычислительных затратах.
Растущее внедрение больших языковых моделей (LLM) в разработку программного обеспечения требует тщательной оценки безопасности генерируемого ими кода. Однако существующие эталонные тесты недостаточны, так как они сосредоточены на изолированных фрагментах кода, используют нестабильные методы оценки, которые не обеспечивают воспроизводимости, и не связывают качество входного контекста с безопасностью выходного кода. Для устранения этих пробелов мы представляем A.S.E (AI Code Generation Security Evaluation) — эталонный тест для генерации безопасного кода на уровне репозиториев. A.S.E создает задачи на основе реальных репозиториев с задокументированными уязвимостями (CVE), сохраняя полный контекст репозитория, включая системы сборки и межфайловые зависимости. Его воспроизводимая, контейнеризованная система оценки использует экспертно определенные правила для обеспечения стабильных и проверяемых оценок безопасности, качества сборки и стабильности генерации. Наша оценка ведущих LLM на A.S.E выявила три ключевых результата: (1) Claude-3.7-Sonnet демонстрирует наилучшую общую производительность. (2) Разрыв в безопасности между проприетарными и открытыми моделями невелик; Qwen3-235B-A22B-Instruct достигает наивысшего балла по безопасности. (3) Краткие, «быстро мыслящие» стратегии декодирования стабильно превосходят сложные, «медленно мыслящие» подходы для исправления уязвимостей.
Способность человека к бесшовному выполнению мультимодального рассуждения и физического взаимодействия в открытом мире является ключевой целью для универсальных воплощенных интеллектуальных систем. Недавние модели, объединяющие зрение, язык и действия (VLA), которые совместно обучаются на крупномасштабных данных роботов и визуально-текстовой информации, продемонстрировали значительный прогресс в общем управлении роботами. Однако они все еще не достигают человеческой гибкости в чередующемся рассуждении и взаимодействии. В данной работе представлена EO-Robotics, включающая модель EO-1 и набор данных EO-Data1.5M. EO-1 — это унифицированная воплощенная базовая модель, которая достигает превосходной производительности в мультимодальном воплощенном рассуждении и управлении роботами благодаря чередующемуся предварительному обучению на данных зрения, текста и действий. Разработка EO-1 основана на двух ключевых принципах: (i) унифицированная архитектура, которая обрабатывает мультимодальные входные данные без различия (изображения, текст, видео и действия), и (ii) крупномасштабный, высококачественный набор данных для мультимодального воплощенного рассуждения EO-Data1.5M, содержащий более 1,5 миллиона образцов с акцентом на чередующееся понимание зрения, текста и действий. EO-1 обучается за счет синергии между авторегрессивным декодированием и денизингом с использованием метода flow matching на данных EO-Data1.5M, что позволяет бесшовно генерировать действия роботов и выполнять мультимодальное воплощенное рассуждение. Многочисленные эксперименты демонстрируют эффективность чередующегося обучения на данных зрения, текста и действий для понимания и обобщения в открытом мире, что подтверждается выполнением различных долгосрочных задач ловкого манипулирования на множестве воплощений. В данной статье подробно описываются архитектура EO-1, стратегия построения данных EO-Data1.5M и методология обучения, предлагая ценные инсайты для разработки передовых воплощенных базовых моделей.
Масштабные законы подтвердили успех и перспективность моделей, обученных на больших объемах данных, в задачах творческой генерации в текстовой, графической и видеодоменах. Однако в 3D-домене эта парадигма сталкивается с проблемой нехватки данных, поскольку их доступно значительно меньше в интернете по сравнению с упомянутыми модальностями. К счастью, существуют достаточные объемы видео, которые содержат в себе априорные знания о здравом смысле, предлагая альтернативный сигнал для обучения, что помогает смягчить ограничения обобщения, вызванные недостатком нативных 3D-данных. С одной стороны, видео, фиксирующие объекты или сцены с нескольких ракурсов, предоставляют априорную информацию о пространственной согласованности для 3D-генерации. С другой стороны, богатая семантическая информация, содержащаяся в видео, позволяет создаваемому контенту быть более точным по отношению к текстовым запросам и семантически правдоподобным. В данной статье исследуется, как можно применить видеомодальность для генерации 3D-ассетов, охватывая как наборы данных, так и модели. Мы представляем Droplet3D-4M — первый крупномасштабный набор видеоданных с аннотациями на уровне многовидовых сцен, а также обучаем Droplet3D — генеративную модель, поддерживающую как изображения, так и плотные текстовые входные данные. Многочисленные эксперименты подтверждают эффективность нашего подхода, демонстрируя его способность создавать пространственно согласованный и семантически правдоподобный контент. Более того, в отличие от преобладающих 3D-решений, наш подход обладает потенциалом для расширения на задачи уровня сцен. Это указывает на то, что априорные знания из видео значительно облегчают создание 3D-контента. Мы открыли доступ ко всем ресурсам, включая набор данных, код, техническую архитектуру и веса модели: https://dropletx.github.io/.
Крупные языковые модели (LLM) превосходно справляются со сложными задачами, требующими рассуждений, такими как математика и программирование, однако часто испытывают трудности с простыми интерактивными задачами, которые маленькие дети выполняют без усилий. Это несоответствие подчеркивает критический разрыв между декларативными знаниями (знанием о чем-то) и процедурными знаниями (знанием того, как что-то делать). Хотя традиционные агенты обучения с подкреплением (RL) могут приобретать процедурные знания через взаимодействие с окружающей средой, они часто работают как "черные ящики" и требуют значительных объемов обучающих данных. В отличие от них, LLM обладают обширными знаниями о мире и способностями к рассуждениям, но не могут эффективно преобразовать эти статические знания в динамическое принятие решений в интерактивных сценариях. Для решения этой проблемы мы предлагаем Think in Games (TiG) — новый фреймворк, который позволяет LLM развивать процедурное понимание через прямое взаимодействие с игровыми средами, сохраняя при этом их врожденные способности к рассуждениям и объяснению. В частности, TiG переформулирует принятие решений на основе RL как задачу языкового моделирования: LLM генерируют политики, управляемые языком, которые итеративно уточняются через онлайн-обучение с подкреплением на основе обратной связи от среды. Наши экспериментальные результаты показывают, что TiG успешно устраняет разрыв между декларативными и процедурными знаниями, достигая конкурентоспособной производительности при значительно меньших требованиях к данным и вычислительным ресурсам по сравнению с традиционными методами RL. Более того, TiG предоставляет пошаговые объяснения своих решений на естественном языке, что значительно повышает прозрачность и интерпретируемость в сложных интерактивных задачах.
Синтез говорящих голов, управляемый аудио, достиг впечатляющего фотореализма, однако современные модели (SOTA) демонстрируют критический недостаток: они не способны обобщать на всё разнообразие человеческих характеристик, таких как этническая принадлежность, язык и возрастные группы. Мы утверждаем, что этот пробел в обобщении является прямым следствием ограничений существующих обучающих данных, которые недостаточно масштабны, качественны и разнообразны. Для решения этой проблемы мы представляем TalkVid — новый крупномасштабный, высококачественный и разнообразный набор данных, содержащий 1244 часа видео от 7729 уникальных говорящих. TalkVid создан с помощью принципиального, многоэтапного автоматизированного процесса, который строго фильтрует данные по стабильности движения, эстетическому качеству и детализации лица, и проверен на соответствие человеческим суждениям для обеспечения его надежности. Кроме того, мы создаем и публикуем TalkVid-Bench — стратифицированный набор для оценки из 500 клипов, тщательно сбалансированный по ключевым демографическим и лингвистическим параметрам. Наши эксперименты показывают, что модель, обученная на TalkVid, превосходит аналоги, обученные на предыдущих наборах данных, демонстрируя лучшее обобщение на кросс-датасетных данных. Важно, что наш анализ на TalkVid-Bench выявляет различия в производительности между подгруппами, которые скрыты традиционными агрегированными метриками, подчеркивая необходимость его использования в будущих исследованиях. Код и данные доступны по адресу https://github.com/FreedomIntelligence/TalkVid.
jina-code-embeddings — это новая модель для создания векторных представлений кода, предназначенная для поиска кода по естественно-языковым запросам, ответов на технические вопросы и идентификации семантически схожих фрагментов кода на разных языках программирования. Модель инновационно использует авторегрессивную архитектуру, предварительно обученную на тексте и коде, и генерирует векторные представления с помощью метода last-token pooling. Мы описываем процесс обучения и демонстрируем передовые результаты, несмотря на относительно небольшой размер моделей, подтверждая эффективность данного подхода к созданию моделей для векторного представления кода.
Смесь данных, используемая при предварительном обучении языковой модели, является краеугольным камнем её итоговой производительности. Однако статическая стратегия смешивания оказывается неоптимальной, поскольку предпочтения модели в обучении для различных доменов данных динамически меняются в процессе тренировки. Ключевой проблемой остаётся эффективное с вычислительной точки зрения наблюдение за этими изменяющимися предпочтениями. Для решения этой задачи мы предлагаем TiKMiX — метод, который динамически корректирует смесь данных в соответствии с эволюцией предпочтений модели. TiKMiX вводит метрику Group Influence, позволяющую эффективно оценивать влияние доменов данных на модель. Эта метрика позволяет сформулировать задачу смешивания данных как поиск оптимального распределения, максимизирующего влияние. Мы решаем её с помощью двух подходов: TiKMiX-D для прямой оптимизации и TiKMiX-M, который использует регрессионную модель для прогнозирования улучшенной смеси. Мы обучили модели с различным количеством параметров на объёме данных до 1 триллиона токенов. TiKMiX-D превосходит производительность современных методов, таких как REGMIX, используя лишь 20% вычислительных ресурсов. TiKMiX-M обеспечивает средний прирост производительности на 2% на 9 тестовых наборах данных. Наши эксперименты показывают, что предпочтения модели в данных эволюционируют с прогрессом обучения и масштабом, и мы демонстрируем, что динамическая корректировка смеси данных на основе Group Influence — прямой меры этих предпочтений — значительно улучшает производительность, устраняя проблему недостаточного усвоения данных, наблюдаемую при статических соотношениях.
GUI-агент направлен на автоматизацию операций на мобильных и ПК-устройствах, что является важной задачей на пути к достижению искусственного общего интеллекта. Быстрое развитие визуально-языковых моделей (VLMs) ускоряет разработку GUI-агентов благодаря их мощным возможностям в области визуального понимания и планирования задач. Однако создание GUI-агента остается сложной задачей из-за недостатка данных о траекториях операций, доступности интерактивной инфраструктуры и ограниченных начальных возможностей базовых моделей. В данной работе мы представляем UItron — открытую базовую модель для автоматических GUI-агентов, обладающую продвинутыми возможностями восприятия, привязки и планирования в графических интерфейсах. UItron подчеркивает необходимость системной инженерии данных и интерактивной инфраструктуры как фундаментальных компонентов для развития GUI-агентов. Модель не только систематически изучает стратегии инженерии данных для улучшения эффектов обучения, но и создает интерактивную среду, объединяющую мобильные и ПК-устройства. В процессе обучения UItron использует контролируемую донастройку для задач восприятия и планирования в различных GUI-сценариях, а затем разрабатывает структуру обучения с подкреплением по учебному плану для обеспечения сложного рассуждения и исследования в онлайн-средах. В результате UItron демонстрирует превосходную производительность в тестах на восприятие, привязку и планирование в графических интерфейсах. В частности, UItron выделяется высокой степенью взаимодействия с популярными китайскими мобильными приложениями, поскольку мы обнаружили общий недостаток поддержки китайского языка даже в современных решениях. Для этого мы вручную собрали более миллиона шагов траекторий операций в топ-100 самых популярных приложений и создали оффлайн- и онлайн-среды для оценки агентов. Экспериментальные результаты показывают, что UItron достигает значительного прогресса в сценариях с китайскими приложениями, приближая GUI-агенты к реальному применению.
Оценка аудио-языковых моделей (ALMs) — мультимодальных моделей, которые принимают на вход чередующиеся аудио и текст и выводят текст — затруднена из-за отсутствия стандартизированных бенчмарков; большинство бенчмарков измеряют только одну или две способности и упускают такие оценочные аспекты, как справедливость или безопасность. Кроме того, сравнение моделей между собой затруднено, поскольку отдельные оценки тестируют ограниченное количество моделей и используют различные методы промптинга и параметры вывода. Чтобы устранить эти недостатки, мы представляем AHELM — бенчмарк, который объединяет различные наборы данных, включая два новых синтетических набора аудио-текстовых данных под названием PARADE, оценивающий способность ALMs избегать стереотипов, и CoRe-Bench, измеряющий способность рассуждать на основе разговорного аудио через многоходовые вопросы на вывод, — для комплексной оценки производительности ALMs по 10 аспектам, которые мы определили как важные для разработки и использования ALMs: восприятие аудио, знания, рассуждения, распознавание эмоций, предвзятость, справедливость, многоязычность, устойчивость, токсичность и безопасность. Мы также стандартизируем промпты, параметры вывода и метрики оценки, чтобы обеспечить справедливое сравнение моделей. Мы тестируем 14 ALMs с открытыми весами и закрытыми API от 3 разработчиков, а также 3 дополнительные простые базовые системы, каждая из которых состоит из автоматического распознавания речи и языковой модели. Наши результаты показывают, что, хотя Gemini 2.5 Pro занимает первое место по 5 из 10 аспектов, она демонстрирует групповую несправедливость (p=0.01) в задачах ASR, тогда как большинство других моделей этого не делают. Мы также обнаружили, что базовые системы показывают достаточно хорошие результаты на AHELM, причем одна из них занимает 5-е место в общем рейтинге, несмотря на наличие только возможностей преобразования речи в текст. Для прозрачности все исходные промпты, генерации моделей и выходные данные доступны на нашем сайте по адресу https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM задуман как развивающийся бенчмарк, и со временем будут добавляться новые наборы данных и модели.
Недавние достижения в применении обучения с подкреплением (RL) к большим языковым моделям (LLM) привели к значительному прогрессу. В частности, в LLM были зафиксированы серии удивительных и часто неинтуитивных явлений, демонстрирующих закономерности, которые обычно не наблюдаются в традиционных настройках RL. Например, среди примечательных утверждений — то, что один обучающий пример может соответствовать результатам, достигнутым с использованием всего набора данных, что сигнал вознаграждения не обязательно должен быть очень точным, и что обучение исключительно на отрицательных примерах может соответствовать или даже превосходить сложные методы, основанные на вознаграждении. Однако точные условия, при которых эти наблюдения справедливы — и, что критически важно, когда они не работают — остаются неясными. В данной работе мы выявляем ключевой фактор, отличающий наблюдения RL: наличие ли у предварительно обученной модели сильного соответствия между моделью и задачей (Model-Task Alignment), измеряемого точностью pass@k на оцениваемой задаче. Благодаря систематическому и всестороннему анализу серии неинтуитивных утверждений, подкрепленных строгой экспериментальной проверкой на различных архитектурах моделей и областях задач, наши результаты показывают, что, хотя стандартное обучение RL остается стабильно надежным в различных условиях, многие из этих неинтуитивных результатов возникают только тогда, когда модель и задача уже демонстрируют сильное соответствие. В то же время эти методы не способны обеспечить существенное обучение в более сложных режимах, где стандартные методы RL остаются эффективными.
Симметрия является одной из наиболее фундаментальных геометрических характеристик в компьютерном зрении, и её обнаружение остается сложной задачей. С учетом последних достижений в моделях, объединяющих зрение и язык, таких как CLIP, мы исследуем, может ли предобученная модель CLIP помочь в обнаружении симметрии, используя дополнительные признаки симметрии, содержащиеся в описаниях естественных изображений. Мы предлагаем CLIPSym, который использует кодировщики изображений и текста из CLIP, а также ротационно-эквивариантный декодер, основанный на гибриде Transformer и G-свертки, для обнаружения вращательной и зеркальной симметрии. Чтобы полностью задействовать языковой кодировщик CLIP, мы разработали новую технику подсказок, называемую Semantic-Aware Prompt Grouping (SAPG), которая объединяет разнообразный набор частотных подсказок, основанных на объектах, для более эффективной интеграции семантических признаков при обнаружении симметрии. Экспериментально мы показываем, что CLIPSym превосходит современные методы на трех стандартных наборах данных для обнаружения симметрии (DENDI, SDRW и LDRS). Наконец, мы проводим детальные исследования, подтверждающие преимущества предобучения CLIP, предложенного эквивариантного декодера и техники SAPG. Код доступен по адресу https://github.com/timyoung2333/CLIPSym.
Агенты пользовательского интерфейса (UI) обещают сделать недоступные или сложные интерфейсы более доступными для пользователей с нарушениями зрения (BLV). Однако современные UI-агенты обычно выполняют задачи от начала до конца, не вовлекая пользователей в принятие ключевых решений и не информируя их о важной контекстной информации, что снижает степень контроля пользователя. Например, в нашем полевом исследовании участник с нарушением зрения попросил купить самую дешевую газированную воду, и агент автоматически выбрал один из нескольких вариантов с одинаковой ценой, не упомянув альтернативные продукты с разными вкусами или более высокими оценками. Чтобы решить эту проблему, мы представляем Morae — UI-агента, который автоматически определяет точки принятия решений в процессе выполнения задачи и приостанавливает выполнение, чтобы пользователь мог сделать выбор. Morae использует крупные мультимодальные модели для интерпретации запросов пользователя вместе с кодом интерфейса и скриншотами, а также запрашивает уточнения у пользователя, когда необходимо принять решение. В исследовании, проведенном на реальных веб-задачах с участием пользователей BLV, Morae помог пользователям выполнить больше задач и выбрать варианты, лучше соответствующие их предпочтениям, по сравнению с базовыми агентами, включая OpenAI Operator. В более широком смысле эта работа демонстрирует смешанный подход, при котором пользователи получают преимущества автоматизации UI-агентов, сохраняя возможность выражать свои предпочтения.
Автоматизированное открытие физических законов на основе наблюдательных данных в реальном мире представляет собой одну из ключевых задач в области искусственного интеллекта. Современные методы, основанные на символьной регрессии или крупных языковых моделях (LLM), ограничиваются работой с унимодальными данными и игнорируют богатые визуальные феноменологические представления движения, которые являются неотъемлемой частью работы физиков. Такая "сенсорная депривация" существенно ослабляет их способность интерпретировать присущие динамическим явлениям пространственно-временные закономерности. Для устранения этого пробела мы предлагаем VIPER-R1 — мультимодальную модель, которая выполняет визуальную индукцию для физического уравнения (Visual Induction for Physics-based Equation Reasoning) с целью открытия фундаментальных символьных формул. Она интегрирует визуальное восприятие, данные траекторий и символьное рассуждение, чтобы имитировать процесс научного открытия. Модель обучается с использованием учебного плана индукции структуры движения (Motion Structure Induction, MSI), где применяется контролируемая тонкая настройка для интерпретации кинематических фазовых портретов и построения гипотез, направляемых причинно-следственной цепочкой рассуждений (Causal Chain of Thought, C-CoT), а затем используется калибровка символьной структуры с подкреплением (Reward-Guided Symbolic Calibration, RGSC) для уточнения структуры формулы. На этапе вывода обученная VIPER-R1 действует как агент: сначала она выдвигает символьный анзац с высокой уверенностью, а затем активно привлекает внешний инструмент символьной регрессии для выполнения символьного перевыравнивания остатков (Symbolic Residual Realignment, SR^2). Этот финальный шаг, аналогичный анализу возмущений физика, согласует теоретическую модель с эмпирическими данными. Для поддержки данного исследования мы представляем PhysSymbol — новый мультимодальный корпус, содержащий 5000 примеров. Эксперименты показывают, что VIPER-R1 стабильно превосходит современные базовые модели визуального языка (VLM) по точности и интерпретируемости, обеспечивая более точное открытие физических законов. Страница проекта: https://jiaaqiliu.github.io/VIPER-R1/
Сети с эхо-состояниями (Echo State Networks, ESN) представляют собой особый тип неподготовленных рекуррентных нейронных сетей (Recurrent Neural Networks, RNN) в рамках парадигмы резервуарных вычислений (Reservoir Computing, RC), которые популярны благодаря быстрому и эффективному обучению. Однако традиционные ESN часто испытывают трудности с обработкой информации на длительных временных интервалах. В данной работе мы представляем новый класс глубоких неподготовленных RNN, основанных на временных остаточных связях, называемых Глубокими Остаточными Сетями с Эхо-Состояниями (Deep Residual Echo State Networks, DeepResESN). Мы показываем, что использование иерархии неподготовленных остаточных рекуррентных слоев значительно повышает емкость памяти и способность моделирования долгосрочных временных зависимостей. Для временных остаточных связей мы рассматриваем различные ортогональные конфигурации, включая случайно сгенерированные и фиксированные структуры, и изучаем их влияние на динамику сети. Подробный математический анализ формулирует необходимые и достаточные условия для обеспечения устойчивой динамики в рамках DeepResESN. Наши эксперименты на различных задачах временных рядов демонстрируют преимущества предложенного подхода по сравнению с традиционными неглубокими и глубокими RC.
Использование данных о движениях человека для наделения роботов универсальными навыками манипуляции стало перспективным направлением в области робототехники. Однако преобразование многоисточниковых движений человеческой руки в выполнимые действия робота остается сложной задачей, особенно для роботов, оснащенных многофункциональными манипуляторами с высокоразмерными пространствами действий. Кроме того, существующие подходы часто не способны создавать стратегии, адаптирующиеся к различным условиям окружающей среды. В данной работе мы представляем HERMES — фреймворк для обучения роботов на основе данных о движениях человека, предназначенный для мобильной двуручной манипуляции. Во-первых, HERMES предлагает унифицированный подход на основе обучения с подкреплением, который позволяет преобразовывать разнородные движения человеческой руки из нескольких источников в физически правдоподобные действия робота. Затем, для сокращения разрыва между симуляцией и реальностью, мы разрабатываем метод сквозного переноса на основе глубинных изображений, улучшающий обобщение на реальные сценарии. Кроме того, для обеспечения автономной работы в разнообразных и неструктурированных средах, мы дополняем базовую модель навигации механизмом локации на основе замкнутого цикла Perspective-n-Point (PnP), что обеспечивает точное выравнивание визуальных целей и эффективно связывает автономную навигацию с манипуляцией. Результаты многочисленных экспериментов демонстрируют, что HERMES стабильно проявляет обобщаемые поведенческие паттерны в разнообразных реальных сценариях, успешно выполняя множество сложных задач мобильной двуручной манипуляции. Страница проекта: https://gemcollector.github.io/HERMES/.
Посттренировочная квантизация (PTQ) играет ключевую роль для развертывания эффективных моделей обнаружения объектов, таких как YOLO, на устройствах с ограниченными ресурсами. Однако влияние снижения точности на устойчивость моделей к реальным искажениям входных данных, таким как шум, размытие и артефакты сжатия, вызывает серьезные опасения. В данной статье представлено всестороннее эмпирическое исследование, оценивающее устойчивость моделей YOLO (от нано до сверхбольших масштабов) в различных форматах точности: FP32, FP16 (TensorRT), Dynamic UINT8 (ONNX) и Static INT8 (TensorRT). Мы предлагаем и оцениваем стратегию калибровки, учитывающую искажения, для Static INT8 PTQ, в которой процесс калибровки TensorRT подвергается воздействию смеси чистых и синтетически искаженных изображений. Модели тестировались на наборе данных COCO в семи различных условиях искажений (включая различные типы и уровни шума, размытия, низкой контрастности и JPEG-сжатия) и в сценарии смешанных искажений. Результаты показывают, что хотя движки Static INT8 TensorRT обеспечивают значительное ускорение (~1.5-3.3x) с умеренным снижением точности (~3-7% mAP50-95) на чистых данных, предложенная калибровка с учетом искажений не привела к последовательному и широкому улучшению устойчивости по сравнению со стандартной калибровкой на чистых данных для большинства моделей и искажений. Исключение было отмечено для моделей большего масштаба в условиях определенного шума, что позволяет предположить, что емкость модели может влиять на эффективность данного подхода к калибровке. Эти результаты подчеркивают сложности в повышении устойчивости PTQ и предоставляют ценные инсайты для развертывания квантизированных детекторов в неконтролируемых условиях. Весь код и таблицы с результатами доступны по адресу https://github.com/AllanK24/QRID.
Ежегодно большинство образовательных учреждений собирают и получают огромный объем текстовых отзывов от студентов о курсах, преподавателях и общем опыте обучения. Однако преобразование этих необработанных отзывов в полезные инсайты далеко не просто. Долгое время оставалось сложной задачей внедрение автоматических решений для анализа мнений в таких данных образовательных отзывов из-за сложности содержания и требований к низкогранулярной отчетности. Аспектно-ориентированный анализ тональности (Aspect-based Sentiment Analysis, ABSA) предлагает перспективное решение благодаря своим возможностям анализа мнений на уровне подпредложений. Однако существующие исследования и ресурсы в области ABSA в значительной степени сосредоточены на коммерческой сфере. В образовательной сфере они редки и сложны для разработки из-за ограниченного количества публичных наборов данных и строгой защиты данных. Высококачественный аннотированный набор данных крайне необходим для продвижения исследований в этой недостаточно изученной области. В данной работе мы представляем EduRABSA (Education Review ABSA) — первый публичный аннотированный набор данных ABSA для образовательных отзывов, охватывающий три типа объектов отзывов (курс, преподавательский состав, университет) на английском языке и все основные задачи ABSA, включая малоизученные задачи извлечения неявных аспектов и неявных мнений. Мы также представляем ASQE-DPT (Data Processing Tool) — автономный, легковесный инструмент для ручной аннотации данных, не требующий установки, который генерирует размеченные наборы данных для комплексных задач ABSA на основе аннотации одной задачи. Вместе эти ресурсы вносят вклад в сообщество ABSA и образовательную сферу, устраняя барьер в виде отсутствия данных, поддерживая прозрачность и воспроизводимость исследований, а также способствуя созданию и обмену дополнительными ресурсами. Набор данных, инструмент для аннотации, а также скрипты и статистика для обработки и выборки данных доступны по адресу https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.