Ежедневно отобранные исследовательские статьи по ИИ с переводами
GPT-4o - это авторегрессионная общая модель, которая принимает на вход любую комбинацию текста, аудио, изображения и видео, и генерирует любую комбинацию текстовых, аудио и изображений. Она обучается end-to-end на тексте, зрении и аудио, что означает, что все входы и выходы обрабатываются одной и той же нейронной сетью. GPT-4o может реагировать на аудиовходы всего за 232 миллисекунды, со средним значением 320 миллисекунд, что сравнимо с временем ответа человека в разговоре. Она соответствует производительности GPT-4 Turbo по тексту на английском языке и коду, с значительным улучшением по тексту на не-английских языках, при этом она также работает намного быстрее и на 50\% дешевле в API. GPT-4o особенно хорошо справляется с пониманием зрения и аудио по сравнению с существующими моделями. Соответствуя нашему обязательству построения ИИ безопасно и согласно нашим добровольным обязательствам перед Белым домом, мы публикуем Карточку системы GPT-4o, включающую наши оценки Фреймворка готовности. В этой Карточке системы мы предоставляем подробный обзор возможностей, ограничений и оценок безопасности GPT-4o в различных категориях, с акцентом на речь-к-речи, а также оцениваем возможности текста и изображений, и меры, которые мы приняли для обеспечения безопасности и соответствия модели. Мы также включаем оценки третьих сторон по опасным возможностям, а также обсуждение потенциального общественного влияния возможностей текста и зрения GPT-4o.
Мы представляем Bielik 7B v0.1, генеративную текстовую модель с 7 миллиардами параметров для обработки польского языка. Обученная на отобранных корпусах польского языка, эта модель решает основные проблемы развития языковых моделей с помощью инновационных техник. Среди них - взвешенная потеря перекрестной энтропии инструкций, которая балансирует обучение различных типов инструкций, и адаптивная скорость обучения, которая динамически корректирует скорость обучения на основе прогресса обучения. Для оценки производительности мы создали рейтинговую таблицу Open PL LLM Leaderboard и Polish MT-Bench, новые фреймворки, оценивающие различные задачи обработки естественного языка и разговорные способности. Bielik 7B v0.1 демонстрирует значительные улучшения, достигая увеличения среднего балла на 9 процентных пунктов по сравнению с Mistral-7B-v0.1 в задаче RAG Reader. Он также превосходит в Polish MT-Bench, особенно в категориях Рассуждения (6.15/10) и Ролевые игры (7.83/10). Эта модель представляет собой значительный прогресс в области польского языкового искусственного интеллекта, предлагая мощный инструмент для различных лингвистических приложений и устанавливая новые стандарты в области.
Малые языковые модели (Small Language Models, SLM) становятся все более важными благодаря их эффективности и производительности при выполнении различных языковых задач с минимальными вычислительными ресурсами, что делает их идеальными для различных сценариев, включая использование на устройствах, мобильных устройствах, краевых устройствах и многих других. В данной статье мы представляем обширный обзор SLM, сосредотачиваясь на их архитектурах, методах обучения и методах сжатия моделей. Мы предлагаем новую таксономию для классификации методов, используемых для оптимизации SLM, включая методы сжатия моделей, обрезки и квантизации. Мы подводим итоги наборов данных для сравнения SLM, а также наиболее часто используемых метрик оценки. Кроме того, мы выделяем ключевые открытые проблемы, которые предстоит решить. Наш обзор направлен на то, чтобы стать ценным ресурсом для исследователей и практиков, заинтересованных в разработке и внедрении небольших, но эффективных языковых моделей.
Цифровые агенты, способные автоматизировать сложные компьютерные задачи, привлекли значительное внимание благодаря своему огромному потенциалу улучшения взаимодействия человека с компьютером. Однако существующие методы агентов проявляют недостатки в их способностях к обобщению и специализации, особенно в обработке открытых компьютерных задач в реальных средах. Вдохновленные богатым функционалом App Store, мы представляем AgentStore, масштабируемую платформу, разработанную для динамической интеграции гетерогенных агентов для автоматизации компьютерных задач. AgentStore дает пользователям возможность интегрировать агентов сторонних разработчиков, позволяя системе непрерывно обогащать свои возможности и адаптироваться к быстро меняющимся операционным системам. Кроме того, мы предлагаем новый ядро MetaAgent с стратегией AgentToken для эффективного управления разнообразными агентами и использования их специализированных и обобщенных способностей как для задач, специфичных для области, так и для системных задач. Обширные эксперименты на трех сложных бенчмарках показывают, что AgentStore превосходит ограничения предыдущих систем с узкими возможностями, особенно достигая значительного улучшения с 11,21\% до 23,85\% на бенчмарке OSWorld, более чем вдвое превышая предыдущие результаты. Обширные количественные и качественные результаты дополнительно демонстрируют способность AgentStore улучшать агентские системы как в обобщении, так и в специализации, подчеркивая его потенциал для развития специализированного обобщенного компьютерного ассистента. Весь наш код будет общедоступен по адресу https://chengyou-jia.github.io/AgentStore-Home.
Парсинг документов является неотъемлемым процессом для преобразования неструктурированных и полуструктурированных документов, таких как контракты, научные статьи и счета, в структурированные данные, пригодные для обработки машинами. Парсинг документов извлекает надежные структурированные данные из неструктурированных входных данных, обеспечивая огромное удобство для множества приложений. Особенно с недавними достижениями в области крупных языковых моделей, парсинг документов играет неотъемлемую роль как в построении базы знаний, так и в генерации обучающих данных. В данном обзоре представлено всестороннее рассмотрение текущего состояния парсинга документов, охватывающее ключевые методологии, от модульных систем конвейеров до моделей end-to-end, основанных на крупных моделях видео-языка. Основные компоненты, такие как обнаружение макета, извлечение содержимого (включая текст, таблицы и математические выражения) и интеграция мультимодальных данных, рассматриваются подробно. Кроме того, в данной статье обсуждаются проблемы, с которыми сталкиваются модульные системы парсинга документов и модели видео-языка при работе с сложными макетами, интеграции нескольких модулей и распознавании текста высокой плотности. Особое внимание уделяется важности разработки более крупных и разнообразных наборов данных и намечаются направления для будущих исследований.
Мы представляем MarDini, новое семейство моделей видеодиффузии, которые интегрируют преимущества маскированной авторегрессии (MAR) в единый фреймворк модели диффузии (DM). Здесь MAR отвечает за временное планирование, в то время как DM фокусируется на пространственной генерации в асимметричном дизайне сети: i) модель планирования на основе MAR, содержащая большинство параметров, генерирует сигналы планирования для каждого маскированного кадра, используя вход низкого разрешения; ii) легкая модель генерации использует эти сигналы для создания кадров высокого разрешения с помощью диффузионного шумоподавления. MAR в MarDini позволяет генерировать видео при условии любого количества маскированных кадров на любых позициях кадров: одна модель может обрабатывать интерполяцию видео (например, маскирование средних кадров), генерацию изображения в видео (например, маскирование со второго кадра и далее) и расширение видео (например, маскирование половины кадров). Эффективное конструирование распределяет большую часть вычислительных ресурсов на модель планирования низкого разрешения, делая вычислительно затратное, но важное пространственно-временное внимание выполнимым в масштабе. MarDini устанавливает новый уровень качества для интерполяции видео; тем временем, за несколько шагов вывода, он эффективно генерирует видео на уровне более дорогих передовых моделей изображения в видео.
Обучение с использованием FP8 стало перспективным методом для улучшения эффективности обучения. Существующие фреймворки ускоряют обучение, применяя вычисления FP8 к линейным слоям, оставляя при этом состояния оптимизатора и активации в более высокой точности, что не позволяет полностью оптимизировать использование памяти. В данной статье представлен COAT (Compressing Optimizer States and Activations for FP8 Training), новый фреймворк обучения с использованием FP8, разработанный для значительного снижения объема памяти при обучении больших моделей. COAT решает текущие ограничения благодаря двум ключевым инновациям: (1) Расширение динамического диапазона, которое выравнивает распределение состояний оптимизатора ближе к диапазону представления FP8, тем самым уменьшая ошибку квантования, и (2) Квантование активации смешанной гранулярности, которое оптимизирует использование памяти активации с помощью комбинации стратегий квантования на уровне тензора и на уровне группы. Эксперименты показывают, что COAT эффективно снижает общий объем памяти для обучения на 1,54 раза по сравнению с BF16, сохраняя практически без потерь производительность на различных задачах, таких как предварительное обучение и настройка больших языковых моделей и обучение моделей видео-языка. COAT также достигает ускорения общего времени обучения на 1,43 раза по сравнению с BF16, демонстрируя производительность на уровне или превосходящую ускорение TransformerEngine. COAT позволяет эффективное обучение полных параметров больших моделей на меньшем количестве GPU и облегчает удвоение размера пакета в распределенных настройках обучения, предоставляя практическое решение для масштабирования обучения моделей большого масштаба. Код доступен по ссылке https://github.com/NVlabs/COAT.
Восстановление изображений (IR) в реальных сценариях представляет существенные трудности из-за отсутствия моделей высокой емкости и полных наборов данных. Для решения этих проблем мы представляем двойную стратегию: GenIR, инновационный конвейер курирования данных, и DreamClear, передовая модель восстановления изображений на основе Диффузионного Трансформера (DiT). GenIR, наш первооткрывательный вклад, представляет собой конвейер обучения с двойным подсказыванием, который преодолевает ограничения существующих наборов данных, обычно состоящих всего из нескольких тысяч изображений и, таким образом, предлагающих ограниченную обобщаемость для более крупных моделей. GenIR оптимизирует процесс в три этапа: построение пары изображение-текст, настройка feine-tuning на основе двойного подсказывания и генерация и фильтрация данных. Этот подход обходит трудоемкий процесс сбора данных, обеспечивая соблюдение авторских прав и предоставляя эффективное с точки зрения затрат и безопасное с точки зрения конфиденциальности решение для создания набора данных IR. Результатом является масштабный набор данных из миллиона высококачественных изображений. Наш второй вклад, DreamClear, - это модель восстановления изображений на основе DiT. Она использует генеративные априорные знания текст-изображение (T2I) диффузионных моделей и надежные перцептивные возможности многомодальных крупных языковых моделей (MLLMs) для достижения фотореалистичного восстановления. Для повышения адаптивности модели к различным деградациям реального мира мы представляем Смесь Адаптивного Модулятора (MoAM). Он использует априорные знания о деградации на уровне токенов для динамического интегрирования различных экспертов по восстановлению, тем самым расширяя спектр деградаций, с которыми модель может справиться. Наши исчерпывающие эксперименты подтверждают превосходную производительность DreamClear, подчеркивая эффективность нашей двойной стратегии для восстановления изображений в реальном мире. Код и предварительно обученные модели будут доступны по адресу: https://github.com/shallowdream204/DreamClear.
Хотя значительные достижения были достигнуты в разработке моделей большого размера с длинным контекстом (LLM), компрометированное качество данных, синтезированных LLM для обучения с учителем (SFT), часто влияет на производительность моделей SFT с длинным контекстом и приводит к врожденным ограничениям. В принципе, обучение с подкреплением (RL) с соответствующими сигналами вознаграждения может дополнительно улучшить способности моделей. Однако остается неразработанным, как получить надежные вознаграждения в сценариях с длинным контекстом. Для этого мы предлагаем LongReward, новый метод, который использует готовую к использованию LLM для предоставления вознаграждений для ответов модели с длинным контекстом из четырех человеческих измерений ценности: полезности, логичности, верности и полноты, каждое с тщательно разработанной оценочной процедурой. Совмещая LongReward и алгоритм обучения с подкреплением DPO в автономном режиме, мы можем эффективно улучшить модели SFT с длинным контекстом. Наши эксперименты показывают, что LongReward не только значительно улучшает производительность моделей с длинным контекстом, но также повышает их способность следовать кратким инструкциям. Мы также обнаружили, что DPO с длинным контекстом с использованием LongReward и традиционный DPO с кратким контекстом могут использоваться вместе, не ухудшая производительность ни одного из них.
Мы представляем новую методику пространственной привязки без обучения для генерации изображений по тексту с использованием Диффузионных Трансформеров (DiT). Пространственная привязка с помощью ограничивающих рамок привлекла внимание своей простотой и универсальностью, позволяя улучшить контроль пользователя при генерации изображений. Однако предыдущие методы без обучения часто полагаются на обновление шумного изображения в процессе обратной диффузии с помощью обратного распространения ошибки от пользовательских функций потерь, что часто затрудняет точный контроль над отдельными ограничивающими рамками. В данной работе мы используем гибкость архитектуры Трансформера, показывая, что DiT может генерировать шумные участки, соответствующие каждой ограничивающей рамке, полностью кодируя целевой объект и позволяя тонкоконтрольно управлять каждым регионом. Наш подход основан на интересном свойстве DiT, которое мы называем семантическим совместным использованием. Благодаря семантическому совместному использованию, когда более маленький участок совместно денуаризуется вместе с изображением генерируемого размера, они становятся "семантическими клонами". Каждый участок денуаризуется в своей собственной ветви процесса генерации, а затем трансплантируется в соответствующий регион оригинального шумного изображения на каждом временном шаге, что приводит к надежной пространственной привязке для каждой ограничивающей рамки. В наших экспериментах на бенчмарках HRS и DrawBench мы достигаем лучшей производительности по сравнению с предыдущими методами пространственной привязки без обучения.
Поисковые системы позволяют извлекать неизвестную информацию из текстов. Однако традиционные методы оказываются неэффективными, когда речь идет о понимании незнакомого визуального контента, такого как идентификация объекта, который модель никогда ранее не видела. Эта проблема особенно остро проявляется для крупных моделей видео-языка (VLM), поскольку если модель не сталкивалась с объектом, изображенным на изображении, ей трудно генерировать надежные ответы на вопросы пользователя относительно этого изображения. Более того, поскольку новые объекты и события постоянно появляются, частое обновление VLM является непрактичным из-за значительной вычислительной нагрузки. Для преодоления этого ограничения мы предлагаем Vision Search Assistant, новую концепцию, которая способствует сотрудничеству между моделями VLM и веб-агентами. Этот подход использует возможности визуального понимания VLM и доступ к информации в реальном времени веб-агентов для выполнения Retrieval-Augmented Generation через веб в открытом мире. Путем интеграции визуальных и текстовых представлений через это сотрудничество модель может предоставлять информированные ответы даже в случае, если изображение ново для системы. Обширные эксперименты, проведенные как на открытых, так и на закрытых наборах данных для вопросов и ответов, показывают, что Vision Search Assistant значительно превосходит другие модели и может быть широко применен к существующим моделям VLM.
Безопасное и эффективное развертывание больших языковых моделей (LLM) включает критический этап, называемый выравниванием, который гарантирует, что ответы модели соответствуют человеческим предпочтениям. Распространенные методы выравнивания, такие как DPO, PPO и их варианты, выравнивают LLM, изменяя веса предварительно обученной модели во время этапа, называемого пост-тренировкой. Хотя эти методы пост-тренировки являются преобладающими, они добавляют значительную сложность перед тем, как LLM могут быть развернуты. Методы выравнивания во время вывода избегают сложного этапа пост-тренировки и вместо этого направляют генерацию к ответам, соответствующим человеческим предпочтениям. Самый известный метод выравнивания во время вывода, называемый Лучшее-из-N, так же эффективен, как передовые процедуры пост-тренировки. К сожалению, Лучшее-из-N требует значительно больше ресурсов во время вывода, чем стандартные стратегии декодирования, что делает его вычислительно невозможным. В данной работе мы представляем Спекулятивное Отклонение, вычислительно возможный алгоритм выравнивания во время вывода. Он генерирует ответы с высокими баллами в соответствии с заданной моделью вознаграждения, как это делает Лучшее-из-N, при этом являясь от 16 до 32 раз более вычислительно эффективным.
Мы представляем LARP, новаторский видеотокенизатор, разработанный для преодоления ограничений текущих методов токенизации видео для авторегрессионных (AR) генеративных моделей. В отличие от традиционных токенизаторов, разбивающих видео на патчи и преобразующих их в дискретные токены, LARP представляет собой голистическую схему токенизации, собирающую информацию из визуального контента с использованием набора обученных голистических запросов. Этот дизайн позволяет LARP захватывать более глобальные и семантические представления, вместо ограничения локальной информацией на уровне патчей. Более того, он обеспечивает гибкость, поддерживая произвольное количество дискретных токенов, обеспечивая адаптивную и эффективную токенизацию в зависимости от конкретных требований задачи. Для согласования дискретного пространства токенов с последующими задачами AR генерации, LARP интегрирует легковесный AR трансформер в качестве модели априорного обучения, которая предсказывает следующий токен в своем дискретном латентном пространстве. Путем включения модели априорного обучения во время обучения LARP изучает латентное пространство, оптимизированное не только для восстановления видео, но и структурированное таким образом, что более благоприятно для авторегрессивной генерации. Более того, этот процесс определяет последовательный порядок дискретных токенов, постепенно приближая их к оптимальной конфигурации во время обучения, обеспечивая более плавную и точную AR генерацию во время вывода. Обширные эксперименты демонстрируют высокую производительность LARP, достигая передового показателя FVD на бенчмарке по генерации видео с условиями классов UCF101. LARP улучшает совместимость AR моделей с видео и открывает потенциал для создания единой высококачественной мультимодальной модели большого языка (MLLMs).
В данной работе мы переформулируем проблему сжатия модели в проблему настройки компенсации: учитывая сжатую модель, мы стремимся ввести остаточные пути низкого ранга для компенсации ошибок сжатия в соответствии с индивидуальными требованиями пользователей (например, задачи, коэффициенты сжатия), что обеспечивает большую гибкость в настройке общей емкости без привязки к конкретным форматам сжатия. Однако наивное применение сингулярного разложения для получения остаточных путей приводит к неоптимальному использованию емкости представления низкого ранга. Вместо этого мы предлагаем метод EoRA (Training-free Eigenspace Low-Rank Approximation), который напрямую минимизирует ошибки, вызванные сжатием, без необходимости градиентного обучения, обеспечивая быструю оптимизацию за несколько минут с использованием небольшого объема калибровочных данных. EoRA проецирует ошибки сжатия в собственное пространство активаций ввода, используя собственные значения для эффективного приоритизации восстановления компонентов ошибок высокой важности. Более того, EoRA может быть легко интегрирован с донастройкой и квантованием для дальнейшего улучшения эффективности и эффективности. EoRA последовательно превосходит предыдущие методы в компенсации ошибок для сжатых моделей LLaMA2/3 на различных задачах, таких как генерация языка, рассуждения здравого смысла и математические задачи (например, улучшения на 31,31%/12,88% и 9,69% на ARC-Easy/ARC-Challenge и MathQA при компенсации LLaMA3-8B, квантованной до 4 бит и обрезанной до разреженности 2:4). EoRA предлагает масштабируемое, обучение-бесплатное решение для компенсации ошибок сжатия, что делает его мощным инструментом для развертывания LLM в различных требованиях к емкости и эффективности.
Большие языковые модели (LLM) дорого стоит внедрять. Общий параметр предлагает возможный путь к уменьшению их размера и стоимости, однако его эффективность в современных LLM остается довольно ограниченной. В данной работе мы пересматриваем "связывание слоев" как форму общего параметра в трансформерах и представляем новые методы преобразования существующих LLM в более компактные "Рекурсивные Трансформеры", которые обмениваются параметрами между слоями с минимальной потерей производительности. Здесь наши Рекурсивные Трансформеры эффективно инициализируются из стандартных предварительно обученных трансформеров, но используют только один блок уникальных слоев, который затем повторяется несколько раз в цикле. Мы дополнительно улучшаем производительность, представляя Расслабленные Рекурсивные Трансформеры, которые добавляют гибкость к ограничению связывания слоев с помощью модулей адаптации низкого ранга по глубине (LoRA), сохраняя компактность общей модели. Мы показываем, что наши рекурсивные модели (например, рекурсивный Gemma 1B) превосходят как модели предварительного обучения аналогичного размера (например, TinyLlama 1.1B и Pythia 1B), так и базовые модели дистилляции знаний — и даже могут восстановить большую часть производительности оригинальной "полноразмерной" модели (например, Gemma 2B без общих параметров). Наконец, мы предлагаем Непрерывную Глубинную Пакетизацию, многообещающую новую парадигму вывода, обеспечиваемую Рекурсивным Трансформером при совмещении с ранним выходом. В теоретическом анализе мы показываем, что это имеет потенциал привести к значительному (2-3 раза) увеличению производительности вывода.
Видеоролики часто используются для обучения или извлечения необходимой информации для выполнения задач способами, отличными от того, что может предоставить только текст и статические изображения. Однако многие существующие бенчмарки агентов игнорируют понимание видео с длинным контекстом, вместо этого сосредотачиваясь на тексте или статических изображениях. Чтобы заполнить этот разрыв, мы представляем VideoWebArena (VideoWA) - бенчмарк для оценки возможностей многофункциональных агентов с длинным контекстом для понимания видео. VideoWA состоит из 2,021 веб-задач агента, основанных на ручно созданных видеоуроках, общей продолжительностью почти четыре часа. Для нашего бенчмарка мы определяем таксономию задач агента на основе видео с длинным контекстом с двумя основными направлениями: сохранение навыков и сохранение фактов. В то время как задачи по сохранению навыков оценивают, может ли агент использовать данное человеческое демонстрирование для эффективного выполнения задачи, задача по сохранению фактов оценивает, может ли агент извлечь информацию, релевантную для инструкции, из видео для выполнения задачи. Мы обнаружили, что лучшая модель достигает успеха на задачах по сохранению фактов в размере 13.3% и на парах вопрос-ответ по сохранению фактов в размере 45.8%, что значительно ниже человеческой производительности на уровне 73.9% и 79.3% соответственно. На задачах по сохранению навыков модели с длинным контекстом показывают худшие результаты с учебниками, чем без них, проявляя снижение производительности на 5% в задачах WebArena и на 10.3% в задачах VisualWebArena. Наша работа подчеркивает необходимость улучшения агентских способностей моделей с длинным контекстом и предоставляет площадку для будущего развития с агентами на основе видео с длинным контекстом.
Нейронные поля стали трансформационным подходом к представлению трехмерных сцен в компьютерном зрении и робототехнике, обеспечивая точное выводы геометрии, трехмерной семантики и динамики из поставленных двумерных данных. Используя дифференцируемый рендеринг, нейронные поля охватывают как непрерывные неявные, так и явные нейронные представления, обеспечивая высококачественную трехмерную реконструкцию, интеграцию мультимодальных данных сенсоров и генерацию новых точек зрения. В данном обзоре исследуются их применения в робототехнике, подчеркивая их потенциал для улучшения восприятия, планирования и управления. Их компактность, эффективность использования памяти и дифференцируемость, а также безупречная интеграция с основными и генеративными моделями делают их идеальными для приложений в реальном времени, улучшая адаптивность и принятие решений роботов. В данной статье представлено подробное обзорное исследование Нейронных Полей в робототехнике, категоризирующее их применения в различных областях и оценивающее их сильные и слабые стороны на основе более чем 200 статей. Во-первых, мы представляем четыре ключевых фреймворка Нейронных Полей: Сети Занятости, Поля Знаковых Расстояний, Нейронные Поля Светимости и Гауссово Разбрызгивание. Во-вторых, мы подробно описываем применения Нейронных Полей в пяти основных областях робототехники: оценка положения, манипуляции, навигация, физика и автономное вождение, выделяя ключевые работы, обсуждая выводы и открытые проблемы. Наконец, мы обозначаем текущие ограничения Нейронных Полей в робототехнике и предлагаем перспективные направления для будущих исследований. Страница проекта: https://robonerf.github.io
Эффективное извлечение структурированных рабочих процессов из неаннотированных диалогов остается малоисследованным и сложным вызовом в вычислительной лингвистике. Автоматизация этого процесса может значительно ускорить ручное проектирование рабочих процессов в новых областях и обеспечить основу для крупных языковых моделей в виде доменно-специфических блок-схем, улучшая прозрачность и управляемость. В данной статье мы представляем эмбеддинги Dialog2Flow (D2F), которые отличаются от обычных эмбеддингов предложений путем отображения высказываний в латентное пространство, где они группируются в соответствии с их коммуникативными и информативными функциями (т.е. действиями, которые они представляют). D2F позволяет моделировать диалоги как непрерывные траектории в латентном пространстве с различными областями, связанными с действиями. Путем кластеризации эмбеддингов D2F латентное пространство квантуется, и диалоги могут быть преобразованы в последовательности идентификаторов области/действия, облегчая извлечение базового рабочего процесса. Для предварительного обучения D2F мы создаем обширный набор данных, объединяя двадцать наборов данных диалогов, ориентированных на задачи, с нормализованными аннотациями действий на каждом ходу. Мы также представляем новую мягкую контрастную функцию потерь, которая использует семантическую информацию этих действий для направления процесса обучения представлений, показывая превосходные результаты по сравнению со стандартной контрастной функцией потерь. Оценка по сравнению с различными эмбеддингами предложений, включая специфические для диалогов, демонстрирует, что D2F дает превосходные качественные и количественные результаты в различных областях.
Данное исследование тестирует роль Больших Языковых Моделей (Large Language Models, LLMs) в качестве формальных инструментов второго мнения в профессиональном принятии решений, особенно сосредотачиваясь на сложных медицинских случаях, когда даже опытные врачи обращаются за консультацией к коллегам. В работе было проанализировано 183 сложных медицинских случая с Medscape за 20-месячный период, проверяя производительность нескольких LLMs по сравнению с ответами врачей, полученными через массовую консультацию. Одним из ключевых результатов было высокое общее значение возможной точности в последних базовых моделях (>80% точности по сравнению с консенсусным мнением), что превосходит большинство человеческих метрик, представленных на тех же клинических случаях (450 страниц профилей пациентов, результаты тестов). Исследование оценивает разрыв в производительности LLMs между простыми случаями (>81% точности) и сложными сценариями (43% точности), особенно в случаях, вызывающих значительные дебаты среди человеческих врачей. Исследование демонстрирует, что LLMs могут быть ценными как генераторы полных дифференциальных диагнозов, а не как основные диагностические инструменты, что потенциально может помочь противодействовать когнитивным предвзятостям в клиническом принятии решений, снизить когнитивную нагрузку и, таким образом, устранить некоторые источники медицинских ошибок. Включение второго сравнительного юридического набора данных (дела Верховного Суда, N=21) обеспечивает дополнительный эмпирический контекст использования ИИ для поощрения вторых мнений, хотя эти юридические вызовы оказались значительно более легкими для анализа LLMs. Помимо оригинальных вкладов в эмпирические доказательства точности LLMs, исследование собрало новый бенчмарк для оценки надежности спорных вопросов и ответов между LLMs и несогласными человеческими практикующими. Эти результаты подтверждают, что оптимальное применение LLMs в профессиональных средах может значительно отличаться от текущих подходов, акцентирующих автоматизацию рутинообразных задач.
Учитывая высокую стоимость сбора робототехнических данных в реальном мире, эффективность выборки является постоянно актуальной задачей в робототехнике. В данной статье мы представляем SGRv2, фреймворк обучения по подражанию, который повышает эффективность выборки за счет улучшенных визуальных и действенных представлений. Центральным элементом дизайна SGRv2 является включение критического индуктивного смещения - локальности действий, которое предполагает, что действия робота в основном определяются целевым объектом и его взаимодействиями с окружающей средой. Обширные эксперименты как в симулированных, так и в реальных условиях демонстрируют, что локальность действий является важным фактором для повышения эффективности выборки. SGRv2 превосходит в задачах RLBench с управлением ключевыми кадрами, используя всего лишь 5 демонстраций, и превосходит базовую модель RVT в 23 из 26 задач. Более того, при оценке на ManiSkill2 и MimicGen с использованием плотного управления, уровень успешности SGRv2 в 2,54 раза выше, чем у SGR. В реальных условиях, всего с восьмью демонстрациями SGRv2 способен выполнять различные задачи с значительно более высоким уровнем успешности по сравнению с базовыми моделями. Веб-сайт проекта: http://sgrv2-robot.github.io
Обучение по подражанию на основе данных захвата движения человека (MoCap) предоставляет многообещающий способ обучения гуманоидных роботов. Однако из-за различий в морфологии, таких как различные уровни свободы суставов и ограничения по силе, точное воспроизведение человеческих поведенческих моделей может быть недостижимо для гуманоидных роботов. Следовательно, включение физически невозможных данных MoCap в обучающие наборы данных может негативно сказаться на производительности политики робота. Для решения этой проблемы мы предлагаем двухуровневую оптимизационную имитационную обучающую структуру, которая чередует оптимизацию как политики робота, так и целевых данных MoCap. Конкретно, сначала мы разрабатываем генеративную модель динамики латентности с использованием новаторского автоэнкодера, который изучает разреженные и структурированные представления движения, захватывая желаемые движения в наборе данных. Затем модель динамики используется для генерации опорных движений, в то время как латентное представление регуляризует двухуровневый процесс имитации движения. Проведенные симуляции с реалистичной моделью гуманоидного робота демонстрируют, что наш метод улучшает политику робота путем модификации опорных движений для достижения физической согласованности.