Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем серию MiniMax-01, включающую в себя MiniMax-Text-01 и MiniMax-VL-01, которые сравнимы с моделями верхнего уровня, предлагая при этом более высокие возможности обработки более длинных контекстов. Основа заключается в молниеносном внимании и его эффективном масштабировании. Для максимизации вычислительной мощности мы интегрируем его с Моделью Экспертов (MoE), создавая модель с 32 экспертами и общим количеством параметров в 456 миллиардов, из которых 45,9 миллиарда активируются для каждого токена. Мы разработали оптимизированную параллельную стратегию и высокоэффективные техники перекрытия вычислений и коммуникаций для MoE и молниеносного внимания. Этот подход позволяет нам проводить эффективное обучение и вывод на моделях с сотнями миллиардов параметров в контекстах, охватывающих миллионы токенов. Окно контекста MiniMax-Text-01 может достигать до 1 миллиона токенов во время обучения и экстраполироваться до 4 миллионов токенов во время вывода по доступной цене. Наша модель видео-языка, MiniMax-VL-01, создана путем продолжения обучения с 512 миллиардами видео-языковых токенов. Эксперименты как на стандартных, так и на внутренних бенчмарках показывают, что наши модели соответствуют производительности передовых моделей, таких как GPT-4o и Claude-3.5-Sonnet, предлагая при этом окно контекста в 20-32 раза длиннее. Мы публично выпускаем MiniMax-01 на https://github.com/MiniMax-AI.
Получивший развитие из моделей диффузии, MangaNinjia специализируется на задаче колоризации линейного искусства с использованием ссылок. Мы внедрили два продуманных дизайна для обеспечения точной транскрипции деталей персонажа, включая модуль перетасовки патчей для облегчения обучения соответствию между цветным изображением-образцом и целевым линейным искусством, а также схему управления на основе точек для обеспечения точного сопоставления цветов. Эксперименты на самостоятельно собранном бенчмарке продемонстрировали превосходство нашей модели над текущими решениями в части точной колоризации. Мы также показали потенциал предложенного интерактивного управления точками в решении сложных случаев, колоризации между персонажами, гармонизации с несколькими источниками, выходящих за рамки существующих алгоритмов.
Растущий спрос на управляемые выходы в генерации текста в изображения привел к значительным достижениям в множественной генерации экземпляров (MIG), позволяя пользователям определять как макеты экземпляров, так и их атрибуты. В настоящее время передовые методы в MIG в основном основаны на адаптерах. Однако эти методы требуют повторного обучения нового адаптера каждый раз, когда выходит более продвинутая модель, что приводит к значительным затратам ресурсов. Была представлена методология под названием Глубинно-управляемый Декомпозированный Синтез Экземпляров (3DIS), которая разделяет MIG на две отдельные фазы: 1) построение сцены на основе глубины и 2) детальная отрисовка с использованием широко предварительно обученных моделей управления глубиной. Метод 3DIS требует обучения адаптера только во время фазы построения сцены, позволяя при этом различным моделям выполнять отрисовку деталей без обучения. Изначально 3DIS сосредотачивался на методах отрисовки, использующих архитектуры U-Net, такие как SD1.5, SD2 и SDXL, не исследуя потенциал недавних моделей на основе DiT, таких как FLUX. В данной статье мы представляем 3DIS-FLUX, расширение рамок 3DIS, которое интегрирует модель FLUX для улучшенных возможностей отрисовки. Конкретно, мы используем модель FLUX.1-Depth-dev для генерации изображений с управлением глубиной карты и вводим детальный рендерер, который манипулирует маской внимания в механизме Совместного Внимания FLUX на основе информации о макете. Этот подход позволяет точно отрисовывать мелкозернистые атрибуты каждого экземпляра. Наши экспериментальные результаты показывают, что 3DIS-FLUX, использующий модель FLUX, превосходит оригинальный метод 3DIS, который использовал SD2 и SDXL, и превосходит текущие передовые методы на основе адаптеров как по производительности, так и по качеству изображения. Страница проекта: https://limuloo.github.io/3DIS/.
Мы представляем Omni-RGPT, мультимодельную крупномасштабную языковую модель, разработанную для обеспечения понимания уровня региона как для изображений, так и для видео. Для достижения последовательного представления регионов в пространственно-временных измерениях мы представляем Token Mark, набор токенов, выделяющих целевые регионы визуального пространства. Эти токены прямо встраиваются в пространственные регионы с использованием региональных подсказок (например, рамок или масок) и одновременно интегрируются в текстовую подсказку для указания цели, устанавливая прямую связь между визуальными и текстовыми токенами. Для дальнейшей поддержки надежного понимания видео без необходимости треклетов мы вводим вспомогательную задачу, которая направляет Token Mark, используя последовательность токенов, обеспечивая стабильную интерпретацию регионов в видео. Кроме того, мы представляем крупномасштабный набор данных с инструкциями для видео на уровне регионов (RegVID-300k). Omni-RGPT достигает лучших результатов на стандартных наборах данных для рассуждений на основе изображений и видео, продемонстрировав сильные показатели в задачах подписывания и понимания выражений обращения.
Модели диффузии широко используются для генерации изображений и видео, однако их итеративный процесс генерации медленный и затратный. В то время как существующие подходы к дистилляции продемонстрировали потенциал для одношаговой генерации в области изображений, они все еще страдают от значительного снижения качества. В данной работе мы предлагаем метод адверсариального послетренировочного обучения (APT) на реальных данных после предварительного обучения по диффузии для одношаговой генерации видео. Для улучшения стабильности обучения и качества мы внедряем несколько улучшений в архитектуру модели и процедуры обучения, а также целевую функцию регуляризации R1 с приближенным значением. Эмпирические данные наших экспериментов показывают, что наша модель, обученная адверсариальным послетренировочным методом, Seaweed-APT, способна генерировать видео 2 секундной длительности, разрешением 1280x720 пикселей и частотой кадров 24 в реальном времени с использованием одного шага прямого расчета. Кроме того, наша модель способна генерировать изображения размером 1024 пикселя в один шаг, достигая качества, сравнимого с передовыми методами.
Модели диффузии текста в изображение (T2I) используют закодированные подсказки для направления процесса генерации изображения. Обычно эти подсказки расширяются до фиксированной длины путем добавления заполнительных токенов перед кодированием текста. Несмотря на то, что это является стандартной практикой, влияние заполнительных токенов на процесс генерации изображения не было исследовано. В данной работе мы проводим первый глубокий анализ роли заполнительных токенов в моделях T2I. Мы разрабатываем две причинные техники для анализа того, как информация кодируется в представлении токенов по различным компонентам конвейера T2I. Используя эти техники, мы исследуем, когда и как заполнительные токены влияют на процесс генерации изображения. Наши результаты раскрывают три различных сценария: заполнительные токены могут влиять на вывод модели во время кодирования текста, во время процесса диффузии или быть эффективно проигнорированы. Более того, мы выявляем ключевые взаимосвязи между этими сценариями и архитектурой модели (перекрестное или самовнимание) и ее процессом обучения (замороженный или обученный текстовый кодировщик). Эти умозаключения способствуют более глубокому пониманию механизмов заполнительных токенов, что потенциально может информировать о будущем проектировании моделей и практиках обучения в системах T2I.
Большие языковые модели отлично справляются с интерпретацией сложных естественноязыковых инструкций, что позволяет им выполнять широкий спектр задач. В области жизненных наук данные по одноклеточному секвенированию РНК (scRNA-seq) служат "языком клеточной биологии", запечатлевая сложные образцы экспрессии генов на уровне одной клетки. Однако взаимодействие с этим "языком" с помощью традиционных инструментов часто является неэффективным и неинтуитивным, представляя вызов для исследователей. Для преодоления этих ограничений мы представляем InstructCell, мультимодального искусственного интеллекта-помощника, который использует естественный язык в качестве средства для более прямого и гибкого анализа одноклеточных данных. Мы создаем обширный мультимодальный набор данных инструкций, который сочетает текстовые инструкции с профилями scRNA-seq из различных тканей и видов. Основываясь на этом, мы разрабатываем мультимодальную архитектуру языка клеток, способную одновременно интерпретировать и обрабатывать обе модальности. InstructCell дает исследователям возможность выполнять важные задачи, такие как аннотация типа клеток, условное псевдообразование клеток и прогнозирование чувствительности к лекарствам, с использованием простых естественноязыковых команд. Обширные оценки показывают, что InstructCell последовательно соответствует или превосходит производительность существующих моделей основных одноклеточных данных, а также адаптируется к различным экспериментальным условиям. Более важно, InstructCell предоставляет доступный и интуитивно понятный инструмент для исследования сложных одноклеточных данных, снижая технические барьеры и обеспечивая более глубокие биологические исследования.
Интерактивное редактирование изображений позволяет пользователям изменять изображения с помощью визуальных операций взаимодействия, таких как рисование, клики и перетаскивание. Существующие методы создают такие сигналы наблюдения из видео, поскольку они фиксируют, как объекты изменяются при различных физических взаимодействиях. Однако эти модели обычно строятся на моделях диффузии текста в изображение, что требует (i) огромного количества обучающих примеров и (ii) дополнительного кодировщика для изучения динамики реального мира и визуальной последовательности. В данной статье мы переформулируем эту задачу как проблему генерации изображения в видео, чтобы унаследовать мощные видео-предшественники диффузии для снижения затрат на обучение и обеспечения временной последовательности. Конкретно, мы представляем FramePainter как эффективную реализацию этой формулировки. Инициализированный стабильной диффузией видео, он использует только легкий разреженный управляющий кодировщик для внедрения сигналов редактирования. Учитывая ограничения временного внимания в обработке большого движения между двумя кадрами, мы далее предлагаем соответствующее внимание для увеличения поля зрения, одновременно поощряя плотную соответственность между отредактированными и исходными токенами изображения. Мы подчеркиваем эффективность и эффективность FramePainter в различных сигналах редактирования: он превосходит предыдущие передовые методы с гораздо меньшим объемом обучающих данных, достигая высококачественного и последовательного редактирования изображений, например, автоматической коррекции отражения чашки. Более того, FramePainter также проявляет исключительную обобщенность в сценариях, которые отсутствуют в реальных видео, например, преобразование рыбки-клоуна в форму похожую на акулу. Наш код будет доступен по адресу https://github.com/YBYBZhang/FramePainter.
Мы представляем PokerBench - бенчмарк для оценки игровых способностей крупных моделей языка (LLM) в покере. Поскольку LLM проявляют себя превосходно в традиционных задачах обработки естественного языка, их применение в сложных стратегических играх, таких как покер, представляет собой новое испытание. Покер, как игра с неполной информацией, требует множества навыков, таких как математика, рассуждения, планирование, стратегия, а также глубокого понимания теории игр и психологии человека. Это делает покер идеальным следующим этапом для крупных моделей языка. PokerBench состоит из обширной подборки 11 000 наиболее важных сценариев, разделенных между игрой до флопа и после флопа, разработанных в сотрудничестве с опытными игроками в покер. Мы оцениваем ведущие модели, включая GPT-4, ChatGPT 3.5, а также различные модели серий Llama и Gemma, обнаруживая, что все передовые LLM показывают недостаточные результаты в игре в оптимальный покер. Однако после настройки эти модели проявляют заметные улучшения. Мы проверяем PokerBench, заставляя модели с разными оценками соревноваться между собой, демонстрируя, что более высокие оценки на PokerBench приводят к более высоким победным процентам в реальных играх в покер. Через игру между нашей настроенной моделью и GPT-4 мы также выявляем ограничения простой надзорной настройки для изучения оптимальной стратегии игры, указывая на необходимость более продвинутых методологий для эффективного обучения языковых моделей, чтобы превзойти в играх. PokerBench таким образом представляет собой уникальный бенчмарк для быстрой и надежной оценки игровых способностей LLM, а также комплексный бенчмарк для изучения прогресса LLM в сложных сценариях игр. Набор данных и код будут доступны по ссылке: https://github.com/pokerllm/pokerbench.
Несмотря на их впечатляющую способность генерировать текст высокого качества и свободно, генеративные большие языковые модели (LLM) также производят галлюцинации: утверждения, которые не соответствуют установленным знаниям о мире или предоставленному контексту ввода. Однако измерение галлюцинаций может быть вызовом, поскольку проверка модельных генераций людьми на лету является как дорогостоящей, так и времязатратной. В данной работе мы представляем HALoGEN, обширный бенчмарк галлюцинаций, включающий: (1) 10 923 подсказки для генеративных моделей, охватывающих девять областей, включая программирование, научную атрибуцию и суммаризацию, и (2) автоматические верификаторы высокой точности для каждого случая использования, которые декомпозируют генерации LLM на атомные единицы и проверяют каждую единицу по высококачественному источнику знаний. Мы используем эту структуру для оценки ~150 000 генераций от 14 языковых моделей, обнаруживая, что даже лучшие модели испытывают галлюцинации (иногда до 86% сгенерированных атомных фактов в зависимости от области). Мы также определяем новую классификацию ошибок для галлюцинаций LLM на основе того, вероятно ли они происходят от неправильного воспоминания обучающих данных (ошибки типа A), неправильных знаний в обучающих данных (ошибки типа B) или фабрикации (ошибки типа C). Мы надеемся, что наша структура обеспечит основу для осуществления принципиального изучения причин галлюцинаций генеративных моделей и способствует развитию надежных больших языковых моделей.
Токенизаторы изображений являются основой современных генеративных моделей текста в изображение, но их сложно обучать. Более того, большинство существующих моделей текста в изображение полагаются на крупномасштабные, высококачественные частные наборы данных, что делает их трудными для воспроизведения. В данной работе мы представляем Text-Aware Трансформерный 1-мерный Токенизатор (TA-TiTok), эффективный и мощный токенизатор изображений, который может использовать как дискретные, так и непрерывные 1-мерные токены. TA-TiTok уникально интегрирует текстовую информацию на этапе декодирования токенизатора (т.е. де-токенизация), ускоряя сходимость и улучшая производительность. TA-TiTok также выигрывает от упрощенного, но эффективного одноэтапного процесса обучения, устраняя необходимость в сложной двухэтапной дистилляции, используемой в предыдущих 1-мерных токенизаторах. Этот дизайн позволяет легко масштабироваться на большие наборы данных. На основе этого мы представляем семейство Маскированных Генеративных Моделей текста в изображение (MaskGen), обученных исключительно на открытых данных, при этом достигая сопоставимой производительности с моделями, обученными на частных данных. Мы стремимся выпустить как эффективные и мощные токенизаторы TA-TiTok, так и модели MaskGen на открытых данных и с открытыми весами, чтобы способствовать более широкому доступу и демократизации области генеративных моделей текста в изображение с маскированием.
Мы представляем Tarsier2, передовую модель большого видео-языкового объема (LVLM), разработанную для создания подробных и точных описаний видео, а также обладающую превосходными общими возможностями понимания видео. Tarsier2 достигает значительных прогрессов благодаря трем ключевым улучшениям: (1) Масштабирование предварительного обучения данных с 11 млн до 40 млн пар видео-текст, обогащая как объем, так и разнообразие; (2) Осуществление тонкой временной синхронизации во время надзорного дообучения; (3) Использование модельно-ориентированной выборки для автоматического создания данных о предпочтениях и применение обучения DPO для оптимизации. Обширные эксперименты показывают, что Tarsier2-7B последовательно превосходит ведущие собственные модели, включая GPT-4o и Gemini 1.5 Pro, в задачах подробного описания видео. На тесте DREAM-1K Tarsier2-7B улучшает F1 на 2,8\% по сравнению с GPT-4o и на 5,8\% по сравнению с Gemini-1.5-Pro. В человеческих сравнительных оценках Tarsier2-7B показывает преимущество в производительности +8,6\% по сравнению с GPT-4o и +24,9\% по сравнению с Gemini-1.5-Pro. Tarsier2-7B также устанавливает новые передовые результаты на 15 общедоступных тестах, охватывающих задачи, такие как ответы на вопросы по видео, привязка видео, тест галлюцинации и ответы на вопросы с воплощением, демонстрируя свою универсальность как надежной общей модели видео-языка.
Автоматизированные конвейеры интерпретируемости генерируют описания на естественном языке для концепций, представленных признаками в больших языковых моделях (LLM), таких как растения или первое слово в предложении. Эти описания получаются с использованием входных данных, которые активируют признак, который может быть измерением или направлением в пространстве представления модели. Однако идентификация активирующих входов затратна, и механистическая роль признака в поведении модели определяется как тем, как входы вызывают активацию признака, так и тем, как активация признака влияет на выходы. Используя оценки управления, мы показываем, что текущие конвейеры предоставляют описания, которые не улавливают причинный эффект признака на выходы. Для исправления этого мы предлагаем эффективные методы, ориентированные на выход, для автоматической генерации описаний признаков. Эти методы используют токены с более высоким весом после стимуляции признака или токены с наивысшим весом после применения "размещения в словаре" напрямую к признаку. Наши описания, ориентированные на выход, лучше улавливают причинный эффект признака на выходы модели, чем описания, ориентированные на вход, но их комбинация приводит к лучшей производительности как при оценке входов, так и выходов. Наконец, мы показываем, что описания, ориентированные на выход, могут быть использованы для поиска входов, активизирующих признаки, которые ранее считались "мёртвыми".
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности, однако их успех в значительной степени зависит от качества корпусов предварительного обучения. Для китайских LLM недостаток высококачественных китайских наборов данных представляет существенное препятствие, часто ограничивая их производительность. Для решения этой проблемы мы предлагаем Корпус китайского языка OpenCSG, серию высококачественных наборов данных, специально разработанных для предварительного обучения, последующего обучения и настройки LLM. Этот корпус включает в себя Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese и Smoltalk-chinese, каждый из которых обладает уникальными характеристиками: наборы данных Fineweb-edu фокусируются на отфильтрованном, высококачественном контенте, полученном из разнообразных источников китайского веба; Cosmopedia-chinese предоставляет синтетические данные в стиле учебников для интенсивного обучения на основе знаний; а Smoltalk-chinese акцентирует внимание на стилистически разнообразных данных в формате чата. Корпус китайского языка OpenCSG характеризуется высококачественным текстом, разнообразным охватом областей и масштабируемыми, воспроизводимыми процессами курирования данных. Кроме того, мы провели обширные экспериментальные анализы, включая оценки на моделях с меньшим количеством параметров, которые продемонстрировали значительное улучшение производительности в задачах, таких как C-Eval, демонстрируя эффективность корпуса для обучения китайских LLM.
Речь ненависти и оскорбительный язык - это глобальные явления, которые требуют знаний социокультурного контекста для понимания, выявления и модерации. Однако во многих регионах Глобального Юга было зафиксировано несколько случаев (1) отсутствия модерации и (2) цензуры из-за полагания на выявление ключевых слов вне контекста. Более того, известные личности часто оказывались в центре процесса модерации, в то время как масштабные и целенаправленные кампании речи ненависти против меньшинств оставались незамеченными. Эти ограничения в основном обусловлены отсутствием качественных данных на местных языках и неучастием местных сообществ в процессах сбора, аннотации и модерации. Для решения этой проблемы мы представляем AfriHate: многоязычную коллекцию наборов данных речи ненависти и оскорбительного языка на 15 африканских языках. Каждый пример в AfriHate аннотирован носителями языка, знакомыми с местной культурой. Мы рассматриваем проблемы, связанные с созданием наборов данных, и представляем различные результаты базовой классификации с использованием и без использования LLMs. Наборы данных, индивидуальные аннотации и лексиконы речи ненависти и оскорбительного языка доступны на https://github.com/AfriHate/AfriHate
Быстрый прогресс в области крупных языковых моделей открыл удивительные возможности в обработке и резюмировании неструктурированных текстовых данных. Это имеет значение для анализа обширных, открытых наборов данных, таких как опросные ответы, где крупные языковые модели обещают эффективно выделить ключевые темы и настроения. Однако, по мере того как организации все чаще обращаются к этим мощным ИИ-системам для анализа текстовой обратной связи, возникает критический вопрос: можно ли доверять крупным языковым моделям в точном представлении содержащихся в этих текстовых наборах данных точек зрения? Хотя крупные языковые модели отлично справляются с генерацией резюме, существует риск того, что их результаты могут ненамеренно отклоняться от истинного содержания первоначальных ответов. Разногласия между результатами, сгенерированными крупными языковыми моделями, и фактическими темами, присутствующими в данных, могут привести к ошибочному принятию решений с далеко идущими последствиями для организаций. В данном исследовании исследуется эффективность крупных языковых моделей в качестве моделей-судей для оценки тематического соответствия резюме, сгенерированных другими крупными языковыми моделями. Мы использовали модель Anthropic Claude для генерации тематических резюме из открытых опросных ответов, при этом модели Titan Express от Amazon, Nova Pro и Llama от Meta выступали в роли моделей-судей. Подход с использованием крупных языковых моделей в качестве судей был сравнен с оценками людей с использованием каппы Коэна, ро Спирмена и альфы Криппендорфа, подтверждая масштабируемую альтернативу традиционным методам оценки, ориентированным на человека. Наши результаты показывают, что, хотя крупные языковые модели в качестве судей предлагают масштабируемое решение, сопоставимое с оценками людей, люди все еще могут превосходить в обнаружении тонких, контекстно-специфических нюансов. Это исследование вносит свой вклад в растущее количество знаний об анализе текста с помощью ИИ. Мы обсуждаем ограничения и предлагаем рекомендации для будущих исследований, подчеркивая необходимость тщательного обдумывания при обобщении моделей-судей крупных языковых моделей в различных контекстах и сценариях использования.
Сопоставление изображений, целью которого является определение соответствующих пиксельных позиций между изображениями, является важным во многих научных дисциплинах, помогая в регистрации, слиянии и анализе изображений. В последние годы алгоритмы сопоставления изображений на основе глубокого обучения значительно превзошли людей в быстром и точном нахождении большого количества соответствий. Однако при работе с изображениями, полученными при различных модальностях изображения, что приводит к значительным изменениям внешнего вида, производительность этих алгоритмов часто ухудшается из-за недостатка аннотированных данных для кросс-модального обучения. Это ограничение затрудняет применение в различных областях, которые зависят от нескольких модальностей изображений для получения дополнительной информации. Для решения этой проблемы мы предлагаем крупномасштабную предварительную обучающую структуру, которая использует синтетические кросс-модальные сигналы обучения, интегрируя разнообразные данные из различных источников, чтобы обучить модели распознавать и сопоставлять фундаментальные структуры на изображениях. Эта способность является переносимой на задачи реального мира, неизвестные для кросс-модального сопоставления изображений. Нашим ключевым открытием является то, что модель сопоставления, обученная с использованием нашей структуры, достигает замечательной обобщаемости на более чем восьми невидимых задачах регистрации кросс-модальности, используя тот же набор весов сети, значительно превосходя существующие методы, будь то разработанные для обобщения или нацеленные на конкретные задачи. Этот прогресс значительно улучшает применимость технологий сопоставления изображений в различных научных дисциплинах и прокладывает путь для новых приложений в анализе человека и искусственного интеллекта с использованием нескольких модальностей и за их пределами.
Стремление к автоматизированному научному открытию питает прогресс от символической логики к современному искусственному интеллекту, открывая новые границы в области рассуждений и распознавания образов. Трансформеры функционируют как потенциальные системы, где каждое возможное отношение остается скрытым потенциалом до тех пор, пока задачи не наложат ограничения, подобные измерению. Однако улучшение их выборки требует не только вероятностного выбора: решения должны соответствовать определенным структурам или правилам, обеспечивая согласованность и применение общих принципов. Мы представляем Graph-PReFLexOR (Графовое Предпочтительное Рекурсивное Языковое Моделирование для Исследовательской Оптимизации Рассуждений), фреймворк, который объединяет графовые рассуждения с символической абстракцией для динамического расширения знаний области. Вдохновленный обучением с подкреплением, Graph-PReFLexOR определяет рассуждения как структурированное отображение, где задачи порождают графы знаний, абстрактные образцы и, в конечном итоге, окончательные ответы. Вдохновленный теорией категорий, он кодирует концепции как узлы и их отношения как ребра, поддерживая иерархический вывод и адаптивное обучение через изоморфные представления. Демонстрации включают генерацию гипотез, разработку материалов и креативное рассуждение, такие как обнаружение отношений между мифологическими концепциями, например, 'тонкими местами', с наукой о материалах. Мы предлагаем стратегию 'роста сада знаний', которая интегрирует идеи в различных областях, способствуя междисциплинарным связям. Результаты с моделью Graph-PReFLexOR с 3 миллиардами параметров показывают превосходную глубину рассуждений и адаптивность, подчеркивая потенциал прозрачного, междисциплинарного искусственного интеллекта, направленного на открытие. Это заложило основу для общих автономных решений в области рассуждений.