Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем TinyLlama — компактную языковую модель с 1,1 миллиардами параметров, предобученную на примерно 1 триллионе токенов в течение приблизительно 3 эпох. Основанная на архитектуре и токенизаторе Llama 2, TinyLlama использует различные достижения, предложенные сообществом открытого исходного кода (например, FlashAttention), что позволяет достичь более высокой вычислительной эффективности. Несмотря на относительно небольшой размер, TinyLlama демонстрирует впечатляющие результаты в ряде задач последующего обучения. Она значительно превосходит существующие открытые языковые модели сопоставимого размера. Наши контрольные точки модели и код доступны публично на GitHub по адресу https://github.com/jzhang38/TinyLlama.
Появление ChatGPT привело к значительному росту использования крупных языковых моделей (LLM) для решения задач последующих этапов. В этом контексте все больше внимания уделяется экономически эффективному обучению и развертыванию. Низкозатратное обучение и развертывание LLM представляют собой будущий вектор развития. В данной статье рассматривается эволюция технологий обучения крупных языковых моделей и методов их инференсного развертывания, соответствующих этой новой тенденции. Обсуждение обучения включает различные аспекты, такие как предварительная обработка данных, архитектура обучения, задачи предварительного обучения, параллельное обучение и соответствующие аспекты тонкой настройки моделей. В части инференса статья охватывает темы, включая сжатие моделей, параллельные вычисления, планирование памяти и структурную оптимизацию. Также исследуется использование LLM и предлагаются взгляды на их будущее развитие.
Люди, как правило, приобретают новые навыки, не утрачивая старых; однако для крупных языковых моделей (LLM), таких как LLaMA и CodeLLaMA, наблюдается обратное. В связи с этим мы предлагаем новый метод пост-предварительного обучения LLM, основанный на расширении блоков Transformer. Мы настраиваем расширенные блоки, используя только новый корпус данных, что позволяет эффективно и результативно улучшать знания модели без катастрофического забывания. В данной работе мы проводим эксперименты на корпусах кода и математики, создавая LLaMA Pro-8.3B — универсальную базовую модель, инициализированную на основе LLaMA2-7B, которая демонстрирует превосходство в общих задачах, программировании и математике. LLaMA Pro и её версия, ориентированная на выполнение инструкций (LLaMA Pro-Instruct), показывают передовые результаты в различных тестах, превосходя существующие открытые модели семейства LLaMA и демонстрируя огромный потенциал в решении разнообразных задач в качестве интеллектуального агента. Наши результаты предоставляют ценные инсайты в области интеграции естественных и языков программирования, закладывая прочную основу для разработки продвинутых языковых агентов, эффективно работающих в различных средах.
Фундаментальные модели с миллиардами параметров, обученные на больших корпусах данных, продемонстрировали значительные способности в различных областях. Однако из-за их монолитной структуры их расширение или добавление новых навыков является сложной и дорогостоящей задачей. С другой стороны, благодаря их способности к адаптации, создаются новые экземпляры этих моделей, ориентированные на новые области и задачи. В данной работе мы исследуем проблему эффективного и практического объединения существующих фундаментальных моделей с более специализированными моделями для обеспечения новых возможностей. С этой целью мы предлагаем CALM — Composition to Augment Language Models (Композиция для расширения языковых моделей), которая вводит кросс-внимание между моделями для объединения их представлений и обеспечения новых возможностей. Ключевые особенности CALM: (i) Масштабирование крупных языковых моделей (LLM) для новых задач за счет «повторного использования» существующих LLM с добавлением небольшого количества дополнительных параметров и данных, (ii) Веса существующих моделей остаются неизменными, что сохраняет их текущие возможности, и (iii) Применимость к различным областям и настройкам. Мы показываем, что расширение модели PaLM2-S с помощью меньшей модели, обученной на малоресурсных языках, приводит к абсолютному улучшению до 13% в задачах, таких как перевод на английский язык и арифметические рассуждения для малоресурсных языков. Аналогично, когда PaLM2-S расширяется с помощью модели, специализированной на коде, мы наблюдаем относительное улучшение на 40% по сравнению с базовой моделью в задачах генерации и объяснения кода — на уровне полностью дообученных аналогов.
Обучение с подражанием на основе демонстраций человека продемонстрировало впечатляющие результаты в робототехнике. Однако большинство достижений сосредоточено на манипуляциях на столе, что не обеспечивает необходимой мобильности и ловкости для выполнения задач общего назначения. В данной работе мы разрабатываем систему для имитации мобильных манипуляционных задач, требующих двуручного взаимодействия и управления всем телом. Сначала мы представляем Mobile ALOHA — недорогую систему телеуправления всем телом для сбора данных. Она расширяет систему ALOHA за счет мобильной базы и интерфейса телеуправления всем телом. Используя данные, собранные с помощью Mobile ALOHA, мы затем проводим обучение с подражанием под наблюдением и обнаруживаем, что совместное обучение с существующими наборами данных статической ALOHA повышает производительность на задачах мобильных манипуляций. При 50 демонстрациях для каждой задачи совместное обучение может увеличить процент успешного выполнения до 90%, что позволяет Mobile ALOHA автономно выполнять сложные мобильные манипуляционные задачи, такие как обжаривание и подача креветки, открытие двухстворчатого настенного шкафа для хранения тяжелых кастрюль, вызов и вход в лифт, а также легкое ополаскивание использованной сковороды с помощью кухонного крана. Сайт проекта: https://mobile-aloha.github.io.
В данной статье представлена модель instruct-imagen, которая решает задачи гетерогенной генерации изображений и обобщает их для ранее не встречавшихся задач. Мы вводим *мультимодальную инструкцию* для генерации изображений — представление задачи, которое точно формулирует различные намерения генерации. Она использует естественный язык для объединения различных модальностей (например, текст, контуры, стиль, объект и т.д.), что позволяет стандартизировать множество намерений генерации в едином формате. Затем мы создаем instruct-imagen, дообучая предварительно обученную диффузионную модель для генерации изображений по тексту с использованием двухэтапной структуры. Сначала мы адаптируем модель с помощью обучения с усилением на основе извлечения данных, чтобы улучшить способность модели основывать генерацию на внешнем мультимодальном контексте. После этого мы дообучаем адаптированную модель на разнообразных задачах генерации изображений, требующих понимания взаимодействия зрения и языка (например, генерация на основе объекта и т.д.), каждая из которых сопровождается мультимодальной инструкцией, отражающей суть задачи. Оценка людьми на различных наборах данных для генерации изображений показывает, что instruct-imagen соответствует или превосходит предыдущие специализированные модели в рамках их областей применения, а также демонстрирует перспективные результаты в обобщении на ранее не встречавшиеся и более сложные задачи.
В данной статье мы представляем LLaVA-phi (LLaVA-Phi), эффективного мультимодального помощника, который использует возможности недавно разработанной компактной языковой модели Phi-2 для обеспечения мультимодальных диалогов. LLaVA-Phi представляет собой значительный прогресс в области компактных мультимодальных моделей. Она демонстрирует, что даже небольшие языковые модели, содержащие всего 2,7 миллиарда параметров, могут эффективно участвовать в сложных диалогах, интегрирующих как текстовые, так и визуальные элементы, при условии их обучения на высококачественных корпусах. Наша модель демонстрирует впечатляющие результаты на общедоступных бенчмарках, охватывающих визуальное понимание, логическое мышление и восприятие на основе знаний. Помимо выдающейся производительности в задачах мультимодальных диалогов, наша модель открывает новые возможности для применения в средах с ограниченным временем и системах, требующих взаимодействия в реальном времени, таких как воплощенные агенты. Она подчеркивает потенциал небольших языковых моделей для достижения высокого уровня понимания и взаимодействия при сохранении высокой ресурсной эффективности. Проект доступен по адресу {https://github.com/zhuyiche/llava-phi}.
3D-осознанные генеративно-состязательные сети (GAN) продемонстрировали значительный прогресс в обучении генерации многовидово-согласованных изображений и 3D-геометрий сцен на основе коллекций 2D-изображений с использованием нейронного объемного рендеринга. Однако значительные затраты памяти и вычислительных ресурсов, связанные с плотным сэмплированием в объемном рендеринге, вынудили 3D GAN использовать обучение на основе патчей или применять рендеринг с низким разрешением с последующей 2D-суперразрешающей постобработкой, что приводит к потере многовидовой согласованности и качества восстановленной геометрии. В результате 3D GAN до сих пор не смогли полностью восстановить богатую 3D-геометрию, присутствующую в 2D-изображениях. В данной работе мы предлагаем методы масштабирования нейронного объемного рендеринга до значительно более высокого разрешения исходных 2D-изображений, что позволяет восстанавливать детализированную 3D-геометрию с беспрецедентной точностью. Наш подход использует обучаемые сэмплеры для ускорения нейронного рендеринга при обучении 3D GAN, сокращая количество сэмплов глубины до 5 раз. Это позволяет нам явно "рендерить каждый пиксель" изображения с полным разрешением как во время обучения, так и на этапе вывода, без необходимости постобработки суперразрешения в 2D. В сочетании с нашей стратегией обучения высококачественной поверхностной геометрии наш метод синтезирует 3D-геометрию с высоким разрешением и строго согласованные по виду изображения, сохраняя качество изображения на уровне базовых методов, использующих постобработку суперразрешения. Мы демонстрируем передовое качество 3D-геометрии на наборах данных FFHQ и AFHQ, устанавливая новый стандарт для неконтролируемого обучения 3D-форм в 3D GAN.
Современные модели на актуальных бенчмарках 3D-восприятия, таких как ScanNet, обрабатывают и маркируют предоставленные наборы данных 3D-точечных облаков, полученные в результате постобработки многовидовых RGB-D изображений. Обычно они обучаются в рамках домена, отказываются от крупномасштабной 2D-предварительной подготовки и превосходят альтернативы, которые используют размещенные многовидовые RGB-D изображения. Разрыв в производительности между методами, работающими с размещенными изображениями и постобработанными 3D-точечными облаками, укрепил мнение, что 2D и 3D восприятие требуют различных архитектур моделей. В этой статье мы оспариваем эту точку зрения и предлагаем ODIN (Omni-Dimensional INstance segmentation) — модель, которая может сегментировать и маркировать как 2D RGB изображения, так и 3D-точечные облака, используя архитектуру трансформера, которая чередует 2D-внутривидовое и 3D-межвидовое объединение информации. Наша модель различает 2D и 3D операции с признаками через позиционные кодировки задействованных токенов, которые захватывают координаты пикселей для 2D-патч токенов и 3D-координаты для 3D-признаковых токенов. ODIN достигает наилучших результатов на бенчмарках 3D-сегментации ScanNet200, Matterport3D и AI2THOR, а также демонстрирует конкурентоспособные результаты на ScanNet, S3DIS и COCO. Она значительно превосходит все предыдущие работы, когда используется сенсорное 3D-точечное облако вместо облака, сэмплированного из 3D-сетки. При использовании в качестве движка 3D-восприятия в архитектуре управляемого агента, она устанавливает новый рекорд на бенчмарке TEACh для выполнения действий на основе диалога. Наш код и контрольные точки доступны на сайте проекта: https://odin-seg.github.io.
Обучение 3D-моделей всех животных на Земле требует значительного масштабирования существующих решений. С этой конечной целью мы разработали 3D-Fauna — подход, который обучает универсальную деформируемую 3D-модель животных для более чем 100 видов одновременно. Одним из ключевых ограничений при моделировании животных является ограниченная доступность обучающих данных, которую мы преодолеваем, обучаясь на 2D-изображениях из интернета. Мы показываем, что предыдущие попытки, ориентированные на конкретные категории, не способны обобщать данные для редких видов с ограниченным количеством обучающих изображений. Мы решаем эту проблему, вводя Семантический Банк Скиннированных Моделей (SBSM), который автоматически обнаруживает небольшой набор базовых форм животных, комбинируя геометрические индуктивные априорные знания с семантической информацией, неявно извлеченной с помощью готового самообучаемого экстрактора признаков. Для обучения такой модели мы также представляем новый крупномасштабный набор данных, включающий разнообразные виды животных. На этапе вывода, получив одно изображение любого четвероногого животного, наша модель реконструирует артикулированную 3D-сетку в режиме прямого прохода за считанные секунды.
Появление крупных языковых моделей (LLM), таких как ChatGPT и LLaMA, сталкивается с ограничениями в задачах, специфичных для определённых областей, поскольку эти модели часто недостаточно глубоки и точны в специализированных сферах, а также демонстрируют снижение общих способностей при тонкой настройке, особенно аналитических возможностей в моделях небольшого размера. Для устранения этих пробелов мы представляем ICE-GRT, использующий обучение с подкреплением на основе обратной связи от человека (RLHF), основанное на оптимизации проксимальной политики (PPO), что демонстрирует выдающиеся способности в сценариях, специфичных для определённых областей, без ущерба для выполнения общих задач. Наше исследование ICE-GRT подчеркивает его способность к пониманию и рассуждению, позволяющую не только генерировать устойчивые ответы, но и предоставлять подробный анализ причин, лежащих в основе этих ответов. Эта способность знаменует значительный прогресс за рамками моделей с контролируемой тонкой настройкой. Успех ICE-GRT зависит от нескольких ключевых факторов, включая подходящие данные, масштабирование размера вознаграждения, KL-контроль, нормализацию преимуществ и т.д. Модель ICE-GRT демонстрирует передовые результаты в задачах, специфичных для определённых областей, и в 12 общих языковых задачах по сравнению с LLM эквивалентного и даже большего размера, что подчеркивает эффективность нашего подхода. Мы предоставляем всесторонний анализ ICE-GRT, подчеркивая значительные достижения, которые он привносит в область LLM.
Диффузионные модели представляют собой новый класс генеративных моделей, которые значительно улучшили генерацию изображений, обеспечивая беспрецедентное качество и разнообразие. Существующие диффузионные модели в основном пытаются восстановить входное изображение из искаженного с использованием поточечных или признаковых ограничений вдоль пространственных осей. Однако такая поточечная реконструкция может не обеспечить полного сохранения контекста соседних областей для каждого предсказанного пикселя/признака, что ухудшает синтез изображений на основе диффузии. Контекст, как мощный источник автоматического сигнала обучения, хорошо изучен для задач представления данных. Вдохновленные этим, мы впервые предлагаем ConPreDiff для улучшения синтеза изображений на основе диффузии с использованием предсказания контекста. Мы явно усиливаем каждую точку для предсказания контекста её соседних областей (т.е. признаков/токенов/пикселей с различными шагами) с помощью декодера контекста на этапе обучения в конце блоков удаления шума диффузии, а затем удаляем декодер на этапе вывода. Таким образом, каждая точка может лучше восстанавливать себя, сохраняя семантические связи с контекстом соседних областей. Этот новый подход ConPreDiff может быть обобщен на произвольные дискретные и непрерывные архитектуры диффузионных моделей без введения дополнительных параметров в процессе выборки. Проведены обширные эксперименты на задачах безусловной генерации изображений, генерации изображений по тексту и восстановления изображений. Наш ConPreDiff стабильно превосходит предыдущие методы и устанавливает новый рекорд в генерации изображений по тексту на наборе данных MS-COCO, достигая нулевого показателя FID, равного 6.21.
Точное восприятие геометрических и семантических свойств реальных трехмерных объектов имеет решающее значение для дальнейшего развития приложений дополненной реальности и робототехники. В этой связи мы представляем (), который интегрирует визуально-языковые эмбеддинги базовых моделей в метод 3D Gaussian Splatting (GS). Ключевым вкладом данной работы является эффективный метод реконструкции и представления трехмерных визуально-языковых моделей. Это достигается путем дистилляции карт признаков, сгенерированных из изображений базовых моделей, в те, которые визуализируются нашей 3D-моделью. Для обеспечения высококачественной визуализации и быстрого обучения мы вводим новое представление сцены, объединяя преимущества GS и многомасштабных хэш-кодирований (MHE). Наш эффективный процесс обучения также включает функцию потерь на основе выравнивания пикселей, которая минимизирует расстояние визуализированных признаков для семантически одинаковых объектов, следуя границам семантики на уровне пикселей. Наши результаты демонстрируют выдающуюся согласованность семантики между различными ракурсами, что способствует решению разнообразных задач, превосходя современные методы на 10,2% в задаче обнаружения объектов на основе открытого словаря, несмотря на то, что наш метод работает в 851 раз быстрее при выводе. Это исследование исследует пересечение зрения, языка и представления трехмерных сцен, прокладывая путь к улучшенному пониманию сцен в неконтролируемых реальных условиях. Мы планируем опубликовать код после принятия статьи.
Визуальное рассуждение в основном осуществляется с помощью сквозных нейронных сетей, масштабируемых до миллиардов параметров модели и обучающих примеров. Однако даже самые крупные модели испытывают трудности с композиционным рассуждением, обобщением, детальным пространственным и временным анализом, а также подсчетом. Визуальное рассуждение с использованием крупных языковых моделей (LLM) в качестве контроллеров, в принципе, может устранить эти ограничения путем декомпозиции задачи и решения подзадач с помощью оркестрации набора (визуальных) инструментов. Недавно эти модели достигли высоких результатов в таких задачах, как композиционное визуальное ответы на вопросы, визуальное закрепление и временной анализ видео. Тем не менее, в их текущей форме эти модели сильно зависят от ручного создания примеров в контексте (in-context examples) в запросе, которые часто специфичны для набора данных и задачи и требуют значительных усилий со стороны высококвалифицированных программистов. В данной работе мы представляем фреймворк, который смягчает эти проблемы, вводя пространственно и временно абстрактные процедуры и используя небольшое количество размеченных примеров для автоматической генерации in-context examples, тем самым устраняя необходимость в ручном создании таких примеров. На ряде задач визуального рассуждения мы показываем, что наш фреймворк приводит к устойчивому улучшению производительности, делает настройку LLM в качестве контроллеров более надежной и устраняет необходимость в ручном создании in-context examples.