Artigos de pesquisa em IA selecionados diariamente com traduções
O software é uma das ferramentas mais poderosas que nós, humanos, temos à nossa disposição; permite a um programador habilidoso interagir com o mundo de maneiras complexas e profundas. Ao mesmo tempo, graças às melhorias em modelos de linguagem grandes (LLMs), também houve um rápido desenvolvimento em agentes de IA que interagem e afetam mudanças em seus ambientes circundantes. Neste artigo, apresentamos o OpenDevin, uma plataforma para o desenvolvimento de agentes de IA poderosos e flexíveis que interagem com o mundo de maneiras semelhantes às de um desenvolvedor humano: escrevendo código, interagindo com uma linha de comando e navegando na web. Descrevemos como a plataforma permite a implementação de novos agentes, interação segura com ambientes isolados para execução de código, coordenação entre múltiplos agentes e incorporação de benchmarks de avaliação. Com base nos benchmarks atualmente incorporados, realizamos uma avaliação de agentes em 15 tarefas desafiadoras, incluindo engenharia de software (por exemplo, SWE-Bench) e navegação na web (por exemplo, WebArena), entre outros. Lançado sob a licença MIT permissiva, o OpenDevin é um projeto comunitário que abrange academia e indústria, com mais de 1,3 mil contribuições de mais de 160 colaboradores e continuará a melhorar no futuro.
Os modelos de linguagem visual (VLMs) progrediram rapidamente, impulsionados pelo sucesso dos grandes modelos de linguagem (LLMs). Enquanto as arquiteturas de modelos e infraestruturas de treinamento avançam rapidamente, a curadoria de dados permanece pouco explorada. Quando a quantidade e a qualidade dos dados se tornam um gargalo, trabalhos existentes ou extraem diretamente mais dados brutos da Internet, que não possuem garantia de qualidade de dados, ou destilam de modelos comerciais caixa-preta (por exemplo, GPT-4V / Gemini), limitando o desempenho ao máximo desse modelo. Neste trabalho, introduzimos uma abordagem inovadora que inclui uma etapa de autoaumento e uma etapa de aumento especializado para melhorar iterativamente a qualidade dos dados e o desempenho do modelo. Na etapa de autoaumento, um VLM recapitula seus próprios dados de pré-treinamento para aprimorar a qualidade dos dados e, em seguida, é retreinado do zero usando esse conjunto de dados refinado para melhorar o desempenho do modelo. Esse processo pode ser iterado por várias rodadas. Uma vez que a autoaumentação satura, empregamos vários VLMs especializados ajustados a partir do VLM autoaumentado com experiência específica de domínio, para infundir ainda mais conhecimento especializado no VLM generalista por meio de recapitulação e retrabalho orientados para tarefas. Com o treinamento combinado de autoaumento e aumento especializado, introduzimos o VILA^2 (VILA-augmented-VILA), uma família de VLMs que melhora consistentemente a precisão em uma ampla gama de tarefas em relação ao estado da arte anterior, e alcança novos resultados de ponta no quadro de líderes MMMU entre os modelos de código aberto.
A animação de imagem humana envolve a geração de vídeos a partir de uma foto de personagem, permitindo o controle do usuário e desbloqueando o potencial para produção de vídeos e filmes. Embora abordagens recentes forneçam resultados impressionantes usando dados de treinamento de alta qualidade, a inacessibilidade desses conjuntos de dados dificulta a avaliação justa e transparente. Além disso, essas abordagens priorizam o movimento humano 2D e negligenciam a importância dos movimentos da câmera nos vídeos, resultando em controle limitado e geração instável de vídeos. Para desmistificar os dados de treinamento, apresentamos o HumanVid, o primeiro conjunto de dados de alta qualidade em grande escala projetado para animação de imagem humana, que combina dados do mundo real elaborados e dados sintéticos. Para os dados do mundo real, compilamos uma vasta coleção de vídeos do mundo real isentos de direitos autorais da internet. Através de uma estratégia de filtragem baseada em regras cuidadosamente projetada, garantimos a inclusão de vídeos de alta qualidade, resultando em uma coleção de 20 mil vídeos centrados em humanos com resolução de 1080P. A anotação de movimento humano e de câmera é realizada usando um estimador de pose 2D e um método baseado em SLAM. Para os dados sintéticos, reunimos 2.300 ativos de avatar 3D isentos de direitos autorais para complementar os ativos 3D disponíveis. Notavelmente, introduzimos um método de geração de trajetória de câmera baseado em regras, permitindo que o pipeline sintético incorpore anotações de movimento de câmera diversas e precisas, o que raramente é encontrado em dados do mundo real. Para verificar a eficácia do HumanVid, estabelecemos um modelo de referência chamado CamAnimate, abreviação de Animação Humana Controlável por Câmera, que considera tanto os movimentos humanos quanto os da câmera como condições. Através de experimentação extensiva, demonstramos que um treinamento de linha de base tão simples em nosso HumanVid alcança desempenho de ponta no controle tanto da pose humana quanto dos movimentos da câmera, estabelecendo um novo padrão. O código e os dados estarão disponíveis publicamente em https://github.com/zhenzhiwang/HumanVid/.
Apesar das avançadas habilidades de inteligência dos grandes modelos de linguagem (LLMs) em várias aplicações, eles ainda enfrentam demandas significativas de computação e armazenamento. A Destilação de Conhecimento (KD) surgiu como uma estratégia eficaz para melhorar o desempenho de um LLM menor (ou seja, o modelo aluno) transferindo conhecimento de um LLM de alto desempenho (ou seja, o modelo professor). As técnicas predominantes na destilação de LLM geralmente utilizam uma API de modelo de caixa-preta para gerar conjuntos de dados pré-treinados e alinhados de alta qualidade, ou utilizam a destilação de caixa-branca alterando a função de perda para transferir melhor o conhecimento do LLM professor. No entanto, esses métodos ignoram as diferenças de conhecimento entre os LLMs aluno e professor em diferentes domínios. Isso resulta em um foco excessivo em domínios com lacunas de desempenho mínimas e atenção insuficiente a domínios com grandes lacunas, reduzindo o desempenho geral. Neste artigo, apresentamos um novo framework de destilação de LLM chamado DDK, que ajusta dinamicamente a composição do conjunto de dados de destilação de maneira suave de acordo com as diferenças de desempenho de domínio entre os modelos professor e aluno, tornando o processo de destilação mais estável e eficaz. Avaliações extensivas mostram que o DDK melhora significativamente o desempenho dos modelos alunos, superando tanto as linhas de base continuamente pré-treinadas quanto os métodos de destilação de conhecimento existentes por uma margem significativa.
O rápido avanço dos modelos de linguagem (LMs) torna necessária uma alinhamento robusto com diversos valores do usuário. No entanto, abordagens atuais de otimização de preferências frequentemente falham em capturar a pluralidade de opiniões dos usuários, em vez disso, reforçando pontos de vista majoritários e marginalizando perspectivas minoritárias. Apresentamos PERSONA, um ambiente de teste reprodutível projetado para avaliar e melhorar o alinhamento pluralístico de LMs. Geramos proceduralmente diversos perfis de usuários a partir de dados do censo dos EUA, resultando em 1.586 personas sintéticas com atributos demográficos e idiossincráticos variados. Em seguida, geramos um conjunto de dados de avaliação em larga escala contendo 3.868 prompts e 317.200 pares de feedback obtidos de nossas personas sintéticas. Aproveitando este conjunto de dados, avaliamos sistematicamente as capacidades dos LMs em interpretar papéis de usuários diversos, verificados por juízes humanos, e estabelecemos tanto um referencial, PERSONA Bench, para abordagens de alinhamento pluralístico, quanto um extenso conjunto de dados para criar novos e futuros referencias. O conjunto de dados completo e os referencias estão disponíveis em: https://www.synthlabs.ai/research/persona.
A capacidade mais fundamental dos métodos de IA modernos, como os Modelos de Linguagem Grandes (LLMs), é a capacidade de prever o próximo token em uma longa sequência de tokens, conhecida como "modelagem de sequência". Embora o modelo Transformers seja a abordagem dominante atual para modelagem de sequência, seu custo computacional quadrático em relação ao comprimento da sequência é uma desvantagem significativa. Modelos de espaço de estados (SSMs) oferecem uma alternativa promissora devido à sua eficiência de decodificação linear e alta capacidade de paralelização durante o treinamento. No entanto, os SSMs existentes frequentemente dependem de designs de recorrência linear aparentemente ad hoc. Neste trabalho, exploramos o design de SSMs através da ótica da aprendizagem online, conceitualizando SSMs como meta-módulos para problemas específicos de aprendizagem online. Esta abordagem vincula o design de SSM à formulação de objetivos precisos de aprendizagem online, com regras de transição de estado derivadas da otimização desses objetivos. Com base nessa percepção, introduzimos uma nova arquitetura profunda de SSM baseada na atualização implícita para otimizar um objetivo de regressão online. Nossos resultados experimentais mostram que nossos modelos superam os SSMs de ponta, incluindo o modelo Mamba, em benchmarks padrão de modelagem de sequência e tarefas de modelagem de linguagem.
Apresentamos o Stable Video 4D (SV4D), um modelo de difusão de vídeo latente para geração consistente de conteúdo 3D dinâmico em vídeo com múltiplos quadros e múltiplas visualizações. Ao contrário de métodos anteriores que dependem de modelos generativos treinados separadamente para geração de vídeo e síntese de novas visualizações, projetamos um modelo de difusão unificado para gerar vídeos de novas visualizações de objetos 3D dinâmicos. Especificamente, dado um vídeo de referência monocular, o SV4D gera novas visualizações para cada quadro de vídeo que são temporalmente consistentes. Em seguida, usamos os vídeos de novas visualizações gerados para otimizar uma representação implícita 4D (NeRF dinâmico) de forma eficiente, sem a necessidade da otimização baseada em SDS usada na maioria dos trabalhos anteriores. Para treinar nosso modelo unificado de geração de vídeos de novas visualizações, curamos um conjunto de dados de objetos 3D dinâmicos do conjunto de dados Objaverse existente. Resultados experimentais extensivos em vários conjuntos de dados e estudos de usuários demonstram o desempenho de ponta do SV4D na síntese de vídeos de novas visualizações, bem como na geração 4D em comparação com trabalhos anteriores.
Podemos dotar os robôs visuomotores com capacidades de generalização para operar em diversos cenários de mundo aberto? Neste artigo, propomos o Maniwhere, um framework generalizável adaptado para aprendizado por reforço visual, permitindo que as políticas de robô treinadas generalizem através de uma combinação de múltiplos tipos de distúrbios visuais. Especificamente, introduzimos uma abordagem de aprendizado de representação multi-visão fundida com o módulo Rede Transformadora Espacial (STN) para capturar informações semânticas compartilhadas e correspondências entre diferentes pontos de vista. Além disso, empregamos uma abordagem de randomização e aumento baseada em currículo para estabilizar o processo de treinamento de RL e fortalecer a capacidade de generalização visual. Para demonstrar a eficácia do Maniwhere, projetamos meticulosamente 8 tarefas abrangendo objetos articulados, tarefas bimanuais e de manipulação manual habilidosa, demonstrando as fortes capacidades de generalização visual e transferência sim2real do Maniwhere em 3 plataformas de hardware. Nossos experimentos mostram que o Maniwhere supera significativamente os métodos de ponta existentes. Vídeos estão disponíveis em https://gemcollector.github.io/maniwhere/.
Diferentes usuários consideram desejáveis imagens diferentes geradas a partir do mesmo estímulo. Isso dá origem à geração de imagens personalizadas, que envolve a criação de imagens alinhadas com a preferência visual de um indivíduo. Os modelos generativos atuais, no entanto, são impessoais, pois são ajustados para produzir saídas que agradam a um público amplo. Utilizá-los para gerar imagens alinhadas com usuários individuais depende de um processo iterativo de engenharia de estímulos manuais pelo usuário, o que é ineficiente e indesejável. Propomos personalizar o processo de geração de imagens capturando primeiro as preferências genéricas do usuário em um processo único, convidando-os a comentar sobre uma pequena seleção de imagens, explicando por que gostam ou não de cada uma. Com base nesses comentários, inferimos os atributos visuais estruturados gostados e não gostados de um usuário, ou seja, suas preferências visuais, usando um grande modelo de linguagem. Esses atributos são usados para orientar um modelo de texto para imagem na produção de imagens ajustadas à preferência visual do usuário individual. Através de uma série de estudos de usuários e avaliações orientadas por um grande modelo de linguagem, demonstramos que o método proposto resulta em gerações bem alinhadas com as preferências visuais dos usuários individuais.
Formatos de baixa precisão, como float8, foram introduzidos em hardware acelerado de aprendizado de máquina para melhorar a eficiência computacional no treinamento e inferência de grandes modelos de linguagem. No entanto, a adoção pela comunidade de ML tem sido retardada pelas técnicas complexas e, por vezes, frágeis necessárias para equiparar a precisão de treinamento de alta precisão. Neste trabalho, apresentamos o Scalify, um paradigma de propagação de escala de ponta a ponta para grafos computacionais, generalizando e formalizando os métodos de escalonamento de tensores existentes. Os resultados dos experimentos mostram que o Scalify suporta multiplicação de matrizes float8 e representação de gradientes prontas para uso, bem como armazenamento de estado do otimizador float16. Nossa implementação do Scalify em JAX está disponível em código aberto em https://github.com/graphcore-research/jax-scalify
Muitas tarefas desafiadoras, como gerenciar sistemas de tráfego, redes elétricas ou cadeias de suprimentos, envolvem processos de tomada de decisão complexos que devem equilibrar múltiplos objetivos conflitantes e coordenar as ações de vários tomadores de decisão independentes (DMs). Uma perspectiva para formalizar e abordar tais tarefas é o aprendizado por reforço multiobjetivo multiagente (MOMARL). O MOMARL amplia o aprendizado por reforço (RL) para problemas com múltiplos agentes, cada um precisando considerar múltiplos objetivos em seu processo de aprendizado. Na pesquisa de aprendizado por reforço, os benchmarks são cruciais para facilitar o progresso, a avaliação e a reprodutibilidade. A importância dos benchmarks é destacada pela existência de inúmeros frameworks de benchmark desenvolvidos para vários paradigmas de RL, incluindo RL de agente único (por exemplo, Gymnasium), RL multiagente (por exemplo, PettingZoo) e RL de agente único multiobjetivo (por exemplo, MO-Gymnasium). Para apoiar o avanço do campo MOMARL, apresentamos o MOMAland, a primeira coleção de ambientes padronizados para aprendizado por reforço multiobjetivo multiagente. O MOMAland aborda a necessidade de benchmarking abrangente neste campo emergente, oferecendo mais de 10 ambientes diversos que variam no número de agentes, representações de estado, estruturas de recompensa e considerações de utilidade. Para fornecer bases sólidas para pesquisas futuras, o MOMAland também inclui algoritmos capazes de aprender políticas nesses cenários.
Um influxo dramático de imagens geradas por difusão marcou os últimos anos, apresentando desafios únicos para as tecnologias de detecção atuais. Embora a tarefa de identificar essas imagens se enquadre na classificação binária, uma categoria aparentemente simples, a carga computacional é significativa ao empregar a técnica "reconstruir e comparar". Esta abordagem, conhecida como DIRE (Erro de Reconstrução de Difusão), não apenas identifica imagens geradas por difusão, mas também detecta aquelas produzidas por GANs, destacando a ampla aplicabilidade da técnica. Para lidar com os desafios computacionais e melhorar a eficiência, propomos destilar o conhecimento incorporado em modelos de difusão para desenvolver modelos rápidos de detecção de deepfakes. Nossa abordagem, voltada para a criação de um detector de deepfakes sintetizado por difusão pequeno, rápido, barato e leve, mantém um desempenho robusto enquanto reduz significativamente as demandas operacionais. Mantendo o desempenho, nossos resultados experimentais indicam uma velocidade de inferência 3,2 vezes mais rápida do que o framework DIRE existente. Este avanço não apenas aprimora a praticidade de implantar esses sistemas em ambientes do mundo real, mas também abre caminho para empreendimentos futuros de pesquisa que buscam aproveitar o conhecimento do modelo de difusão.
As indústrias de veículos autônomos geralmente contratam artistas profissionais para construir carros 3D requintados. No entanto, é caro criar ativos digitais em grande escala. Uma vez que já existem inúmeros conjuntos de dados disponíveis contendo uma vasta quantidade de imagens de carros, concentramo-nos na reconstrução de modelos de carros 3D de alta qualidade a partir desses conjuntos de dados. No entanto, esses conjuntos de dados contêm apenas um lado dos carros na cena em movimento para frente. Tentamos utilizar os modelos generativos existentes para fornecer mais informações de supervisão, mas eles têm dificuldade em generalizar bem em carros, uma vez que são treinados em conjuntos de dados sintéticos e não específicos de carros. Além disso, a textura reconstruída dos carros 3D está desalinhada devido a um grande erro na estimativa da pose da câmera ao lidar com imagens em ambientes naturais. Essas restrições tornam desafiador para os métodos anteriores reconstruir carros 3D completos. Para lidar com esses problemas, propomos um método inovador, chamado DreamCar, que pode reconstruir carros 3D de alta qualidade a partir de poucas imagens, mesmo uma única imagem. Para generalizar o modelo generativo, coletamos um conjunto de dados de carros, chamado Car360, com mais de 5.600 veículos. Com este conjunto de dados, tornamos o modelo generativo mais robusto em relação a carros. Utilizamos esse conhecimento prévio generativo específico para o carro para orientar sua reconstrução por meio de Amostragem de Destilação de Pontuação. Para complementar ainda mais as informações de supervisão, utilizamos a simetria geométrica e de aparência dos carros. Por fim, propomos um método de otimização de pose que corrige poses para lidar com o desalinhamento de textura. Experimentos extensos demonstram que nosso método supera significativamente os métodos existentes na reconstrução de carros 3D de alta qualidade. [Nosso código está disponível em: https://xiaobiaodu.github.io/dreamcar-project/]