Artigos de pesquisa em IA selecionados diariamente com traduções
A introdução de grandes modelos de linguagem avançou significativamente a geração de código. No entanto, modelos de código aberto frequentemente carecem das capacidades de execução e refinamento iterativo de sistemas avançados como o GPT-4 Code Interpreter. Para abordar essa lacuna, apresentamos o OpenCodeInterpreter, uma família de sistemas de código aberto projetados para gerar, executar e refinar código iterativamente. Suportado pelo Code-Feedback, um conjunto de dados com 68 mil interações multi-turn, o OpenCodeInterpreter integra execução e feedback humano para refinamento dinâmico de código. Nossa avaliação abrangente do OpenCodeInterpreter em benchmarks-chave como HumanEval, MBPP e suas versões aprimoradas do EvalPlus revela um desempenho excepcional. Notavelmente, o OpenCodeInterpreter-33B alcança uma precisão de 83,2 (76,4) nas médias (e versões plus) do HumanEval e MBPP, rivalizando de perto com o GPT-4, que alcança 84,2 (76,2), e eleva-se ainda mais para 91,6 (84,6) com feedback humano sintetizado do GPT-4. O OpenCodeInterpreter reduz a lacuna entre modelos de geração de código de código aberto e sistemas proprietários como o GPT-4 Code Interpreter.
Embora os Transformers tenham possibilitado avanços significativos em diversos cenários de aplicação, essas arquiteturas ainda ficam atrás dos planejadores simbólicos tradicionais na resolução de tarefas complexas de tomada de decisão. Neste trabalho, demonstramos como treinar Transformers para resolver tarefas complexas de planejamento e apresentamos o Searchformer, um modelo Transformer que resolve de forma ótima quebra-cabeças de Sokoban nunca vistos anteriormente em 93,7% dos casos, utilizando até 26,8% menos etapas de busca do que o algoritmo A^* padrão. O Searchformer é um modelo Transformer de codificador-decodificador treinado para prever a dinâmica de busca do A^*. Esse modelo é então ajustado por meio de iterações especializadas para realizar menos etapas de busca do que o A^*, ainda assim gerando um plano ótimo. Em nosso método de treinamento, a dinâmica de busca do A^* é expressa como uma sequência de tokens que descreve quando os estados da tarefa são adicionados e removidos da árvore de busca durante o planejamento simbólico. Em nossos estudos de ablação sobre navegação em labirintos, descobrimos que o Searchformer supera significativamente as baselines que preveem o plano ótimo diretamente, com um tamanho de modelo 5 a 10 vezes menor e um conjunto de treinamento 10 vezes menor. Também demonstramos como o Searchformer escala para tarefas de tomada de decisão maiores e mais complexas, como o Sokoban, com uma porcentagem melhor de tarefas resolvidas e dinâmicas de busca reduzidas.
Em busca de Modelos Visão-Linguagem (VLMs) mais inclusivos, este estudo introduz um Grande Modelo Multimodal Multilíngue chamado Palo. O Palo oferece capacidades de raciocínio visual em 10 idiomas principais, incluindo inglês, chinês, hindi, espanhol, francês, árabe, bengali, russo, urdu e japonês, que abrangem um total de aproximadamente 5 bilhões de pessoas (65% da população mundial). Nossa abordagem envolve um método de tradução semiautomatizada para adaptar o conjunto de dados de instruções multimodais do inglês para os idiomas-alvo, utilizando um Modelo de Linguagem de Grande Escala ajustado, garantindo assim alta fidelidade linguística enquanto permite escalabilidade devido ao esforço manual mínimo. A incorporação de conjuntos de instruções diversos nos ajuda a impulsionar o desempenho geral em vários idiomas, especialmente aqueles sub-representados, como hindi, árabe, bengali e urdu. Os modelos resultantes são treinados em três escalas (1,7B, 7B e 13B parâmetros) para demonstrar generalização e escalabilidade, onde observamos melhorias substanciais em comparação com bases fortes. Também propomos o primeiro benchmark multimodal multilíngue para as abordagens futuras avaliarem suas capacidades de raciocínio visão-linguagem em diferentes idiomas. Código: https://github.com/mbzuai-oryx/PALO.
Apresentamos o framework TinyLLaVA, que oferece uma perspectiva unificada no projeto e análise de Modelos Multimodais de Grande Escala (LMMs) em pequena escala. Estudamos empiricamente os efeitos de diferentes codificadores visuais, módulos de conexão, modelos de linguagem, dados de treinamento e receitas de treinamento. Nossos extensos experimentos mostraram que, com dados de melhor qualidade combinados com receitas de treinamento aprimoradas, LMMs menores podem consistentemente alcançar desempenhos equivalentes em comparação com LMMs maiores. Sob nosso framework, treinamos uma família de LMMs em pequena escala. Nosso melhor modelo, o TinyLLaVA-3.1B, alcança um desempenho geral superior em comparação com modelos 7B existentes, como o LLaVA-1.5 e o Qwen-VL. Esperamos que nossas descobertas possam servir como referências para pesquisas futuras em termos de escalonamento de dados, configurações de treinamento e seleção de modelos. Os pesos e códigos de nosso modelo serão disponibilizados publicamente.
Modelos de visão baseados em Transformers normalmente tokenizam imagens em patches quadrados de tamanho fixo como unidades de entrada, o que carece de adaptabilidade ao conteúdo da imagem e ignora a estrutura inerente de agrupamento de pixels. Inspirados pela tokenização de subpalavras amplamente adotada em modelos de linguagem, propomos um tokenizador de imagens em nível de subobjetos, onde os subobjetos são representados por segmentos de imagem semanticamente significativos obtidos por modelos de segmentação (por exemplo, modelos "segment anything"). Para implementar um sistema de aprendizado baseado em tokenização de subobjetos, primeiro introduzimos um AutoEncoder de Sequência para Sequência (SeqAE) para comprimir segmentos de subobjetos de tamanhos e formas variados em vetores de embedding compactos, e então alimentamos os embeddings de subobjetos em um grande modelo de linguagem para aprendizado de visão e linguagem. Resultados empíricos demonstraram que nossa tokenização em nível de subobjetos facilita significativamente o aprendizado eficiente da tradução de imagens em descrições de objetos e atributos em comparação com a tokenização tradicional em nível de patch. Códigos e modelos serão disponibilizados em https://github.com/ChenDelong1999/subobjects.
Com o rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs), progressos significativos foram alcançados em aplicações multiagentes. No entanto, as complexidades na coordenação da cooperação entre agentes e o desempenho errático dos LLMs apresentam desafios notáveis no desenvolvimento de aplicações multiagentes robustas e eficientes. Para enfrentar esses desafios, propomos o AgentScope, uma plataforma multiagente centrada no desenvolvedor, com a troca de mensagens como seu mecanismo central de comunicação. Juntamente com ferramentas sintáticas abundantes, recursos integrados e interações amigáveis ao usuário, nosso mecanismo de comunicação reduz significativamente as barreiras tanto para o desenvolvimento quanto para o entendimento. Visando aplicações multiagentes robustas e flexíveis, o AgentScope oferece mecanismos de tolerância a falhas tanto integrados quanto personalizáveis, além de suportes em nível de sistema para geração, armazenamento e transmissão de dados multimodais. Adicionalmente, projetamos uma estrutura de distribuição baseada em atores, permitindo uma conversão fácil entre implantações locais e distribuídas e otimização paralela automática sem esforço adicional. Com esses recursos, o AgentScope capacita os desenvolvedores a construir aplicações que realizam plenamente o potencial dos agentes inteligentes. Lançamos o AgentScope em https://github.com/modelscope/agentscope e esperamos que ele incentive uma participação e inovação mais amplas neste campo em rápida evolução.
Ao longo do amplo cenário do design experimental, a regressão tem sido uma ferramenta poderosa para prever com precisão as métricas de resultado de um sistema ou modelo, dado um conjunto de parâmetros, mas tradicionalmente foi restrita a métodos aplicáveis apenas a tarefas específicas. Neste artigo, propomos o OmniPred, uma estrutura para treinar modelos de linguagem como regressores universais de ponta a ponta sobre dados de avaliação (x, y) provenientes de diversos experimentos do mundo real. Utilizando dados obtidos do Google Vizier, um dos maiores bancos de dados de otimização de caixa preta do mundo, nossos extensos experimentos demonstram que, por meio apenas de representações textuais de parâmetros e valores matemáticos, os modelos de linguagem são capazes de realizar regressões numéricas muito precisas e, se tiverem a oportunidade de treinar em múltiplas tarefas, podem superar significativamente os modelos de regressão tradicionais.
A amostragem de modelos probabilísticos de difusão (DPMs) é frequentemente custosa para a geração de imagens de alta qualidade e geralmente requer muitas etapas com um modelo grande. Neste artigo, introduzimos o T-Stitch, uma técnica simples, porém eficiente, para melhorar a eficiência da amostragem com pouca ou nenhuma degradação na geração. Em vez de usar apenas um DPM grande para toda a trajetória de amostragem, o T-Stitch primeiro aproveita um DPM menor nas etapas iniciais como uma substituição barata do DPM maior e alterna para o DPM maior em uma etapa posterior. Nossa principal percepção é que diferentes modelos de difusão aprendem codificações semelhantes sob a mesma distribuição de dados de treinamento e que modelos menores são capazes de gerar boas estruturas globais nas etapas iniciais. Experimentos extensivos demonstram que o T-Stitch não requer treinamento, é geralmente aplicável a diferentes arquiteturas e complementa a maioria das técnicas de amostragem rápida existentes com trade-offs flexíveis entre velocidade e qualidade. No DiT-XL, por exemplo, 40% das etapas iniciais podem ser seguramente substituídas por um DiT-S 10x mais rápido sem queda de desempenho na geração condicional por classe do ImageNet. Mostramos ainda que nosso método também pode ser usado como uma técnica de substituição para não apenas acelerar os populares modelos pré-treinados de difusão estável (SD), mas também melhorar o alinhamento de prompts de modelos SD estilizados do repositório público de modelos. O código está disponível em https://github.com/NVlabs/T-Stitch.
A escassez de dados em idiomas de baixos recursos pode ser mitigada com traduções palavra por palavra de dados rotulados de tarefas em idiomas de altos recursos, utilizando léxicos bilíngues. No entanto, os léxicos bilíngues frequentemente possuem sobreposição lexical limitada com os dados da tarefa, o que resulta em cobertura de tradução e utilização do léxico insatisfatórias. Propomos a geração de dados condicionada por léxico (LexC-Gen), um método que gera dados de tarefas de classificação em idiomas de baixos recursos em escala. Especificamente, o LexC-Gen primeiro utiliza palavras de idiomas de altos recursos a partir de léxicos bilíngues para gerar dados de tarefas compatíveis com o léxico e, em seguida, os traduz para idiomas de baixos recursos com léxicos bilíngues por meio de tradução palavra por palavra. Em 17 idiomas extremamente de baixos recursos, os dados gerados pelo LexC-Gen são competitivos com dados de referência traduzidos por especialistas e proporcionam, em média, melhorias de 5,6 e 8,9 pontos em relação aos métodos existentes de tradução palavra por palavra baseados em léxicos para tarefas de análise de sentimentos e classificação de tópicos, respectivamente. Mostramos que a condicionamento por léxicos bilíngues é o componente chave do LexC-Gen. O LexC-Gen também é prático — ele precisa apenas de uma única GPU para gerar dados em escala. Ele funciona bem com LLMs de acesso aberto, e seu custo é um quinto do custo da geração de dados multilíngues baseada no GPT-4.
A integração de Modelos de Linguagem de Grande Escala (LLMs) em Ambientes de Desenvolvimento Integrado (IDEs) tornou-se um ponto central no desenvolvimento de software moderno. LLMs como o OpenAI GPT-3.5/4 e o Code Llama oferecem o potencial de aumentar significativamente a produtividade dos desenvolvedores ao atuarem como assistentes de programação inteligentes e baseados em chat. No entanto, utilizar LLMs de forma direta provavelmente não será ideal para qualquer cenário específico. Em vez disso, cada sistema exige que o LLM seja ajustado ao seu conjunto de heurísticas para garantir o melhor desempenho. Neste artigo, apresentamos o harness de avaliação Copilot: um conjunto de dados e ferramentas para avaliar interações em IDEs guiadas por LLMs, abrangendo diversos cenários e linguagens de programação. Propomos nossas métricas como uma avaliação mais robusta e rica em informações do que os sistemas de avaliação state of the art anteriores. Projetamos e calculamos métricas de sucesso tanto estáticas quanto baseadas em execução para cenários que englobam uma ampla gama de tarefas de desenvolvedores, incluindo geração de código a partir de linguagem natural (generate), geração de documentação a partir de código (doc), geração de casos de teste (test), correção de bugs (fix) e compreensão e resolução de consultas no espaço de trabalho (workspace). Essas métricas de sucesso são projetadas para avaliar o desempenho de LLMs dentro de um determinado IDE e seu respectivo espaço de parâmetros. Nossos aprendizados ao avaliar três LLMs comuns usando essas métricas podem informar o desenvolvimento e validação de cenários futuros em IDEs guiados por LLMs.
Modelos de linguagem de grande escala (LLMs) são ferramentas poderosas para moderação de conteúdo, mas seus custos de inferência e latência os tornam proibitivos para uso casual em grandes conjuntos de dados, como o repositório do Google Ads. Este estudo propõe um método para escalar as revisões de LLMs para moderação de conteúdo no Google Ads. Primeiro, usamos heurísticas para selecionar candidatos por meio de filtragem e remoção de duplicatas, e criamos clusters de anúncios para os quais selecionamos um anúncio representativo por cluster. Em seguida, usamos LLMs para revisar apenas os anúncios representativos. Por fim, propagamos as decisões dos LLMs para os anúncios representativos de volta aos seus clusters. Esse método reduz o número de revisões em mais de 3 ordens de magnitude, enquanto alcança um recall 2x maior em comparação com um modelo de linha de base que não utiliza LLMs. O sucesso dessa abordagem depende fortemente das representações usadas no agrupamento e na propagação de rótulos; descobrimos que representações de similaridade multimodal produzem resultados melhores do que representações unimodais.
Neste trabalho, abordamos o desafiador problema de remoção de ruído em interações mão-objeto (HOI). Dada uma sequência de interação errônea, o objetivo é refinar a trajetória incorreta da mão para remover artefatos de interação e obter uma sequência perceptualmente realista. Esse desafio envolve ruídos complexos de interação, incluindo poses não naturais da mão e relações incorretas entre mão e objeto, além da necessidade de uma generalização robusta para novas interações e diversos padrões de ruído. Enfrentamos esses desafios por meio de uma abordagem inovadora, o GeneOH Diffusion, que incorpora dois projetos-chave: uma representação centrada em contato chamada GeneOH e um novo esquema de remoção de ruído generalizável para diferentes domínios. A representação centrada em contato, GeneOH, parametriza de forma informativa o processo HOI, facilitando uma melhor generalização em diversos cenários de HOI. O novo esquema de remoção de ruído consiste em um modelo canônico de remoção de ruído treinado para projetar amostras de dados ruidosos de um espaço de ruído branqueado para uma variedade de dados limpos e uma estratégia de "remoção de ruído via difusão", que pode lidar com trajetórias de entrada com diversos padrões de ruído, primeiro difundindo-as para alinhá-las ao espaço de ruído branqueado e, em seguida, limpando-as por meio do removedor de ruído canônico. Experimentos extensivos em quatro benchmarks com variações significativas de domínio demonstram a eficácia superior do nosso método. O GeneOH Diffusion também mostra potencial para várias aplicações subsequentes. Site do projeto: https://meowuu7.github.io/GeneOH-Diffusion/.
Modelos de grande escala de texto para imagem permitem uma ampla gama de técnicas de edição de imagens, utilizando prompts de texto ou até mesmo controles espaciais. No entanto, aplicar esses métodos de edição a imagens multi-visão que retratam uma única cena resulta em inconsistências 3D. Neste trabalho, focamos em manipulações geométricas baseadas em controle espacial e introduzimos um método para consolidar o processo de edição em várias visões. Baseamo-nos em dois insights: (1) manter características consistentes ao longo do processo generativo ajuda a alcançar consistência na edição multi-visão, e (2) as consultas nas camadas de auto-atenção influenciam significativamente a estrutura da imagem. Portanto, propomos melhorar a consistência geométrica das imagens editadas ao reforçar a consistência das consultas. Para isso, introduzimos o QNeRF, um campo de radiação neural treinado nas características internas de consulta das imagens editadas. Uma vez treinado, o QNeRF pode renderizar consultas 3D consistentes, que são então suavemente injetadas de volta nas camadas de auto-atenção durante a geração, melhorando significativamente a consistência multi-visão. Refinamos o processo por meio de um método progressivo e iterativo que consolida melhor as consultas ao longo dos passos de difusão. Comparamos nosso método a uma variedade de técnicas existentes e demonstramos que ele pode alcançar melhor consistência multi-visão e maior fidelidade à cena de entrada. Essas vantagens nos permitem treinar NeRFs com menos artefatos visuais, que estão melhor alinhados com a geometria alvo.
O advento do 3D Gaussian Splatting (3DGS) trouxe recentemente uma revolução no campo da renderização neural, possibilitando renderizações de alta qualidade em tempo real. No entanto, o 3DGS depende fortemente da nuvem de pontos inicializada produzida por técnicas de Structure-from-Motion (SfM). Ao lidar com cenas em grande escala que inevitavelmente contêm superfícies sem textura, as técnicas de SfM frequentemente falham em produzir pontos suficientes nessas superfícies e não conseguem fornecer uma boa inicialização para o 3DGS. Como resultado, o 3DGS enfrenta dificuldades de otimização e renderizações de baixa qualidade. Neste artigo, inspirados pelas clássicas técnicas de multi-view stereo (MVS), propomos o GaussianPro, um método novo que aplica uma estratégia de propagação progressiva para guiar a densificação dos Gaussianos 3D. Em comparação com as simples estratégias de divisão e clonagem utilizadas no 3DGS, nosso método aproveita os priors das geometrias já reconstruídas da cena e técnicas de correspondência de patches para produzir novos Gaussianos com posições e orientações precisas. Experimentos em cenas de grande e pequena escala validam a eficácia do nosso método, onde ele supera significativamente o 3DGS no conjunto de dados Waymo, exibindo uma melhoria de 1,15 dB em termos de PSNR.
Como uma técnica promissora de geração 3D, a difusão multivista (MVD) tem recebido muita atenção devido às suas vantagens em termos de generalização, qualidade e eficiência. Ao ajustar modelos de difusão de imagem pré-treinados com dados 3D, os métodos MVD primeiro geram múltiplas visões de um objeto 3D com base em uma imagem ou prompt de texto e, em seguida, reconstroem formas 3D com reconstrução 3D multivista. No entanto, as visões esparsas e os detalhes inconsistentes nas imagens geradas tornam a reconstrução 3D desafiadora. Apresentamos o MVD^2, um método eficiente de reconstrução 3D para imagens de difusão multivista (MVD). O MVD^2 agrega características de imagem em um volume de características 3D por projeção e convolução e, em seguida, decodifica as características volumétricas em uma malha 3D. Treinamos o MVD^2 com coleções de formas 3D e imagens MVD geradas a partir de visões renderizadas de formas 3D. Para abordar a discrepância entre as imagens multivista geradas e as visões de referência das formas 3D, projetamos um esquema de treinamento dependente de visão simples, porém eficiente. O MVD^2 melhora a qualidade da geração 3D do MVD e é rápido e robusto para vários métodos MVD. Após o treinamento, ele pode decodificar eficientemente malhas 3D a partir de imagens multivista em menos de um segundo. Treinamos o MVD^2 com o Zero-123++ e o conjunto de dados 3D ObjectVerse-LVIS e demonstramos seu desempenho superior na geração de modelos 3D a partir de imagens multivista geradas por diferentes métodos MVD, utilizando tanto imagens sintéticas quanto reais como prompts.
Apresentamos o CyberDemo, uma abordagem inovadora para aprendizado por imitação em robótica que utiliza demonstrações humanas simuladas para tarefas do mundo real. Ao incorporar uma extensa ampliação de dados em um ambiente simulado, o CyberDemo supera as demonstrações tradicionais realizadas diretamente no mundo real quando transferido para o ambiente físico, lidando com diversas condições físicas e visuais. Apesar de sua acessibilidade e conveniência na coleta de dados, o CyberDemo supera métodos de referência em termos de taxas de sucesso em várias tarefas e demonstra generalização com objetos previamente não vistos. Por exemplo, ele consegue rotacionar válvulas tetra e penta novas, mesmo que as demonstrações humanas tenham envolvido apenas válvulas tri. Nossa pesquisa demonstra o potencial significativo das demonstrações humanas simuladas para tarefas de manipulação hábil no mundo real. Mais detalhes podem ser encontrados em https://cyber-demo.github.io.
Pesquisas recentes demonstraram que transformadores, particularmente modelos de atenção linear, executam implicitamente algoritmos semelhantes ao gradiente descendente nos dados fornecidos em contexto durante sua etapa de inferência direta. No entanto, sua capacidade de lidar com problemas mais complexos permanece inexplorada. Neste artigo, provamos que qualquer transformador linear mantém um modelo linear implícito e pode ser interpretado como realizando uma variante do gradiente descendente pré-condicionado. Também investigamos o uso de transformadores lineares em um cenário desafiador, onde os dados de treinamento são corrompidos com diferentes níveis de ruído. Notavelmente, demonstramos que, para esse problema, os transformadores lineares descobrem um algoritmo de otimização intricado e altamente eficaz, superando ou igualando em desempenho muitas linhas de base razoáveis. Nós engenhamos reversamente esse algoritmo e mostramos que ele é uma abordagem nova que incorpora momento e redimensionamento adaptativo com base nos níveis de ruído. Nossas descobertas mostram que até mesmo transformadores lineares possuem a surpreendente capacidade de descobrir estratégias de otimização sofisticadas.
O aprendizado por imitação aprende uma política a partir de demonstrações sem exigir funções de recompensa projetadas manualmente. Em muitas tarefas robóticas, como corridas autônomas, as políticas imitadas devem modelar dinâmicas complexas do ambiente e a tomada de decisão humana. A modelagem de sequências é altamente eficaz em capturar padrões intrincados de sequências de movimento, mas luta para se adaptar a novos ambientes ou mudanças de distribuição que são comuns em tarefas robóticas do mundo real. Em contraste, o Aprendizado por Imitação Adversarial (AIL) pode mitigar esse efeito, mas enfrenta desafios com ineficiência de amostras e a manipulação de padrões de movimento complexos. Assim, propomos o BeTAIL: Behavior Transformer Adversarial Imitation Learning, que combina uma política Behavior Transformer (BeT) a partir de demonstrações humanas com AIL online. O BeTAIL adiciona uma política residual de AIL à política BeT para modelar o processo sequencial de tomada de decisão de especialistas humanos e corrigir estados fora da distribuição ou mudanças nas dinâmicas do ambiente. Testamos o BeTAIL em três desafios com demonstrações de nível especialista de jogabilidade humana real no Gran Turismo Sport. Nossa proposta residual BeTAIL reduz as interações com o ambiente e melhora o desempenho e a estabilidade nas corridas, mesmo quando o BeT é pré-treinado em pistas diferentes daquelas usadas no aprendizado subsequente. Vídeos e código disponíveis em: https://sites.google.com/berkeley.edu/BeTAIL/home.