Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) passaram de inexistentes a onipresentes no discurso de aprendizado de máquina em poucos anos. Devido ao ritmo acelerado do campo, é difícil identificar os desafios remanescentes e as áreas de aplicação já bem-sucedidas. Neste artigo, buscamos estabelecer um conjunto sistemático de problemas em aberto e sucessos de aplicação para que pesquisadores de ML possam compreender o estado atual do campo mais rapidamente e se tornarem produtivos.
Desde o final de 2022, os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) ganharam grande destaque, com modelos como ChatGPT e Bard atraindo milhões de usuários. Centenas de novos LLMs são anunciados a cada semana, muitos dos quais são depositados no Hugging Face, um repositório de modelos de aprendizado de máquina e conjuntos de dados. Até o momento, quase 16.000 modelos de geração de texto foram carregados no site. Diante do grande influxo de LLMs, é interessante saber quais arquiteturas, configurações, métodos de treinamento e famílias de LLMs estão em alta ou são populares. No entanto, não há um índice abrangente de LLMs disponível. Aproveitamos a nomenclatura relativamente sistemática dos LLMs no Hugging Face para realizar agrupamento hierárquico e identificar comunidades entre os LLMs usando n-gramas e a frequência de termos-inverso da frequência no documento. Nossos métodos identificam com sucesso famílias de LLMs e agrupam os modelos em subgrupos significativos de forma precisa. Apresentamos uma aplicação web pública para navegar e explorar o Constellation, nosso atlas de 15.821 LLMs. O Constellation gera rapidamente uma variedade de visualizações, como dendrogramas, grafos, nuvens de palavras e gráficos de dispersão. O Constellation está disponível no seguinte link: https://constellation.sites.stanford.edu/.
Em uma era onde a geração de conteúdo visual é cada vez mais impulsionada por aprendizado de máquina, a integração de feedback humano em modelos generativos apresenta oportunidades significativas para aprimorar a experiência do usuário e a qualidade dos resultados. Este estudo explora estratégias para incorporar feedback humano iterativo no processo generativo de modelos de texto para imagem baseados em difusão. Propomos o FABRIC, uma abordagem livre de treinamento aplicável a uma ampla gama de modelos de difusão populares, que explora a camada de auto-atenção presente nas arquiteturas mais utilizadas para condicionar o processo de difusão a um conjunto de imagens de feedback. Para garantir uma avaliação rigorosa de nossa abordagem, introduzimos uma metodologia de avaliação abrangente, oferecendo um mecanismo robusto para quantificar o desempenho de modelos visuais generativos que integram feedback humano. Demonstramos que os resultados de geração melhoram ao longo de múltiplas rodadas de feedback iterativo por meio de análises exaustivas, otimizando implicitamente preferências arbitrárias do usuário. As aplicações potenciais dessas descobertas se estendem a áreas como criação de conteúdo personalizado e customização.
A composição de camadas é um dos fluxos de trabalho mais populares na edição de imagens, tanto entre amadores quanto profissionais. Motivados pelo sucesso dos modelos de difusão, exploramos a composição de camadas a partir de uma perspectiva de geração de imagens em camadas. Em vez de gerar uma única imagem, propomos gerar simultaneamente o fundo, o primeiro plano, a máscara de camada e a imagem composta. Para alcançar a geração de imagens em camadas, treinamos um autoencoder capaz de reconstruir imagens em camadas e treinamos modelos de difusão na representação latente. Um dos benefícios da proposta é permitir fluxos de trabalho de composição mais eficientes, além de gerar imagens de alta qualidade. Outro benefício é a produção de máscaras de camada de qualidade superior em comparação com as máscaras geradas por uma etapa separada de segmentação de imagem. Os resultados experimentais mostram que o método proposto é capaz de gerar imagens em camadas de alta qualidade e estabelece um benchmark para trabalhos futuros.
Modelos de Linguagem e Modelos de Visão e Linguagem demonstraram recentemente capacidades sem precedentes em termos de compreensão das intenções humanas, raciocínio, entendimento de cenas e comportamentos semelhantes a planejamento, em formato de texto, entre muitos outros. Neste trabalho, investigamos como incorporar e aproveitar tais habilidades em agentes de Aprendizado por Reforço (RL). Projetamos um framework que utiliza a linguagem como ferramenta central de raciocínio, explorando como isso permite que um agente enfrente uma série de desafios fundamentais do RL, como exploração eficiente, reutilização de dados de experiência, agendamento de habilidades e aprendizado a partir de observações, que tradicionalmente exigem algoritmos separados e projetados verticalmente. Testamos nosso método em um ambiente simulado de manipulação robótica com recompensas esparsas, onde um robô precisa empilhar um conjunto de objetos. Demonstramos melhorias substanciais de desempenho em relação às baselines em eficiência de exploração e capacidade de reutilizar dados de conjuntos offline, e ilustramos como reutilizar habilidades aprendidas para resolver tarefas novas ou imitar vídeos de especialistas humanos.
Apesar dos avanços na IA conversacional, os modelos de linguagem enfrentam desafios para lidar com diversas tarefas conversacionais, e as coleções de conjuntos de dados de diálogo existentes frequentemente carecem de diversidade e abrangência. Para abordar essas questões, apresentamos o DialogStudio: a maior e mais diversificada coleção de conjuntos de dados de diálogo, unificada em um formato consistente, preservando suas informações originais. Nossa coleção abrange dados de diálogos de domínio aberto, diálogos orientados a tarefas, compreensão de linguagem natural, recomendação conversacional, sumarização de diálogos e diálogos baseados em conhecimento, tornando-a um recurso incrivelmente rico e diversificado para pesquisa em diálogos e treinamento de modelos. Para aprimorar ainda mais a utilidade do DialogStudio, identificamos as licenças de cada conjunto de dados e projetamos prompts conscientes do domínio para diálogos selecionados, facilitando o ajuste fino orientado por instruções. Além disso, desenvolvemos modelos de IA conversacional utilizando a coleção de conjuntos de dados, e nossos experimentos em cenários de aprendizado zero-shot e few-shot demonstram a superioridade do DialogStudio. Para melhorar a transparência e apoiar a pesquisa baseada em conjuntos de dados e tarefas, bem como o pré-treinamento de modelos de linguagem, todos os conjuntos de dados, licenças, códigos e modelos associados ao DialogStudio estão disponíveis publicamente em https://github.com/salesforce/DialogStudio.
Há um interesse crescente em sistemas de controle de dispositivos que possam interpretar instruções em linguagem natural humana e executá-las em um dispositivo digital, controlando diretamente sua interface de usuário. Apresentamos um conjunto de dados para pesquisa em controle de dispositivos, chamado Android in the Wild (AITW), que é ordens de magnitude maior do que os conjuntos de dados atuais. O conjunto de dados contém demonstrações humanas de interações com dispositivos, incluindo as telas e ações, além de instruções correspondentes em linguagem natural. Ele consiste em 715 mil episódios abrangendo 30 mil instruções únicas, quatro versões do Android (v10-13) e oito tipos de dispositivos (do Pixel 2 XL ao Pixel 6) com diferentes resoluções de tela. O conjunto de dados inclui tarefas de múltiplos passos que exigem compreensão semântica da linguagem e do contexto visual. Esse conjunto de dados apresenta um novo desafio: as ações disponíveis na interface de usuário devem ser inferidas a partir de sua aparência visual. Além disso, em vez de ações simples baseadas em elementos da interface, o espaço de ação consiste em gestos precisos (por exemplo, rolagens horizontais para operar widgets de carrossel). Organizamos nosso conjunto de dados para incentivar a análise de robustez de sistemas de controle de dispositivos, ou seja, quão bem um sistema se desempenha na presença de novas descrições de tarefas, novos aplicativos ou novas versões de plataforma. Desenvolvemos dois agentes e relatamos o desempenho em todo o conjunto de dados. O conjunto de dados está disponível em https://github.com/google-research/google-research/tree/master/android_in_the_wild.
Os LLMs (Modelos de Linguagem de Grande Escala) têm demonstrado potencial em replicar comportamentos semelhantes aos humanos em tarefas de crowdsourcing que antes eram consideradas exclusivas das habilidades humanas. No entanto, os esforços atuais concentram-se principalmente em tarefas atômicas simples. Exploramos se os LLMs podem replicar pipelines de crowdsourcing mais complexos. Descobrimos que os LLMs modernos podem simular algumas das habilidades dos trabalhadores humanos nesses "algoritmos de computação humana", mas o nível de sucesso é variável e influenciado pelo entendimento dos solicitantes sobre as capacidades dos LLMs, pelas habilidades específicas necessárias para as sub-tarefas e pela modalidade de interação ideal para a execução dessas sub-tarefas. Refletimos sobre as diferentes sensibilidades de humanos e LLMs em relação às instruções, enfatizamos a importância de implementar salvaguardas voltadas para humanos nos LLMs e discutimos o potencial de treinar humanos e LLMs com conjuntos de habilidades complementares. Crucialmente, mostramos que a replicação de pipelines de crowdsourcing oferece uma plataforma valiosa para investigar (1) os pontos fortes relativos dos LLMs em diferentes tarefas (por meio da comparação cruzada de seus desempenhos em sub-tarefas) e (2) o potencial dos LLMs em tarefas complexas, onde eles podem completar parte das tarefas enquanto deixam outras para os humanos.
A renderização realista centrada no ser humano desempenha um papel fundamental tanto na visão computacional quanto na computação gráfica. Nos últimos anos, houve progressos rápidos no aspecto algorítmico, porém os conjuntos de dados e benchmarks existentes para renderização centrada no ser humano são bastante limitados em termos de diversidade, que é crucial para o efeito de renderização. Os pesquisadores geralmente estão restritos a explorar e avaliar um pequeno conjunto de problemas de renderização nos conjuntos de dados atuais, enquanto as aplicações do mundo real exigem que os métodos sejam robustos em diferentes cenários. Neste trabalho, apresentamos o DNA-Rendering, um repositório em larga escala e de alta fidelidade de dados de desempenho humano para renderização de atores neurais. O DNA-Rendering apresenta vários atributos atraentes. Primeiro, nosso conjunto de dados contém mais de 1500 sujeitos humanos, 5000 sequências de movimento e um volume de dados de 67,5 milhões de quadros. Segundo, fornecemos recursos ricos para cada sujeito — pontos-chave 2D/3D do corpo humano, máscaras de primeiro plano, modelos SMPLX, materiais de roupas/acessórios, imagens multi-visão e vídeos. Esses recursos aumentam a precisão dos métodos atuais em tarefas de renderização subsequentes. Terceiro, construímos um sistema multi-visão profissional para capturar dados, que contém 60 câmeras sincronizadas com resolução máxima de 4096 x 3000, velocidade de 15 fps e rigorosos passos de calibração de câmera, garantindo recursos de alta qualidade para treinamento e avaliação de tarefas. Juntamente com o conjunto de dados, fornecemos um benchmark em larga escala e quantitativo em escala completa, com múltiplas tarefas para avaliar o progresso atual dos métodos de síntese de novas visões, síntese de animação de novas poses e renderização de novas identidades. Neste manuscrito, descrevemos nosso esforço com o DNA-Rendering como uma revelação de novas observações, desafios e direções futuras para a renderização centrada no ser humano. O conjunto de dados, código e benchmarks estarão publicamente disponíveis em https://dna-rendering.github.io/.
Otimizadores baseados em gradiente adaptativos, particularmente o Adam, deixaram sua marca no treinamento de modelos de aprendizado profundo em larga escala. A força desses otimizadores reside no fato de exibirem convergência rápida enquanto são mais robustos à escolha de hiperparâmetros. No entanto, eles frequentemente generalizam pior do que métodos não adaptativos. Estudos recentes associaram essa lacuna de desempenho à seleção de mínimos planos: métodos adaptativos tendem a encontrar soluções em bacias mais estreitas da paisagem de perda, o que, por sua vez, prejudica a generalização. Para superar esse problema, propomos uma nova versão do Adam aumentada com memória, que promove a exploração em direção a mínimos mais planos ao utilizar um buffer de termos de momento críticos durante o treinamento. Intuitivamente, o uso do buffer faz com que o otimizador ultrapasse a bacia de atração se ela não for suficientemente ampla. Empiricamente, demonstramos que nosso método melhora o desempenho de várias variantes do Adam em tarefas padrão de modelagem de linguagem supervisionada e classificação de imagens.