Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se tornaram mais avançados, eles superaram nossa capacidade de avaliar com precisão sua qualidade. Não apenas é difícil encontrar dados para investigar adequadamente propriedades específicas do modelo, mas avaliar a correção de uma geração livre do modelo por si só já é um desafio. Para resolver isso, muitas avaliações agora dependem do uso dos próprios LLMs como juízes para pontuar a qualidade das saídas de outros LLMs. As avaliações mais comumente usam um único modelo grande, como o GPT-4. Embora esse método tenha ganhado popularidade, ele é custoso, demonstrou introduzir viés intramodelo e, neste trabalho, descobrimos que modelos muito grandes muitas vezes são desnecessários. Propomos, em vez disso, avaliar os modelos usando um Painel de Avaliadores LLM (PoLL). Em três configurações distintas de juízes e abrangendo seis conjuntos de dados diferentes, descobrimos que usar um PoLL composto por um número maior de modelos menores supera um único juiz grande, exibe menos viés intramodelo devido à sua composição de famílias de modelos distintas e faz isso enquanto é mais de sete vezes menos custoso.
A decodificação especulativa demonstrou sua eficácia na aceleração da inferência de modelos de linguagem grandes, mantendo uma distribuição de amostragem consistente. No entanto, a abordagem convencional de treinar um modelo de rascunho separado para alcançar uma taxa de aceitação de tokens satisfatória pode ser custosa. Inspirados pelo conceito de saída antecipada, propomos uma nova estrutura de decodificação autoespeculativa chamada Kangaroo, que utiliza uma sub-rede superficial fixa como um modelo de rascunho automático, com as camadas restantes servindo como o modelo alvo maior. Treinamos um módulo adaptador leve e eficiente sobre a sub-rede para preencher a lacuna entre a capacidade de representação da sub-rede e a do modelo completo. É importante notar que a latência de inferência do modelo de rascunho automático pode não ser mais desprezível em comparação com o modelo grande, exigindo estratégias para aumentar a taxa de aceitação de tokens enquanto minimiza as etapas de rascunho do modelo pequeno. Para enfrentar esse desafio, introduzimos um mecanismo adicional de saída antecipada para gerar tokens de rascunho. Especificamente, interrompemos a previsão subsequente do modelo pequeno durante a fase de rascunho assim que o nível de confiança para o token atual cai abaixo de um certo limite. Experimentos extensivos no Spec-Bench demonstram a eficácia do Kangaroo. Sob verificação de sequência única, o Kangaroo alcança acelerações de até 1,68 vezes no Spec-Bench, superando o Medusa-1 com 88,7% menos parâmetros adicionais (67M comparados a 591M). O código do Kangaroo está disponível em https://github.com/Equationliu/Kangaroo.
A excelência em uma ampla variedade de aplicações médicas apresenta desafios consideráveis para a IA, exigindo raciocínio avançado, acesso a conhecimentos médicos atualizados e compreensão de dados multimodais complexos. Os modelos Gemini, com capacidades gerais robustas em raciocínio multimodal e de contexto longo, oferecem possibilidades empolgantes na medicina. Com base nessas forças centrais do Gemini, apresentamos o Med-Gemini, uma família de modelos multimodais altamente capacitados e especializados em medicina, com a capacidade de utilizar de forma integrada a pesquisa na web e que podem ser eficientemente adaptados a novas modalidades por meio de codificadores personalizados. Avaliamos o Med-Gemini em 14 benchmarks médicos, estabelecendo novos recordes de desempenho state-of-the-art (SoTA) em 10 deles, e superamos a família de modelos GPT-4 em todos os benchmarks onde uma comparação direta é viável, muitas vezes por uma margem significativa. No popular benchmark MedQA (USMLE), nosso modelo Med-Gemini de melhor desempenho alcança uma precisão SoTA de 91,1%, utilizando uma nova estratégia de pesquisa guiada por incerteza. Em 7 benchmarks multimodais, incluindo os NEJM Image Challenges e MMMU (saúde e medicina), o Med-Gemini supera o GPT-4V com uma margem relativa média de 44,5%. Demonstramos a eficácia das capacidades de contexto longo do Med-Gemini por meio do desempenho SoTA em uma tarefa de recuperação de "agulha no palheiro" em registros de saúde longos e desidentificados e em respostas a perguntas sobre vídeos médicos, superando métodos personalizados anteriores usando apenas aprendizado em contexto. Por fim, o desempenho do Med-Gemini sugere utilidade no mundo real ao superar especialistas humanos em tarefas como resumo de textos médicos, além de demonstrar potencial promissor para diálogo médico multimodal, pesquisa médica e educação. Em conjunto, nossos resultados oferecem evidências convincentes do potencial do Med-Gemini, embora uma avaliação rigorosa adicional seja crucial antes da implantação no mundo real neste domínio crítico para a segurança.
Apesar dos avanços nos Modelos de Linguagem de Grande Escala (LLMs) e nos Modelos Multimodais de Grande Escala (LMMs), sua integração em agentes incorporados semelhantes a humanos e fundamentados em linguagem permanece incompleta, dificultando o desempenho de tarefas complexas da vida real em ambientes físicos. As integrações existentes frequentemente apresentam limitações em termos de código aberto, desafiando o progresso coletivo nesse campo. Apresentamos o LEGENT, uma plataforma aberta e escalável para o desenvolvimento de agentes incorporados utilizando LLMs e LMMs. O LEGENT oferece uma abordagem dupla: um ambiente 3D rico e interativo com agentes comunicáveis e acionáveis, combinado com uma interface amigável ao usuário, e um pipeline sofisticado de geração de dados que utiliza algoritmos avançados para explorar a supervisão de mundos simulados em larga escala. Em nossos experimentos, um modelo embrionário de visão-linguagem-ação treinado com dados gerados pelo LEGENT supera o GPT-4V em tarefas incorporadas, demonstrando capacidades promissoras de generalização.
O design gráfico é importante para diversas aplicações, incluindo produção de filmes e design de jogos. Para criar uma cena de alta qualidade, os designers geralmente precisam passar horas em softwares como o Blender, onde podem precisar intercalar e repetir operações, como conectar nós de materiais, centenas de vezes. Além disso, objetivos de design ligeiramente diferentes podem exigir sequências completamente distintas, tornando a automação difícil. Neste artigo, propomos um sistema que aproveita Modelos de Visão e Linguagem (VLMs), como o GPT-4V, para buscar de forma inteligente no espaço de ações de design e chegar a uma solução que possa satisfazer a intenção do usuário. Especificamente, projetamos um gerador de edições baseado em visão e um avaliador de estado que trabalham juntos para encontrar a sequência correta de ações para atingir o objetivo. Inspirados pelo papel da imaginação visual no processo de design humano, complementamos as capacidades de raciocínio visual dos VLMs com imagens de referência "imaginadas" geradas por modelos de geração de imagens, fornecendo uma base visual para descrições de linguagem abstratas. Neste artigo, apresentamos evidências empíricas sugerindo que nosso sistema pode produzir sequências simples, mas tediosas, de edições no Blender para tarefas como editar materiais procedurais a partir de texto e/ou imagens de referência, bem como ajustar configurações de iluminação para renderizações de produtos em cenas complexas.
Além de escalar modelos base com mais dados ou parâmetros, adaptadores ajustados fornecem uma maneira alternativa de gerar imagens personalizadas de alta fidelidade a custos reduzidos. Como tal, os adaptadores têm sido amplamente adotados por comunidades de código aberto, acumulando um banco de dados de mais de 100 mil adaptadores — a maioria dos quais altamente personalizados com descrições insuficientes. Este artigo explora o problema de corresponder o prompt a um conjunto de adaptadores relevantes, com base em trabalhos recentes que destacam os ganhos de desempenho ao compor adaptadores. Introduzimos o Stylus, que seleciona e compõe automaticamente adaptadores específicos para tarefas com base nas palavras-chave de um prompt. O Stylus delineia uma abordagem em três etapas que primeiro resume os adaptadores com descrições e embeddings aprimorados, recupera adaptadores relevantes e, em seguida, monta ainda mais os adaptadores com base nas palavras-chave dos prompts, verificando o quão bem eles se ajustam ao prompt. Para avaliar o Stylus, desenvolvemos o StylusDocs, um conjunto de dados curado com 75 mil adaptadores e embeddings de adaptadores pré-computados. Em nossa avaliação em checkpoints populares do Stable Diffusion, o Stylus alcança maior eficiência de Pareto CLIP-FID e é duas vezes mais preferido, com humanos e modelos multimodais como avaliadores, em comparação com o modelo base. Consulte stylus-diffusion.github.io para mais informações.
Sistemas robóticos autônomos capazes de aprender novas tarefas de manipulação estão prontos para transformar indústrias, desde a manufatura até a automação de serviços. No entanto, métodos modernos (por exemplo, VIP e R3M) ainda enfrentam desafios significativos, notadamente a lacuna de domínio entre diferentes implementações robóticas e a escassez de execuções bem-sucedidas de tarefas dentro de espaços de ação específicos, resultando em representações de tarefas desalinhadas e ambíguas. Apresentamos o Ag2Manip (Representações Agente-Agnósticas para Manipulação), uma estrutura projetada para superar esses desafios por meio de duas inovações principais: uma nova representação visual agente-agnóstica derivada de vídeos de manipulação humana, com os detalhes das implementações obscurecidos para aumentar a generalização; e uma representação de ação agente-agnóstica que abstrai a cinemática de um robô para um proxy universal de agente, enfatizando as interações cruciais entre o efetuador final e o objeto. A validação empírica do Ag2Manip em benchmarks simulados como FrankaKitchen, ManiSkill e PartManip mostra um aumento de 325% no desempenho, alcançado sem demonstrações específicas do domínio. Estudos de ablação destacam as contribuições essenciais das representações visual e de ação para esse sucesso. Estendendo nossas avaliações ao mundo real, o Ag2Manip melhora significativamente as taxas de sucesso de aprendizado por imitação de 50% para 77,5%, demonstrando sua eficácia e generalização tanto em ambientes simulados quanto físicos.
O papel significativo das vestimentas na aparência humana ressalta a importância da digitalização de roupas para a criação de humanos digitais. Avanços recentes na criação de conteúdo 3D são fundamentais para a criação de humanos digitais. No entanto, a geração de roupas a partir de orientações textuais ainda está em estágio inicial. Apresentamos um framework de geração de roupas 3D orientado por texto, chamado DressCode, que visa democratizar o design para iniciantes e oferecer um potencial imenso no design de moda, experimentação virtual e criação de humanos digitais. Para nosso framework, primeiro introduzimos o SewingGPT, uma arquitetura baseada em GPT que integra atenção cruzada com embeddings condicionados por texto para gerar padrões de costura com orientação textual. Também adaptamos um Stable Diffusion pré-treinado para a geração de texturas PBR de alta qualidade baseadas em blocos. Ao aproveitar um modelo de linguagem de grande escala, nosso framework gera roupas amigáveis para computação gráfica por meio de interação em linguagem natural. Nosso método também facilita a conclusão de padrões e a edição de texturas, simplificando o processo para designers por meio de interação amigável ao usuário. Com avaliações abrangentes e comparações com outros métodos state-of-the-art, nosso método demonstra a melhor qualidade e alinhamento com os prompts de entrada. Estudos com usuários validam ainda mais nossos resultados de renderização de alta qualidade, destacando sua utilidade prática e potencial em ambientes de produção.