HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

8 papers found

Substituindo Juízes por Júris: Avaliando Gerações de LLMs com um Painel de Modelos Diversos
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

Apr 29

ByPat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis

À medida que os Modelos de Linguagem de Grande Escala (LLMs) se tornaram mais avançados, eles superaram nossa capacidade de avaliar com precisão sua qualidade. Não apenas é difícil encontrar dados para investigar adequadamente propriedades específicas do modelo, mas avaliar a correção de uma geração livre do modelo por si só já é um desafio. Para resolver isso, muitas avaliações agora dependem do uso dos próprios LLMs como juízes para pontuar a qualidade das saídas de outros LLMs. As avaliações mais comumente usam um único modelo grande, como o GPT-4. Embora esse método tenha ganhado popularidade, ele é custoso, demonstrou introduzir viés intramodelo e, neste trabalho, descobrimos que modelos muito grandes muitas vezes são desnecessários. Propomos, em vez disso, avaliar os modelos usando um Painel de Avaliadores LLM (PoLL). Em três configurações distintas de juízes e abrangendo seis conjuntos de dados diferentes, descobrimos que usar um PoLL composto por um número maior de modelos menores supera um único juiz grande, exibe menos viés intramodelo devido à sua composição de famílias de modelos distintas e faz isso enquanto é mais de sete vezes menos custoso.

Kangaroo: Decodificação Autosspeculativa sem Perdas via Dupla Saída Antecipada
Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

Apr 29

ByFangcheng Liu, Yehui Tang, Zhenhua Liu, Yunsheng Ni, Kai Han, Yunhe Wang

A decodificação especulativa demonstrou sua eficácia na aceleração da inferência de modelos de linguagem grandes, mantendo uma distribuição de amostragem consistente. No entanto, a abordagem convencional de treinar um modelo de rascunho separado para alcançar uma taxa de aceitação de tokens satisfatória pode ser custosa. Inspirados pelo conceito de saída antecipada, propomos uma nova estrutura de decodificação autoespeculativa chamada Kangaroo, que utiliza uma sub-rede superficial fixa como um modelo de rascunho automático, com as camadas restantes servindo como o modelo alvo maior. Treinamos um módulo adaptador leve e eficiente sobre a sub-rede para preencher a lacuna entre a capacidade de representação da sub-rede e a do modelo completo. É importante notar que a latência de inferência do modelo de rascunho automático pode não ser mais desprezível em comparação com o modelo grande, exigindo estratégias para aumentar a taxa de aceitação de tokens enquanto minimiza as etapas de rascunho do modelo pequeno. Para enfrentar esse desafio, introduzimos um mecanismo adicional de saída antecipada para gerar tokens de rascunho. Especificamente, interrompemos a previsão subsequente do modelo pequeno durante a fase de rascunho assim que o nível de confiança para o token atual cai abaixo de um certo limite. Experimentos extensivos no Spec-Bench demonstram a eficácia do Kangaroo. Sob verificação de sequência única, o Kangaroo alcança acelerações de até 1,68 vezes no Spec-Bench, superando o Medusa-1 com 88,7% menos parâmetros adicionais (67M comparados a 591M). O código do Kangaroo está disponível em https://github.com/Equationliu/Kangaroo.

Capacidades dos Modelos Gemini na Medicina
Capabilities of Gemini Models in Medicine

Apr 29

ByKhaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan

A excelência em uma ampla variedade de aplicações médicas apresenta desafios consideráveis para a IA, exigindo raciocínio avançado, acesso a conhecimentos médicos atualizados e compreensão de dados multimodais complexos. Os modelos Gemini, com capacidades gerais robustas em raciocínio multimodal e de contexto longo, oferecem possibilidades empolgantes na medicina. Com base nessas forças centrais do Gemini, apresentamos o Med-Gemini, uma família de modelos multimodais altamente capacitados e especializados em medicina, com a capacidade de utilizar de forma integrada a pesquisa na web e que podem ser eficientemente adaptados a novas modalidades por meio de codificadores personalizados. Avaliamos o Med-Gemini em 14 benchmarks médicos, estabelecendo novos recordes de desempenho state-of-the-art (SoTA) em 10 deles, e superamos a família de modelos GPT-4 em todos os benchmarks onde uma comparação direta é viável, muitas vezes por uma margem significativa. No popular benchmark MedQA (USMLE), nosso modelo Med-Gemini de melhor desempenho alcança uma precisão SoTA de 91,1%, utilizando uma nova estratégia de pesquisa guiada por incerteza. Em 7 benchmarks multimodais, incluindo os NEJM Image Challenges e MMMU (saúde e medicina), o Med-Gemini supera o GPT-4V com uma margem relativa média de 44,5%. Demonstramos a eficácia das capacidades de contexto longo do Med-Gemini por meio do desempenho SoTA em uma tarefa de recuperação de "agulha no palheiro" em registros de saúde longos e desidentificados e em respostas a perguntas sobre vídeos médicos, superando métodos personalizados anteriores usando apenas aprendizado em contexto. Por fim, o desempenho do Med-Gemini sugere utilidade no mundo real ao superar especialistas humanos em tarefas como resumo de textos médicos, além de demonstrar potencial promissor para diálogo médico multimodal, pesquisa médica e educação. Em conjunto, nossos resultados oferecem evidências convincentes do potencial do Med-Gemini, embora uma avaliação rigorosa adicional seja crucial antes da implantação no mundo real neste domínio crítico para a segurança.

LEGENT: Plataforma Aberta para Agentes Corporificados
LEGENT: Open Platform for Embodied Agents

Apr 28

ByZhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun

Apesar dos avanços nos Modelos de Linguagem de Grande Escala (LLMs) e nos Modelos Multimodais de Grande Escala (LMMs), sua integração em agentes incorporados semelhantes a humanos e fundamentados em linguagem permanece incompleta, dificultando o desempenho de tarefas complexas da vida real em ambientes físicos. As integrações existentes frequentemente apresentam limitações em termos de código aberto, desafiando o progresso coletivo nesse campo. Apresentamos o LEGENT, uma plataforma aberta e escalável para o desenvolvimento de agentes incorporados utilizando LLMs e LMMs. O LEGENT oferece uma abordagem dupla: um ambiente 3D rico e interativo com agentes comunicáveis e acionáveis, combinado com uma interface amigável ao usuário, e um pipeline sofisticado de geração de dados que utiliza algoritmos avançados para explorar a supervisão de mundos simulados em larga escala. Em nossos experimentos, um modelo embrionário de visão-linguagem-ação treinado com dados gerados pelo LEGENT supera o GPT-4V em tarefas incorporadas, demonstrando capacidades promissoras de generalização.

BlenderAlchemy: Editando Gráficos 3D com Modelos de Visão e Linguagem
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models

Apr 26

ByIan Huang, Guandao Yang, Leonidas Guibas

O design gráfico é importante para diversas aplicações, incluindo produção de filmes e design de jogos. Para criar uma cena de alta qualidade, os designers geralmente precisam passar horas em softwares como o Blender, onde podem precisar intercalar e repetir operações, como conectar nós de materiais, centenas de vezes. Além disso, objetivos de design ligeiramente diferentes podem exigir sequências completamente distintas, tornando a automação difícil. Neste artigo, propomos um sistema que aproveita Modelos de Visão e Linguagem (VLMs), como o GPT-4V, para buscar de forma inteligente no espaço de ações de design e chegar a uma solução que possa satisfazer a intenção do usuário. Especificamente, projetamos um gerador de edições baseado em visão e um avaliador de estado que trabalham juntos para encontrar a sequência correta de ações para atingir o objetivo. Inspirados pelo papel da imaginação visual no processo de design humano, complementamos as capacidades de raciocínio visual dos VLMs com imagens de referência "imaginadas" geradas por modelos de geração de imagens, fornecendo uma base visual para descrições de linguagem abstratas. Neste artigo, apresentamos evidências empíricas sugerindo que nosso sistema pode produzir sequências simples, mas tediosas, de edições no Blender para tarefas como editar materiais procedurais a partir de texto e/ou imagens de referência, bem como ajustar configurações de iluminação para renderizações de produtos em cenas complexas.

Stylus: Seleção Automática de Adaptadores para Modelos de Difusão
Stylus: Automatic Adapter Selection for Diffusion Models

Apr 29

ByMichael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica

Além de escalar modelos base com mais dados ou parâmetros, adaptadores ajustados fornecem uma maneira alternativa de gerar imagens personalizadas de alta fidelidade a custos reduzidos. Como tal, os adaptadores têm sido amplamente adotados por comunidades de código aberto, acumulando um banco de dados de mais de 100 mil adaptadores — a maioria dos quais altamente personalizados com descrições insuficientes. Este artigo explora o problema de corresponder o prompt a um conjunto de adaptadores relevantes, com base em trabalhos recentes que destacam os ganhos de desempenho ao compor adaptadores. Introduzimos o Stylus, que seleciona e compõe automaticamente adaptadores específicos para tarefas com base nas palavras-chave de um prompt. O Stylus delineia uma abordagem em três etapas que primeiro resume os adaptadores com descrições e embeddings aprimorados, recupera adaptadores relevantes e, em seguida, monta ainda mais os adaptadores com base nas palavras-chave dos prompts, verificando o quão bem eles se ajustam ao prompt. Para avaliar o Stylus, desenvolvemos o StylusDocs, um conjunto de dados curado com 75 mil adaptadores e embeddings de adaptadores pré-computados. Em nossa avaliação em checkpoints populares do Stable Diffusion, o Stylus alcança maior eficiência de Pareto CLIP-FID e é duas vezes mais preferido, com humanos e modelos multimodais como avaliadores, em comparação com o modelo base. Consulte stylus-diffusion.github.io para mais informações.

Ag2Manip: Aprendendo Novas Habilidades de Manipulação com Representações Visuais e de Ação Independentes de Agente
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations

Apr 26

ByPuhao Li, Tengyu Liu, Yuyang Li, Muzhi Han, Haoran Geng, Shu Wang, Yixin Zhu, Song-Chun Zhu, Siyuan Huang

Sistemas robóticos autônomos capazes de aprender novas tarefas de manipulação estão prontos para transformar indústrias, desde a manufatura até a automação de serviços. No entanto, métodos modernos (por exemplo, VIP e R3M) ainda enfrentam desafios significativos, notadamente a lacuna de domínio entre diferentes implementações robóticas e a escassez de execuções bem-sucedidas de tarefas dentro de espaços de ação específicos, resultando em representações de tarefas desalinhadas e ambíguas. Apresentamos o Ag2Manip (Representações Agente-Agnósticas para Manipulação), uma estrutura projetada para superar esses desafios por meio de duas inovações principais: uma nova representação visual agente-agnóstica derivada de vídeos de manipulação humana, com os detalhes das implementações obscurecidos para aumentar a generalização; e uma representação de ação agente-agnóstica que abstrai a cinemática de um robô para um proxy universal de agente, enfatizando as interações cruciais entre o efetuador final e o objeto. A validação empírica do Ag2Manip em benchmarks simulados como FrankaKitchen, ManiSkill e PartManip mostra um aumento de 325% no desempenho, alcançado sem demonstrações específicas do domínio. Estudos de ablação destacam as contribuições essenciais das representações visual e de ação para esse sucesso. Estendendo nossas avaliações ao mundo real, o Ag2Manip melhora significativamente as taxas de sucesso de aprendizado por imitação de 50% para 77,5%, demonstrando sua eficácia e generalização tanto em ambientes simulados quanto físicos.

DressCode: Costurando e Gerando Roupas Autoregressivamente com Orientação de Texto
DressCode: Autoregressively Sewing and Generating Garments from Text Guidance

Jan 29

ByKai He, Kaixin Yao, Qixuan Zhang, Jingyi Yu, Lingjie Liu, Lan Xu

O papel significativo das vestimentas na aparência humana ressalta a importância da digitalização de roupas para a criação de humanos digitais. Avanços recentes na criação de conteúdo 3D são fundamentais para a criação de humanos digitais. No entanto, a geração de roupas a partir de orientações textuais ainda está em estágio inicial. Apresentamos um framework de geração de roupas 3D orientado por texto, chamado DressCode, que visa democratizar o design para iniciantes e oferecer um potencial imenso no design de moda, experimentação virtual e criação de humanos digitais. Para nosso framework, primeiro introduzimos o SewingGPT, uma arquitetura baseada em GPT que integra atenção cruzada com embeddings condicionados por texto para gerar padrões de costura com orientação textual. Também adaptamos um Stable Diffusion pré-treinado para a geração de texturas PBR de alta qualidade baseadas em blocos. Ao aproveitar um modelo de linguagem de grande escala, nosso framework gera roupas amigáveis para computação gráfica por meio de interação em linguagem natural. Nosso método também facilita a conclusão de padrões e a edição de texturas, simplificando o processo para designers por meio de interação amigável ao usuário. Com avaliações abrangentes e comparações com outros métodos state-of-the-art, nosso método demonstra a melhor qualidade e alinhamento com os prompts de entrada. Estudos com usuários validam ainda mais nossos resultados de renderização de alta qualidade, destacando sua utilidade prática e potencial em ambientes de produção.

Capacidades dos Modelos Gemini na Medicina
Capabilities of Gemini Models in Medicine

Apr 29