Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Chameleon, uma família de modelos mistos baseados em tokens com fusão precoce, capazes de compreender e gerar imagens e texto em qualquer sequência arbitrária. Descrevemos uma abordagem de treinamento estável desde o início, uma receita de alinhamento e uma parametrização arquitetônica adaptada para o cenário de fusão precoce, baseada em tokens e multimodal. Os modelos são avaliados em uma ampla gama de tarefas, incluindo resposta a perguntas visuais, legendagem de imagens, geração de texto, geração de imagens e geração mista de longa duração. O Chameleon demonstra capacidades amplas e gerais, incluindo desempenho de ponta em tarefas de legendagem de imagens, supera o Llama-2 em tarefas exclusivamente textuais, mantendo-se competitivo com modelos como o Mixtral 8x7B e o Gemini-Pro, e realiza geração de imagens não triviais, tudo em um único modelo. Ele também iguala ou supera o desempenho de modelos muito maiores, incluindo o Gemini Pro e o GPT-4V, de acordo com avaliações humanas em uma nova avaliação de geração mista de longa duração, onde o prompt ou as saídas contêm sequências mistas de imagens e texto. O Chameleon representa um avanço significativo na modelagem unificada de documentos multimodais completos.
A Adaptação de Baixa Classificação (LoRA) é um método amplamente utilizado de ajuste fino eficiente em parâmetros para modelos de linguagem de grande escala. O LoRA economiza memória ao treinar apenas perturbações de baixa classificação em matrizes de pesos selecionadas. Neste trabalho, comparamos o desempenho do LoRA e do ajuste fino completo em dois domínios de destino: programação e matemática. Consideramos tanto o regime de ajuste fino por instrução (aproximadamente 100K pares de prompt-resposta) quanto o de pré-treinamento contínuo (aproximadamente 10B tokens não estruturados). Nossos resultados mostram que, na maioria das configurações, o LoRA apresenta desempenho substancialmente inferior ao ajuste fino completo. No entanto, o LoRA exibe uma forma desejável de regularização: ele mantém melhor o desempenho do modelo base em tarefas fora do domínio de destino. Mostramos que o LoRA fornece uma regularização mais forte em comparação com técnicas comuns, como decaimento de peso e dropout; ele também ajuda a manter gerações mais diversas. Demonstramos que o ajuste fino completo aprende perturbações com uma classificação 10 a 100 vezes maior do que as configurações típicas do LoRA, o que possivelmente explica parte das lacunas relatadas. Concluímos propondo práticas recomendadas para o ajuste fino com LoRA.
Os avanços na reconstrução 3D permitiram a captura de alta qualidade em 3D, mas exigem que um usuário colete centenas a milhares de imagens para criar uma cena 3D. Apresentamos o CAT3D, um método para criar qualquer coisa em 3D simulando esse processo de captura do mundo real com um modelo de difusão multi-visão. Dado qualquer número de imagens de entrada e um conjunto de novos pontos de vista alvo, nosso modelo gera visões altamente consistentes de uma cena. Essas visões geradas podem ser usadas como entrada para técnicas robustas de reconstrução 3D, produzindo representações 3D que podem ser renderizadas de qualquer ponto de vista em tempo real. O CAT3D pode criar cenas 3D inteiras em apenas um minuto e supera os métodos existentes para criação de cenas 3D a partir de uma única imagem ou poucas visões. Veja os resultados e demonstrações interativas em nossa página do projeto em https://cat3d.github.io.
Grandes modelos de linguagem são amplamente reconhecidos por sua eficácia no aprendizado contextual com poucos exemplos (ICL, do inglês *in-context learning*). Avanços recentes em modelos de base multimodal têm permitido janelas de contexto excepcionalmente longas, apresentando uma oportunidade para explorar sua capacidade de realizar ICL com um número muito maior de exemplos de demonstração. Neste trabalho, avaliamos o desempenho de modelos de base multimodal ao escalar de ICL com poucos exemplos para ICL com muitos exemplos. Avaliamos o GPT-4o e o Gemini 1.5 Pro em 10 conjuntos de dados abrangendo múltiplos domínios (imagens naturais, imagens médicas, sensoriamento remoto e imagens moleculares) e tarefas (classificação multiclasse, multilabel e de granularidade fina). Observamos que o ICL com muitos exemplos, incluindo até quase 2.000 exemplos de demonstração multimodal, leva a melhorias substanciais em comparação com o ICL com poucos exemplos (<100 exemplos) em todos os conjuntos de dados. Além disso, o desempenho do Gemini 1.5 Pro continua a melhorar de forma log-linear até o número máximo de exemplos testados em muitos conjuntos de dados. Dados os altos custos de inferência associados aos prompts longos necessários para o ICL com muitos exemplos, também exploramos o impacto de agrupar múltiplas consultas em uma única chamada de API. Mostramos que o agrupamento de até 50 consultas pode levar a melhorias de desempenho sob ICL com zero exemplos e com muitos exemplos, com ganhos substanciais no cenário de zero exemplos em vários conjuntos de dados, enquanto reduz drasticamente o custo e a latência por consulta. Por fim, medimos a eficiência de dados de ICL dos modelos, ou a taxa na qual os modelos aprendem com mais exemplos de demonstração. Descobrimos que, embora o GPT-4o e o Gemini 1.5 Pro atinjam desempenhos semelhantes com zero exemplos nos conjuntos de dados, o Gemini 1.5 Pro exibe maior eficiência de dados de ICL do que o GPT-4o na maioria dos conjuntos de dados. Nossos resultados sugerem que o ICL com muitos exemplos pode permitir que os usuários adaptem de forma eficiente modelos de base multimodal a novas aplicações e domínios. Nossa base de código está publicamente disponível em https://github.com/stanfordmlgroup/ManyICL.
Este artigo apresenta o Grounding DINO 1.5, um conjunto de modelos avançados de detecção de objetos em conjunto aberto desenvolvido pela IDEA Research, que visa avançar a "fronteira" da detecção de objetos em conjunto aberto. O conjunto inclui dois modelos: o Grounding DINO 1.5 Pro, um modelo de alto desempenho projetado para uma capacidade de generalização mais forte em uma ampla gama de cenários, e o Grounding DINO 1.5 Edge, um modelo eficiente otimizado para maior velocidade, exigido em muitas aplicações que requerem implantação em edge. O modelo Grounding DINO 1.5 Pro avança em relação ao seu predecessor ao escalar a arquitetura do modelo, integrar uma backbone de visão aprimorada e expandir o conjunto de dados de treinamento para mais de 20 milhões de imagens com anotações de grounding, alcançando assim um entendimento semântico mais rico. O modelo Grounding DINO 1.5 Edge, embora projetado para eficiência com escalas de características reduzidas, mantém capacidades robustas de detecção ao ser treinado no mesmo conjunto de dados abrangente. Resultados empíricos demonstram a eficácia do Grounding DINO 1.5, com o modelo Grounding DINO 1.5 Pro atingindo 54,3 AP no benchmark de detecção COCO e 55,7 AP no benchmark de transferência zero-shot LVIS-minival, estabelecendo novos recordes para detecção de objetos em conjunto aberto. Além disso, o modelo Grounding DINO 1.5 Edge, quando otimizado com TensorRT, alcança uma velocidade de 75,2 FPS enquanto atinge um desempenho zero-shot de 36,2 AP no benchmark LVIS-minival, tornando-o mais adequado para cenários de computação em edge. Exemplos de modelos e demonstrações com API serão lançados em https://github.com/IDEA-Research/Grounding-DINO-1.5-API.
Neste trabalho, recuperamos a estrutura 3D subjacente de cenas que não são geometricamente consistentes. Nosso foco de análise está em imagens desenhadas à mão de desenhos animados e animes. Muitos desenhos animados são criados por artistas sem o uso de um motor de renderização 3D, o que significa que cada nova imagem de uma cena é desenhada manualmente. Essas imagens desenhadas à mão geralmente são representações fiéis do mundo, mas apenas em um sentido qualitativo, já que é difícil para os humanos desenhar múltiplas perspectivas de um objeto ou cena de forma consistentemente 3D. No entanto, as pessoas conseguem perceber facilmente cenas 3D a partir de entradas inconsistentes! Neste trabalho, corrigimos inconsistências de desenhos 2D para recuperar uma estrutura 3D plausível, de modo que os desenhos deformados sejam consistentes entre si. Nossa pipeline consiste em uma ferramenta de anotação amigável ao usuário, estimativa de pose da câmera e deformação de imagem para recuperar uma estrutura densa. Nosso método deforma as imagens para obedecer a um modelo de câmera em perspectiva, permitindo que nossos resultados alinhados sejam integrados em métodos de reconstrução de síntese de novas visões, possibilitando a experiência de desenhos animados a partir de pontos de vista nunca antes desenhados. Nossa página do projeto está disponível em https://toon3d.studio/.
Apresentamos o Dual3D, uma nova estrutura de geração de texto-para-3D que produz ativos 3D de alta qualidade a partir de textos em apenas 1 minuto. O componente principal é um modelo de difusão latente multi-visualização de modo duplo. Dados os latentes multi-visualização ruidosos, o modo 2D pode desnaturá-los eficientemente com uma única rede de desnaturação latente, enquanto o modo 3D pode gerar uma superfície neural triplana para desnaturação consistente baseada em renderização. A maioria dos módulos para ambos os modos é ajustada a partir de um modelo de difusão latente texto-para-imagem pré-treinado, evitando o custo elevado de treinamento a partir do zero. Para superar o alto custo de renderização durante a inferência, propomos a estratégia de inferência de alternância de modo duplo, utilizando apenas 1/10 dos passos de desnaturação com o modo 3D, gerando com sucesso um ativo 3D em apenas 10 segundos sem sacrificar a qualidade. A textura do ativo 3D pode ser ainda mais aprimorada pelo nosso processo eficiente de refinamento de textura em um curto período de tempo. Experimentos extensivos demonstram que nosso método oferece desempenho de ponta enquanto reduz significativamente o tempo de geração. Nossa página do projeto está disponível em https://dual3d.github.io
A aprendizagem em simulação e a transferência da política aprendida para o mundo real têm o potencial de permitir robôs generalistas. O principal desafio dessa abordagem é lidar com as lacunas entre simulação e realidade (sim-to-real). Métodos anteriores frequentemente exigem conhecimento específico do domínio a priori. Argumentamos que uma maneira direta de obter tal conhecimento é pedir que humanos observem e auxiliem a execução da política do robô no mundo real. Os robôs podem então aprender com os humanos para fechar várias lacunas sim-to-real. Propomos o TRANSIC, uma abordagem baseada em dados para permitir uma transferência bem-sucedida de simulação para realidade com base em um framework de humano no loop. O TRANSIC permite que humanos aumentem as políticas de simulação para superar diversas lacunas sim-to-real não modeladas de forma holística, por meio de intervenção e correção online. Políticas residuais podem ser aprendidas a partir das correções humanas e integradas às políticas de simulação para execução autônoma. Mostramos que nossa abordagem pode alcançar uma transferência bem-sucedida de simulação para realidade em tarefas complexas de manipulação com contato intenso, como a montagem de móveis. Através da integração sinérgica de políticas aprendidas em simulação e com humanos, o TRANSIC se mostra eficaz como uma abordagem holística para lidar com diversas lacunas sim-to-real, muitas vezes coexistentes. Ele exibe propriedades atraentes, como a escalabilidade com o esforço humano. Vídeos e código estão disponíveis em https://transic-robot.github.io/.