Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de imagem orientada por assunto visa produzir imagens de um novo assunto dentro de um contexto desejado, capturando com precisão tanto as características visuais do assunto quanto o conteúdo semântico de uma sugestão de texto. Métodos tradicionais dependem de ajustes finos intensivos em tempo e recursos para o alinhamento do assunto, enquanto abordagens recentes de zero-shot aproveitam o prompting de imagem sob demanda, frequentemente sacrificando o alinhamento do assunto. Neste artigo, apresentamos o Diptych Prompting, uma abordagem zero-shot inovadora que reinterpreta como uma tarefa de inpainting com alinhamento preciso do assunto, aproveitando a propriedade emergente da geração de diptico em modelos de geração de texto para imagem em larga escala. O Diptych Prompting organiza um diptico incompleto com a imagem de referência no painel esquerdo e realiza inpainting condicionado por texto no painel direito. Além disso, evitamos vazamentos de conteúdo indesejado removendo o plano de fundo na imagem de referência e melhoramos os detalhes refinados no assunto gerado, aprimorando os pesos de atenção entre os painéis durante o inpainting. Resultados experimentais confirmam que nossa abordagem supera significativamente os métodos de prompting de imagem zero-shot, resultando em imagens visualmente preferidas pelos usuários. Além disso, nosso método suporta não apenas a geração orientada por assunto, mas também a geração de imagens estilizadas e edição de imagens orientada por assunto, demonstrando versatilidade em diversas aplicações de geração de imagem. Página do projeto: https://diptychprompting.github.io/
Esta pesquisa apresenta um novo framework de avaliação projetado para avaliar a capacidade de modelos de linguagem grandes (LLMs) de reconhecer incertezas em 675 problemas fundamentalmente insolúveis. Utilizando um conjunto de dados selecionado de perguntas de desafios de nível de pós-graduação com respostas intencionalmente desconhecidas, avaliamos doze LLMs de ponta, incluindo modelos de código aberto e fechado, em sua propensão para admitir ignorância em vez de gerar respostas plausíveis, mas incorretas. Os melhores modelos obtiveram precisão na faixa de 62-68% para admitir que a solução do problema era desconhecida em áreas que vão desde biologia até filosofia e matemática. Observamos uma relação inversa entre a dificuldade do problema e a precisão do modelo, com o GPT-4 demonstrando taxas mais altas de reconhecimento de incerteza em problemas mais desafiadores (35,8%) em comparação com os mais simples (20,0%). Esse padrão indica que os modelos podem ser mais propensos a gerar respostas especulativas quando os problemas parecem mais tratáveis. O estudo também revelou variações significativas entre as categorias de problemas, com os modelos apresentando dificuldades em reconhecer incertezas em problemas de invenção e NP-difíceis, enquanto se saíam relativamente melhor em desafios filosóficos e psicológicos. Esses resultados contribuem para o crescente corpo de pesquisas sobre avaliação de inteligência artificial geral (AGI) ao destacar a importância do reconhecimento de incertezas como um componente crítico da avaliação futura da inteligência das máquinas. Este teste de impossibilidade estende assim os frameworks teóricos anteriores para testes de inteligência universal, fornecendo evidências empíricas das limitações atuais na capacidade dos LLMs de reconhecer seus próprios limites de conhecimento, sugerindo novas direções para melhorar as arquiteturas de treinamento de modelos e abordagens de avaliação.
Apresentamos o Material Anything, um framework unificado e totalmente automatizado de difusão projetado para gerar materiais baseados em física para objetos 3D. Ao contrário de métodos existentes que dependem de pipelines complexos ou otimizações específicas para casos, o Material Anything oferece uma solução robusta de ponta a ponta, adaptável a objetos em diversas condições de iluminação. Nossa abordagem aproveita um modelo de difusão de imagens pré-treinado, aprimorado com uma arquitetura de três cabeças e perda de renderização para melhorar a estabilidade e a qualidade do material. Além disso, introduzimos máscaras de confiança como um comutador dinâmico dentro do modelo de difusão, permitindo que ele lide efetivamente com objetos texturizados e sem textura em diferentes condições de iluminação. Ao empregar uma estratégia progressiva de geração de material guiada por essas máscaras de confiança, juntamente com um refinador de material no espaço UV, nosso método garante saídas de material consistentes e prontas para UV. Experimentos extensivos demonstram que nossa abordagem supera os métodos existentes em uma ampla gama de categorias de objetos e condições de iluminação.
Este artigo apresenta uma análise crítica das abordagens atuais para replicar as capacidades do modelo O1 da OpenAI, com foco particular no uso difundido, mas frequentemente não divulgado, de técnicas de destilação de conhecimento. Enquanto nosso trabalho anterior explorou o caminho técnico fundamental para replicar o O1, este estudo revela como a simples destilação da API do O1, combinada com ajuste fino supervisionado, pode alcançar um desempenho superior em tarefas complexas de raciocínio matemático. Através de experimentos extensivos, mostramos que um modelo base ajustado fino em simplesmente dezenas de milhares de amostras destiladas do O1 supera as previsões do O1 no Exame de Matemática Invitacional Americana (AIME) com uma complexidade técnica mínima. Além disso, nossa investigação se estende além do raciocínio matemático para explorar as capacidades de generalização dos modelos destilados do O1 em diversas tarefas: alucinação, segurança e QA de domínio aberto. Notavelmente, apesar de treinar apenas em dados de resolução de problemas matemáticos, nossos modelos demonstraram forte capacidade de generalização para tarefas de QA abertas e se tornaram significativamente menos suscetíveis à bajulação após o ajuste fino. Deliberadamente tornamos essa descoberta pública para promover a transparência na pesquisa de IA e desafiar a tendência atual de reivindicações técnicas obscuras no campo. Nosso trabalho inclui: (1) Uma exposição técnica detalhada do processo de destilação e sua eficácia, (2) Um framework abrangente de benchmark para avaliar e categorizar tentativas de replicação do O1 com base em sua transparência técnica e reprodutibilidade, (3) Uma discussão crítica das limitações e riscos potenciais de depender demais de abordagens de destilação, nossa análise culmina em uma lição amarga crucial: enquanto a busca por sistemas de IA mais capazes é importante, o desenvolvimento de pesquisadores fundamentados em pensamento de primeiros princípios é primordial.
A avaliação e a avaliação têm sido desafios críticos há muito tempo em inteligência artificial (IA) e processamento de linguagem natural (PLN). No entanto, os métodos tradicionais, sejam baseados em correspondência ou em incorporação, frequentemente não conseguem julgar atributos sutis e fornecer resultados satisfatórios. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) inspiram o paradigma "LLM-como-juiz", onde os LLMs são aproveitados para realizar pontuações, classificações ou seleções em várias tarefas e aplicações. Este artigo fornece uma pesquisa abrangente sobre julgamento e avaliação baseados em LLM, oferecendo uma visão detalhada para avançar nesse campo emergente. Começamos fornecendo definições detalhadas de ambas as perspectivas de entrada e saída. Em seguida, introduzimos uma taxonomia abrangente para explorar o LLM-como-juiz a partir de três dimensões: o que julgar, como julgar e onde julgar. Por fim, compilamos benchmarks para avaliar o LLM-como-juiz e destacamos os principais desafios e direções promissoras, com o objetivo de fornecer insights valiosos e inspirar futuras pesquisas nessa área promissora. A lista de artigos e mais recursos sobre LLM-como-juiz pode ser encontrada em https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge e https://llm-as-a-judge.github.io.
Apesar dos avanços significativos em inteligência artificial geral, como o GPT-4, sua eficácia no domínio médico (IA médica geral, GMAI) permanece limitada devido à ausência de conhecimento médico especializado. Para enfrentar esse desafio, apresentamos o GMAI-VL-5.5M, um conjunto de dados médicos multimodais abrangente criado convertendo centenas de conjuntos de dados médicos especializados em pares de imagem-texto meticulosamente construídos. Este conjunto de dados apresenta cobertura abrangente de tarefas, modalidades diversas e dados de imagem-texto de alta qualidade. Com base neste conjunto de dados multimodal, propomos o GMAI-VL, um modelo de visão e linguagem médica geral com uma estratégia de treinamento progressivo em três estágios. Esta abordagem melhora significativamente a capacidade do modelo integrando informações visuais e textuais, melhorando assim sua capacidade de processar dados multimodais e apoiar diagnósticos precisos e tomadas de decisão clínicas. Avaliações experimentais demonstram que o GMAI-VL alcança resultados de ponta em uma ampla gama de tarefas médicas multimodais, como resposta a perguntas visuais e diagnóstico de imagens médicas. Nossas contribuições incluem o desenvolvimento do conjunto de dados GMAI-VL-5.5M, a introdução do modelo GMAI-VL e o estabelecimento de novos benchmarks em múltiplos domínios médicos. O código e o conjunto de dados serão disponibilizados em https://github.com/uni-medical/GMAI-VL.
Aqui apresentamos os resultados do segundo Hackathon de Modelos de Linguagem de Grande Escala (LLM) para Aplicações em Ciência de Materiais e Química, que envolveu participantes em locais híbridos globais, resultando em 34 submissões de equipes. As submissões abrangeram sete áreas de aplicação-chave e demonstraram a utilidade diversificada dos LLMs para aplicações em (1) previsão de propriedades moleculares e de materiais; (2) design molecular e de materiais; (3) automação e interfaces inovadoras; (4) comunicação científica e educação; (5) gerenciamento e automação de dados de pesquisa; (6) geração e avaliação de hipóteses; e (7) extração de conhecimento e raciocínio a partir da literatura científica. Cada submissão da equipe é apresentada em uma tabela de resumo com links para o código e como breves artigos no apêndice. Além dos resultados das equipes, discutimos o evento do hackathon e seu formato híbrido, que incluiu hubs físicos em Toronto, Montreal, São Francisco, Berlim, Lausanne e Tóquio, juntamente com um hub online global para permitir colaboração local e virtual. No geral, o evento destacou melhorias significativas nas capacidades dos LLMs desde o hackathon do ano anterior, sugerindo uma expansão contínua dos LLMs para aplicações em pesquisa de ciência de materiais e química. Esses resultados demonstram a dupla utilidade dos LLMs como modelos multipropósito para diversas tarefas de aprendizado de máquina e plataformas para prototipagem rápida de aplicações personalizadas em pesquisa científica.
Apresentamos o OneDiffusion, um modelo de difusão versátil em larga escala que suporta perfeitamente a síntese e compreensão bidirecional de imagens em diversas tarefas. Ele possibilita a geração condicional a partir de entradas como texto, profundidade, pose, layout e mapas semânticos, além de lidar com tarefas como desfocagem de imagens, ampliação e processos reversos como estimativa de profundidade e segmentação. Além disso, o OneDiffusion permite a geração de múltiplas visualizações, estimativa de pose da câmera e personalização instantânea usando entradas de imagens sequenciais. Nosso modelo adota uma abordagem simples, porém eficaz, tratando todas as tarefas como sequências de quadros com escalas de ruído variáveis durante o treinamento, permitindo que qualquer quadro atue como imagem condicionante no momento da inferência. Nosso framework unificado de treinamento elimina a necessidade de arquiteturas especializadas, suporta treinamento multi-tarefa escalável e se adapta facilmente a qualquer resolução, aprimorando tanto a generalização quanto a escalabilidade. Resultados experimentais demonstram desempenho competitivo em diversas tarefas, tanto em geração quanto em previsão, como texto-para-imagem, geração multivisão, preservação de identificação, estimativa de profundidade e estimativa de pose da câmera, apesar do conjunto de dados de treinamento relativamente pequeno. Nosso código e checkpoint estão disponíveis gratuitamente em https://github.com/lehduong/OneDiffusion
O Mecanismo de Múltiplas Cabeças Misto de Especialistas (MH-MoE) demonstra um desempenho superior ao utilizar o mecanismo de múltiplas cabeças para atender coletivamente a informações de vários espaços de representação dentro de diferentes especialistas. Neste artigo, apresentamos uma implementação inovadora do MH-MoE que mantém tanto o mesmo número de operações de ponto flutuante (FLOPs) quanto paridade de parâmetros com modelos esparsos de Misto de Especialistas. Resultados experimentais em modelos de linguagem mostram que a nova implementação gera melhorias na qualidade em relação tanto aos modelos de MoE convencionais quanto aos modelos de MoE de granularidade fina. Além disso, nossos experimentos demonstram que o MH-MoE é compatível com Modelos de Linguagem Grandes (LLMs) de 1 bit, como o BitNet.
A Segmentação Interativa de Imagens Médicas (IMIS) tem sido há muito tempo limitada pela disponibilidade limitada de conjuntos de dados grandes, diversos e densamente anotados, o que dificulta a generalização do modelo e a avaliação consistente entre diferentes modelos. Neste artigo, apresentamos o conjunto de dados de referência IMed-361M, um avanço significativo na pesquisa geral de IMIS. Primeiramente, coletamos e padronizamos mais de 6,4 milhões de imagens médicas e suas máscaras de verdade terreno correspondentes de múltiplas fontes de dados. Em seguida, aproveitando as fortes capacidades de reconhecimento de objetos de um modelo visionário fundamental, geramos automaticamente máscaras interativas densas para cada imagem e garantimos sua qualidade por meio de um rigoroso controle de qualidade e gerenciamento de granularidade. Ao contrário de conjuntos de dados anteriores, que são limitados por modalidades específicas ou anotações esparsas, o IMed-361M abrange 14 modalidades e 204 alvos de segmentação, totalizando 361 milhões de máscaras - uma média de 56 máscaras por imagem. Por fim, desenvolvemos uma rede de referência de IMIS neste conjunto de dados que suporta a geração de máscaras de alta qualidade por meio de entradas interativas, incluindo cliques, caixas delimitadoras, prompts de texto e suas combinações. Avaliamos seu desempenho em tarefas de segmentação de imagens médicas a partir de múltiplas perspectivas, demonstrando precisão e escalabilidade superiores em comparação com modelos de segmentação interativa existentes. Para facilitar a pesquisa em modelos fundamentais em visão computacional médica, disponibilizamos o IMed-361M e o modelo em https://github.com/uni-medical/IMIS-Bench.
A Tomografia Computadorizada (TC) é uma das modalidades mais populares para imagens médicas. De longe, as imagens de TC têm contribuído para os maiores conjuntos de dados publicamente disponíveis para tarefas de segmentação médica volumétrica, abrangendo estruturas anatômicas de corpo inteiro. Grandes quantidades de imagens de TC de corpo inteiro proporcionam a oportunidade de pré-treinar modelos poderosos, por exemplo, o STU-Net pré-treinado de forma supervisionada, para segmentar inúmeras estruturas anatômicas. No entanto, ainda não está claro em quais condições esses modelos pré-treinados podem ser transferidos para várias tarefas de segmentação médica downstream, em particular segmentando outras modalidades e alvos diversos. Para abordar esse problema, um benchmark em larga escala para avaliação abrangente é crucial para encontrar essas condições. Assim, coletamos 87 conjuntos de dados públicos variando em modalidade, alvo e tamanho da amostra para avaliar a capacidade de transferência de modelos pré-treinados de TC de corpo inteiro. Em seguida, empregamos um modelo representativo, o STU-Net com múltiplas escalas de modelo, para realizar aprendizado de transferência entre modalidades e alvos. Nossos resultados experimentais mostram que (1) pode haver um efeito de gargalo em relação ao tamanho do conjunto de dados no ajuste fino, com mais melhorias em conjuntos de dados pequenos e grandes do que nos de tamanho médio. (2) Modelos pré-treinados em TC de corpo inteiro demonstram transferência de modalidade eficaz, se adaptando bem a outras modalidades como a RM. (3) O pré-treinamento na TC de corpo inteiro não só suporta um desempenho forte na detecção de estruturas, mas também mostra eficácia na detecção de lesões, demonstrando adaptabilidade em tarefas de alvo. Esperamos que essa avaliação aberta em larga escala de aprendizado de transferência possa direcionar pesquisas futuras em segmentação de imagens médicas volumétricas.
AdamW tem sido o otimizador padrão para pré-treinamento de transformers. Por muitos anos, nossa comunidade tem buscado otimizadores mais rápidos e estáveis com resultados positivos restritos. Neste trabalho, propomos uma modificação de uma única linha no Pytorch para qualquer otimizador baseado em momento, que renomeamos como Otimizador Cauteloso, por exemplo, C-AdamW e C-Lion. Nosso resultado teórico mostra que essa modificação preserva a função Hamiltoniana do Adam e não quebra a garantia de convergência sob a análise de Lyapunov. Além disso, uma nova família inteira de otimizadores é revelada por nossa visão teórica. Dentre eles, escolhemos o mais simples para experimentos empíricos, demonstrando aceleração no pré-treinamento de Llama e MAE em até 1,47 vezes. O código está disponível em https://github.com/kyleliang919/C-Optim
A geração de vídeos de narrativa (SVG) surgiu recentemente como uma tarefa para criar vídeos longos, com múltiplos movimentos e cenas que representam consistentemente a história descrita no roteiro de texto de entrada. O SVG possui um grande potencial para a criação de conteúdo diversificado em mídia e entretenimento; no entanto, também apresenta desafios significativos: (1) os objetos devem exibir uma variedade de movimentos complexos e detalhados, (2) múltiplos objetos precisam aparecer consistentemente em diferentes cenas e (3) os sujeitos podem exigir múltiplos movimentos com transições suaves dentro de uma única cena. Para enfrentar esses desafios, propomos o DreamRunner, um novo método de geração de vídeo a partir de histórias: Primeiramente, estruturamos o roteiro de entrada usando um grande modelo de linguagem (LLM) para facilitar tanto o planejamento de cena em nível grosseiro quanto o planejamento de layout e movimento em nível de objeto detalhado. Em seguida, o DreamRunner apresenta adaptação de teste com recuperação aumentada para capturar prioridades de movimento alvo para objetos em cada cena, apoiando a personalização de movimento diversificada com base em vídeos recuperados, facilitando assim a geração de novos vídeos com movimentos complexos e roteirizados. Por fim, propomos um novo módulo de atenção 3D baseado em regiões espaço-temporais e injeção de prioridades SR3AI para vinculação de movimento de objeto detalhado e controle semântico quadro a quadro. Comparamos o DreamRunner com várias bases de linha SVG, demonstrando um desempenho de ponta em consistência de personagens, alinhamento de texto e transições suaves. Além disso, o DreamRunner exibe uma forte capacidade de seguir condições detalhadas na geração composicional de texto para vídeo, superando significativamente as bases no T2V-ComBench. Por fim, validamos a capacidade robusta do DreamRunner em gerar interações multi-objetos com exemplos qualitativos.
Os tokenizadores visuais são fundamentais para a geração de imagens. Eles convertem dados visuais em tokens discretos, permitindo que modelos baseados em transformadores se destaquem na geração de imagens. Apesar de seu sucesso, os tokenizadores baseados em VQ, como o VQGAN, enfrentam limitações significativas devido aos tamanhos de vocabulário restritos. Simplesmente expandir o livro de códigos frequentemente leva a instabilidade no treinamento e diminuição no desempenho, tornando a escalabilidade um desafio crítico. Neste trabalho, introduzimos a Quantização Fatorizada (FQ), uma abordagem inovadora que revitaliza os tokenizadores baseados em VQ, decompondo um grande livro de códigos em múltiplos sub-livros de códigos independentes. Essa fatorização reduz a complexidade de busca de grandes livros de códigos, possibilitando uma tokenização visual mais eficiente e escalável. Para garantir que cada sub-livro de códigos capture informações distintas e complementares, propomos uma regularização de desemaranhamento que reduz explicitamente a redundância, promovendo diversidade entre os sub-livros de códigos. Além disso, integramos o aprendizado de representação ao processo de treinamento, aproveitando modelos de visão pré-treinados como CLIP e DINO para infundir riqueza semântica nas representações aprendidas. Esse design garante que nosso tokenizador capture diversos níveis semânticos, resultando em representações mais expressivas e desemaranhadas. Experimentos mostram que o modelo FQGAN proposto melhora substancialmente a qualidade de reconstrução dos tokenizadores visuais, alcançando um desempenho de ponta. Demonstramos ainda que este tokenizador pode ser efetivamente adaptado para a geração de imagens auto-regressiva. https://showlab.github.io/FQGAN
Hipothetizamos que o histórico visual de um usuário com imagens refletindo sua vida diária oferece insights valiosos sobre seus interesses e preferências, e pode ser aproveitado para personalização. Entre os muitos desafios para alcançar esse objetivo, o principal é a diversidade e ruídos no histórico visual, contendo imagens não necessariamente relacionadas a uma tarefa de recomendação, não refletindo necessariamente o interesse do usuário, ou até mesmo não sendo relevantes para preferências. Os sistemas de recomendação existentes geralmente se baseiam em registros de interação do usuário específicos da tarefa, como histórico de compras online para recomendações de compras, ou se concentram em sinais de texto. Propomos uma abordagem inovadora, VisualLens, que extrai, filtra e aprimora representações de imagens, e aproveita esses sinais para personalização. Criamos dois novos benchmarks com históricos visuais agnósticos à tarefa, e demonstramos que nosso método melhora em relação às recomendações de última geração em 5-10% no Hit@3, e supera o GPT-4o em 2-5%. Nossa abordagem abre caminho para recomendações personalizadas em cenários onde os métodos tradicionais falham.
Apresentamos uma maneira de aprender conceitos novos usando apenas suas descrições textuais. Chamamos esse método de Transferência de Conhecimento. De forma semelhante à percepção humana, aproveitamos a interação entre modalidades para introduzir novos conceitos. Nossa hipótese é que em um codificador visual pré-treinado existem características de baixo nível já aprendidas o suficiente (por exemplo, forma, aparência, cor) que podem ser usadas para descrever conceitos de alto nível previamente desconhecidos. Ao ser fornecido com uma descrição textual do conceito novo, nosso método funciona alinhando as características de baixo nível conhecidas do codificador visual com sua descrição textual de alto nível. Mostramos que a Transferência de Conhecimento pode introduzir com sucesso conceitos novos em modelos multimodais, de maneira muito eficiente, exigindo apenas uma descrição do conceito alvo. Nossa abordagem é compatível tanto com codificadores textuais e visuais separados (por exemplo, CLIP) quanto com parâmetros compartilhados entre modalidades. Também demonstramos que, seguindo o mesmo princípio, a Transferência de Conhecimento pode aprimorar conceitos já conhecidos pelo modelo. Aproveitando a Transferência de Conhecimento, melhoramos o desempenho de zero-shot em diferentes tarefas, como classificação, segmentação, recuperação de imagem-texto e legendagem.
A transição da arquitetura x86 para ARM está se tornando cada vez mais comum em diversos domínios, principalmente impulsionada pela eficiência energética da ARM e pelo desempenho aprimorado em setores tradicionais. No entanto, essa mudança de ISA apresenta desafios significativos, principalmente devido ao extenso ecossistema legado de software x86 e à falta de portabilidade entre ecossistemas proprietários e pilhas de software. Este artigo apresenta o CRT, um transpilador leve baseado em LLM que converte automaticamente o assembly x86 para assembly ARM. Nossa abordagem preenche a lacuna arquitetural fundamental entre a CISC baseada em x86 e a RISC baseada em ARM, preservando a semântica do programa e otimizando o desempenho. Avaliamos o CRT em diversas aplicações do mundo real, alcançando uma precisão de tradução de 79,25% de x86 para ARMv5 em nosso conjunto abrangente de testes, e uma precisão de 88,68% de x86 para RISC-V. Em implantações práticas no hardware Apple M2 (ARMv8), nosso código transpilado alcança um aumento de velocidade de 1,73 vezes em comparação com o mecanismo de virtualização Rosetta 2 da Apple, ao mesmo tempo que proporciona uma eficiência de memória 2,41 vezes maior e um consumo de energia 1,47 vezes melhor. Por meio de testes e análises, demonstramos que o CRT navega com sucesso na divisão CISC/RISC e gera código RISC corretamente executável, apesar das barreiras de "linguagem" da máquina. Disponibilizamos nosso código, modelos, conjuntos de dados de treinamento e benchmarks em: https://ahmedheakl.github.io/asm2asm/.
Os Modelos Multimodais Grandes (LMMs) existentes geralmente se concentram apenas em algumas regiões e idiomas. À medida que os LMMs continuam a melhorar, é cada vez mais importante garantir que compreendam os contextos culturais, respeitem sensibilidades locais e apoiem idiomas de recursos limitados, tudo isso integrando efetivamente pistas visuais correspondentes. Em busca de modelos multimodais globais culturalmente diversos, nosso proposto Benchmark Todas as Línguas Importam (ALM-bench) representa o maior e mais abrangente esforço até o momento para avaliar LMMs em 100 idiomas. O ALM-bench desafia os modelos existentes testando sua capacidade de compreender e raciocinar sobre imagens culturalmente diversas associadas a texto em vários idiomas, incluindo muitos idiomas de recursos limitados tradicionalmente sub-representados na pesquisa de LMM. O benchmark oferece um framework de avaliação robusto e detalhado apresentando vários formatos de perguntas, incluindo verdadeiro/falso, múltipla escolha e perguntas abertas, que são ainda divididas em categorias de respostas curtas e longas. O design do ALM-bench garante uma avaliação abrangente da capacidade de um modelo lidar com diferentes níveis de dificuldade em raciocínio visual e linguístico. Para capturar a rica tapeçaria das culturas globais, o ALM-bench cura cuidadosamente conteúdo de 13 aspectos culturais distintos, que vão desde tradições e rituais até personalidades famosas e celebrações. Através disso, o ALM-bench não apenas fornece um campo de testes rigoroso para LMMs de código aberto e fechado de ponta, mas também destaca a importância da inclusão cultural e linguística, incentivando o desenvolvimento de modelos que possam atender efetivamente diversas populações globais. Nosso benchmark está publicamente disponível.
A geração e edição de cenas 3D baseadas em texto possuem um potencial significativo para otimizar a criação de conteúdo por meio de interações intuitivas do usuário. Enquanto avanços recentes aproveitam o Splatting Gaussiano 3D (3DGS) para renderização em tempo real de alta fidelidade, os métodos existentes frequentemente são especializados e focados em tarefas específicas, carecendo de um framework unificado tanto para geração quanto para edição. Neste artigo, apresentamos o SplatFlow, um framework abrangente que aborda essa lacuna ao possibilitar a geração e edição direta de 3DGS. O SplatFlow é composto por dois componentes principais: um modelo de fluxo retificado (RF) multi-visões e um Decodificador de Splatting Gaussiano (GSDecoder). O modelo RF multi-visões opera no espaço latente, gerando imagens multi-visões, profundidades e poses de câmera simultaneamente, condicionadas a prompts de texto, lidando assim com desafios como escalas de cena diversas e trajetórias de câmera complexas em ambientes do mundo real. Em seguida, o GSDecoder traduz eficientemente essas saídas latentes em representações 3DGS por meio de um método 3DGS feed-forward. Aproveitando técnicas de inversão e inpainting sem necessidade de treinamento, o SplatFlow possibilita uma edição 3DGS contínua e suporta uma ampla gama de tarefas 3D - incluindo edição de objetos, síntese de novas visualizações e estimativa de poses de câmera - dentro de um framework unificado sem exigir pipelines complexos adicionais. Validamos as capacidades do SplatFlow nos conjuntos de dados MVImgNet e DL3DV-7K, demonstrando sua versatilidade e eficácia em várias tarefas de geração, edição e inpainting 3D.
Tem sido bem conhecido que a Cadeia de Pensamento pode melhorar significativamente o desempenho dos LLMs em tarefas complexas. No entanto, devido à introdução de velocidades de inferência mais lentas e custos computacionais mais altos, muitas pesquisas têm tentado utilizar CoT implícito, que não exige que os LLMs gerem explicitamente as etapas intermediárias. No entanto, ainda há uma lacuna entre a eficácia deles e os métodos típicos de CoT explícito. Isso nos deixa com a dúvida se o CoT implícito realmente equivale ao CoT explícito. Portanto, neste estudo, abordamos essa questão por meio de experimentos. Investigamos as informações das etapas intermediárias a partir dos estados ocultos do modelo quando ele está realizando CoT implícito. Os resultados indicam surpreendentemente que os LLMs dificilmente consideram as etapas intermediárias, sugerindo que eles podem simplesmente depender da experiência em vez de um raciocínio estrito passo a passo. Além disso, descobrimos que as capacidades de raciocínio implícito dos LLMs são suscetíveis e instáveis, reafirmando a necessidade de CoT explícito para apoiar efetivamente tarefas complexas.
Um desafio fundamental em aberto na escalabilidade moderna de LLM é a falta de compreensão em torno das capacidades emergentes. Em particular, sabe-se que a perda de pré-treinamento do modelo de linguagem é altamente previsível como uma função de computação. No entanto, as capacidades subsequentes são muito menos previsíveis - às vezes até exibindo saltos emergentes - o que torna desafiador antecipar as capacidades de modelos futuros. Neste trabalho, primeiro propomos a tarefa de previsão de emergência: dado o acesso a LLMs atuais que têm precisão aleatória de poucas amostras em uma tarefa, podemos prever se os modelos futuros (GPT-N+1) terão precisão não trivial nessa tarefa? Em seguida, descobrimos uma percepção simples para esse problema: o ajuste fino de LLMs em uma determinada tarefa pode deslocar o ponto na escalabilidade em que a emergência ocorre em direção a modelos menos capazes. Para operacionalizar essa percepção, podemos ajustar finamente LLMs com quantidades variadas de dados e ajustar uma função paramétrica que prevê quando a emergência ocorrerá (ou seja, "leis de emergência"). Validamos essa abordagem usando quatro benchmarks padrão de PNL onde LLMs de código aberto em larga escala já demonstram emergência (MMLU, GSM8K, CommonsenseQA e CoLA). Usando apenas LLMs em pequena escala, descobrimos que, em alguns casos, podemos prever com precisão se modelos treinados com até 4x mais computação emergiram. Por fim, apresentamos um estudo de caso de dois usos realistas para previsão de emergência.
Modelos de sequência modernos (por exemplo, Transformers, RNNs lineares, etc.) surgiram como espinha dorsal dominante dos recentes frameworks de aprendizado profundo, principalmente devido à sua eficiência, poder representacional e/ou capacidade de capturar dependências de longo alcance. A adoção desses modelos de sequência para dados estruturados em grafo tem ganhado popularidade recentemente como alternativa às Redes Neurais de Passagem de Mensagens (MPNNs). No entanto, há uma falta de uma base comum sobre o que constitui um bom modelo de sequência de grafo, e uma descrição matemática dos benefícios e deficiências na adoção de diferentes modelos de sequência para aprendizado em grafos. Para isso, apresentamos primeiro o Modelo de Sequência de Grafo (GSM), um framework unificador para adoção de modelos de sequência para grafos, composto por três etapas principais: (1) Tokenização, que traduz o grafo em um conjunto de sequências; (2) Codificação Local, que codifica os vizinhos locais ao redor de cada nó; e (3) Codificação Global, que emprega um modelo de sequência escalável para capturar dependências de longo alcance dentro das sequências. Esse framework nos permite entender, avaliar e comparar o poder de diferentes espinhas dorsais de modelos de sequência em tarefas de grafo. Nossas avaliações teóricas do poder de representação dos Transformers e dos modernos modelos recorrentes através da perspectiva de tarefas globais e locais em grafos mostram que existem aspectos negativos e positivos para ambos os tipos de modelos. Com base nessa observação, apresentamos o GSM++, um modelo híbrido rápido que utiliza o algoritmo de Agrupamento de Afinidade Hierárquica (HAC) para tokenizar o grafo em sequências hierárquicas, e em seguida emprega uma arquitetura híbrida de Transformer para codificar essas sequências. Nossos resultados teóricos e experimentais apoiam o design do GSM++, mostrando que o GSM++ supera as bases em avaliações de benchmark na maioria dos casos.
Estudamos a segmentação de partes em mundo aberto em 3D: segmentando qualquer parte em qualquer objeto com base em qualquer consulta de texto. Métodos anteriores são limitados em categorias de objetos e vocabulários de partes. Avanços recentes em IA têm demonstrado capacidades eficazes de reconhecimento em mundo aberto em 2D. Inspirados por esse progresso, propomos um modelo de previsão direta em mundo aberto para segmentação de partes em 3D que pode ser aplicado de forma zero-shot a qualquer objeto. Nossa abordagem, chamada Find3D, treina um modelo de incorporação de pontos de categoria geral em ativos 3D em grande escala da internet sem nenhuma anotação humana. Ele combina um mecanismo de dados, alimentado por modelos fundamentais para anotar dados, com um método de treinamento contrastivo. Alcançamos um desempenho forte e generalização em vários conjuntos de dados, com uma melhoria de até 3x no mIoU em relação ao próximo melhor método. Nosso modelo é de 6x a mais de 300x mais rápido do que os baselines existentes. Para incentivar a pesquisa em segmentação de partes em 3D em mundo aberto de categoria geral, também disponibilizamos um benchmark para objetos e partes gerais. Site do projeto: https://ziqi-ma.github.io/find3dsite/
A Estimação de Pose Agnóstica de Categoria (CAPE) localiza keypoints em diversas categorias de objetos com um único modelo, utilizando uma ou algumas imagens de suporte anotadas. Trabalhos recentes têm demonstrado que o uso de um grafo de pose (ou seja, tratando keypoints como nós em um grafo ao invés de pontos isolados) ajuda a lidar com oclusões e quebra de simetria. No entanto, esses métodos pressupõem um grafo de pose estático com arestas de peso igual, resultando em resultados subótimos. Apresentamos o EdgeCape, um novo framework que supera essas limitações ao prever os pesos das arestas do grafo, otimizando a localização. Para aproveitar ainda mais os conhecimentos estruturais prévios, propomos a integração do Viés Estrutural Markoviano, que modula a interação de autoatenção entre nós com base no número de saltos entre eles. Mostramos que isso melhora a capacidade do modelo de capturar dependências espaciais globais. Avaliado no benchmark MP-100, que inclui 100 categorias e mais de 20 mil imagens, o EdgeCape alcança resultados de ponta na configuração de 1 disparo e lidera entre métodos de tamanho semelhante na configuração de 5 disparos, melhorando significativamente a precisão de localização de keypoints. Nosso código está disponível publicamente.