Artigos de pesquisa em IA selecionados diariamente com traduções
A descoberta do OpenAI o1 destaca o potencial de aprimorar o raciocínio para melhorar o LLM. No entanto, a maioria das pesquisas em raciocínio tem se concentrado em tarefas matemáticas, deixando domínios como a medicina pouco explorados. O domínio médico, embora distinto da matemática, também exige um raciocínio robusto para fornecer respostas confiáveis, dadas as altas normas da assistência médica. No entanto, verificar o raciocínio médico é desafiador, ao contrário do que ocorre com a matemática. Para lidar com isso, propomos problemas médicos verificáveis com um verificador médico para verificar a correção das saídas do modelo. Essa natureza verificável possibilita avanços no raciocínio médico por meio de uma abordagem em duas etapas: (1) usar o verificador para orientar a busca por uma trajetória de raciocínio complexa para ajustar finamente os LLMs, (2) aplicar aprendizado por reforço (RL) com recompensas baseadas no verificador para aprimorar ainda mais o raciocínio complexo. Por fim, apresentamos o HuatuoGPT-o1, um LLM médico capaz de raciocínio complexo, que supera baselines gerais e específicos da área médica usando apenas 40 mil problemas verificáveis. Experimentos mostram que o raciocínio complexo melhora a resolução de problemas médicos e se beneficia mais do RL. Esperamos que nossa abordagem inspire avanços no raciocínio em domínios médicos e especializados.
Apresentamos o FLUX de 1,58 bits, a primeira abordagem bem-sucedida para quantizar o modelo de geração de texto para imagem de última geração, FLUX.1-dev, usando pesos de 1,58 bits (ou seja, valores em {-1, 0, +1}) mantendo desempenho comparável na geração de imagens de 1024 x 1024. Notavelmente, nosso método de quantização opera sem acesso aos dados de imagem, dependendo exclusivamente da auto-supervisão do modelo FLUX.1-dev. Além disso, desenvolvemos um kernel personalizado otimizado para operações de 1,58 bits, alcançando uma redução de 7,7 vezes no armazenamento do modelo, uma redução de 5,1 vezes na memória de inferência e uma latência de inferência aprimorada. Avaliações extensas nos benchmarks GenEval e T2I Compbench demonstram a eficácia do FLUX de 1,58 bits em manter a qualidade de geração enquanto aprimora significativamente a eficiência computacional.
Baseando-se nos fundamentos da modelagem de linguagem no processamento de linguagem natural, a Previsão do Próximo Token (PPT) evoluiu para um objetivo de treinamento versátil para tarefas de aprendizado de máquina em várias modalidades, alcançando sucesso considerável. À medida que os Modelos de Linguagem Grandes (MLGs) avançaram para unificar tarefas de compreensão e geração dentro da modalidade textual, pesquisas recentes mostraram que tarefas de diferentes modalidades também podem ser efetivamente encapsuladas no framework de PPT, transformando informações multimodais em tokens e prevendo o próximo dado o contexto. Esta pesquisa apresenta uma taxonomia abrangente que unifica tanto a compreensão quanto a geração no aprendizado multimodal sob a perspectiva de PPT. A taxonomia proposta abrange cinco aspectos-chave: Tokenização multimodal, arquiteturas de modelos MMNTP, representação unificada de tarefas, conjuntos de dados e avaliação, e desafios abertos. Esta nova taxonomia tem como objetivo auxiliar os pesquisadores em sua exploração da inteligência multimodal. Um repositório GitHub associado, que coleta os últimos artigos e repositórios, está disponível em https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction
A orientação é um atributo fundamental dos objetos, crucial para compreender sua posição espacial e disposição em imagens. No entanto, soluções práticas para a estimativa precisa de orientação a partir de uma única imagem ainda são pouco exploradas. Neste trabalho, apresentamos Orient Anything, o primeiro modelo especializado e fundamental projetado para estimar a orientação de objetos em uma imagem única e de visualização livre. Devido à escassez de dados rotulados, propomos extrair conhecimento do mundo 3D. Ao desenvolver um pipeline para anotar a face frontal de objetos 3D e renderizar imagens a partir de visualizações aleatórias, coletamos 2 milhões de imagens com anotações de orientação precisas. Para aproveitar totalmente o conjunto de dados, projetamos um objetivo de treinamento robusto que modela a orientação 3D como distribuições de probabilidade de três ângulos e prevê a orientação do objeto ajustando essas distribuições. Além disso, empregamos várias estratégias para melhorar a transferência de sintético para real. Nosso modelo alcança uma precisão de estimativa de orientação de última geração em imagens renderizadas e reais e demonstra uma impressionante capacidade de zero-shot em vários cenários. Mais importante ainda, nosso modelo aprimora muitas aplicações, como compreensão e geração de conceitos espaciais complexos e ajuste de pose de objetos 3D.
Os atuais modelos de linguagem multimodais de grande escala (MLLMs) enfrentam dificuldades com a compreensão detalhada ou precisa de elementos visuais, embora ofereçam percepção abrangente e raciocínio em um espectro de aplicações de visão. Estudos recentes têm desenvolvido ferramentas ou unificado tarefas visuais específicas em um framework autoregressivo, frequentemente em detrimento do desempenho multimodal geral. Para lidar com essa questão e aprimorar os MLLMs com tarefas visuais de forma escalável, propomos a Otimização de Preferência de Tarefas (TPO), um método inovador que utiliza preferências de tarefas diferenciáveis derivadas de típicas tarefas visuais detalhadas. O TPO introduz tokens de tarefas aprendíveis que estabelecem conexões entre múltiplas cabeças específicas de tarefas e o MLLM. Ao aproveitar rótulos visuais ricos durante o treinamento, o TPO aprimora significativamente as capacidades multimodais do MLLM e o desempenho específico da tarefa. Através do treinamento conjunto de várias tarefas dentro do TPO, observamos benefícios sinérgicos que elevam o desempenho individual da tarefa além do que é alcançável por metodologias de treinamento de tarefa única. Nossa implementação dessa abordagem com VideoChat e LLaVA demonstra uma melhoria geral de 14,6% no desempenho multimodal em comparação com modelos de referência. Além disso, o MLLM-TPO demonstra robustas capacidades de zero-shot em várias tarefas, apresentando desempenho comparável a modelos supervisionados de última geração. O código será disponibilizado em https://github.com/OpenGVLab/TPO.
Neste trabalho, investigamos a composição automática de design a partir de elementos gráficos multimodais. Embora estudos recentes tenham desenvolvido vários modelos generativos para design gráfico, geralmente enfrentam as seguintes limitações: eles se concentram apenas em determinadas subtarefas e estão longe de alcançar a tarefa de composição de design; não consideram as informações hierárquicas dos designs gráficos durante o processo de geração. Para lidar com essas questões, introduzimos o princípio do design em camadas nos Modelos Multimodais Grandes (LMMs) e propomos uma abordagem inovadora, chamada LaDeCo, para realizar essa tarefa desafiadora. Especificamente, LaDeCo primeiro realiza o planejamento em camadas para um conjunto de elementos dado, dividindo os elementos de entrada em diferentes camadas semânticas de acordo com seus conteúdos. Com base nos resultados do planejamento, prevê subsequentemente atributos de elementos que controlam a composição do design de maneira em camadas e inclui a imagem renderizada das camadas geradas anteriormente no contexto. Com esse design perspicaz, LaDeCo decompõe a tarefa difícil em etapas menores e gerenciáveis, tornando o processo de geração mais suave e claro. Os resultados experimentais demonstram a eficácia do LaDeCo na composição de design. Além disso, mostramos que o LaDeCo possibilita algumas aplicações interessantes no design gráfico, como ajuste de resolução, preenchimento de elementos, variação de design, etc. Além disso, ele supera até mesmo os modelos especializados em algumas subtarefas de design sem nenhum treinamento específico da tarefa.
A geração de vídeo personalizado sem necessidade de treinamento prévio tem recebido significativa atenção devido ao seu substancial potencial de aplicação. Os métodos existentes dependem de modelos adicionais para extrair e injetar características de sujeitos de referência, assumindo que o Modelo de Difusão de Vídeo (VDM) sozinho é insuficiente para a geração de vídeo personalizado sem necessidade de treinamento prévio. No entanto, esses métodos frequentemente enfrentam dificuldades em manter a aparência consistente do sujeito devido a técnicas subótimas de extração e injeção de características. Neste artigo, revelamos que o VDM possui inerentemente a capacidade de extrair e injetar características do sujeito. Partindo de abordagens heurísticas anteriores, introduzimos um novo framework que aproveita a capacidade inerente do VDM para possibilitar a geração de vídeo personalizado sem necessidade de treinamento prévio de alta qualidade. Especificamente, para a extração de características, inserimos diretamente imagens de referência no VDM e utilizamos seu processo intrínseco de extração de características, que não apenas fornece características detalhadas, mas também se alinha significativamente com o conhecimento prévio do VDM. Para a injeção de características, desenvolvemos uma interação bidirecional inovadora entre características do sujeito e conteúdo gerado por meio de autoatenção espacial dentro do VDM, garantindo que o VDM tenha uma melhor fidelidade ao sujeito mantendo a diversidade do vídeo gerado. Experimentos tanto na geração de vídeo personalizado de humanos quanto de objetos validam a eficácia de nosso framework.
A explosão cambriana de modelos de difusão pré-treinados facilmente acessíveis sugere uma demanda por métodos que combinem vários modelos de difusão pré-treinados diferentes sem incorrer no significativo ônus computacional de re-treinar um modelo combinado maior. Neste artigo, formulamos o problema de combinar múltiplos modelos de difusão pré-treinados na etapa de geração sob um novo framework proposto denominado superposição. Teoricamente, derivamos a superposição a partir de princípios rigorosos derivados da célebre equação de continuidade e projetamos dois novos algoritmos feitos sob medida para combinar modelos de difusão no SuperDiff. O SuperDiff aproveita um novo estimador de densidade de Itô escalável para a log-verossimilhança da EDS de difusão, o que não gera nenhum custo adicional em comparação com o estimador bem conhecido de Hutchinson necessário para cálculos de divergência. Demonstramos que o SuperDiff é escalável para grandes modelos de difusão pré-treinados, pois a superposição é realizada exclusivamente por meio de composição durante a inferência, e também desfruta de uma implementação sem complicações, pois combina diferentes campos vetoriais pré-treinados por meio de um esquema automatizado de reponderação. Notavelmente, mostramos que o SuperDiff é eficiente durante o tempo de inferência e imita operadores de composição tradicionais, como o OR lógico e o AND lógico. Demonstramos empiricamente a utilidade do uso do SuperDiff para gerar imagens mais diversas no CIFAR-10, edição de imagem condicionada por prompt mais fiel usando Diffusion Estável e melhoria no design de estruturas de proteínas incondicionalmente de novo. https://github.com/necludov/super-diffusion
A afinação de grandes modelos de linguagem (LLMs) para tarefas secundárias é uma abordagem amplamente adotada, mas frequentemente resulta em degradação de segurança em LLMs alinhados com a segurança. Atualmente, muitas soluções abordam esse problema incorporando dados de segurança adicionais, o que pode ser impraticável em muitos casos. Neste artigo, abordamos a questão: Como podemos melhorar o desempenho da tarefa secundária enquanto preservamos a segurança nos LLMs sem depender de dados de segurança adicionais? Propomos um método simples e eficaz que mantém a segurança inerente dos LLMs enquanto aprimora o desempenho de suas tarefas secundárias: fundir os pesos dos modelos alinhados com a segurança pré e pós-afinação. Resultados experimentais em várias tarefas secundárias, modelos e métodos de fusão demonstram que essa abordagem mitiga efetivamente a degradação de segurança enquanto melhora o desempenho da tarefa secundária, oferecendo uma solução prática para adaptar LLMs alinhados com a segurança.
A recuperação de dados de grafos é crucial para aumentar os grandes modelos de linguagem (LLM) com conhecimento de domínio aberto e dados empresariais privados, sendo também um componente-chave no recente sistema GraphRAG (edge et al., 2024). Apesar de décadas de pesquisa em grafos de conhecimento e resposta a perguntas de base de conhecimento, os principais frameworks de LLM (por exemplo, Langchain e LlamaIndex) possuem apenas suporte mínimo para recuperação de grafos de conhecimento enciclopédico modernos como o Wikidata. Neste artigo, analisamos a causa raiz e sugerimos que grafos de conhecimento RDF modernos (por exemplo, Wikidata, Freebase) são menos eficientes para LLMs devido a esquemas excessivamente grandes que excedem em muito a janela de contexto típica de LLM, uso de identificadores de recursos, tipos de relação sobrepostos e falta de normalização. Como solução, propomos visualizações de grafos de propriedades sobre o grafo RDF subjacente que podem ser consultadas de forma eficiente por LLMs usando Cypher. Implementamos essa ideia no Wikidata e introduzimos o CypherBench, o primeiro benchmark com 11 grafos de propriedades em larga escala e multi-domínio, com 7,8 milhões de entidades e mais de 10.000 perguntas. Para alcançar isso, enfrentamos vários desafios-chave, incluindo o desenvolvimento de um mecanismo de conversão de RDF para grafo de propriedades, a criação de um pipeline sistemático para geração de tarefas de texto para Cypher e o design de novas métricas de avaliação.
Construir um conjunto de dados de perguntas e respostas em figuras em grande escala requer uma quantidade considerável de trabalho, desde a coleta e seleção de figuras até a extração de atributos como texto, números e cores, e a geração de perguntas e respostas. Embora os avanços recentes em LLMs tenham levado a esforços para sintetizar figuras, a maioria desses esforços se concentra principalmente na geração de perguntas e respostas. Além disso, a criação de figuras diretamente usando LLMs frequentemente encontra problemas como erros de código, figuras semelhantes e conteúdo repetitivo nas figuras. Para abordar essa questão, apresentamos SBSFigures (Figuras Sintéticas de Estágio a Estágio), um conjunto de dados para pré-treinamento de perguntas e respostas em figuras. Nosso pipeline proposto permite a criação de figuras de gráficos com anotações completas dos dados visualizados e anotações densas de perguntas e respostas sem nenhum processo de anotação manual. Nosso pipeline de estágio a estágio torna possível criar eficientemente figuras de diferentes temas e aparências, minimizando erros de código. Nossas SBSFigures demonstram um forte efeito de pré-treinamento, possibilitando um treinamento eficiente com uma quantidade limitada de dados reais de gráficos, a partir de nossos pesos pré-treinados.