Artigos de pesquisa em IA selecionados diariamente com traduções
A Visão Computacional (CV) ainda não conseguiu alcançar completamente a generalização de tarefas sem treinamento observada no Processamento de Linguagem Natural (NLP), apesar de seguir muitos dos marcos estabelecidos no NLP, como grandes modelos de transformadores, extenso pré-treinamento e o paradigma de auto-regressão, entre outros. Neste artigo, exploramos a ideia de que a CV adota definições de tarefas discretas e terminológicas (por exemplo, "segmentação de imagem"), o que pode ser uma barreira-chave para a generalização de tarefas sem treinamento. Nossa hipótese é que, sem compreender verdadeiramente as tarefas previamente vistas - devido a essas definições terminológicas - os modelos profundos têm dificuldade em generalizar para tarefas novas. Para verificar isso, introduzimos Instruções Explicativas, que fornecem uma maneira intuitiva de definir os objetivos da tarefa de CV por meio de transformações linguísticas detalhadas, das imagens de entrada para as saídas. Criamos um conjunto de dados em grande escala composto por 12 milhões de triplas "entrada de imagem para instrução explicativa para saída", e treinamos um modelo de visão-linguagem baseado em auto-regressão (AR-based VLM) que recebe tanto imagens quanto instruções explicativas como entrada. Ao aprender a seguir essas instruções, o AR-based VLM alcança capacidades de zero-shot a nível de instrução para tarefas previamente vistas e demonstra uma forte generalização de zero-shot para tarefas de CV não vistas. O código e o conjunto de dados estarão disponíveis abertamente em nosso repositório no GitHub.
Os modelos de linguagem multimodais de grande escala (MLLMs) possuem um potencial significativo no campo médico, mas suas capacidades são frequentemente limitadas pela falta de dados em certos domínios médicos, destacando a necessidade de compreender que tipos de imagens podem ser utilizados pelos MLLMs para generalização. Pesquisas atuais sugerem que o treinamento multi-tarefa supera o treinamento de tarefa única, uma vez que diferentes tarefas podem se beneficiar mutuamente, porém muitas vezes negligenciam as relações internas dentro dessas tarefas, fornecendo orientações limitadas na seleção de conjuntos de dados para aprimorar tarefas específicas. Para analisar esse fenômeno, tentamos empregar a generalização composicional (CG) - a capacidade dos modelos de entender combinações novas recombinando elementos aprendidos - como um framework orientador. Uma vez que imagens médicas podem ser precisamente definidas por Modalidade, Área Anatômica e Tarefa, proporcionando naturalmente um ambiente para explorar a CG. Portanto, reunimos 106 conjuntos de dados médicos para criar o Med-MAT para experimentos abrangentes. Os experimentos confirmaram que os MLLMs podem utilizar a CG para compreender imagens médicas não vistas e identificaram a CG como um dos principais impulsionadores da generalização observada no treinamento multi-tarefa. Adicionalmente, estudos adicionais demonstraram que a CG apoia efetivamente conjuntos de dados com dados limitados e oferece desempenho consistente em diferentes arquiteturas, destacando sua versatilidade e ampla aplicabilidade. O Med-MAT está disponível publicamente em https://github.com/FreedomIntelligence/Med-MAT.
O notável desempenho de modelos como o OpenAI o1 pode ser atribuído à sua capacidade de emular um pensamento de longo prazo semelhante ao humano durante a inferência. Esses modelos empregam processos de cadeia de pensamento estendida (CoT), explorando múltiplas estratégias para aprimorar as capacidades de resolução de problemas. No entanto, uma questão crítica permanece: Como dimensionar inteligentemente e de forma eficiente os recursos computacionais durante os testes. Este artigo apresenta o primeiro estudo abrangente sobre o problema prevalente de pensar demais nesses modelos, onde recursos computacionais excessivos são alocados para problemas simples com benefícios mínimos. Introduzimos novas métricas de eficiência de ambas as perspectivas de resultado e processo para avaliar o uso racional de recursos computacionais por modelos semelhantes ao o1. Usando um paradigma de autoaprendizagem, propomos estratégias para mitigar o pensamento excessivo, otimizando os processos de raciocínio sem comprometer a precisão. Os resultados experimentais mostram que nossa abordagem reduz com sucesso a sobrecarga computacional, preservando o desempenho do modelo em uma variedade de conjuntos de testes com níveis de dificuldade variados, como GSM8K, MATH500, GPQA e AIME.
Os avanços recentes em modelagem generativa agora permitem a criação de conteúdo 4D (objetos 3D em movimento) controlado por prompts de texto. A geração 4D tem um grande potencial em aplicações como mundos virtuais, mídia e jogos, mas os métodos existentes oferecem controle limitado sobre a aparência e geometria do conteúdo gerado. Neste trabalho, introduzimos um método para animar objetos 3D fornecidos pelo usuário condicionando-os a prompts textuais para orientar a geração 4D, permitindo animações personalizadas enquanto mantemos a identidade do objeto original. Primeiramente, convertemos uma malha 3D em um Campo de Radiância Neural (NeRF) "estático" 4D que preserva os atributos visuais do objeto de entrada. Em seguida, animamos o objeto usando um modelo de difusão de Imagem para Vídeo conduzido por texto. Para melhorar o realismo do movimento, introduzimos um protocolo incremental de seleção de pontos de vista para amostrar perspectivas e promover movimentos realistas, e uma perda de Amostragem de Destilação de Pontuação (SDS) mascarada, que utiliza mapas de atenção para focar a otimização em regiões relevantes. Avaliamos nosso modelo em termos de coerência temporal, aderência aos prompts e fidelidade visual, e descobrimos que nosso método supera as bases que se baseiam em outras abordagens, alcançando melhorias de até três vezes na preservação de identidade medida pelos escores LPIPS, e equilibrando efetivamente a qualidade visual com o conteúdo dinâmico.
A rápida evolução dos grandes modelos de linguagem (LLMs) desbloqueou suas capacidades em tarefas avançadas de raciocínio, como resolução de problemas matemáticos, geração de código e análise jurídica. Central a esse progresso estão os algoritmos de raciocínio em tempo de inferência, que refinam as saídas explorando múltiplos caminhos de solução, ao custo de aumentar as demandas computacionais e as latências de resposta. Os sistemas de atendimento existentes falham em se adaptar aos comportamentos de escalonamento desses algoritmos ou à variação da dificuldade das consultas, levando a um uso ineficiente de recursos e a não atender às metas de latência. Apresentamos o Dynasor, um sistema que otimiza o cálculo em tempo de inferência para consultas de raciocínio de LLM. Ao contrário dos motores tradicionais, o Dynasor rastreia e agenda solicitações dentro de consultas de raciocínio e utiliza o Certaindex, um proxy que mede o progresso estatístico do raciocínio com base na certeza do modelo, para orientar a alocação de cálculo dinamicamente. O Dynasor coadapta o agendamento com o progresso do raciocínio: aloca mais cálculo para consultas difíceis, reduz o cálculo para as mais simples e encerra consultas pouco promissoras precocemente, equilibrando precisão, latência e custo. Em conjuntos de dados e algoritmos diversos, o Dynasor reduz o cálculo em até 50% no processamento em lote e mantém taxas de consulta 3,3 vezes mais altas ou SLOs de latência 4,7 vezes mais rigorosos no atendimento online.
Apresentamos o SWE-Gym, o primeiro ambiente para treinar agentes de engenharia de software do mundo real. O SWE-Gym contém 2.438 instâncias de tarefas de Python do mundo real, cada uma composta por uma base de código com um ambiente de execução executável, testes unitários e uma tarefa especificada em linguagem natural. Utilizamos o SWE-Gym para treinar agentes de engenharia de software baseados em modelos de linguagem, alcançando até 19% de ganhos absolutos na taxa de resolução nos populares conjuntos de testes SWE-Bench Verified e Lite. Também experimentamos com escalonamento no tempo de inferência através de verificadores treinados em trajetórias de agentes amostradas do SWE-Gym. Quando combinado com nossos agentes de SWE ajustados, alcançamos 32,0% e 26,0% no SWE-Bench Verified e Lite, respectivamente, refletindo um novo estado-da-arte para agentes de SWE de peso aberto. Para facilitar pesquisas adicionais, disponibilizamos publicamente o SWE-Gym, modelos e trajetórias de agentes.
Apresentamos o TangoFlux, um modelo generativo eficiente de Texto-para-Áudio (TTA) com 515M parâmetros, capaz de gerar até 30 segundos de áudio a 44.1kHz em apenas 3.7 segundos em uma única GPU A40. Um desafio chave na alinhamento de modelos TTA reside na dificuldade de criar pares de preferência, uma vez que o TTA carece de mecanismos estruturados como recompensas verificáveis ou respostas padrão disponíveis para Modelos de Linguagem Grandes (LLMs). Para lidar com isso, propomos a Otimização de Preferência Classificada por Aprendizado de Contraste (CRPO), um novo framework que gera e otimiza iterativamente dados de preferência para aprimorar o alinhamento do TTA. Demonstramos que o conjunto de dados de preferência de áudio gerado usando o CRPO supera as alternativas existentes. Com este framework, o TangoFlux alcança desempenho de ponta em benchmarks objetivos e subjetivos. Disponibilizamos todo o código e modelos em código aberto para apoiar pesquisas futuras na geração de TTA.
Como uma necessidade verificada, a edição consistente em imagens do mundo real continua sendo um desafio técnico decorrente de vários fatores incontroláveis, como poses de objetos, condições de iluminação e ambientes de fotografia. O Edicho entra com uma solução sem necessidade de treinamento baseada em modelos de difusão, apresentando um princípio de design fundamental de usar correspondência explícita de imagens para orientar a edição. Especificamente, os principais componentes incluem um módulo de manipulação de atenção e uma estratégia de denoising de orientação livre de classificador cuidadosamente refinada (CFG), ambos levando em consideração a correspondência pré-estimada. Esse algoritmo de tempo de inferência desfruta de uma natureza plug-and-play e é compatível com a maioria dos métodos de edição baseados em difusão, como ControlNet e BrushNet. Resultados extensivos demonstram a eficácia do Edicho na edição consistente entre imagens sob configurações diversas. Vamos disponibilizar o código para facilitar estudos futuros.
Apresentamos o PERSE, um método para construir um avatar generativo personalizado e animável a partir de um retrato de referência. Nosso modelo de avatar permite a edição de atributos faciais em um espaço latente contínuo e desembaraçado para controlar cada atributo facial, preservando a identidade do indivíduo. Para alcançar isso, nosso método começa sintetizando conjuntos de dados de vídeo 2D sintéticos em larga escala, nos quais cada vídeo contém mudanças consistentes na expressão facial e no ponto de vista, combinadas com uma variação em um atributo facial específico da entrada original. Propomos um novo pipeline para produzir vídeos 2D fotorrealistas de alta qualidade com edição de atributos faciais. Aproveitando este conjunto de dados de atributos sintéticos, apresentamos um método de criação de avatar personalizado baseado no 3D Gaussian Splatting, aprendendo um espaço latente contínuo e desembaraçado para manipulação intuitiva de atributos faciais. Para garantir transições suaves neste espaço latente, introduzimos uma técnica de regularização do espaço latente usando faces 2D interpoladas como supervisão. Comparado a abordagens anteriores, demonstramos que o PERSE gera avatares de alta qualidade com atributos interpolados, preservando a identidade da pessoa de referência.
Os rápidos avanços das tecnologias de modelos de linguagem grandes (LLM) levaram à introdução de LLMs de código aberto, ajustados para instrução, que possuem a mesma qualidade de geração de texto que os equivalentes de ponta, como o GPT-4. Enquanto a emergência desses modelos acelera a adoção das tecnologias LLM em ambientes de informações sensíveis, os autores desses modelos não divulgam os dados de treinamento necessários para a replicação dos resultados, tornando as conquistas exclusivas do modelo. Uma vez que esses modelos de código aberto também são multilíngues, isso, por sua vez, reduz os benefícios de treinar LLMs específicos para idiomas, uma vez que a eficiência aprimorada de computação de inferência se torna a única vantagem garantida desse procedimento custoso. Opções mais econômicas, como a extensão de vocabulário e o subsequente pré-treinamento contínuo, também são inibidas pela falta de acesso a dados de ajuste de instrução de alta qualidade, uma vez que esse é o principal fator por trás das capacidades de resolução de tarefas do LLM resultante. Para lidar com as limitações e reduzir os custos do pipeline de adaptação de idiomas, propomos a Propagação de Incorporação Aprendida (LEP). Ao contrário das abordagens existentes, nosso método possui requisitos menores de tamanho de dados de treinamento devido ao impacto mínimo no conhecimento existente do LLM, que reforçamos usando um procedimento de propagação de incorporação ad hoc inovador que permite pular a etapa de ajuste de instrução e, em vez disso, implantar o novo conhecimento de idioma diretamente em qualquer variante de instrução existente. Avaliamos quatro adaptações de vocabulário russo para LLaMa-3-8B e Mistral-7B, mostrando que o LEP é competitivo com métodos tradicionais de ajuste de instrução, alcançando desempenho comparável ao OpenChat 3.5 e LLaMa-3-8B-Instruct, com melhorias adicionais por meio de auto-calibração e ajuste contínuo aprimorando as capacidades de resolução de tarefas.
Apresentamos o OneKE, um sistema de extração de conhecimento guiado por esquema dockerizado, que pode extrair conhecimento da Web e de livros em PDF brutos, e suportar vários domínios (ciência, notícias, etc.). Especificamente, projetamos o OneKE com múltiplos agentes e uma base de conhecimento configurável. Diferentes agentes desempenham seus papéis respectivos, possibilitando suporte para vários cenários de extração. A base de conhecimento configurável facilita a configuração do esquema, a depuração e correção de casos de erro, melhorando ainda mais o desempenho. Avaliações empíricas em conjuntos de dados de referência demonstram a eficácia do OneKE, enquanto estudos de caso elucidam ainda mais sua adaptabilidade a diversas tarefas em múltiplos domínios, destacando seu potencial para amplas aplicações. Disponibilizamos o código-fonte em https://github.com/zjunlp/OneKE e lançamos um vídeo em http://oneke.openkg.cn/demo.mp4.
Recentemente, "visual o1" começou a entrar no campo de visão das pessoas, com expectativas de que este design de pensamento lento possa resolver tarefas de raciocínio visual, especialmente problemas matemáticos geométricos. No entanto, a realidade é que os atuais LVLMs (Large Vision Language Models) mal conseguem copiar com precisão uma figura geométrica, quanto mais compreender verdadeiramente a lógica complexa e as relações espaciais inerentes dentro das formas geométricas. Acreditamos que a cópia precisa (percepção forte) é o primeiro passo para o visual o1. Portanto, introduzimos o conceito de "percepção lenta" (SP), que orienta o modelo a perceber gradualmente combinações básicas de pontos e linhas, assim como nós humanos, reconstruímos estruturas geométricas complexas progressivamente. Existem duas etapas em SP: a) decomposição da percepção. A percepção não é instantânea. Nesta etapa, figuras geométricas complexas são decompostas em unidades simples básicas para unificar a representação da geometria. b) fluxo de percepção, que reconhece que traçar uma linha com precisão não é uma tarefa fácil. Esta etapa visa evitar "saltos visuais longos" na regressão de segmentos de linha, utilizando uma "régua perceptual" proposta para traçar cada linha traço a traço. Surpreendentemente, tal maneira de percepção semelhante à humana desfruta de uma lei de escalonamento de tempo de inferência - quanto mais lento, melhor. Pesquisadores se esforçaram para acelerar a percepção do modelo no passado, mas agora estamos desacelerando, permitindo que o modelo leia a imagem passo a passo e cuidadosamente.
Apresentamos a geração de código autoinvocável, uma nova tarefa projetada para avaliar as capacidades progressivas de raciocínio e resolução de problemas de LLMs. Nesta tarefa, os modelos são apresentados com um problema base e um problema mais complexo relacionado. Eles devem resolver o problema base e então utilizar sua solução para abordar o problema mais complexo. Este trabalho apresenta três contribuições-chave. Primeiramente, propomos uma receita geral para gerar versões mais desafiadoras de benchmarks existentes, resultando em três novos benchmarks: HumanEval Pro, MBPP Pro e BigCodeBench-Lite Pro, especificamente projetados para avaliar LLMs na geração de código autoinvocável. Em segundo lugar, a partir da análise dos resultados experimentais de mais de vinte LLMs em nossos benchmarks, temos duas observações importantes: (i) A maioria dos LLMs se destaca em benchmarks tradicionais de geração de código como HumanEval e MBPP, mas seu desempenho diminui em tarefas autoinvocáveis. Por exemplo, o1-mini atinge 96,2% pass@1 em HumanEval, mas apenas 76,2% em HumanEval Pro. (ii) Na tarefa de geração de código autoinvocável, os modelos ajustados às instruções demonstram apenas melhorias marginais em comparação com os modelos base. Em terceiro lugar, revelamos os tipos de modos de falha que existem em nossos resultados de avaliação. Todos esses resultados destacam a necessidade de avanços adicionais em tarefas de geração de código autoinvocável e fornecem uma nova direção para pesquisas futuras sobre o aprimoramento das capacidades de raciocínio de código dos LLMs.