Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o InternVL 2.5, uma série avançada de modelos de linguagem grande multimodal (MLLM) que se baseia no InternVL 2.0, mantendo sua arquitetura de modelo central e introduzindo melhorias significativas em estratégias de treinamento e teste, bem como qualidade de dados. Neste trabalho, exploramos a relação entre o dimensionamento do modelo e o desempenho, investigando sistematicamente as tendências de desempenho em codificadores de visão, modelos de linguagem, tamanhos de conjuntos de dados e configurações de tempo de teste. Através de extensas avaliações em uma ampla gama de benchmarks, incluindo raciocínio multidisciplinar, compreensão de documentos, compreensão de múltiplas imagens/vídeos, compreensão do mundo real, detecção de alucinação multimodal, fundamentação visual, capacidades multilíngues e processamento de linguagem pura, o InternVL 2.5 apresenta desempenho competitivo, rivalizando com modelos comerciais líderes como o GPT-4o e o Claude-3.5-Sonnet. Notavelmente, nosso modelo é o primeiro MLLM de código aberto a superar 70% no benchmark MMMU, alcançando uma melhoria de 3,7 pontos por meio do raciocínio Chain-of-Thought (CoT) e demonstrando um forte potencial para o dimensionamento no tempo de teste. Esperamos que este modelo contribua para a comunidade de código aberto estabelecendo novos padrões para o desenvolvimento e aplicação de sistemas de IA multimodais. Para uma demonstração do HuggingFace, consulte https://huggingface.co/spaces/OpenGVLab/InternVL
Este relatório técnico apresenta os modelos de linguagem EXAONE 3.5 ajustados para instruções, desenvolvidos e lançados pela LG AI Research. Os modelos de linguagem EXAONE 3.5 são oferecidos em três configurações: 32B, 7.8B e 2.4B. Esses modelos apresentam várias capacidades excepcionais: 1) capacidades excepcionais de seguir instruções em cenários do mundo real, alcançando as pontuações mais altas em sete benchmarks, 2) excelente compreensão de contexto longo, obtendo o melhor desempenho em quatro benchmarks, e 3) resultados competitivos em comparação com modelos abertos de última geração de tamanhos semelhantes em nove benchmarks gerais. Os modelos de linguagem EXAONE 3.5 estão disponíveis para qualquer pessoa para fins de pesquisa e podem ser baixados em https://huggingface.co/LGAI-EXAONE. Para uso comercial, entre em contato com o ponto de contato oficial da LG AI Research: contact_us@lgresearch.ai.
Os avanços recentes em modelos generativos de texto-para-vídeo (T2V) têm demonstrado capacidades impressionantes. No entanto, esses modelos ainda são inadequados para alinhar vídeos sintetizados com as preferências humanas (por exemplo, refletir com precisão descrições de texto), o que é particularmente difícil de abordar, uma vez que as preferências humanas são inerentemente subjetivas e desafiadoras de formalizar como funções objetivas. Portanto, este artigo propõe o LiFT, um novo método de ajuste fino que aproveita o feedback humano para o alinhamento do modelo T2V. Especificamente, primeiro construímos um conjunto de dados de Anotações de Avaliação Humana, LiFT-HRA, composto por aproximadamente 10 mil anotações humanas, cada uma incluindo uma pontuação e sua justificativa correspondente. Com base nisso, treinamos um modelo de recompensa LiFT-Critic para aprender efetivamente a função de recompensa, que serve como um proxy para o julgamento humano, medindo o alinhamento entre os vídeos fornecidos e as expectativas humanas. Por fim, aproveitamos a função de recompensa aprendida para alinhar o modelo T2V maximizando a probabilidade ponderada pela recompensa. Como estudo de caso, aplicamos nosso pipeline ao CogVideoX-2B, mostrando que o modelo ajustado supera o CogVideoX-5B em todas as 16 métricas, destacando o potencial do feedback humano na melhoria do alinhamento e qualidade dos vídeos sintetizados.
Modelos de linguagem multimodais de grande escala de código aberto (MLLMs) têm demonstrado um potencial significativo em uma ampla gama de tarefas multimodais. No entanto, suas capacidades de raciocínio permanecem limitadas pelos conjuntos de dados de ajuste de instruções existentes, que foram predominantemente adaptados de conjuntos de dados acadêmicos como VQA, AI2D e ChartQA. Esses conjuntos de dados visam tarefas simplistas e fornecem apenas respostas em nível de frase sem quaisquer justificativas intermediárias. Para enfrentar esses desafios, introduzimos um método escalável e econômico para construir um conjunto de dados de ajuste de instruções multimodal em grande escala com justificativas intermediárias ricas projetadas para evocar o raciocínio CoT. Usando apenas modelos abertos, criamos um conjunto de dados contendo 12 milhões de pares de instrução-resposta para cobrir tarefas diversas e intensivas em raciocínio com justificativas detalhadas e fiéis. Experimentos demonstram que o treinamento de MLLMs nesse conjunto de dados melhora significativamente as capacidades de raciocínio, alcançando desempenho de ponta em benchmarks como MathVerse (+8,1%), MMMU-Pro (+7%) e MuirBench (+13,3%). Além disso, o modelo demonstra melhorias notáveis de até 4% em benchmarks não baseados em raciocínio. Estudos de ablação destacam ainda a importância de componentes-chave, como reescrita e auto-filtragem, no processo de construção do conjunto de dados.
Os avanços recentes na edição de imagens guiada por texto permitem aos usuários realizar edições de imagens por meio de entradas de texto simples, aproveitando os extensos conhecimentos prévios de modelos de texto-para-imagem baseados em difusão de múltiplas etapas. No entanto, esses métodos frequentemente não atendem às demandas de velocidade necessárias para aplicações do mundo real e em dispositivos devido ao custoso processo de inversão e amostragem de múltiplas etapas envolvido. Em resposta a isso, apresentamos o SwiftEdit, uma ferramenta de edição simples, porém altamente eficiente, que alcança edição instantânea de imagens guiada por texto (em 0,23s). O avanço do SwiftEdit reside em suas duas contribuições inovadoras: um framework de inversão de uma etapa que possibilita a reconstrução de imagem em uma etapa via inversão e uma técnica de edição guiada por máscara com nosso mecanismo de redimensionamento de atenção proposto para realizar edições de imagem localizadas. Experimentos extensivos são fornecidos para demonstrar a eficácia e eficiência do SwiftEdit. Em particular, o SwiftEdit permite edição instantânea de imagens guiada por texto, que é extremamente mais rápida do que métodos de múltiplas etapas anteriores (pelo menos 50 vezes mais rápida), mantendo um desempenho competitivo nos resultados de edição. Nossa página do projeto está em: https://swift-edit.github.io/
Os grandes modelos de linguagem (LLMs) são conhecidos por serem intensivos em memória durante o treinamento, especialmente com o popular otimizador AdamW. Esse ônus de memória requer o uso de mais ou de GPUs mais avançadas, ou a redução dos tamanhos dos lotes, limitando a escalabilidade e a taxa de processamento do treinamento. Para lidar com isso, vários otimizadores eficientes em memória foram propostos para reduzir o uso de memória do otimizador. No entanto, eles enfrentam desafios críticos: (i) dependência de operações SVD custosas; (ii) significativos compromissos de desempenho em comparação com o AdamW; e (iii) ainda uma sobrecarga substancial de memória do otimizador para manter um desempenho competitivo. Neste trabalho, identificamos que a regra de adaptação da taxa de aprendizado do AdamW pode ser efetivamente simplificada como uma atualização estruturada da taxa de aprendizado. Com base nessa percepção, propomos Escalonamento de Gradiente Aproximado para Otimização Eficiente em Memória de LLM (APOLLO), que aproxima o escalonamento da taxa de aprendizado usando um estado auxiliar de otimizador de baixa classificação baseado em projeção aleatória pura. Essa regra de atualização estruturada da taxa de aprendizado torna o APOLLO altamente tolerante a reduções adicionais de memória, ao mesmo tempo em que oferece um desempenho de pré-treinamento comparável. Mesmo sua variante de classificação 1, APOLLO-Mini, alcança um desempenho de pré-treinamento superior em comparação com o AdamW com custos de memória no nível do SGD. Experimentos extensivos demonstram que a série APOLLO tem desempenho equivalente ou melhor que o AdamW, enquanto alcança maiores economias de memória ao quase eliminar os estados de otimização do AdamW. Essas economias proporcionam benefícios significativos em nível de sistema: (1) Aumento de Taxa de Processamento: 3x a taxa de processamento em uma configuração de 8 GPUs A100-80GB em comparação com o AdamW, suportando tamanhos de lote 4x maiores. (2) Melhoria na Escalabilidade do Modelo: Pré-treinamento do LLaMA-13B com DDP ingênuo em GPUs A100-80GB sem otimizações em nível de sistema. (3) Pré-treinamento Amigável para GPUs de Baixo Desempenho: Pré-treinamento do LLaMA-7B em uma única GPU usando menos de 12 GB de memória com quantização de pesos.
Os recentes avanços em Modelos de Linguagem Grandes pré-treinados em corpora extensos têm demonstrado um sucesso significativo em várias tarefas de processamento de linguagem natural com ajustes mínimos. Esse sucesso oferece uma nova promessa para a robótica, que há muito tempo tem sido limitada pelo alto custo de dados rotulados de ação. Perguntamos: dado os abundantes dados de vídeo contendo conhecimento relacionado à interação disponível como um "corpus" rico, pode uma abordagem de pré-treinamento generativo semelhante ser aplicada de forma eficaz para aprimorar a aprendizagem de robôs? O desafio chave é identificar uma representação eficaz para o pré-treinamento autoregressivo que beneficie tarefas de manipulação de robôs. Inspirados na forma como os humanos aprendem novas habilidades observando ambientes dinâmicos, propomos que a aprendizagem robótica eficaz deve enfatizar o conhecimento relacionado ao movimento, que está intimamente ligado a ações de baixo nível e é independente de hardware, facilitando a transferência de movimentos aprendidos para ações reais de robôs. Para isso, introduzimos o Moto, que converte conteúdo de vídeo em sequências latentes de Tokens de Movimento por meio de um Tokenizador de Movimento Latente, aprendendo uma "linguagem" de movimento intermediária a partir de vídeos de forma não supervisionada. Pré-treinamos o Moto-GPT por meio de autoregressão de tokens de movimento, possibilitando que ele capture conhecimento visual de movimento diverso. Após o pré-treinamento, o Moto-GPT demonstra a capacidade promissora de produzir tokens de movimento semanticamente interpretáveis, prever trajetórias de movimento plausíveis e avaliar a racionalidade das trajetórias por meio da probabilidade de saída. Para transferir os conhecimentos prévios de movimento para ações reais de robôs, implementamos uma estratégia de co-ajuste fino que conecta de forma contínua a previsão de tokens de movimento latentes e o controle real do robô. Experimentos extensos mostram que o Moto-GPT ajustado exibe uma robustez e eficiência superiores em benchmarks de manipulação de robôs, destacando sua eficácia na transferência de conhecimento de dados de vídeo para tarefas de manipulação visual subsequentes.
Os modelos de geração de texto para vídeo têm mostrado um progresso significativo nos últimos anos. No entanto, ainda enfrentam dificuldades em gerar cenas dinâmicas complexas com base em instruções textuais compostas, como a vinculação de atributos para múltiplos objetos, dinâmicas temporais associadas a diferentes objetos e interações entre objetos. Nossa principal motivação é que tarefas complexas podem ser decompostas em tarefas mais simples, cada uma tratada por um agente MLLM especializado em funções. Múltiplos agentes podem colaborar para alcançar inteligência coletiva para metas complexas. Propomos o GenMAC, um framework iterativo e multiagente que possibilita a geração de texto para vídeo de forma composicional. O fluxo de trabalho colaborativo inclui três etapas: Design, Geração e Redesign, com um loop iterativo entre as etapas de Geração e Redesign para verificar e refinar progressivamente os vídeos gerados. A etapa de Redesign é a mais desafiadora, visando verificar os vídeos gerados, sugerir correções e redesenhar as instruções de texto, layouts por quadro e escalas de orientação para a próxima iteração de geração. Para evitar a alucinação de um único agente MLLM, decomponha essa etapa em quatro agentes baseados em MLLM executados sequencialmente: agente de verificação, agente de sugestão, agente de correção e agente de estruturação de saída. Além disso, para lidar com diversos cenários de geração de texto para vídeo de forma composicional, projetamos um mecanismo de autoencaminhamento para selecionar adaptativamente o agente de correção apropriado de uma coleção de agentes de correção, cada um especializado para um cenário. Experimentos extensivos demonstram a eficácia do GenMAC, alcançando um desempenho de ponta na geração de texto para vídeo de forma composicional.
Quão bem os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) conseguem entender imagens compostas? Imagens compostas (CIs) são visuais sintéticos criados pela fusão de múltiplos elementos visuais, como gráficos, pôsteres ou capturas de tela, em vez de serem capturados diretamente por uma câmera. Enquanto as CIs são prevalentes em aplicações do mundo real, os desenvolvimentos recentes em MLLMs têm se concentrado principalmente na interpretação de imagens naturais (NIs). Nossa pesquisa revela que os MLLMs atuais enfrentam desafios significativos para entender com precisão as CIs, muitas vezes lutando para extrair informações ou realizar raciocínio complexo com base nessas imagens. Descobrimos que os dados de treinamento existentes para CIs são principalmente formatados para tarefas de pergunta-resposta (por exemplo, em conjuntos de dados como ChartQA e ScienceQA), enquanto conjuntos de dados de legendas de imagens de alta qualidade, essenciais para um alinhamento robusto entre visão e linguagem, estão disponíveis apenas para NIs. Para preencher essa lacuna, apresentamos Legendas Compostas (CompCap), um framework flexível que aproveita Modelos de Linguagem de Grande Escala (LLMs) e ferramentas de automação para sintetizar CIs com legendas precisas e detalhadas. Usando o CompCap, nós elaboramos o CompCap-118K, um conjunto de dados contendo 118 mil pares de imagens e legendas em seis tipos de CI. Validamos a eficácia do CompCap-118K por meio do ajuste fino supervisionado de MLLMs de três tamanhos: xGen-MM-inst.-4B e LLaVA-NeXT-Vicuna-7B/13B. Os resultados empíricos mostram que o CompCap-118K melhora significativamente a compreensão das CIs pelos MLLMs, resultando em ganhos médios de 1,7%, 2,0% e 2,9% em onze benchmarks, respectivamente.
O Splatting Gaussiano 3D tem demonstrado um sucesso notável na reconstrução de cenas em larga escala, mas desafios persistem devido ao alto consumo de memória de treinamento e sobrecarga de armazenamento. Representações híbridas que integram características implícitas e explícitas oferecem uma maneira de mitigar essas limitações. No entanto, ao serem aplicadas em treinamento paralelizado em blocos, surgem dois problemas críticos, uma vez que a precisão da reconstrução deteriora devido à redução da diversidade dos dados ao treinar cada bloco de forma independente, e o treinamento paralelo restringe o número de blocos divididos ao número disponível de GPUs. Para lidar com esses problemas, propomos o Momentum-GS, uma abordagem inovadora que aproveita a auto-dissipação baseada em momentum para promover consistência e precisão entre os blocos, ao mesmo tempo que desvincula o número de blocos da contagem física de GPUs. Nosso método mantém um decodificador Gaussiano professor atualizado com momentum, garantindo uma referência estável durante o treinamento. Esse professor fornece a cada bloco orientação global de maneira auto-dissipativa, promovendo consistência espacial na reconstrução. Para garantir ainda mais a consistência entre os blocos, incorporamos a ponderação de blocos, ajustando dinamicamente o peso de cada bloco de acordo com sua precisão de reconstrução. Experimentos extensos em cenas em larga escala mostram que nosso método supera consistentemente as técnicas existentes, alcançando uma melhoria de 12,8% no LPIPS em relação ao CityGaussian com muito menos blocos divididos e estabelecendo um novo estado da arte. Página do projeto: https://jixuan-fan.github.io/Momentum-GS_Page/
A IA Multimodal tem o potencial de melhorar significativamente tarefas de compreensão de documentos, como processamento de recibos, entendimento de fluxos de trabalho, extração de dados de documentos e resumos de relatórios. Tarefas de geração de código que exigem saídas longas e estruturadas também podem ser aprimoradas pela multimodalidade. No entanto, seu uso em aplicações comerciais frequentemente é limitado devido ao acesso restrito a dados de treinamento e a licenciamento restritivo, o que dificulta o acesso aberto. Para lidar com essas limitações, apresentamos o BigDocs-7.5M, um conjunto de dados de alta qualidade e acesso aberto composto por 7,5 milhões de documentos multimodais em 30 tarefas. Utilizamos um processo eficiente de curadoria de dados para garantir que nossos dados sejam de alta qualidade e de licença permissiva. Nosso processo enfatiza a responsabilidade, responsabilidade e transparência por meio de regras de filtragem, metadados rastreáveis e análise cuidadosa de conteúdo. Além disso, introduzimos o BigDocs-Bench, uma suíte de benchmark com 10 tarefas inovadoras, nas quais criamos conjuntos de dados que refletem casos de uso do mundo real envolvendo raciocínio sobre Interfaces Gráficas do Usuário (GUI) e geração de código a partir de imagens. Nossos experimentos mostram que o treinamento com o BigDocs-Bench melhora o desempenho médio em até 25,8% em relação ao GPT-4o de código fechado em tarefas de raciocínio de documentos e saídas estruturadas, como geração de Screenshot2HTML ou Image2Latex. Por fim, avaliações humanas mostraram uma preferência por saídas de modelos treinados no BigDocs em relação ao GPT-4o. Isso sugere que o BigDocs pode ajudar tanto acadêmicos quanto a comunidade de código aberto a utilizar e aprimorar ferramentas de IA para melhorar as capacidades multimodais e o raciocínio de documentos. O projeto está hospedado em https://bigdocs.github.io.
Vídeos do mundo real consistem em sequências de eventos. Gerar tais sequências com controle temporal preciso é inviável com os geradores de vídeo existentes que dependem de um único parágrafo de texto como entrada. Quando encarregados de gerar múltiplos eventos descritos usando um único prompt, tais métodos frequentemente ignoram alguns dos eventos ou falham em organizá-los na ordem correta. Para lidar com essa limitação, apresentamos MinT, um gerador de vídeo multi-eventos com controle temporal. Nosso insight chave é vincular cada evento a um período específico no vídeo gerado, o que permite ao modelo focar em um evento de cada vez. Para possibilitar interações conscientes do tempo entre legendas de eventos e tokens de vídeo, projetamos um método de codificação posicional baseado no tempo, chamado ReRoPE. Essa codificação ajuda a guiar a operação de atenção cruzada. Ao ajustar finamente um transformador de difusão de vídeo pré-treinado em dados temporalmente ancorados, nossa abordagem produz vídeos coerentes com eventos conectados de forma suave. Pela primeira vez na literatura, nosso modelo oferece controle sobre o timing de eventos em vídeos gerados. Experimentos extensivos demonstram que MinT supera significativamente os modelos de código aberto existentes.
Neste artigo, apresentamos o PanoDreamer, um método inovador para produzir uma cena 3D coerente de 360 graus a partir de uma única imagem de entrada. Ao contrário dos métodos existentes que geram a cena sequencialmente, formulamos o problema como estimativa de panorama e profundidade de imagem única. Uma vez obtida a imagem panorâmica coerente e sua profundidade correspondente, a cena pode ser reconstruída preenchendo as pequenas regiões ocultas e projetando-as no espaço 3D. Nossa contribuição chave é formular a estimativa de panorama e profundidade de imagem única como dois problemas de otimização e introduzir estratégias de minimização alternada para resolver efetivamente seus objetivos. Demonstramos que nossa abordagem supera as técnicas existentes na reconstrução de cena de 360 graus de imagem única em termos de consistência e qualidade geral.
A reconstrução de cenas internas continua sendo um desafio devido à complexidade inerente das estruturas espaciais e à prevalência de regiões sem textura. Avanços recentes em Splatting Gaussiano 3D melhoraram a síntese de novas visualizações com processamento acelerado, mas ainda não alcançaram desempenho comparável na reconstrução de superfícies. Neste artigo, apresentamos o 2DGS-Room, um método inovador que utiliza Splatting Gaussiano 2D para reconstrução de cenas internas de alta fidelidade. Especificamente, empregamos um mecanismo guiado por sementes para controlar a distribuição dos Gaussianos 2D, com a densidade de pontos de semente otimizada dinamicamente por meio de mecanismos de crescimento e poda adaptativos. Para melhorar ainda mais a precisão geométrica, incorporamos profundidade monocular e priores normais para fornecer restrições para detalhes e regiões sem textura, respectivamente. Além disso, são empregadas restrições de consistência multi-visual para mitigar artefatos e aprimorar ainda mais a qualidade da reconstrução. Experimentos extensivos nos conjuntos de dados ScanNet e ScanNet++ demonstram que nosso método alcança desempenho de ponta na reconstrução de cenas internas.
Os grandes modelos de linguagem (LLMs) tornaram o diálogo um dos principais modos de interação humano-máquina, levando à acumulação de vastas quantidades de registros de conversas e aumentando a demanda por geração de diálogo. Um ciclo de vida conversacional se estende desde o Prólogo, passando pela Interlocução até o Epílogo, abrangendo vários elementos. Apesar da existência de inúmeros estudos relacionados ao diálogo, há uma falta de referências que englobem elementos de diálogo abrangentes, dificultando a modelagem precisa e a avaliação sistemática. Para preencher essa lacuna, introduzimos uma tarefa de pesquisa inovadora: Modelagem de Elementos de Diálogo, que inclui Consciência de Elementos e Interação de Agentes de Diálogo, e propomos um novo benchmark, DEMO, projetado para modelagem e avaliação abrangentes de diálogo. Inspirados pela aprendizagem por imitação, construímos ainda o agente que possui a habilidade hábil de modelar elementos de diálogo com base no benchmark DEMO. Experimentos extensivos indicam que os LLMs existentes ainda apresentam um potencial considerável para aprimoramento, e nosso agente DEMO tem um desempenho superior tanto em tarefas dentro do domínio quanto fora dele.
Recompensas continuam sendo uma forma ininterpretável de especificar tarefas para Aprendizado por Reforço, uma vez que os humanos frequentemente são incapazes de prever o comportamento ótimo de qualquer função de recompensa específica, resultando em um design de recompensa deficiente e em manipulação de recompensa. A linguagem apresenta uma maneira atraente de comunicar a intenção aos agentes e contornar o design de recompensa, mas esforços anteriores nesse sentido foram limitados por esforços de rotulagem custosos e não escaláveis. Neste trabalho, propomos um método para uma alternativa completamente não supervisionada para fundamentar instruções em linguagem de forma inédita para obter políticas. Apresentamos uma solução que se baseia em imaginar, projetar e imitar: O agente imagina a sequência de observação correspondente à descrição em linguagem de uma tarefa, projeta a sequência imaginada para o nosso domínio alvo e a fundamenta em uma política. Modelos de vídeo-linguagem nos permitem imaginar descrições de tarefas que aproveitam o conhecimento de tarefas aprendidas a partir de mapeamentos vídeo-texto em escala da internet. O desafio persiste em fundamentar essas gerações em uma política. Neste trabalho, demonstramos que podemos alcançar uma política de linguagem-comportamento sem necessidade de supervisão em uma variedade de tarefas em domínios simulados, ao primeiro fundamentar as sequências imaginadas em observações reais de um agente de RL não supervisionado e utilizando uma solução de aprendizado por imitação em forma fechada que permite ao agente de RL imitar as observações fundamentadas. Nosso método, RLZero, é, até onde sabemos, o primeiro a demonstrar habilidades de geração de comportamento a partir de linguagem sem supervisão em uma variedade de tarefas em domínios simulados. Além disso, demonstramos que o RLZero também pode gerar políticas sem supervisão a partir de vídeos com diferentes corpos, como aqueles extraídos do YouTube.