Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelos multimodais destacam o valor de legendas reescritas para melhorar o desempenho, no entanto, ainda existem desafios-chave. Por exemplo, embora legendas sintéticas frequentemente ofereçam qualidade superior e alinhamento entre imagem e texto, não está claro se elas podem substituir completamente os AltTexts: o papel das legendas sintéticas e sua interação com os AltTexts originais obtidos na web em pré-treinamento ainda não são bem compreendidos. Além disso, diferentes modelos fundamentais multimodais podem ter preferências únicas por formatos de legendas específicos, mas os esforços para identificar as legendas ideais para cada modelo ainda são limitados. Neste trabalho, propomos um pipeline de legendagem inovador, controlável e escalável, projetado para gerar diversos formatos de legendas adaptados a vários modelos multimodais. Ao examinar Legendas Sintéticas Curtas (SSC) em direção a Legendas Sintéticas Densas (DSC+) como estudos de caso, exploramos sistematicamente seus efeitos e interações com AltTexts em modelos como CLIP, LLMs multimodais e modelos de difusão. Nossas descobertas revelam que uma abordagem híbrida que mantém tanto legendas sintéticas quanto AltTexts pode superar o uso de legendas sintéticas sozinhas, melhorando tanto o alinhamento quanto o desempenho, com cada modelo demonstrando preferências por formatos de legendas específicos. Esta análise abrangente fornece insights valiosos para otimizar estratégias de legendagem, avançando assim o pré-treinamento de modelos fundamentais multimodais.
A arquitetura transformer predomina em vários modelos. Como o cerne do transformer, a atenção possui uma complexidade computacional de O(N^2), comparada a O(N) para transformações lineares. Ao lidar com comprimentos de sequência longos, a atenção se torna o componente principal que consome tempo. Embora a quantização tenha se mostrado um método eficaz para acelerar a inferência do modelo, os métodos de quantização existentes focam principalmente na otimização da camada linear. Em resposta, primeiro analisamos detalhadamente a viabilidade da quantização na atenção. Em seguida, propomos o SageAttention, um método de quantização altamente eficiente e preciso para atenção. As OPS (operações por segundo) de nossa abordagem superam o FlashAttention2 e os xformers em cerca de 2,1 vezes e 2,7 vezes, respectivamente. O SageAttention também alcança um desempenho de precisão superior ao FlashAttention3. Experimentos abrangentes confirmam que nossa abordagem incorre em quase nenhuma perda de métricas de ponta a ponta em diversos modelos, incluindo aqueles para processamento de linguagem extensa, geração de imagens e geração de vídeos.
Apresentamos um modelo base para estimativa métrica de profundidade monocular de zero-shot. Nosso modelo, Depth Pro, sintetiza mapas de profundidade de alta resolução com nitidez e detalhes de alta frequência incomparáveis. As previsões são métricas, com escala absoluta, sem depender da disponibilidade de metadados como intrínsecos da câmera. E o modelo é rápido, produzindo um mapa de profundidade de 2,25 megapixels em 0,3 segundos em uma GPU padrão. Essas características são possíveis graças a uma série de contribuições técnicas, incluindo um transformador de visão multi-escala eficiente para previsão densa, um protocolo de treinamento que combina conjuntos de dados reais e sintéticos para alcançar alta precisão métrica juntamente com um rastreamento de bordas refinado, métricas de avaliação dedicadas para precisão de borda em mapas de profundidade estimados, e uma estimativa de comprimento focal de última geração a partir de uma única imagem. Experimentos extensos analisam escolhas de projeto específicas e demonstram que o Depth Pro supera trabalhos anteriores em várias dimensões. Disponibilizamos o código e os pesos em https://github.com/apple/ml-depth-pro
O desenvolvimento de grandes modelos multimodais de vídeo (LMMs) tem sido dificultado pela complexidade de curadoria de grandes quantidades de dados brutos de alta qualidade da web. Para lidar com isso, propomos uma abordagem alternativa criando um conjunto de dados sintéticos de alta qualidade especificamente para seguir instruções em vídeos, denominado LLaVA-Video-178K. Este conjunto de dados inclui tarefas-chave como legendas detalhadas, perguntas e respostas abertas (QA) e QA de múltipla escolha. Ao treinar neste conjunto de dados, em combinação com dados de ajuste visual de instruções existentes, apresentamos o LLaVA-Video, um novo LMM de vídeo. Nossos experimentos demonstram que o LLaVA-Video alcança um desempenho sólido em diversos benchmarks de vídeo, destacando a eficácia de nosso conjunto de dados. Planejamos disponibilizar o conjunto de dados, sua pipeline de geração e os pontos de verificação do modelo.
A Preparação Prévia de Linguagem-Imagem Contrastiva (CLIP) tem sido um método aclamado para treinar codificadores de visão a gerar representações de imagem/texto que facilitam várias aplicações. Recentemente, o CLIP tem sido amplamente adotado como a espinha dorsal de visão de modelos de linguagem multimodais grandes (MLLMs) para conectar entradas de imagem para interações de linguagem. O sucesso do CLIP como modelo de base de visão-linguagem depende da alinhamento de anotações de texto ruidosas coletadas na web em níveis de imagem. No entanto, tais critérios podem se tornar insuficientes para tarefas subsequentes que necessitam de representações de visão detalhadas, especialmente quando o entendimento em nível de região é exigente para MLLMs. Neste artigo, melhoramos a capacidade de localização do CLIP com vários avanços. Propomos um método de pré-treinamento chamado Pré-treinamento de Linguagem-Imagem Localizada Contrastiva (CLOC) ao complementar o CLIP com perda contrastiva e módulos de região-texto. Formulamos um novo conceito, incorporações promptáveis, das quais o codificador produz incorporações de imagem fáceis de transformar em representações de região dadas dicas espaciais. Para apoiar o pré-treinamento em grande escala, projetamos um framework de legendagem enriquecido visualmente e localizado espacialmente para gerar efetivamente pseudo-rótulos de região-texto em escala. Ao escalar para bilhões de imagens anotadas, o CLOC permite incorporações regionais de alta qualidade para tarefas de reconhecimento e recuperação de região de imagem, e pode ser um substituto direto do CLIP para aprimorar MLLMs, especialmente em tarefas de referência e ancoragem.
Apresentamos o LLaVA-Critic, o primeiro modelo multimodal amplo de código aberto (LMM) projetado como um avaliador generalista para avaliar o desempenho em uma ampla gama de tarefas multimodais. O LLaVA-Critic é treinado usando um conjunto de dados de instruções de críticos de alta qualidade que incorpora diversos critérios e cenários de avaliação. Nossos experimentos demonstram a eficácia do modelo em duas áreas-chave: (1) LMM-como-Juíz, onde o LLaVA-Critic fornece pontuações de avaliação confiáveis, apresentando desempenho equivalente ou superior aos modelos GPT em múltiplos benchmarks de avaliação; e (2) Aprendizado de Preferência, onde ele gera sinais de recompensa para o aprendizado de preferências, aprimorando as capacidades de alinhamento do modelo. Este trabalho destaca o potencial dos LMMs de código aberto na auto-crítica e avaliação, preparando o terreno para pesquisas futuras em mecanismos de feedback de alinhamento escaláveis e super-humanos para LMMs.
É desejável, mas desafiador, gerar vídeos longos ricos em conteúdo na escala de minutos. Modelos de linguagem autoregressivos de grande porte (LLMs) têm alcançado grande sucesso na geração de sequências longas e coerentes de tokens no domínio do processamento de linguagem natural, enquanto a exploração de LLMs autoregressivos para geração de vídeos se limita à criação de vídeos curtos de alguns segundos. Neste trabalho, realizamos uma análise aprofundada dos desafios que impedem os geradores de vídeos baseados em LLMs autoregressivos de produzir vídeos longos. Com base nas observações e análises, propomos Loong, um novo gerador de vídeos baseado em LLM autoregressivo que pode gerar vídeos de minutos de duração. Especificamente, modelamos os tokens de texto e os tokens de vídeo como uma sequência unificada para LLMs autoregressivos e treinamos o modelo do zero. Propomos um treinamento progressivo curto para longo com um esquema de reponderação de perdas para mitigar o problema de desequilíbrio de perdas no treinamento de vídeos longos. Investigamos ainda estratégias de inferência, incluindo a recodificação de tokens de vídeo e estratégias de amostragem, para diminuir a acumulação de erros durante a inferência. Nosso Loong proposto pode ser treinado em vídeos de 10 segundos e ser estendido para gerar vídeos longos de nível de minutos condicionados a prompts de texto, como demonstrado pelos resultados. Mais amostras estão disponíveis em: https://epiphqny.github.io/Loong-video.
Os grandes modelos de linguagem (LLMs) têm demonstrado ser notavelmente eficientes, tanto em uma ampla gama de tarefas de processamento de linguagem natural quanto além delas. No entanto, uma análise teórica abrangente das origens de seu desempenho impressionante ainda é esquiva. Neste artigo, abordamos essa tarefa desafiadora estabelecendo uma equivalência entre modelos de linguagem autoregressivos genéricos com um vocabulário de tamanho T e janela de contexto de tamanho K e cadeias de Markov definidas em um espaço de estados finitos de tamanho O(T^K). Derivamos várias descobertas surpreendentes relacionadas à existência de uma distribuição estacionária de cadeias de Markov que capturam o poder de inferência dos LLMs, sua velocidade de convergência a ela e a influência da temperatura nesta última. Em seguida, demonstramos limites de pré-treinamento e generalização no contexto e mostramos como a equivalência estabelecida nos permite enriquecer sua interpretação. Por fim, ilustramos nossas garantias teóricas com experimentos em vários LLMs recentes para destacar como eles capturam o comportamento observado na prática.
A orientação sem classificador (CFG) é crucial para melhorar tanto a qualidade da geração quanto o alinhamento entre a condição de entrada e a saída final em modelos de difusão. Embora uma escala de orientação alta seja geralmente necessária para aprimorar esses aspectos, ela também causa super saturação e artefatos irreais. Neste artigo, revisitamos a regra de atualização do CFG e introduzimos modificações para abordar esse problema. Primeiramente, decomponhamos o termo de atualização no CFG em componentes paralelos e ortogonais em relação à previsão do modelo condicional e observamos que o componente paralelo causa principalmente super saturação, enquanto o componente ortogonal melhora a qualidade da imagem. Consequentemente, propomos reduzir o peso do componente paralelo para alcançar gerações de alta qualidade sem super saturação. Além disso, estabelecemos uma conexão entre o CFG e a ascensão do gradiente e introduzimos um novo método de redimensionamento e momento para a regra de atualização do CFG com base nessa percepção. Nossa abordagem, denominada orientação projetada adaptativa (APG), mantém as vantagens de aumento de qualidade do CFG enquanto permite o uso de escalas de orientação mais altas sem super saturação. O APG é fácil de implementar e introduz praticamente nenhum custo computacional adicional ao processo de amostragem. Através de experimentos extensivos, demonstramos que o APG é compatível com vários modelos de difusão condicional e amostradores, resultando em melhorias nos escores de FID, recall e saturação, mantendo a precisão comparável ao CFG, tornando nosso método uma alternativa superior e pronta para uso à orientação sem classificador padrão.
Os modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais aplicados a tarefas de raciocínio complexas que exigem a execução de vários passos complexos antes de receber qualquer recompensa. Atribuir corretamente crédito a esses passos é essencial para melhorar o desempenho do modelo. A Otimização de Política Próxima (PPO), um algoritmo de aprendizado por reforço (RL) de ponta usado para ajuste fino de LLM, emprega redes de valor para lidar com a atribuição de crédito. No entanto, as redes de valor enfrentam desafios na previsão precisa das recompensas cumulativas esperadas em tarefas de raciocínio complexas, frequentemente resultando em atualizações de alta variância e desempenho subótimo. Neste trabalho, avaliamos sistematicamente a eficácia das redes de valor e revelamos suas significativas deficiências em tarefas de LLM com foco em raciocínio, mostrando que mal superam uma linha de base aleatória ao comparar passos alternativos. Para lidar com isso, propomos o VinePPO, uma abordagem direta que aproveita a flexibilidade dos ambientes de linguagem para calcular estimativas imparciais baseadas em Monte Carlo, contornando a necessidade de grandes redes de valor. Nosso método supera consistentemente o PPO e outras linhas de base sem RL nos conjuntos de dados MATH e GSM8K com menos atualizações de gradiente (até 9x), menos tempo de relógio (até 3,0x). Esses resultados destacam a importância da atribuição precisa de crédito no ajuste fino de RL de LLM e demonstram o potencial do VinePPO como uma alternativa superior.
Assistentes de voz, como Siri e Google Assistant, geralmente modelam áudio e texto separadamente, resultando na perda de informações da fala e em uma complexidade aumentada. Esforços recentes para lidar com isso, por meio de Modelos de Linguagem Grande (LLMs) de Fala de Ponta a Ponta treinados com ajuste fino supervisionado (SFT), levaram a modelos que "esquecem" capacidades dos LLMs apenas de texto. Nosso trabalho propõe um paradigma alternativo para treinar LLMs de Fala sem dados de instrução, utilizando a resposta de um LLM apenas de texto aos transcritos como auto-supervisão. Importante ressaltar que esse processo pode ser realizado sem respostas anotadas. Mostramos que nosso Assistente de Voz Destilado (DiVA) generaliza para Respostas a Perguntas Faladas, Classificação e Tradução. Além disso, demonstramos que o DiVA atende melhor às preferências dos usuários, alcançando uma taxa de vitória de 72% em comparação com modelos de ponta como Qwen 2 Áudio, apesar de usar mais de 100 vezes menos poder computacional de treinamento.
As incrustações densas de documentos são fundamentais para a recuperação neural. O paradigma dominante é treinar e construir incrustações executando codificadores diretamente em documentos individuais. Neste trabalho, argumentamos que essas incrustações, embora eficazes, são implicitamente fora de contexto para casos de uso específicos de recuperação, e que uma incrustação contextualizada de documento deve levar em consideração tanto o documento quanto os documentos vizinhos no contexto - análogo às incrustações de palavras contextualizadas. Propomos dois métodos complementares para incrustações contextualizadas de documentos: primeiro, um objetivo alternativo de aprendizado contrastivo que incorpora explicitamente os documentos vizinhos na perda contextual intra lote; segundo, uma nova arquitetura contextual que codifica explicitamente informações do documento vizinho na representação codificada. Os resultados mostram que ambos os métodos alcançam melhor desempenho do que os biencoders em várias configurações, com diferenças especialmente pronunciadas fora do domínio. Alcançamos resultados de ponta no benchmark MTEB sem mineração de negativos difíceis, destilação de pontuação, instruções específicas do conjunto de dados, compartilhamento de exemplos intra-GPU ou tamanhos de lote extremamente grandes. Nosso método pode ser aplicado para melhorar o desempenho em qualquer conjunto de dados de aprendizado contrastivo e qualquer biencoder.
Nos últimos anos, a Pré-treinamento Contrastivo Linguagem-Imagem (CLIP) tornou-se um pilar na inteligência multimodal. No entanto, estudos recentes identificaram que a perda de informação no processo de codificação do CLIP é substancial, e o CLIP tende a capturar apenas características grosseiras da entrada. Essa deficiência limita significativamente a capacidade de um único modelo CLIP lidar com imagens ricas em detalhes visuais. Neste trabalho, propomos uma estratégia simples, porém eficaz e independente de modelo, chamada de Reciclagem Diversificada de Múltiplos (DMU), para o CLIP. O DMU ajusta eficientemente uma série de modelos CLIP que capturam diferentes espaços de características, a partir de um ponto de verificação denso pré-treinado do CLIP, compartilhando parâmetros exceto para a Rede de Alimentação Direta (FFN). Esses modelos podem então ser transformados em um CLIP-MoE com uma capacidade de modelo maior, resultando em um desempenho significativamente aprimorado com um mínimo custo computacional. Até onde sabemos, a Reciclagem Diversificada de Múltiplos é a primeira abordagem a introduzir MoE esparsamente ativados nos modelos fundamentais do CLIP. Experimentos extensivos demonstram o desempenho significativo do CLIP-MoE em várias tarefas de recuperação sem uso de exemplos, classificação de imagens sem uso de exemplos e benchmarks downstream de Modelos de Linguagem Multimodal Grande (MLLM) ao servir como um codificador de visão. Além disso, a Reciclagem Diversificada de Múltiplos permite a conversão de qualquer modelo denso do CLIP em CLIP-MoEs, que podem substituir o CLIP de forma simples e direta sem necessidade de adaptação adicional em estruturas downstream. Através da Reciclagem Diversificada de Múltiplos, visamos fornecer insights valiosos para futuras pesquisas no desenvolvimento de sistemas de aprendizado multimodal mais eficientes e eficazes.
Os engenheiros de software geralmente escrevem código editando programas existentes. Em contraste, modelos de linguagem grandes (LLMs) sintetizam programas de forma autoregressiva em uma única passagem. Uma explicação para isso é a escassez de dados de edição de código de código aberto. Enquanto dados de instrução de alta qualidade para síntese de código já são escassos, dados de edição de alta qualidade são ainda mais escassos. Para preencher essa lacuna, desenvolvemos um algoritmo de geração de dados sintéticos chamado LintSeq. Esse algoritmo refatora o código existente em uma sequência de edições de código usando um linter para amostrar proceduralmente as inserções sem erros que podem ser usadas para escrever programas sequencialmente. Ele gera sequências de edições como strings de texto consistindo em diferenças de programa consecutivas. Para testar o LintSeq, o utilizamos para refatorar um conjunto de dados de pares de instrução + programa em tuplas de instrução + sequência de diferenças de programa. Em seguida, ajustamos a instrução uma série de LLMs menores variando de 2,6B a 14B parâmetros nas versões refatoradas e originais desse conjunto de dados, comparando o desempenho de zero-shot em benchmarks de síntese de código. Mostramos que durante a amostragem repetida, os modelos ajustados com sequências de edições produzem programas mais diversos do que as bases. Isso resulta em melhor escalabilidade no tempo de inferência para cobertura de benchmark como função de amostras, ou seja, a fração de problemas "pass@k" resolvidos por qualquer tentativa dada "k" tentativas. Por exemplo, no HumanEval pass@50, LLMs pequenos ajustados em sequências de edições sintéticas são competitivos com o GPT-4 e superam os modelos ajustados no conjunto de dados base em +20% (+/-3%) na pontuação absoluta. Por fim, também pré-treinamos nossos próprios LMs pequenos para compreensão de código. Mostramos que o ajuste de modelos pequenos em edições de código sintéticas resulta em síntese de código de ponta para a classe de modelo em dispositivo. Nosso LM de sequência de edições de 150M parâmetros corresponde ou supera modelos de código com o dobro de parâmetros, tanto com quanto sem amostragem repetida, incluindo Codex e AlphaCode.
A Geração com Recuperação Aprimorada (RAG) tem demonstrado melhorar a precisão factual dos Modelos de Linguagem de Grande Escala (LLMs), mas os métodos existentes frequentemente sofrem de capacidades limitadas de raciocínio ao utilizar efetivamente a evidência recuperada, especialmente ao usar LLMs de código aberto. Para mitigar essa lacuna, introduzimos um novo framework, Open-RAG, projetado para aprimorar as capacidades de raciocínio no RAG com LLMs de código aberto. Nosso framework transforma um LLM denso arbitrário em um modelo de mistura de especialistas (MoE) esparsa eficiente em parâmetros capaz de lidar com tarefas de raciocínio complexas, incluindo consultas de um ou vários saltos. O Open-RAG treina o modelo de forma única para navegar em distratores desafiadores que parecem relevantes, mas são enganosos. Como resultado, o Open-RAG aproveita a aprendizagem latente, selecionando dinamicamente especialistas relevantes e integrando conhecimento externo de forma eficaz para respostas mais precisas e contextualmente relevantes. Além disso, propomos um método híbrido adaptativo de recuperação para determinar a necessidade de recuperação e equilibrar o compromisso entre ganho de desempenho e velocidade de inferência. Resultados experimentais mostram que o Open-RAG baseado em Llama2-7B supera os LLMs e modelos RAG de ponta, como ChatGPT, Self-RAG e Command R+, em várias tarefas intensivas em conhecimento. Disponibilizamos nosso código e modelos em código aberto em https://openragmoe.github.io/
Os modelos de contexto longo (LCMs) deram passos notáveis nos últimos anos, oferecendo aos usuários grande conveniência para lidar com tarefas que envolvem longos contextos, como a sumarização de documentos. À medida que a comunidade prioriza cada vez mais a fidelidade dos resultados gerados, garantir apenas a precisão das saídas dos LCMs é insuficiente, pois é bastante desafiador para os humanos verificar os resultados a partir de contextos extremamente longos. No entanto, embora alguns esforços tenham sido feitos para avaliar se os LCMs respondem verdadeiramente com base no contexto, esses trabalhos são limitados a tarefas específicas ou dependem fortemente de recursos de avaliação externos como o GPT-4. Neste trabalho, apresentamos o L-CiteEval, um benchmark multi-tarefa abrangente para compreensão de longo contexto com citações, com o objetivo de avaliar tanto a capacidade de compreensão quanto a fidelidade dos LCMs. O L-CiteEval abrange 11 tarefas de domínios diversos, com comprimentos de contexto variando de 8K a 48K, e fornece uma suíte de avaliação totalmente automatizada. Ao testar 11 LCMs de ponta, tanto de código fechado quanto de código aberto, descobrimos que, embora esses modelos apresentem pequenas diferenças em seus resultados gerados, os modelos de código aberto ficam significativamente atrás de seus equivalentes de código fechado em termos de precisão e recall de citações. Isso sugere que os LCMs de código aberto atuais têm propensão a responder com base em seu conhecimento inerente em vez do contexto fornecido, representando um risco significativo para a experiência do usuário em aplicações práticas. Também avaliamos a abordagem RAG e observamos que o RAG pode melhorar significativamente a fidelidade dos LCMs, embora com uma leve diminuição na qualidade da geração. Além disso, descobrimos uma correlação entre os mecanismos de atenção dos LCMs e o processo de geração de citações.
Investigamos as representações internas dos modelos de visão-linguagem (VLMs) para lidar com alucinações, um desafio persistente apesar dos avanços no tamanho e treinamento do modelo. Projetamos as representações internas de imagem dos VLMs para o vocabulário de linguagem deles e observamos probabilidades de saída mais confiantes em objetos reais do que em objetos alucinados. Além disso, utilizamos essas probabilidades de saída para localizar espacialmente objetos reais. A partir dessa abordagem, introduzimos um algoritmo de apagamento de conhecimento que remove alucinações ortogonalizando linearmente características de imagem em relação às características de objetos alucinados. Mostramos que edições direcionadas às representações latentes de um modelo podem reduzir alucinações em até 25,7% no conjunto de dados COCO2014, preservando o desempenho. Nossas descobertas demonstram como um entendimento mais profundo das representações latentes dos VLMs pode aprimorar a confiabilidade e permitir capacidades inovadoras, como a segmentação de zero-shot.
Grandes Modelos de Linguagem (LLMs), conhecidos por sua versatilidade em dados textuais, estão sendo cada vez mais explorados por seu potencial de aprimorar a segmentação de imagens médicas, uma tarefa crucial para imagens de diagnóstico precisas. Este estudo explora o aprimoramento dos Transformadores de Visão (ViTs) para segmentação de imagens médicas, integrando blocos de transformadores LLM pré-treinados. Nossa abordagem, que incorpora um bloco de transformador LLM congelado no codificador de um modelo baseado em ViT, resulta em melhorias substanciais no desempenho de segmentação em várias modalidades de imagens médicas. Propomos um Mecanismo de Atenção Híbrido que combina aprendizado de características globais e locais com um Bloco de Fusão Multi-Escala para agregar características em diferentes escalas. O modelo aprimorado apresenta ganhos significativos de desempenho, incluindo um aumento médio na pontuação Dice de 0,74 para 0,79 e melhorias em precisão, acurácia e no Índice de Jaccard. Esses resultados demonstram a eficácia dos transformadores baseados em LLM na refinação da segmentação de imagens médicas, destacando seu potencial para aumentar significativamente a precisão e a robustez do modelo. O código-fonte e nossa implementação estão disponíveis em: https://bit.ly/3zf2CVs
Agentes autônomos têm demonstrado um potencial significativo na automatização de tarefas complexas de tomada de decisão multietapa. No entanto, mesmo os modelos visão-linguagem de última geração (VLMs), como o GPT-4o, ainda não alcançam o desempenho humano, especialmente em ambientes web intricados e tarefas de planejamento de longo prazo. Para lidar com essas limitações, apresentamos o Reflective Monte Carlo Tree Search (R-MCTS), um algoritmo inovador de teste projetado para aprimorar a capacidade de agentes de IA, por exemplo, alimentados pelo GPT-4o, de explorar o espaço de decisão dinamicamente. O R-MCTS estende o MCTS tradicional ao 1) incorporar reflexão constrastiva, permitindo que os agentes aprendam com interações passadas e melhorem dinamicamente sua eficiência de busca; e 2) usar debates multiagentes para fornecer uma avaliação de estado confiável. Além disso, melhoramos o desempenho do agente ajustando o GPT-4o por meio de autoaprendizagem, usando travessias de árvores geradas pelo R-MCTS sem rótulos fornecidos por humanos. No desafiador benchmark VisualWebArena, nosso agente R-MCTS baseado no GPT-4o alcança uma melhoria relativa de 6% a 30% em várias tarefas em comparação com o estado-da-arte anterior. Além disso, mostramos que o conhecimento adquirido na busca em tempo de teste pode ser transferido de volta para o GPT-4o por meio de ajuste fino. O GPT-4o ajustado corresponde a 97% do desempenho do R-MCTS, reduzindo o uso de computação em um fator de quatro no tempo de teste. Além disso, resultados qualitativos revelam que o modelo GPT-4o ajustado demonstra a capacidade de explorar o ambiente, avaliar um estado e retroceder para estados viáveis quando detecta que o estado atual não pode levar ao sucesso. Além disso, nosso trabalho demonstra as propriedades de escalabilidade de computação tanto no treinamento - coleta de dados com R-MCTS - quanto no tempo de teste. Esses resultados sugerem uma direção de pesquisa promissora para aprimorar o raciocínio e as capacidades de planejamento dos VLMs para aplicações agentes por meio da busca em tempo de teste e autoaprendizagem.
Trabalhos recentes em renderização de volume, como NeRF e Splatting Gaussiano 3D (3DGS), avançam significativamente a qualidade e eficiência de renderização com a ajuda do campo de radiância neural implícito aprendido ou Gaussiana 3D. Renderizando sobre uma representação explícita, o 3DGS convencional e suas variantes oferecem eficiência em tempo real otimizando o modelo paramétrico com supervisão de visão única por iteração durante o treinamento, adotado do NeRF. Como resultado, certas visões são superajustadas, levando a uma aparência insatisfatória na síntese de novas visões e geometrias 3D imprecisas. Para resolver os problemas mencionados, propomos um novo método de otimização 3DGS que incorpora quatro contribuições-chave inovadoras: 1) Transformamos o paradigma convencional de treinamento de visão única em uma estratégia de treinamento de múltiplas visões. Com nossa regulamentação de múltiplas visões proposta, os atributos Gaussianos 3D são otimizados sem superajuste de certas visões de treinamento. Como solução geral, melhoramos a precisão geral em uma variedade de cenários e diferentes variantes Gaussianas. 2) Inspirados pelo benefício introduzido por visões adicionais, propomos ainda um esquema de orientação cruzada intrínseca, levando a um procedimento de treinamento de grosso a fino em relação a diferentes resoluções. 3) Construído sobre nosso treinamento regulado de múltiplas visões, propomos ainda uma estratégia de densificação de raios cruzados, densificando mais kernels Gaussianos nas regiões de interseção de raios a partir de uma seleção de visões. 4) Ao investigar mais a estratégia de densificação, descobrimos que o efeito da densificação deve ser aprimorado quando certas visões são distintas dramaticamente. Como solução, propomos uma nova estratégia de densificação aumentada de múltiplas visões, onde as Gaussianas 3D são incentivadas a serem densificadas para um número suficiente, resultando em uma precisão de reconstrução aprimorada.
Recentemente, tem havido um sentimento crescente de que os modernos modelos multimodais grandes (LMMs) abordaram a maioria dos desafios-chave relacionados à compreensão de vídeos curtos. Como resultado, tanto a academia quanto a indústria estão gradualmente direcionando sua atenção para os desafios mais complexos apresentados pela compreensão de vídeos longos. No entanto, será que isso é realmente verdade? Nossos estudos indicam que os LMMs ainda carecem de muitas capacidades fundamentais de raciocínio, mesmo ao lidar com vídeos curtos. Apresentamos o Vinoground, um benchmark de avaliação LMM temporal contrafactual que abrange 1000 pares de vídeo-legenda curtos e naturais. Demonstramos que os LMMs existentes têm sérias dificuldades em distinguir diferenças temporais entre diferentes ações e transformações de objetos. Por exemplo, o melhor modelo GPT-4o obtém apenas ~50% em nossas pontuações de texto e vídeo, mostrando uma grande lacuna em comparação com a linha de base humana de ~90%. Todos os modelos multimodais de código aberto e modelos baseados em CLIP têm desempenho muito pior, produzindo principalmente um desempenho de chance aleatória. Através deste trabalho, lançamos luz sobre o fato de que o raciocínio temporal em vídeos curtos é um problema ainda não totalmente resolvido. O conjunto de dados e o código de avaliação estão disponíveis em https://vinoground.github.io.
Exploramos o surgimento de comportamento inteligente em sistemas artificiais investigando como a complexidade de sistemas baseados em regras influencia as capacidades de modelos treinados para prever essas regras. Nosso estudo se concentra em autômatos celulares elementares (ECA), sistemas unidimensionais simples, porém poderosos, que geram comportamentos que vão de triviais a altamente complexos. Ao treinar diferentes Modelos de Linguagem Grandes (LLMs) em ECAs distintos, avaliamos a relação entre a complexidade do comportamento das regras e a inteligência exibida pelos LLMs, conforme refletido em seu desempenho em tarefas subsequentes. Nossas descobertas revelam que regras com maior complexidade levam a modelos que exibem maior inteligência, conforme demonstrado por seu desempenho em tarefas de raciocínio e previsão de movimentos de xadrez. Tanto sistemas uniformes e periódicos, quanto sistemas altamente caóticos, resultaram em desempenho inferior em tarefas subsequentes, destacando um ponto ideal de complexidade propício à inteligência. Conjeturamos que a inteligência surge da capacidade de prever a complexidade e que criar inteligência pode exigir apenas exposição à complexidade.
Apresentamos o Synthio, uma abordagem inovadora para aumentar conjuntos de dados de classificação de áudio em pequena escala com dados sintéticos. Nosso objetivo é melhorar a precisão da classificação de áudio com dados rotulados limitados. Técnicas tradicionais de aumento de dados, que aplicam transformações artificiais (por exemplo, adicionar ruído aleatório ou mascarar segmentos), têm dificuldade em criar dados que capturem a verdadeira diversidade presente em áudios do mundo real. Para lidar com essa limitação, propomos aumentar o conjunto de dados com áudios sintéticos gerados a partir de modelos de difusão de texto para áudio (T2A). No entanto, sintetizar aumentos eficazes é desafiador, pois os dados gerados não só devem ser acusticamente consistentes com o conjunto de dados em pequena escala subjacente, mas também devem ter diversidade composicional suficiente. Para superar o primeiro desafio, alinhamos as gerações do modelo T2A com o conjunto de dados em pequena escala usando otimização de preferência. Isso garante que as características acústicas dos dados gerados permaneçam consistentes com o conjunto de dados em pequena escala. Para abordar o segundo desafio, propomos uma técnica inovadora de geração de legendas que aproveita as capacidades de raciocínio de Modelos de Linguagem Grandes para (1) gerar legendas de áudio diversas e significativas e (2) refinar iterativamente sua qualidade. As legendas geradas são então usadas para solicitar o modelo T2A alinhado. Avaliamos extensivamente o Synthio em dez conjuntos de dados e quatro configurações simuladas de dados limitados. Os resultados indicam que nosso método consistentemente supera todos os baselines em 0,1% - 39% usando um modelo T2A treinado apenas em áudios do AudioSet fracamente legendados.
Demonstramos que pequenos modelos de linguagem generativos pré-treinados, com milhões de parâmetros, podem aprender as regras latentes de um processo a partir de dados associados a esse processo. Inspirados na novela de Stefan Zweig "Schachnovelle," também conhecida como "O Jogo Real" em inglês, mostramos que modelos de linguagem pequenos pré-treinados com 28M e 125M de parâmetros podem ser refinados por instrução com 1.000 a 1.000.000 exemplos para aprender as regras do xadrez, propor movimentos legais e resolver com precisão problemas de xadrez. Também exploramos o impacto de épocas sucessivas de refinamento do modelo de linguagem em resultados aprimorados e demonstramos reduções em alucinações do modelo ao aumentar o número de exemplos de refinamento por instrução.
A fusão de modelos, como o "model souping", é a prática de combinar diferentes modelos com a mesma arquitetura sem treinamento adicional. Neste trabalho, apresentamos uma metodologia de fusão de modelos que aborda a dificuldade de ajustar modelos de Linguagem Grande (LLMs) para tarefas-alvo em idiomas não ingleses, onde dados específicos da tarefa muitas vezes não estão disponíveis. Nos concentramos no raciocínio matemático e, sem dados matemáticos no idioma-alvo, facilitamos a transferência interlingual ao combinar capacidades de linguagem e matemática. Partindo do mesmo modelo pré-treinado, ajustamos separadamente "especialistas" em dados de instrução matemática em inglês e em dados de instrução genérica no idioma-alvo. Em seguida, substituímos diretamente as camadas superiores e inferiores do transformador do especialista em matemática pelas camadas do especialista em linguagem, o que consequentemente melhora o desempenho matemático no idioma-alvo. Os modelos mesclados resultantes superam os especialistas individuais e outros métodos de fusão no benchmark matemático, MGSM, em 10% em quatro idiomas principais onde os dados de instrução matemática são escassos. Além disso, essa troca de camadas é simples, econômica e intuitiva, pois é baseada em uma análise interpretativa das mudanças de parâmetros mais importantes durante o ajuste fino de cada especialista. A capacidade de recompor com sucesso LLMs para transferência interlingual dessa maneira abre possibilidades futuras para combinar expertise de modelos, criar soluções modulares e transferir capacidades de raciocínio entre idiomas de forma póstuma.
Os avanços recentes em Modelos de Linguagem 3D de Grande Escala (3DLLMs) destacaram seu potencial na construção de agentes de propósito geral no mundo real em 3D, no entanto, desafios persistem devido à falta de dados robustos de alta qualidade para seguir instruções, resultando em poder discriminativo e generalização limitados dos 3DLLMs. Neste artigo, apresentamos o Robin3D, um poderoso 3DLLM treinado em dados de grande escala de seguimento de instruções gerados por nossa nova engine de dados, Robust Instruction Generation (RIG). O RIG gera dois tipos principais de dados de instrução: 1) os dados de Seguimento de Instrução Adversarial, que apresentam amostras mistas negativas e positivas para aprimorar a compreensão discriminativa do modelo. 2) os dados de Seguimento de Instrução Diversos, que contêm vários estilos de instrução para aprimorar a generalização do modelo. Como resultado, construímos 1 milhão de dados de seguimento de instruções, compostos por 344 mil amostras Adversariais, 508 mil amostras Diversas e 165 mil amostras do conjunto de treinamento de referência. Para lidar melhor com essas instruções complexas, o Robin3D primeiro incorpora um Projetor com Relações Aumentadas para aprimorar a compreensão espacial e, em seguida, fortalece a capacidade de referenciar e ancorar objetos por meio de Ligação de Recursos de Identificação. O Robin3D supera consistentemente métodos anteriores em cinco benchmarks amplamente utilizados de aprendizado multimodal 3D, sem a necessidade de ajuste fino específico da tarefa. Notavelmente, alcançamos uma melhoria de 7,8\% na tarefa de ancoragem (Multi3DRefer) e uma melhoria de 6,9\% na tarefa de legendagem (Scan2Cap).
A afinação fina baseada em prompt tornou-se um método essencial para extrair informações codificadas em modelos de linguagem pré-treinados para uma variedade de tarefas, incluindo classificação de texto. Para tarefas de classificação multi-classe, a afinação fina baseada em prompt em cenários de baixos recursos resultou em níveis de desempenho comparáveis aos métodos de afinação completa. Estudos anteriores têm utilizado modelos de prompt elaborados e verbalizadores, mapeando do espaço de termos de rótulo para o espaço de classe, para resolver o problema de classificação como uma tarefa de modelagem de linguagem mascarada. No entanto, a afinação fina baseada em prompt de domínio cruzado e refinado com um verbalizador automaticamente enriquecido permanece inexplorada, principalmente devido à dificuldade e custos de selecionar manualmente termos de rótulo de domínio para o verbalizador, o que requer humanos com expertise no domínio. Para enfrentar esse desafio, apresentamos o SciPrompt, um framework projetado para recuperar automaticamente termos relacionados a tópicos científicos para tarefas de classificação de texto de baixos recursos. Para isso, selecionamos termos de rótulo semanticamente correlacionados e específicos do domínio no contexto da literatura científica para aprimoramento do verbalizador. Além disso, propomos uma nova estratégia de verbalização que utiliza pontuações de correlação como pesos adicionais para aprimorar o desempenho de previsão do modelo de linguagem durante a afinação do modelo. Nosso método supera os métodos de afinação fina baseados em prompt de última geração em tarefas de classificação de texto científico em configurações de poucos e zero-shot, especialmente na classificação de tópicos científicos refinados e emergentes.