Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelos de difusão melhoraram significativamente as capacidades de geração e edição de vídeos. No entanto, a edição multi-granular de vídeos, que abrange modificações em nível de classe, instância e parte, continua sendo um desafio formidável. As principais dificuldades na edição multi-granular incluem o desalinhamento semântico do controle texto-para-região e o acoplamento de características dentro do modelo de difusão. Para abordar essas dificuldades, apresentamos o VideoGrain, uma abordagem zero-shot que modula os mecanismos de atenção espaço-temporal (cruzada e auto-) para alcançar um controle refinado sobre o conteúdo do vídeo. Melhoramos o controle texto-para-região amplificando a atenção de cada prompt local para sua região espacialmente desacoplada correspondente, enquanto minimizamos as interações com áreas irrelevantes na atenção cruzada. Além disso, aprimoramos a separação de características aumentando a consciência intra-região e reduzindo a interferência inter-região na auto-atenção. Experimentos extensivos demonstram que nosso método alcança desempenho de ponta em cenários do mundo real. Nosso código, dados e demonstrações estão disponíveis em https://knightyxp.github.io/VideoGrain_project_page/.
O contexto longo é um tópico importante no Processamento de Linguagem Natural (PLN), permeando o desenvolvimento das arquiteturas de PLN e oferecendo oportunidades imensas para os Modelos de Linguagem de Grande Escala (LLMs), concedendo a eles o potencial de aprendizado contínuo, semelhante ao dos humanos. Infelizmente, a busca por um contexto longo é acompanhada por inúmeros obstáculos. No entanto, o contexto longo continua sendo uma vantagem competitiva central para os LLMs. Nos últimos dois anos, o comprimento do contexto dos LLMs alcançou uma extensão revolucionária, chegando a milhões de tokens. Além disso, a pesquisa sobre LLMs de contexto longo expandiu-se da extrapolação de comprimento para um foco abrangente em arquitetura, infraestrutura, treinamento e tecnologias de avaliação. Inspirados pelo poema sinfônico "Assim Falou Zaratustra", traçamos uma analogia entre a jornada de extensão do contexto dos LLMs e as tentativas humanas de transcender a mortalidade. Neste estudo, ilustraremos como os LLMs lutam entre a enorme necessidade de um contexto mais longo e a igual necessidade de aceitar o fato de que ele é, em última instância, finito. Para alcançar isso, apresentamos uma visão global do ciclo de vida dos LLMs de contexto longo a partir de quatro perspectivas: arquitetura, infraestrutura, treinamento e avaliação, mostrando o espectro completo das tecnologias de contexto longo. Ao final deste estudo, apresentaremos 10 questões não respondidas atualmente enfrentadas pelos LLMs de contexto longo. Esperamos que este estudo possa servir como uma introdução sistemática à pesquisa sobre LLMs de contexto longo.
Apresentamos o Slam, uma receita para treinar Modelos de Linguagem de Fala (SLMs, na sigla em inglês) de alta qualidade em uma única GPU acadêmica em 24 horas. Isso é alcançado por meio de análises empíricas de inicialização e arquitetura do modelo, dados de treinamento sintéticos, otimização de preferências com dados sintéticos e ajustes em todos os demais componentes. Demonstramos empiricamente que essa receita de treinamento também escala bem com maior capacidade computacional, obtendo resultados comparáveis aos principais SLMs com uma fração do custo computacional. Esperamos que esses insights tornem o treinamento e a pesquisa em SLMs mais acessíveis. No contexto das leis de escalonamento de SLMs, nossos resultados superam significativamente o desempenho ótimo previsto em termos de computação, oferecendo uma visão otimista sobre a viabilidade dos SLMs. Consulte código, dados, modelos e exemplos em: https://pages.cs.huji.ac.il/adiyoss-lab/slamming.
Nosso principal objetivo aqui é criar um bom modelo de percepção generalista que possa lidar com múltiplas tarefas, dentro de limites de recursos computacionais e dados de treinamento. Para alcançar isso, recorremos a modelos de difusão texto-para-imagem pré-treinados em bilhões de imagens. Nossas métricas de avaliação exaustivas demonstram que o DICEPTION aborda efetivamente múltiplas tarefas de percepção, alcançando desempenho comparável aos modelos state-of-the-art. Conseguimos resultados equivalentes ao SAM-vit-h usando apenas 0,06% de seus dados (por exemplo, 600K vs. 1B de imagens anotadas em nível de pixel). Inspirados por Wang et al., o DICEPTION formula as saídas de várias tarefas de percepção usando codificação de cores; e mostramos que a estratégia de atribuir cores aleatórias a diferentes instâncias é altamente eficaz tanto na segmentação de entidades quanto na segmentação semântica. Unificar várias tarefas de percepção como geração condicional de imagens nos permite aproveitar totalmente modelos texto-para-imagem pré-treinados. Assim, o DICEPTION pode ser treinado de forma eficiente a um custo ordens de magnitude menor, em comparação com modelos convencionais que foram treinados do zero. Ao adaptar nosso modelo a outras tarefas, ele requer apenas ajuste fino em tão poucas quanto 50 imagens e 1% de seus parâmetros. O DICEPTION fornece insights valiosos e uma solução mais promissora para modelos generalistas visuais.
Os recentes avanços na tokenização de áudio melhoraram significativamente a integração de capacidades de áudio em grandes modelos de linguagem (LLMs). No entanto, a compreensão e a geração de áudio são frequentemente tratadas como tarefas distintas, o que dificulta o desenvolvimento de modelos verdadeiramente unificados de áudio e linguagem. Embora o ajuste por instrução tenha demonstrado sucesso notável na melhoria da generalização e da aprendizagem zero-shot em texto e visão, sua aplicação ao áudio permanece amplamente inexplorada. Um grande obstáculo é a falta de conjuntos de dados abrangentes que unifiquem a compreensão e a geração de áudio. Para resolver isso, apresentamos o Audio-FLAN, um conjunto de dados de ajuste por instrução em larga escala que abrange 80 tarefas diversas nos domínios de fala, música e som, com mais de 100 milhões de instâncias. O Audio-FLAN estabelece as bases para modelos unificados de áudio e linguagem que podem lidar de maneira fluida tanto com tarefas de compreensão (por exemplo, transcrição, interpretação) quanto de geração (por exemplo, fala, música, som) em uma ampla gama de domínios de áudio de forma zero-shot. O conjunto de dados Audio-FLAN está disponível no HuggingFace e no GitHub e será continuamente atualizado.
Embora a Adaptação de Baixa Classificação (LoRA) permita o ajuste fino eficiente em termos de parâmetros para Modelos de Linguagem de Grande Escala (LLMs), seu desempenho frequentemente fica aquém do Ajuste Fino Completo (Full FT). Os métodos atuais otimizam a LoRA inicializando com subconjuntos estáticos de decomposição em valores singulares (SVD), resultando em uma utilização subótima do conhecimento pré-treinado. Outra abordagem para melhorar a LoRA é incorporar uma arquitetura de Mistura de Especialistas (MoE). No entanto, o desalinhamento de pesos e a dinâmica complexa de gradientes tornam desafiador adotar a SVD antes da arquitetura LoRA MoE. Para mitigar esses problemas, propomos a Grande Mistura de Especialistas LoRA (GOAT), uma estrutura que (1) integra adaptativamente prioridades relevantes usando um MoE estruturado por SVD e (2) alinha a otimização com o MoE de ajuste fino completo ao derivar um fator de escalonamento teórico. Demonstramos que o escalonamento adequado, sem modificar a arquitetura ou os algoritmos de treinamento, aumenta a eficiência e o desempenho da LoRA MoE. Experimentos em 25 conjuntos de dados, incluindo compreensão de linguagem natural, raciocínio de senso comum, classificação de imagens e geração de linguagem natural, demonstram o desempenho de ponta do GOAT, reduzindo a lacuna em relação ao Full FT.
Os métodos de constância de cor frequentemente enfrentam dificuldades para generalizar entre diferentes sensores de câmera devido às variações nas sensibilidades espectrais. Apresentamos o GCC, que utiliza modelos de difusão para preencher cartões de cores em imagens para estimação de iluminação. Nossas principais inovações incluem (1) uma abordagem de inferência determinística em etapa única que preenche cartões de cores refletindo a iluminação da cena, (2) uma técnica de decomposição Laplaciana que preserva a estrutura do cartão enquanto permite a adaptação de cores dependente da iluminação, e (3) uma estratégia de aumento de dados baseada em máscara para lidar com anotações imprecisas de cartões de cores. O GCC demonstra robustez superior em cenários de câmeras cruzadas, alcançando taxas de erro dos piores 25% de 5,15° e 4,32° em avaliações bidirecionais. Esses resultados destacam a estabilidade e a capacidade de generalização do nosso método em diferentes características de câmera sem a necessidade de treinamento específico para o sensor, tornando-o uma solução versátil para aplicações do mundo real.
A capacidade crítica dos Modelos de Linguagem de Grande Escala (LLMs) é essencial para habilidades de raciocínio, que podem fornecer sugestões necessárias (por exemplo, análises detalhadas e feedback construtivo). Portanto, como avaliar a capacidade crítica dos LLMs tem atraído grande atenção, e vários benchmarks de crítica foram propostos. No entanto, os benchmarks de crítica existentes geralmente apresentam as seguintes limitações: (1) Foco em tarefas de raciocínio diversificadas em domínios gerais e avaliação insuficiente em tarefas de código (por exemplo, cobrindo apenas a tarefa de geração de código), onde a dificuldade das consultas é relativamente fácil (por exemplo, as consultas de código do CriticBench são provenientes do Humaneval e MBPP). (2) Falta de avaliação abrangente de diferentes dimensões. Para abordar essas limitações, introduzimos um benchmark holístico de crítica de código para LLMs chamado CodeCriticBench. Especificamente, nosso CodeCriticBench inclui duas tarefas principais de código (ou seja, geração de código e QA de código) com diferentes níveis de dificuldade. Além disso, os protocolos de avaliação incluem avaliação básica de crítica e avaliação avançada de crítica para diferentes características, onde listas de verificação detalhadas são bem projetadas para configurações avançadas. Por fim, conduzimos extensos resultados experimentais de LLMs existentes, que mostram a eficácia do CodeCriticBench.
A escalada do pré-treinamento computacional tem se mostrado eficaz para alcançar multilingüismo, mas o mesmo vale para a escalada em tempo de teste? Neste trabalho, apresentamos o MCLM, um benchmark matemático multilingue que apresenta problemas de nível competitivo em 55 idiomas. Testamos três métodos de escalada em tempo de teste - Modelagem de Recompensa de Resultado (ORM), Modelagem de Recompensa de Processo (ORM) e Forçamento de Orçamento (BF) - tanto no Qwen2.5-1.5B Math quanto no MR1-1.5B, um LLM multilingue que treinamos para raciocínio estendido. Nossos experimentos mostram que o uso do Qwen2.5-1.5B Math com ORM alcança uma pontuação de 35,8 no MCLM, enquanto o BF no MR1-1.5B atinge 35,2. Embora os "LLMs pensantes" tenham recebido atenção significativa recentemente, descobrimos que seu desempenho é comparável aos métodos tradicionais de escalada, como best-of-N, quando restritos a níveis semelhantes de FLOPs de inferência. Além disso, enquanto o BF proporciona uma melhoria de 20 pontos no AIME em inglês, ele oferece apenas um ganho médio de 1,94 pontos em outros idiomas - um padrão consistente entre os outros métodos de escalada em tempo de teste que estudamos - destacando que a escalada em tempo de teste pode não se generalizar tão efetivamente para tarefas multilingues. Para fomentar pesquisas futuras, disponibilizamos o MCLM, o MR1-1.5B e os resultados de avaliação.
Avanços recentes na geração de vídeos permitiram que modelos sintetizassem vídeos de alta qualidade com duração de minutos. No entanto, gerar vídeos ainda mais longos com coerência temporal continua sendo um grande desafio, e os métodos existentes de extrapolação de comprimento resultam em repetição temporal ou desaceleração do movimento. Neste trabalho, analisamos sistematicamente o papel dos componentes de frequência em embeddings posicionais e identificamos uma frequência intrínseca que governa principalmente o comportamento de extrapolação. Com base nessa percepção, propomos o RIFLEx, uma abordagem mínima, porém eficaz, que reduz a frequência intrínseca para suprimir a repetição enquanto preserva a consistência do movimento, sem exigir modificações adicionais. O RIFLEx oferece um verdadeiro "almoço grátis" — alcançando extrapolação de 2x em modelos de difusão de vídeo state-of-the-art de forma completamente livre de treinamento. Além disso, ele melhora a qualidade e permite extrapolação de 3x com ajuste mínimo, sem a necessidade de vídeos longos. Página do projeto e códigos: https://riflex-video.github.io/{https://riflex-video.github.io/.}
Este artigo avalia de forma abrangente vários otimizadores recentemente propostos para treinamento em 4 bits, revelando que a precisão de baixo bit amplifica a sensibilidade às taxas de aprendizado e frequentemente causa instabilidade nas normas dos gradientes, levando à divergência em taxas de aprendizado mais altas. Entre esses, o SPAM, um otimizador recente que apresenta reset de momentum e corte de gradiente com consciência de picos, alcança o melhor desempenho em vários níveis de bits, mas luta para estabilizar as normas dos gradientes, exigindo um ajuste cuidadoso da taxa de aprendizado. Para abordar essas limitações, propomos o Stable-SPAM, que incorpora técnicas aprimoradas de normalização e corte de gradiente. Em particular, o Stable-SPAM (1) atualiza adaptativamente o limite de corte para gradientes com picos, rastreando seus máximos históricos; (2) normaliza toda a matriz de gradiente com base em suas estatísticas históricas de norma l_2; e (3) herda o reset de momentum do SPAM para redefinir periodicamente os momentos de primeira e segunda ordem do Adam, mitigando o acúmulo de gradientes com picos. Experimentos extensivos mostram que o Stable-SPAM estabiliza efetivamente as normas dos gradientes no treinamento de LLMs em 4 bits, oferecendo desempenho superior em comparação com o Adam e o SPAM. Notavelmente, nosso modelo LLaMA-1B de 4 bits treinado com Stable-SPAM supera o LLaMA-1B BF16 treinado com Adam em até 2 pontos de perplexidade. Além disso, quando ambos os modelos são treinados em 4 bits, o Stable-SPAM alcança a mesma perda que o Adam, enquanto requer apenas cerca de metade das etapas de treinamento. O código está disponível em https://github.com/TianjinYellow/StableSPAM.git.
Os modelos de linguagem multimodal de grande escala (MLLMs) existentes são predominantemente treinados e testados em entradas visuais-textuais consistentes, deixando em aberto a questão de se eles podem lidar com inconsistências em conteúdos do mundo real ricos em layout. Para preencher essa lacuna, propomos o benchmark de Raciocínio de Inconsistência Multimodal (MMIR) para avaliar a capacidade dos MLLMs de detectar e raciocinar sobre incompatibilidades semânticas em artefatos como páginas da web, slides de apresentação e pôsteres. O MMIR compreende 534 amostras desafiadoras, cada uma contendo erros sinteticamente injetados em cinco categorias que exigem raciocínio intensivo: Contradição Factual, Atribuição Incorreta de Identidade, Incompatibilidade Contextual, Discrepância Quantitativa e Incoerência Temporal/Espacial. Avaliamos seis MLLMs de ponta, mostrando que modelos com capacidades dedicadas de raciocínio multimodal, como o o1, superam substancialmente seus concorrentes, enquanto modelos de código aberto permanecem particularmente vulneráveis a erros de inconsistência. Análises detalhadas de erros mostram ainda que os modelos se destacam na detecção de inconsistências confinadas a uma única modalidade, particularmente em texto, mas lutam com conflitos multimodais e layouts complexos. Experimentos de sondagem revelam que o prompting de modalidade única, incluindo métodos como Chain-of-Thought (CoT) e Set-of-Mark (SoM), produz ganhos marginais, revelando um gargalo crítico no raciocínio multimodal. Nossas descobertas destacam a necessidade de avanços no raciocínio multimodal e apontam para futuras pesquisas sobre inconsistência multimodal.
As decisões de lançamento de IA generativa determinam se os componentes do sistema são disponibilizados, mas o lançamento não aborda muitos outros elementos que alteram como usuários e partes interessadas podem interagir com um sistema. Além do lançamento, o acesso aos componentes do sistema informa sobre os riscos e benefícios potenciais. O acesso refere-se às necessidades práticas, tanto em termos de infraestrutura, técnica e sociedade, para utilizar os componentes disponíveis de alguma forma. Desconstruímos o acesso ao longo de três eixos: recursos, usabilidade técnica e utilidade. Dentro de cada categoria, um conjunto de variáveis por componente do sistema esclarece as compensações envolvidas. Por exemplo, os recursos exigem acesso à infraestrutura de computação para disponibilizar os pesos do modelo. Também comparamos a acessibilidade de quatro modelos de linguagem de alto desempenho, dois com pesos abertos e dois com pesos fechados, mostrando considerações semelhantes para todos, mas baseadas em variáveis de acesso. As variáveis de acesso estabelecem a base para a capacidade de escalar ou aumentar o acesso aos usuários; examinamos a escala de acesso e como essa escala afeta a capacidade de gerenciar e intervir nos riscos. Esse framework abrange melhor o cenário e as compensações de risco-benefício dos lançamentos de sistemas, informando decisões de lançamento, pesquisas e políticas relacionadas.
Apresentamos o X-Dancer, um novo pipeline de animação de imagens impulsionada por música em zero-shot que cria vídeos diversos e de longa duração de dança humana realista a partir de uma única imagem estática. Em seu núcleo, introduzimos um framework unificado de transformer-difusão, destacando um modelo transformer autorregressivo que sintetiza sequências estendidas e sincronizadas com a música de tokens para poses 2D do corpo, cabeça e mãos, que então guiam um modelo de difusão para produzir quadros de vídeo de dança coerentes e realistas. Diferente dos métodos tradicionais que geram principalmente movimento humano em 3D, o X-Dancer aborda limitações de dados e aumenta a escalabilidade ao modelar um amplo espectro de movimentos de dança 2D, capturando seu alinhamento sutil com batidas musicais por meio de vídeos monoculares facilmente disponíveis. Para alcançar isso, primeiro construímos uma representação de token espacialmente composicional a partir de rótulos de poses humanas 2D associados a confianças de pontos-chave, codificando tanto grandes movimentos articulados do corpo (por exemplo, parte superior e inferior do corpo) quanto movimentos refinados (por exemplo, cabeça e mãos). Em seguida, projetamos um modelo transformer de música-para-movimento que gera autorregressivamente sequências de tokens de poses de dança alinhadas com a música, incorporando atenção global tanto ao estilo musical quanto ao contexto de movimento anterior. Por fim, aproveitamos uma estrutura de difusão para animar a imagem de referência com esses tokens de poses sintetizados por meio de AdaIN, formando um framework totalmente diferenciável de ponta a ponta. Resultados experimentais demonstram que o X-Dancer é capaz de produzir vídeos de dança diversos e caracterizados, superando substancialmente os métodos state-of-the-art em termos de diversidade, expressividade e realismo. Código e modelo estarão disponíveis para fins de pesquisa.
O rápido aumento no uso de dispositivos móveis exige uma automação aprimorada para o gerenciamento contínuo de tarefas. No entanto, muitos frameworks baseados em IA enfrentam dificuldades devido ao conhecimento operacional insuficiente. O conhecimento escrito manualmente ajuda, mas é trabalhoso e ineficiente. Para enfrentar esses desafios, apresentamos o Mobile-Agent-V, um framework que utiliza orientação por vídeo para fornecer conhecimento operacional rico e econômico para automação móvel. O Mobile-Agent-V melhora a capacidade de execução de tarefas ao aproveitar entradas de vídeo sem exigir amostragem ou pré-processamento especializados. O Mobile-Agent-V integra uma estratégia de janela deslizante e incorpora um agente de vídeo e um agente de reflexão profunda para garantir que as ações estejam alinhadas com as instruções do usuário. Por meio dessa abordagem inovadora, os usuários podem gravar processos de tarefas com orientação, permitindo que o sistema aprenda e execute tarefas de forma autônoma e eficiente. Resultados experimentais mostram que o Mobile-Agent-V alcança uma melhoria de desempenho de 30% em comparação com frameworks existentes.
Resolver problemas complexos de manipulação robótica de longo horizonte requer capacidades sofisticadas de planejamento de alto nível, a habilidade de raciocinar sobre o mundo físico e escolher reativamente habilidades motoras apropriadas. Modelos de visão e linguagem (VLMs) pré-treinados em dados da Internet poderiam, em princípio, oferecer uma estrutura para abordar tais problemas. No entanto, em sua forma atual, os VLMs carecem tanto da compreensão detalhada da física intrincada necessária para a manipulação robótica quanto da capacidade de raciocinar sobre longos horizontes para lidar com problemas de acumulação de erros. Neste artigo, introduzimos uma nova estrutura de computação em tempo de teste que aprimora as capacidades de raciocínio físico dos VLMs para tarefas de manipulação em múltiplos estágios. No cerne de nossa abordagem, iterativamente melhoramos um VLM pré-treinado com um mecanismo de "reflexão" - ele usa um modelo generativo para imaginar estados futuros do mundo, aproveita essas previsões para orientar a seleção de ações e reflete criticamente sobre possíveis subotimalidades para refinar seu raciocínio. Resultados experimentais demonstram que nosso método supera significativamente vários VLMs comerciais de ponta, bem como outras abordagens de pós-treinamento, como a Busca em Árvore de Monte Carlo (MCTS). Vídeos estão disponíveis em https://reflect-vlm.github.io.
Este artigo desenvolve um framework agencial que emprega modelos de linguagem de grande escala (LLMs) para automatizar a geração de conteúdo de marketing persuasivo e fundamentado, utilizando descrições de listagens imobiliárias como nosso domínio de aplicação focado. Nosso método foi projetado para alinhar o conteúdo gerado com as preferências dos usuários, ao mesmo tempo em que destaca atributos factuais úteis. Este agente consiste em três módulos principais: (1) Módulo de Fundamentação, que imita o comportamento de especialistas humanos para prever características comercializáveis; (2) Módulo de Personalização, que alinha o conteúdo com as preferências do usuário; (3) Módulo de Marketing, que garante a precisão factual e a inclusão de características localizadas. Realizamos experimentos sistemáticos com sujeitos humanos no domínio do marketing imobiliário, com um grupo focal de potenciais compradores de imóveis. Os resultados demonstram que as descrições de marketing geradas por nossa abordagem são preferidas em relação às escritas por especialistas humanos por uma margem significativa. Nossos achados sugerem um framework agencial baseado em LLMs promissor para automatizar o marketing direcionado em larga escala, ao mesmo tempo em que garante uma geração responsável utilizando apenas fatos.
À medida que o cenário de IA de pesos abertos continua a proliferar - com desenvolvimento de modelos, investimentos significativos e interesse dos usuários - torna-se cada vez mais importante prever quais modelos acabarão por impulsionar a inovação e moldar os ecossistemas de IA. Baseando-nos em paralelos com a dinâmica de citações na literatura científica, propomos um framework para quantificar como a influência de um modelo de pesos abertos evolui. Especificamente, adaptamos o modelo introduzido por Wang et al. para citações científicas, utilizando três parâmetros-chave - imediatismo, longevidade e aptidão relativa - para rastrear o número cumulativo de modelos fine-tunados de um modelo de pesos abertos. Nossos resultados revelam que essa abordagem no estilo de citações pode efetivamente capturar as diversas trajetórias de adoção de modelos de pesos abertos, com a maioria dos modelos se ajustando bem e outliers indicando padrões únicos ou saltos abruptos no uso.
A organização hierárquica é fundamental para os sistemas biológicos e as sociedades humanas, mas os sistemas de inteligência artificial frequentemente dependem de arquiteturas monolíticas que limitam a adaptabilidade e a escalabilidade. As abordagens atuais de aprendizado por reforço hierárquico (HRL) geralmente restringem as hierarquias a dois níveis ou exigem treinamento centralizado, o que limita sua aplicabilidade prática. Apresentamos o TAME Agent Framework (TAG), uma estrutura para a construção de sistemas multiagentes hierárquicos totalmente descentralizados. O TAG permite hierarquias de profundidade arbitrária por meio de um novo conceito chamado LevelEnv, que abstrai cada nível da hierarquia como o ambiente para os agentes acima dele. Essa abordagem padroniza o fluxo de informações entre os níveis, mantendo um acoplamento flexível e permitindo a integração contínua de diversos tipos de agentes. Demonstramos a eficácia do TAG implementando arquiteturas hierárquicas que combinam diferentes agentes de RL em múltiplos níveis, alcançando desempenho superior em relação às abordagens clássicas de RL multiagente em benchmarks padrão. Nossos resultados mostram que a organização hierárquica descentralizada melhora tanto a velocidade de aprendizado quanto o desempenho final, posicionando o TAG como uma direção promissora para sistemas multiagentes escaláveis.
O raciocínio temporal é fundamental para a cognição humana e é crucial para diversas aplicações do mundo real. Embora avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado capacidades promissoras em raciocínio temporal, os benchmarks existentes dependem principalmente de construções baseadas em regras, carecem de profundidade contextual e envolvem um conjunto limitado de entidades temporais. Para abordar essas limitações, introduzimos o Chinese Time Reasoning (CTM), um benchmark projetado para avaliar LLMs no raciocínio temporal dentro do amplo escopo da cronologia dinástica chinesa. O CTM enfatiza relações entre entidades, alinhamento temporal par a par e raciocínio contextualizado e culturalmente fundamentado, proporcionando uma avaliação abrangente. Resultados experimentais extensivos revelam os desafios impostos pelo CTM e destacam possíveis caminhos para melhoria.
Modelos de linguagem de grande escala (LLMs) têm demonstrado melhorias notáveis em raciocínio, e muitos benchmarks existentes foram abordados total ou parcialmente por modelos como o1 e o3. No entanto, a maioria desses benchmarks enfatiza o raciocínio dedutivo, incluindo tarefas matemáticas e de programação, nas quais regras como axiomas matemáticos ou sintaxe de programação são claramente definidas, permitindo que os LLMs planejem e apliquem essas regras para chegar a uma solução. Em contraste, o raciocínio indutivo, onde se infere as regras subjacentes a partir de dados observados, permanece menos explorado. Tais processos indutivos estão no cerne da descoberta científica, pois permitem que pesquisadores extraiam princípios gerais a partir de observações empíricas. Para avaliar se os LLMs possuem essa capacidade, introduzimos o InductionBench, um novo benchmark projetado para avaliar a habilidade de raciocínio indutivo dos LLMs. Nossos resultados experimentais revelam que mesmo os modelos mais avançados disponíveis lutam para dominar as classes de complexidade mais simples dentro da hierarquia subregular de funções, destacando uma deficiência notável nas capacidades de raciocínio indutivo dos LLMs atuais. O código e os dados estão disponíveis em https://github.com/Wenyueh/inductive_reasoning_benchmark.
Os Modelos de Linguagem de Grande Escala (LLMs) surgiram como ferramentas poderosas para enfrentar desafios modernos e viabilizar aplicações práticas. No entanto, seu custo computacional continua sendo uma barreira significativa para a adoção generalizada. A quantização emergiu como uma técnica promissora para democratizar o acesso e permitir a implantação em dispositivos com recursos limitados. Apesar desses avanços, a segurança e a confiabilidade dos modelos quantizados permanecem pouco exploradas, já que estudos anteriores frequentemente ignoram arquiteturas contemporâneas e dependem de benchmarks e avaliações excessivamente simplistas. Para preencher essa lacuna, introduzimos o OpenSafetyMini, um novo conjunto de dados de segurança de código aberto projetado para distinguir melhor entre os modelos. Avaliamos 4 técnicas de quantização de última geração em modelos LLaMA e Mistral usando 4 benchmarks, incluindo avaliações humanas. Nossos resultados revelam que o método de quantização ideal varia para precisão de 4 bits, enquanto as técnicas de quantização vetorial oferecem o melhor desempenho em segurança e confiabilidade na precisão de 2 bits, fornecendo uma base para pesquisas futuras.
Este relatório apresenta um framework abrangente para a geração de formas 3D e texturas de alta qualidade a partir de diversos tipos de prompts de entrada, incluindo imagens únicas, imagens multivista e descrições textuais. O framework é composto por geração de formas 3D e geração de texturas. (1). O pipeline de geração de formas 3D emprega um Autoencoder Variacional (VAE) para codificar geometrias 3D implícitas em um espaço latente e uma rede de difusão para gerar latentes condicionados aos prompts de entrada, com modificações para aumentar a capacidade do modelo. Uma abordagem alternativa de geração de Malhas Criadas por Artistas (AM) também é explorada, obtendo resultados promissores para geometrias mais simples. (2). A geração de texturas envolve um processo em múltiplos estágios, começando com a geração de imagens frontais, seguida pela geração de imagens multivista, conversão de texturas RGB para PBR e refinamento de texturas multivista em alta resolução. Um planejador de consistência é integrado em cada estágio para impor consistência pixel a pixel entre as texturas multivista durante a inferência, garantindo uma integração perfeita. O pipeline demonstra eficácia no tratamento de diversos formatos de entrada, aproveitando arquiteturas neurais avançadas e metodologias inovadoras para produzir conteúdo 3D de alta qualidade. Este relatório detalha a arquitetura do sistema, os resultados experimentais e as possíveis direções futuras para aprimorar e expandir o framework. O código-fonte e os pesos pré-treinados estão disponíveis em: https://github.com/Tencent/Tencent-XR-3DGen.
Duas estratégias comumente empregadas para combater o aumento da desinformação nas redes sociais são (i) a verificação de fatos por organizações profissionais e (ii) a moderação comunitária pelos usuários das plataformas. Mudanças nas políticas do Twitter/X e, mais recentemente, da Meta, indicam uma mudança de direção, afastando-se de parcerias com organizações de verificação de fatos e aumentando a dependência de notas comunitárias geradas pela multidão. No entanto, a extensão e a natureza das dependências entre a verificação de fatos e as notas comunitárias úteis ainda não estão claras. Para abordar essas questões, utilizamos modelos de linguagem para anotar um grande corpus de notas comunitárias do Twitter/X com atributos como tópico, fontes citadas e se elas refutam alegações vinculadas a narrativas mais amplas de desinformação. Nossa análise revela que as notas comunitárias citam fontes de verificação de fatos até cinco vezes mais do que o relatado anteriormente. A verificação de fatos é especialmente crucial para notas em postagens vinculadas a narrativas mais amplas, que têm o dobro de probabilidade de referenciar fontes de verificação de fatos em comparação com outras fontes. Em conclusão, nossos resultados mostram que a moderação comunitária bem-sucedida depende fortemente da verificação de fatos profissional.
Quando um humano solicita a um LLM que complete uma tarefa de codificação utilizando funcionalidades de um grande repositório de código, como podemos fornecer o contexto do repositório ao LLM? Uma abordagem é adicionar todo o repositório à janela de contexto do LLM. No entanto, a maioria das tarefas envolve apenas uma fração dos símbolos de um repositório, contextos mais longos são prejudiciais às habilidades de raciocínio do LLM, e as janelas de contexto não são ilimitadas. Alternativamente, poderíamos emular a capacidade humana de navegar por um grande repositório, selecionar a funcionalidade correta e formular um plano para resolver a tarefa. Propomos o MutaGReP (Mutation-guided Grounded Repository Plan Search), uma abordagem para buscar planos que decompõem uma solicitação do usuário em etapas de linguagem natural fundamentadas na base de código. O MutaGReP realiza uma busca neural em árvore no espaço de planos, explorando por meio da mutação de planos e utilizando um recuperador de símbolos para fundamentação. No desafiador benchmark LongCodeArena, nossos planos utilizam menos de 5% da janela de contexto de 128K para o GPT-4o, mas rivalizam com o desempenho de codificação do GPT-4o com uma janela de contexto preenchida com o repositório. Os planos produzidos pelo MutaGReP permitem que o Qwen 2.5 Coder 32B e 72B igualem o desempenho do GPT-4o com o contexto completo do repositório e possibilitam avanços nas tarefas mais difíceis do LongCodeArena. Página do projeto: zaidkhan.me/MutaGReP
À medida que os chatbots de IA se tornam onipresentes, a interação por voz apresenta uma forma convincente de permitir uma comunicação rápida e de alta largura de banda tanto para sinais semânticos quanto sociais. Isso tem impulsionado pesquisas em Modelos de Áudio de Grande Escala (LAMs, na sigla em inglês) para alimentar experiências nativas de voz. No entanto, alinhar o desenvolvimento de LAMs com os objetivos dos usuários requer uma compreensão clara das necessidades e preferências dos usuários para estabelecer métricas de progresso confiáveis. Este estudo aborda esses desafios ao introduzir uma abordagem interativa para avaliar LAMs e coletar 7.500 interações de LAMs de 484 participantes. Por meio da modelagem de tópicos das consultas dos usuários, identificamos os principais casos de uso para interfaces de áudio. Em seguida, analisamos as classificações de preferência dos usuários e feedbacks qualitativos para determinar quais modelos melhor se alinham com as necessidades dos usuários. Por fim, avaliamos como benchmarks estáticos preveem o desempenho interativo - nossa análise revela que nenhum benchmark individual apresenta uma correlação forte com os resultados interativos (tau ≤ 0,33 para todos os benchmarks). Embora a combinação de múltiplas características de granularidade grossa ofereça um poder preditivo modesto (R^2=0,30), apenas dois de vinte conjuntos de dados sobre resposta a perguntas faladas e previsão de idade mostram correlações significativamente positivas. Isso sugere uma clara necessidade de desenvolver avaliações de LAMs que se correlacionem melhor com as preferências dos usuários.
A estimativa de qualidade é onipresente na tradução automática, tanto para avaliação quanto para geração. Infelizmente, os modelos de estimativa de qualidade costumam ser opacos e computacionalmente caros, tornando-os impraticáveis para serem parte de pipelines em larga escala. Neste trabalho, abordamos dois desafios interconectados: (1) reduzir o custo da estimativa de qualidade em escala e (2) desenvolver um método de estimativa de incerteza de baixo custo para estimativa de qualidade. Para abordar o último, introduzimos o Instant Confidence COMET, um modelo de estimativa de qualidade com consciência de incerteza que iguala o desempenho de abordagens anteriores a uma fração de seus custos. Estendemos isso para o Early-Exit COMET, um modelo de estimativa de qualidade que pode calcular pontuações de qualidade e confianças associadas já nas primeiras camadas do modelo, permitindo-nos interromper precocemente os cálculos e reduzir os custos de avaliação. Também aplicamos nosso modelo ao reranking de tradução automática. Combinamos o Early-Exit COMET com um algoritmo bandit de limite superior de confiança para encontrar o melhor candidato de um grande conjunto sem precisar executar o modelo de avaliação completo em todos os candidatos. Em ambos os casos (avaliação e reranking), nossos métodos reduzem a computação necessária em 50% com muito pouca degradação no desempenho.
Recuperar imagens do mesmo local de uma consulta dada é um componente importante de várias tarefas de visão computacional, como Reconhecimento Visual de Locais, Recuperação de Pontos de Referência, Localização Visual, reconstrução 3D e SLAM. No entanto, as soluções existentes são construídas para funcionar especificamente em uma dessas tarefas e são conhecidas por falhar quando os requisitos mudam ligeiramente ou quando encontram dados fora da distribuição. Neste artigo, combinamos uma variedade de métodos existentes, técnicas de treinamento e conjuntos de dados para treinar um modelo de recuperação, chamado MegaLoc, que é eficaz em múltiplas tarefas. Descobrimos que o MegaLoc (1) alcança o estado da arte em um grande número de conjuntos de dados de Reconhecimento Visual de Locais, (2) obtém resultados impressionantes em conjuntos de dados comuns de Recuperação de Pontos de Referência e (3) estabelece um novo estado da arte para Localização Visual nos conjuntos de dados LaMAR, onde apenas alteramos o método de recuperação no pipeline de localização existente. O código do MegaLoc está disponível em https://github.com/gmberton/MegaLoc.
Responder a perguntas complexas e de contexto longo continua sendo um grande desafio para modelos de linguagem de grande escala (LLMs), pois exige esclarecimentos eficazes da pergunta e recuperação de contexto. Propomos o Entendimento de Contexto Longo Agente (AgenticLU), um framework projetado para aprimorar a compreensão de tais consultas por um LLM, integrando autoesclarecimentos direcionados com ancoragem contextual em um fluxo de trabalho agente. No cerne do AgenticLU está a Cadeia de Esclarecimentos (CoC), onde os modelos refinam sua compreensão por meio de perguntas de esclarecimento autogeradas e ancoragens contextuais correspondentes. Ao escalar a inferência como uma busca em árvore, onde cada nó representa uma etapa da CoC, alcançamos 97,8% de recall de respostas no NarrativeQA com uma profundidade de busca de até três e um fator de ramificação de oito. Para amortizar o alto custo desse processo de busca no treinamento, aproveitamos os pares de preferência para cada etapa obtidos pelo fluxo de trabalho da CoC e realizamos um ajuste fino do modelo em duas etapas: (1) ajuste fino supervisionado para aprender estratégias eficazes de decomposição e (2) otimização direta de preferência para aprimorar a qualidade do raciocínio. Isso permite que os modelos AgenticLU gerem esclarecimentos e recuperem contexto relevante de forma eficaz e eficiente em uma única passagem de inferência. Experimentos extensivos em sete tarefas de contexto longo demonstram que o AgenticLU supera significativamente os métodos de prompting state-of-the-art e LLMs especializados em contexto longo, alcançando raciocínio multi-hop robusto enquanto mantém desempenho consistente à medida que o comprimento do contexto aumenta.
Apresentamos o MONSTER - o Repositório de Avaliação de Séries Temporais Escalável da MONash - uma coleção de grandes conjuntos de dados para classificação de séries temporais. O campo de classificação de séries temporais tem se beneficiado de benchmarks comuns estabelecidos pelos repositórios de classificação de séries temporais UCR e UEA. No entanto, os conjuntos de dados nesses benchmarks são pequenos, com tamanhos medianos de 217 e 255 exemplos, respectivamente. Como consequência, eles favorecem um subespaço restrito de modelos que são otimizados para alcançar baixo erro de classificação em uma variedade de conjuntos de dados menores, ou seja, modelos que minimizam a variância e dão pouca importância a questões computacionais, como escalabilidade. Nossa esperança é diversificar o campo, introduzindo benchmarks que utilizam conjuntos de dados maiores. Acreditamos que há um enorme potencial para novos avanços no campo, ao enfrentar os desafios teóricos e práticos de aprender efetivamente a partir de quantidades maiores de dados.
A pandemia de COVID-19 sobrecarregou os recursos de saúde e gerou discussões sobre como o aprendizado de máquina pode aliviar a carga dos médicos e contribuir para o diagnóstico. Radiografias de tórax (CXRs) são utilizadas para o diagnóstico da COVID-19, mas poucos estudos preveem a gravidade da condição do paciente a partir dessas imagens. Neste estudo, criamos um grande conjunto de dados sobre a gravidade da COVID-19 ao combinar três fontes e investigamos a eficácia do aprendizado por transferência usando modelos pré-treinados no ImageNet e em CXRs, além de transformadores de visão (ViTs), tanto em tarefas de regressão quanto de classificação de gravidade. Um modelo DenseNet161 pré-treinado obteve o melhor desempenho na previsão de gravidade em três classes, alcançando 80% de acurácia geral e 77,3%, 83,9% e 70% nos casos leves, moderados e graves, respectivamente. O ViT obteve os melhores resultados na regressão, com um erro absoluto médio de 0,5676 em comparação com as pontuações de gravidade previstas por radiologistas. O código-fonte do projeto está disponível publicamente.
O rápido avanço dos modelos de geração de imagens por IA (AGI) introduziu desafios significativos na avaliação de sua qualidade, o que requer a consideração de múltiplas dimensões, como qualidade perceptual, correspondência ao prompt e autenticidade. Para enfrentar esses desafios, propomos o M3-AGIQA, um framework abrangente para avaliação da qualidade de AGI que é Multimodal, Multi-Round e Multi-Aspecto. Nossa abordagem aproveita as capacidades dos Modelos de Linguagem Multimodal de Grande Escala (MLLMs) como codificadores conjuntos de texto e imagem e destila capacidades avançadas de legendagem de MLLMs online em um modelo local por meio de ajuste fino via Adaptação de Baixa Ordem (LoRA). O framework inclui um mecanismo estruturado de avaliação multi-round, onde descrições intermediárias de imagens são geradas para fornecer insights mais profundos sobre os aspectos de qualidade, correspondência e autenticidade. Para alinhar as previsões com os julgamentos perceptivos humanos, um preditor construído por um xLSTM e uma cabeça de regressão é incorporado para processar logits sequenciais e prever Pontuações Médias de Opinião (MOSs). Experimentos extensivos conduzidos em múltiplos conjuntos de dados de referência demonstram que o M3-AGIQA alcança desempenho de ponta, capturando efetivamente aspectos sutis da qualidade de AGI. Além disso, a validação cruzada entre conjuntos de dados confirma sua forte generalizabilidade. O código está disponível em https://github.com/strawhatboy/M3-AGIQA.
A esfera Browniana é um espaço métrico aleatório, homeomorfo à esfera bidimensional, que surge como o limite de escala universal de muitos tipos de mapas planares aleatórios. A construção direta da esfera Browniana é feita por meio de um análogo contínuo da bijeção de Cori-Vauquelin-Schaeffer (CVS). A bijeção CVS mapeia árvores rotuladas para mapas planares, e a versão contínua mapeia a árvore aleatória contínua de Aldous com rótulos Brownianos (a serpente Browniana) para a esfera Browniana. Neste trabalho, descrevemos a inversa da bijeção CVS contínua, construindo a serpente Browniana como uma função mensurável da esfera Browniana. Cuidados especiais são necessários para trabalhar com a orientação da esfera Browniana.