Artigos de pesquisa em IA selecionados diariamente com traduções
O advento dos grandes modelos de linguagem (LLMs) catalisou uma mudança transformadora na inteligência artificial, abrindo caminho para agentes inteligentes avançados capazes de raciocínio sofisticado, percepção robusta e ação versátil em diversos domínios. À medida que esses agentes impulsionam cada vez mais a pesquisa e as aplicações práticas de IA, seu design, avaliação e melhoria contínua apresentam desafios complexos e multifacetados. Esta pesquisa oferece uma visão abrangente, enquadrando os agentes inteligentes dentro de uma arquitetura modular inspirada no cérebro que integra princípios da ciência cognitiva, neurociência e pesquisa computacional. Estruturamos nossa exploração em quatro partes interconectadas. Primeiro, mergulhamos na fundação modular dos agentes inteligentes, mapeando sistematicamente seus módulos cognitivos, perceptivos e operacionais em funcionalidades análogas do cérebro humano, e elucidando componentes centrais como memória, modelagem do mundo, processamento de recompensas e sistemas semelhantes a emoções. Segundo, discutimos mecanismos de autoaperfeiçoamento e evolução adaptativa, explorando como os agentes refinam autonomamente suas capacidades, adaptam-se a ambientes dinâmicos e alcançam aprendizado contínuo por meio de paradigmas de otimização automatizada, incluindo estratégias emergentes de AutoML e otimização impulsionada por LLMs. Terceiro, examinamos sistemas multiagentes colaborativos e evolutivos, investigando a inteligência coletiva que emerge das interações, cooperação e estruturas sociais dos agentes, destacando paralelos com a dinâmica social humana. Por fim, abordamos o imperativo crítico de construir sistemas de IA seguros, confiáveis e benéficos, enfatizando ameaças intrínsecas e extrínsecas à segurança, alinhamento ético, robustez e estratégias práticas de mitigação necessárias para uma implantação confiável no mundo real.
O treinamento de grandes modelos de linguagem (LLMs) apresenta inúmeros desafios, incluindo instabilidade de gradientes e picos de perda. Esses fenômenos podem levar a uma divergência catastrófica, exigindo a restauração dispendiosa de checkpoints e o descarte de lotes de dados. Técnicas tradicionais de recorte de gradiente, como métodos baseados em constantes ou normas, falham em resolver esses problemas de forma eficaz devido à sua dependência de limiares fixos ou heurísticas, resultando em aprendizado ineficiente e exigindo intervenção manual frequente. Neste trabalho, propomos o ZClip, um algoritmo de recorte de gradiente adaptativo que ajusta dinamicamente o limiar de recorte com base nas propriedades estatísticas das normas de gradiente ao longo do tempo. Diferente de estratégias reativas anteriores, o ZClip se adapta proativamente às dinâmicas de treinamento sem fazer suposições prévias sobre a escala e a evolução temporal das normas de gradiente. Em sua essência, ele utiliza detecção de anomalias baseada em z-score para identificar e mitigar grandes picos de gradiente, prevenindo picos malignos de perda sem interferir na convergência em outros casos. Nosso código está disponível em: https://github.com/bluorion-com/ZClip.
Os Modelos Multimodais de Grande Escala (LMMs) têm feito progressos significativos na compreensão e geração visual, mas ainda enfrentam desafios na Edição Visual Geral, particularmente em seguir instruções complexas, preservar a consistência de aparência e suportar formatos de entrada flexíveis. Para abordar essa lacuna, introduzimos o RISEBench, o primeiro benchmark para avaliar a Edição Visual Informada por Raciocínio (RISE). O RISEBench foca em quatro tipos principais de raciocínio: Temporal, Causal, Espacial e Lógico. Curamos casos de teste de alta qualidade para cada categoria e propomos um framework de avaliação que mede o Raciocínio de Instrução, a Consistência de Aparência e a Plausibilidade Visual, tanto com juízes humanos quanto com uma abordagem de LMM-como-juiz. Nossos experimentos revelam que, embora o GPT-4o-Native supere significativamente outros modelos de código aberto e proprietários, até mesmo esse sistema de última geração enfrenta dificuldades em tarefas de raciocínio lógico, destacando uma área que permanece pouco explorada. Como um esforço inicial, o RISEBench visa fornecer insights fundamentais sobre a edição visual consciente do raciocínio e catalisar pesquisas futuras. Embora ainda esteja em seus estágios iniciais, estamos comprometidos em expandir e refinar continuamente o benchmark para suportar avaliações mais abrangentes, confiáveis e escaláveis de sistemas multimodais de próxima geração. Nosso código e dados serão disponibilizados em https://github.com/PhoenixZ810/RISEBench.
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tem sido amplamente adotado no pós-treinamento de modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) em escala. Recentemente, a incentivação de capacidades de raciocínio em LLMs por meio de RL indica que métodos de aprendizado adequados podem permitir uma escalabilidade eficaz durante a inferência. Um desafio fundamental do RL é obter sinais de recompensa precisos para LLMs em diversos domínios que vão além de perguntas verificáveis ou regras artificiais. Neste trabalho, investigamos como melhorar a modelagem de recompensa (RM, do inglês Reward Modeling) com maior capacidade computacional de inferência para consultas gerais, ou seja, a escalabilidade em tempo de inferência de modelos de recompensa generalistas, e, além disso, como melhorar a eficácia da escala de desempenho-computação com métodos de aprendizado adequados. Para a abordagem de RM, adotamos a modelagem de recompensa generativa pontual (GRM, do inglês Generative Reward Modeling) para permitir flexibilidade para diferentes tipos de entrada e potencial de escalabilidade durante a inferência. Para o método de aprendizado, propomos o Ajuste de Crítica Autoprincipiada (SPCT, do inglês Self-Principled Critique Tuning) para promover comportamentos escaláveis de geração de recompensa em GRMs por meio de RL online, gerando princípios de forma adaptativa e críticas com precisão, resultando nos modelos DeepSeek-GRM. Além disso, para uma escalabilidade eficaz durante a inferência, utilizamos amostragem paralela para expandir o uso de computação e introduzimos um meta RM para orientar o processo de votação visando um melhor desempenho de escalabilidade. Empiricamente, demonstramos que o SPCT melhora significativamente a qualidade e a escalabilidade dos GRMs, superando métodos e modelos existentes em vários benchmarks de RM sem vieses severos, e pode alcançar um desempenho superior em comparação com a escalabilidade durante o treinamento. O DeepSeek-GRM ainda enfrenta desafios em algumas tarefas, que acreditamos poderão ser resolvidos por esforços futuros em sistemas de recompensa generalistas. Os modelos serão liberados e disponibilizados como código aberto.
Este artigo apresenta o JavisDiT, um novo Joint Audio-Video Diffusion Transformer projetado para geração sincronizada de áudio e vídeo (JAVG). Baseado na poderosa arquitetura Diffusion Transformer (DiT), o JavisDiT é capaz de gerar conteúdo de áudio e vídeo de alta qualidade simultaneamente a partir de prompts abertos do usuário. Para garantir uma sincronização ideal, introduzimos um mecanismo de alinhamento espaço-temporal refinado por meio de um Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. Este módulo extrai prioris espaço-temporais tanto globais quanto refinadas, orientando a sincronização entre os componentes visuais e auditivos. Além disso, propomos um novo benchmark, o JavisBench, composto por 10.140 vídeos sonoros de alta qualidade com legendas de texto, abrangendo diversas cenas e cenários complexos do mundo real. Adicionalmente, desenvolvemos especificamente uma métrica robusta para avaliar a sincronização entre pares de áudio e vídeo gerados em conteúdos complexos do mundo real. Os resultados experimentais demonstram que o JavisDiT supera significativamente os métodos existentes, garantindo tanto a geração de alta qualidade quanto a sincronização precisa, estabelecendo um novo padrão para tarefas de JAVG. Nosso código, modelo e conjunto de dados estarão publicamente disponíveis em https://javisdit.github.io/.
Os recentes avanços no modelo GPT4o da OpenAI demonstraram capacidades surpreendentemente boas em geração e edição de imagens, gerando um entusiasmo significativo na comunidade. Este relatório técnico apresenta o primeiro benchmark de avaliação (denominado GPT-ImgEval), diagnosticando quantitativa e qualitativamente o desempenho do GPT-4o em três dimensões críticas: (1) qualidade de geração, (2) proficiência em edição e (3) síntese semântica informada por conhecimento do mundo. Em todas as três tarefas, o GPT-4o demonstra um desempenho robusto, superando significativamente os métodos existentes tanto no controle da geração de imagens quanto na qualidade da saída, ao mesmo tempo em que exibe capacidades excepcionais de raciocínio baseado em conhecimento. Além disso, com base nos dados gerados pelo GPT-4o, propomos uma abordagem baseada em modelo de classificação para investigar a arquitetura subjacente do GPT-4o, onde nossos resultados empíricos sugerem que o modelo consiste em uma cabeça auto-regressiva (AR) combinada com uma base baseada em difusão para decodificação de imagens, em vez de arquiteturas do tipo VAR. Também fornecemos uma especulação completa sobre a arquitetura geral do GPT-4o. Adicionalmente, conduzimos uma série de análises para identificar e visualizar as limitações específicas do GPT-4o e os artefatos sintéticos comumente observados em sua geração de imagens. Apresentamos ainda um estudo comparativo de edição de imagens em múltiplas rodadas entre o GPT-4o e o Gemini 2.0 Flash, e discutimos as implicações de segurança das saídas do GPT-4o, particularmente sua detectabilidade por modelos forenses de imagem existentes. Esperamos que nosso trabalho possa oferecer insights valiosos e fornecer um benchmark confiável para orientar pesquisas futuras, promover a reprodutibilidade e acelerar a inovação no campo da geração de imagens e além. Os códigos e conjuntos de dados utilizados para avaliar o GPT-4o podem ser encontrados em https://github.com/PicoTrex/GPT-ImgEval.
A síntese de cabeças falantes é crucial para avatares virtuais e interação humano-computador. No entanto, a maioria dos métodos existentes é tipicamente limitada a aceitar controle de uma única modalidade primária, restringindo sua utilidade prática. Para isso, introduzimos o ACTalker, uma estrutura de difusão de vídeo end-to-end que suporta tanto o controle multi-sinais quanto o controle de sinal único para a geração de vídeos de cabeças falantes. Para o controle múltiplo, projetamos uma estrutura mamba paralela com múltiplos ramos, cada um utilizando um sinal de controle separado para manipular regiões faciais específicas. Um mecanismo de porta é aplicado em todos os ramos, proporcionando controle flexível sobre a geração de vídeo. Para garantir a coordenação natural do vídeo controlado tanto temporal quanto espacialmente, empregamos a estrutura mamba, que permite que os sinais de controle manipulem tokens de características em ambas as dimensões em cada ramo. Além disso, introduzimos uma estratégia de mask-drop que permite que cada sinal de controle controle independentemente sua região facial correspondente dentro da estrutura mamba, evitando conflitos de controle. Resultados experimentais demonstram que nosso método produz vídeos faciais de aparência natural impulsionados por diversos sinais e que a camada mamba integra perfeitamente múltiplas modalidades de controle sem conflitos.
Este artigo apresenta o SkyReels-A2, um framework de geração de vídeo controlável capaz de montar elementos visuais arbitrários (por exemplo, personagens, objetos, cenários) em vídeos sintetizados com base em prompts textuais, mantendo consistência estrita com imagens de referência para cada elemento. Denominamos essa tarefa de elementos-para-vídeo (E2V), cujos principais desafios residem em preservar a fidelidade de cada elemento de referência, garantir a composição coerente da cena e alcançar saídas naturais. Para abordar esses desafios, primeiro projetamos um pipeline de dados abrangente para construir triplas prompt-referência-vídeo para o treinamento do modelo. Em seguida, propomos um novo modelo de incorporação conjunta de imagem e texto para injetar representações de múltiplos elementos no processo generativo, equilibrando a consistência específica do elemento com a coerência global e o alinhamento textual. Também otimizamos o pipeline de inferência para velocidade e estabilidade de saída. Além disso, introduzimos um benchmark cuidadosamente curado para avaliação sistemática, denominado A2 Bench. Experimentos demonstram que nosso framework pode gerar vídeos diversos e de alta qualidade com controle preciso dos elementos. O SkyReels-A2 é o primeiro modelo de código aberto de nível comercial para a geração de E2V, apresentando desempenho favorável em comparação com modelos comerciais avançados de código fechado. Antecipamos que o SkyReels-A2 avançará aplicações criativas, como drama e e-commerce virtual, expandindo os limites da geração de vídeo controlável.
Apresentamos a tarefa desafiadora de criar automaticamente um artigo de alto nível no estilo da Wikipedia que agrega informações de diversos vídeos sobre eventos do mundo real, como desastres naturais ou eleições políticas. Os vídeos são fontes intuitivas para geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation), mas a maioria dos fluxos de trabalho contemporâneos de RAG foca fortemente em texto, e os métodos existentes para sumarização baseada em vídeo concentram-se no entendimento de cenas de baixo nível em vez da semântica de eventos de alto nível. Para preencher essa lacuna, introduzimos o WikiVideo, um benchmark composto por artigos escritos por especialistas e vídeos densamente anotados que fornecem evidências para as afirmações dos artigos, facilitando a integração de vídeos em pipelines de RAG e permitindo a criação de conteúdo detalhado fundamentado em fontes multimodais. Além disso, propomos a Geração Colaborativa de Artigos (CAG, do inglês Collaborative Article Generation), um método interativo inovador para a criação de artigos a partir de múltiplos vídeos. O CAG aproveita uma interação iterativa entre um modelo de raciocínio no estilo r1 e um VideoLLM para inferir conclusões de nível mais alto sobre o evento-alvo do que é possível com VideoLLMs isoladamente, que se fixam em características visuais de baixo nível. Avaliamos VideoLLMs de última geração e o CAG em cenários de recuperação oráculo e RAG, e descobrimos que o CAG supera consistentemente métodos alternativos, ao mesmo tempo que sugere caminhos intrigantes para trabalhos futuros.
O aprendizado por reforço (RL) tem demonstrado recentemente um forte potencial para melhorar as capacidades de raciocínio de grandes modelos de linguagem e agora está sendo ativamente estendido para modelos de visão e linguagem (VLMs). No entanto, as aplicações existentes de RL em VLMs frequentemente dependem de estruturas altamente engenheiradas que dificultam a reprodutibilidade e a acessibilidade, além de carecerem de protocolos de avaliação padronizados, tornando difícil comparar resultados ou interpretar a dinâmica de treinamento. Este trabalho introduz uma estrutura transparente e do zero para RL em VLMs, oferecendo um pipeline mínimo, porém funcional, de quatro etapas, validado em vários modelos e conjuntos de dados. Além disso, é proposto um esquema de avaliação padronizado para analisar a dinâmica de treinamento e os comportamentos reflexivos. Experimentos extensos em tarefas de raciocínio visual revelam descobertas empíricas importantes: o comprimento da resposta é sensível a sementes aleatórias, a reflexão está correlacionada com o comprimento da saída, e o RL consistentemente supera o ajuste fino supervisionado (SFT) em generalização, mesmo com dados de alta qualidade. Essas descobertas, juntamente com a estrutura proposta, visam estabelecer uma linha de base reprodutível e apoiar um engajamento mais amplo na pesquisa de VLMs baseada em RL.
A análise existente sobre a escalabilidade dos Modelos de Linguagem de Fala (SLMs) pinta um cenário desanimador. Ela prevê que os SLMs exigem muito mais capacidade computacional e dados em comparação com os modelos de texto, levando alguns a questionar a viabilidade de treinar SLMs de alta qualidade. No entanto, os SLMs modernos são frequentemente inicializados a partir de Modelos de Linguagem de Texto (TextLMs) pré-treinados, utilizando intercalação de fala e texto para permitir a transferência de conhecimento. Isso levanta a questão: os SLMs intercalados escalam de forma mais eficiente do que os SLMs sem texto? Neste artigo, respondemos com um sonoro sim! Realizamos uma análise de escalabilidade dos SLMs intercalados, treinando várias dezenas de modelos e analisando as tendências de escalabilidade. Observamos que, nessa configuração, os SLMs escalam de forma mais eficiente com o aumento da capacidade computacional. Além disso, nossos resultados indicam que a dinâmica de escalabilidade é significativamente diferente da dos SLMs sem texto, sugerindo que se deve alocar consideravelmente mais do orçamento computacional para aumentar o tamanho do modelo em vez de aumentar o número de tokens de treinamento. Também estudamos o papel dos dados sintéticos e das famílias de modelos TextLM no desbloqueio desse potencial. Os resultados sugerem que nosso modelo escalonado alcança desempenho comparável aos modelos líderes em métricas semânticas de fala, utilizando menos capacidade computacional e dados do que outras abordagens. Disponibilizamos modelos, amostras e dados em código aberto - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) enfrentam altos custos computacionais devido ao seu tamanho massivo e ao grande número de tokens visuais. Neste artigo, investigamos a redundância em camadas dos MLLMs introduzindo uma nova métrica, Contribuição de Camada (LC), que quantifica o impacto das transformações de uma camada sobre os tokens visuais e textuais, respectivamente. O cálculo do LC envolve medir a divergência na saída do modelo que resulta da remoção das transformações da camada sobre os tokens especificados. Nosso experimento piloto revela que muitas camadas dos MLLMs exibem contribuição mínima durante o processamento de tokens visuais. Motivados por essa observação, propomos o ShortV, um método sem necessidade de treinamento que utiliza o LC para identificar camadas ineficazes e congela as atualizações de tokens visuais nessas camadas. Experimentos mostram que o ShortV pode congelar tokens visuais em aproximadamente 60\% das camadas do MLLM, reduzindo drasticamente os custos computacionais relacionados à atualização de tokens visuais. Por exemplo, ele alcança uma redução de 50\% em FLOPs no LLaVA-NeXT-13B enquanto mantém um desempenho superior. O código estará publicamente disponível em https://github.com/icip-cas/ShortV.
Os modelos de difusão oferecem uma impressionante capacidade de controle para tarefas de imagem, principalmente por meio de previsões de ruído que codificam informações específicas da tarefa e da orientação sem classificador, permitindo um dimensionamento ajustável. Esse mecanismo de dimensionamento define implicitamente um "espaço de dimensionamento", cujo potencial para manipulação semântica refinada permanece pouco explorado. Investigamos esse espaço, começando com a edição baseada em inversão, onde a diferença entre as previsões de ruído condicionais e incondicionais carrega informações semânticas cruciais. Nossa principal contribuição surge de uma análise de Fourier das previsões de ruído, revelando que seus componentes de baixa e alta frequência evoluem de maneira diferente ao longo da difusão. Com base nessa percepção, introduzimos o FreSca, um método simples que aplica o dimensionamento de orientação de forma independente a diferentes bandas de frequência no domínio de Fourier. O FreSca demonstra aprimorar os métodos existentes de edição de imagem sem necessidade de retreinamento. De forma empolgante, sua eficácia se estende a tarefas de compreensão de imagem, como estimativa de profundidade, gerando ganhos quantitativos em múltiplos conjuntos de dados.
A seleção de modelos é uma etapa crucial na previsão de séries temporais, tradicionalmente exigindo extensas avaliações de desempenho em diversos conjuntos de dados. Abordagens de meta-aprendizado visam automatizar esse processo, mas geralmente dependem de matrizes de desempenho pré-construídas, que são custosas para desenvolver. Neste trabalho, propomos utilizar Modelos de Linguagem de Grande Escala (LLMs) como uma alternativa leve para a seleção de modelos. Nosso método elimina a necessidade de matrizes de desempenho explícitas ao aproveitar o conhecimento intrínseco e as capacidades de raciocínio dos LLMs. Por meio de experimentos extensivos com LLaMA, GPT e Gemini, demonstramos que nossa abordagem supera técnicas tradicionais de meta-aprendizado e baselines heurísticas, ao mesmo tempo em que reduz significativamente a sobrecarga computacional. Esses resultados destacam o potencial dos LLMs para uma seleção eficiente de modelos na previsão de séries temporais.
Desde o advento dos grandes modelos de linguagem baseados em raciocínio, muitos têm obtido grande sucesso ao destilar capacidades de raciocínio em modelos estudantis. Tais técnicas têm reduzido significativamente a lacuna entre o raciocínio e os LLMs padrão em tarefas de codificação. Apesar disso, grande parte do progresso na destilação de modelos de raciocínio permanece restrita a conjuntos de dados proprietários ou carece de detalhes sobre a curadoria, filtragem e treinamento subsequente dos dados. Para abordar isso, construímos um conjunto de dados de ajuste fino supervisionado (SFT) superior, que utilizamos para alcançar resultados de capacidade de codificação de última geração em modelos de vários tamanhos. Nossos modelos destilados usam apenas SFT para atingir 61,8% no LiveCodeBench e 24,6% no CodeContests, superando alternativas treinadas com aprendizado por reforço. Em seguida, realizamos uma análise sobre as fontes de dados usadas para construir nosso conjunto de dados, o impacto da filtragem por execução de código e a importância da diversidade de instruções/soluções. Observamos que a filtragem por execução afetou negativamente a precisão dos benchmarks, levando-nos a priorizar a diversidade de instruções em vez da correção das soluções. Por fim, também analisamos a eficiência de tokens e os padrões de raciocínio utilizados por esses modelos. Disponibilizaremos esses conjuntos de dados e modelos destilados como código aberto para a comunidade.
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) demonstraram que é promissor utilizar Modelos de Recompensa de Processo (PRMs) como verificadores para aprimorar o desempenho dos LLMs. No entanto, os PRMs atuais enfrentam três desafios principais: (1) capacidades limitadas de supervisão e generalização de processos, (2) dependência de previsões de valores escalares sem aproveitar as habilidades gerativas dos LLMs, e (3) incapacidade de escalar o cálculo em tempo de teste dos PRMs. Neste trabalho, introduzimos o GenPRM, um modelo de recompensa de processo generativo que realiza raciocínio explícito em Cadeia de Pensamento (CoT) com verificação de código antes de fornecer um julgamento para cada etapa do raciocínio. Para obter rótulos de supervisão de processo e dados de racionalização de alta qualidade, propomos a Estimativa de Progresso Relativo (RPE) e um framework de síntese de racionalização que incorpora a verificação de código. Resultados experimentais no ProcessBench e em várias tarefas de raciocínio matemático mostram que o GenPRM supera significativamente os PRMs anteriores com apenas 23K dados de treinamento do conjunto de dados MATH. Através do escalonamento em tempo de teste, um GenPRM de 1,5B supera o GPT-4o, e um GenPRM de 7B supera o Qwen2.5-Math-PRM-72B no ProcessBench. Além disso, o GenPRM demonstra fortes habilidades para servir como um modelo crítico para o refinamento de modelos de política. Este trabalho estabelece um novo paradigma para a supervisão de processos que preenche a lacuna entre PRMs e modelos críticos em LLMs. Nosso código, modelo e dados estarão disponíveis em https://ryanliu112.github.io/GenPRM.
Apresentamos as primeiras evidências mecanicistas de que agentes de aprendizado por reforço livre de modelo podem aprender a planejar. Isso é alcançado aplicando uma metodologia baseada em interpretabilidade conceitual a um agente livre de modelo em Sokoban -- um benchmark comumente usado para estudar planejamento. Especificamente, demonstramos que o DRC, um agente livre de modelo genérico introduzido por Guez et al. (2019), usa representações conceituais aprendidas para formular internamente planos que tanto preveem os efeitos de longo prazo das ações no ambiente quanto influenciam a seleção de ações. Nossa metodologia envolve: (1) investigar conceitos relevantes para o planejamento, (2) explorar a formação de planos nas representações do agente e (3) verificar que os planos descobertos (nas representações do agente) têm um efeito causal no comportamento do agente por meio de intervenções. Também mostramos que o surgimento desses planos coincide com o surgimento de uma propriedade semelhante ao planejamento: a capacidade de se beneficiar de computação adicional durante o teste. Por fim, realizamos uma análise qualitativa do algoritmo de planejamento aprendido pelo agente e descobrimos uma forte semelhança com a busca bidirecional paralelizada. Nossas descobertas avançam a compreensão dos mecanismos internos subjacentes ao comportamento de planejamento em agentes, o que é importante dada a recente tendência de capacidades emergentes de planejamento e raciocínio em LLMs por meio de RL.
A descoberta científica está prestes a avançar rapidamente por meio de robótica avançada e inteligência artificial. As práticas científicas atuais enfrentam limitações significativas, já que a experimentação manual continua a ser demorada e intensiva em recursos, enquanto a pesquisa multidisciplinar exige a integração de conhecimentos além dos limites da expertise de pesquisadores individuais. Aqui, vislumbramos o conceito de um cientista generalista autônomo (CGA), que combina IA agentiva e robótica incorporada para automatizar todo o ciclo de vida da pesquisa. Esse sistema poderia interagir dinamicamente tanto com ambientes físicos quanto virtuais, ao mesmo tempo em que facilita a integração de conhecimentos em diversas disciplinas científicas. Ao implantar essas tecnologias em todas as etapas da pesquisa — desde a revisão da literatura, geração de hipóteses, experimentação até a redação de manuscritos — e incorporar reflexão interna juntamente com feedback externo, esse sistema visa reduzir significativamente o tempo e os recursos necessários para a descoberta científica. Com base na evolução de cientistas virtuais de IA para robôs cientistas generalistas versáteis baseados em IA, o CGA promete um potencial revolucionário. À medida que esses sistemas autônomos se tornam cada vez mais integrados ao processo de pesquisa, hipotetizamos que a descoberta científica pode aderir a novas leis de escalabilidade, potencialmente moldadas pelo número e pelas capacidades desses sistemas autônomos, oferecendo novas perspectivas sobre como o conhecimento é gerado e evolui. A adaptabilidade de robôs incorporados a ambientes extremos, aliada ao efeito flywheel do acúmulo de conhecimento científico, promete continuamente ultrapassar tanto as fronteiras físicas quanto as intelectuais.
O método 3D Gaussian Splatting (3DGS) demonstra qualidade superior e velocidade de renderização, mas envolve milhões de Gaussianas 3D e custos significativos de armazenamento e transmissão. Métodos recentes de compressão de 3DGS concentram-se principalmente na compressão do Scaffold-GS, alcançando desempenho impressionante, mas com uma estrutura de voxel adicional e uma estratégia complexa de codificação e quantização. Neste artigo, buscamos desenvolver um método simples, porém eficaz, chamado NeuralGS, que explora uma abordagem alternativa para comprimir o 3DGS original em uma representação compacta, sem a estrutura de voxel e as estratégias complexas de quantização. Nossa observação é que campos neurais, como o NeRF, podem representar cenas 3D complexas com redes neurais Multi-Layer Perceptron (MLP) usando apenas alguns megabytes. Assim, o NeuralGS adota efetivamente a representação de campo neural para codificar os atributos das Gaussianas 3D com MLPs, exigindo apenas um pequeno tamanho de armazenamento, mesmo para cenas em grande escala. Para isso, adotamos uma estratégia de agrupamento e ajustamos as Gaussianas com diferentes MLPs pequenos para cada grupo, com base em escores de importância das Gaussianas como pesos de ajuste. Realizamos experimentos em múltiplos conjuntos de dados, alcançando uma redução média de 45 vezes no tamanho do modelo sem prejudicar a qualidade visual. O desempenho de compressão do nosso método no 3DGS original é comparável aos métodos de compressão dedicados baseados em Scaffold-GS, o que demonstra o enorme potencial de comprimir diretamente o 3DGS original com campos neurais.
Autoencoders Esparsos (SAEs) têm demonstrado recentemente melhorar a interpretabilidade e a capacidade de direcionamento em Modelos de Linguagem de Grande Escala (LLMs). Neste trabalho, estendemos a aplicação de SAEs para Modelos Visão-Linguagem (VLMs), como o CLIP, e introduzimos um framework abrangente para avaliar a monosemanticidade em representações visuais. Nossos resultados experimentais revelam que SAEs treinados em VLMs melhoram significativamente a monosemanticidade de neurônios individuais, ao mesmo tempo em que exibem representações hierárquicas que se alinham bem com estruturas definidas por especialistas (por exemplo, a taxonomia do iNaturalist). Mais notavelmente, demonstramos que a aplicação de SAEs para intervir em um codificador visual do CLIP direciona diretamente a saída de LLMs multimodais (por exemplo, LLaVA) sem qualquer modificação no modelo subjacente. Essas descobertas enfatizam a praticidade e a eficácia dos SAEs como uma abordagem não supervisionada para aprimorar tanto a interpretabilidade quanto o controle de VLMs.
Sistemas de reconhecimento automático de fala avançaram significativamente com a integração de modelos multilíngues e multitarefa, como o Whisper, que demonstraram uma capacidade promissora de compreender e processar fala em uma ampla gama de idiomas. Apesar de sua robustez, esses modelos frequentemente apresentam dificuldades em lidar com as distinções linguísticas de idiomas minoritários. Este estudo aborda essa lacuna ao integrar modelos linguísticos tradicionais e inovadores com modelos Whisper ajustados para elevar seu desempenho em idiomas menos estudados. Por meio de ajustes finos rigorosos e avaliações em múltiplos conjuntos de dados, demonstramos melhorias substanciais na taxa de erro de palavras, especialmente em cenários de baixos recursos. Nossa abordagem não apenas aproveita os extensos dados nos quais o Whisper foi pré-treinado, mas também complementa sua adaptabilidade linguística ao incorporar modelos de linguagem. Obtivemos melhorias de até 51% para conjuntos de dados dentro da distribuição e até 34% para frases fora da distribuição ao usar modelos de linguagem estatísticos, enquanto modelos de linguagem grandes proporcionaram melhorias moderadas, porém consistentemente robustas, em diversos contextos linguísticos. Os resultados revelam que, embora a integração beneficie de forma confiável todos os tamanhos de modelos, a extensão da melhoria varia, destacando a importância da otimização dos parâmetros dos modelos de linguagem. Por fim, enfatizamos a importância de selecionar parâmetros de avaliação apropriados ao relatar os resultados usando modelos ASR baseados em transformadores. Em resumo, esta pesquisa abre caminho para tecnologias ASR mais inclusivas que apresentam melhor desempenho em diversos idiomas ao enriquecer seu conhecimento linguístico. Para mais detalhes de implementação deste estudo, a documentação técnica e o código-fonte estão disponíveis em http://www.github.com/hitz-zentroa/whisper-lm.
Aprender a gerar parâmetros de redes neurais condicionados a descrições de tarefas e especificações de arquitetura é fundamental para avançar a adaptabilidade de modelos e o aprendizado por transferência. Métodos existentes, especialmente aqueles baseados em modelos de difusão, sofrem com escalabilidade limitada para arquiteturas grandes, rigidez no tratamento de profundidades variáveis de rede e geração de parâmetros desconexa que prejudica a coerência entre camadas. Neste trabalho, propomos o IGPG (Instruction Guided Parameter Generation), um framework autoregressivo que unifica a síntese de parâmetros em diversas tarefas e arquiteturas. O IGPG utiliza um VQ-VAE e um modelo autoregressivo para gerar parâmetros de redes neurais, condicionados a instruções de tarefa, conjunto de dados e detalhes de arquitetura. Ao gerar tokens dos pesos da rede neural de forma autoregressiva, o IGPG garante coerência entre camadas e permite uma adaptação eficiente entre modelos e conjuntos de dados. Operando no nível de tokens, o IGPG captura efetivamente distribuições complexas de parâmetros agregadas de um amplo espectro de modelos pré-treinados. Experimentos extensivos em múltiplos conjuntos de dados de visão demonstram que o IGPG consolida diversos modelos pré-treinados em um único framework generativo flexível. Os parâmetros sintetizados alcançam desempenho competitivo ou superior em relação aos métodos state-of-the-art, especialmente em termos de escalabilidade e eficiência quando aplicados a arquiteturas grandes. Esses resultados destacam o potencial do IGPG como uma ferramenta poderosa para recuperação de pesos pré-treinados, seleção de modelos e ajuste fino rápido para tarefas específicas.
A segmentação panóptica não supervisionada tem como objetivo dividir uma imagem em regiões semanticamente significativas e instâncias de objetos distintas sem treinamento em dados anotados manualmente. Em contraste com trabalhos anteriores sobre compreensão de cenas panópticas não supervisionadas, eliminamos a necessidade de dados de treinamento centrados em objetos, permitindo a compreensão não supervisionada de cenas complexas. Para isso, apresentamos o primeiro método panóptico não supervisionado que treina diretamente em imagens centradas em cenas. Em particular, propomos uma abordagem para obter rótulos pseudo panópticos de alta resolução em dados complexos centrados em cenas, combinando representações visuais, profundidade e pistas de movimento. A utilização tanto do treinamento com rótulos pseudo quanto de uma estratégia de auto-treinamento panóptico resulta em uma abordagem inovadora que prevê com precisão a segmentação panóptica de cenas complexas sem exigir nenhuma anotação humana. Nossa abordagem melhora significativamente a qualidade panóptica, superando, por exemplo, o estado da arte recente em segmentação panóptica não supervisionada no Cityscapes em 9,4 pontos percentuais em PQ.