Artigos de pesquisa em IA selecionados diariamente com traduções
A Adaptação de Baixa Classificação (LoRA) avançou significativamente o ajuste fino eficiente em parâmetros de grandes modelos pré-treinados. O LoRA aumenta os pesos pré-treinados de um modelo ao adicionar o produto de duas matrizes menores que, juntas, formam uma atualização de matriz de baixa classificação. Pesquisas recentes mostraram que disparidades de escala entre essas duas matrizes frequentemente causam dinâmicas de treinamento instáveis, levando a um desempenho subótimo. Neste artigo, propomos o SingLoRA, que reformula a adaptação de baixa classificação ao aprender a atualização dos pesos como uma decomposição de uma única matriz de baixa classificação multiplicada por sua transposta. Esse design simples remove inerentemente conflitos de escala entre matrizes, garantindo uma otimização estável e reduzindo aproximadamente pela metade a contagem de parâmetros. Analisamos o SingLoRA dentro do framework de redes neurais de largura infinita, mostrando que ele garante a aprendizagem estável de características por construção. Experimentos extensivos em múltiplas tarefas validam esses benefícios. No raciocínio de senso comum, o ajuste fino do LLama 7B no MNLI com SingLoRA alcança 91,3% de precisão - superando o LoRA (89,1%) e o LoRA+ (90,2%) - enquanto utiliza apenas 60% do orçamento de parâmetros deles. Na geração de imagens, o ajuste fino do Stable Diffusion com SingLoRA melhora significativamente a fidelidade das imagens no DreamBooth, alcançando um score de similaridade DINO de 0,151, comparado aos scores de 0,148 e 0,143 para DoRA e LoRA, respectivamente.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades impressionantes de raciocínio, especialmente quando guiados por cadeias de pensamento explícitas (CoT) que verbalizam etapas intermediárias. Embora o CoT melhore tanto a interpretabilidade quanto a precisão, sua dependência do raciocínio em linguagem natural limita a largura de banda expressiva do modelo. O raciocínio latente aborda esse gargalo ao realizar inferências de múltiplas etapas inteiramente no estado oculto contínuo do modelo, eliminando a supervisão no nível de tokens. Para avançar a pesquisa em raciocínio latente, este estudo fornece uma visão abrangente desse campo emergente. Começamos examinando o papel fundamental das camadas de redes neurais como substrato computacional para o raciocínio, destacando como representações hierárquicas suportam transformações complexas. Em seguida, exploramos diversas metodologias de raciocínio latente, incluindo recorrência baseada em ativações, propagação de estados ocultos e estratégias de ajuste fino que comprimem ou internalizam traços de raciocínio explícitos. Por fim, discutimos paradigmas avançados, como o raciocínio latente de profundidade infinita por meio de modelos de difusão mascarada, que permitem processos de raciocínio globalmente consistentes e reversíveis. Ao unir essas perspectivas, buscamos esclarecer o panorama conceitual do raciocínio latente e traçar direções futuras para a pesquisa na fronteira da cognição de LLMs. Um repositório GitHub associado, que coleta os artigos e repositórios mais recentes, está disponível em: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.
A criação de ativos 3D com estruturas de partes explícitas e editáveis é crucial para o avanço de aplicações interativas, mas a maioria dos métodos generativos produz apenas formas monolíticas, limitando sua utilidade. Apresentamos o OmniPart, uma nova estrutura para geração de objetos 3D com consciência de partes, projetada para alcançar alto desacoplamento semântico entre os componentes, mantendo uma coesão estrutural robusta. O OmniPart desacopla de forma única essa tarefa complexa em dois estágios sinérgicos: (1) um módulo de planejamento de estrutura autoregressiva gera uma sequência controlável e de comprimento variável de caixas delimitadoras de partes 3D, guiada criticamente por máscaras de partes 2D flexíveis que permitem controle intuitivo sobre a decomposição de partes sem exigir correspondências diretas ou rótulos semânticos; e (2) um modelo de fluxo retificado condicionado espacialmente, adaptado de forma eficiente a partir de um gerador 3D holístico pré-treinado, sintetiza todas as partes 3D simultaneamente e de forma consistente dentro do layout planejado. Nossa abordagem suporta granularidade de partes definida pelo usuário, localização precisa e permite diversas aplicações subsequentes. Experimentos extensivos demonstram que o OmniPart alcança desempenho de ponta, abrindo caminho para conteúdo 3D mais interpretável, editável e versátil.
Agentes web baseados em LLMs (Large Language Models) têm feito progressos significativos recentemente, mas grande parte desses avanços ocorreu em sistemas de código fechado, ampliando a lacuna em relação às alternativas de código aberto. O progresso tem sido limitado por dois desafios principais: primeiro, um foco restrito em tarefas de etapa única que ignora a complexidade das interações web de múltiplas etapas; e segundo, os altos custos computacionais necessários para o pós-treinamento de agentes web baseados em LLMs. Para abordar isso, apresentamos o primeiro estudo estatisticamente fundamentado sobre alocação de recursos computacionais para o pós-treinamento de agentes web baseados em LLMs. Nossa abordagem utiliza um pipeline de duas etapas, treinando um aluno Llama 3.1 8B para imitar um professor Llama 3.3 70B por meio de ajuste fino supervisionado (SFT), seguido de aprendizado por reforço on-policy. Descobrimos que esse processo é altamente sensível às escolhas de hiperparâmetros, tornando varreduras exaustivas impraticáveis. Para poupar outros de tentativas e erros dispendiosas, amostramos 1.370 configurações e usamos bootstrapping para estimar hiperparâmetros eficazes. Nossos resultados mostram que combinar SFT com RL on-policy supera consistentemente qualquer uma das abordagens isoladamente tanto no WorkArena quanto no MiniWob++. Além disso, essa estratégia requer apenas 55% dos recursos computacionais para igualar o desempenho máximo do SFT puro no MiniWob++, efetivamente empurrando a fronteira de Pareto de desempenho-computação, e é a única estratégia capaz de fechar a lacuna com os modelos de código fechado.
A Navegação Baseada em Visão e Linguagem (VLN) em ambientes do mundo real exige que os agentes processem fluxos visuais contínuos e gerem ações com baixa latência, fundamentadas em instruções de linguagem. Embora os Modelos de Linguagem de Grande Escala Baseados em Vídeo (Video-LLMs) tenham impulsionado avanços recentes, os métodos atuais de VLN baseados em Video-LLM frequentemente enfrentam trade-offs entre compreensão visual detalhada, modelagem de contexto de longo prazo e eficiência computacional. Apresentamos o StreamVLN, um framework de VLN em streaming que emprega uma estratégia híbrida de modelagem de contexto lento-rápido para suportar raciocínio multimodal sobre entradas intercaladas de visão, linguagem e ação. O contexto de diálogo de streaming rápido facilita a geração responsiva de ações por meio de uma janela deslizante de diálogos ativos, enquanto o contexto de memória de atualização lenta comprime estados visuais históricos usando uma estratégia de poda de tokens 3D-aware. Com esse design lento-rápido, o StreamVLN alcança diálogos coerentes de múltiplos turnos por meio da reutilização eficiente do cache KV, suportando longos fluxos de vídeo com tamanho de contexto e custo de inferência limitados. Experimentos em benchmarks VLN-CE demonstram desempenho de ponta com latência baixa e estável, garantindo robustez e eficiência em implantações do mundo real. A página do projeto é: https://streamvln.github.io/{https://streamvln.github.io/}.
Traduzir declarações matemáticas em linguagem natural para código formal e executável é um desafio fundamental na prova de teoremas automatizada. Embora trabalhos anteriores tenham se concentrado no sucesso da geração e compilação, pouca atenção foi dada à fase do crítico — a avaliação de se as formalizações geradas realmente capturam a intenção semântica do problema original. Neste artigo, apresentamos o CriticLean, uma nova estrutura de aprendizado por reforço guiada por crítico que eleva o papel do crítico de um validador passivo para um componente ativo de aprendizado. Especificamente, primeiro propomos o CriticLeanGPT, treinado por meio de ajuste fino supervisionado e aprendizado por reforço, para avaliar rigorosamente a fidelidade semântica das formalizações em Lean 4. Em seguida, introduzimos o CriticLeanBench, um benchmark projetado para medir a capacidade dos modelos de distinguir formalizações semanticamente corretas das incorretas, e demonstramos que nossos modelos CriticLeanGPT treinados podem superar significativamente baselines fortes de código aberto e fechado. Com base na estrutura CriticLean, construímos o FineLeanCorpus, um conjunto de dados que compreende mais de 285K problemas, exibindo diversidade rica de domínios, ampla cobertura de dificuldade e alta correção com base em avaliação humana. No geral, nossos resultados destacam que otimizar a fase do crítico é essencial para produzir formalizações confiáveis, e esperamos que nosso CriticLean forneça insights valiosos para avanços futuros no raciocínio matemático formal.
Modelos de linguagem de grande escala (LLMs) se destacam no raciocínio lógico e algorítmico, mas sua inteligência emocional (EQ) ainda está muito aquém de sua capacidade cognitiva. Embora o aprendizado por reforço com recompensas verificáveis (RLVR) tenha avançado em outros domínios, sua aplicação em diálogos—especialmente para inteligência emocional—ainda é pouco explorada. Neste trabalho, introduzimos o RLVER, o primeiro framework de aprendizado por reforço de ponta a ponta que aproveita recompensas emocionais verificáveis de usuários simulados para cultivar habilidades empáticas de ordem superior em LLMs. Dentro desse framework, usuários simulados afetivos e autoconsistentes participam de diálogos e produzem pontuações emocionais determinísticas durante as conversas, servindo como sinais de recompensa para guiar o aprendizado do LLM. O ajuste fino do modelo Qwen2.5-7B-Instruct, disponível publicamente, com PPO aumenta sua pontuação no Sentient-Benchmark de 13,3 para 79,2, preservando amplamente a competência matemática e de codificação. Experimentos extensivos revelam que: (i) o RLVER melhora consistentemente múltiplas capacidades de diálogo; (ii) Modelos pensantes e não pensantes mostram tendências distintas—modelos pensantes se destacam em empatia e insight, enquanto modelos não pensantes favorecem ação; (iii) O GRPO frequentemente produz ganhos estáveis, enquanto o PPO pode elevar certas capacidades a um patamar mais alto; (iv) Ambientes mais desafiadores nem sempre são melhores—ambientes moderados podem gerar resultados mais robustos. Nossos resultados mostram que o RLVER é uma rota prática para agentes de linguagem emocionalmente inteligentes e amplamente capazes.
Os recentes avanços na geração de vídeos têm mostrado progresso notável em configurações de domínio aberto, mas a geração de vídeos médicos ainda é amplamente inexplorada. Vídeos médicos são essenciais para aplicações como treinamento clínico, educação e simulação, exigindo não apenas alta fidelidade visual, mas também precisão médica rigorosa. No entanto, os modelos atuais frequentemente produzem conteúdo irrealista ou errôneo quando aplicados a prompts médicos, principalmente devido à falta de conjuntos de dados em larga escala e de alta qualidade adaptados ao domínio médico. Para abordar essa lacuna, apresentamos o MedVideoCap-55K, o primeiro conjunto de dados em larga escala, diversificado e rico em legendas para geração de vídeos médicos. Ele compreende mais de 55.000 clipes curados que abrangem cenários médicos do mundo real, fornecendo uma base sólida para o treinamento de modelos generalistas de geração de vídeos médicos. Com base nesse conjunto de dados, desenvolvemos o MedGen, que alcança desempenho líder entre os modelos de código aberto e rivaliza com sistemas comerciais em vários benchmarks, tanto em qualidade visual quanto em precisão médica. Esperamos que nosso conjunto de dados e modelo possam servir como um recurso valioso e ajudar a catalisar novas pesquisas na geração de vídeos médicos. Nosso código e dados estão disponíveis em https://github.com/FreedomIntelligence/MedGen
Agentes de interface gráfica do usuário (GUI) operam de forma autônoma em diversas plataformas (por exemplo, Linux) para concluir tarefas por meio da interação com elementos visuais. Especificamente, uma instrução do usuário é decomposta em uma sequência de propostas de ação, cada uma correspondendo a uma interação com a GUI. Após cada ação, o agente observa o ambiente atualizado da GUI para planejar o próximo passo. No entanto, dois desafios principais surgem: i) resolver a ambiguidade no planejamento de tarefas (ou seja, a sequência de propostas de ação), onde a seleção de um plano apropriado não é trivial, pois muitos planos válidos podem existir; ii) fundamentar ações com precisão em interfaces complexas e de alta resolução, ou seja, interagir de forma precisa com alvos visuais. Este artigo investiga os dois desafios mencionados com nosso Agente de Escalonamento em Tempo de Teste de GUI, denominado GTA1. Primeiro, para selecionar a proposta de ação mais apropriada, introduzimos um método de escalonamento em tempo de teste. A cada passo, amostramos múltiplas propostas de ação candidatas e utilizamos um modelo de avaliação para selecionar a mais adequada. Esse método troca computação por melhor qualidade de decisão por meio de amostragem concorrente, reduzindo os passos de execução da tarefa e melhorando o desempenho geral. Segundo, propomos um modelo que alcança maior precisão ao fundamentar a proposta de ação selecionada em seus elementos visuais correspondentes. Nossa principal percepção é que o aprendizado por reforço (RL) facilita a fundamentação visual por meio de alinhamentos objetivos intrínsecos, recompensando cliques bem-sucedidos em elementos da interface. Experimentalmente, nosso método estabelece desempenho de ponta em diversos benchmarks. Por exemplo, o GTA1-7B alcança acurácias de 50,1%, 92,4% e 67,7% em Screenspot-Pro, Screenspot-V2 e OSWorld-G, respectivamente. Quando emparelhado com um planejador que aplica nossa estratégia de escalonamento em tempo de teste, ele exibe desempenho agente de ponta (por exemplo, taxa de sucesso de tarefa de 45,2% em OSWorld). Disponibilizamos nosso código e modelos aqui.
O Modelo de Mundo, suposto substituto algorítmico do ambiente do mundo real que os agentes biológicos experienciam e sobre o qual agem, tem sido um tema emergente nos últimos anos devido à crescente necessidade de desenvolver agentes virtuais com inteligência artificial (geral). Tem havido muito debate sobre o que realmente é um modelo de mundo, como construí-lo, como utilizá-lo e como avaliá-lo. Neste ensaio, partindo da imaginação presente no clássico de ficção científica Duna e inspirando-nos no conceito de "pensamento hipotético" da literatura psicológica, oferecemos críticas a várias escolas de pensamento sobre modelagem de mundo e defendemos que o objetivo principal de um modelo de mundo seja simular todas as possibilidades acionáveis do mundo real para raciocínio e ação propositados. Com base nessas críticas, propomos uma nova arquitetura para um modelo de mundo de propósito geral, baseada em representações hierárquicas, multiníveis e mistas (contínuas/discretas), e em um framework de aprendizado generativo e auto-supervisionado, com uma perspectiva de um sistema AGI Físico, Agente e Aninhado (PAN) habilitado por tal modelo.
A escalabilidade de dados tem impulsionado sucessos notáveis em modelos de base para Processamento de Linguagem Natural (PLN) e Visão Computacional (VC), mas os princípios de uma escalabilidade eficaz de dados na manipulação robótica ainda não são suficientemente compreendidos. Neste trabalho, investigamos o papel sutil da diversidade de dados no aprendizado de robôs, examinando três dimensões críticas—tarefa (o que fazer), embodiment (qual robô usar) e especialista (quem demonstra)—desafiando a intuição convencional de que "mais diverso é melhor". Através de extensos experimentos em várias plataformas robóticas, revelamos que (1) a diversidade de tarefas se mostra mais crítica do que a quantidade de demonstrações por tarefa, beneficiando a transferência de tarefas diversas de pré-treinamento para cenários subsequentes novos; (2) dados de pré-treinamento multi-embodiment são opcionais para transferência entre embodiments—modelos treinados com dados de alta qualidade de um único embodiment podem transferir eficientemente para diferentes plataformas, mostrando uma propriedade de escalabilidade mais desejável durante o ajuste fino do que modelos pré-treinados com multi-embodiment; e (3) a diversidade de especialistas, decorrente de preferências operacionais individuais e variações estocásticas em demonstrações humanas, pode ser confusa para o aprendizado de políticas, com a multimodalidade de velocidade emergindo como um fator contribuinte chave. Com base nessa percepção, propomos um método de desviesamento de distribuição para mitigar a ambiguidade de velocidade, resultando no GO-1-Pro, que alcança ganhos substanciais de desempenho de 15%, equivalentes ao uso de 2,5 vezes mais dados de pré-treinamento. Coletivamente, essas descobertas fornecem novas perspectivas e orientações práticas sobre como escalar efetivamente conjuntos de dados de manipulação robótica.
Apresentamos o Nile-Chat-4B, 3x4B-A6B e 12B, uma coleção de LLMs (Modelos de Linguagem de Grande Escala) para o dialeto egípcio, projetados de forma única para compreender e gerar textos escritos tanto em alfabeto árabe quanto latino. Especificamente, com o Nile-Chat-3x4B-A6B, introduzimos uma nova abordagem de adaptação linguística, utilizando a estratégia Branch-Train-MiX para fundir especialistas em scripts específicos em um único modelo MoE (Mixture of Experts). Nossos modelos Nile-Chat superam significativamente os principais LLMs multilíngues e árabes, como LLaMa, Jais e ALLaM, em nossos novos benchmarks de avaliação egípcios, que abrangem tanto tarefas de compreensão quanto de geração. Notavelmente, nosso modelo de 12B alcança um ganho de desempenho de 14,4% em relação ao Qwen2.5-14B-Instruct em benchmarks de script latino. Todos os nossos recursos estão disponíveis publicamente. Acreditamos que este trabalho apresenta uma metodologia abrangente para adaptar LLMs a idiomas de script duplo, abordando um aspecto frequentemente negligenciado no desenvolvimento moderno de LLMs.
Modelos de linguagem de grande escala (LLMs) têm alcançado progressos notáveis na geração de código, mas sua verdadeira competência em programação ainda é pouco explorada. Introduzimos o framework Triângulo de Código, que avalia sistematicamente os LLMs em três dimensões fundamentais: análise editorial, implementação de código e geração de casos de teste. Por meio de extensos experimentos em benchmarks de programação competitiva, revelamos que, embora os LLMs possam formar um sistema autoconsistente nessas dimensões, suas soluções frequentemente carecem da diversidade e robustez dos programadores humanos. Identificamos uma mudança significativa na distribuição entre a cognição do modelo e a expertise humana, com erros do modelo tendendo a se agrupar devido a vieses nos dados de treinamento e transferência limitada de raciocínio. Nosso estudo demonstra que a incorporação de editoriais, soluções e casos de teste diversos gerados por humanos, bem como o uso de misturas de modelos, pode aprimorar substancialmente tanto o desempenho quanto a robustez dos LLMs. Além disso, revelamos tanto a consistência quanto a inconsistência na cognição dos LLMs que podem facilitar a autorreflexão e a autossuperação, fornecendo uma direção potencial para o desenvolvimento de modelos de codificação mais poderosos.
Modelos de sequência como Transformers e RNNs frequentemente alocam atenção excessiva a contextos irrelevantes, resultando em representações intermediárias ruidosas. Isso prejudica as capacidades dos LLMs ao promover alucinações, enfraquecer habilidades de longo alcance e recuperação, e reduzir a robustez. Trabalhos recentes mostraram que o design diferencial pode mitigar esse problema em Transformers, melhorando sua eficácia em diversas aplicações. Neste artigo, exploramos se essas técnicas, originalmente desenvolvidas para Transformers, podem ser aplicadas ao Mamba, uma arquitetura recente baseada em camadas de espaço de estados seletivas que alcança desempenho equivalente ao dos Transformers com maior eficiência. Mostramos que uma adaptação ingênua do design diferencial ao Mamba é insuficiente e requer modificações arquiteturais cuidadosas. Para resolver isso, introduzimos um novo mecanismo diferencial para o Mamba, validado empiricamente em benchmarks de modelagem de linguagem, demonstrando capacidades aprimoradas de recuperação e desempenho superior ao Mamba padrão. Por fim, realizamos extensos estudos de ablação e análises empíricas para justificar nossas escolhas de design e fornecer evidências de que nossa abordagem mitiga efetivamente o problema de alocação excessiva em modelos baseados no Mamba. Nosso código está disponível publicamente.
A inteligência artificial (IA) tem um potencial significativo em aplicações de saúde, mas seu treinamento e implantação enfrentam desafios devido à diversidade de dados na área da saúde, à complexidade das tarefas e à necessidade de preservar a privacidade. Modelos de base que se destacam em tarefas médicas e exigem menos dados de ajuste específicos para cada tarefa são essenciais para acelerar o desenvolvimento de aplicações de IA na saúde. Apresentamos o MedGemma, uma coleção de modelos de base de visão e linguagem médica baseados no Gemma 3 4B e 27B. O MedGemma demonstra compreensão e raciocínio médico avançados em imagens e textos, superando significativamente o desempenho de modelos generativos de tamanho similar e se aproximando do desempenho de modelos específicos para tarefas, mantendo as capacidades gerais dos modelos base do Gemma 3. Para tarefas fora da distribuição, o MedGemma alcança uma melhoria de 2,6-10% em respostas a perguntas multimodais médicas, 15,5-18,1% na classificação de achados em radiografias de tórax e 10,8% em avaliações agentivas em comparação com os modelos base. O ajuste fino do MedGemma melhora ainda mais o desempenho em subdomínios, reduzindo erros na recuperação de informações de prontuários eletrônicos em 50% e alcançando desempenho comparável aos métodos especializados de ponta existentes para classificação de pneumotórax e classificação de patches de histopatologia. Além disso, introduzimos o MedSigLIP, um codificador visual ajustado para medicina derivado do SigLIP. O MedSigLIP impulsiona as capacidades de compreensão visual do MedGemma e, como codificador, alcança desempenho comparável ou superior ao de codificadores especializados em imagens médicas. Em conjunto, a coleção MedGemma fornece uma base sólida de capacidades para imagens e textos médicos, com potencial para acelerar significativamente a pesquisa médica e o desenvolvimento de aplicações subsequentes. A coleção MedGemma, incluindo tutoriais e pesos dos modelos, pode ser encontrada em https://goo.gle/medgemma.
Modelos de Linguagem de Grande Escala (LLMs) têm sido recentemente aplicados a tarefas de reranking em recuperação de informação, alcançando desempenho robusto. No entanto, suas altas demandas computacionais frequentemente dificultam a implantação prática. Estudos existentes avaliam a eficiência de rerankers baseados em LLMs usando métricas substitutas, como latência, número de passagens diretas, tokens de entrada e tokens de saída. Contudo, essas métricas dependem de escolhas de hardware e de tempo de execução (\eg, paralelização ou não, tamanho do lote, etc.), e muitas vezes não consideram o tamanho do modelo, dificultando a interpretação e obscurecendo a avaliação da relação entre eficiência e efetividade. Para abordar essa questão, propomos o E2R-FLOPs para rerankers baseados em LLMs: métricas de ranking por PetaFLOP (RPP) para relevância por computação e consultas por PetaFLOP (QPP) para taxa de transferência independente de hardware. Acompanhando as novas métricas, um estimador de FLOPs interpretável é construído para estimar os FLOPs de um reranker baseado em LLM mesmo sem a execução de experimentos. Com base nas métricas propostas, conduzimos experimentos abrangentes para avaliar uma ampla gama de rerankers baseados em LLMs com diferentes arquiteturas, estudando a relação entre eficiência e efetividade e trazendo essa questão à atenção da comunidade de pesquisa.
Os modelos multimodais grandes (LMMs) de última geração enfrentam desafios ao processar imagens de alta resolução, pois essas entradas são convertidas em um número enorme de tokens visuais, muitos dos quais são irrelevantes para a tarefa subsequente. Neste artigo, propomos o Multi-turn Grounding-based Policy Optimization (MGPO), uma estrutura de aprendizado por reforço (RL) de ponta a ponta que permite que os LMMs foquem iterativamente em regiões visuais-chave, cortando automaticamente subimagens com base em coordenadas de ancoragem previstas pelo modelo dentro de uma estrutura de conversação multi-turn. Em comparação com o ajuste fino supervisionado (SFT), que requer anotações de ancoragem adicionais e custosas, nossa abordagem destaca que os LMMs podem desenvolver habilidades robustas de ancoragem durante o processo de treinamento de RL, utilizando apenas uma função de recompensa binária derivada da correção da resposta final. Além disso, observamos que os LMMs têm dificuldade em ativar autonomamente a ancoragem visual durante o processo de rollout. Para resolver esse problema de inicialização a frio, projetamos um modelo de conversação multi-turn e restringimos o cálculo da perda da política às saídas do modelo geradas em várias rodadas de diálogo, promovendo assim uma otimização estável. Experimentos extensivos demonstram que, quando treinado em dados padrão de perguntas e respostas curtas visuais sem anotações de ancoragem, o MGPO efetivamente elicita capacidades de ancoragem mais fortes em comparação com o GRPO, resultando em uma melhoria de 5,4% no MME-Realworld in-distribution e 5,2% no desafiador V* Bench out-of-distribution (OOD). Notavelmente, o pós-treinamento do MGPO no Qwen2.5-VL-7B com 21K amostras supera os modelos o1 e GPT-4o da OpenAI no OOD V* Bench. Os códigos estão disponíveis em https://github.com/EvolvingLMMs-Lab/MGPO.
Métodos computacionais baseados em aprendizado profundo têm alcançado resultados promissores na previsão de interações proteína-proteína (PPIs). No entanto, os benchmarks existentes concentram-se predominantemente em avaliações pareadas isoladas, negligenciando a capacidade de um modelo de reconstruir redes de PPIs biologicamente significativas, o que é crucial para a pesquisa em biologia. Para abordar essa lacuna, introduzimos o PRING, o primeiro benchmark abrangente que avalia a previsão de interações proteína-proteína a partir de uma perspectiva em nível de grafo. O PRING organiza um conjunto de dados de alta qualidade de redes de PPIs multi-espécies, compreendendo 21.484 proteínas e 186.818 interações, com estratégias bem projetadas para lidar com redundância e vazamento de dados. Com base nesse conjunto de dados de padrão ouro, estabelecemos dois paradigmas de avaliação complementares: (1) tarefas orientadas à topologia, que avaliam a construção de redes de PPIs intra e inter-espécies, e (2) tarefas orientadas à função, incluindo previsão de vias de complexos proteicos, análise de módulos GO e justificação de proteínas essenciais. Essas avaliações não apenas refletem a capacidade do modelo de compreender a topologia da rede, mas também facilitam a anotação de funções proteicas, a detecção de módulos biológicos e até a análise de mecanismos de doenças. Experimentos extensivos em quatro categorias representativas de modelos, consistindo em abordagens baseadas em similaridade de sequência, sequência ingênua, modelos de linguagem proteica e estrutura, demonstram que os modelos atuais de PPI têm limitações potenciais na recuperação de propriedades estruturais e funcionais das redes de PPIs, destacando a lacuna no suporte a aplicações biológicas do mundo real. Acreditamos que o PRING fornece uma plataforma confiável para guiar o desenvolvimento de modelos de previsão de PPI mais eficazes para a comunidade. O conjunto de dados e o código-fonte do PRING estão disponíveis em https://github.com/SophieSarceau/PRING.
Avanços recentes em modelos de transformadores de difusão para geração de vídeo guiada por movimento, como o Tora, têm mostrado progresso significativo. Neste artigo, apresentamos o Tora2, uma versão aprimorada do Tora, que introduz várias melhorias de design para expandir suas capacidades tanto na personalização de aparência quanto de movimento. Especificamente, introduzimos um extrator de personalização desacoplado que gera embeddings de personalização abrangentes para múltiplas entidades de conjunto aberto, preservando melhor detalhes visuais refinados em comparação com métodos anteriores. Com base nisso, projetamos um mecanismo de autoatenção com portas para integrar trajetória, descrição textual e informações visuais para cada entidade. Essa inovação reduz significativamente o desalinhamento no condicionamento multimodal durante o treinamento. Além disso, introduzimos uma função de perda contrastiva que otimiza conjuntamente a dinâmica da trajetória e a consistência da entidade por meio de um mapeamento explícito entre embeddings de movimento e personalização. O Tora2 é, até onde sabemos, o primeiro método a alcançar a personalização simultânea de aparência e movimento de múltiplas entidades para geração de vídeo. Resultados experimentais demonstram que o Tora2 alcança desempenho competitivo com os métodos de personalização mais avançados, ao mesmo tempo em que oferece capacidades avançadas de controle de movimento, o que representa um avanço crítico na geração de vídeo com múltiplas condições. Página do projeto: https://github.com/alibaba/Tora.
Esforços recentes de "segmentar qualquer coisa" mostram promessa ao aprenderem de dados em grande escala, mas a adaptação direta desses modelos para imagens médicas permanece desafiadora devido à complexidade dos dados médicos, anotações ruidosas e requisitos de aprendizado contínuo em diversas modalidades e estruturas anatômicas. Neste trabalho, propomos o SAMed-2, um novo modelo de base para segmentação de imagens médicas construído sobre a arquitetura SAM-2. Especificamente, introduzimos um adaptador temporal no codificador de imagens para capturar correlações de imagens e um mecanismo de memória orientado por confiança para armazenar características de alta certeza para recuperação posterior. Essa estratégia baseada em memória combate o ruído generalizado em grandes conjuntos de dados médicos e mitiga o esquecimento catastrófico ao enfrentar novas tarefas ou modalidades. Para treinar e avaliar o SAMed-2, organizamos o MedBank-100k, um conjunto de dados abrangente que abrange sete modalidades de imagem e 21 tarefas de segmentação médica. Nossos experimentos em benchmarks internos e 10 conjuntos de dados externos demonstram desempenho superior em relação às melhores abordagens de referência em cenários de múltiplas tarefas. O código está disponível em: https://github.com/ZhilingYan/Medical-SAM-Bench.
O processamento de contextos longos tornou-se uma capacidade fundamental para grandes modelos de linguagem (LLMs). Para avaliar o desempenho de modelos em contextos longos, diversos benchmarks de avaliação de contextos longos foram propostos. No entanto, variações nas configurações de avaliação entre esses benchmarks resultam em inconsistências, dificultando a realização de comparações confiáveis. Além disso, o alto custo computacional da avaliação de contextos longos representa uma barreira significativa para a comunidade na condução de avaliações abrangentes de modelos de contextos longos. Neste artigo, propomos o LOOM-Scope, um framework abrangente e eficiente para avaliação de contextos longos. O LOOM-Scope padroniza as configurações de avaliação em diversos benchmarks, suporta a implementação de métodos eficientes de aceleração de inferência para contextos longos e introduz um conjunto de benchmarks holístico e leve para avaliar modelos de forma abrangente. Página inicial: https://loomscope.github.io
Apresentamos o any4, uma solução aprendida de quantização de pesos de 4 bits para modelos de linguagem de grande escala (LLMs) que fornece representações numéricas arbitrárias sem exigir pré-processamento de pesos ou ativações. O any4 oferece maior precisão em comparação com outros tipos de representação numérica de 4 bits relacionados: int4, fp4 e nf4, conforme avaliado em uma variedade de tamanhos de modelos, gerações e famílias (Llama 2, Llama 3, Mistral e Mixtral). Embora o any4 não exija pré-processamento de pesos ou ativações, ele também é competitivo com técnicas ortogonais que exigem tal pré-processamento (por exemplo, AWQ e GPTQ). Também experimentamos com any3 e any2 e demonstramos competitividade em bits mais baixos. Além disso, mostramos que podemos calibrar usando uma única amostra diversificada e curada, em vez de centenas de amostras de um conjunto de dados, como é feito na maioria das abordagens de quantização. Também disponibilizamos como código aberto o tinygemm, uma biblioteca de multiplicação de matrizes em GPU otimizada para latência em LLMs, que implementa o any4 usando uma estratégia eficiente de tabela de consulta em GPU, juntamente com outros métodos comuns de quantização. Disponibilizamos nosso código em https://github.com/facebookresearch/any4.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em uma ampla gama de tarefas, mas também exibem a memorização de seus dados de treinamento. Esse fenômeno levanta questões críticas sobre o comportamento dos modelos, riscos à privacidade e a fronteira entre aprendizado e memorização. Abordando essas preocupações, este artigo sintetiza estudos recentes e investiga o cenário da memorização, os fatores que a influenciam e os métodos para sua detecção e mitigação. Exploramos os principais impulsionadores, incluindo a duplicação de dados de treinamento, a dinâmica de treinamento e os procedimentos de ajuste fino que influenciam a memorização de dados. Além disso, examinamos metodologias como extração baseada em prefixos, inferência de associação e prompt adversarial, avaliando sua eficácia na detecção e medição de conteúdo memorizado. Além da análise técnica, também exploramos as implicações mais amplas da memorização, incluindo as implicações legais e éticas. Por fim, discutimos estratégias de mitigação, como limpeza de dados, privacidade diferencial e desaprendizado pós-treinamento, destacando desafios em aberto no equilíbrio entre a minimização da memorização prejudicial e a utilidade. Este artigo fornece uma visão abrangente do estado atual da pesquisa sobre memorização em LLMs nas dimensões técnica, de privacidade e de desempenho, identificando direções críticas para trabalhos futuros.
A conclusão semântica de cenas (SSC, do inglês Semantic Scene Completion) visa inferir tanto a geometria 3D quanto a semântica de uma cena a partir de imagens únicas. Em contraste com trabalhos anteriores sobre SSC que dependem fortemente de anotações de verdade fundamental (ground truth) caras, abordamos o SSC em um cenário não supervisionado. Nosso novo método, SceneDINO, adapta técnicas de aprendizado de representação auto-supervisionado e compreensão de cenas 2D não supervisionada para o SSC. Nosso treinamento utiliza exclusivamente auto-supervisão de consistência multi-visual sem qualquer forma de verdade fundamental semântica ou geométrica. Dada uma única imagem de entrada, o SceneDINO infere a geometria 3D e características 3D expressivas de DINO de maneira direta (feed-forward). Por meio de uma nova abordagem de destilação de características 3D, obtemos semântica 3D não supervisionada. Tanto na compreensão de cenas 3D quanto 2D não supervisionadas, o SceneDINO alcança precisão de segmentação de última geração. A sondagem linear de nossas características 3D corresponde à precisão de segmentação de uma abordagem atual de SSC supervisionada. Além disso, demonstramos a generalização de domínio e a consistência multi-visual do SceneDINO, dando os primeiros passos em direção a uma base sólida para a compreensão de cenas 3D a partir de uma única imagem.
Os avanços na geração de imagens a partir de texto têm sido predominantemente centrados no inglês, criando barreiras para falantes de outros idiomas e perpetuando desigualdades digitais. Embora os sistemas existentes dependam de pipelines de tradução, esses introduzem desvios semânticos, sobrecarga computacional e desalinhamento cultural. Apresentamos o NeoBabel, uma nova estrutura de geração de imagens multilíngue que estabelece uma nova fronteira de Pareto em desempenho, eficiência e inclusão, suportando seis idiomas: inglês, chinês, holandês, francês, hindi e persa. O modelo é treinado usando uma combinação de pré-treinamento multilíngue em larga escala e ajuste fino de instruções em alta resolução. Para avaliar suas capacidades, expandimos dois benchmarks exclusivos em inglês para equivalentes multilíngues: m-GenEval e m-DPG. O NeoBabel alcança desempenho multilíngue de ponta enquanto mantém uma forte capacidade em inglês, pontuando 0,75 no m-GenEval e 0,68 no m-DPG. Notavelmente, ele se equipara aos principais modelos em tarefas em inglês enquanto os supera em +0,11 e +0,09 nos benchmarks multilíngues, mesmo que esses modelos sejam construídos sobre LLMs base multilíngues. Isso demonstra a eficácia do nosso treinamento de alinhamento direcionado para preservar e estender a generalização translinguística. Introduzimos ainda duas novas métricas para avaliar rigorosamente o alinhamento multilíngue e a robustez a prompts de código misto. Notavelmente, o NeoBabel iguala ou supera modelos exclusivos em inglês enquanto é 2-4x menor. Lançamos um kit de ferramentas aberto, incluindo todo o código, checkpoints do modelo, um conjunto de dados curado de 124M pares de texto-imagem multilíngues e protocolos de avaliação multilíngue padronizados, para avançar a pesquisa em IA inclusiva. Nosso trabalho demonstra que a capacidade multilíngue não é uma troca, mas um catalisador para melhorar a robustez, eficiência e fidelidade cultural na IA generativa.
A compreensão composicional é crucial para a inteligência humana, mas ainda não está claro se os modelos de visão contemporâneos a exibem. O paradigma dominante de aprendizado de máquina é construído sobre a premissa de que escalar o tamanho dos dados e dos modelos melhorará o desempenho fora da distribuição, incluindo a generalização composicional. Testamos essa premissa por meio de experimentos controlados que variam sistematicamente a escala dos dados, a diversidade de conceitos e a cobertura combinatória. Descobrimos que a generalização composicional é impulsionada pela diversidade dos dados, e não apenas pela escala dos dados. O aumento da cobertura combinatória força os modelos a descobrir uma estrutura representacional fatorada linearmente, onde os conceitos se decompõem em componentes aditivos. Provamos que essa estrutura é fundamental para a eficiência, permitindo uma generalização perfeita a partir de poucas combinações observadas. Ao avaliar modelos pré-treinados (DINO, CLIP), encontramos desempenho acima do aleatório, mas imperfeito, sugerindo a presença parcial dessa estrutura. Nosso trabalho motiva uma ênfase maior na construção de conjuntos de dados diversos para generalização composicional e na consideração da importância da estrutura representacional que permite um aprendizado composicional eficiente. O código está disponível em https://github.com/oshapio/visual-compositional-generalization.
Projetamos e implementamos o AXLearn, um sistema de aprendizado profundo de produção que facilita o treinamento escalável e de alto desempenho de grandes modelos de aprendizado profundo. Em comparação com outros sistemas de aprendizado profundo de ponta, o AXLearn tem um foco único em modularidade e suporte para infraestrutura de hardware heterogênea. As interfaces internas do AXLearn entre componentes de software seguem uma encapsulação rigorosa, permitindo que diferentes componentes sejam montados para facilitar o desenvolvimento rápido de modelos e experimentação em infraestruturas de computação heterogêneas. Introduzimos um método inovador de quantificar a modularidade por meio da complexidade de Linhas de Código (LoC), que demonstra como nosso sistema mantém uma complexidade constante à medida que escalamos os componentes do sistema, em comparação com a complexidade linear ou quadrática em outros sistemas. Isso permite integrar recursos como Embeddings de Posição Rotacional (RoPE) no AXLearn em centenas de módulos com apenas 10 linhas de código, em contraste com as centenas necessárias em outros sistemas. Ao mesmo tempo, o AXLearn mantém um desempenho equivalente em comparação com os sistemas de treinamento mais avançados. Por fim, compartilhamos nossa experiência no desenvolvimento e operação do AXLearn.
Avanços recentes em modelos de difusão em grafos (GDMs) têm possibilitado a síntese de estruturas de rede realistas, mas garantir justiça nos dados gerados continua sendo um desafio crítico. As soluções existentes tentam mitigar o viés retreinando os GDMs com restrições de justiça ad-hoc. Em contrapartida, com este trabalho, propomos o FAROS, uma nova estrutura de geração de grafos justos (FAir graph geneRatiOn) que utiliza mecanismos de troca de atributos (attribute Switching) e opera diretamente no processo de geração do GDM pré-treinado. Tecnicamente, nossa abordagem funciona alterando os atributos sensíveis dos nós durante a geração. Para isso, o FAROS calcula a fração ótima de nós a serem trocados e seleciona o passo de difusão para realizar a troca, definindo restrições multicritério personalizadas para preservar o perfil de topologia dos nós da distribuição original (um proxy para precisão) enquanto garante a independência das arestas em relação aos atributos sensíveis no grafo gerado (um proxy para justiça). Nossos experimentos em conjuntos de dados de referência para predição de links demonstram que a abordagem proposta reduz efetivamente as discrepâncias de justiça enquanto mantém um desempenho de precisão comparável (ou até superior) a outras linhas de base semelhantes. Notavelmente, o FAROS também consegue alcançar um melhor equilíbrio entre precisão e justiça do que outros concorrentes em algumas das configurações testadas sob o conceito de otimalidade de Pareto, demonstrando a eficácia das restrições multicritério impostas.