Artigos de pesquisa em IA selecionados diariamente com traduções
As impressionantes capacidades zero-shot dos Modelos de Linguagem de Grande Escala (LLMs) impulsionaram o processamento de linguagem natural de modelos específicos para tarefas a modelos de base unificados e generalistas. Essa transformação surgiu de primitivas simples: modelos generativos de grande escala treinados com dados em escala da web. Curiosamente, as mesmas primitivas se aplicam aos atuais modelos generativos de vídeo. Será que os modelos de vídeo estão em uma trajetória rumo à compreensão visual de propósito geral, assim como os LLMs desenvolveram a compreensão linguística de propósito geral? Demonstramos que o Veo 3 pode resolver uma ampla variedade de tarefas para as quais não foi explicitamente treinado: segmentação de objetos, detecção de bordas, edição de imagens, compreensão de propriedades físicas, reconhecimento de affordances de objetos, simulação de uso de ferramentas e muito mais. Essas habilidades de perceber, modelar e manipular o mundo visual permitem formas iniciais de raciocínio visual, como a resolução de labirintos e simetrias. As capacidades emergentes zero-shot do Veo indicam que os modelos de vídeo estão no caminho para se tornarem modelos de base visual unificados e generalistas.
Os métodos de Cadeia de Pensamento Implícita (CoT) apresentam uma alternativa promissora e eficiente em termos de tokens ao raciocínio CoT explícito em Modelos de Linguagem de Grande Escala (LLMs), mas uma lacuna persistente de desempenho tem limitado a aplicação do CoT implícito. Identificamos um problema central de instabilidade latente ao escalar o orçamento computacional das abordagens de CoT implícita: à medida que aumentamos o número de tokens de raciocínio implícito para melhorar o desempenho, o processo de treinamento frequentemente se torna instável e colapsa. Nossa análise revela que essa instabilidade surge das representações latentes se tornarem homogêneas e perderem sua diversidade semântica, uma falha causada pela supervisão insuficiente em nível de etapa nas abordagens existentes de CoT implícita. Para resolver esse problema, propomos o SIM-CoT, um módulo de treinamento plug-and-play que introduz supervisão em nível de etapa para estabilizar e enriquecer o espaço de raciocínio latente. Especificamente, o SIM-CoT emprega um decodificador auxiliar durante o treinamento para alinhar cada token implícito com sua etapa de raciocínio explícita correspondente, garantindo que os estados latentes capturem informações distintas e significativas. O decodificador auxiliar proposto é removido durante a inferência, preservando a eficiência computacional dos métodos de CoT implícita sem custo adicional. Além disso, o decodificador auxiliar proporciona interpretabilidade do raciocínio implícito ao projetar cada token latente em um vocabulário de raciocínio explícito, permitindo a visualização por etapa dos papéis semânticos e o diagnóstico. O SIM-CoT melhora significativamente tanto a precisão dentro do domínio quanto a estabilidade fora do domínio de vários métodos de CoT implícita, impulsionando baselines como o Coconut em +8,2% no GPT-2 e o CODI em +3,0% no LLaMA-3.1 8B. Demonstrando forte escalabilidade, o SIM-CoT também supera a baseline de CoT explícita no GPT-2 em 2,1% com 2,3× maior eficiência de tokens, enquanto reduz substancialmente a lacuna de desempenho em modelos maiores como o LLaMA-3.1 8B.
Apresentamos o EmbeddingGemma, um novo modelo de incorporação de texto leve e aberto, baseado na família de modelos de linguagem Gemma 3. Nossa receita de treinamento inovadora captura estrategicamente o conhecimento de modelos maiores por meio de inicialização encoder-decoder e destilação geométrica de embeddings. Melhoramos a robustez e a expressividade do modelo com um regularizador de dispersão e garantimos a generalização ao mesclar checkpoints de misturas variadas e otimizadas. Avaliado no Massive Text Embedding Benchmark (MTEB) em domínios multilíngues, de inglês e de código, o EmbeddingGemma (300M) alcança resultados de ponta. Notavelmente, ele supera os principais modelos anteriores, tanto proprietários quanto abertos, com menos de 500M de parâmetros, e oferece desempenho comparável a modelos com o dobro do seu tamanho, proporcionando uma relação custo-benefício excepcional. Esse destaque persiste ao quantizar os pesos do modelo ou truncar as saídas de embeddings, tornando o EmbeddingGemma particularmente adequado para casos de uso de baixa latência e alta taxa de transferência, como aplicações em dispositivos. Fornecemos estudos de ablação que exploram nossas principais escolhas de design. Disponibilizamos o EmbeddingGemma para a comunidade, a fim de promover pesquisas adicionais.
Neste artigo, apresentamos um método baseado em Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO) para treinar Modelos de Linguagem de Grande Escala com Consciência de Fala (Speech-Aware Large Language Models - SALLMs) em tarefas de compreensão de fala de formato aberto, como Resposta a Perguntas em Fala e Tradução Automática de Fala. Os SALLMs têm se mostrado altamente eficazes para tarefas de compreensão de fala. O GRPO recentemente ganhou destaque por sua eficiência no treinamento de LLMs, e trabalhos anteriores exploraram sua aplicação em SALLMs, principalmente em tarefas de múltipla escolha. Com base nisso, focamos em tarefas de formato aberto que melhor refletem as habilidades gerativas dos modelos. Nossa abordagem utiliza o GRPO com BLEU como sinal de recompensa para otimizar os SALLMs, e demonstramos empiricamente que ele supera o Fine-Tuning Supervisionado Padrão (Standard Fine-Tuning - SFT) em várias métricas-chave. Por fim, exploramos o potencial de incorporar amostras fora da política (off-policy) dentro do GRPO para essas tarefas, destacando caminhos para melhorias adicionais e pesquisas futuras.
Os recentes avanços em modelos de base destacam uma tendência clara em direção à unificação e escalabilidade, mostrando capacidades emergentes em diversos domínios. Embora a geração e edição de imagens tenham rapidamente evoluído de frameworks específicos para tarefas para frameworks unificados, a geração e edição de vídeos permanecem fragmentadas devido a limitações arquitetônicas e escassez de dados. Neste trabalho, apresentamos o EditVerse, um framework unificado para geração e edição de imagens e vídeos em um único modelo. Ao representar todas as modalidades, ou seja, texto, imagem e vídeo, como uma sequência unificada de tokens, o EditVerse aproveita a auto-atenção para alcançar aprendizado robusto em contexto, transferência natural de conhecimento entre modalidades e manipulação flexível de entradas e saídas com resoluções e durações arbitrárias. Para lidar com a falta de dados de treinamento para edição de vídeos, projetamos um pipeline de dados escalável que coleta 232 mil amostras de edição de vídeo e as combina com grandes conjuntos de dados de imagens e vídeos para treinamento conjunto. Além disso, apresentamos o EditVerseBench, o primeiro benchmark para edição de vídeo baseada em instruções, abrangendo diversas tarefas e resoluções. Experimentos extensivos e estudos com usuários demonstram que o EditVerse alcança desempenho de ponta, superando modelos open-source e comerciais existentes, enquanto exibe habilidades emergentes de edição e geração entre modalidades.
Técnicas de ponta em Inteligência Artificial (IA) continuam a remodelar nossa visão do mundo. Por exemplo, aplicações baseadas em Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT, demonstraram a capacidade de gerar conversas semelhantes às humanas sobre uma ampla gama de tópicos. Devido ao desempenho impressionante em diversas tarefas relacionadas à linguagem (por exemplo, respostas a perguntas de domínio aberto, tradução e resumo de documentos), é possível vislumbrar os impactos de longo alcance que os LLMs podem trazer com aplicações mais amplas no mundo real (por exemplo, atendimento ao cliente, educação e acessibilidade, e descoberta científica). Inspirados por seu sucesso, este artigo oferecerá uma visão geral dos LLMs de última geração e sua integração em uma ampla gama de disciplinas acadêmicas, incluindo: (1) artes, letras e direito (por exemplo, história, filosofia, ciência política, artes e arquitetura, direito), (2) economia e negócios (por exemplo, finanças, economia, contabilidade, marketing), e (3) ciência e engenharia (por exemplo, matemática, física e engenharia mecânica, química e engenharia química, ciências da vida e bioengenharia, ciências da terra e engenharia civil, ciência da computação e engenharia elétrica). Integrando humanidade e tecnologia, neste artigo, exploraremos como os LLMs estão moldando a pesquisa e a prática nesses campos, ao mesmo tempo em que discutimos limitações fundamentais, desafios em aberto e direções futuras na era da IA generativa. A revisão de como os LLMs são utilizados em diversas disciplinas - juntamente com observações e insights-chave - pode ajudar pesquisadores e profissionais interessados em explorar os LLMs para avançar seus trabalhos em diversas aplicações do mundo real.
Os modelos existentes de geração de vídeo se destacam na produção de vídeos foto-realísticos a partir de texto ou imagens, mas frequentemente carecem de plausibilidade física e controlabilidade 3D. Para superar essas limitações, introduzimos o PhysCtrl, uma nova estrutura para geração de vídeo a partir de imagens com base em física, utilizando parâmetros físicos e controle de forças. No núcleo do PhysCtrl está uma rede generativa de física que aprende a distribuição da dinâmica física em quatro materiais (elástico, areia, plasticina e rígido) por meio de um modelo de difusão condicionado em parâmetros físicos e forças aplicadas. Representamos a dinâmica física como trajetórias de pontos 3D e treinamos em um grande conjunto de dados sintéticos de 550K animações geradas por simuladores físicos. Aprimoramos o modelo de difusão com um novo bloco de atenção espaço-temporal que emula interações entre partículas e incorpora restrições baseadas em física durante o treinamento para garantir plausibilidade física. Experimentos mostram que o PhysCtrl gera trajetórias de movimento realistas e fundamentadas em física que, ao serem usadas para dirigir modelos de geração de vídeo a partir de imagens, produzem vídeos de alta fidelidade e controláveis que superam os métodos existentes tanto em qualidade visual quanto em plausibilidade física. Página do Projeto: https://cwchenwang.github.io/physctrl
Propomos o Lavida-O, um Modelo de Difusão Mascarado (MDM) unificado para compreensão e geração multimodal. Diferente de MDMs multimodais existentes, como MMaDa e Muddit, que suportam apenas tarefas simples de compreensão em nível de imagem e geração de imagens de baixa resolução, o Lavida-O apresenta um único framework que permite compreensão em nível de imagem, localização de objetos, edição de imagens e síntese de texto para imagem em alta resolução (1024px). O Lavida-O incorpora uma nova arquitetura de Mistura Elástica de Transformers (Elastic-MoT) que acopla um ramo de geração leve a um ramo de compreensão maior, suportado por compressão de tokens, condicionamento universal de texto e amostragem estratificada para geração eficiente e de alta qualidade. O Lavida-O ainda incorpora planejamento e autorreflexão iterativa em tarefas de geração e edição de imagens, impulsionando de forma contínua a qualidade da geração com suas capacidades de compreensão. O Lavida-O alcança desempenho de ponta em uma ampla gama de benchmarks, incluindo localização de objetos no RefCOCO, geração de texto para imagem no GenEval e edição de imagens no ImgEdit, superando modelos autoregressivos e modelos de difusão contínua, como Qwen2.5-VL e FluxKontext-dev, enquanto oferece uma aceleração considerável na inferência. Esses avanços estabelecem o Lavida-O como um novo paradigma para raciocínio e geração multimodal escalável.
Modelos de dobramento de proteínas têm alcançado resultados revolucionários, geralmente por meio de uma combinação de integração de conhecimento de domínio nos blocos arquiteturais e pipelines de treinamento. No entanto, dado o sucesso de modelos generativos em problemas diferentes, mas relacionados, é natural questionar se esses designs arquiteturais são uma condição necessária para construir modelos de alto desempenho. Neste artigo, apresentamos o SimpleFold, o primeiro modelo de dobramento de proteínas baseado em flow-matching que utiliza exclusivamente blocos de transformadores de propósito geral. Modelos de dobramento de proteínas normalmente empregam módulos computacionalmente caros que envolvem atualizações triangulares, representações explícitas de pares ou múltiplos objetivos de treinamento cuidadosamente elaborados para esse domínio específico. Em vez disso, o SimpleFold utiliza blocos de transformadores padrão com camadas adaptativas e é treinado por meio de um objetivo de flow-matching generativo com um termo estrutural adicional. Escalonamos o SimpleFold para 3 bilhões de parâmetros e o treinamos em aproximadamente 9 milhões de estruturas proteicas destiladas, juntamente com dados experimentais do PDB. Em benchmarks padrão de dobramento, o SimpleFold-3B alcança desempenho competitivo em comparação com as melhores baselines do estado da arte. Além disso, o SimpleFold demonstra forte desempenho em previsões de ensemble, o que normalmente é difícil para modelos treinados por meio de objetivos de reconstrução determinística. Devido à sua arquitetura de propósito geral, o SimpleFold mostra eficiência na implantação e inferência em hardware de nível consumidor. O SimpleFold desafia a dependência de designs arquiteturais complexos e específicos de domínio no dobramento de proteínas, abrindo um espaço de design alternativo para progressos futuros.
Modelos de Linguagem de Grande Escala (LLMs) de código aberto estão cada vez mais especializados por domínio (por exemplo, matemática, código, raciocínio geral), motivando sistemas que aproveitam pontos fortes complementares entre modelos. Abordagens anteriores com múltiplos LLMs ou (i) direcionam uma consulta para um ou alguns especialistas e geram respostas de forma independente, (ii) agregam saídas de cada modelo por meio de trocas caras e multi-turnos, ou (iii) fundem pesos em um único modelo — geralmente exigindo homogeneidade arquitetônica. Introduzimos o Método de Mistura de Pensamentos (MoT), uma abordagem simples para colaboração em nível latente entre especialistas heterogêneos sob um esquema global de roteamento. Para cada consulta, um roteador leve seleciona os K principais especialistas e designa um especialista primário; camadas de interação uniformemente posicionadas projetam estados ocultos em um espaço latente compartilhado, onde o especialista primário realiza atenção cruzada sobre seus pares ativos (selecionados). Especialistas pré-treinados permanecem congelados; apenas o roteador e as camadas leves de interação são treinados com um novo objetivo de treinamento conjunto que melhora tanto a seleção de especialistas quanto a colaboração inter-especialistas. Em cinco benchmarks in-distribution (ID) e três out-of-distribution (OOD), o MoT supera o estado da arte baseado em roteamento e agregação, Avengers, em +0,38% e +2,92%, respectivamente. Além disso, o MoT supera significativamente o melhor modelo único. Ele alcança isso com inferência de passagem única, tempo de execução comparável às linhas de base de roteamento e sem as sobrecargas da agregação iterativa. O MoT oferece um mecanismo simples no espaço latente para combinar LLMs heterogêneos, um passo prático em direção a uma colaboração mais ampla entre múltiplos LLMs. Nosso código está disponível publicamente em https://github.com/jacobfa/mot.
Os recentes avanços em modelos de Visão e Linguagem de Grande Escala (LVLM) têm impulsionado progressos significativos na tarefa de análise de documentos. Em comparação com os métodos tradicionais baseados em pipelines, os paradigmas end-to-end têm demonstrado excelência na conversão de imagens PDF em saídas estruturadas por meio da integração de Reconhecimento Óptico de Caracteres (OCR), reconhecimento de tabelas, reconhecimento de fórmulas matemáticas, entre outros. No entanto, a ausência de etapas analíticas explícitas para layouts de documentos e ordens de leitura limita a capacidade dos LVLM de lidar com tipos complexos de documentos, como jornais de múltiplas colunas ou pôsteres. Para abordar essa limitação, propomos neste relatório o Logics-Parsing: um modelo baseado em LVLM end-to-end aprimorado com aprendizado por reforço. Nosso modelo incorpora mecanismos de recompensa meticulosamente projetados para otimizar a análise de layouts complexos e a inferência de ordem de leitura. Além disso, expandimos a versatilidade do modelo ao incorporar diversos tipos de dados, como fórmulas químicas e caracteres chineses manuscritos, no ajuste fino supervisionado. Por fim, para permitir uma avaliação rigorosa da nossa abordagem, introduzimos o LogicsParsingBench, um conjunto curado de 1.078 imagens PDF em nível de página, abrangendo nove categorias principais e mais de vinte subcategorias, que será lançado posteriormente. Experimentos abrangentes realizados no LogicsParsingBench validaram a eficácia e o desempenho de última geração (State-of-the-art, SOTA) do nosso modelo proposto em diversos cenários de análise de documentos. Página do Projeto: https://github.com/alibaba/Logics-Parsing
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais integrados aos processos de desenvolvimento de software. A capacidade de gerar código e enviar pull requests com intervenção humana mínima, por meio do uso de agentes de IA autônomos, está prestes a se tornar uma prática padrão. No entanto, pouco se sabe sobre a utilidade prática desses pull requests e até que ponto suas contribuições são aceitas em projetos do mundo real. Neste artigo, estudamos empiricamente 567 pull requests (PRs) do GitHub gerados usando o Claude Code, uma ferramenta de codificação baseada em agentes, em 157 projetos de código aberto diversos. Nossa análise revela que os desenvolvedores tendem a depender de agentes para tarefas como refatoração, documentação e testes. Os resultados indicam que 83,8% desses PRs assistidos por agentes são eventualmente aceitos e mesclados pelos mantenedores dos projetos, com 54,9% dos PRs mesclados sendo integrados sem modificações adicionais. Os 45,1% restantes exigem alterações adicionais e se beneficiam de revisões humanas, especialmente para correções de bugs, documentação e conformidade com padrões específicos do projeto. Esses achados sugerem que, embora os PRs assistidos por agentes sejam amplamente aceitáveis, eles ainda se beneficiam de supervisão e refinamento humanos.
Apresentamos uma biblioteca Python de código aberto para simular instabilidades bidimensionais incompressíveis de Kelvin-Helmholtz em fluxos de cisalhamento estratificados. O resolvedor emprega um método de projeção de passo fracionário com solução espectral de Poisson via Transformada Rápida de Seno, alcançando precisão espacial de segunda ordem. A implementação utiliza NumPy, SciPy e compilação JIT com Numba para computação eficiente. Quatro casos de teste canônicos exploram números de Reynolds de 1000 a 5000 e números de Richardson de 0,1 a 0,3: camada de cisalhamento clássica, configuração de cisalhamento duplo, fluxo rotacional e turbulência forçada. A análise estatística usando entropia de Shannon e índices de complexidade revela que camadas de cisalhamento duplo alcançam taxas de mistura 2,8 vezes maiores do que a turbulência forçada, apesar de números de Reynolds mais baixos. O resolvedor opera eficientemente em hardware de desktop padrão, com simulações de grade 384x192 concluindo em aproximadamente 31 minutos. Os resultados demonstram que a eficiência de mistura depende dos caminhos de geração de instabilidade, e não apenas de medidas de intensidade, desafiando parametrizações baseadas no número de Richardson e sugerindo refinamentos para a representação de subescala em modelos climáticos.
A classificação precisa de produtos sob o Sistema Harmonizado de Tarifas (HTS) é um gargalo crítico no comércio global, mas tem recebido pouca atenção da comunidade de aprendizado de máquina. A má classificação pode interromper completamente as remessas, com grandes operadores postais suspendendo entregas aos EUA devido a documentação alfandegária incompleta. Apresentamos o primeiro benchmark para classificação de códigos HTS, derivado do Sistema de Busca Online de Decisões Alfandegárias dos EUA (CROSS). Avaliando os principais LLMs, descobrimos que nosso modelo Atlas ajustado (LLaMA-3.3-70B) alcança 40% de classificações corretas de 10 dígitos e 57,5% de classificações corretas de 6 dígitos, melhorias de 15 pontos em relação ao GPT-5-Thinking e 27,5 pontos em relação ao Gemini-2.5-Pro-Thinking. Além da precisão, o Atlas é aproximadamente cinco vezes mais barato que o GPT-5-Thinking e oito vezes mais barato que o Gemini-2.5-Pro-Thinking, e pode ser auto-hospedado para garantir a privacidade dos dados em fluxos de trabalho de comércio e conformidade de alto risco. Embora o Atlas estabeleça uma base sólida, o benchmark continua altamente desafiador, com apenas 40% de precisão em 10 dígitos. Ao liberar tanto o conjunto de dados quanto o modelo, nosso objetivo é posicionar a classificação HTS como uma nova tarefa de benchmark para a comunidade e convidar trabalhos futuros em recuperação, raciocínio e alinhamento.