Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar dos rápidos avanços recentes nas capacidades terminais de modelos de linguagem grandes, as estratégias de dados de treinamento por trás dos agentes terminais de última geração permanecem amplamente não divulgadas. Nós abordamos esta lacuna através de um estudo sistemático das práticas de engenharia de dados para agentes terminais, fazendo duas contribuições principais: (1) Terminal-Task-Gen, um *pipeline* leve de geração sintética de tarefas que suporta a construção de tarefas baseadas em semente (*seed*) e em habilidades (*skills*), e (2) uma análise abrangente de estratégias de dados e treinamento, incluindo filtragem, aprendizado curricular (*curriculum learning*), treinamento de contexto longo e comportamento de escalonamento. Nosso *pipeline* produz o Terminal-Corpus, um conjunto de dados de código aberto em larga escala para tarefas de terminal. Usando este conjunto de dados, treinamos o Nemotron-Terminal, uma família de modelos inicializada a partir do Qwen3 (8B, 14B, 32B) que obtém ganhos substanciais no Terminal-Bench 2.0: o Nemotron-Terminal-8B melhora de 2,5% para 13,0%, o Nemotron-Terminal-14B melhora de 4,0% para 20,2%, e o Nemotron-Terminal-32B melhora de 3,4% para 27,4%, equiparando o desempenho de modelos significativamente maiores. Para acelerar a pesquisa neste domínio, disponibilizamos publicamente nossos *checkpoints* de modelo e a maior parte de nossos conjuntos de dados sintéticos em https://huggingface.co/collections/nvidia/nemotron-terminal.
Com base na análise existente sobre cabeças de recuperação em modelos de linguagem de grande porte, propomos uma estrutura alternativa de rerranqueamento que treina modelos para estimar a relevância passagem-consulta utilizando os escores de atenção de cabeças selecionadas. Esta abordagem oferece uma solução *listwise* que aproveita informações holísticas dentro de toda a lista de candidatos durante o ranqueamento. Ao mesmo tempo, produz naturalmente escores de relevância contínuos, permitindo o treinamento em conjuntos de dados de recuperação arbitrários sem exigir supervisão baseada em escalas Likert. Nossa estrutura é leve e eficaz, exigindo apenas modelos de pequena escala (por exemplo, 4B de parâmetros) para alcançar um desempenho sólido. Experimentos extensivos demonstram que nosso método supera os rerranqueadores *pointwise* e *listwise* estado da arte existentes em múltiplos domínios, incluindo Wikipedia e conjuntos de dados de narrativas longas. Ele estabelece ainda um novo estado da arte no benchmark LoCoMo, que avalia as capacidades de compreensão de diálogo e uso de memória. Demonstramos ainda que nossa estrutura suporta extensões flexíveis. Por exemplo, aumentar as passagens candidatas com informações contextuais melhora ainda mais a precisão do ranqueamento, enquanto o treinamento de cabeças de atenção a partir de camadas intermediárias aumenta a eficiência sem sacrificar o desempenho.
A aprendizagem por reforço para modelos multimodais agentivos frequentemente sofre de colapso de interação, onde os modelos aprendem a reduzir o uso de ferramentas e o raciocínio multi-etapas, limitando os benefícios do comportamento agentivo. Apresentamos o PyVision-RL, um framework de aprendizagem por reforço para modelos multimodais de pesos abertos que estabiliza o treinamento e mantém a interação. Nossa abordagem combina uma estratégia de rollout de superamostragem-filtragem-classificação com uma recompensa acumulativa por uso de ferramentas para prevenir o colapso e incentivar o uso multi-etapas de ferramentas. Utilizando um pipeline de treinamento unificado, desenvolvemos o PyVision-Image e o PyVision-Video para compreensão de imagens e vídeos. Para o raciocínio em vídeos, o PyVision-Video emprega construção de contexto sob demanda, amostrando seletivamente quadros relevantes para a tarefa durante o raciocínio para reduzir significativamente o uso de tokens visuais. Experimentos demonstram forte desempenho e eficiência aprimorada, comprovando que a interação sustentada e o processamento visual sob demanda são críticos para agentes multimodais escaláveis.
O treinamento em tempo de teste (TTT) com ligação KV como camada de modelagem de sequência é comumente interpretado como uma forma de meta-aprendizado online que memoriza um mapeamento chave-valor durante o teste. No entanto, nossa análise revela múltiplos fenômenos que contradizem essa interpretação baseada em memorização. Motivados por essas descobertas, revisitamos a formulação do TTT e mostramos que uma ampla classe de arquiteturas TTT pode ser expressa como uma forma de operador de atenção linear aprendido. Além de explicar comportamentos do modelo previamente intrigantes, esta perspectiva oferece múltiplos benefícios práticos: permite simplificações arquitetônicas fundamentadas, admite formulações totalmente paralelas que preservam o desempenho enquanto melhoram a eficiência, e fornece uma redução sistemática de diversas variantes de TTT para uma forma padrão de atenção linear. No geral, nossos resultados reformulam o TTT não como memorização em tempo de teste, mas como atenção linear aprendida com capacidade representacional aprimorada.
Compreender a estrutura física é essencial para aplicações do mundo real, como agentes corporificados, design interativo e manipulação de longo horizonte. No entanto, as avaliações predominantes de Modelos de Visão e Linguagem (VLM) ainda se centram em configurações de turno único e agnósticas à estrutura (por exemplo, VQA), que não avaliam a capacidade dos agentes de raciocinar sobre como a geometria, o contacto e as relações de suporte restringem conjuntamente quais ações são possíveis num ambiente dinâmico. Para colmatar esta lacuna, introduzimos o benchmark CHAIN (Causal Hierarchy of Actions and Interactions), um banco de testes interativo, tridimensional e orientado pela física, concebido para avaliar se os modelos conseguem compreender, planear e executar sequências de ações estruturadas com base em restrições físicas. O CHAIN muda a avaliação da perceção passiva para a resolução ativa de problemas, abrangendo tarefas como quebra-cabeças mecânicos de encaixe e empilhamento e empacotamento 3D. Realizamos um estudo abrangente de VLMs e modelos baseados em difusão de última geração em configurações interativas unificadas. Os nossos resultados mostram que os modelos com melhor desempenho ainda têm dificuldade em internalizar a estrutura física e as restrições causais, falhando frequentemente na produção de planos confiáveis de longo horizonte e não conseguindo traduzir robustamente a estrutura percecionada em ações eficazes. O projeto está disponível em https://social-ai-studio.github.io/CHAIN/.
Estudamos a recuperação eficiente de multivectores para interação tardia em qualquer modalidade. A interação tardia emergiu como um paradigma dominante para recuperação de informação em texto, imagens, documentos visuais e vídeos, mas os seus custos computacionais e de armazenamento crescem linearmente com o comprimento do documento, tornando-a dispendiosa para *corpora* ricos em imagens, vídeo e áudio. Para superar esta limitação, exploramos métodos independentes da consulta para comprimir representações documentais de multivectores sob um orçamento vectorial constante. Introduzimos quatro abordagens para compressão de índice: redimensionamento de sequência, *tokens* de memória, *pooling* hierárquico e um novo agrupamento guiado por atenção (*AGC*). O *AGC* utiliza um mecanismo guiado por atenção para identificar as regiões semanticamente mais salientes de um documento como centróides de agrupamento e para ponderar a agregação de *tokens*. Avaliando estes métodos em tarefas de recuperação abrangendo texto (*BEIR*), documentos visuais (*ViDoRe*) e vídeo (*MSR-VTT*, *MultiVENT 2.0*), mostramos que o agrupamento guiado por atenção supera consistentemente outros métodos de compressão parametrizados (redimensionamento de sequência e *tokens* de memória), oferece maior flexibilidade no tamanho do índice do que o agrupamento hierárquico não paramétrico e alcança desempenho competitivo ou melhorado em comparação com um índice completo não comprimido. O código-fonte está disponível em: github.com/hanxiangqin/omni-col-press.
Os modelos visão-linguagem-ação (VLA) unificam percepção, linguagem e controle para agentes corporificados, mas enfrentam desafios significativos na implantação prática devido às crescentes demandas de computação e memória, especialmente à medida que os modelos escalam para horizontes temporais mais longos e backbones maiores. Para resolver esses gargalos, apresentamos o QuantVLA, uma estrutura de quantização pós-treinamento (PTQ) sem necessidade de treinamento adicional que, até onde sabemos, é a primeira abordagem PTQ para sistemas VLA e a primeira a quantizar com sucesso um cabeçalho de ação baseado em transformer de difusão (DiT). O QuantVLA incorpora três componentes com escala calibrada: (1) um layout de quantização seletiva que inteiriza todas as camadas lineares tanto no backbone de linguagem quanto no DiT, mantendo as projeções de atenção em ponto flutuante para preservar o cronograma original de operadores; (2) correspondência de temperatura de atenção, um mecanismo de escalonamento leve por cabeça que estabiliza os *logits* de atenção e é incorporado às escalas de desquantização durante a inferência; e (3) balanceamento do cabeçalho de saída, uma calibração de interface residual por camada que mitiga o desvio de energia pós-projeção. A estrutura não requer treinamento adicional, utiliza apenas um pequeno *buffer* de calibração não rotulado e suporta *kernels* inteiros para pesos e ativações de baixos *bits*, mantendo a arquitetura inalterada. Em modelos VLA representativos no benchmark LIBERO, o QuantVLA supera as taxas de sucesso de tarefas das linhas de base de precisão completa, alcança cerca de 70% de economia relativa de memória nos componentes quantizados e oferece uma aceleração de 1,22x na latência de inferência de ponta a ponta, fornecendo um caminho prático para inteligência corporificada escalável de baixos *bits* sob restrições rigorosas de computação, memória e energia.
Os Agentes de Pesquisa Profunda geram relatórios de nível analítico, mas a sua avaliação permanece um desafio devido à ausência de uma única verdade fundamental e à natureza multidimensional da qualidade da pesquisa. *Benchmarks* recentes propõem metodologias distintas, mas padecem da *Ilusão da Síntese*, onde uma forte fluência superficial e um alinhamento preciso com citações podem ocultar defeitos factuais e de raciocínio subjacentes. Caracterizamos esta lacuna introduzindo uma taxonomia em quatro verticais que expõe uma incompatibilidade crítica de capacidades: os avaliadores estáticos carecem inerentemente das capacidades de uso de ferramentas necessárias para avaliar a validade temporal e a correção factual. Para resolver isto, propomos o DREAM (*Deep Research Evaluation with Agentic Metrics*), uma estrutura que instancia o princípio da paridade de capacidades tornando a própria avaliação agentiva. O DREAM estrutura a avaliação através de um protocolo que combina métricas independentes de consulta com métricas adaptativas geradas por um agente com capacidade de usar ferramentas, permitindo uma cobertura consciente do tempo, verificação fundamentada e sondagens de raciocínio sistemáticas. Avaliações controladas demonstram que o DREAM é significativamente mais sensível ao decaimento factual e temporal do que os *benchmarks* existentes, oferecendo um paradigma de avaliação escalável e livre de referências.
Apesar dos recentes avanços nos modelos de difusão, as imagens geradas por IA ainda frequentemente contêm artefatos visuais que comprometem o realismo. Embora um pré-treinamento mais rigoroso e modelos maiores possam reduzir os artefatos, não há garantia de que eles possam ser completamente eliminados, o que torna a mitigação de artefatos uma área de estudo de alta importância. Metodologias anteriores conscientes dos artefatos dependem de conjuntos de dados de artefatos anotados manualmente, que são custosos e difíceis de escalar, ressaltando a necessidade de uma abordagem automatizada para adquirir de forma confiável conjuntos de dados anotados com artefatos. Neste artigo, propomos o ArtiAgent, que cria eficientemente pares de imagens reais e imagens com artefatos injetados. Ele compreende três agentes: um agente de percepção que reconhece e localiza entidades e subentidades em imagens reais, um agente de síntese que introduz artefatos por meio de ferramentas de injeção de artefatos através de uma nova manipulação de *embedding* em patches dentro de um transformador de difusão, e um agente de curadoria que filtra os artefatos sintetizados e gera explicações locais e globais para cada instância. Usando o ArtiAgent, sintetizamos 100 mil imagens com anotações ricas de artefatos e demonstramos tanto eficácia quanto versatilidade em diversas aplicações. O código está disponível em [link].
Os recentes avanços na programação assistida por IA capacitaram agentes para executar fluxos de trabalho complexos por meio de interfaces de linha de comando. No entanto, os benchmarks existentes são limitados por horizontes curtos de tarefas, contaminação de dados provenientes de scraping do GitHub e uma falta de métricas de avaliação refinadas, falhando em avaliar rigorosamente as capacidades de planejamento e execução de longo horizonte essenciais para a engenharia de software realista. Para abordar essas lacunas, introduzimos o LongCLI-Bench, um benchmark abrangente projetado para avaliar capacidades agentivas em tarefas realistas e de longo horizonte. Selecionamos 20 tarefas de alta qualidade e longo horizonte a partir de mais de 1.000 tarefas de ciência da computação e fluxos de trabalho do mundo real, abrangendo quatro categorias de engenharia: desenvolvimento do zero, adição de funcionalidades, correção de bugs e refatoração. Propomos um protocolo de teste de duplo conjunto para o LongCLI-Bench, que mede o cumprimento de requisitos (fail-to-pass) e a prevenção de regressões (pass-to-pass), e incorpora uma pontuação em nível de etapa para identificar falhas de execução. Experimentos extensivos revelam que mesmo os agentes mais avançados atingem taxas de aprovação abaixo de 20% no LongCLI-Bench. A análise em nível de etapa indica ainda que a maioria das tarefas estagna em menos de 30% de conclusão, destacando que falhas críticas frequentemente ocorrem nos estágios iniciais. Embora a autocorreção ofereça ganhos marginais, a colaboração humano-agente por meio de injeção de planos e orientação interativa resulta em melhorias significativamente maiores. Esses resultados destacam que pesquisas futuras devem enfatizar o desenvolvimento de fluxos de trabalho sinérgicos entre humanos e agentes, juntamente com avanços nas capacidades de planejamento e execução dos agentes, para superar os principais desafios no desempenho de tarefas de longo horizonte.
A maioria dos benchmarks de recomendação avaliam quão bem um modelo imita o comportamento do utilizador. No entanto, na consultoria financeira, as ações observadas podem ser ruidosas ou de curto prazo sob a volatilidade do mercado e podem conflituar com os objetivos de longo prazo de um utilizador. Portanto, tratar o que os utilizadores escolheram como a única verdade fundamental confunde a imitação comportamental com a qualidade da decisão. Apresentamos o Conv-FinRe, um benchmark conversacional e longitudinal para recomendação de ações que avalia os LLMs (Large Language Models) para além da correspondência comportamental. Dada uma entrevista inicial de integração, um contexto de mercado passo a passo e diálogos de consultoria, os modelos devem gerar classificações (rankings) ao longo de um horizonte de investimento fixo. Crucialmente, o Conv-FinRe fornece referências de múltiplas perspetivas que distinguem o comportamento descritivo da utilidade normativa, baseada nas preferências de risco específicas do investidor, permitindo diagnosticar se um LLM segue uma análise racional, imita o ruído do utilizador ou é impulsionado pelo momentum do mercado. Construímos o benchmark a partir de dados reais de mercado e trajetórias de decisão humanas, instanciamos conversas de consultoria controladas e avaliamos um conjunto de LLMs state-of-the-art. Os resultados revelam uma tensão persistente entre a qualidade da decisão racional e o alinhamento comportamental: os modelos que se saem bem na classificação baseada na utilidade frequentemente falham em corresponder às escolhas do utilizador, enquanto os modelos alinhados comportamentalmente podem sofrer de sobreajuste (overfitting) ao ruído de curto prazo. O conjunto de dados é disponibilizado publicamente no Hugging Face, e a base de código está disponível no GitHub.
Os agentes de LLM são cada vez mais esperados para funcionar como sistemas de propósito geral capazes de resolver solicitações abertas dos usuários. Embora os benchmarks existentes se concentrem em ambientes com conhecimento de domínio para desenvolver agentes especializados, a avaliação de agentes de propósito geral requer configurações mais realistas que os desafiem a operar em múltiplas habilidades e ferramentas dentro de um ambiente unificado. Apresentamos o General AgentBench, um benchmark que fornece essa estrutura unificada para avaliar agentes gerais de LLM nos domínios de pesquisa, codificação, raciocínio e uso de ferramentas. Usando o General AgentBench, estudamos sistematicamente os comportamentos de escalonamento em tempo de teste sob escalonamento sequencial (interação iterativa) e escalonamento paralelo (amostragem de múltiplas trajetórias). A avaliação de dez agentes de LLM líderes revela uma degradação substancial de desempenho ao passar de avaliações específicas de domínio para esta configuração de agente geral. Além disso, descobrimos que nenhuma metodologia de escalonamento produz melhorias efetivas de desempenho na prática, devido a duas limitações fundamentais: teto de contexto no escalonamento sequencial e lacuna de verificação no escalonamento paralelo. O código está publicamente disponível em https://github.com/cxcscmu/General-AgentBench.
A escala no momento do teste pode melhorar o desempenho do modelo através da agregação de trajetórias de raciocínio estocástico. No entanto, alcançar uma auto-consistência eficiente em termos de amostragem durante o teste sob um orçamento limitado permanece um desafio em aberto. Apresentamos o PETS (Principled and Efficient Test-Time Self-Consistency), que inicia um estudo fundamentado da alocação de trajetórias por meio de uma estrutura de otimização. Central à nossa abordagem é a taxa de auto-consistência, uma nova medida definida como o acordo com o voto majoritário de orçamento infinito. Esta formulação torna a alocação eficiente de amostras no momento do teste teoricamente fundamentada e passível de análise rigorosa. Estudamos ambos os contextos, offline e online. No regime offline, onde todas as questões são conhecidas antecipadamente, conectamos a alocação de trajetórias ao *crowdsourcing*, uma área clássica e bem desenvolvida, modelando os rastros de raciocínio como trabalhadores. Esta perspectiva permite-nos aproveitar a rica teoria existente, obtendo garantias teóricas e um algoritmo de alocação eficiente baseado em voto majoritário. No regime de streaming online, onde as questões chegam sequencialmente e as alocações devem ser feitas instantaneamente, propomos um novo método inspirado na estrutura offline. A nossa abordagem adapta os orçamentos à dificuldade da questão, preservando fortes garantias teóricas e eficiência computacional. Experiências mostram que o PETS supera consistentemente a alocação uniforme. No GPQA, o PETS alcança auto-consistência perfeita em ambos os contextos, enquanto reduz o orçamento de amostragem em até 75% (offline) e 55% (online) em relação à alocação uniforme. O código está disponível em https://github.com/ZDCSlab/PETS.
Os agentes de Modelos de Linguagem (LM) demonstraram capacidades notáveis na resolução de tarefas que exigem múltiplas interações com o ambiente. No entanto, eles permanecem vulneráveis em ambientes onde um único erro frequentemente leva a uma falha irrecuperável, particularmente sob restrições rigorosas de viabilidade. Analisamos sistematicamente as estruturas de agentes existentes, identificando o planeamento imperfeito e a execução estocástica como as causas primárias. Para enfrentar estes desafios, propomos o Planeamento Adaptativo Guiado por Ferramentas com Execução Restrita (TAPE). O TAPE melhora a capacidade de planeamento agregando múltiplos planos num grafo e empregando um solucionador externo para identificar um caminho viável. Durante a execução, o TAPE emprega descodificação restrita para reduzir o ruído de amostragem, enquanto replaneia adaptativamente sempre que o *feedback* ambiental se desvia do estado pretendido. Experiências realizadas em Sokoban, ALFWorld, MuSiQue e GSM8K-Hard demonstram que o TAPE supera consistentemente as estruturas existentes, com ganhos particularmente grandes em configurações difíceis, melhorando as taxas de sucesso em 21,0 pontos percentuais em média em configurações difíceis, e em 20,0 pontos percentuais para modelos base mais fracos em média. Código e dados disponíveis em [aqui].
Os Modelos de Linguagem de Grande Porte (LLMs) beneficiam consistentemente do raciocínio em cadeia de pensamento (CoT) em escala, mas também sofrem com uma pesada sobrecarga computacional. Para resolver este problema, o raciocínio eficiente visa incentivar trajetórias de pensamento curtas mas precisas, tipicamente através da modelagem de recompensas com Aprendizagem por Reforço (RL). Neste artigo, investigamos sistematicamente a mecânica do raciocínio eficiente para LLMs. Para uma avaliação abrangente, defendemos métricas mais refinadas, incluindo a distribuição de comprimento condicionada à correção e o desempenho ao longo de um amplo espectro de orçamentos de tokens, variando de 2k a 32k. Primeiro, revelamos que o processo de treinamento segue um paradigma de dois estágios: adaptação de comprimento e refinamento do raciocínio. Após isso, conduzimos extensivos experimentos (cerca de 0.2 milhões de horas de GPU) num protocolo unificado, desconstruindo *prompts* de treino e *rollouts*, modelagem de recompensas e estratégias de otimização. Em particular, uma descoberta fundamental é treinar com *prompts* relativamente mais fáceis, garantindo a densidade de sinais de recompensa positivos e, assim, evitando o colapso de comprimento. Entretanto, o viés de comprimento aprendido pode ser generalizado entre domínios. Destilamos todas as descobertas em perspetivas valiosas e diretrizes práticas, e validamo-las ainda na série Qwen3, desde 0.6B até 30B, demonstrando a robustez e a generalização.
Algoritmos de recuperação como BM25 e a verossimilhança da consulta com suavização de Dirichlet permanecem como rankers fortes e eficientes na primeira etapa, porém os avanços têm dependido principalmente do ajuste de parâmetros e da intuição humana. Investigamos se um modelo de linguagem de grande porte, orientado por um avaliador e por busca evolutiva, pode descobrir automaticamente algoritmos de recuperação lexical melhorados. Apresentamos o RankEvolve, uma configuração de evolução de programas baseada no AlphaEvolve, na qual os algoritmos de classificação candidatos são representados como código executável e iterativamente sofrem mutação, recombinação e seleção com base no desempenho de recuperação em 12 conjuntos de dados de RI do BEIR e do BRIGHT. O RankEvolve parte de dois programas iniciais: BM25 e a verossimilhança da consulta com suavização de Dirichlet. Os algoritmos evoluídos são novos, eficazes e mostram uma transferência promissora para os benchmarks completos do BEIR e do BRIGHT, bem como para o TREC DL 19 e 20. Nossos resultados sugerem que a evolução de programas por LLM guiada por um avaliador é um caminho prático para a descoberta automática de novos algoritmos de classificação.
Relatamos o desempenho do Aletheia (Feng et al., 2026b), um agente de pesquisa matemática baseado no Gemini 3 Deep Think, no desafio inaugural FirstProof. Dentro do prazo estipulado pelo desafio, o Aletheia resolveu autonomamente 6 problemas (2, 5, 7, 8, 9, 10) de um total de 10, de acordo com a avaliação da maioria dos especialistas; observamos que os especialistas não foram unânimes apenas em relação ao Problema 8. Para total transparência, explicamos nossa interpretação do FirstProof e divulgamos detalhes sobre nossos experimentos e nossa avaliação. Os *prompts* e resultados brutos estão disponíveis em https://github.com/google-deepmind/superhuman/tree/main/aletheia.
O processamento eficiente de sequências longas com modelos Transformer geralmente requer a divisão dos cálculos entre aceleradores por meio de paralelismo de contexto. As abordagens dominantes nesta família de métodos, como Ring Attention ou DeepSpeed Ulysses, permitem a escalabilidade na dimensão de contexto, mas não se concentram na eficiência de memória, o que limita os comprimentos de sequência que podem suportar. Técnicas mais avançadas, como o Transformer Distribuído Totalmente Pipeline ou o descarregamento de ativações, podem estender ainda mais o comprimento de contexto possível ao custo da taxa de transferência de treinamento. Neste artigo, apresentamos o UPipe, uma técnica de paralelismo de contexto simples, mas eficaz, que realiza um fracionamento de granularidade fina ao nível do cabeçalho de atenção. Esta técnica reduz significativamente o uso de memória de ativação da auto-atenção, quebrando a barreira de memória de ativação e permitindo comprimentos de contexto muito maiores. Nossa abordagem reduz o uso de memória dos tensores intermediários na camada de atenção em até 87,5% para Transformers de 32B, enquanto iguala as técnicas anteriores de paralelismo de contexto em termos de velocidade de treinamento. O UPipe pode suportar um comprimento de contexto de 5M de tokens ao treinar o Llama3-8B em um único nó 8×H100, superando os métodos anteriores em mais de 25%.
Os modelos de linguagem baseados em difusão discreta têm atraído amplo interesse devido ao seu potencial de oferecer geração mais rápida do que os modelos autoregressivos. Na prática, entretanto, eles exibem uma degradação acentuada da qualidade da amostra no regime de poucos passos, falhando em cumprir essa promessa. Aqui, mostramos que modelos de linguagem que utilizam desruídos contínuos baseados em fluxo podem superar a difusão discreta tanto em qualidade quanto em velocidade. Ao revisitar os fundamentos dos fluxos sobre modalidades discretas, construímos um modelo de linguagem baseado em fluxo (FLM) que realiza desruído Euclidiano sobre codificações one-hot de tokens. Demonstramos que o modelo pode ser treinado prevendo os dados limpos por meio de um objetivo de entropia cruzada, onde introduzimos uma simples reparametrização temporal que melhora significativamente a estabilidade do treinamento e a qualidade da geração. Ao destilar o FLM em seu mapa de fluxo associado, obtemos um modelo de linguagem de mapa de fluxo destilado (FMLM) capaz de geração em poucos passos. Nos conjuntos de dados linguísticos LM1B e OWT, o FLM atinge qualidade de geração equivalente aos modelos de difusão discreta de última geração. Com o FMLM, nossa abordagem supera modelos linguísticos recentes de poucos passos em todos os aspectos, com geração em um passo excedendo a qualidade de sua geração em 8 passos. Nosso trabalho questiona a hipótese amplamente difundida de que processos de difusão discretos são necessários para modelagem generativa sobre modalidades discretas, e abre caminho para a modelagem linguística baseada em fluxo acelerada em larga escala. O código está disponível em https://github.com/david3684/flm.
Os pedidos do mundo real dirigidos a agentes de IA são fundamentalmente subespecificados. A comunicação humana natural depende de um contexto partilhado e de restrições não declaradas que os falantes esperam que os ouvintes inferam. Os *benchmarks* atuais para agentes testam a capacidade de seguir instruções explícitas, mas não avaliam se os agentes conseguem raciocinar sobre requisitos implícitos que abrangem necessidades de acessibilidade, limites de privacidade, riscos catastróficos e restrições contextuais. Apresentamos a Inteligência Implícita, uma estrutura de avaliação que testa se os agentes de IA podem ir além da simples execução de *prompts* para se tornarem verdadeiros realizadores de objetivos, juntamente com o Agente-como-um-Mundo (AaW), uma plataforma onde mundos interativos são definidos em ficheiros YAML legíveis por humanos e simulados por modelos de linguagem. Os nossos cenários caracterizam-se por uma aparente simplicidade nos pedidos do utilizador, complexidade oculta nas soluções corretas e a possibilidade de descobrir restrições através da exploração do ambiente. Avaliando 16 modelos de ponta e de pesos abertos em 205 cenários, descobrimos que mesmo o modelo com melhor desempenho atinge apenas uma taxa de sucesso de 48,3% nos cenários, revelando um espaço substancial para melhorias na redução do fosso entre o seguimento literal de instruções e o raciocínio contextual semelhante ao humano.
Os LLMs incorporados conferem aos robôs raciocínio de alto nível para tarefas, mas não conseguem refletir sobre o que deu errado ou por quê, transformando a implantação em uma sequência de tentativas independentes onde os erros se repetem em vez de se acumularem como experiência. Inspirados nos profissionais reflexivos humanos, introduzimos o Planejamento Reflexivo em Tempo de Teste, que integra dois modos de reflexão: reflexão-em-ação, onde o agente usa escalonamento em tempo de teste para gerar e pontuar múltiplas ações candidatas usando reflexões internas antes da execução; e reflexão-sobre-ação, que usa treinamento em tempo de teste para atualizar tanto seu modelo de reflexão interno quanto sua política de ação com base em reflexões externas após a execução. Também incluímos a reflexão retrospectiva, permitindo que o agente reavalie decisões anteriores e realize atualizações do modelo com a vantagem do retrospecto para uma correta atribuição de crédito de longo prazo. Experimentos em nosso novo benchmark Long-Horizon Household e no benchmark MuJoCo Cupboard Fitting mostram ganhos significativos em relação aos modelos de base, com estudos ablativos validando os papéis complementares da reflexão-em-ação e da reflexão-sobre-ação. Análises qualitativas, incluindo testes com robôs reais, destacam a correção comportamental por meio da reflexão.
Os tokenizadores discretos de imagens emergiram como um componente fundamental dos sistemas modernos de visão e multimodais, fornecendo uma interface sequencial para arquiteturas baseadas em transformers. No entanto, a maioria das abordagens existentes permanecem otimizadas principalmente para reconstrução e compressão, frequentemente produzindo tokens que capturam texturas locais em vez da estrutura semântica em nível de objeto. Inspirados pela natureza incremental e composicional da comunicação humana, introduzimos a Tokenização Inspirada em COMunicação (COMiT), uma estrutura para aprender sequências discretas de tokens visuais estruturadas. A COMiT constrói uma mensagem latente dentro de um orçamento fixo de tokens ao observar iterativamente recortes de imagem localizados e atualizar recorrentemente sua representação discreta. A cada passo, o modelo integra novas informações visuais enquanto refina e reorganiza a sequência de tokens existente. Após várias iterações de codificação, a mensagem final condiciona um decodificador de correspondência de fluxo que reconstrói a imagem completa. Tanto a codificação quanto a decodificação são implementadas dentro de um único modelo transformer e treinadas de ponta a ponta usando uma combinação de perdas de reconstrução por correspondência de fluxo e de alinhamento de representação semântica. Nossos experimentos demonstram que, embora o alinhamento semântico forneça fundamentação, a tokenização sequencial atenciosa é crítica para induzir uma estrutura de tokens interpretável e centrada em objetos, melhorando substancialmente a generalização composicional e o raciocínio relacional em relação a métodos anteriores.
A previsão do tempo de permanência de contentores de importação (ICDT) é uma tarefa fundamental para melhorar a produtividade nos terminais de contentores, uma vez que previsões precisas permitem reduzir as operações de re-manuseamento de contentores por gruas de pátio. Atingir este objetivo requer a previsão precisa do tempo de permanência de contentores individuais. No entanto, os principais determinantes do tempo de permanência - informações do proprietário e informações da carga - são registados como texto não estruturado, o que limita o seu uso eficaz em modelos de aprendizagem automática. Este estudo aborda esta limitação propondo uma estrutura colaborativa que integra inteligência artificial generativa (Gen AI) com aprendizagem automática. A estrutura proposta emprega Gen AI para padronizar informações não estruturadas em códigos internacionais padrão, com re-previsão dinâmica acionada por atualizações de estado de intercâmbio eletrónico de dados, permitindo que o modelo de aprendizagem automática preveja o ICDT com precisão. Experiências extensivas realizadas com dados reais de terminais de contentores demonstram que a metodologia proposta alcança uma melhoria de 13,88% no erro absoluto médio em comparação com modelos convencionais que não utilizam informações padronizadas. Além disso, a aplicação das previsões melhoradas nas estratégias de empilhamento de contentores consegue até 14,68% de redução no número de relocalizações, validando empiricamente o potencial da Gen AI para aumentar a produtividade nas operações de terminais de contentores. Globalmente, este estudo fornece insights técnicos e metodológicos sobre a adoção da Gen AI na logística portuária e a sua eficácia.
A modelagem do movimento espinhal é fundamental para a compreensão da biomecânica humana, mas continua pouco explorada na visão computacional devido à complexa cinemática multiarticular da coluna vertebral e à falta de anotações 3D em larga escala. Apresentamos uma estrutura de simulação de pontos-chave consciente da biomecânica que amplia conjuntos de dados de postura humana existentes com pontos-chave espinhais 3D anatomicamente consistentes, derivados da modelagem musculoesquelética. Utilizando esta estrutura, criamos o primeiro conjunto de dados aberto, denominado SIMSPINE, que fornece anotações espinhais 3D esparsas a nível vertebral para movimentos naturais de corpo inteiro em captura multi-câmara em ambientes internos sem restrições externas. Com 2,14 milhões de quadros, isto possibilita a aprendizagem orientada a dados da cinemática vertebral a partir de variações subtis de postura e preenche a lacuna entre a simulação musculoesquelética e a visão computacional. Adicionalmente, disponibilizamos linhas de base pré-treinadas que abrangem detectores 2D afinados, modelos de elevação de postura 3D monoculares e pipelines de reconstrução multi-vista, estabelecendo um benchmark unificado para a estimativa de movimento espinhal biomecanicamente válida. Especificamente, as nossas linhas de base 2D para a coluna melhoram o estado da arte de 0,63 para 0,80 AUC em ambientes controlados, e de 0,91 para 0,93 AP para o rastreamento espinhal em condições naturais. Em conjunto, a estrutura de simulação e o conjunto de dados SIMSPINE avançam a investigação em biomecânica baseada em visão, análise de movimento e modelagem digital humana, ao permitir uma estimativa espinhal 3D reproduzível e anatomicamente fundamentada sob condições naturais.
Os modelos de difusão discreta de estado uniforme destacam-se na geração e orientação com poucos passos devido à sua capacidade de autocorreção, tornando-os preferíveis aos modelos autoregressivos ou de difusão mascarada nestes contextos. No entanto, a sua qualidade de amostragem estabiliza com amostradores ancestrais à medida que o número de passos aumenta. Introduzimos uma família de amostradores Preditor-Corretor (PC) para difusão discreta que generaliza métodos anteriores e se aplica a processos de ruído arbitrários. Quando emparelhados com difusão de estado uniforme, os nossos amostradores superam a amostragem ancestral tanto na modelação de linguagem como de imagem, alcançando menor perplexidade generativa com entropia unigramática equivalente no OpenWebText e melhores pontuações FID/IS no CIFAR10. Crucialmente, ao contrário dos amostradores convencionais, os nossos métodos PC continuam a melhorar com mais passos de amostragem. Em conjunto, estes resultados questionam a suposição de que a difusão mascarada é o futuro inevitável da modelação de linguagem baseada em difusão. Para além da amostragem, desenvolvemos um currículo eficiente em memória para a fase de treino de relaxamento gaussiano, reduzindo o tempo de treino em 25% e a memória em 33% em comparação com o Duo, mantendo perplexidade comparável no OpenWebText e LM1B e forte desempenho em tarefas downstream. Disponibilizamos código, *checkpoints* e um tutorial em vídeo em: https://s-sahoo.com/duo-ch2
A reconhecimento óptico de caracteres (OCR) avançou rapidamente com o aprendizado profundo e modelos multimodais, porém a maioria dos métodos concentra-se em escritas de idiomas com muitos recursos, como o latim e o chinês. As línguas de minorias étnicas permanecem pouco exploradas devido a sistemas de escrita complexos, anotações escassas e formas históricas e modernas diversificadas, tornando a generalização em cenários de poucos recursos ou *zero-shot* um desafio. Para enfrentar esses desafios, apresentamos o OmniOCR, uma estrutura universal para escritas de minorias étnicas. O OmniOCR introduz a Adaptação Dinâmica de Baixa *Rank* (Dynamic LoRA) para alocar a capacidade do modelo entre camadas e escritas, permitindo uma adaptação eficaz enquanto preserva o conhecimento. Uma regularização de esparsidade poda atualizações redundantes, garantindo uma adaptação compacta e eficiente sem custo adicional de inferência. Avaliações no TibetanMNIST, Shui, Yi antigo e Dongba mostram que o OmniOCR supera modelos de base *zero-shot* e o pós-treinamento padrão, alcançando precisão de última geração com superior eficiência de parâmetros e, em comparação com os modelos de base mais avançados, melhora a precisão em 39% a 66% nestes quatro conjuntos de dados. Código: https://github.com/AIGeeksGroup/OmniOCR.
Os Grandes Modelos de Visão e Linguagem (VLMs) têm demonstrado potencial significativo em tarefas complexas de compreensão visual por meio de métodos de otimização iterativa. No entanto, esses modelos geralmente carecem de mecanismos eficazes de autocorreção, dificultando a correção independente de vieses cognitivos. Consequentemente, durante revisões em múltiplas etapas, eles frequentemente caem em tentativas repetitivas e ineficazes, falhando em alcançar melhorias estáveis na qualidade das respostas. Para resolver esse problema, propomos uma nova estrutura de autocorreção iterativa que confere aos modelos duas capacidades principais: Reflexão de Capacidade e Reflexão de Memória. Essa estrutura orienta o modelo a primeiro diagnosticar erros e gerar um plano de correção via Reflexão de Capacidade, depois utilizar a Reflexão de Memória para revisar tentativas passadas a fim de evitar repetições e explorar novas soluções, e finalmente, otimizar a resposta por meio de um reraciocínio rigoroso. Experimentos no desafiador benchmark OCRBench v2 mostram que o OCR-Agent supera o atual modelo SOTA de código aberto InternVL3-8B em +2,0 no subconjunto em inglês e +1,2 no subconjunto em chinês, enquanto alcança resultados state-of-the-art em Compreensão Visual (79,9) e Raciocínio (66,5) - superando até mesmo modelos maiores com ajuste fino. Nosso método demonstra que a reflexão estruturada e autoconsciente pode melhorar significativamente a robustez do raciocínio dos VLMs sem treinamento adicional. Código: https://github.com/AIGeeksGroup/OCR-Agent.
A anonimização de documentos textuais é um problema altamente dependente do contexto: o equilíbrio adequado entre a proteção da privacidade e a preservação da utilidade varia conforme o domínio dos dados, os objetivos de privacidade e a aplicação subsequente. No entanto, os métodos de anonimização existentes baseiam-se em estratégias estáticas, concebidas manualmente, que carecem da flexibilidade necessária para se adaptarem a requisitos diversos e frequentemente falham em generalizar entre domínios. Introduzimos a anonimização de texto adaptativa, uma nova formulação de tarefa na qual as estratégias de anonimização são automaticamente adaptadas a requisitos específicos de privacidade e utilidade. Propomos um quadro de otimização de *prompts* específico da tarefa que constrói automaticamente instruções de anonimização para modelos de linguagem, permitindo a adaptação a diferentes objetivos de privacidade, domínios e padrões de utilização subsequente. Para avaliar a nossa abordagem, apresentamos um *benchmark* que abrange cinco conjuntos de dados com domínios, restrições de privacidade e objetivos de utilidade diversos. Em todos os cenários avaliados, o nosso quadro alcança consistentemente um melhor equilíbrio entre privacidade e utilidade do que as linhas de base existentes, mantendo-se computacionalmente eficiente e eficaz em modelos de linguagem de código aberto, com um desempenho comparável a modelos maiores de código fechado. Adicionalmente, demonstramos que o nosso método pode descobrir novas estratégias de anonimização que exploram diferentes pontos ao longo da fronteira de equilíbrio entre privacidade e utilidade.
A Renderização Visual de Texto (VTR) continua a ser um desafio crítico na geração de imagens a partir de texto, onde mesmo modelos avançados produzem frequentemente texto com anomalias estruturais, como distorção, desfoque e desalinhamento. No entanto, verificamos que os principais MLLMs e modelos especializados de OCR falham amplamente em perceber estas anomalias estruturais, criando um gargalo crítico tanto para a avaliação de VTR como para a otimização baseada em RL. Consequentemente, mesmo os geradores de última geração (por exemplo, SeedDream4.0, Qwen-Image) ainda lutam para renderizar texto estruturalmente fiel. Para resolver isto, propomos o TextPecker, uma estratégia de RL plug-and-play, percetiva a anomalias estruturais, que mitiga sinais de recompensa ruidosos e funciona com qualquer gerador de texto para imagem. Para permitir esta capacidade, construímos um conjunto de dados de reconhecimento com anotações de anomalias estruturais a nível de caráter e desenvolvemos um motor de síntese por edição de traços para expandir a cobertura de erros estruturais. Experiências mostram que o TextPecker melhora consistentemente diversos modelos de texto para imagem; mesmo no já bem otimizado Qwen-Image, produz ganhos médios significativos de 4% na fidelidade estrutural e 8.7% no alinhamento semântico para a renderização de texto em chinês, estabelecendo um novo estado da arte em VTR de alta fidelidade. O nosso trabalho preenche uma lacuna na otimização de VTR, fornecendo um passo fundamental para uma geração visual de texto fiável e estruturalmente fiel.
Este artigo apresenta o LaS-Comp, uma abordagem *zero-shot* e agnóstica a categorias que aproveita os ricos *priors* geométricos de modelos de base (*foundation models*) 3D para permitir a completação de formas 3D em diversos tipos de observações parciais. Nossas contribuições são triplas: Primeiro, o método aproveita esses poderosos *priors* generativos para completação por meio de um design complementar em dois estágios: (i) um estágio de substituição explícita que preserva a geometria da observação parcial para garantir uma completação fiel; e (ii) um estágio de refinamento implícito que garante limites perfeitos entre as regiões observadas e as sintetizadas. Segundo, nossa estrutura é livre de treinamento (*training-free*) e compatível com diferentes modelos de base 3D. Terceiro, introduzimos o Omni-Comp, um *benchmark* abrangente que combina dados do mundo real e sintéticos com padrões parciais diversos e desafiadores, permitindo uma avaliação mais completa e realista. Experimentos quantitativos e qualitativos demonstram que nossa abordagem supera as abordagens anteriores state-of-the-art. Nosso código e dados estarão disponíveis em https://github.com/DavidYan2001/LaS-Comp{LaS-Comp}.
A crescente demanda por modelos de linguagem de grande porte (LLMs) exige que os sistemas de atendimento lidem com muitos pedidos simultâneos com diversos objetivos de nível de serviço (SLOs). Isso exacerba o bloqueio de cabeça-de-linha (HoL) durante a fase computacionalmente intensiva de pré-preenchimento, onde pedidos de longa duração monopolizam recursos e atrasam aqueles de maior prioridade, levando a violações generalizadas dos SLOs de tempo-para-primeiro-*token* (TTFT). Embora o pré-preenchimento em blocos (*chunked prefill*) permita interrupção, ele introduz uma compensação inerente entre responsividade e taxa de transferência: reduzir o tamanho do bloco melhora a latência de resposta, mas degrada a eficiência computacional, enquanto aumentar o tamanho do bloco maximiza a taxa de transferência, mas exacerba o bloqueio. Isso torna necessário um mecanismo de preempção adaptativo. No entanto, equilibrar dinamicamente a granularidade da execução com as sobrecargas de escalonamento permanece um desafio fundamental. Neste artigo, propomos o FlowPrefill, um sistema de atendimento otimizado para TTFT e *goodput* que resolve este conflito ao desacoplar a granularidade da preempção da frequência de escalonamento. Para alcançar um escalonamento de pré-preenchimento adaptativo, o FlowPrefill introduz duas inovações principais: 1) **Preempção a Nível de Operador**, que aproveita os limites dos operadores para permitir a interrupção de execução de granularidade fina sem a perda de eficiência associada ao fracionamento fixo em blocos pequenos; e 2) **Escalonamento Orientado a Eventos**, que aciona decisões de escalonamento apenas mediante eventos de chegada ou conclusão de pedidos, suportando assim uma preempção responsiva eficiente enquanto minimiza a sobrecarga do plano de controle. A avaliação em *traces* de produção do mundo real mostra que o FlowPrefill melhora o *goodput* máximo em até 5,6 vezes em comparação com sistemas de última geração, enquanto satisfaz SLOs heterogêneos.
A detecção de dados de treinamento de LLMs é geralmente enquadrada como um problema de ataque de inferência de associação (MIA). No entanto, os MIAs convencionais operam passivamente em pesos de modelo fixos, utilizando log-verossimilhanças ou gerações de texto. Neste trabalho, introduzimos o Ataque de Reconstrução Ativa de Dados (ADRA), uma família de MIAs que induz ativamente um modelo a reconstruir um determinado texto por meio do treinamento. Nossa hipótese é que os dados de treinamento são mais reconstruíveis do que os não-membros, e a diferença em sua reconstruibilidade pode ser explorada para inferência de associação. Motivados por descobertas de que o aprendizado por reforço (RL) aguça comportamentos já codificados nos pesos, aproveitamos o RL *on-policy* para eliciar ativamente a reconstrução de dados através do ajuste fino de uma política inicializada a partir do modelo alvo. Para usar o RL de forma eficaz em MIAs, projetamos métricas de reconstrução e recompensas contrastivas. Os algoritmos resultantes, ADRA e sua variante adaptativa ADRA+, melhoram tanto a reconstrução quanto a detecção, dada uma pool de dados candidatos. Experimentos mostram que nossos métodos superam consistentemente os MIAs existentes na detecção de dados de pré-treinamento, pós-treinamento e de destilação, com uma melhoria média de 10,7\% em relação ao vice-campeão anterior. Em particular, o \MethodPlus~supera o Min-K\%++ em 18,8\% no BookMIA para detecção de pré-treinamento e em 7,6\% no AIME para detecção de pós-treinamento.