Artigos de pesquisa em IA selecionados diariamente com traduções
Em cenários reais de resposta a perguntas baseadas em vídeo, os vídeos frequentemente fornecem apenas pistas visuais localizadas, enquanto as respostas verificáveis estão distribuídas pela web aberta; os modelos precisam, portanto, realizar conjuntamente extração de pistas entre frames, recuperação iterativa e verificação baseada em raciocínio multietapas. Para preencher essa lacuna, construímos o primeiro benchmark de pesquisa aprofundada em vídeo, o VideoDR. O VideoDR concentra-se na resposta a perguntas de domínio aberto condicionadas a vídeo, exigindo extração de âncoras visuais entre frames, recuperação web interativa e raciocínio multietapas sobre evidências conjuntas vídeo-web; por meio de rigorosa anotação humana e controle de qualidade, obtivemos amostras de alta qualidade de pesquisa aprofundada em vídeo abrangendo seis domínios semânticos. Avaliamos múltiplos modelos de linguagem grandes multimodais de código fechado e aberto sob os paradigmas de Fluxo de Trabalho e Agência, e os resultados mostram que a Abordagem Agência não é consistentemente superior ao Fluxo de Trabalho: seus ganhos dependem da capacidade do modelo em manter as âncoras visuais iniciais ao longo de longas cadeias de recuperação. Análises adicionais indicam que o desvio de objetivo e a consistência de longo horizonte são os gargalos centrais. Em suma, o VideoDR fornece um benchmark sistemático para estudar agentes de vídeo em configurações de web aberta e revela os desafios fundamentais para a próxima geração de agentes de pesquisa aprofundada em vídeo.
Embora os seres humanos desenvolvam competências visuais fundamentais muito antes de adquirir linguagem, os modelos de linguagem multimodal (MLLMs) contemporâneos ainda dependem fortemente de conhecimentos linguísticos prévios para compensar a sua frágil compreensão visual. Descobrimos um facto crucial: os MLLMs mais avançados falham consistentemente em tarefas visuais básicas que os seres humanos, mesmo crianças de 3 anos, resolvem sem esforço. Para investigar sistematicamente esta lacuna, introduzimos o BabyVision, um benchmark concebido para avaliar capacidades visuais fundamentais, independentes do conhecimento linguístico, em MLLMs. O BabyVision abrange uma vasta gama de tarefas, com 388 itens divididos em 22 subclasses em quatro categorias-chave. Resultados empíricos e avaliação humana revelam que os principais MLLMs têm um desempenho significativamente abaixo dos valores de referência humanos. O Gemini3-Pro-Preview obtém uma pontuação de 49.7, ficando atrás de humanos de 6 anos e muito abaixo da pontuação média adulta de 94.1. Estes resultados mostram que, apesar de se destacarem em avaliações que exigem muito conhecimento, os MLLMs atuais ainda carecem de primitivas visuais fundamentais. O progresso no BabyVision representa um passo em direção a capacidades de perceção e raciocínio visual de nível humano. Exploramos também a resolução de raciocínio visual com modelos de geração, propondo o BabyVision-Gen e um kit de ferramentas de avaliação automática. O nosso código e dados de benchmark estão disponíveis em https://github.com/UniPat-AI/BabyVision para reprodução.
Apresentamos o Raciocínio Coordenado Paralelo (PaCoRe), uma estrutura de treinamento e inferência projetada para superar uma limitação central dos modelos de linguagem contemporâneos: sua incapacidade de escalar o cálculo em tempo de teste (TTC) muito além do raciocínio sequencial sob uma janela de contexto fixa. O PaCoRe afasta-se do paradigma sequencial tradicional ao direcionar o TTC por meio de uma exploração maciçamente paralela, coordenada via uma arquitetura de passagem de mensagens em múltiplas rodadas. Cada rodada lança várias trajetórias de raciocínio paralelas, compacta suas descobertas em mensagens limitadas pelo contexto e sintetiza essas mensagens para orientar a próxima rodada e, por fim, produzir a resposta final. Treinado de ponta a ponta com aprendizado por reforço em larga escala baseado em resultados, o modelo domina as habilidades de síntese exigidas pelo PaCoRe e escala para um TTC efetivo de múltiplos milhões de *tokens* sem exceder os limites de contexto. A abordagem produz melhorias significativas em diversos domínios e, notavelmente, leva o raciocínio além dos sistemas de fronteira em matemática: um modelo de 8B atinge 94,5% no HMMT 2025, superando os 93,2% do GPT-5 ao escalar o TTC efetivo para aproximadamente dois milhões de *tokens*. Disponibilizamos publicamente *checkpoints* do modelo, dados de treinamento e o *pipeline* completo de inferência para acelerar trabalhos subsequentes.
Embora a arquitetura Transformer domine muitos campos, sua complexidade quadrática de autoatenção dificulta seu uso em aplicações em larga escala. A atenção linear oferece uma alternativa eficiente, mas sua aplicação direta frequentemente degrada o desempenho, com as correções existentes normalmente reintroduzindo sobrecarga computacional por meio de módulos extras (por exemplo, convolução separável em profundidade) que frustram o objetivo original. Neste trabalho, identificamos um modo de falha fundamental nesses métodos: o colapso do contexto global, onde o modelo perde diversidade representacional. Para resolver isso, propomos a Atenção Linear Multi-Cabeça (MHLA), que preserva essa diversidade ao calcular a atenção dentro de cabeças divididas ao longo da dimensão do *token*. Demonstramos que a MHLA mantém complexidade linear enquanto recupera grande parte do poder expressivo da atenção *softmax*, e comprovamos sua eficácia em múltiplos domínios, alcançando uma melhoria de 3,6% na classificação do ImageNet, um ganho de 6,3% em PLN, uma melhoria de 12,6% na geração de imagens e um aprimoramento de 41% na geração de vídeo sob a mesma complexidade temporal.
A programação competitiva apresenta grandes desafios para os LLMs de código devido às suas exigências intensivas de raciocínio e alta complexidade lógica. No entanto, os LLMs de código atuais ainda dependem fortemente de dados do mundo real, o que limita sua escalabilidade. Neste artigo, exploramos uma abordagem totalmente sintética: treinar LLMs de código com tarefas, soluções e casos de teste inteiramente gerados, para capacitar modelos de raciocínio em código sem depender de dados do mundo real. Para viabilizar isso, utilizamos uma síntese baseada em características para propor um novo *pipeline* de síntese de dados chamado SynthSmith. O SynthSmith demonstra um forte potencial na produção de tarefas diversas e desafiadoras, juntamente com soluções e testes verificados, suportando tanto o ajuste fino supervisionado (*Supervised Fine-Tuning - SFT*) quanto o aprendizado por reforço (*Reinforcement Learning - RL*). Com base nos conjuntos de dados sintéticos SFT e RL propostos, introduzimos a série de modelos X-Coder, que atinge uma taxa de acerto notável de 62,9 avg@8 no LiveCodeBench v5 e 55,8 no v6, superando o DeepCoder-14B-Preview e o AReal-boba2-14B apesar de possuir apenas 7 bilhões de parâmetros. Uma análise detalhada revela que as leis de escalonamento (*scaling laws*) se mantêm em nosso conjunto de dados sintético, e exploramos quais dimensões são mais eficazes para escalonar. Adicionalmente, fornecemos insights sobre o aprendizado por reforço centrado em código e destacamos os fatores-chave que moldam o desempenho por meio de ablações e análises detalhadas. Nossas descobertas demonstram que escalonar dados sintéticos de alta qualidade e adotar um treinamento em etapas pode avançar significativamente o raciocínio em código, ao mesmo tempo que mitiga a dependência de dados de codificação do mundo real.
Os recentes avanços em modelos de raciocínio e sistemas de IA agentes levaram a uma maior dependência de informações externas diversas. No entanto, esta mudança introduz contextos de entrada que são inerentemente ruidosos, uma realidade que os *benchmarks* atuais, excessivamente sanitizados, não conseguem capturar. Apresentamos o NoisyBench, um *benchmark* abrangente que avalia sistematicamente a robustez dos modelos em 11 conjuntos de dados em tarefas de RAG, raciocínio, alinhamento e uso de ferramentas contra diversos tipos de ruído, incluindo documentos aleatórios, históricos de conversa irrelevantes e *distractors* negativos difíceis. Nossa avaliação revela uma queda catastrófica de desempenho de até 80% em modelos de última geração quando confrontados com *distractors* contextuais. Crucialmente, descobrimos que os fluxos de trabalho agentes frequentemente amplificam esses erros ao confiar excessivamente em saídas ruidosas de ferramentas, e os *distractors* podem desencadear um desalinhamento emergente mesmo sem intenção adversária. Verificamos que o *prompting*, a engenharia de contexto, o Fine-Tuning Supervisionado (SFT) e o RL com recompensa baseada apenas no resultado falham em garantir robustez; em contraste, nossa Recompensa Baseada em Raciocínio (RARE) proposta fortalece significativamente a resiliência ao incentivar a identificação de informações úteis no ruído. Por fim, descobrimos uma tendência de escalonamento inverso em que o aumento da computação em tempo de teste leva a um pior desempenho em ambientes ruidosos e demonstramos, por meio da visualização de atenção, que os modelos se concentram desproporcionalmente em *tokens* de distração, fornecendo insights vitais para a construção da próxima geração de agentes robustos e com capacidade de raciocínio.
Os Grandes Modelos de Raciocínio (LRMs) alcançam desempenho notável ao gerar explicitamente cadeias de pensamento de múltiplos passos, mas essa capacidade incorre em latência de inferência e custo computacional substanciais. A inferência colaborativa oferece uma solução promissora ao alocar seletivamente o trabalho entre modelos leves e grandes, mas um desafio fundamental permanece: determinar quando uma etapa de raciocínio exige a capacidade de um modelo grande ou a eficiência de um modelo pequeno. As estratégias de roteamento existentes dependem de probabilidades locais de tokens ou de verificação a posteriori, introduzindo sobrecarga significativa de inferência. Neste trabalho, propomos uma nova perspectiva sobre a colaboração passo a passo: a dificuldade de uma etapa de raciocínio pode ser inferida a partir do seu primeiro token. Inspirados pelo fenômeno do "Momento Eureka" nos LRMs, mostramos que a entropia do token inicial serve como um forte preditor da dificuldade da etapa. Com base nessa percepção, introduzimos o GlimpRouter, uma estrutura de colaboração passo a passo sem necessidade de treinamento. O GlimpRouter emprega um modelo leve para gerar apenas o primeiro token de cada etapa de raciocínio e encaminha a etapa para um modelo maior apenas quando a entropia do token inicial excede um limite. Experimentos em múltiplos benchmarks demonstram que nossa abordagem reduz significativamente a latência de inferência enquanto preserva a precisão. Por exemplo, o GlimpRouter atinge uma melhoria substancial de 10,7% na precisão enquanto reduz a latência de inferência em 25,9% em comparação com um modelo grande independente no AIME25. Esses resultados sugerem um mecanismo simples, porém eficaz, para o raciocínio: alocar computação com base em um vislumbre do pensamento, em vez de uma avaliação da etapa completa.
Embora os Modelos de Visão e Linguagem (VLMs) tenham avançado significativamente os Agentes de Uso de Computador (CUAs), as estruturas atuais lutam com a robustez em fluxos de trabalho de longo horizonte e a generalização em domínios novos. Essas limitações decorrem da falta de controle granular sobre a curadoria do contexto visual histórico e da ausência de recuperação de tutoriais visualmente consciente. Para preencher essas lacunas, introduzimos o OS-Symphony, uma estrutura holística que compreende um Orchestrator que coordena duas inovações-chave para automação robusta: (1) um Agente de Reflexão-Memória que utiliza memória de longo prazo orientada por marcos para permitir a autocorreção a nível de trajetória, mitigando efetivamente a perda de contexto visual em tarefas de longo horizonte; (2) Agentes de Ferramentas Versáteis que apresentam um Pesquisador Multimodal que adota um paradigma SeeAct para navegar em um ambiente restrito baseado em navegador e sintetizar tutoriais dinâmicos e visualmente alinhados, resolvendo assim problemas de fidelidade em cenários não vistos. Resultados experimentais demonstram que o OS-Symphony proporciona ganhos substanciais de desempenho em várias escalas de modelo, estabelecendo novos resultados state-of-the-art em três benchmarks online, notavelmente alcançando 65,84% no OSWorld.
Os Modelos de Linguagem de Difusão (DLMs) oferecem uma alternativa promissora para a modelagem de linguagem ao permitir decodificação paralela por meio de refinamento iterativo. No entanto, a maioria dos DLMs depende de mascaramento binário rígido e atribuições discretas de tokens, o que dificulta a revisão de decisões iniciais e subutiliza representações probabilísticas intermediárias. Neste artigo, propomos o EvoToken-DLM, uma nova abordagem de modelagem de linguagem baseada em difusão que substitui máscaras binárias rígidas por distribuições suaves de tokens em evolução. O EvoToken-DLM permite uma transição progressiva de estados mascarados para saídas discretas, suportando decodificação revisável. Para apoiar eficazmente esta evolução, introduzimos supervisão contínua de trajetória, que alinha os objetivos de treinamento com atualizações probabilísticas iterativas. Experimentos extensos em múltiplos benchmarks mostram que o EvoToken-DLM alcança consistentemente desempenho superior, superando bases de comparação robustas baseadas em difusão e DLMs mascarados. Página do projeto: https://aim-uofa.github.io/EvoTokenDLM.
O rápido desenvolvimento de sistemas de IA interativos e autônomos sinaliza nossa entrada na era agentiva. O treinamento e a avaliação de agentes em tarefas agentivas complexas, como engenharia de software e uso de computador, exigem não apenas computação eficiente de modelos, mas também infraestrutura sofisticada capaz de coordenar vastas interações agente-ambiente. No entanto, nenhuma infraestrutura de código aberto pode apoiar efetivamente o treinamento e a avaliação em larga escala para tais tarefas agentivas complexas. Para enfrentar esse desafio, apresentamos o MegaFlow, um sistema de orquestração distribuído em larga escala que permite o agendamento eficiente, a alocação de recursos e o gerenciamento granular de tarefas para cargas de trabalho agente-ambiente. O MegaFlow abstrai a infraestrutura de treinamento de agentes em três serviços independentes (Serviço de Modelo, Serviço de Agente e Serviço de Ambiente) que interagem por meio de interfaces unificadas, permitindo dimensionamento independente e alocação flexível de recursos em diversas configurações agente-ambiente. Em nossas implantações de treinamento de agentes, o MegaFlow orquestra com sucesso dezenas de milhares de tarefas de agente simultâneas, mantendo alta estabilidade do sistema e alcançando utilização eficiente de recursos. Ao possibilitar esse treinamento de agentes em larga escala, o MegaFlow aborda uma lacuna crítica de infraestrutura no cenário emergente da IA agentiva.
Com o aumento do uso de agentes baseados em LLM em interações de longo prazo, a memória cumulativa é fundamental para permitir a personalização e manter a consistência estilística. No entanto, a maioria dos sistemas existentes adota uma abordagem de "tudo ou nada" para o uso da memória: incorporar todas as informações passadas relevantes pode levar à Ancoragem de Memória, onde o agente fica preso a interações passadas, enquanto excluir completamente a memória resulta em subutilização e na perda do histórico importante de interações. Mostramos que a dependência de memória de um agente pode ser modelada como uma dimensão explícita e controlável pelo utilizador. Primeiro, introduzimos uma métrica comportamental de dependência de memória para quantificar a influência das interações passadas nas saídas atuais. Em seguida, propomos o Agente de Memória Orientável, SteeM, uma estrutura que permite aos utilizadores regular dinamicamente a dependência da memória, variando de um modo de reinício que promove a inovação até um modo de alta fidelidade que segue de perto o histórico de interações. Experiências em diferentes cenários demonstram que a nossa abordagem supera consistentemente as estratégias convencionais de *prompting* e de mascaramento rígido de memória, proporcionando um controlo mais subtil e eficaz para a colaboração personalizada entre humanos e agentes.
À medida que a obtenção de dados de alta qualidade se torna cada vez mais difícil, a auto-evolução sem dados emergiu como um paradigma promissor. Esta abordagem permite que os grandes modelos de linguagem (LLMs) gerem e resolvam problemas complexos de forma autónoma, melhorando assim as suas capacidades de raciocínio. No entanto, os agentes de busca multi-turno enfrentam dificuldades na auto-evolução sem dados devido à diversidade limitada de perguntas e ao substancial poder computacional necessário para o raciocínio multi-etapa e a utilização de ferramentas. Neste trabalho, apresentamos o Dr. Zero, uma estrutura que permite aos agentes de busca auto-evoluírem eficazmente sem quaisquer dados de treino. Em particular, concebemos um ciclo de feedback de auto-evolução no qual um proponente gera perguntas diversificadas para treinar um resolvedor inicializado a partir do mesmo modelo base. À medida que o resolvedor evolui, incentiva o proponente a produzir tarefas progressivamente mais difíceis, mas ainda solucionáveis, estabelecendo assim um currículo automatizado para aperfeiçoar ambos os agentes. Para melhorar a eficiência do treino, introduzimos também a otimização de política relativa agrupada por saltos (HRPO). Este método agrupa perguntas estruturalmente semelhantes para construir linhas de base a nível de grupo, minimizando eficazmente a sobrecarga de amostragem na avaliação da dificuldade e solucionabilidade individuais de cada consulta. Consequentemente, a HRPO reduz significativamente os requisitos computacionais para o treino do resolvedor sem comprometer o desempenho ou a estabilidade. Resultados experimentais extensivos demonstram que o Dr. Zero sem dados iguala ou supera os agentes de busca totalmente supervisionados, provando que capacidades complexas de raciocínio e busca podem emergir apenas através da auto-evolução.
Os modelos de geração de vídeo, enquanto uma forma de modelos de mundo, emergiram como uma das fronteiras mais empolgantes da IA, prometendo aos agentes a capacidade de imaginar o futuro através da modelagem da evolução temporal de cenas complexas. Na condução autónoma, esta visão dá origem aos modelos de mundo de condução: simuladores generativos que imaginam futuros do ego e de outros agentes, permitindo simulação escalável, teste seguro de casos extremos e geração rica de dados sintéticos. No entanto, apesar da rápida expansão da atividade de investigação, a área carece de um benchmark rigoroso para medir o progresso e guiar prioridades. As avaliações existentes permanecem limitadas: as métricas genéricas de vídeo ignoram fatores de imagem críticos para a segurança; a plausibilidade da trajetória raramente é quantificada; a coerência temporal e a nível de agente é negligenciada; e a controlabilidade em relação ao condicionamento do ego é ignorada. Além disso, os conjuntos de dados atuais não cobrem a diversidade de condições necessárias para a implantação no mundo real. Para colmatar estas lacunas, apresentamos o DrivingGen, o primeiro benchmark abrangente para modelos generativos de mundo de condução. O DrivingGen combina um conjunto de dados de avaliação diversificado, curado a partir de conjuntos de dados de condução e de fontes de vídeo em escala da Internet, abrangendo diversas condições meteorológicas, horários do dia, regiões geográficas e manobras complexas, com um conjunto de novas métricas que avaliam conjuntamente o realismo visual, a plausibilidade da trajetória, a coerência temporal e a controlabilidade. A avaliação de 14 modelos state-of-the-art revela trade-offs claros: os modelos gerais têm melhor aspeto visual mas violam a física, enquanto os específicos para condução capturam o movimento de forma realista mas ficam aquém na qualidade visual. O DrivingGen oferece um quadro de avaliação unificado para fomentar modelos de mundo de condução fiáveis, controláveis e implantáveis, permitindo simulação escalável, planeamento e tomada de decisão baseada em dados.
Os Modelos de Difusão Latente (LDMs) geram imagens de alta qualidade operando em um espaço latente comprimido, tipicamente obtido por meio de tokenizadores de imagem como Autoencoders Variacionais (VAEs). Na busca por um VAE favorável à geração, estudos recentes exploraram o aproveitamento de Modelos de Visão de Base (VFMs) como alvos de alinhamento de representação para VAEs, espelhando a abordagem comumente adotada para LDMs. Embora isso produza certos ganhos de desempenho, usar o mesmo alvo de alinhamento para VAEs e LDMs ignora seus requisitos representacionais fundamentalmente diferentes. Defendemos que, enquanto os LDMs beneficiam-se de latentes que retêm conceitos semânticos de alto nível, os VAEs devem destacar-se no desembaraço semântico, permitindo a codificação de informações a nível de atributo de forma estruturada. Para resolver isso, propomos o VAE com Desembaraço Semântico (Send-VAE), explicitamente otimizado para aprendizado de representação desembaraçada através do alinhamento do seu espaço latente com a hierarquia semântica de VFMs pré-treinados. Nossa abordagem emprega uma rede mapeadora não-linear para transformar os latentes do VAE, alinhando-os com VFMs para preencher a lacuna entre o desembaraço a nível de atributo e a semântica de alto nível, facilitando uma orientação eficaz para o aprendizado do VAE. Avaliamos o desembaraço semântico via *linear probing* em tarefas de predição de atributos, mostrando forte correlação com a melhoria do desempenho de geração. Por fim, usando o Send-VAE, treinamos *transformers* baseados em *flow* (SiTs); experimentos mostram que o Send-VAE acelera significativamente o treinamento e alcança um FID state-of-the-art de 1.21 e 1.75 com e sem orientação *classifier-free* no ImageNet 256x256.
Os Grandes Modelos de Linguagem (LLMs) podem estender os seus limites de conhecimento de parâmetros ao adotar o paradigma de Raciocínio com Integração de Ferramentas (TIR). No entanto, os frameworks de treino de agentes baseados em LLM existentes focam-se frequentemente na precisão das respostas, negligenciando um alinhamento específico para os padrões de comportamento. Consequentemente, o agente exibe frequentemente ações ineficazes durante as tarefas TIR, como chamadas de ferramentas redundantes e insuficientes. Como calibrar os padrões comportamentais erróneos na execução de tarefas TIR, explorando assim trajetórias eficazes, permanece um problema em aberto. Neste artigo, propomos o ET-Agent, um framework de treino para calibrar o comportamento de uso de ferramentas do agente através de duas perspetivas sinérgicas: Roda de Dados de Auto-evolução e Treino de Calibração Comportamental. Especificamente, introduzimos uma roda de dados auto-evolutiva para gerar dados melhorados, usados para afinar o LLM e melhorar a sua capacidade de exploração. Com base nisto, implementamos um framework de treino de calibração comportamental em duas fases. Este foi concebido para calibrar progressivamente os padrões comportamentais erróneos para comportamentos ótimos. Experiências adicionais aprofundadas confirmam a superioridade do ET-Agent em múltiplas dimensões, incluindo correção, eficiência, concisão de raciocínio e precisão de execução de ferramentas. O nosso framework ET-Agent fornece perspetivas práticas para a investigação na área TIR. O código está disponível em https://github.com/asilverlight/ET-Agent.
Os atuais benchmarks de visão e linguagem apresentam predominantemente perguntas bem estruturadas com instruções claras e explícitas. No entanto, as consultas de usuários reais são frequentemente informais e subespecificadas. Os usuários naturalmente deixam muito implícito, confiando nas imagens para transmitir o contexto. Apresentamos o HAERAE-Vision, um benchmark composto por 653 questões visuais do mundo real, coletadas de comunidades online coreanas (0,76% de sobrevivência de 86 mil candidatos), cada uma emparelhada com uma reformulação explícita, totalizando 1.306 variantes de consulta. Ao avaliar 39 VLMs (Modelos de Linguagem Visual), descobrimos que mesmo os modelos de última geração (GPT-5, Gemini 2.5 Pro) atingem menos de 50% de acerto nas consultas originais. Crucialmente, apenas a explicitização da consulta resulta em melhorias de 8 a 22 pontos, com os modelos menores se beneficiando mais. Demonstramos ainda que, mesmo com busca na web, consultas subespecificadas têm desempenho inferior ao de consultas explícitas sem busca, revelando que a recuperação de informação atual não consegue compensar o que os usuários deixam de dizer. Nossos achados demonstram que uma porção substancial da dificuldade dos VLMs origina-se da subespecificação natural das consultas, e não da capacidade do modelo, destacando uma lacuna crítica entre a avaliação em benchmarks e a implantação no mundo real.
O planejamento de viagens é um processo sofisticado de tomada de decisão que requer a síntese de informações multifacetadas para construir itinerários. No entanto, as abordagens existentes de planejamento de viagens enfrentam vários desafios: (1) A poda de pontos de interesse (POIs) candidatos, mantendo uma alta taxa de recuperação; (2) Um único caminho de raciocínio restringe a capacidade de exploração dentro do espaço de soluções viáveis para o planejamento de viagens; (3) A otimização simultânea de restrições rígidas e restrições flexíveis permanece uma dificuldade significativa. Para enfrentar esses desafios, propomos o TourPlanner, uma estrutura abrangente que apresenta raciocínio de múltiplos caminhos e aprendizado por reforço com portas de restrição. Especificamente, introduzimos primeiro um fluxo de trabalho de Otimização de Recuperação Personalizada e Espacial (PReSO) para construir um conjunto de POIs candidatos com consciência espacial. Posteriormente, propomos a Cadeia de Pensamento de Consenso Competitivo (CCoT), um paradigma de raciocínio de múltiplos caminhos que melhora a capacidade de explorar o espaço de soluções viáveis. Para refinar ainda mais o plano, integramos um mecanismo de porta baseado em sigmoide na fase de aprendizado por reforço, que prioriza dinamicamente a satisfação de restrições flexíveis somente após o cumprimento das restrições rígidas. Resultados experimentais em benchmarks de planejamento de viagens demonstram que o TourPlanner alcança um desempenho de ponta, superando significativamente os métodos existentes tanto em viabilidade quanto no alinhamento com as preferências do usuário.
Embora o pensamento em cadeia (Chain-of-Thought) capacite os Grandes Modelos de Linguagem e Visão com raciocínio em múltiplos passos, as racionalizações textuais explícitas sofrem com um gargalo de largura de banda de informação, no qual detalhes visuais contínuos são descartados durante a tokenização discreta. Métodos recentes de raciocínio latente tentam enfrentar este desafio, mas frequentemente sucumbem a um colapso semântico prematuro devido a objetivos autorregressivos rígidos. Neste artigo, propomos o Laser, um novo paradigma que reformula a dedução visual por meio da Aprendizagem de Alinhamento Dinâmico por Janelas (Dynamic Windowed Alignment Learning - DWAL). Em vez de forçar uma previsão ponto a ponto, o Laser alinha o estado latente com uma janela de validade dinâmica de semânticas futuras. Este mecanismo impõe uma hierarquia cognitiva de "Floresta antes das Árvores", permitindo que o modelo mantenha uma superposição probabilística de características globais antes de se concentrar em detalhes locais. Crucialmente, o Laser mantém a interpretabilidade por meio de trajetórias decodificáveis, enquanto estabiliza a aprendizagem não restrita via Superposição Autoaprimorada (Self-Refined Superposition). Experimentos extensos em 6 benchmarks demonstram que o Laser alcança um desempenho de ponta entre os métodos de raciocínio latente, superando a forte baseline Monet em 5,03% em média. Notavelmente, ele alcança esses ganhos com extrema eficiência, reduzindo os tokens de inferência em mais de 97%, ao mesmo tempo que demonstra generalização robusta para domínios fora da distribuição.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) evoluem de interfaces de diálogo estáticas para agentes gerais autónomos, uma memória eficaz é fundamental para garantir a consistência de longo prazo. No entanto, os benchmarks existentes focam-se principalmente em conversas casuais ou diálogos orientados por tarefas, não conseguindo capturar interações **"orientadas por projetos de longo prazo"**, nas quais os agentes devem acompanhar objetivos em evolução. Para colmatar esta lacuna, introduzimos o **RealMem**, o primeiro benchmark baseado em cenários realistas de projeto. O RealMem compreende mais de 2.000 diálogos trans-sessão em onze cenários, utilizando consultas de utilizadores naturais para avaliação. Propomos um pipeline de síntese que integra a Construção da Base do Projeto, a Geração de Diálogo Multi-Agente e a Gestão de Memória e Agenda para simular a evolução dinâmica da memória. Experiências revelam que os sistemas de memória atuais enfrentam desafios significativos na gestão dos estados de projeto de longo prazo e das dependências contextuais dinâmicas inerentes a projetos do mundo real. O nosso código e conjuntos de dados estão disponíveis em [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
Apresentamos o OpenTinker, uma infraestrutura para aprendizagem por reforço (RL) de agentes baseados em grandes modelos de linguagem (LLM) construída em torno de uma separação de preocupações entre o projeto de algoritmos, a execução e a interação agente-ambiente. Em vez de depender de *pipelines* monolíticos e de fim a fim para RL, o OpenTinker decompõe sistemas de aprendizagem agentiva em componentes leves, combináveis e com limites de abstração claramente definidos. Os utilizadores especificam agentes, ambientes e protocolos de interação, enquanto a inferência e o treino são delegados a um *runtime* de execução gerido. O OpenTinker introduz um *scheduler* centralizado para gerir cargas de trabalho de treino e inferência, incluindo RL baseado em LoRA e de parâmetros completos, afinação supervisionada e inferência, sobre recursos partilhados. Discutimos ainda princípios de design para estender o OpenTinker ao treino multiagente. Por fim, apresentamos um conjunto de casos de uso de RL que demonstram a eficácia da estrutura em cenários práticos de aprendizagem agentiva.
Os grandes modelos de linguagem (LLMs) podem ser adaptados a novas tarefas usando métodos de ajuste fino com eficiência de parâmetros (PEFT) que modificam apenas um pequeno número de parâmetros treináveis, frequentemente por meio de atualizações de baixo posto. Neste trabalho, adotamos uma perspectiva inspirada na informação quântica para compreender sua eficácia. Desta perspectiva, parametrizações de baixo posto correspondem naturalmente a representações de Estados de Produto Matricial (MPS) de baixa dimensionalidade, que permitem caracterizações baseadas em emaranhamento da estrutura dos parâmetros. Desse modo, denominamos e medimos "Emaranhamento Artificial", definido como a entropia de emaranhamento dos parâmetros em redes neurais artificiais (em particular os LLMs). Primeiro, estudamos o método PEFT representativo de adaptação de baixo posto (LoRA), juntamente com o ajuste fino completo (FFT), usando modelos LLaMA nas escalas de 1B e 8B treinados nos conjuntos de dados Tulu3 e OpenThoughts3, e descobrimos: (i) O emaranhamento artificial interno nas atualizações das matrizes de projeção de consulta e valor no LoRA segue uma lei de volume com uma supressão central (denominada "Vale do Emaranhamento"), que é sensível a hiperparâmetros e é distinta da observada no FFT; (ii) O emaranhamento artificial externo nas matrizes de atenção, correspondente às correlações token-token no espaço de representação, segue uma lei de área com correções logarítmicas e mantém-se robusto face aos hiperparâmetros do LoRA e às etapas de treinamento. Estabelecendo um paralelo com o Teorema da Não-Cabelagem na física dos buracos negros, propomos que, embora o LoRA e o FFT induzam assinaturas de emaranhamento interno distintas, tais diferenças não se manifestam nas saídas de atenção, sugerindo uma propriedade de "não-cabelagem" que resulta na eficácia das atualizações de baixo posto. Fornecemos ainda suporte teórico baseado na teoria de matrizes aleatórias e estendemos nossa análise a um método PEFT de Adaptação MPS, que exibe comportamentos qualitativamente semelhantes.
Os Grandes Modelos de Linguagem (LLMs) podem produzir estimativas surpreendentemente sofisticadas da sua própria incerteza. No entanto, permanece pouco claro até que ponto esta confiança expressa está ligada ao raciocínio, conhecimento ou tomada de decisão do modelo. Para testar isto, introduzimos o RiskEval: uma estrutura concebida para avaliar se os modelos ajustam as suas políticas de abstenção em resposta a diferentes penalizações por erro. A nossa avaliação de vários modelos de ponta revela uma dissociação crítica: os modelos não são conscientes do custo ao articular a sua confiança verbal, nem respondem estrategicamente ao decidir se devem participar ou abster-se em condições de alta penalização. Mesmo quando penalizações extremas tornam a abstenção frequente a estratégia matematicamente ótima, os modelos quase nunca se abstêm, resultando num colapso de utilidade. Isto indica que as pontuações de confiança verbal calibradas podem não ser suficientes para criar sistemas de IA confiáveis e interpretáveis, uma vez que os modelos atuais carecem da agência estratégica necessária para converter sinais de incerteza em decisões ótimas e sensíveis ao risco.
Os seres humanos compreendem o mundo principalmente através de conceitos (por exemplo, "cão"), representações mentais abstratas que estruturam a percepção, o raciocínio e a aprendizagem. No entanto, a forma como os grandes modelos de linguagem (LLMs) adquirem, retêm e esquecem esses conceitos durante o pré-treinamento contínuo permanece pouco compreendida. Neste trabalho, estudamos como conceitos individuais são adquiridos e esquecidos, bem como como múltiplos conceitos interagem através de interferência e sinergia. Ligamos essas dinâmicas comportamentais aos Circuitos de Conceito internos dos LLMs, subgrafos computacionais associados a conceitos específicos, e incorporamos Métricas de Grafo para caracterizar a estrutura do circuito. Nossa análise revela: (1) Os circuitos de conceito dos LLMs fornecem um sinal não trivial e estatisticamente significativo da aprendizagem e do esquecimento de conceitos; (2) Os circuitos de conceito exibem um padrão temporal em fases durante o pré-treinamento contínuo, com um aumento inicial seguido de uma diminuição gradual e estabilização; (3) Conceitos com maiores ganhos de aprendizagem tendem a exibir maior esquecimento sob treinamento subsequente; (4) Conceitos semanticamente similares induzem interferência mais forte do que conceitos fracamente relacionados; (5) O conhecimento conceptual difere na sua transferibilidade, com alguns a facilitar significativamente a aprendizagem de outros. Em conjunto, os nossos resultados oferecem uma visão ao nível do circuito da dinâmica da aprendizagem de conceitos e informam o desenho de estratégias de treino mais interpretáveis e robustas, conscientes dos conceitos, para LLMs.
Os sistemas modernos de informação frequentemente envolvem diferentes tipos de itens, por exemplo, uma consulta de texto, uma imagem, um clipe de vídeo ou um segmento de áudio. Isto motiva o desenvolvimento de modelos de incorporação omni-modais que mapeiam modalidades heterogéneas para um espaço partilhado para comparação direta. No entanto, a maioria das incorporações omni-modais recentes ainda depende fortemente do alinhamento implícito herdado dos modelos base de visão e linguagem (VLM) pré-treinados. Na prática, isto causa três problemas comuns: (i) os *logits* de similaridade têm uma nitidez dependente da modalidade, pelo que as pontuações não estão numa escala consistente; (ii) os negativos intra-*batch* tornam-se menos eficazes ao longo do tempo porque os *batches* de modalidades mistas criam uma distribuição de dificuldade desequilibrada; como resultado, muitos negativos rapidamente se tornam triviais e contribuem pouco para o gradiente; e (iii) as incorporações entre modalidades apresentam estatísticas de primeira e segunda ordem desalinhadas, o que torna as classificações menos estáveis. Para resolver estes problemas, propomos o e5-omni, uma receita leve de alinhamento explícito que adapta VLMs disponíveis comercialmente em modelos robustos de incorporação omni-modal. O e5-omni combina três componentes simples: (1) calibração de temperatura com consciência da modalidade para alinhar as escalas de similaridade, (2) um currículo de negativos controlável com correção de viés para se concentrar nos negativos confusos, reduzindo simultaneamente o impacto dos falsos negativos, e (3) *whitening* de *batch* com regularização de covariância para melhor corresponder à geometria cross-modal no espaço de incorporação partilhado. Experiências no MMEB-V2 e no AudioCaps mostram ganhos consistentes face a fortes linhas de base bi-modais e omni-modais, e a mesma receita também se transfere bem para outras arquiteturas base de VLM. Disponibilizamos o nosso *checkpoint* do modelo em https://huggingface.co/Haon-Chen/e5-omni-7B.
Embora a inovação em IA acelere rapidamente, o processo intelectual por trás dos avanços — como os pesquisadores identificam lacunas, sintetizam trabalhos anteriores e geram insights — permanece pouco compreendido. A falta de dados estruturados sobre o raciocínio científico dificulta a análise sistemática e o desenvolvimento de agentes de pesquisa em IA. Apresentamos o Sci-Reasoning, o primeiro conjunto de dados que captura a síntese intelectual por trás de pesquisas de alta qualidade em IA. Utilizando sinais de qualidade validados pela comunidade e um pipeline acelerado por LLM e verificado por humanos, rastreamos artigos Oral e Spotlight do NeurIPS, ICML e ICLR (2023-2025) até seus principais predecessores, articulando ligações de raciocínio específicas em um formato estruturado. Nossa análise identifica 15 padrões distintos de pensamento, com três estratégias dominantes representando 52,7%: Reformulação Orientada por Lacunas (24,2%), Síntese Transdomínio (18,0%) e Mudança de Representação (10,5%). As receitas de inovação mais poderosas combinam múltiplos padrões: Reformulação Orientada por Lacunas + Mudança de Representação, Síntese Transdomínio + Mudança de Representação e Reformulação Orientada por Lacunas + Síntese Transdomínio. Este conjunto de dados permite estudos quantitativos do progresso científico e fornece trajetórias de raciocínio estruturadas para treinar a próxima geração de agentes de pesquisa em IA.
As abordagens atuais para memória em Modelos de Linguagem de Grande Porte (LLMs) dependem predominantemente da Geração Aumentada por Recuperação (RAG) estática, o que frequentemente resulta em recuperação fragmentada e falha em capturar as dependências estruturais necessárias para o raciocínio complexo. Para agentes autónomos, estas arquiteturas passivas e planas carecem da organização cognitiva necessária para modelar a natureza dinâmica e associativa da interação de longo prazo. Para resolver esta limitação, propomos a Memória de Eventos Episódicos Estruturada (SEEM), uma estrutura hierárquica que sinergiza uma camada de memória em grafo para factos relacionais com uma camada de memória episódica dinâmica para a progressão narrativa. Fundamentada na teoria dos *frames* cognitivos, a SEEM transforma fluxos de interação em *Frames* de Eventos Episódicos (EEFs) estruturados, ancorados por ponteiros de proveniência precisos. Adicionalmente, introduzimos um mecanismo de fusão associativa agentiva e de Expansão de Proveniência Reversa (RPE) para reconstruir contextos narrativos coerentes a partir de evidências fragmentadas. Resultados experimentais nos *benchmarks* LoCoMo e LongMemEval demonstram que a SEEM supera significativamente os métodos de base, permitindo que os agentes mantenham uma coerência narrativa e consistência lógica superiores.
À medida que grandes modelos de linguagem (LLMs), como ChatGPT, Copilot, Claude e Gemini, se integram aos fluxos de trabalho de desenvolvimento de software, os desenvolvedores deixam cada vez mais vestígios do envolvimento da IA em seus comentários de código. Entre estes, alguns comentários reconhecem explicitamente tanto o uso de IA generativa quanto a presença de deficiências técnicas. Analisando 6.540 comentários de código que fazem referência a LLMs de repositórios públicos do GitHub baseados em Python e JavaScript (novembro de 2022 a julho de 2025), identificamos 81 que também admitem dívida técnica (SATD). Os desenvolvedores descrevem com maior frequência o adiamento de testes, a adaptação incompleta e a compreensão limitada do código gerado por IA, sugerindo que a assistência por IA afeta tanto o momento quanto o motivo pelo qual a dívida técnica emerge. Propomos o termo Dívida Técnica Auto-admitida Induzida por GenAI (GIST) como uma lente conceitual para descrever casos recorrentes em que os desenvolvedores incorporam código gerado por IA ao mesmo tempo que expressam explicitamente incerteza sobre seu comportamento ou correção.
A inferência determinística é um ideal tranquilizador no software clássico: o mesmo programa com a mesma entrada deve sempre produzir a mesma saída. À medida que os modelos de linguagem de grande escala avançam para implantações no mundo real, esse ideal foi importado integralmente para as pilhas de inferência. Trabalhos recentes do Thinking Machines Lab apresentaram uma análise detalhada do não-determinismo na inferência de LLMs, mostrando como kernels invariantes por lote e atenção determinística podem impor saídas bit a bit idênticas, posicionando a inferência determinística como um pré-requisito para a reprodutibilidade e confiabilidade empresarial. Neste artigo, adotamos a posição oposta. Argumentamos que, para os LLMs, a inferência determinística é letal. Ela mata a capacidade de modelar a incerteza, suprime habilidades emergentes, colapsa o raciocínio em um único caminho frágil e enfraquece o alinhamento de segurança ao ocultar riscos de cauda. Os LLMs implementam distribuições condicionais sobre saídas, não funções fixas. Colapsar essas distribuições para uma única conclusão canônica pode parecer tranquilizador, mas oculta sistematicamente propriedades centrais para a cognição artificial. Em vez disso, defendemos o CHAOS Estocástico, tratando a variabilidade distribucional como um sinal a ser medido e controlado. Empiricamente, mostramos que a inferência determinística é sistematicamente enganosa. A avaliação determinística de amostra única subestima tanto a capacidade quanto a fragilidade, mascarando a probabilidade de falha sob paráfrases e ruído. Transições de fase associadas a habilidades emergentes desaparecem sob decodificação gulosa. O raciocínio de múltiplos caminhos se degrada quando forçado em estruturas determinísticas, reduzindo a precisão e a capacidade de diagnóstico. Por fim, a avaliação determinística subestima o risco de segurança ao ocultar comportamentos raros, porém perigosos, que só aparecem sob avaliação com múltiplas amostras.
A premonição e o seu desfecho são dispositivos narrativos ubíquos através dos quais os autores introduzem compromissos no início de uma história e os resolvem por meio de resultados concretos e observáveis. No entanto, apesar dos avanços na geração de histórias, os grandes modelos de linguagem (LLMs) frequentemente falham em estabelecer essas dependências narrativas de longo alcance, deixando muitas vezes "armas de Tchékhov" sem serem disparadas, mesmo quando o contexto necessário está presente. As avaliações existentes ignoram em grande parte esta falha estrutural, focando-se na coerência superficial em vez do cumprimento lógico das preparações narrativas. Neste artigo, introduzimos a Geração Codificada de Premonição-Desfecho (CFPG), uma estrutura inovadora que reformula a qualidade narrativa através da lente da realização do desfecho. Reconhecendo que os LLMs têm dificuldade em compreender intuitivamente o "mecanismo de ativação" de um evento prenunciado, a CFPG transforma a continuidade narrativa num conjunto de predicados causais executáveis. Ao extrair e codificar triplas Premonição-Ativação-Desfecho do *corpus* BookSum, fornecemos uma supervisão estruturada que garante que os compromissos prenunciados não são apenas mencionados, mas também cumpridos temporal e logicamente. Experiências demonstram que a CFPG supera significativamente as *baselines* padrão de *prompting* em precisão de desfecho e alinhamento narrativo. As nossas conclusões sugerem que codificar explicitamente a mecânica narrativa é essencial para evoluir os LLMs da fluência superficial para uma competência narrativa genuína.
As Interfaces Gráficas de Utilizador (IGUs) são centrais para a interação homem-computador, mas a automação de tarefas complexas em IGUs continua a ser um grande desafio para agentes autónomos, em grande parte devido à falta de dados de treino escaláveis e de alta qualidade. Embora as gravações de demonstrações humanas constituam uma fonte de dados rica, estas são tipicamente longas, não estruturadas e carecem de anotações, dificultando a sua aprendizagem pelos agentes. Para resolver esta questão, apresentamos o ShowUI-Aloha, um *pipeline* abrangente que transforma gravações não estruturadas de ecrãs humanos, capturadas em ambientes de trabalho reais, em tarefas estruturadas e acionáveis. A nossa estrutura inclui quatro componentes principais: Um gravador que captura vídeo do ecrã juntamente com interações precisas do utilizador, como cliques do rato, pressionamentos de tecla e movimentos de scroll. Um aprendiz que interpreta semanticamente estas interações brutas e o contexto visual circundante, traduzindo-as em legendas descritivas em linguagem natural. Um planeador que lê as demonstrações analisadas, mantém os estados da tarefa e formula dinamicamente o próximo plano de ação de alto nível com base no raciocínio contextual. Um executor que executa fielmente estes planos de ação ao nível do sistema operativo, realizando cliques, arrastos, entradas de texto e operações de janela precisas, com verificações de segurança e *feedback* em tempo real. Em conjunto, estes componentes fornecem uma solução escalável para recolher e analisar dados humanos do mundo real, demonstrando um caminho viável para a construção de agentes de IGU de propósito geral que podem aprender eficazmente apenas observando humanos.
Os Veículos Aéreos Não Tripulados (VANTs) são cada vez mais implantados em proximidade com humanos para aplicações como entrega de encomendas, monitorização de tráfego, resposta a desastres e inspeções de infraestruturas. Garantir uma operação segura e fiável nestes ambientes povoados por humanos exige uma perceção precisa das posturas e ações humanas a partir de um ponto de vista aéreo. Esta perspetiva coloca desafios aos métodos existentes devido à baixa resolução, ângulos de visão íngremes e oclusões (incluindo auto-oclusões), especialmente se a aplicação exigir modelos viáveis em tempo real. Nós treinamos e implementamos o FlyPose, um *pipeline* leve de estimativa de postura humana do tipo *top-down* para imagens aéreas. Através de treino multi-*dataset*, conseguimos uma melhoria média de 6,8 mAP na deteção de pessoas nos conjuntos de teste do Manipal-UAV, VisDrone, HIT-UAV e também no nosso *dataset* personalizado. Para a estimativa de postura humana 2D, reportamos uma melhoria de 16,3 mAP no desafiante *dataset* UAV-Human. O FlyPose executa com uma latência de inferência de ~20 milissegundos, incluindo pré-processamento, numa *Jetson Orin AGX Developer Kit* e é implementado a bordo de um VANT quadrotor durante experiências de voo. Publicamos também o FlyPose-104, um *dataset* pequeno mas desafiante para estimativa de postura humana aérea, que inclui anotações manuais de perspetivas aéreas difíceis: https://github.com/farooqhassaan/FlyPose.
O pós-treinamento de grandes modelos de linguagem rotineiramente intercala o ajuste fino supervisionado (SFT) com o aprendizado por reforço (RL). Esses dois métodos possuem objetivos diferentes: o SFT minimiza a perda de entropia cruzada entre as saídas do modelo e as respostas de especialistas, enquanto o RL maximiza os sinais de recompensa derivados de preferências humanas ou verificadores baseados em regras. Os modelos modernos de raciocínio adotaram amplamente a prática de alternar o treinamento SFT e RL. No entanto, não há um embasamento teórico sobre se eles podem ser desacoplados. Provamos que o desacoplamento é impossível em qualquer ordem: (1) Acoplamento SFT-depois-RL: o RL aumenta a perda do SFT sob otimalidade do SFT e (2) Acoplamento RL-depois-SFT: o SFT reduz a recompensa alcançada pelo RL. Experimentos no Qwen3-0.6B confirmam a degradação prevista, verificando que o SFT e o RL não podem ser separados sem perda do desempenho anterior no pós-treinamento.
Os modelos generativos de linguagem falada pré-treinados em áudio bruto em larga escala podem continuar um prompt de fala com conteúdo apropriado, preservando atributos como locutor e emoção, servindo como modelos de base para diálogo falado. Na literatura anterior, esses modelos são frequentemente avaliados usando a "perplexidade global de tokens", que aplica diretamente a formulação de perplexidade de texto aos tokens de fala. No entanto, essa prática ignora diferenças fundamentais entre as modalidades de fala e texto, possivelmente levando a uma subestimação das características da fala. Neste trabalho, propomos uma variedade de métodos de avaliação baseados em verossimilhança e geração que substituem a ingênua perplexidade global de tokens. Demonstramos que as avaliações propostas refletem mais fielmente a qualidade geracional percebida, conforme evidenciado por correlações mais fortes com escores de opinião média (MOS) avaliados por humanos. Quando avaliados sob as novas métricas, o panorama de desempenho relativo dos modelos de linguagem falada é reconfigurado, revelando uma redução significativa na diferença entre o modelo de melhor desempenho e a linha de base humana. Juntos, esses resultados sugerem que a avaliação adequada é crítica para avaliar com precisão o progresso na modelagem de linguagem falada.
Os modelos de linguagem grandes multimodais (MLLMs) exibem fortes capacidades de propósito geral, mas ainda lutam na Classificação Visual de Granulação Fina (FGVC), uma tarefa de percepção central que requer discriminação visual sutil e é crucial para muitas aplicações do mundo real. Uma estratégia amplamente adotada para impulsionar o desempenho em tarefas desafiadoras, como matemática e codificação, é o raciocínio em Cadeia de Pensamento (CoT). No entanto, vários trabalhos anteriores relataram que o CoT pode, na verdade, prejudicar o desempenho em tarefas de percepção visual. Esses estudos, porém, examinam a questão sob ângulos relativamente estreitos e deixam em aberto a razão pela qual o CoT degrada o desempenho em tarefas intensivas em percepção. Reexaminamos sistematicamente o papel do CoT na FGVC através das lentes da avaliação *zero-shot* e de múltiplos paradigmas de treinamento. Através dessas configurações, descobrimos um paradoxo central: a degradação induzida pelo CoT é amplamente impulsionada pelo comprimento do raciocínio, no qual raciocínios textuais mais longos reduzem consistentemente a precisão da classificação. Denominamos esse fenômeno de "Custo do Pensamento". Com base nessa descoberta, fazemos duas contribuições principais: (1) \alg, um método de normalização simples e geral, do tipo *plug-and-play*, para otimização multi-recompensa que equilibra sinais de recompensa heterogêneos, e (2) ReFine-RFT, um *framework* que combina recompensas de *ensemble* com \alg para restringir o comprimento do raciocínio, fornecendo ao mesmo tempo *feedback* denso orientado para a precisão. Experimentos extensivos demonstram a eficácia das nossas descobertas e do ReFine-RFT proposto, alcançando desempenho de ponta em *benchmarks* de FGVC. O código e os modelos estão disponíveis em https://github.com/jiezhu23/ReFine-RFT{Link do Projeto}.
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham alcançado progressos notáveis na compreensão visual, eles frequentemente enfrentam dificuldades diante da natureza não estruturada e ambígua dos desenhos à mão livre gerados por humanos. Essa limitação é particularmente pronunciada na tarefa pouco explorada da avaliação visual, na qual os modelos não devem apenas resolver um problema, mas também diagnosticar erros em diagramas desenhados à mão. Tais capacidades de diagnóstico dependem de um raciocínio estrutural, semântico e metacognitivo complexo. Para preencher essa lacuna, apresentamos o SketchJudge, um novo benchmark específico para avaliar MLLMs como avaliadores de diagramas STEM desenhados à mão. O SketchJudge abrange 1.015 respostas de estudantes desenhadas à mão em quatro domínios: geometria, física, gráficos e fluxogramas, apresentando variações estilísticas diversificadas e tipos distintos de erros. As avaliações no SketchJudge demonstram que mesmo MLLMs avançados ficam significativamente atrás dos humanos, validando a eficácia do benchmark em expor a fragilidade do alinhamento visão-linguagem atual em contextos simbólicos e ruidosos. Todos os dados, códigos e scripts de avaliação estão publicamente disponíveis em https://github.com/yuhangsu82/SketchJudge.
A auto-consistência emergiu como uma técnica popular para melhorar a precisão de modelos de linguagem grandes em tarefas de raciocínio. A abordagem é simples: gerar múltiplos caminhos de raciocínio e selecionar a resposta mais comum através de votação majoritária. Embora isso aumente a precisão de forma confiável, permanece incerto se esses ganhos refletem melhorias genuínas na qualidade do raciocínio. Investigamos uma questão fundamental que não foi estudada anteriormente: a escala de inferência melhora a fidedignidade do raciocínio? Conduzimos um estudo empírico abrangente em quatro modelos de fronteira (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview e DeepSeek-v3.2) em 100 problemas de raciocínio matemático do GSM8K. Nossa análise emprega intervalos de confiança bootstrap, testes de McNemar para comparações pareadas e tamanhos de efeito d de Cohen para quantificar os efeitos de forma rigorosa. Os resultados revelam diferenças marcantes entre os modelos que desafiam pressupostos comuns sobre a auto-consistência. O GPT-5.2 mostra o padrão esperado: a precisão melhora de 78% para 90% em N=5, com a fidedignidade permanecendo relativamente estável (0,540 para 0,510). O Claude Opus 4.5 conta uma história completamente diferente. Sua precisão realmente cai de 78% para 74,3%, enquanto a fidedignidade aumenta drasticamente de 0,270 para 0,891 em N=5. O DeepSeek-v3.2, já com 98% de precisão, mostra efeitos de teto com ganhos modestos de fidedignidade (0,440 para 0,541). O Gemini-3-flash melhora de 81% para 86% em precisão com uma ligeira diminuição na fidedignidade (0,260 para 0,212). A análise da dificuldade dos problemas revela que o GPT-5.2 resolve 82% dos problemas difíceis, enquanto quebra apenas 13% dos problemas fáceis. O Claude, em contraste, quebra 23% dos problemas fáceis, explicando sua diminuição de precisão. Essas descobertas são importantes para profissionais: a auto-consistência não é universalmente benéfica, e as equipes devem testar seus modelos específicos antes da implantação. Disponibilizamos nosso código e fornecemos recomendações práticas para navegar nessas compensações.
Projetar uma rede neural unificada para processar dados sequenciais de comprimentos arbitrários de forma eficiente e inerente é um problema central e desafiador na modelagem de sequências. As escolhas de projeto no Transformer, incluindo a complexidade quadrática e a fraca extrapolação de comprimento, limitaram sua capacidade de escalar para sequências longas. Neste trabalho, propomos o Gecko, uma arquitetura neural que herda o design do Mega e do Megalodon (média móvel exponencial com atenção com portas), e introduz ainda vários componentes técnicos para melhorar sua capacidade de capturar dependências de longo alcance, incluindo normalização de decaimento temporal, mecanismo de atenção por blocos deslizantes e memória de trabalho adaptativa. Numa comparação controlada de pré-treinamento com o Llama2 e o Megalodon na escala de 7 bilhões de parâmetros e 2 trilhões de tokens de treinamento, o Gecko alcança melhor eficiência e escalabilidade de contexto longo. O Gecko atinge uma perda de treinamento de 1.68, superando significativamente o Llama2-7B (1.75) e o Megalodon-7B (1.70), e aproximando-se do Llama2-13B (1.67). Notavelmente, sem depender de qualquer técnica de extensão de contexto, o Gecko exibe capacidades inerentes de processamento e recuperação de contexto longo, lidando de forma estável com sequências de até 4 milhões de tokens e recuperando informações de contextos até 4 vezes mais longos que sua janela de atenção. Código: https://github.com/XuezheMax/gecko-llm
Os registros de sistema são cruciais para monitorar e diagnosticar a infraestrutura de computação moderna, mas sua escala e complexidade exigem interpretação automatizada confiável e eficiente. Uma vez que os níveis de severidade são metadados predefinidos nas mensagens de log do sistema, ter um modelo que apenas os classifica oferece valor prático independente limitado, revelando pouco sobre sua capacidade subjacente de interpretar logs do sistema. Argumentamos que a classificação de severidade é mais informativa quando tratada como um benchmark para sondar a compreensão de logs em tempo de execução, em vez de uma tarefa final. Utilizando dados reais do journalctl de servidores de produção Linux, avaliamos nove modelos de linguagem pequenos (SLMs) e modelos de linguagem de raciocínio pequenos (SRLMs) sob condições *zero-shot*, *few-shot* e *prompting* com geração aumentada por recuperação (RAG). Os resultados revelam uma forte estratificação. O Qwen3-4B atinge a maior precisão em 95,64% com RAG, enquanto o Gemma3-1B melhora de 20,25% sob *prompting* *few-shot* para 85,28% com RAG. Notavelmente, o minúsculo Qwen3-0.6B alcança 88,12% de precisão, apesar do fraco desempenho sem recuperação. Em contraste, vários SRLMs, incluindo Qwen3-1.7B e DeepSeek-R1-Distill-Qwen-1.5B, degradam-se substancialmente quando combinados com RAG. Medidas de eficiência separam ainda mais os modelos: a maioria das variantes Gemma e Llama concluem a inferência em menos de 1,2 segundos por log, enquanto o Phi-4-Mini-Reasoning excede 228 segundos por log, alcançando <10% de precisão. Essas descobertas sugerem que (1) o projeto arquitetônico, (2) os objetivos de treinamento e (3) a capacidade de integrar contexto recuperado sob restrições rigorosas de saída determinam conjuntamente o desempenho. Ao enfatizar modelos pequenos e implantáveis, este benchmark está alinhado com os requisitos em tempo real de sistemas de *digital twins* (DT) e mostra que a classificação de severidade serve como uma lente para avaliar a competência do modelo e a capacidade de implantação em tempo real, com implicações para a análise de causa raiz (RCA) e uma integração mais ampla de DT.
As expressões não composicionais (como idiomatismos, provérbios e metáforas) representam desafios significativos para os sistemas de tradução automática neural, pois seus significados não podem ser derivados apenas das palavras individuais. Essas expressões codificam significados culturais ricos e possuem sentidos tanto figurativos quanto literais, dificultando a tradução precisa. Como os modelos são relativamente bons em traduzir texto composicional, investigamos o fine-tuning no estilo GRPO utilizando modelos de Estimativa de Qualidade em Tradução Automática (MTQE) como funções de recompensa para treinar modelos a traduzir melhor idiomatismos. Utilizando conjuntos de dados de expressões idiomáticas em chinês e hindi, constatamos que as habilidades de tradução idiomática melhoram em aproximadamente 14 pontos, a tradução geral não idiomática melhora implicitamente em cerca de 8 pontos, e as habilidades de tradução cross-lingual (treinada em um idioma, avaliada em outro) melhoram em aproximadamente 6 pontos. No geral, nosso trabalho quantifica a lacuna de tradução não composicional e oferece insights para desenvolver LLMs com maior compreensão intercultural e de linguagem figurativa.
A avaliação de Modelos de Linguagem (MLs) em domínios especializados e de alto risco, como as finanças, continua a ser um desafio significativo devido à escassez de conjuntos de dados abertos, de alta qualidade e específicos do domínio. Os benchmarks de propósito geral existentes oferecem uma cobertura ampla, mas carecem da profundidade e fidelidade ao domínio necessárias para avaliar as capacidades dos MLs para o raciocínio financeiro do mundo real, que exige tanto compreensão conceptual como rigor quantitativo. Para colmatar esta lacuna, introduzimos o FinForge, um *pipeline* semi-sintético e escalável para a construção de benchmarks de avaliação específicos para finanças através de uma combinação de curadoria de dados guiada por especialistas e síntese controlada baseada em ML. O FinForge combina a construção manual e programática de um corpus a partir de fontes financeiras autorizadas com a geração e validação estruturada de perguntas utilizando o Gemini 2.5 Flash. Para demonstrar a eficácia do *pipeline*, produzimos o FinForge-5k, um *benchmark* instantâneo que compreende mais de 5.000 pares pergunta-resposta validados manualmente, abrangendo 11 subdomínios financeiros, derivados de um corpus curado de 100.000 documentos verificados, totalizando 143 milhões de *tokens*. A avaliação de modelos *open-source* e *closed-source* de última geração no FinForge-5k revela diferenças significativas no raciocínio financeiro, com os modelos líderes a alcançarem níveis de precisão próximos de 80%. Estes resultados sublinham a utilidade da estrutura para diagnosticar as limitações atuais dos modelos e orientar melhorias futuras na competência no domínio financeiro. Todo o código e dados estão disponíveis em https://github.com/gtfintechlab/FinForge.
O Otimização Direta de Preferências (DPO) é uma alternativa fundamentada e escalável ao RLHF para alinhar modelos de linguagem grandes a partir de preferências pareadas, mas a sua pegada geométrica interna permanece subcaracterizada, limitando auditorias, comparações de *checkpoints* e a previsão de falhas. Apresentamos o SPINAL (*Scaling-law and Preference Integration in Neural Alignment Layers*), um diagnóstico que mede como o alinhamento remodela as representações ao longo da profundidade do modelo, rastreando a mudança estrutural localizada camada por camada. Em diversas famílias de modelos, o DPO produz um efeito de calibração por camada concentrado nos blocos finais do decodificador (frequentemente nas camadas 21 a 30), onde os gradientes de preferência afetam mais diretamente a distribuição do próximo token. O SPINAL codifica cada *checkpoint* como um traço de profundidade sobre (índice da camada, pontuação de contração, pontuação de transporte). A pontuação de contração resume a rapidez com que a cauda do espectro de uma camada decai (a velocidade com que os modos pequenos desaparecem); valores mais altos indicam uma contração mais forte em menos direções efetivas. A pontuação de transporte resume o quanto a distribuição de tokens se desloca entre camadas adjacentes usando uma medida de sobreposição limitada; valores mais baixos indicam passos mais curtos e suaves através do espaço de representação. *Checkpoints* alinhados mostram um aumento progressivo da contração nas camadas finais e uma redução suave no transporte, consistente com uma massa de política mais compacta e estabilizada, enquanto modelos não alinhados traçam caminhos de profundidade de maior curvatura, mais entrópicos e geometricamente incoerentes. No geral, o alinhamento é geometricamente localizado: as camadas finais codificam as correções dominantes induzidas pela preferência. O SPINAL transforma essa localização num sinal prático de auditoria, quantificando onde o alinhamento se concentra, quão fortemente se manifesta e quando começa a desestabilizar durante o treinamento.
A inteligência espacial refere-se à capacidade de perceber, raciocinar e descrever objetos e suas relações em ambientes tridimensionais, formando uma base para a percepção incorporada e a compreensão de cenas. A descrição 3D visa descrever cenas 3D em linguagem natural; no entanto, permanece um desafio devido à esparsidade e irregularidade das nuvens de pontos e, mais criticamente, à fraca ancoragem e limitada generalização fora da distribuição (OOD) dos descritores existentes em ambientes drasticamente diferentes, incluindo cenas 3D internas e externas. Para enfrentar este desafio, propomos o 3D CoCa v2, uma estrutura de descrição 3D generalizável que unifica a aprendizagem visão-linguagem contrastiva com a geração de descrições 3D e ainda melhora a robustez através de pesquisa em tempo de teste (TTS) sem atualizar os parâmetros do descritor. O 3D CoCa v2 baseia-se num prévio semântico congelado baseado em CLIP, um codificador de cenas 3D espacialmente consciente para geometria, e um descodificador multimodal otimizado conjuntamente com objetivos contrastivos e de descrição, evitando detectores externos ou propostas artesanais. Na inferência, o TTS produz candidatos a descrições diversificados e realiza uma seleção guiada por recompensa usando um resumo compacto da cena. Experiências mostram melhorias em relação ao 3D CoCa de +1,50 CIDEr@0.5IoU no ScanRefer e +1,61 CIDEr@0.5IoU no Nr3D, e +3,8 CIDEr@0.25 na avaliação OOD de transição zero no TOD3Cap. O código será disponibilizado em https://github.com/AIGeeksGroup/3DCoCav2.