Artigos de pesquisa em IA selecionados diariamente com traduções
Os sistemas de pesquisa profunda são amplamente utilizados para pesquisa web multi-etapas, análise e síntese entre fontes, porém sua avaliação permanece desafiadora. Os benchmarks existentes frequentemente exigem construção de tarefas com anotação intensiva, dependem de dimensões de avaliação estáticas ou falham em verificar fatos de forma confiável quando as citações estão ausentes. Para preencher essas lacunas, apresentamos o DeepResearchEval, um framework automatizado para construção de tarefas de pesquisa profunda e avaliação agentiva. Para construção de tarefas, propomos um pipeline orientado por persona que gera tarefas de pesquisa realistas e complexas ancoradas em diversos perfis de usuário, aplicando um filtro de dois estágios (Qualificação da Tarefa e Necessidade de Busca) para reter apenas tarefas que exigem integração de evidências multi-fonte e recuperação externa. Para avaliação, propomos um pipeline agentivo com dois componentes: uma Avaliação de Qualidade Ponto a Ponto Adaptativa que deriva dinamicamente dimensões, critérios e pesos de avaliação específicos para cada tarefa, condicionados a cada tarefa gerada, e uma Verificação de Fatos Ativa que extrai e verifica declarações do relatório autonomamente por meio de busca web, mesmo quando as citações estão ausentes.
Os métodos de auto-evolução aprimoram a geração de código através de ciclos iterativos de "gerar-verificar-refinar", contudo, as abordagens existentes sofrem com baixa eficiência de exploração, falhando em descobrir soluções com complexidade superior dentro de orçamentos limitados. Esta ineficiência decorre do viés de inicialização que prende a evolução em regiões de solução pobres, de operações estocásticas não controladas que carecem de orientação por feedback, e da utilização insuficiente de experiências entre tarefas. Para resolver estes estrangulamentos, propomos a Auto-Evolução Controlada (CSE), que consiste em três componentes-chave. A Inicialização por Planeamento Diversificado gera estratégias algorítmicas estruturalmente distintas para uma ampla cobertura do espaço de soluções. A Evolução Genética substitui operações estocásticas por mecanismos guiados por feedback, permitindo mutação direcionada e *crossover* composicional. A Memória de Evolução Hierárquica captura experiências bem-sucedidas e falhadas tanto a nível inter-tarefas como intra-tarefa. Experiências no EffiBench-X demonstram que a CSE supera consistentemente todas as linhas de base em vários modelos de LLM subjacentes. Adicionalmente, a CSE alcança maior eficiência desde as gerações iniciais e mantém uma melhoria contínua ao longo da evolução. O nosso código está publicamente disponível em https://github.com/QuantaAlpha/EvoControl.
Os Agentes de Modelos de Linguagem de Grande Porte (LLM) exibem capacidades de raciocínio inerentes através da colaboração de múltiplas ferramentas. No entanto, durante a inferência do agente, os métodos existentes frequentemente sofrem com (i) geração localmente míope, devido à ausência de antevisão (lookahead), e (ii) instabilidade da trajetória, onde pequenos erros iniciais podem escalar para caminhos de raciocínio divergentes. Esses problemas dificultam o equilíbrio entre a eficácia global e a eficiência computacional. Para abordar essas duas questões, propomos a Exploração Meta-Adaptativa com Agentes LLM (https://github.com/exoskeletonzj/MAXS), uma estrutura de raciocínio meta-adaptativa baseada em Agentes LLM que integra de forma flexível a execução de ferramentas e o planejamento do raciocínio. O MAXS emprega uma estratégia de antevisão para estender os caminhos de raciocínio alguns passos à frente, estimando o valor de vantagem do uso de ferramentas, e combina a variância da consistência do passo e as tendências de inclinação entre passos para selecionar conjuntamente etapas de raciocínio estáveis, consistentes e de alto valor. Adicionalmente, introduzimos um mecanismo de convergência de trajetória que controla o custo computacional interrompendo a exploração adicional uma vez que a consistência do caminho é alcançada, permitindo um equilíbrio entre a eficiência de recursos e a eficácia global no raciocínio com múltiplas ferramentas. Realizamos estudos empíricos extensos em três modelos base (MiMo-VL-7B, Qwen2.5-VL-7B, Qwen2.5-VL-32B) e cinco conjuntos de dados, demonstrando que o MAXS supera consistentemente os métodos existentes tanto em desempenho quanto em eficiência de inferência. Análises adicionais confirmam a eficácia da nossa estratégia de antevisão e do uso de ferramentas.
O raciocínio científico não depende apenas da inferência lógica, mas também da ativação de conhecimento prévio e estruturas experienciais. A memória pode reutilizar conhecimento de forma eficiente e melhorar a consistência e estabilidade do raciocínio. No entanto, os benchmarks existentes avaliam principalmente respostas finais ou a coerência passo a passo, negligenciando os mecanismos orientados pela memória que fundamentam o raciocínio humano, que envolve ativar âncoras e atratores e, em seguida, integrá-los numa inferência de múltiplos passos. Para colmatar esta lacuna, propomos o A³-Bench~ https://a3-bench.github.io, um benchmark concebido para avaliar o raciocínio científico através da ativação dual-scale orientada pela memória, baseado na Ativação de Âncora e Atractor. Primeiro, anotamos 2.198 problemas de raciocínio científico em vários domínios usando o processo SAPM (subject, anchor & attractor, problem, and memory developing). Segundo, introduzimos uma estrutura de avaliação de memória dual-scale que utiliza âncoras e atratores, juntamente com a métrica AAUI (Anchor–Attractor Utilization Index) para medir as taxas de ativação da memória. Finalmente, através de experiências com vários modelos base e paradigmas, validamos o A³-Bench e analisamos como a ativação da memória impacta o desempenho do raciocínio, fornecendo insights sobre o raciocínio científico orientado pela memória.
Neste relatório, apresentamos o DASD-4B-Thinking, um modelo de raciocínio leve, altamente capaz e totalmente de código aberto. Ele atinge desempenho de estado da arte (SOTA) entre os modelos de código aberto de escala comparável em benchmarks desafiadores de matemática, raciocínio científico e geração de código – superando até mesmo vários modelos maiores. Começamos por reexaminar criticamente um paradigma de destilação amplamente adotado na comunidade: o Fine-Tuning Supervisionado (SFT) em respostas geradas pelo professor, também conhecido como destilação em nível de sequência. Embora uma série de trabalhos recentes que seguem este esquema tenham demonstrado eficiência notável e forte desempenho empírico, eles estão fundamentados principalmente na perspectiva do SFT. Consequentemente, essas abordagens focam predominantemente na criação de regras heurísticas para a filtragem de dados de SFT, enquanto ignoram em grande parte o princípio central da destilação em si – permitir que o modelo aluno aprenda a distribuição completa de saída do professor para herdar sua capacidade de generalização. Especificamente, identificamos três limitações críticas na prática atual: i) Representação inadequada da distribuição do professor em nível de sequência; ii) Desalinhamento entre a distribuição de saída do professor e a capacidade de aprendizado do aluno; e iii) Viés de exposição decorrente do treinamento com forçagem do professor (teacher-forcing) versus a inferência autoregressiva. Em resumo, essas deficiências refletem uma ausência sistêmica de interação explícita entre professor e aluno ao longo do processo de destilação, deixando a essência da destilação subexplorada. Para resolver essas questões, propomos várias inovações metodológicas que, coletivamente, formam um *pipeline* de treinamento de destilação em nível de sequência aprimorado. Notavelmente, o DASD-4B-Thinking obtém resultados competitivos usando apenas 448 mil amostras de treinamento – uma ordem de grandeza menor do que a utilizada pela maioria dos esforços existentes de código aberto. Para apoiar a pesquisa da comunidade, disponibilizamos publicamente nossos modelos e o conjunto de dados de treinamento.
As tarefas Visão-Linguagem-Ação (VLA) exigem raciocínio sobre cenas visuais complexas e a execução de ações adaptativas em ambientes dinâmicos. Embora estudos recentes sobre VLAs de raciocínio demonstrem que cadeias de pensamento (CoT) explícitas podem melhorar a generalização, elas sofrem com alta latência de inferência devido aos longos traços de raciocínio. Propomos o Fast-ThinkAct, uma estrutura de raciocínio eficiente que alcança um planeamento compacto e performativo através de raciocínio latente verbalizável. O Fast-ThinkAct aprende a raciocinar eficientemente com CoTs latentes através da destilação de um professor, orientado por um objetivo guiado por preferências para alinhar trajetórias de manipulação que transferem capacidades de planeamento linguístico e visual para o controlo corporificado. Isto permite uma aprendizagem de políticas aprimorada pelo raciocínio que conecta efetivamente o raciocínio compacto à execução de ações. Experimentos extensos em diversos benchmarks de manipulação corporificada e raciocínio demonstram que o Fast-ThinkAct alcança um forte desempenho com até 89,3% de redução na latência de inferência em relação aos VLAs de raciocínio state-of-the-art, mantendo ao mesmo tempo um planeamento eficaz de longo horizonte, adaptação few-shot e recuperação de falhas.
Embora os agentes baseados em LLM tenham mostrado potencial para pesquisas profundas, a maioria das abordagens existentes depende de fluxos de trabalho fixos que lutam para se adaptar a consultas abertas do mundo real. Trabalhos recentes, portanto, exploram a auto-evolução permitindo que os agentes reescrevam seu próprio código ou *prompts* para melhorar a capacidade de resolução de problemas, mas a otimização sem restrições frequentemente desencadeia instabilidade, alucinações e desvio de instruções. Propomos o EvoFSM, uma estrutura de auto-evolução estruturada que alcança tanto adaptabilidade quanto controle evoluindo uma Máquina de Estados Finitos (MEF) explícita, em vez de depender de reescrita livre. O EvoFSM desacopla o espaço de otimização em *Flow* macroscópico (lógica de transição de estados) e *Skill* microscópico (comportamentos específicos do estado), permitindo melhorias direcionadas sob limites comportamentais claros. Guiado por um mecanismo crítico, o EvoFSM refina a MEF por meio de um pequeno conjunto de operações restritas e ainda incorpora uma memória auto-evolutiva que destila trajetórias bem-sucedidas como *priors* reutilizáveis e padrões de falha como restrições para consultas futuras. Avaliações extensas em cinco *benchmarks* de QA multi-hop demonstram a eficácia do EvoFSM. Em particular, o EvoFSM atinge 58,0% de precisão no *benchmark* DeepSearch. Resultados adicionais em tarefas interativas de tomada de decisão validam ainda mais sua generalização.
Os Modelos de Grandes Visão-Linguagem (LVLMs) de propósito geral, apesar de sua escala massiva, frequentemente falham em dermatologia devido à "atenção difusa" - a incapacidade de distinguir lesões patológicas sutis do ruído de fundo. Neste artigo, desafiamos a suposição de que a escala de parâmetros é o único caminho para a precisão médica. Apresentamos o SkinFlow, uma estrutura que trata o diagnóstico como uma otimização da eficiência da transmissão de informações visuais. Nossa abordagem utiliza um Codificador de Visão Dinâmico de Largura Virtual (DVE) para "desdobrar" variedades patológicas complexas sem expansão física de parâmetros, acoplado a uma estratégia de Aprendizado por Reforço em dois estágios. Esta estratégia alinha sequencialmente descrições médicas explícitas (Estágio I) e reconstrói texturas diagnósticas implícitas (Estágio II) dentro de um espaço semântico restrito. Além disso, propomos um protocolo de avaliação clinicamente fundamentado que prioriza a segurança diagnóstica e a relevância hierárquica em detrimento da correspondência rígida de rótulos. Os resultados empíricos são convincentes: nosso modelo de 7B estabelece um novo estado da arte no benchmark Fitzpatrick17k, alcançando um ganho de +12,06% na precisão Top-1 e um aumento de +28,57% na precisão Top-6 sobre os modelos de propósito geral massivos (por exemplo, Qwen3VL-235B e GPT-5.2). Essas descobertas demonstram que a otimização da capacidade geométrica e do fluxo de informações produz um raciocínio diagnóstico superior em comparação com o escalonamento bruto de parâmetros.
O desenvolvimento de grandes modelos de linguagem (LLMs) alcançou desempenho superior em uma série de tarefas subsequentes, incluindo a geração aumentada por recuperação (RAG) baseada em LLMs. A qualidade do conteúdo gerado depende fortemente da utilidade das informações recuperadas e da capacidade do mecanismo interno de processamento de informações dos LLMs para incorporá-las na geração de respostas. Geralmente assume-se que as informações recuperadas são relevantes para a pergunta. No entanto, as informações recuperadas podem apresentar um grau variável de relevância e utilidade, dependendo da pergunta e da coleção de documentos. É importante levar em conta a relevância das informações recuperadas na geração de respostas. Neste artigo, propomos o OpenDecoder, uma nova abordagem que aproveita a avaliação explícita das informações recuperadas como características indicadoras de qualidade para a geração. Visamos construir um modelo RAG mais robusto a diferentes níveis de contexto ruidoso. Três tipos de informação de avaliação explícita são considerados: pontuação de relevância, pontuação de classificação e pontuação QPP (previsão de desempenho da consulta). Os resultados experimentais em cinco conjuntos de dados de referência demonstram a eficácia e melhor robustez do OpenDecoder ao superar vários métodos de linha de base. Importante destacar que este paradigma é flexível para ser integrado ao pós-treinamento de LLMs para quaisquer fins e incorporado a qualquer tipo de indicador externo.
Propomos o OpenVoxel, um algoritmo livre de treinamento para agrupar e descrever vóxels esparsos para tarefas de compreensão de cenas 3D com vocabulário aberto. Dado o modelo de rasterização de vóxels esparsos (SVR, do inglês *Sparse Voxel Rasterization*) obtido a partir de imagens multi-visão de uma cena 3D, nosso OpenVoxel é capaz de produzir agrupamentos significativos que descrevem diferentes objetos na cena. Além disso, ao aproveitar poderosos Modelos de Linguagem Visual (VLMs, do inglês *Vision Language Models*) e Modelos de Linguagem Grande Multimodais (MLLMs, do inglês *Multi-modal Large Language Models*), nosso OpenVoxel constrói com sucesso um mapa de cena informativo ao gerar legendas para cada grupo, permitindo tarefas avançadas de compreensão de cenas 3D, como segmentação de vocabulário aberto (OVS, do inglês *Open-Vocabulary Segmentation*) ou segmentação por expressão de referência (RES, do inglês *Referring Expression Segmentation*). Diferente de métodos anteriores, nossa abordagem é livre de treinamento e não introduz *embeddings* de um codificador de texto CLIP/BERT. Em vez disso, realizamos diretamente uma busca texto-a-texto usando MLLMs. Por meio de experimentos extensivos, nosso método demonstra desempenho superior em comparação com estudos recentes, particularmente em tarefas complexas de segmentação por expressão de referência (RES). O código será aberto.
Apresentamos o TranslateGemma, uma suíte de modelos abertos de tradução automática baseada nos modelos fundamentais Gemma 3. Para aprimorar as capacidades multilingues inerentes do Gemma 3 para a tarefa de tradução, empregamos um processo de afinação em duas etapas. Primeiro, é realizada uma afinação supervisionada utilizando uma mistura rica de dados paralelos sintéticos de larga escala e de alta qualidade, gerados através de modelos de última geração, e dados paralelos traduzidos por humanos. Esta etapa é seguida por uma fase de aprendizagem por reforço, na qual otimizamos a qualidade da tradução usando um conjunto de modelos de recompensa, incluindo o MetricX-QE e o AutoMQM, com foco na qualidade da tradução. Demonstramos a eficácia do TranslateGemma com avaliação humana no conjunto de testes WMT25 em 10 pares de línguas e com avaliação automática no benchmark WMT24++ em 55 pares de línguas. As métricas automáticas mostram ganhos consistentes e substanciais em relação aos modelos baseline Gemma 3 em todos os tamanhos. Notavelmente, os modelos TranslateGemma menores frequentemente alcançam um desempenho comparável aos modelos baseline maiores, oferecendo uma eficiência melhorada. Também mostramos que os modelos TranslateGemma mantêm fortes capacidades multimodais, com desempenho aprimorado no benchmark de tradução de imagens Vistra. A libertação dos modelos abertos TranslateGemma visa fornecer à comunidade de pesquisa ferramentas poderosas e adaptáveis para a tradução automática.
Os Modelos Visão-Linguagem (VLMs) têm demonstrado desempenho notável em tarefas de ancoragem em Interface de Utilizador (UI), impulsionados pela sua capacidade de processar capturas de ecrã de resolução cada vez mais alta. No entanto, as capturas de ecrã são tokenizadas em milhares de *tokens* visuais (por exemplo, cerca de 4700 para resolução 2K), incorrendo em sobrecarga computacional significativa e diluindo a atenção. Em contraste, os humanos normalmente concentram-se em regiões de interesse ao interagir com uma UI. Neste trabalho, somos pioneiros na tarefa de ancoragem eficiente em UI. Guiados por uma análise prática das características e desafios da tarefa, propomos o FocusUI, um *framework* de ancoragem em UI eficiente que seleciona os *patches* mais relevantes para a instrução, preservando ao mesmo tempo a continuidade posicional para uma ancoragem precisa. O FocusUI aborda dois desafios principais: (1) Eliminar *tokens* redundantes na codificação visual. Construímos supervisão a nível de *patch* fundindo uma pontuação condicionada pela instrução com uma pontuação baseada em regras de um grafo de UI que reduz o peso de grandes regiões homogéneas para selecionar *tokens* visuais distintos e relevantes para a instrução. (2) Preservar a continuidade posicional durante a seleção de *tokens* visuais. Descobrimos que os métodos gerais de poda de *tokens* visuais sofrem de uma degradação severa de precisão em tarefas de ancoragem em UI devido à quebra de informação posicional. Introduzimos uma nova estratégia PosPad, que comprime cada sequência contígua de *tokens* visuais descartados num único marcador especial colocado no último índice da sequência para preservar a continuidade posicional. Experiências abrangentes em quatro *benchmarks* de ancoragem demonstram que o FocusUI supera as linhas de base específicas para GUI. No *benchmark* ScreenSpot-Pro, o FocusUI-7B alcança uma melhoria de desempenho de 3,7% em relação ao GUI-Actor-7B. Mesmo com apenas 30% de retenção de *tokens* visuais, o FocusUI-7B decai apenas 3,2%, enquanto alcança uma inferência até 1,44x mais rápida e um pico de memória GPU 17% menor.
A intervenção por experiência em agentes web surge como um paradigma técnico promissor, aprimorando as capacidades de interação do agente ao fornecer insights valiosos a partir de experiências acumuladas. No entanto, os métodos existentes injetam experiência predominantemente de forma passiva como contexto global antes da execução da tarefa, lutando para se adaptar a observações contextuais dinamicamente mutáveis durante a interação agente-ambiente. Propomos o ExpSeek, que desloca a experiência para uma busca proativa em nível de etapa: (1) estimando limiares de entropia em nível de etapa para determinar o momento da intervenção usando os sinais intrínsecos do modelo; (2) projetando conteúdo de experiência personalizado em nível de etapa. Experimentos com os modelos Qwen3-8B e 32B em quatro benchmarks desafiadores para agentes web demonstram que o ExpSeek alcança melhorias absolutas de 9,3% e 7,5%, respectivamente. Nossos experimentos validam a viabilidade e as vantagens da entropia como um sinal de autoativação e revelam que mesmo um modelo de experiência de pequena escala (4B) pode impulsionar significativamente o desempenho de modelos de agente maiores.
Avanços recentes em modelos de mundo têm demonstrado potencial para modelar a dinâmica futura de estados ambientais, permitindo que agentes raciocinem e ajam sem acessar ambientes reais. Os métodos atuais realizam principalmente rollouts de etapa única ou de horizonte fixo, deixando seu potencial para planejamento de tarefas complexas subexplorado. Propomos o Imagine-then-Plan (ITP), uma estrutura unificada para aprendizado de agentes via imaginação de antecipação, onde o modelo de política de um agente interage com o modelo de mundo aprendido, gerando trajetórias "imaginadas" de múltiplas etapas. Como o horizonte de imaginação pode variar conforme tarefas e estágios, introduzimos um novo mecanismo adaptativo de antecipação que equilibra o objetivo final e o progresso da tarefa. As trajetórias imaginadas resultantes fornecem sinais ricos sobre consequências futuras, como progresso alcançado e conflitos potenciais, que são fundidos com observações atuais, formulando um processo de decisão de Markov parcialmente observável e imaginável para orientar o aprendizado da política. Instanciamos o ITP com variantes livres de treinamento e treinadas por reforço. Experimentos extensos em benchmarks representativos de agentes demonstram que o ITP supera significativamente as linhas de base competitivas. Análises adicionais validam que nossa antecipação adaptativa amplamente aumenta a capacidade de raciocínio dos agentes, fornecendo insights valiosos para abordar tarefas complexas mais amplas.
O treinamento de Grandes Modelos de Linguagem (LLM) frequentemente otimiza o alinhamento de preferências, recompensando saídas percebidas como úteis e amigáveis para a interação. No entanto, este objetivo orientado por preferências pode ser explorado: *prompts* manipulativos podem direcionar as respostas para uma concordância que agrada ao usuário e para longe de uma correção orientada pela verdade. Neste trabalho, investigamos se os modelos alinhados são vulneráveis a Ataques de Subversão de Preferências (PUA), uma classe de estratégias de *prompting* manipulativo projetadas para explorar o desejo do modelo de agradar às preferências do usuário à custa da veracidade. Propomos uma metodologia de diagnóstico que fornece uma análise mais refinada e diretiva do que as pontuações agregadas de *benchmarks*, utilizando uma estrutura de avaliação fatorial para decompor os desvios induzidos pelos *prompts* em efeitos interpretáveis de objetivos do sistema (orientados para a verdade vs. para a preferência) e fatores de diálogo no estilo PUA (controle diretivo, difamação pessoal, aprovação condicional, negação da realidade) dentro de um projeto controlado 2 vezes 2^4. Surpreendentemente, modelos mais avançados são, por vezes, mais suscetíveis a *prompts* manipulativos. Para além do fator dominante de negação da realidade, observamos inversões de sinal específicas do modelo e interações com fatores no estilo PUA, sugerindo defesas personalizadas em vez de uma robustez uniforme. Estes resultados oferecem uma metodologia de avaliação fatorial nova e reproduzível que fornece diagnósticos mais refinados para processos pós-treinamento como o RLHF, permitindo melhores trade-offs na iteração de produto dos LLMs ao oferecer uma compreensão mais nuançada dos riscos do alinhamento de preferências e do impacto de *prompts* manipulativos.
Os modelos generativos de vídeo modernos baseados em modelos de difusão podem produzir clipes muito realistas, mas são computacionalmente ineficientes, frequentemente exigindo minutos de tempo de GPU para gerar apenas alguns segundos de vídeo. Essa ineficiência representa uma barreira crítica para a implantação de vídeo generativo em aplicações que exigem interações em tempo real, como IA incorporada e VR/AR. Este artigo explora uma nova estratégia para geração de vídeo condicionada por câmera de cenas estáticas: usar modelos generativos baseados em difusão para gerar um conjunto esparso de quadros-chave e, em seguida, sintetizar o vídeo completo por meio de reconstrução 3D e renderização. Ao elevar os quadros-chave para uma representação 3D e renderizar visões intermediárias, nossa abordagem amortiza o custo de geração através de centenas de quadros, enquanto impõe consistência geométrica. Introduzimos ainda um modelo que prevê o número ideal de quadros-chave para uma determinada trajetória de câmera, permitindo que o sistema aloque computação de forma adaptativa. Nosso método final, SRENDER, utiliza quadros-chave muito esparsos para trajetórias simples e mais densos para movimentos complexos de câmera. Isso resulta em uma geração de vídeo mais de 40 vezes mais rápida do que a linha de base baseada em difusão na geração de 20 segundos de vídeo, mantendo alta fidelidade visual e estabilidade temporal, oferecendo um caminho prático para síntese de vídeo eficiente e controlável.
Os sistemas corporificados experienciam o mundo como "uma sinfonia de fluxos": uma combinação de múltiplos fluxos contínuos de entrada sensorial acoplados ao auto movimento, entrelaçados com a dinâmica de objetos externos. Estes fluxos obedecem a simetrias suaves, parametrizadas no tempo, que se combinam através de uma álgebra precisamente estruturada; no entanto, a maioria dos modelos de mundo baseados em redes neurais ignora esta estrutura e, em vez disso, reaprende repetidamente as mesmas transformações a partir dos dados. Neste trabalho, introduzimos os 'Modelos de Mundo Equivariantes a Fluxos', uma estrutura na qual tanto o auto movimento quanto o movimento de objetos externos são unificados como 'fluxos' de grupos de Lie de um parâmetro. Aproveitamos esta unificação para implementar a equivariância de grupo em relação a estas transformações, fornecendo assim uma representação latente estável do mundo ao longo de centenas de passos de tempo. Tanto em benchmarks de modelagem de mundo em vídeo 2D como 3D com observação parcial, demonstramos que os Modelos de Mundo Equivariantes a Fluxos superam significativamente arquiteturas comparáveis de modelagem de mundo baseadas em difusão e aumentadas por memória do estado da arte – particularmente quando existem dinâmicas previsíveis do mundo fora do campo de visão atual do agente. Mostramos que a equivariância a fluxos é particularmente benéfica para rollouts longos, generalizando muito além do horizonte de treinamento. Ao estruturar as representações do modelo de mundo em relação ao movimento interno e externo, a equivariância a fluxos traça uma rota escalável para uma inteligência corporificada, guiada por simetrias e eficiente em dados. Link do projeto: https://flowequivariantworldmodels.github.io.
A análise de representações aprendidas tem um ponto cego: ela se concentra na similaridade, medindo o quão próximos os *embeddings* estão de referências externas, mas a similaridade revela apenas o que é representado, não se essa estrutura é robusta. Introduzimos a estabilidade geométrica, uma dimensão distinta que quantifica a confiabilidade com que a geometria representacional se mantém sob perturbação, e apresentamos o Shesha, uma estrutura para medi-la. Em 2.463 configurações em sete domínios, mostramos que estabilidade e similaridade são empiricamente não correlacionadas (ρ ≈ 0,01) e mecanicamente distintas: as métricas de similaridade colapsam após a remoção dos principais componentes principais, enquanto a estabilidade mantém a sensibilidade à estrutura de *manifold* de granularidade fina. Essa distinção gera *insights* acionáveis: para monitoramento de segurança, a estabilidade atua como um canário geométrico funcional, detectando *drift* estrutural quase 2 vezes mais sensivelmente do que o CKA, enquanto filtra o ruído não funcional que dispara alarmes falsos em métricas de distância rígidas; para controlabilidade, a estabilidade supervisionada prevê a capacidade de direcionamento linear (ρ = 0,89-0,96); para seleção de modelos, a estabilidade se dissocia da transferibilidade, revelando um ônus geométrico que a otimização por transferência incorre. Além do aprendizado de máquina, a estabilidade prevê coerência de perturbação por CRISPR e acoplamento neurocomportamental. Ao quantificar a confiabilidade com que os sistemas mantêm a estrutura, a estabilidade geométrica fornece um complemento necessário à similaridade para auditar representações em sistemas biológicos e computacionais.
A memória desempenha um papel fundamental no aumento da capacidade de raciocínio, adaptabilidade e fidelidade contextual dos modernos Modelos de Linguagem de Grande Porte (LLMs) e LLMs Multimodais (MLLMs). À medida que esses modelos transitam de preditores estáticos para sistemas interativos capazes de aprendizagem contínua e inferência personalizada, a incorporação de mecanismos de memória emergiu como um tema central em sua evolução arquitetônica e funcional. Este estudo apresenta uma síntese abrangente e estruturada da memória em LLMs e MLLMs, organizando a literatura em uma taxonomia coesa que compreende os paradigmas de memória implícita, explícita e agentiva. Especificamente, o estudo delineia três estruturas de memória primárias. A memória implícita refere-se ao conhecimento incorporado nos parâmetros internos de transformadores pré-treinados, abrangendo sua capacidade de memorização, recuperação associativa e raciocínio contextual. Trabalhos recentes exploraram métodos para interpretar, manipular e reconfigurar essa memória latente. A memória explícita envolve componentes externos de armazenamento e recuperação projetados para aumentar as saídas do modelo com representações de conhecimento dinâmicas e consultáveis, como corpora textuais, vetores densos e estruturas baseadas em grafos, permitindo assim uma interação escalável e atualizável com fontes de informação. A memória agentiva introduz estruturas de memória persistentes e temporalmente estendidas dentro de agentes autônomos, facilitando o planejamento de longo prazo, a autoconsistência e o comportamento colaborativo em sistemas multiagente, com relevância para a IA incorporada e interativa. Indo além do texto, o estudo examina a integração da memória em contextos multimodais, onde a coerência entre as modalidades visual, linguística, auditiva e de ação é essencial. Avanços arquitetônicos-chave, tarefas de benchmark e desafios em aberto são discutidos, incluindo questões relacionadas à capacidade de memória, alinhamento, consistência factual e interoperabilidade entre sistemas.
A tarefa de geração de Imagem-para-Vídeo (I2V) visa sintetizar um vídeo a partir de uma imagem de referência e um prompt de texto. Isto exige que os modelos de difusão reconciliem restrições visuais de alta frequência e orientação textual de baixa frequência durante o processo de eliminação de ruído. No entanto, embora os modelos I2V existentes priorizem a consistência visual, a forma de acoplar eficazmente esta dupla orientação para garantir uma forte adesão ao prompt de texto permanece pouco explorada. Neste trabalho, observamos que em modelos I2V baseados em Transformadores de Difusão (DiT), certas camadas intermédias exibem respostas semânticas fracas (denominadas Camadas Semanticamente Fracas), conforme indicado por uma queda mensurável na similaridade texto-visual. Atribuímos isto a um fenómeno denominado Isolamento de Condição, onde a atenção às características visuais se desprende parcialmente da orientação textual e depende excessivamente de prioris visuais aprendidas. Para resolver isto, propomos a Orientação Focal (FG), que melhora a controlabilidade das Camadas Semanticamente Fracas. A FG compreende dois mecanismos: (1) A Orientação Semântica de Granulação Fina (FSG) aproveita o CLIP para identificar regiões-chave no frame de referência e usá-las como âncoras para orientar as Camadas Semanticamente Fracas. (2) A Cache de Atenção transfere mapas de atenção de camadas semanticamente responsivas para as Camadas Semanticamente Fracas, injetando sinais semânticos explícitos e aliviando a sua excessiva dependência dos prioris visuais aprendidos pelo modelo, melhorando assim a adesão às instruções textuais. Para validar ainda mais a nossa abordagem e colmatar a falta de avaliação nesta direção, introduzimos um benchmark para avaliar o seguimento de instruções em modelos I2V. Neste benchmark, a Orientação Focal comprova a sua eficácia e generalizabilidade, elevando a pontuação total no Wan2.1-I2V para 0.7250 (+3.97%) e impulsionando o HunyuanVideo-I2V baseado em MMDiT para 0.5571 (+7.44%).
Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) estão a fazer progressos significativos no raciocínio multimodal. As abordagens iniciais centravam-se no raciocínio puramente baseado em texto. Estudos mais recentes incorporaram informação multimodal nas etapas de raciocínio; no entanto, seguem frequentemente um padrão de raciocínio único e específico para cada tarefa, o que limita a sua generalização em várias tarefas multimodais. Na verdade, existem inúmeras tarefas multimodais que exigem competências de raciocínio diversificadas, como ampliar uma região específica ou marcar um objeto dentro de uma imagem. Para resolver isto, propomos um raciocínio multimodal generativo unificado, que unifica diversas competências de raciocínio multimodal através da geração de imagens intermédias durante o processo de raciocínio. Instanciamos este paradigma com o Omni-R1, uma estrutura SFT+RL em duas etapas que inclui uma perda de alinhamento perceptual e uma recompensa perceptual, permitindo assim a geração funcional de imagens. Adicionalmente, introduzimos o Omni-R1-Zero, que elimina a necessidade de anotações multimodais ao obter visualizações passo a passo a partir de dados de raciocínio apenas textuais. Resultados empíricos mostram que o Omni-R1 alcança um raciocínio generativo unificado numa vasta gama de tarefas multimodais, e o Omni-R1-Zero pode igualar ou até superar em média o Omni-R1, sugerindo uma direção promissora para o raciocínio multimodal generativo.
A aprendizagem por reforço (RL) guiada por crítica emergiu como um paradigma poderoso para treinar agentes de LLM, aumentando as recompensas esparsas de resultado com *feedback* em linguagem natural. No entanto, os métodos atuais frequentemente dependem de modelos críticos estáticos ou *offline*, que falham em se adaptar à medida que a política evolui. Na RL *on-policy*, os padrões de erro do agente mudam ao longo do tempo, fazendo com que os críticos estacionários se tornem desatualizados e forneçam um *feedback* de utilidade decrescente. Para resolver isso, introduzimos o ECHO (*Evolving Critic for Hindsight-Guided Optimization*), uma estrutura que otimiza conjuntamente a política e o crítico através de um ciclo coevolutivo sincronizado. O ECHO utiliza um mecanismo de *rollout* em cascata, onde o crítico gera múltiplos diagnósticos para uma trajetória inicial, seguido de um refinamento da política para permitir uma estimativa de vantagem com estrutura de grupo. Abordamos o desafio dos platôs de aprendizagem através de um objetivo de modelagem de ganho sensível à saturação, que recompensa o crítico por induzir melhorias incrementais em trajetórias de alto desempenho. Ao empregar atualizações GRPO de dupla via, o ECHO garante que o *feedback* do crítico permaneça sincronizado com a política em evolução. Resultados experimentais mostram que o ECHO produz um treinamento mais estável e um maior sucesso em tarefas de longo horizonte em ambientes de mundo aberto.
Os modelos de linguagem de grande porte frequentemente geram resumos plausíveis, porém infiéis, que os usuários não conseguem verificar em relação ao texto-fonte, uma limitação crítica em domínios sensíveis à conformidade, como a análise governamental e jurídica. Apresentamos o sui-1, um modelo de 24B de parâmetros que produz resumos abstrativos com citações em linha, permitindo que os usuários rastreiem cada afirmação até a sua frase de origem. Nossa pipeline de dados sintéticos combina a técnica de *chain-of-thought* com verificação em múltiplos estágios, gerando mais de 22.000 exemplos de treinamento de alta qualidade em cinco idiomas a partir de fontes diversas, incluindo documentos parlamentares, texto da web e Wikipedia. A avaliação mostra que o sui-1 supera significativamente todas as linhas de base de pesos abertos testadas, incluindo modelos com 3 vezes mais parâmetros. Estes resultados demonstram que o treinamento específico para a tarefa supera substancialmente apenas a escala para a sumarização fundamentada em citações. Os pesos do modelo e uma demonstração interativa estão publicamente disponíveis.
O aprendizado por reforço (RL) oferece uma abordagem fundamentada para aprimorar as capacidades de raciocínio de modelos de linguagem de grande porte, contudo sua eficácia depende de sinais de treinamento que permaneçam informativos à medida que os modelos evoluem. Na prática, o progresso do RL frequentemente desacelera quando a dificuldade da tarefa fica mal alinhada com a capacidade do modelo, ou quando o treinamento é dominado por um conjunto restrito de padrões recorrentes de problemas. Para abordar essas questões conjuntamente, propomos o SCALER (Ambiente de Aprendizado Adaptável Sintético e Escalável para Raciocínio), uma estrutura que mantém sinais de aprendizado eficazes por meio de um design de ambiente adaptativo. O SCALER introduz um *pipeline* de síntese escalável que converte problemas de programação do mundo real em ambientes de raciocínio verificáveis com dificuldade controlável e geração ilimitada de instâncias, permitindo o treinamento por RL além de conjuntos de dados finitos, preservando fortes garantias de correção. Com base nisso, o SCALER emprega ainda uma estratégia de RL multi-ambiente adaptativa que ajusta dinamicamente a dificuldade das instâncias e seleciona o conjunto ativo de ambientes para acompanhar a fronteira de capacidade do modelo e manter a diversidade distribucional. Esta co-adaptação previne a esparsidade de recompensas, mitiga o sobreajuste a padrões de tarefa restritos e apoia uma melhoria sustentada ao longo do treinamento. Experimentos extensivos mostram que o SCALER supera consistentemente as linhas de base de RL baseadas em conjuntos de dados em diversas referências de raciocínio e exibe dinâmicas de treinamento mais estáveis e de longo prazo.
A melhoria de grandes modelos de linguagem (LLMs) baseada em aprendizagem por reforço (RL) frequentemente resulta em uma redução da diversidade das saídas, comprometendo sua utilidade em tarefas de final aberto, como a escrita criativa. Os métodos atuais carecem de mecanismos explícitos para orientar uma exploração diversificada, priorizando a eficiência de otimização e o desempenho em detrimento da diversidade. Este artigo propõe um framework de RL estruturado em torno de uma longa Cadeia de Pensamento (CoT) semiestruturada, na qual o processo de geração é decomposto em etapas intermediárias explicitamente planejadas. Introduzimos um método de Ramificação de Planejamento Diversificado que introduz estrategicamente divergência na fase de planejamento com base na variação de diversidade, juntamente com uma recompensa de diversidade consciente do grupo para incentivar trajetórias distintas. Resultados experimentais em benchmarks de escrita criativa demonstram que nossa abordagem melhora significativamente a diversidade das saídas sem comprometer a qualidade da geração, superando consistentemente as linhas de base existentes.
A alocação de carga de trabalho em clusters frequentemente requer configurações complexas, criando uma lacuna de usabilidade. Este artigo introduz um paradigma de agendamento semântico e orientado a intenções para sistemas de cluster usando Processamento de Linguagem Natural. O sistema emprega um Modelo de Linguagem de Grande Escala (LLM) integrado via um extensor do agendador do Kubernetes para interpretar anotações de dicas de alocação em linguagem natural para preferências de afinidade flexível. Foi desenvolvido um protótipo contendo um cache de estado do cluster e um analisador de intenções (usando AWS Bedrock). A avaliação empírica demonstrou alta precisão de análise do LLM (>95% de Acurácia por Subconjunto em um conjunto de dados de avaliação com verdade real) para modelos de primeira linha como Amazon Nova Pro/Premier e Mistral Pixtral Large, superando significativamente um mecanismo de linha de base. Testes de qualidade de agendamento em seis cenários mostraram que o protótipo alcançou posicionamento superior ou equivalente em comparação com configurações padrão do Kubernetes, destacando-se especialmente em cenários complexos e quantitativos e no tratamento de preferências flexíveis conflitantes. Os resultados validam o uso de LLMs para um agendamento acessível, mas destacam limitações como a latência síncrona do LLM, sugerindo processamento assíncrono para prontidão em produção. Este trabalho confirma a viabilidade da afinidade flexível semântica para simplificar a orquestração de cargas de trabalho.
A qualidade da tokenização por subpalavras é crucial para os Modelos de Linguagem de Grande Porte, mas a avaliação de tokenizadores para línguas urálicas morfologicamente ricas é dificultada pela falta de léxicos morfológicos limpos. Apresentamos o SampoNLP, um kit de ferramentas independente de corpus para criação de léxicos morfológicos que utiliza Pontuação de Atomicidade Autorreferencial inspirada no Princípio do Mínimo Descrição (MDL), a qual filtra formas compostas através de pistas estruturais internas - adequado para contextos de baixos recursos. Utilizando os léxicos de alta pureza gerados pelo SampoNLP para finlandês, húngaro e estoniano, realizamos uma avaliação sistemática de tokenizadores BPE (Byte-Pair Encoding) em uma variedade de tamanhos de vocabulário (8k-256k). Propomos uma métrica unificada, o *Integrated Performance Score* (IPS), para navegar o compromisso entre a cobertura de morfemas e a segmentação excessiva. Ao analisar as curvas de IPS, identificamos os "pontos de inflexão" de retornos decrescentes e fornecemos as primeiras recomendações empiricamente fundamentadas para tamanhos de vocabulário ótimos (k) nessas línguas. Nosso estudo não apenas oferece orientação prática, mas também demonstra quantitativamente as limitações do BPE padrão para línguas altamente aglutinantes. A biblioteca SampoNLP e todos os recursos gerados estão publicamente disponíveis: https://github.com/AragonerUA/SampoNLP