Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Being-H0.5, um modelo fundamental Visão-Linguagem-Ação (VLA) projetado para uma generalização robusta de incorporação cruzada em diversas plataformas robóticas. Enquanto os VLAs existentes frequentemente lutam contra a heterogeneidade morfológica e a escassez de dados, propomos um paradigma de aprendizagem centrado no humano que trata os rastros de interação humana como uma "língua materna" universal para a interação física. Para sustentar isso, apresentamos o UniHand-2.0, a maior receita de pré-treinamento incorporado até o momento, compreendendo mais de 35.000 horas de dados multimodais em 30 incorporações robóticas distintas. Nossa abordagem introduz um Espaço de Ação Unificado que mapeia controles heterogêneos de robôs em slots semanticamente alinhados, permitindo que robôs de baixos recursos inicializem habilidades a partir de dados humanos e de plataformas de altos recursos. Construído sobre esta base centrada no humano, projetamos um paradigma unificado de modelagem sequencial e pré-treinamento multitarefa para unir demonstrações humanas e execução robótica. Arquitetonicamente, o Being-H0.5 utiliza um design *Mixture-of-Transformers* com uma nova estrutura *Mixture-of-Flow* (MoF) para desacoplar primitivas motoras compartilhadas de especialistas específicos de incorporação. Finalmente, para tornar as políticas de incorporação cruzada estáveis no mundo real, introduzimos o *Manifold-Preserving Gating* para robustez sob mudança sensorial e o *Universal Async Chunking* para universalizar o controle segmentado entre incorporações com diferentes latências e perfis de controle. Demonstramos empiricamente que o Being-H0.5 alcança resultados de última geração em benchmarks simulados, como LIBERO (98,9%) e RoboCasa (53,9%), além de exibir fortes capacidades de incorporação cruzada em cinco plataformas robóticas.
A resolução de problemas, uma tarefa complexa de Engenharia de Software (ESW) integrante do desenvolvimento do mundo real, emergiu como um desafio atraente para a inteligência artificial. O estabelecimento de *benchmarks* como o SWE-bench revelou que esta tarefa é profundamente difícil para modelos de linguagem de grande escala, acelerando assim significativamente a evolução de agentes de codificação autónomos. Este artigo apresenta um levantamento sistemático deste domínio emergente. Começamos por examinar os *pipelines* de construção de dados, abrangendo abordagens de recolha e síntese automatizadas. Em seguida, fornecemos uma análise abrangente das metodologias, abrangendo desde arquiteturas sem treino com os seus componentes modulares até técnicas baseadas em treino, incluindo o ajuste fino supervisionado e a aprendizagem por reforço. Posteriormente, discutimos análises críticas sobre a qualidade dos dados e o comportamento do agente, juntamente com aplicações práticas. Por fim, identificamos desafios-chave e delineamos direções promissoras para pesquisas futuras. Um repositório de código aberto é mantido em https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution para servir como um recurso dinâmico nesta área.
Nos últimos anos, tem havido um interesse crescente em estender os grandes modelos de linguagem para sistemas agentivos. Embora a eficácia dos agentes tenha continuado a melhorar, a eficiência, que é crucial para a implantação no mundo real, tem sido frequentemente negligenciada. Este artigo, portanto, investiga a eficiência a partir de três componentes centrais dos agentes: memória, aprendizagem de ferramentas e planeamento, considerando custos como latência, *tokens*, passos, etc. Com o objetivo de realizar uma pesquisa abrangente que aborde a eficiência do próprio sistema agentivo, revisamos uma ampla gama de abordagens recentes que diferem na implementação, mas frequentemente convergem para princípios de alto nível partilhados, incluindo, mas não se limitando a: limitar o contexto através de compressão e gestão, projetar recompensas de aprendizagem por reforço para minimizar a invocação de ferramentas e empregar mecanismos de busca controlada para melhorar a eficiência, os quais discutimos em detalhe. Consequentemente, caracterizamos a eficiência de duas formas complementares: comparando a eficácia sob um orçamento de custo fixo e comparando o custo num nível comparável de eficácia. Este equilíbrio também pode ser visto através da fronteira de Pareto entre eficácia e custo. Desta perspetiva, também examinamos *benchmarks* orientados para a eficiência, resumindo os protocolos de avaliação para estes componentes e consolidando as métricas de eficiência comumente reportadas, tanto em estudos de *benchmark* como metodológicos. Além disso, discutimos os principais desafios e direções futuras, com o objetivo de fornecer perspetivas promissoras.
Os vídeos transmitem informações mais ricas do que imagens ou texto, capturando tanto dinâmicas espaciais quanto temporais. No entanto, a maioria dos métodos existentes de personalização de vídeo depende de imagens de referência ou de prévias temporais específicas da tarefa, falhando em explorar plenamente as ricas informações espaço-temporais inerentes aos vídeos, limitando assim a flexibilidade e a generalização na geração de vídeos. Para superar essas limitações, propomos o OmniTransfer, um framework unificado para transferência espaço-temporal de vídeos. Ele aproveita informações multi-visão entre quadros para melhorar a consistência da aparência e explora pistas temporais para permitir um controle temporal refinado. Para unificar várias tarefas de transferência de vídeo, o OmniTransfer incorpora três projetos-chave: Tendência Posicional Consciente da Tarefa, que aproveita adaptativamente as informações do vídeo de referência para melhorar o alinhamento temporal ou a consistência da aparência; Aprendizado Causal com Referência Desacoplada, que separa os ramos de referência e destino para permitir uma transferência de referência precisa enquanto melhora a eficiência; e Alinhamento Multimodal Adaptativo à Tarefa, que usa orientação semântica multimodal para distinguir e abordar dinamicamente diferentes tarefas. Experimentos extensos mostram que o OmniTransfer supera os métodos existentes em transferência de aparência (ID e estilo) e transferência temporal (movimento de câmera e efeitos de vídeo), enquanto equipara métodos guiados por pose na transferência de movimento sem usar pose, estabelecendo um novo paradigma para geração de vídeos flexível e de alta fidelidade.
Compreender e raciocinar sobre o mundo físico exige inteligência espacial: a capacidade de interpretar geometria, perspectiva e relações espaciais para além da percepção 2D. Embora os modelos visuais de grande escala (VLMs) recentes se destaquem na compreensão visual, eles permanecem fundamentalmente como perceptores 2D e lutam com o raciocínio 3D genuíno. Apresentamos o Think3D, uma estrutura que permite a agentes VLM pensar com o espaço 3D. Ao aproveitar modelos de reconstrução 3D que recuperam nuvens de pontos e poses de câmera a partir de imagens ou vídeos, o Think3D permite que o agente manipule ativamente o espaço através de operações baseadas em câmera e comutação entre visão egocêntrica/global, transformando o raciocínio espacial em um processo interativo de cadeia de pensamento 3D. Sem treinamento adicional, o Think3D melhora significativamente o desempenho de raciocínio espacial de modelos avançados como GPT-4.1 e Gemini 2.5 Pro, resultando em ganhos médios de +7,8% no BLINK Multi-view e MindCube, e +4,7% no VSI-Bench. Mostramos ainda que modelos menores, que têm dificuldades com a exploração espacial, beneficiam-se significativamente de uma política de aprendizagem por reforço que permite ao modelo selecionar pontos de vista e operações informativos. Com a AR, o benefício do uso da ferramenta aumenta de +0,7% para +6,8%. Nossas descobertas demonstram que a exploração espacial aumentada por ferramentas e livre de treinamento é um caminho viável para um raciocínio 3D mais flexível e semelhante ao humano em agentes multimodais, estabelecendo uma nova dimensão da inteligência multimodal. Código e pesos são disponibilizados em https://github.com/zhangzaibin/spagent.
A Interpretabilidade Mecanicista (IM) emergiu como uma abordagem vital para desmistificar a tomada de decisão opaca dos Grandes Modelos de Linguagem (LLMs). No entanto, as revisões existentes tratam a IM principalmente como uma ciência observacional, resumindo insights analíticos, mas carecendo de uma estrutura sistemática para intervenção acionável. Para preencher essa lacuna, apresentamos uma pesquisa prática estruturada em torno do pipeline: "Localizar, Direcionar e Melhorar". Categorizamos formalmente os métodos de Localização (diagnóstico) e Direcionamento (intervenção) com base em Objetos Interpretáveis específicos para estabelecer um protocolo de intervenção rigoroso. Além disso, demonstramos como essa estrutura permite melhorias tangíveis em Alinhamento, Capacidade e Eficiência, operacionalizando efetivamente a IM como uma metodologia acionável para a otimização de modelos. A lista curada de artigos deste trabalho está disponível em https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
Embora os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) demonstrem uma forte percepção omni-modal, a sua capacidade de prever eventos futuros a partir de pistas audiovisuais permanece largamente inexplorada, uma vez que os benchmarks existentes se concentram principalmente na compreensão retrospectiva. Para colmatar esta lacuna, introduzimos o FutureOmni, o primeiro benchmark concebido para avaliar a previsão omni-modal de eventos futuros a partir de ambientes audiovisuais. Os modelos avaliados são obrigados a realizar raciocínio causal e temporal cruzado, bem como a aproveitar eficazmente o conhecimento interno para prever eventos futuros. O FutureOmni é construído através de um pipeline escalável assistido por LLM com intervenção humana e contém 919 vídeos e 1.034 pares de perguntas e respostas de múltipla escolha abrangendo 8 domínios principais. As avaliações em 13 modelos omni-modais e 7 modelos apenas de vídeo mostram que os sistemas atuais têm dificuldades com a previsão futura audiovisual, particularmente em cenários com elevado conteúdo de fala, com a melhor precisão de 64,8% alcançada pelo Gemini 3 Flash. Para mitigar esta limitação, compilámos um conjunto de dados de afinação por instrução com 7.000 amostras e propomos uma estratégia de treino de Previsão Futura Omni-Modal (OFF, na sigla em inglês). As avaliações no FutureOmni e em benchmarks populares audiovisuais e apenas de vídeo demonstram que o OFF melhora a previsão futura e a generalização. Disponibilizamos publicamente todo o código (https://github.com/OpenMOSS/FutureOmni) e conjuntos de dados (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
Os trabalhos existentes adotam cada vez mais mecanismos centrados em memória para processar contextos longos de forma segmentada, sendo a gestão eficiente de memória uma das capacidades-chave que permite aos grandes modelos de linguagem propagar informações eficazmente ao longo de toda a sequência. Portanto, é crucial utilizar modelos de recompensa (RMs) para avaliar de forma automática e fiável a qualidade da memória. Neste trabalho, apresentamos o MemoryRewardBench, o primeiro benchmark concebido para estudar sistematicamente a capacidade dos RMs em avaliar processos de gestão de memória de longo prazo. O MemoryRewardBench abrange tanto tarefas de compreensão de contexto longo como de geração extensa, apresentando 10 configurações distintas com diferentes padrões de gestão de memória, com comprimentos de contexto variando entre 8 mil e 128 mil tokens. As avaliações realizadas em 13 RMs de última geração indicam uma redução da diferença de desempenho entre modelos de código aberto e proprietários, com os modelos de nova geração a superarem consistentemente os seus antecessores, independentemente do número de parâmetros. Expomos ainda as capacidades e limitações fundamentais dos RMs atuais na avaliação da gestão de memória de LLMs em diversas configurações.
Apresentamos o LightOnOCR-2-1B, um modelo de visão e linguagem multilingue de ponta a ponta com 1B de parâmetros que converte imagens de documentos (por exemplo, PDFs) em texto limpo e ordenado naturalmente, sem a necessidade de frágeis pipelines de OCR. Treinado numa mistura de destilação em larga escala e de alta qualidade, com forte cobertura de digitalizações, documentos franceses e PDFs científicos, o LightOnOCR-2 atinge resultados de última geração no OlmOCR-Bench, sendo 9 vezes menor e substancialmente mais rápido do que os modelos de melhor desempenho anteriores. Estendemos ainda o formato de saída para prever caixas delimitadoras normalizadas para imagens incorporadas, introduzindo a localização durante o pré-treinamento através de uma estratégia de *resume* e refinando-a com RLVR usando recompensas baseadas em IoU. Finalmente, melhoramos a robustez com a média de *checkpoints* e a fusão por aritmética de tarefas. Disponibilizamos os *checkpoints* do modelo sob a licença Apache 2.0 e disponibilizamos publicamente o conjunto de dados e a avaliação LightOnOCR-bbox-bench sob as suas respetivas licenças.
A obtenção de um desempenho ao nível humano na Navegação por Visão e Linguagem (VLN) requer que um agente corporizado compreenda conjuntamente instruções multimodais e contexto visual-espacial, enquanto raciocina sobre longas sequências de ações. Trabalhos recentes, como NavCoT e NavGPT-2, demonstram o potencial do raciocínio em Cadeia de Pensamento (CoT) para melhorar a interpretabilidade e o planeamento de longo prazo. Além disso, extensões multimodais como OctoNav-R1 e CoT-VLA validam ainda mais o CoT como um caminho promissor para um raciocínio de navegação semelhante ao humano. No entanto, as abordagens existentes enfrentam desvantagens críticas: os CoTs puramente textuais carecem de fundamentação espacial e sobreajustam-se facilmente a passos de raciocínio anotados de forma esparsa, enquanto os CoTs multimodais incorrem numa severa inflação de *tokens* ao gerarem observações visuais imaginadas, tornando a navegação em tempo real impraticável. Neste trabalho, propomos o FantasyVLN, uma estrutura de raciocínio implícito unificada que preserva os benefícios do raciocínio CoT sem a sobrecarga explícita de *tokens*. Especificamente, os *tokens* visuais imaginados são codificados num espaço latente compacto usando um AutoRegressor Visual (VAR) pré-treinado durante o treino de raciocínio CoT, e o modelo aprende conjuntamente a partir de modos CoT textuais, visuais e multimodais sob uma estratégia unificada de multi-CoT. Na inferência, o nosso modelo realiza um mapeamento direto de instrução para ação, enquanto ainda beneficia de representações conscientes do raciocínio. Experiências extensivas no LH-VLN mostram que a nossa abordagem alcança uma navegação consciente do raciocínio, mas em tempo real, melhorando as taxas de sucesso e a eficiência, enquanto reduz a latência de inferência por uma ordem de magnitude em comparação com os métodos CoT explícitos.
Os métodos de busca guiada por recompensa demonstraram forte potencial na melhoria de agentes que utilizam ferramentas, orientando eficazmente a amostragem e a exploração em espaços de ação complexos. Como um projeto central, esses métodos de busca utilizam modelos de recompensa de processo (PRMs) para fornecer recompensas a nível de etapa, permitindo um monitoramento mais refinado. No entanto, há uma carência de benchmarks de avaliação sistemáticos e confiáveis para PRMs em contextos de utilização de ferramentas. Neste artigo, apresentamos o ToolPRMBench, um benchmark de larga escala especificamente concebido para avaliar PRMs para agentes que utilizam ferramentas. O ToolPRMBench é construído sobre vários benchmarks representativos de utilização de ferramentas e converte trajetórias de agentes em casos de teste a nível de etapa. Cada caso contém o histórico de interação, uma ação correta, uma alternativa plausível mas incorreta e metadados relevantes da ferramenta. Utilizamos respetivamente a amostragem offline para isolar erros locais de etapa única e a amostragem online para capturar falhas realistas de múltiplas etapas a partir de execuções completas do agente. É proposta um pipeline de verificação multi-LLM para reduzir o ruído de etiquetagem e garantir a qualidade dos dados. Realizamos experiências extensas em modelos de linguagem de grande escala, PRMs gerais e PRMs especializados em ferramentas no ToolPRMBench. Os resultados revelam diferenças claras na eficácia dos PRMs e destacam o potencial dos PRMs especializados para utilização de ferramentas. O código e os dados serão disponibilizados em https://github.com/David-Li0406/ToolPRMBench.
A busca agentiva surgiu recentemente como um paradigma poderoso, no qual um agente intercala raciocínio de múltiplos passos com recuperação de informações sob demanda para resolver questões complexas. Apesar do seu sucesso, a forma de conceber um mecanismo de recuperação para a busca agentiva permanece largamente inexplorada. Os agentes de busca existentes normalmente dependem de mecanismos baseados em similaridade, embora passagens semelhantes nem sempre sejam úteis para a geração da resposta final. Neste artigo, propomos uma nova estrutura de treinamento de mecanismos de recuperação específica para a busca agentiva. Diferente dos mecanismos concebidos para Geração Aumentada por Recuperação (RAG) de turno único, que dependem apenas da utilidade local da passagem, propomos usar tanto a relevância local consulta-passa quanto a correção global da resposta para medir a utilidade da passagem numa busca agentiva de múltltiplos turnos. Introduzimos ainda uma estratégia de treinamento iterativo, na qual o agente de busca e o mecanismo de recuperação são otimizados bidirecional e iterativamente. Diferente dos mecanismos de RAG, que são treinados apenas uma vez com perguntas fixas, o nosso mecanismo é continuamente melhorado usando consultas evolutivas e de maior qualidade provenientes do agente. Extensos experimentos em sete benchmarks de QA (single-hop e multi-hop) demonstram que o nosso mecanismo de recuperação, denominado , supera consistentemente bases de comparação robustas em diferentes agentes de busca. Os nossos códigos estão disponíveis em: https://github.com/8421BCD/Agentic-R.
As explicações baseadas em conceitos quantificam como conceitos de alto nível (por exemplo, género ou experiência) influenciam o comportamento do modelo, o que é crucial para os decisores em domínios de alto risco. Trabalhos recentes avaliam a fidelidade de tais explicações comparando-as com efeitos causais de referência estimados a partir de contrafactuais. Na prática, os *benchmarks* existentes dependem de contrafactuais escritos por humanos, que são dispendiosos e servem como um proxy imperfeito. Para resolver isto, introduzimos um quadro para a construção de conjuntos de dados contendo pares contrafactuais estruturais: LIBERTy (*LLM-based Interventional Benchmark for Explainability with Reference Targets*). O LIBERTy baseia-se em Modelos Causais Estruturados (MCEs) explicitamente definidos da geração de texto; as intervenções num conceito propagam-se através do MCE até que um LLM gera o contrafactual. Introduzimos três conjuntos de dados (deteção de doenças, triagem de currículos e previsão de violência no local de trabalho) em conjunto com uma nova métrica de avaliação, a fidelidade de ordem. Utilizando-os, avaliamos uma vasta gama de métodos em cinco modelos e identificamos um espaço substancial para melhorar as explicações baseadas em conceitos. O LIBERTy também permite uma análise sistemática da sensibilidade do modelo a intervenções: descobrimos que os LLMs proprietários mostram uma sensibilidade marcadamente reduzida a conceitos demográficos, provavelmente devido à mitigação pós-treinamento. No geral, o LIBERTy fornece um *benchmark* muito necessário para o desenvolvimento de métodos de explicabilidade fiáveis.
Apesar dos recentes avanços, os modelos de base médica ainda lutam para unificar a compreensão visual e a geração, uma vez que estas tarefas possuem objetivos inerentemente conflitantes: abstração semântica versus reconstrução a nível de pixel. As abordagens existentes, tipicamente baseadas em arquiteturas autorregressivas com parâmetros partilhados, frequentemente resultam num desempenho comprometido numa ou em ambas as tarefas. Para resolver isto, apresentamos o UniX, um modelo de base médida unificado de próxima geração para compreensão e geração de radiografias torácicas. O UniX desacopla as duas tarefas num ramo autorregressivo para compreensão e num ramo de difusão para geração de alta fidelidade. Crucialmente, é introduzido um mecanismo de auto-atenção cruzada para guiar dinamicamente o processo de geração com características de compreensão. Aliado a um pipeline rigoroso de limpeza de dados e a uma estratégia de treino multiestágio, esta arquitetura permite uma colaboração sinérgica entre as tarefas, ao mesmo tempo que aproveita os pontos fortes dos modelos de difusão para uma geração superior. Em dois benchmarks representativos, o UniX alcança uma melhoria de 46,1% no desempenho de compreensão (Micro-F1) e um ganho de 24,2% na qualidade de geração (FD-RadDino), utilizando apenas um quarto dos parâmetros do LLM-CXR. Ao alcançar um desempenho equiparável ao de modelos específicos por tarefa, o nosso trabalho estabelece um paradigma escalável para a compreensão e geração sinérgica de imagens médicas. Os códigos e modelos estão disponíveis em https://github.com/ZrH42/UniX.
O auto-jogo com modelos de linguagem de grande escala emergiu como um paradigma promissor para alcançar inteligência artificial com capacidade de autoaprimoramento. No entanto, as estruturas de auto-jogo existentes frequentemente sofrem com instabilidade de otimização, devido (i) a objetivos não estacionários induzidos por *feedback* de recompensa dependente do resolvedor (*Solver*) para o questionador (*Questioner*), e (ii) a erros de *bootstrapping* provenientes de pseudo-rótulos autogerados usados para supervisionar o Resolvedor. Para mitigar esses desafios, introduzimos o DARC (*Decoupled Asymmetric Reasoning Curriculum*), uma estrutura em dois estágios que estabiliza o processo de auto-evolução. Primeiro, treinamos o Questionador para sintetizar questões com dificuldade calibrada, condicionadas a níveis explícitos de dificuldade e a corpora externos. Em segundo lugar, treinamos o Resolvedor com um mecanismo assimétrico de auto-distilação, no qual um professor (*teacher*) aumentado com documentos gera pseudo-rótulos de alta qualidade para supervisionar o Resolvedor estudante (*student*) que não tem acesso a documentos. Resultados empíricos demonstram que o DARC é agnóstico a modelos, produzindo uma melhoria média de 10,9 pontos em nove *benchmarks* de raciocínio e três modelos de base. Além disso, o DARC supera consistentemente todas as linhas de base e aproxima-se do desempenho de modelos totalmente supervisionados sem depender de anotações humanas. O código está disponível em https://github.com/RUCBM/DARC.
Os atuais Modelos de Linguagem de Grande Porte (LLMs) exibem uma desconexão modal crítica: possuem vasto conhecimento semântico, mas carecem de uma fundamentação procedural para respeitar as leis imutáveis do mundo físico. Consequentemente, embora esses agentes funcionem implicitamente como modelos de mundo, suas simulações frequentemente sofrem de alucinações físicas - gerando planos que são logicamente sólidos, mas fisicamente inexequíveis. As estratégias de alinhamento existentes dependem predominantemente de treinamento ou ajuste fino intensivo em recursos, que tentam comprimir regras ambientais dinâmicas em parâmetros de modelo estáticos. No entanto, tal encapsulamento paramétrico é inerentemente rígido, lutando para se adaptar à variabilidade aberta da dinâmica física sem um retreinamento contínuo e custoso. Para preencher essa lacuna, introduzimos o WorldMind, uma estrutura que constrói autonomamente um Repositório de Conhecimento Mundial simbólico sintetizando feedback ambiental. Especificamente, ele unifica a **Experiência de Processo** para impor viabilidade física via erros de previsão e a **Experiência de Objetivo** para guiar a otimalidade da tarefa por meio de trajetórias bem-sucedidas. Experimentos no EB-ALFRED e no EB-Habitat demonstram que o WorldMind alcança desempenho superior em comparação com as linhas de base, com notável transferibilidade entre modelos e ambientes.
Os sistemas de LLM em produção frequentemente dependem de modelos separados para segurança e outras etapas com alta carga de classificação, o que aumenta a latência, o consumo de VRAM e a complexidade operacional. Nós, em vez disso, reutilizamos a computação já paga pelo LLM de serviço: treinamos sondas leves sobre seus estados ocultos e prevemos rótulos no mesmo *forward pass* usado para geração. Enquadramos a classificação como uma seleção de representação sobre o tensor completo de estados ocultos (camada-token), em vez de nos comprometermos com um token fixo ou uma camada fixa (por exemplo, *logits* do primeiro token ou *pooling* da camada final). Para implementar isso, introduzimos um agregador de dois estágios que (i) resume os tokens dentro de cada camada e (ii) agrega os resumos das camadas para formar uma única representação para classificação. Instanciamos este modelo com *pooling* direto, um gate de atenção de pontuação com 100K parâmetros e uma sonda de autoatenção multi-cabeça (MHA) com *downcast* com até 35M parâmetros treináveis. Em *benchmarks* de segurança e sentimento, nossas sondas superam a reutilização baseada apenas em *logits* (por exemplo, MULI) e são competitivas com baselines específicas de tarefa substancialmente maiores, preservando uma latência próxima à de serviço e evitando os custos de VRAM e latência de um *pipeline* separado de modelo de guarda.
Trajetórias longas de raciocínio em cadeia (CoT) fornecem sinais de supervisão ricos para destilar o raciocínio de modelos de linguagem grandes (LLMs) professores para alunos. No entanto, tanto trabalhos anteriores quanto nossos experimentos mostram que trajetórias de professores mais fortes não necessariamente produzem alunos melhores, destacando a importância da adequação entre os dados e o aluno na destilação. Os métodos existentes avaliam a adequação principalmente pela verossimilhança do aluno, favorecendo trajetórias que se alinham de perto com o comportamento atual do modelo, mas negligenciando outras mais informativas. Para resolver isso, propomos a *Razão de Surpresa por Classificação* (RSR), uma métrica simples que captura tanto o alinhamento quanto a informatividade para avaliar a adequação de uma trajetória de raciocínio. A RSR é motivada pela observação de que trajetórias eficazes normalmente combinam baixa probabilidade absoluta com *tokens* relativamente bem classificados sob o modelo do aluno, equilibrando a força do sinal de aprendizagem e o alinhamento comportamental. Concretamente, a RSR é definida como a razão entre a classificação média por *token* de uma trajetória e sua verossimilhança logarítmica negativa média, sendo simples de calcular e interpretar. Em cinco modelos alunos e trajetórias de raciocínio de 11 professores diversos, a RSR correlaciona-se fortemente com o desempenho pós-treinamento (Spearman médio de 0,86), superando métricas existentes. Demonstramos ainda sua utilidade prática tanto na seleção de trajetórias quanto na seleção de professores.
Os agentes de aprendizagem por reforço baseados em pixels frequentemente falham sob mudanças de distribuição puramente visuais, mesmo quando a dinâmica latente e as recompensas permanecem inalteradas. No entanto, os *benchmarks* existentes envolvem múltiplas fontes de mudança e dificultam uma análise sistemática. Apresentamos o KAGE-Env, uma plataforma 2D nativa em JAX que fatoriza o processo de observação em eixos visuais controláveis de forma independente, mantendo o problema de controlo subjacente fixo. Por construção, a variação de um eixo visual afeta o desempenho apenas através da distribuição de ações condicionada ao estado induzida por uma política de pixels, fornecendo uma abstração clara para a generalização visual. Com base neste ambiente, definimos o KAGE-Bench, um *benchmark* de seis *suites* de eixos conhecidos, compreendendo 34 pares de configurações de treino-avaliação que isolam mudanças visuais individuais. Utilizando uma linha de base padrão PPO-CNN, observamos falhas fortemente dependentes do eixo: mudanças no fundo e fotométricas frequentemente colapsam o sucesso, enquanto mudanças na aparência do agente são comparativamente benignas. Várias mudanças preservam o movimento para a frente, mas impedem a conclusão da tarefa, mostrando que a recompensa por si só pode ocultar falhas de generalização. Por fim, a implementação totalmente vetorizada em JAX permite até 33 milhões de passos de ambiente por segundo numa única GPU, possibilitando varreduras rápidas e reproduzíveis sobre fatores visuais. Código: https://avanturist322.github.io/KAGEBench/.
A reconhecção fonética (RF) serve como interface atômica para modelagem independente de idioma no processamento de fala cross-lingual e análise fonética. Apesar dos esforços prolongados no desenvolvimento de sistemas de RF, as avaliações atuais medem apenas a precisão superficial da transcrição. Apresentamos o PRiSM, o primeiro benchmark de código aberto projetado para expor pontos cegos na percepção fonética através de avaliação intrínseca e extrínseca de sistemas de RF. O PRiSM padroniza a avaliação baseada em transcrição e avalia a utilidade descendente em contextos clínicos, educacionais e multilíngues com sondas de transcrição e representação. Descobrimos que a exposição diversificada a idiomas durante o treinamento é fundamental para o desempenho da RF, modelos encoder-CTC são os mais estáveis, e modelos especializados de RF ainda superam os Grandes Modelos de Linguagem de Áudio. O PRiSM disponibiliza código, receitas e conjuntos de dados para avançar o campo em direção a modelos de fala multilíngues com capacidade fonética robusta: https://github.com/changelinglab/prism.
A aprendizagem por reforço baseada em resultados (RL) tem se mostrado eficaz para melhorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs). No entanto, o RL padrão atribui crédito apenas ao nível da resposta final, penalizando trajetórias de raciocínio inteiras quando o resultado é incorreto e reforçando uniformemente todas as etapas quando é correto. Consequentemente, etapas intermediárias corretas podem ser desencorajadas em trajetórias fracassadas, enquanto etapas espúrias podem ser reforçadas nas bem-sucedidas. Referimo-nos a este modo de falha como o problema da atribuição de crédito. Embora um remédio natural seja treinar um modelo de recompensa de processo, otimizar com precisão tais modelos para identificar etapas de raciocínio corretivas permanece um desafio. Introduzimos o Treinamento por Intervenção (InT), um paradigma de treinamento no qual o modelo realiza uma atribuição de crédito de granularidade fina em suas próprias trajetórias de raciocínio, propondo correções curtas e direcionadas que conduzem as trajetórias para uma recompensa maior. Utilizando soluções de referência comumente disponíveis em conjuntos de dados de raciocínio matemático e explorando o facto de que verificar uma solução gerada pelo modelo é mais fácil do que gerar uma correta a partir do zero, o modelo identifica o primeiro erro no seu raciocínio e propõe uma intervenção de etapa única para redirecionar a trajetória para a solução correta. Em seguida, aplicamos o ajuste fino supervisionado (SFT) ao *rollout on-policy* até ao ponto do erro concatenado com a intervenção, localizando o erro na etapa específica que causou a falha. Mostramos que o modelo resultante serve como uma inicialização muito melhor para o treinamento por RL. Após executar o InT e subsequente ajuste fino com RL, melhoramos a precisão em quase 14% em relação a um modelo base de 4B de parâmetros no IMO-AnswerBench, superando modelos *open-source* maiores, como o gpt-oss-20b.
Apresentamos uma metodologia híbrida para a geração de conjuntos de dados em larga escala de relações semânticas em línguas de baixos recursos, demonstrada através de um corpus abrangente de relações semânticas para o turco. Nossa abordagem integra três fases: (1) embeddings FastText com *Agglomerative Clustering* para identificar clusters semânticos, (2) Gemini 2.5-Flash para a classificação automática de relações semânticas, e (3) integração com fontes lexicais curadas. O conjunto de dados resultante compreende 843.000 pares semânticos únicos em turco, abrangendo três tipos de relação (sinônimos, antônimos, co-hipônimos), representando um aumento de escala de 10x em relação aos recursos existentes a um custo mínimo (US$ 65). Validamos o conjunto de dados por meio de duas tarefas subsequentes: um modelo de *embeddings* que atingiu 90% de precisão *top-1* em recuperação e um modelo de classificação que alcançou 90% de F1-macro. Nosso protocolo escalável aborda a escassez crítica de dados no PLN para o turco e demonstra aplicabilidade a outras línguas de baixos recursos. Disponibilizamos publicamente o conjunto de dados e os modelos.
A detecção de alterações por sensoriamento remoto visa localizar e caracterizar mudanças na cena entre dois pontos no tempo e é fundamental para aplicações como monitoramento ambiental e avaliação de desastres. Entretanto, os modelos visuais autorregressivos (VARs) têm demonstrado recentemente capacidade impressionante de geração de imagens, mas a sua adoção para tarefas discriminativas a nível de pixel permanece limitada devido à fraca controlabilidade, desempenho subótimo em previsão densa e ao viés de exposição. Apresentamos o RemoteVAR, uma nova estrutura de detecção de alterações baseada em VAR que aborda estas limitações, condicionando a previsão autorregressiva em características bitemporais fundidas em multi-resolução via atenção cruzada, e empregando uma estratégia de treino autorregressiva concebida especificamente para a previsão de mapas de alteração. Experimentos extensivos em benchmarks padrão de detecção de alterações mostram que o RemoteVAR oferece melhorias consistentes e significativas sobre linhas de base fortes baseadas em difusão e em transformers, estabelecendo uma alternativa autorregressiva competitiva para a detecção de alterações em sensoriamento remoto. O código estará disponível em https://github.com/yilmazkorkmaz1/RemoteVAR.
Os embeddings neurais têm uma limitação notória: não conseguem distinguir de forma confiável sinônimos de antônimos. Consequentemente, aumentar os limiares de similaridade frequentemente falha em impedir que opostos sejam agrupados. Construímos um sistema de clustering semântico em larga escala especificamente projetado para enfrentar este problema de frente. Nosso *pipeline* processa 15 milhões de itens lexicais, avalia 520 milhões de relações potenciais e, por fim, gera 2,9 milhões de clusters semânticos de alta precisão. O sistema faz três contribuições principais. Primeiro, introduzimos um conjunto de dados rotulado de 843.000 pares de conceitos abrangendo sinonímia, antonímia e co-hiponímia, construído através de aumento de dados com o LLM Gemini 2.5-Flash e verificado usando recursos dicionarísticos curados por humanos. Segundo, propomos um discriminador especializado de relações semânticas de três vias que atinge 90% de F1-macro, permitindo uma desambiguação robusta para além da similaridade bruta de *embeddings*. Terceiro, introduzimos um novo algoritmo de clustering progressivo (*soft-to-hard*) que mitiga o *drift* semântico, prevenindo cadeias transitivas errôneas (ex.: quente -> picante -> dor -> depressão) enquanto resolve simultaneamente a polissemia. Nossa abordagem emprega um procedimento de expansão-poda em dois estágios, ciente da topologia e com votação topológica, garantindo que cada termo seja atribuído a exatamente um cluster semanticamente coerente. O recurso resultante permite busca semântica e geração aumentada por recuperação de alta precisão, particularmente para línguas morfologicamente ricas e de baixos recursos, onde as bases de sinônimos existentes ainda são escassas.
A afinação por instrução é um paradigma padrão para adaptar grandes modelos de linguagem (LLMs), mas os conjuntos de dados de instrução modernos são extensos, ruidosos e redundantes, tornando o ajuste fino com todos os dados dispendioso e frequentemente desnecessário. Os métodos de seleção de dados existentes ou constroem repositórios de dados de gradiente dispendiosos ou atribuem pontuações estáticas a partir de um proxy fraco, ignorando em grande parte a incerteza evolutiva e, assim, perdendo uma fonte chave de interpretabilidade dos LLMs. Propomos o GRADFILTERING, uma estrutura de seleção de dados agnóstica em relação ao objetivo e consciente da incerteza, que utiliza um pequeno proxy GPT-2 com um *ensemble* LoRA e agrega os gradientes por exemplo numa utilidade de Proporção Sinal-Ruído do Gradiente (G-SNR). O nosso método iguala ou supera subconjuntos aleatórios e *baselines* fortes na maioria das avaliações LLM-como-juiz, bem como na avaliação humana. Além disso, os subconjuntos selecionados pelo GRADFILTERING convergem mais rapidamente do que filtros competitivos sob o mesmo orçamento computacional, refletindo o benefício da pontuação consciente da incerteza.
À medida que os modelos de linguagem de grande escala (LLMs) são treinados em corpora cada vez mais opacos, os ataques de inferência de associação (MIAs) foram propostos para auditar se textos protegidos por direitos autorais foram utilizados durante o treinamento, apesar das crescentes preocupações sobre sua confiabilidade em condições realistas. Investigamos se os MIAs podem servir como evidência admissível em disputas de direitos autorais adversariais, nas quais um desenvolvedor de modelo acusado pode ofuscar os dados de treinamento preservando o conteúdo semântico, e formalizamos este cenário através de um protocolo de comunicação juiz-promotor-acusado. Para testar a robustez sob este protocolo, introduzimos o SAGE (Structure-Aware SAE-Guided Extraction), uma estrutura de parafraseamento guiada por Autoencoders Esparsos (SAEs) que reescreve os dados de treinamento para alterar a estrutura lexical enquanto preserva o conteúdo semântico e a utilidade subsequente. Nossos experimentos mostram que os MIAs de última geração degradam-se quando os modelos são ajustados com paráfrases geradas pelo SAGE, indicando que seus sinais não são robustos a transformações que preservam a semântica. Embora alguma perda de informação permaneça em certos regimes de ajuste fino, estes resultados sugerem que os MIAs são frágeis em cenários adversariais e insuficientes, por si só, como um mecanismo autônomo para auditoria de direitos autorais em LLMs.
Apresentamos o SciCoQA, um conjunto de dados para detetar discrepâncias entre publicações científicas e os seus repositórios de código, com o objetivo de garantir implementações fiéis. Construímos o SciCoQA a partir de *issues* do GitHub e de artigos de reprodutibilidade e, para dimensionar o nosso conjunto de dados, propomos um método de geração de dados sintéticos para construir discrepâncias entre artigos e código. Analisamos detalhadamente as discrepâncias e propomos tipos e categorias para melhor compreender os desalinhamentos que ocorrem. No total, o nosso conjunto de dados é composto por 611 discrepâncias (81 reais, 530 sintéticas), abrangendo diversas disciplinas de ciência computacional, incluindo IA, Física, Biologia Quantitativa, entre outras. A nossa avaliação de 21 LLMs destaca a dificuldade do SciCoQA, particularmente para instâncias que envolvem detalhes omitidos no artigo, entradas de contexto longo e dados externos ao corpus de pré-treinamento dos modelos. O modelo com melhor desempenho na nossa avaliação, o GPT-5, consegue detetar apenas 45,7% das discrepâncias reais entre artigos e código.
O Gradiente Descendente Estocástico com Privacidade Diferencial (DP-SGD) é o paradigma dominante para treinamento privado, mas as suas limitações fundamentais sob definições de privacidade adversariais de pior caso permanecem pouco compreendidas. Analisamos o DP-SGD no framework de privacidade diferencial-f, que caracteriza a privacidade por meio de curvas de compensação (trade-off) de teste de hipóteses, e estudamos a amostragem embaralhada (shuffled sampling) ao longo de uma única época com M atualizações de gradiente. Derivamos um limite superior subótimo explícito para a curva de compensação alcançável. Este resultado induz um limite geométrico inferior na separação κ, que é a distância máxima entre a curva de compensação do mecanismo e a linha ideal de adivinhação aleatória. Como uma grande separação implica uma vantagem adversarial significativa, uma privacidade significativa requer um κ pequeno. No entanto, provamos que a imposição de uma pequena separação impõe um limite inferior estrito no multiplicador de ruído Gaussiano σ, o que limita diretamente a utilidade alcançável. Em particular, sob o modelo adversarial padrão de pior caso, o DP-SGD com embaralhamento deve satisfazer σ ≥ 1/√(2ln M) ou κ ≥ 1/8 * (1 - 1/(4πln M)), e, portanto, não pode alcançar simultaneamente privacidade forte e alta utilidade. Embora este limite desapareça assintoticamente quando M → ∞, a convergência é extremamente lenta: mesmo para números de atualizações relevantes na prática, a magnitude de ruído necessária permanece substancial. Mostramos ainda que a mesma limitação se estende à subamostragem de Poisson até fatores constantes. Nossos experimentos confirmam que os níveis de ruído implicados por este limite levam a uma degradação significativa da precisão em configurações de treinamento realistas, mostrando assim um gargalo crítico no DP-SGD sob as premissas adversariais padrão de pior caso.
Expressões linguísticas de emoções como depressão, ansiedade e estados relacionados a traumas são ubíquas em notas clínicas, diálogos de aconselhamento e comunidades online de saúde mental, sendo o reconhecimento preciso dessas emoções essencial para triagem clínica, avaliação de risco e intervenção oportuna. Embora os grandes modelos de linguagem (LLMs) tenham demonstrado forte capacidade de generalização em tarefas de análise emocional, sua confiabilidade diagnóstica em contextos médicos de alto risco e intensivos em contexto permanece altamente sensível ao *design* de *prompts*. Além disso, os métodos existentes enfrentam dois desafios principais: a comorbidade emocional, na qual múltiplos estados emocionais interligados complicam a predição, e a exploração ineficiente de pistas clinicamente relevantes. Para enfrentar esses desafios, propomos o APOLO (*Automated Prompt Optimization for Linguistic Emotion Diagnosis*), uma estrutura que explora sistematicamente um espaço de *prompts* mais amplo e de granularidade mais fina para melhorar a eficiência e robustez diagnósticas. O APOLO formula o refinamento de instruções como um Processo de Decisão Markoviano Parcialmente Observável e adota um mecanismo de colaboração multiagente envolvendo os papéis de Planejador, Professor, Crítico, Aluno e Alvo. Dentro desta estrutura de ciclo fechado, o Planejador define uma trajetória de otimização, enquanto os agentes Professor-Crítico-Aluno refinam iterativamente os *prompts* para melhorar a estabilidade e eficácia do raciocínio, e o agente Alvo determina se deve continuar a otimização com base na avaliação de desempenho. Resultados experimentais mostram que o APOLO melhora consistentemente a precisão e robustez diagnósticas em *benchmarks* estratificados e específicos de domínio, demonstrando um paradigma escalável e generalizável para aplicações confiáveis de LLMs na área da saúde mental.
Os agentes de dados baseados em LLM recentes visam automatizar tarefas de ciência de dados, desde análise de dados até aprendizado profundo. No entanto, a natureza aberta dos problemas reais de ciência de dados, que frequentemente abrangem múltiplas taxonomias e carecem de respostas padronizadas, representa um desafio significativo para a avaliação. Para enfrentar isso, introduzimos o DSAEval, um benchmark composto por 641 problemas reais de ciência de dados fundamentados em 285 conjuntos de dados diversos, abrangendo dados estruturados e não estruturados (por exemplo, visão e texto). O DSAEval incorpora três características distintas: (1) Percepção de Ambiente Multimodal, que permite aos agentes interpretar observações de múltiplas modalidades, incluindo texto e visão; (2) Interações de Múltiplas Consultas, que espelham a natureza iterativa e cumulativa de projetos reais de ciência de dados; e (3) Avaliação Multidimensional, que fornece uma avaliação holística através do raciocínio, código e resultados. Avaliamos sistematicamente 11 LLMs agentivos avançados usando o DSAEval. Nossos resultados mostram que o Claude-Sonnet-4.5 alcança o desempenho geral mais forte, o GPT-5.2 é o mais eficiente e o MiMo-V2-Flash é o mais rentável. Demonstramos ainda que a percepção multimodal melhora consistentemente o desempenho em tarefas relacionadas à visão, com ganhos variando de 2,04% a 11,30%. No geral, embora os agentes atuais de ciência de dados tenham um bom desempenho em dados estruturados e fluxos de trabalho rotineiros de análise de dados, desafios substanciais permanecem em domínios não estruturados. Por fim, oferecemos insights críticos e delineamos direções futuras de pesquisa para avançar o desenvolvimento de agentes de ciência de dados.
Muitos estudantes não têm acesso a mentoria especializada em pesquisa. Investigamos se um mentor de IA pode guiar alunos de graduação desde uma ideia até a redação de um artigo. Desenvolvemos o METIS, um assistente com ferramentas, consciente das etapas, que oferece busca de literatura, diretrizes curadas, verificações metodológicas e memória. Avaliamos o METIS em comparação com o GPT-5 e o Claude Sonnet 4.5 em seis etapas de escrita, utilizando preferências pareadas com LLM-como-juiz, rubricas de persona de estudante, tutoria curta de múltiplos turnos e verificações de evidência/conformidade. Em 90 prompts de turno único, os juízes LLM preferiram o METIS ao Claude Sonnet 4.5 em 71% dos casos e ao GPT-5 em 54%. As pontuações dos estudantes (clareza/acionabilidade/adequação às restrições; 90 prompts x 3 juízes) são mais altas em todas as etapas. Em sessões de múltiplos turnos (cinco cenários/agente), o METIS resulta numa qualidade final ligeiramente superior à do GPT-5. Os ganhos concentram-se nas etapas baseadas em documentos (D-F), consistente com o roteamento consciente da etapa e o uso de fundamentação. Os modos de falha incluem roteamento prematuro de ferramentas, fundamentação superficial e ocasionais classificações incorretas da etapa.
A aprendizagem ativa (AL) tem o potencial de reduzir drasticamente os custos de anotação na segmentação de imagens biomédicas 3D, onde a rotulagem especializada de dados volumétricos é demorada e dispendiosa. No entanto, os métodos de AL existentes não conseguem superar consistentemente as linhas de base de amostragem aleatória melhoradas adaptadas a dados 3D, deixando a área sem uma solução confiável. Apresentamos a Entropia Preditiva de Potência Agendada com Estratificação de Classe (ClaSP PE), uma estratégia de consulta simples e eficaz que aborda duas limitações principais dos métodos padrão de AL baseados em incerteza: o desequilíbrio de classes e a redundância nas seleções iniciais. A ClaSP PE combina consultas com estratificação de classe para garantir a cobertura de estruturas sub-representadas e a adição de ruído de potência em escala logarítmica com um cronograma decrescente para impor a diversidade de consultas na fase inicial da AL e incentivar a exploração posterior. Na nossa avaliação em 24 configurações experimentais usando quatro conjuntos de dados biomédicos 3D dentro do abrangente benchmark nnActive, a ClaSP PE é o único método que geralmente supera as linhas de base aleatórias melhoradas em termos de qualidade de segmentação com ganhos estatisticamente significativos, mantendo-se eficiente em anotações. Além disso, simulamos explicitamente a aplicação do mundo real testando o nosso método em quatro conjuntos de dados nunca antes vistos sem adaptação manual, onde todos os parâmetros experimentais são definidos de acordo com diretrizes pré-estabelecidas. Os resultados confirmam que a ClaSP PE generaliza robustamente para novas tarefas sem exigir ajustes específicos do conjunto de dados. Dentro da estrutura nnActive, apresentamos evidências convincentes de que um método de AL pode superar consistentemente as linhas de base aleatórias adaptadas à segmentação 3D, tanto em desempenho quanto em eficiência de anotação num cenário realista e próximo da produção. A nossa implementação de código aberto e diretrizes de implantação claras tornam-na prontamente aplicável na prática. O código está disponível em https://github.com/MIC-DKFZ/nnActive.