Artigos de pesquisa em IA selecionados diariamente com traduções
O aprendizado por reforço tornou-se a abordagem central para modelos de linguagem (MLs) aprenderem com recompensas ou feedback do ambiente. Na prática, o feedback ambiental geralmente é esparso e atrasado. Aprender a partir desses sinais é desafiador, pois os MLs devem implicitamente inferir como as falhas observadas devem se traduzir em mudanças comportamentais para iterações futuras. Introduzimos o Aprendizado por Reforço Experiencial (ERL), um paradigma de treinamento que incorpora um ciclo explícito de experiência-reflexão-consolidação no processo de aprendizado por reforço. Dada uma tarefa, o modelo gera uma tentativa inicial, recebe feedback ambiental e produz uma reflexão que orienta uma segunda tentativa refinada, cujo sucesso é reforçado e internalizado na política base. Este processo converte o feedback em uma revisão comportamental estruturada, melhorando a exploração e estabilizando a otimização, enquanto preserva os ganhos na implantação sem custo adicional de inferência. Em ambientes de controle com recompensa esparsa e benchmarks de raciocínio agentivo, o ERL melhora consistentemente a eficiência de aprendizado e o desempenho final em relação a fortes linhas de base de aprendizado por reforço, alcançando ganhos de até +81% em ambientes complexos de múltiplas etapas e até +11% em tarefas de raciocínio com uso de ferramentas. Esses resultados sugerem que a integração da autorreflexão explícita no treinamento de políticas fornece um mecanismo prático para transformar feedback em melhorias comportamentais duradouras.
Os sistemas de recuperação multimodal existentes destacam-se na correspondência semântica, mas assumem implicitamente que a relevância entre consulta e imagem pode ser medida isoladamente. Este paradigma ignora as ricas dependências inerentes a fluxos visuais realistas, onde a informação está distribuída por sequências temporais em vez de confinada a instantâneos individuais. Para colmatar esta lacuna, introduzimos o DeepImageSearch, um novo paradigma agentivo que reformula a recuperação de imagens como uma tarefa de exploração autónoma. Os modelos devem planear e executar raciocínios de múltiplos passos sobre históricos visuais brutos para localizar objetivos com base em pistas contextuais implícitas. Construímos o DISBench, um benchmark desafiador baseado em dados visuais interligados. Para enfrentar o desafio de escalabilidade na criação de consultas dependentes do contexto, propomos um pipeline colaborativo humano-modelo que emprega modelos de visão e linguagem para minerar associações espaço-temporais latentes, transferindo eficazmente a descoberta intensiva de contexto para antes da verificação humana. Adicionalmente, desenvolvemos uma baseline robusta usando uma arquitetura agentiva modular equipada com ferramentas de granularidade fina e um sistema de memória dual para navegação de longo horizonte. Experimentos extensivos demonstram que o DISBench representa um desafio significativo para os modelos state-of-the-art, salientando a necessidade de incorporar raciocínio agentivo nos sistemas de recuperação de próxima geração.
Apresentamos o Nanbeige4.1-3B, um modelo de linguagem generalista unificado que alcança simultaneamente um forte comportamento agentivo, geração de código e raciocínio geral com apenas 3 bilhões de parâmetros. Até onde sabemos, é o primeiro modelo de linguagem pequeno (SLM) de código aberto a alcançar tal versatilidade em um único modelo. Para melhorar o alinhamento de preferências e o raciocínio, combinamos a modelagem de recompensa pontual e pareada, garantindo respostas de alta qualidade e alinhadas com valores humanos. Para a geração de código, projetamos recompensas com sensibilidade à complexidade no Aprendizado por Reforço, otimizando tanto a correção quanto a eficiência. Em buscas profundas, realizamos uma síntese complexa de dados e incorporamos supervisão no nível do turno durante o treinamento. Isso permite interações estáveis e de longo horizonte com ferramentas, permitindo que o Nanbeige4.1-3B execute de forma confiável até 600 turnos de chamadas de ferramentas para resolução de problemas complexos. Resultados experimentais extensivos mostram que o Nanbeige4.1-3B supera significativamente modelos anteriores de escala similar, como o Nanbeige4-3B-2511 e o Qwen3-4B, chegando a alcançar desempenho superior até mesmo em comparação com modelos muito maiores, como o Qwen3-30B-A3B. Nossos resultados demonstram que modelos pequenos podem alcançar simultaneamente ampla competência e forte especialização, redefinindo o potencial dos modelos com 3 bilhões de parâmetros.
Os modelos de linguagem de grande escala estão em transição de motores de conhecimento de propósito geral para solucionadores de problemas do mundo real, mas a sua otimização para tarefas de busca profunda continua a ser um desafio. O principal gargalo reside na extrema esparsidade de trajetórias de busca de alta qualidade e sinais de recompensa, decorrente da dificuldade de construção escalável de tarefas de longo horizonte e do alto custo de rollouts intensivos em interação que envolvem chamadas a ferramentas externas. Para enfrentar estes desafios, propomos o REDSearcher, um framework unificado que codesenha a síntese de tarefas complexas, o mid-training e o pós-treinamento para otimização escalável de agentes de busca. Especificamente, o REDSearcher introduz as seguintes melhorias: (1) Estruturamos a síntese de tarefas como uma otimização de dupla restrição, onde a dificuldade da tarefa é precisamente governada pela topologia do grafo e dispersão de evidências, permitindo a geração escalável de tarefas complexas e de alta qualidade. (2) Introduzimos consultas aumentadas por ferramentas para incentivar o uso proativo de ferramentas em vez de recuperação passiva. (3) Durante o mid-training, fortalecemos capacidades atômicas centrais - conhecimento, planeamento e chamada de funções - reduzindo substancialmente o custo de recolha de trajetórias de alta qualidade para treino subsequente. (4) Construímos um ambiente simulado local que permite iteração algorítmica rápida e de baixo custo para experiências de aprendizagem por reforço. Em benchmarks de agentes de busca apenas de texto e multimodais, a nossa abordagem atinge desempenho state-of-the-art. Para facilitar futuras pesquisas sobre agentes de busca de longo horizonte, disponibilizaremos 10K trajetórias de busca de texto complexas de alta qualidade, 5K trajetórias multimodais e 1K conjunto de consultas de RL de texto, juntamente com código e checkpoints de modelos.
Apresentamos o BitDance, um gerador de imagens autorregressivo (AR) escalável que prevê *tokens* visuais binários em vez de índices de codebook. Com latentes binários de alta entropia, o BitDance permite que cada *token* represente até 2^{256} estados, resultando numa representação discreta compacta e altamente expressiva. A amostragem de um espaço de *tokens* tão vasto é difícil com a classificação padrão. Para resolver isto, o BitDance utiliza um cabeçalho de difusão binária: em vez de prever um índice com *softmax*, emprega difusão em espaço contínuo para gerar os *tokens* binários. Adicionalmente, propomos a difusão de *next-patch*, um novo método de descodificação que prevê múltiplos *tokens* em paralelo com alta precisão, acelerando significativamente a inferência. No ImageNet 256x256, o BitDance alcança um FID de 1.24, o melhor entre os modelos AR. Com a difusão de *next-patch*, o BitDance supera os modelos AR paralelos de última geração que usam 1,4B de parâmetros, utilizando 5,4x menos parâmetros (260M) e alcançando uma aceleração de 8,7x. Para geração de texto-para-imagem, o BitDance treina-se em *tokens* multimodais de grande escala e gera imagens de alta resolução e fotorrealistas de forma eficiente, demonstrando um desempenho robusto e uma escalabilidade favorável. Ao gerar imagens 1024x1024, o BitDance alcança uma aceleração superior a 30x em comparação com modelos AR anteriores. Disponibilizamos código e modelos para facilitar investigação futura sobre modelos de base AR. O código e os modelos estão disponíveis em: https://github.com/shallowdream204/BitDance.
A aprendizagem de representação de utilizadores em escala industrial exige um equilíbrio entre uma robusta universalidade e uma aguda sensibilidade à tarefa. No entanto, os paradigmas existentes produzem principalmente *embeddings* estáticos e independentes da tarefa, que lutam para reconciliar os requisitos divergentes de cenários subsequentes dentro de espaços vetoriais unificados. Além disso, dados heterogéneos de múltiplas fontes introduzem ruído inerente e conflitos de modalidade, degradando a representação. Propomos o *Query-as-Anchor*, um *framework* que muda a modelação de utilizadores de uma codificação estática para uma síntese dinâmica e consciente da consulta. Para capacitar os Modelos de Linguagem de Grande Escala (*Large Language Models* - LLMs) com uma compreensão profunda do utilizador, construímos primeiro o UserU, um conjunto de dados de pré-treinamento em escala industrial que alinha sequências comportamentais multimodais com semânticas de compreensão do utilizador, e a nossa arquitetura Q-Anchor Embedding integra codificadores hierárquicos do geral-para-o-detalhado em LLMs de torre dupla através de uma otimização conjunta contrastiva-autorregressiva para representação do utilizador consciente da consulta. Para colmatar o fosso entre o pré-treinamento geral e a lógica de negócio especializada, introduzimos ainda o *Cluster-based Soft Prompt Tuning* para impor estruturas latentes discriminativas, alinhando eficazmente a atenção do modelo com modalidades específicas do cenário. Para implantação, a ancoragem de consultas no término das sequências permite inferência acelerada por *KV-cache* com latência incremental insignificante. As avaliações em 10 *benchmarks* industriais do Alipay mostram um desempenho SOTA consistente, forte escalabilidade e implantação eficiente. Testes A/B online em larga escala no sistema de produção do Alipay em dois cenários do mundo real validam ainda mais a sua eficácia prática. O nosso código está preparado para lançamento público e estará disponível em: https://github.com/JhCircle/Q-Anchor.
Métodos de Computação no Tempo de Inferência (ITC), como Best-of-N e Tree-of-Thoughts, visam produzir candidatos de saída que sejam de alta qualidade e diversificados, mas o uso de amostragem com alta temperatura frequentemente não consegue alcançar uma diversidade de saída significativa. Além disso, os métodos de ITC existentes oferecem controle limitado sobre como realizar o raciocínio, o que, por sua vez, limita sua explicabilidade. Apresentamos o STATe-of-Thoughts (STATe), um método de ITC interpretável que pesquisa padrões de raciocínio de alto nível. O STATe substitui a amostragem estocástica por intervenções textuais discretas e interpretáveis: um controlador seleciona ações que codificam escolhas de raciocínio de alto nível, um gerador produz etapas de raciocínio condicionadas a essas escolhas, e um avaliador pontua os candidatos para orientar a pesquisa. Esta abordagem estruturada oferece três vantagens principais. Primeiro, as intervenções textuais guiadas por ações produzem maior diversidade de respostas do que a amostragem baseada em temperatura. Segundo, num estudo de caso sobre geração de argumentos, as sequências de ações explícitas do STATe capturam características interpretáveis que são altamente preditivas da qualidade da saída. Terceiro, estimar a associação entre o desempenho e as escolhas de ação permite-nos identificar regiões promissoras mas ainda não exploradas do espaço de ação e direcionar a geração diretamente para elas. Juntos, estes resultados estabelecem o STATe como uma estrutura prática para gerar texto de alta qualidade, diversificado e interpretável. A nossa estrutura está disponível em https://github.com/zbambergerNLP/state-of-thoughts.
A rápida evolução dos Modelos de Linguagem de Grande Porte (LLMs) catalisou um aumento na produção de ideias científicas, mas este salto não foi acompanhado por um avanço equivalente na avaliação de ideias. A natureza fundamental da avaliação científica requer fundamentação em conhecimento, deliberação coletiva e tomada de decisão multicritério. No entanto, os métodos existentes de avaliação de ideias frequentemente padecem de horizontes de conhecimento limitados, dimensões de avaliação achatadas e do viés inerente ao paradigma "LLM-como-Juiz". Para enfrentar esses desafios, encaramos a avaliação de ideias como um problema de raciocínio fundamentado em conhecimento e multiperspetiva e introduzimos o InnoEval, um quadro de avaliação de inovação profunda concebido para emular a avaliação de ideias a nível humano. Aplicamos um motor de busca de conhecimento profundo e heterogéneo que recupera e fundamenta evidências dinâmicas a partir de diversas fontes online. Alcançamos ainda um consenso de revisão através de um conselho de revisão de inovação composto por revisores com distintas formações académicas, permitindo uma avaliação desacoplada e multidimensional através de múltiplas métricas. Construímos conjuntos de dados abrangentes, derivados de submissões autorizadas revistas por pares, para servir de referência ao InnoEval. Experiências demonstram que o InnoEval supera consistentemente as baseline em tarefas de avaliação pontual, emparelhada e grupal, exibindo padrões de julgamento e consenso altamente alinhados com os de peritos humanos.
A qualidade dos dados determina o desempenho dos modelos de fundação, no entanto, faltam estruturas de processamento sistemáticas. Apresentamos o Data Darwinism, uma taxonomia de dez níveis (L0-L9) que conceptualiza a co-evolução dados-modelo: modelos avançados produzem dados superiores para sistemas de próxima geração. Validamos isto na literatura científica construindo o Darwin-Science, um *corpus* de 900 mil milhões de tokens (L0-L5). Identificamos uma lacuna de aprendibilidade no texto científico bruto, que superamos através do L4 (Refinamento Generativo) e L5 (Conclusão Cognitiva) usando LLMs de vanguarda para explicitar o raciocínio e a terminologia. Para garantir uma atribuição rigorosa, pré-treinámos os modelos daVinci-origin-3B/7B a partir do zero, excluindo conteúdo científico para criar linhas de base livres de contaminação. Após 600 mil milhões de tokens de pré-treinamento contínuo, o Darwin-Science supera as linhas de base em +2,12 (3B) e +2,95 (7B) pontos em mais de 20 *benchmarks*, subindo para +5,60 e +8,40 pontos em tarefas alinhadas com o domínio. A progressão sistemática para o L5 produz um ganho total de +1,36, confirmando que o processamento de nível superior liberta o valor latente dos dados. Disponibilizamos o *corpus* Darwin-Science e os modelos daVinci-origin para permitir um desenvolvimento co-evolutivo e baseado em princípios.
Os Modelos de Linguagem Multimodais Unificados (MLLMs) exigem uma representação visual que suporte simultaneamente reconstrução de alta fidelidade, extração semântica complexa e adequação generativa. No entanto, os tokenizadores visuais existentes geralmente lutam para satisfazer estes objetivos conflituosos num único quadro. Neste artigo, introduzimos o UniWeTok, um tokenizador discreto unificado concebido para colmatar esta lacuna utilizando um codebook binário massivo (2^128). Para o quadro de treino, introduzimos a Destilação Pré-Pós e um Prior Generativo-Consciente para melhorar a extração semântica e o prior generativo dos tokens discretos. Em termos de arquitetura do modelo, propomos uma arquitetura híbrida de convolução-atenção com a função de ativação SigLu. A ativação SigLu não só limita a saída do codificador e estabiliza o processo de destilação semântica, como também resolve eficazmente o conflito de otimização entre a perda de entropia do token e a perda de compromisso. Propomos ainda um quadro de treino de três fases concebido para melhorar a adaptabilidade do UniWeTok a várias resoluções de imagem e cenários sensíveis à perceção, como os que envolvem rostos humanos e conteúdo textual. No ImageNet, o UniWeTok alcança um desempenho de geração de imagem state-of-the-art (FID: UniWeTok 1.38 vs. REPA 1.42) enquanto requer um poder computacional de treino notavelmente baixo (Tokens de Treino: UniWeTok 33B vs. REPA 262B). No domínio geral, o UniWeTok demonstra capacidades altamente competitivas numa vasta gama de tarefas, incluindo compreensão multimodal, geração de imagem (Pontuação DPG: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84) e edição (Pontuação Geral GEdit: UniWeTok 5.09 vs. OmniGen 5.06). Disponibilizamos código e modelos para facilitar a exploração comunitária do tokenizador unificado e do MLLM.
A avaliação da capacidade dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para raciocinar genuinamente sobre dinâmicas físicas continua a ser um desafio. A maioria dos benchmarks existentes baseia-se em protocolos de estilo reconhecimento, como Resposta a Perguntas Visuais (VQA) e Violação de Expectativa (VoE), que frequentemente podem ser respondidos sem que o modelo se comprometa com uma hipótese física explícita e testável. Propomos o VisPhyWorld, uma estrutura baseada em execução que avalia o raciocínio físico exigindo que os modelos gerem código de simulador executável a partir de observações visuais. Ao produzir código executável, a representação do mundo inferida é diretamente inspecionável, editável e falseável. Isto separa o raciocínio físico da renderização. Com base nesta estrutura, introduzimos o VisPhyBench, que compreende 209 cenas de avaliação derivadas de 108 modelos físicos e um protocolo sistemático que avalia quão bem os modelos reconstroem a aparência e reproduzem movimentos fisicamente plausíveis. O nosso *pipeline* produz vídeos reconstruídos válidos em 97,7% dos casos no benchmark. Experiências mostram que, embora os MLLMs de última geração atinjam uma forte compreensão semântica da cena, eles lutam para inferir com precisão parâmetros físicos e para simular dinâmicas físicas consistentes.
Este artigo propõe um banco de dados quântico (Qute) que trata a computação quântica como uma opção de execução de primeira classe. Diferentemente de métodos anteriores baseados em simulação, que executam algoritmos quânticos em máquinas clássicas ou adaptam bancos de dados existentes para simulação quântica, o Qute, em vez disso, (i) compila uma forma estendida de SQL em circuitos quânticos com eficiência de portas lógicas, (ii) emprega um otimizador híbrido para selecionar dinamicamente entre planos de execução quânticos e clássicos, (iii) introduz indexação quântica seletiva e (iv) projeta um armazenamento que preserva a fidelidade para mitigar as atuais limitações de qubits. Também apresentamos um roteiro de evolução em três etapas rumo a um banco de dados nativamente quântico. Por fim, ao implantar o Qute em um processador quântico real (origin_wukong), demonstramos que ele supera uma linha de base clássica em escala, e disponibilizamos um protótipo de código aberto em https://github.com/weAIDB/Qute.
A configuração de sistemas de agentes baseados em LLM envolve a seleção de fluxos de trabalho, ferramentas, orçamentos de tokens e instruções a partir de um amplo espaço de combinações, sendo geralmente tratada atualmente por meio de modelos fixos extensos ou heurísticas ajustadas manualmente. Isso resulta em comportamentos frágeis e consumo computacional desnecessário, uma vez que a mesma configuração complexa é frequentemente aplicada tanto a consultas de entrada fáceis quanto difíceis. Nós formulamos a configuração de agentes como um problema de decisão por consulta e introduzimos o ARC (Agente de Recursos e Configuração por Aprendizado), que aprende uma política hierárquica leve usando aprendizado por reforço para adaptar dinamicamente essas configurações. Em diversos benchmarks abrangendo raciocínio e questionamento aumentado por ferramentas, a política aprendida supera consistentemente baselines robustos projetados manualmente e outros, alcançando até 25% maior precisão na tarefa enquanto também reduz custos de tokens e tempo de execução. Esses resultados demonstram que aprender configurações de agente por consulta é uma alternativa poderosa aos designs de "tamanho único".
Os agentes web exigem trajectórias massivas para generalizar, mas o treino no mundo real é limitado pela latência da rede, limites de taxa e riscos de segurança. Apresentamos a série WebWorld, o primeiro simulador de web aberta treinado em escala. Enquanto os simuladores existentes se restringem a ambientes fechados com milhares de trajectórias, o WebWorld aproveita um *pipeline* de dados escalável para treinar com mais de 1 milhão de interações na web aberta, suportando raciocínio, dados multi-formato e simulações de longo horizonte com 30+ etapas. Para avaliação intrínseca, introduzimos o WebWorld-Bench com métricas duplas abrangendo nove dimensões, onde o WebWorld atinge um desempenho de simulação comparável ao Gemini-3-Pro. Para avaliação extrínseca, o Qwen3-14B treinado com trajectórias sintetizadas pelo WebWorld melhora +9,2% no WebArena, alcançando desempenho comparável ao GPT-4o. O WebWorld permite uma busca eficaz em tempo de inferência, superando o GPT-5 como modelo mundial. Para além da simulação web, o WebWorld exibe generalização transversal para ambientes de código, GUI e jogos, fornecendo uma receita replicável para a construção de modelos mundiais.
Os modelos de linguagem grandes multimodais (MLLMs), equipados com capacidades de planeamento e uso de ferramentas cada vez mais avançadas, estão a evoluir para agentes autónomos capazes de realizar navegação multimodal na web e pesquisa profunda em ambientes de mundo aberto. No entanto, os benchmarks existentes para navegação multimodal permanecem limitados em complexidade de tarefas, acessibilidade de evidências e granularidade de avaliação, dificultando avaliações abrangentes e reproduzíveis das capacidades de pesquisa profunda. Para superar estas limitações, introduzimos o BrowseComp-V^3, um novo benchmark composto por 300 questões criteriosamente selecionadas e desafiadoras, abrangendo diversos domínios. O benchmark enfatiza um raciocínio profundo, multi-nível e multimodal de múltiplos saltos, onde evidências críticas estão intercaladas entre modalidades textuais e visuais dentro e entre páginas web. Todas as evidências de suporte são estritamente obrigadas a ser publicamente pesquisáveis, garantindo justiça e reprodutibilidade. Para além da precisão da resposta final, incorporamos um mecanismo de avaliação de processo orientado a subobjetivos e validado por especialistas, que permite uma análise refinada dos comportamentos de raciocínio intermédios e uma caracterização sistemática dos limites de capacidade. Adicionalmente, propomos o OmniSeeker, um framework unificado de agente de navegação multimodal que integra diversas ferramentas de pesquisa web e perceção visual. Experiências abrangentes demonstram que mesmo os modelos mais avançados atingem apenas 36% de precisão no nosso benchmark, revelando estrangulamentos críticos na integração de informação multimodal e na perceção de pormenor. Os nossos resultados destacam uma lacuna fundamental entre as capacidades atuais dos modelos e uma pesquisa profunda multimodal robusta em contextos do mundo real.
A utilização de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tornou-se fundamental para o avanço de Embeddings Multimodais Universais (UME) na abordagem de diversas tarefas de modalidade cruzada. Estudos recentes demonstram que a incorporação de raciocínio generativo de Cadeia de Pensamento (CoT) pode melhorar substancialmente as representações específicas da tarefa em comparação com métodos discriminativos. No entanto, as CoTs de raciocínio geradas pelos métodos de embedding generativos existentes limitam-se à análise textual das consultas e são irrelevantes para a recuperação dos alvos. Para superar essas limitações, propomos uma estrutura UME orientada por raciocínio que integra Aprendizagem por Reforço Guiada pelo Embedder (EG-RL) para otimizar o Reasoner a produzir uma CoT de Rastreabilidade Evidencial (T-CoT). Nossas principais contribuições são três: (1) Projetamos uma estrutura EG-RL na qual o Embedder fornece supervisão explícita ao Reasoner, garantindo que os traços CoT gerados estejam alinhados com as tarefas de embedding. (2) Introduzimos a T-CoT, que extrai pistas multimodais críticas para focar em elementos relevantes para a recuperação e fornece entradas multimodais para o Embedder. (3) Com recursos computacionais limitados, nossa estrutura supera o modelo de embedding pioneiro nos benchmarks MMEB-V2 e UVRB. A integração de evidências multimodais no raciocínio estruturado, emparelhada com um alinhamento orientado à recuperação, fortalece efetivamente a consistência semântica de modalidade cruzada e impulsiona a capacidade de correspondência em nível granular do modelo, bem como a generalização em cenários complexos. Nosso trabalho demonstra que a otimização direcionada do raciocínio pode melhorar significativamente a qualidade do embedding multimodal, fornecendo uma solução prática e eficiente para o desenvolvimento de UME orientado por raciocínio.
Os modelos de linguagem de difusão (dLLMs) surgiram recentemente como uma alternativa promissora aos LLMs autoregressivos. Os trabalhos mais recentes estenderam-nos ainda mais para tarefas multimodais de compreensão e geração. Neste trabalho, propomos o LaViDa-R1, um dLLM multimodal de raciocínio de propósito geral. Diferente de trabalhos existentes que constroem dLLMs de raciocínio através de aprendizagem por reforço específica por tarefa, o LaViDa-R1 incorpora diversas tarefas multimodais de compreensão e geração de forma unificada. Em particular, o LaViDa-R1 é construído com uma nova estrutura unificada de pós-treinamento que integra perfeitamente o ajuste fino supervisionado (SFT) e a aprendizagem por reforço multitarefa (RL). Ele emprega várias técnicas de treinamento inovadoras, incluindo forçamento de resposta, busca em árvore e estimação de verossimilhança complementar, para melhorar a eficácia e a escalabilidade. Experimentos extensivos demonstram o forte desempenho do LaViDa-R1 numa ampla gama de tarefas multimodais, incluindo raciocínio matemático visual, fundamentação intensiva em raciocínio e edição de imagem.
A manutenção da consistência do mundo espacial em horizontes longos permanece um desafio central para a geração de vídeo controlável por câmera. As abordagens baseadas em memória existentes frequentemente condicionam a geração em cenas 3D reconstruídas globalmente, renderizando vídeos âncora a partir da geometria reconstruída no histórico. No entanto, a reconstrução de uma cena 3D global a partir de múltiplas visões introduz inevitavelmente desalinhamentos entre visões, uma vez que erros de estimativa de pose e profundidade fazem com que as mesmas superfícies sejam reconstruídas em locais 3D ligeiramente diferentes entre as visões. Quando fundidas, essas inconsistências se acumulam em uma geometria ruidosa que contamina os sinais de condicionamento e degrada a qualidade da geração. Apresentamos o AnchorWeave, uma estrutura de geração de vídeo aumentada por memória que substitui uma única memória global desalinhada por múltiplas memórias geométricas locais limpas e aprende a reconciliar suas inconsistências entre visões. Para isso, o AnchorWeave realiza uma recuperação de memória local orientada por cobertura alinhada com a trajetória alvo e integra as memórias locais selecionadas por meio de um controlador de tecelagem multi-âncora durante a geração. Experimentos extensivos demonstram que o AnchorWeave melhora significativamente a consistência de cena de longo prazo, mantendo uma forte qualidade visual, com estudos de ablação e análise validando ainda mais a eficácia do condicionamento geométrico local, do controle multi-âncora e da recuperação orientada por cobertura.
A segmentação conversacional de imagens transforma conceitos abstratos e orientados por intenção em máscaras com precisão de pixel. Trabalhos anteriores sobre a ancoragem de imagens por referência focam em consultas categóricas e espaciais (por exemplo, "maçã mais à esquerda") e negligenciam o raciocínio funcional e físico (por exemplo, "onde posso guardar a faca com segurança?"). Nós abordamos esta lacuna e introduzimos a Segmentação Conversacional de Imagens (CIS) e o ConverSeg, um benchmark que abrange entidades, relações espaciais, intenção, affordances, funções, segurança e raciocínio físico. Também apresentamos o ConverSeg-Net, que funde fortes prioridades de segmentação com a compreensão linguística, e um motor de dados com IA que gera pares de prompt-máscara sem supervisão humana. Mostramos que os modelos atuais de segmentação guiada por linguagem são inadequados para CIS, enquanto o ConverSeg-Net treinado com nosso motor de dados alcança ganhos significativos no ConverSeg e mantém um forte desempenho nos benchmarks existentes de segmentação guiada por linguagem. Página do projeto: https://glab-caltech.github.io/converseg/
A compreensão e geração de movimento humano são cruciais para a visão computacional e a robótica, mas permanecem limitadas em capacidade de raciocínio e planeamento em tempo de teste. Propomos o MoRL, um modelo de movimento multimodal unificado treinado com afinação supervisionada e aprendizagem por reforço com recompensas verificáveis. O nosso desenho de recompensa específico por tarefa combina alinhamento semântico e coerência de raciocínio para a compreensão, com plausibilidade física e consistência texto-movimento para a geração, melhorando tanto o raciocínio lógico como o realismo perceptual. Para melhorar ainda mais a inferência, introduzimos a Cadeia-de-Movimento (CoM), um método de raciocínio em tempo de teste que permite um planeamento e reflexão passo a passo. Também construímos dois conjuntos de dados CoT de grande escala, MoUnd-CoT-140K e MoGen-CoT-140K, para alinhar sequências de movimento com traços de raciocínio e descrições de ação. Experiências no HumanML3D e KIT-ML mostram que o MoRL alcança ganhos significativos face aos métodos state-of-the-art. Código: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
Apresentamos o FireRed-Image-Edit, um transformer de difusão para edição de imagens baseada em instruções que atinge desempenho de última geração por meio da otimização sistemática da curadoria de dados, metodologia de treinamento e design de avaliação. Construímos um corpus de treinamento de 1,6 bilhão de amostras, compreendendo 900 milhões de pares texto-imagem e 700 milhões de pares de edição de imagem de fontes diversas. Após rigorosa limpeza, estratificação, rotulagem automática e filtragem em dois estágios, mantemos mais de 100 milhões de amostras de alta qualidade equilibradas entre geração e edição, garantindo forte cobertura semântica e alinhamento com instruções. Nossa pipeline de treinamento multiestágio constrói progressivamente a capacidade de edição por meio de pré-treinamento, ajuste fino supervisionado e aprendizado por reforço. Para melhorar a eficiência dos dados, introduzimos um Amostrador por Balde com Consciência de Múltiplas Condições para agrupamento em resolução variável e Alinhamento de Instrução Estocástico com reindexação dinâmica de prompts. Para estabilizar a otimização e melhorar a controlabilidade, propomos Otimização de Gradiente Assimétrica para DPO, DiffusionNFT com recompensas OCR conscientes de layout para edição de texto e uma Perda de Consistência Diferenciável para preservação de identidade. Estabelecemos ainda o REDEdit-Bench, um benchmark abrangente abrangendo 15 categorias de edição, incluindo tarefas recém-introduzidas de embelezamento e aprimoramento de baixo nível. Experimentos extensivos no REDEdit-Bench e em benchmarks públicos (ImgEdit e GEdit) demonstram desempenho competitivo ou superior em relação a sistemas tanto de código aberto quanto proprietários. Disponibilizamos código, modelos e o conjunto de benchmarks para apoiar pesquisas futuras.
Os agentes de IA para programação estão a transformar rapidamente a engenharia de software ao realizar tarefas como desenvolvimento de funcionalidades, depuração e testes. Apesar do seu impacto crescente, a comunidade de pesquisa carece de um conjunto de dados abrangente que capture como estes agentes são utilizados em projetos do mundo real. Para colmatar esta lacuna, apresentamos o AIDev, um conjunto de dados em larga escala focado em *pull requests* (PRs) escritos por agentes (Agentic-PRs) em repositórios reais do GitHub. O AIDev agrega 932.791 Agentic-PRs produzidos por cinco agentes: OpenAI Codex, Devin, GitHub Copilot, Cursor e Claude Code. Estes PRs abrangem 116.211 repositórios e envolvem 72.189 programadores. Adicionalmente, o AIDev inclui um subconjunto curado de 33.596 Agentic-PRs de 2.807 repositórios com mais de 100 estrelas, fornecendo informações adicionais como comentários, revisões, *commits* e *issues* relacionadas. Este conjunto de dados oferece uma base para pesquisas futuras sobre a adoção de IA, produtividade do programador e colaboração humano-IA na nova era da engenharia de software. > Agente de IA, IA Agéntica, Agente de Programação, Programação Agéntica, Engenharia de Software Agéntica, Engenharia Agéntica
Apresentamos o LM-Lexicon, uma abordagem inovadora de modelagem de definição que incorpora agrupamento de dados, aprendizado de especialistas semânticos e fusão de modelos usando uma arquitetura esparsa de mistura de especialistas. Ao decompor a tarefa de modelagem de definição em domínios semânticos especializados, nos quais pequenos modelos de linguagem são treinados como especialistas de domínio, o LM-Lexicon alcança melhorias substanciais (+7% no índice BLEU em comparação com o modelo estado da arte anterior) sobre os métodos existentes em cinco benchmarks amplamente utilizados. Empiricamente, demonstramos que 1) a estratégia de agrupamento permite uma especialização refinada de especialistas com quase 10% de melhoria na qualidade da definição; 2) o mecanismo de roteamento em nível de domínio com consciência semântica alcança maior eficácia do especialista (+1%) do que o roteamento convencional em nível de token; e 3) ganhos adicionais de desempenho podem ser obtidos por meio de computação no momento do teste e escalonamento de especialistas semânticos. Nosso trabalho avança a modelagem de definições, ao mesmo tempo que fornece insights para o desenvolvimento de modelos de linguagem eficientes para aplicações semanticamente intensivas.
Sonificação -- o mapeamento de dados para áudio não vocal -- oferece um canal pouco explorado para representar sistemas dinâmicos complexos. Tratamos o El Niño-Oscilação Sul (ENOS), um exemplo canônico de caos climático de baixa dimensionalidade, como um caso de teste para sonificação culturalmente situada avaliada por meio de diagnósticos de sistemas complexos. Utilizando a sonificação por mapeamento de parâmetros do índice de anomalia da temperatura da superfície do mar Niño 3.4 (1870-2024), codificamos a variabilidade do ENOS em dois sistemas pentatônicos tradicionais do gamelan javanês (pelog e slendro) através de quatro estratégias de composição, e então analisamos o áudio resultante como trajetórias em um espaço de fase acústico bidimensional. Diagnósticos baseados em recorrência, geometria de cascos convexos e análise de acoplamento revelam que o pipeline de sonificação preserva assinaturas dinâmicas-chave: modos alternantes produzem as maiores taxas de recorrência de trajetória, ecoando a quase periodicidade do ENOS; modos polifônicos em camadas exploram as regiões mais amplas do espaço de fase; e as duas famílias de escalas induzem regimes de acoplamento qualitativamente distintos entre brilho espectral e energia -- predominantemente em antifase no pelog, mas quase independentes no slendro. A análise de trajetória no espaço de fase fornece uma estrutura geométrica rigorosa para comparar projetos de sonificação dentro de um contexto de sistemas complexos. A validação perceptual permanece necessária; contribuímos com a metodologia de sistemas dinâmicos para avaliar tais mapeamentos.
A edição generativa de vídeo de alta fidelidade tem registado melhorias significativas de qualidade através da utilização de modelos de base de vídeo pré-treinados. No entanto, o seu custo computacional é um grande estrangulamento, uma vez que estes modelos são frequentemente concebidos para processar de forma ineficiente o contexto completo do vídeo, independentemente do tamanho da máscara de preenchimento, mesmo para edições esparsas e localizadas. Neste artigo, apresentamos o EditCtrl, uma estrutura de controlo de preenchimento de vídeo eficiente que concentra a computação apenas onde é necessária. A nossa abordagem inclui um novo módulo de contexto de vídeo local que opera exclusivamente em tokens mascarados, resultando num custo computacional proporcional ao tamanho da edição. Esta geração de prioridade local é depois orientada por um incorporador de contexto global temporal leve, que garante a consistência do contexto em todo o vídeo com uma sobrecarga mínima. O EditCtrl não é apenas 10 vezes mais eficiente em termos computacionais do que os métodos de edição generativa mais avançados, como também melhora a qualidade da edição em comparação com métodos concebidos com atenção completa. Por fim, demonstramos como o EditCtrl permite novas capacidades, incluindo a edição multi-região com instruções textuais e a propagação autoregressiva de conteúdo.
Embora a decodificação por planeamento e preenchimento em Modelos de Difusão Mascarada (MDMs) mostre potencial para raciocínio matemático e de código, o desempenho permanece altamente sensível à ordem de preenchimento das lacunas, frequentemente resultando em uma variação substancial da saída. Apresentamos o McDiffuSE, uma estrutura que formula a seleção de lacunas como um processo de tomada de decisão e otimiza as ordens de preenchimento através da Busca em Árvore de Monte Carlo (MCTS). O McDiffuSE utiliza simulações de antecipação para avaliar completamentos parciais antes do comprometimento, explorando sistematicamente o espaço combinatório de ordens de geração. Experimentos mostram uma melhoria média de 3,2% em relação a linhas de base autoregressivas e de 8,0% sobre a linha de base de planeamento e preenchimento, com ganhos notáveis de 19,5% no MBPP e 4,9% no MATH500. Nossa análise revela que, embora o McDiffuSE siga predominantemente uma ordenação sequencial, a incorporação de geração não sequencial é essencial para maximizar o desempenho. Observamos que constantes de exploração maiores, em vez de um aumento no número de simulações, são necessárias para superar os vieses de confiança do modelo e descobrir ordenações eficazes. Estas descobertas estabelecem o planeamento baseado em MCTS como uma abordagem eficaz para melhorar a qualidade da geração em MDMs.
A técnica de RNA-seq de célula única (scRNA-seq) permite a caracterização em escala de atlas de tecidos complexos, revelando linhagens raras e estados transitórios. No entanto, a atribuição de identidades celulares biologicamente válidas permanece um gargalo, pois os marcadores são dependentes do tecido e do estado, e estados novos carecem de referências. Apresentamos o CellMaster, um agente de IA que imita a prática especializada para anotação de tipos celulares *zero-shot*. Diferente de ferramentas automatizadas existentes, o CellMaster aproveita o conhecimento codificado em LLMs (por exemplo, GPT-4o) para realizar anotações em tempo real com racionalizações interpretáveis, sem pré-treinamento ou bases de dados fixas de marcadores. Em 9 conjuntos de dados abrangendo 8 tecidos, o CellMaster melhorou a precisão em 7,1% em relação às melhores baselines (incluindo CellTypist e scTab) no modo automático. Com refinamento humano em *loop* (human-in-the-loop), essa vantagem aumentou para 18,6%, com um ganho de 22,1% em populações de subtipos. O sistema demonstra particular força em estados celulares raros e novos, onde as baselines frequentemente falham. O código-fonte e a aplicação web estão disponíveis em https://github.com/AnonymousGym/CellMaster.
Neste artigo de recursos, apresentamos o DHPLT, uma coleção aberta de corpora diacrônicos em 41 línguas diversas. O DHPLT é baseado nos conjuntos de dados HPLT, obtidos por web crawling; utilizamos os carimbos de data/hora do web crawling como sinal aproximado do momento de criação do documento. A coleção abrange três períodos temporais: 2011-2015, 2020-2021 e 2024-presente (1 milhão de documentos por período temporal para cada língua). Fornecemos adicionalmente embeddings de tipos de palavras e de tokens pré-computados, bem como substituições lexicais para as nossas palavras-alvo escolhidas, deixando ao mesmo tempo aberta a possibilidade de outros investigadores proporem as suas próprias palavras-alvo utilizando os mesmos conjuntos de dados. O DHPLT visa colmatar a atual carência de corpora diacrônicos multilingues para a modelação de mudança semântica (para além de uma dúzia de línguas de alto recurso). Ele abre caminho para uma variedade de novas configurações experimentais nesta área. Todos os recursos descritos neste artigo estão disponíveis em https://data.hplt-project.org/three/diachronic/, organizados por língua.
A análise da acústica de salas desempenha um papel central no projeto arquitetônico, na engenharia de áudio, na avaliação da inteligibilidade de fala e na pesquisa auditiva. Apesar da disponibilidade de métricas padronizadas, como tempo de reverberação, clareza e índice de transmissão de fala, ferramentas acessíveis que combinem processamento de sinal rigoroso com visualização intuitiva permanecem escassas. Este artigo apresenta o AcoustiVision Pro, uma plataforma *web* de código aberto para análise abrangente da resposta ao impulso de sala (RIR). O sistema calcula doze parâmetros acústicos distintos a partir de RIRs carregadas ou obtidas de conjuntos de dados, fornece visualizações interativas 3D das reflexões precoces, gera características de decaimento dependentes da frequência por meio de gráficos *waterfall* e verifica a conformidade com padrões internacionais, incluindo ANSI S12.60 e ISO 3382. Apresentamos os conjuntos de dados RIRMega e RIRMega Speech, hospedados no Hugging Face, que contêm milhares de respostas ao impulso de sala simuladas com metadados completos. A plataforma suporta auralização em tempo real por meio de convolução baseada em FFT, exporta relatórios detalhados em PDF adequados para documentação de engenharia e fornece exportação de dados em CSV para análises posteriores. Descrevemos os fundamentos matemáticos subjacentes a cada métrica acústica, detalhamos a arquitetura do sistema e apresentamos estudos de caso preliminares que demonstram a utilidade da plataforma em diversos domínios de aplicação, incluindo acústica de salas de aula, projeto de instalações de saúde e avaliação de estúdios de gravação.
A Geração Aumentada por Recuperação (RAG) tornou-se uma pedra angular de aplicações intensivas em conhecimento, incluindo chatbots empresariais, assistentes de saúde e gestão de memória agentiva. No entanto, estudos recentes mostram que ataques de extração de conhecimento podem recuperar conteúdo sensível da base de dados por meio de consultas maliciosamente elaboradas, levantando sérias preocupações sobre roubo de propriedade intelectual e violação de privacidade. Embora trabalhos anteriores tenham explorado técnicas individuais de ataque e defesa, o cenário de pesquisa permanece fragmentado, abrangendo embeddings de recuperação heterogéneos, modelos de geração diversos e avaliações baseadas em métricas não padronizadas e conjuntos de dados inconsistentes. Para colmatar esta lacuna, introduzimos o primeiro benchmark sistemático para ataques de extração de conhecimento em sistemas RAG. O nosso benchmark abrange um amplo espetro de estratégias de ataque e defesa, modelos representativos de embeddings de recuperação, e geradores de código aberto e proprietários, todos avaliados sob uma estrutura experimental unificada com protocolos padronizados em múltiplos conjuntos de dados. Ao consolidar o panorama experimental e permitir uma avaliação reproduzível e comparável, este benchmark fornece informações acionáveis e uma base prática para o desenvolvimento de sistemas RAG que preservem a privacidade face às ameaças emergentes de extração de conhecimento. O nosso código está disponível aqui.
Os modelos de linguagem de grande porte (LLM) como juízes têm sido frequentemente utilizados em conjunto com métricas tradicionais baseadas em algoritmos para tarefas como sumarização, pois capturam melhor a informação semântica, possuem melhor capacidade de raciocínio e são mais robustos a paráfrases. No entanto, os LLMs juízes exibem vieses, entre outros, para comprimento e ordem, e são vulneráveis a vários *prompts* de entrada adversariais. Embora estudos recentes tenham investigado esses vieses, poucos os analisaram a um nível mais granular em relação a uma métrica de sobreposição bem definida. Neste trabalho, fornecemos uma análise do viés do LLM como juiz em função da sobreposição com respostas escritas por humanos no domínio da sumarização. Testamos 9 LLMs recentes com contagens de parâmetros variando de 1 bilhão a 12 bilhões, incluindo variantes do Gemma 3 e do LLaMA 3. Descobrimos que os LLMs juízes preferem progressivamente mais os resumos gerados por outros LLMs do que os escritos por humanos à medida que as similaridades (medidas por ROUGE e BLEU) entre os resumos julgados diminuem. Este padrão estende-se a todos os modelos testados, exceto um, e existe independentemente dos vieses de posição dos próprios modelos. Adicionalmente, descobrimos que os modelos têm dificuldade em julgar mesmo resumos com sobreposições limitadas, sugerindo que o uso de LLM-como-juiz no domínio de sumarização deve basear-se em técnicas que vão além de uma simples comparação.
À medida que as capacidades dos grandes modelos de linguagem continuam a avançar, também aumenta o seu potencial para uso indevido. Embora os modelos de código fechado normalmente dependam de defesas externas, os modelos de pesos abertos devem depender principalmente de salvaguardas internas para mitigar comportamentos prejudiciais. Pesquisas anteriores de *red-teaming* concentraram-se amplamente em *jailbreaks* baseados em entrada e manipulações a nível de parâmetros. No entanto, os modelos de pesos abertos também suportam nativamente o pré-preenchimento (*prefilling*), o que permite a um atacante pré-definir os tokens iniciais de resposta antes do início da geração. Apesar do seu potencial, este vetor de ataque recebeu pouca atenção sistemática. Apresentamos o maior estudo empírico até à data sobre ataques de pré-preenchimento, avaliando mais de 20 estratégias, existentes e novas, em várias famílias de modelos e nos modelos de pesos abertos mais avançados. Os nossos resultados mostram que os ataques de pré-preenchimento são consistentemente eficazes contra todos os principais modelos de pesos abertos contemporâneos, revelando uma vulnerabilidade crítica e anteriormente pouco explorada, com implicações significativas para a implantação. Embora certos modelos de raciocínio de grande escala exibam alguma robustez contra o pré-preenchimento genérico, eles permanecem vulneráveis a estratégias específicas e adaptadas a cada modelo. As nossas descobertas sublinham a necessidade urgente de os desenvolvedores de modelos priorizarem defesas contra ataques de pré-preenchimento em LLMs de pesos abertos.
Os agentes baseados em LLM estão começando a automatizar as tarefas dos usuários na web aberta, frequentemente com acesso a recursos do usuário, como e-mails e calendários. Diferente dos LLMs padrão que respondem perguntas em um ambiente controlado de ChatBot, os agentes web atuam "em ambiente não controlado", interagindo com terceiros e deixando um rastro de ações. Portanto, levantamos a questão: como os agentes web lidam com os recursos do usuário ao realizar tarefas em seu nome em sites ativos? Neste artigo, formalizamos o *Oversharing Agêntico Natural* – a divulgação não intencional de informações irrelevantes do usuário por meio de um rastro de ações do agente na web. Introduzimos o SPILLage, uma estrutura que caracteriza o *oversharing* ao longo de duas dimensões: canal (conteúdo vs. comportamento) e forma (explícito vs. implícito). Essa taxonomia revela um ponto cego crítico: enquanto trabalhos anteriores focam no vazamento de texto, os agentes web também compartilham excessivamente comportamentalmente por meio de cliques, rolagens e padrões de navegação que podem ser monitorados. Avaliamos 180 tarefas em sites de e-commerce ativos com anotações de verdade fundamental que separam atributos relevantes da tarefa dos irrelevantes. Em 1.080 execuções abrangendo duas estruturas agentes e três LLMs de base, demonstramos que o *oversharing* é generalizado, com o *oversharing* comportamental dominando o *oversharing* de conteúdo em 5 vezes. Esse efeito persiste – e pode até piorar – sob mitigação no nível de *prompt*. No entanto, remover informações irrelevantes antes da execução melhora o sucesso da tarefa em até 17,9%, demonstrando que reduzir o *oversharing* melhora o sucesso da tarefa. Nossas descobertas ressaltam que proteger a privacidade em agentes web é um desafio fundamental, exigindo uma visão mais ampla de "saída" que leve em conta o que os agentes fazem na web, e não apenas o que eles digitam. Nossos conjuntos de dados e código estão disponíveis em https://github.com/jrohsc/SPILLage.
O Aprendizado por Reforço (RL) consolidou-se como um paradigma dominante para a condução autónoma (AD) de ponta a ponta. No entanto, o RL sofre de ineficiência amostral e falta de interpretabilidade semântica em cenários complexos. Os Modelos de Base (Foundation Models), particularmente os Modelos de Visão e Linguagem (VLMs), podem mitigar isto ao oferecer conhecimento rico e consciente do contexto, mas a sua elevada latência de inferência dificulta a implantação em ciclos de treino de RL de alta frequência. Para colmatar esta lacuna, apresentamos o Found-RL, uma plataforma concebida para melhorar eficientemente o RL para AD usando modelos de base. Uma inovação central é a arquitetura de inferência assíncrona em lote, que desacopla o pesado raciocínio dos VLMs do ciclo de simulação, resolvendo eficazmente os estrangulamentos de latência para suportar aprendizagem em tempo real. Introduzimos diversos mecanismos de supervisão: a Regularização de Margem de Valor (VMR) e a Orientação de Ação Ponderada pela Vantagem (AWAG) para destilar eficazmente sugestões de ação semelhantes às de um perito VLM na política de RL. Adicionalmente, adotamos o CLIP de alto débito para a modelagem de recompensas densas. Abordamos a cegueira dinâmica do CLIP através do Alinhamento Ação Condicional Contrastivo, que condiciona as instruções (prompts) na velocidade/comando discretizados e produz um bónus normalizado, baseado em margem, a partir de uma pontuação ação-âncora específica do contexto. O Found-RL fornece um pipeline de ponta a ponta para integração de VLM afinado e demonstra que um modelo de RL leve pode alcançar um desempenho próximo ao do VLM em comparação com VLMs de milhares de milhões de parâmetros, mantendo simultaneamente inferência em tempo real (aproximadamente 500 FPS). O código, dados e modelos estarão publicamente disponíveis em https://github.com/ys-qu/found-rl.
O ajuste fino por instrução de grandes modelos de linguagem (LLMs) frequentemente envolve a seleção de um subconjunto de dados de treinamento de instruções a partir de um grande conjunto de candidatos, utilizando um pequeno conjunto de consultas da tarefa-alvo. Apesar do crescente interesse, a literatura sobre seleção direcionada de instruções permanece fragmentada e opaca: os métodos variam amplamente em orçamentos de seleção, frequentemente omitem baselines *zero-shot* e, com frequência, entrelaçam as contribuições de componentes-chave. Como resultado, os profissionais carecem de orientações acionáveis para selecionar instruções para suas tarefas-alvo. Neste trabalho, visamos trazer clareza a este cenário, desagregando e analisando sistematicamente os dois ingredientes centrais: a representação dos dados e os algoritmos de seleção. Nossa estrutura permite comparações controladas entre modelos, tarefas e orçamentos. Descobrimos que apenas representações de dados baseadas em gradiente escolhem subconjuntos cuja similaridade com a consulta prevê consistentemente o desempenho em diferentes conjuntos de dados e modelos. Embora nenhum método único seja dominante, as representações baseadas em gradiente emparelhadas com um algoritmo de seleção *greedy round-robin* tendem a ter o melhor desempenho médio em orçamentos baixos, mas esses benefícios diminuem em orçamentos maiores. Por fim, unificamos vários algoritmos de seleção existentes como formas de minimização aproximada da distância entre o subconjunto selecionado e o conjunto de consultas, e apoiamos esta visão com novos limites de generalização. De forma mais ampla, nossas descobertas fornecem insights críticos e uma base para uma seleção de dados mais fundamentada no ajuste fino de LLMs. O código está disponível em https://github.com/dcml-lab/targeted-instruction-selection.
Os agentes de IA generativa equiparam a compreensão à resolução de consultas explícitas, uma suposição que confina a interação ao que os utilizadores conseguem articular. Esta suposição desmorona-se quando os próprios utilizadores não têm consciência do que está em falta, é arriscado ou vale a pena considerar. Nessas condições, a proatividade não é meramente um aumento de eficiência, mas uma necessidade epistémica. Referimo-nos a esta condição como incompletude epistémica: situações em que o progresso depende do envolvimento com "incógnitas desconhecidas" para uma parceria eficaz. As abordagens existentes para a proatividade mantêm-se estritamente antecipatórias, extrapolando a partir de comportamentos passados e presumindo que os objetivos já estão bem definidos, falhando assim em apoiar os utilizadores de forma significativa. No entanto, revelar possibilidades além da consciência atual do utilizador não é inerentemente benéfico. Intervenções proativas sem restrições podem desviar a atenção, sobrecarregar os utilizadores ou introduzir danos. Os agentes proativos requerem, portanto, uma base comportamental: restrições fundamentadas sobre quando, como e em que medida um agente deve intervir. Avançamos com a posição de que a proatividade generativa deve ser fundamentada tanto epistémica quanto comportamentalmente. Com base na filosofia da ignorância e na investigação sobre comportamento proativo, argumentamos que estas teorias oferecem orientação crítica para projetar agentes que possam envolver-se de forma responsável e fomentar parcerias significativas.