Por que a modelagem de ameaças tradicional falha em sistemas de IA generativa

🇺🇸 Read in English
Índice

Introdução

A modelagem de ameaças tradicional assume que sistemas são amplamente determinísticos, que componentes possuem interfaces estáveis e que adversários exploram fraquezas específicas e enumeráveis. Sistemas de IA generativa violam essas premissas em um nível fundamental: são estocásticos, seu comportamento é distribucional em vez de funcional, e frequentemente estão embutidos em pipelines dinâmicos onde saídas podem alterar o ambiente. O resultado não é simplesmente uma modelagem de ameaças “mais complexa”, mas uma incompatibilidade categórica entre métodos clássicos e a superfície de segurança real.

Este ensaio explica por que essa incompatibilidade ocorre, quais premissas teóricas se quebram e como o pensamento de segurança precisa se adaptar quando o comportamento central do sistema é probabilístico e sensível ao contexto.

1) A modelagem de ameaças assume semântica determinística

Em software clássico, raciocinamos sobre um mapeamento f:XYf: X \to Y e perguntamos onde ele pode violar propriedades de segurança. Um modelo de capacidade adversária (por exemplo, STRIDE, árvores de ataque) tipicamente presume que, se as entradas são controladas, o comportamento do sistema é previsível. O objeto implícito é uma função, com raros elementos estocásticos tratados como ruído.

A IA generativa substitui ff por uma distribuição condicional:

P(yx)orP(y1:Tx)=t=1TP(ytx,y<t).P(y \mid x) \quad \text{or} \quad P(y_{1:T} \mid x) = \prod_{t=1}^{T} P(y_t \mid x, y_{<t}).

Propriedades de segurança não são mais predicados binários sobre saídas. São expectativas, intervalos de confiança e probabilidades de cauda. Isso não é um detalhe superficial: quebra a lógica de “enumerar e corrigir” da modelagem de ameaças tradicional.

2) O risco se torna distribucional, não baseado em eventos

A modelagem de ameaças clássica pergunta: “O sistema pode alcançar um estado inseguro?” Para modelos generativos, a pergunta mais precisa é: “Quanta massa de probabilidade está em saídas inseguras?” Se U\mathcal{U} é a região insegura, o risco é:

Risk(x)=P(yUx).\mathrm{Risk}(x) = P(y \in \mathcal{U} \mid x).

Um sistema pode ser seguro em expectativa, mas inseguro em contextos adversarialmente selecionados. O objetivo do adversário se torna um de direcionamento de probabilidade: encontrar prompts ou contextos que desloquem massa em direção a U\mathcal{U}. Isso não se assemelha a explorar um único bug; se assemelha a manipular uma distribuição.

3) A superfície de ameaça inclui priors do modelo e correlações latentes

Modelos tradicionais de ameaças assumem que o comportamento é controlado por caminhos de código explícitos e restrições explícitas. Sistemas generativos, no entanto, mesclam instrução, conteúdo e conhecimento prévio em espaço latente. Um prompt não é apenas uma entrada; é um vetor de contexto que repondera a variedade interna do modelo. Isso dá aos adversários alavancagem sobre correlações latentes que não são explicitamente representadas no código.

A implicação de segurança é que as vulnerabilidades do sistema não são necessariamente descobríveis por inspeção de código. Elas podem existir em regularidades estatísticas aprendidas a partir dos dados e, portanto, não são enumeráveis de forma organizada nem exaustivamente testáveis.

4) Composabilidade cria dinâmicas de retroalimentação

Sistemas generativos são tipicamente embutidos em pipelines maiores — recuperação, ferramentas, feedback de usuários ou fluxos multi-agente. Em tal sistema, a saída não é um ponto final; é uma ação que modifica o ambiente. Se ss é o estado do ambiente e yy é uma saída gerada, então:

(st+1,xt+1)=F(st,yt),ytP(xt).(s_{t+1}, x_{t+1}) = F(s_t, y_t), \quad y_t \sim P(\cdot \mid x_t).

Isso cria um sistema dinâmico onde saídas de baixa probabilidade podem desencadear grandes transições de estado. A modelagem de ameaças tradicional, que trata componentes como isolados e amplamente estáticos, não considera loops de retroalimentação probabilísticos. O adversário pode explorar as dinâmicas do sistema, não apenas saídas individuais.

5) Controles de segurança se tornam componentes probabilísticos

Filtros de segurança, políticas de recusa ou classificadores pós-hoc são, eles próprios, probabilísticos. Um filtro gψg_\psi que bloqueia saídas inseguras produz uma distribuição filtrada:

P(yx)P(yx)1[gψ(y)δ].P'(y \mid x) \propto P(y \mid x) \cdot \mathbf{1}[g_\psi(y) \leq \delta].

Isso não produz uma garantia rígida; remodela a distribuição. Falsos negativos se tornam riscos de cauda, e a filtragem introduz novas fronteiras de decisão que podem ser exploradas. Um modelo tradicional de ameaças pode tratar um filtro como um “controle”, mas na prática ele é apenas mais um elemento estocástico na cadeia.

6) Amostragem repetida amplifica risco de cauda

Em sistemas determinísticos, consultas repetidas não alteram resultados. Em sistemas probabilísticos, amostragem repetida aumenta a probabilidade de um evento inseguro raro. Se a cauda insegura é pp, então após kk tentativas a chance de observar pelo menos uma saída insegura é:

1(1p)k.1 - (1 - p)^k.

Assim, mesmo riscos de cauda pequenos se tornam operacionalmente significativos em implantações de alto volume ou sob consultas adversárias. Modelos clássicos de ameaças raramente quantificam o efeito da pressão de amostragem; em sistemas generativos, isso é central.

7) Equívocos que comprometem a análise de segurança

Equívoco 1: “Decodificação determinística torna o sistema seguro.” Decodificação determinística reduz variância, mas não garante segurança. A completação mais provável ainda pode ser insegura em contextos adversários. Segurança diz respeito ao mapeamento xP(yx)x \mapsto P(y \mid x), não ao ruído de amostragem.

Equívoco 2: “Alinhamento remove risco adversário.” Alinhamento desloca a distribuição; não remove regiões inseguras. Um modelo alinhado ainda pode ter caudas exploráveis, e o próprio objetivo de alinhamento pode ser distribucionalmente frágil sob manipulação de prompt.

Equívoco 3: “A modelagem de ameaças pode ser feita por prompt.” Análise no nível de prompt ignora composabilidade. Em um sistema real, prompts são gerados por outros componentes e podem ser influenciados por saídas, criando loops de retroalimentação que violam premissas estáticas.

8) Limites teóricos: sem restrições rígidas, apenas limites

A modelagem de ameaças clássica presume que um sistema pode ser endurecido para satisfazer restrições estritas. Modelos generativos não possuem mecanismo intrínseco para restrições rígidas; eles aproximam uma distribuição. No melhor dos casos, podemos limitar o risco ou reduzir a probabilidade de cauda. Mesmo se fosse possível definir restrições no espaço latente, aplicá-las de forma consistente em todos os contextos ainda é um problema em aberto.

A robustez deveria, portanto, ser definida em termos distribucionais, por exemplo via limites de divergência:

DKL(P(x)    P(x+ϵ)).D_{\mathrm{KL}}\big(P(\cdot \mid x) \;\|\; P(\cdot \mid x+\epsilon)\big).

Divergência grande sob pequenas perturbações indica fragilidade e, consequentemente, maior alavancagem adversária. Esses não são artefatos de implementação; são propriedades estruturais de modelos estatísticos de alta dimensionalidade.

9) Implicações para a prática de modelagem de ameaças

A falha da modelagem de ameaças tradicional não implica que a modelagem de ameaças é inútil. Implica que a unidade de análise precisa mudar. Um modelo de ameaças útil para IA generativa deve:

  • Tratar o risco como distribucional e quantificar probabilidades de cauda.
  • Incorporar consultas adversárias e pressão de amostragem.
  • Modelar composabilidade e retroalimentação do ambiente.
  • Tratar controles de segurança como componentes estocásticos com calibração e riscos de falso negativo.
  • Limitar explicitamente a incerteza e reconhecer modos de falha em aberto.

Isso se assemelha mais a análise de risco adversário e teoria de decisão robusta do que a checklists de segurança de software.

Conclusão

A modelagem de ameaças tradicional pressupõe semântica determinística, componentes estáticos e vulnerabilidades corrigíveis. Sistemas de IA generativa violam essas premissas. Suas propriedades de segurança são estatísticas e distribucionais, suas superfícies de ataque são moldadas por correlações latentes, e seus modos de falha são amplificados por amostragem repetida e retroalimentação do sistema.

A resposta correta não é abandonar a modelagem de ameaças, mas revisá-la a partir de primeiros princípios: de enumerar falhas para limitar distribuições, de análise estática para risco dinâmico, e de garantias binárias de segurança para incerteza calibrada. Qualquer coisa menos arrisca falsa confiança em sistemas que são, por design, probabilísticos.