Ward³
Retour à l'accueil
Whitepaper · Mai 2026

Présentation d'ANM

Médiation Neuronale Adversarielle — une nouvelle catégorie de défense réseau pour l'ère de l'IA adversarielle.

Par Ward³

Synthèse exécutive

Le Network Detection and Response (NDR) — la catégorie pionnée par Vectra, Darktrace et ExtraHop — suppose qu'un seul modèle ML, correctement entraîné sur le trafic d'entreprise, suffit à détecter les attaques sophistiquées. Cette hypothèse était raisonnable en 2017. Elle ne l'est plus en 2026.

La dernière décennie de recherche en machine learning adversariel a démontré, à répétition et dans chaque domaine touché par le ML, que tout modèle déployé seul peut être trompé par un attaquant suffisamment motivé. Les techniques — évasion par gradient, attaques de transfert, extraction de modèle, empoisonnement de labels — sont aujourd'hui packagées dans des frameworks open source (ART, CleverHans, Foolbox) et de plus en plus accessibles à des acteurs ordinaires.

Pour les cibles d'entreprise à forte valeur — banques, opérateurs télécoms, défense, infrastructures critiques — la question n'est plus « un attaquant va-t-il contourner notre NDR ? » mais « quand il le fera, qu'est-ce qui le rattrapera ? »

La Médiation Neuronale Adversarielle (ANM) est notre réponse. ANM est une nouvelle catégorie de défense réseau qui médie entre plusieurs juges IA architecturalement distincts — chacun fondé sur des types de signaux, des familles de modèles et des biais inductifs différents — avec détection explicite de la divergence comme signal de sécurité à part entière. Un attaquant qui élabore une perturbation trompant un juge doit encore tromper les autres simultanément, un problème exponentiellement plus dur lorsque les juges ne partagent aucune surface d'attaque commune.

Partie 1 — Le modèle de menace a changé

Les IDS classiques — Snort, Suricata — utilisaient le matching de signatures. L'objectif de l'attaquant était de modifier le payload jusqu'à ce qu'aucune signature ne matche. Les défenseurs répondaient avec des mises à jour fréquentes de signatures et des heuristiques.

Le NDR a remplacé les signatures par de la détection statistique et ML. L'objectif de l'attaquant est devenu de tromper un modèle appris. Ce déplacement est fondamental : les signatures sont déterministes et inspectables ; les modèles ML sont opaques, gradient-différentiables et vulnérables à l'évasion par optimisation.

Un article de 2014 (Goodfellow et al., « Explaining and Harnessing Adversarial Examples ») a montré que des perturbations imperceptibles à un classifieur d'images pouvaient inverser la classe prédite avec un taux de succès attaquant proche de 100 %. En cinq ans, toutes les applications majeures du deep learning ont été démontrées vulnérables : classifieurs de malware, reconnaissance vocale, reconnaissance faciale, et — c'est ce qui nous intéresse ici — détection d'intrusion réseau.

L'attaquant n'a plus besoin de battre votre logique de détection par reverse engineering. Il lui suffit d'accéder à un modèle similaire (souvent entraînable sur les datasets publics utilisés par le vendor) pour élaborer des exemples adversariels transférables.

Partie 2 — Pourquoi le NDR mono-modèle échoue

Une fois le marketing retiré, un produit NDR typique implémente un seul pipeline : capture de flux (NetFlow / IPFIX / packet broker) → extraction de features (5-tuple, tailles de paquets, temps inter-arrivée, protocoles) → un modèle ML (autoencodeur / apprenant séquentiel / transformer) → score → alerte si supérieur au seuil.

Le modèle est le point de défaillance unique. Si un attaquant peut mimer les statistiques de trafic légitime (exfil lent, jitter de beacon, padding aux tailles standards), injecter des features sous le seuil d'erreur de reconstruction de l'autoencodeur, ou caler l'attaque pendant une fenêtre de ré-entraînement — l'alerte ne se déclenche jamais.

Preuve empirique

Avec une architecture NDR à autoencodeur typique, nous avons reproduit trois scénarios d'attaque sous évasion par gradient à ε=0,02 — une perturbation modifiant ~2 % de chaque vecteur de features, bien dans le bruit normal du réseau. Les taux de détection s'effondrent de 86–99 % à 12–41 %. L'attaquant ne change pas l'attaque ; il change les features que le NDR extrait à propos de l'attaque.

Partie 3 — Pourquoi les ensembles homogènes n'aident pas

La première réaction d'une équipe ML face à ce problème est « entraînons un ensemble ». Cela aide modestement (augmente le coût compute attaquant) mais ne résout pas le problème structurel, parce que les modèles de l'ensemble partagent :

  • les mêmes features d'entrée,
  • les mêmes données d'entraînement,
  • souvent la même famille d'architecture avec des graines aléatoires différentes.

Les perturbations adversarielles se transfèrent avec forte probabilité entre modèles partageant ces caractéristiques. Des taux de transfert au-dessus de 60 % sont la norme.

Une vraie défense exige des juges architecturalement orthogonaux — des modèles qui sont en désaccord sur ce qui rend un flux suspect de manières fondamentalement différentes.

Partie 4 — Définition d'ANM

La Médiation Neuronale Adversarielle (ANM) est une catégorie de défense réseau dans laquelle les décisions de détection sont produites non par un seul modèle ML, mais par un mécanisme d'arbitrage entre plusieurs juges architecturalement distincts, où la divergence entre juges est elle-même traitée comme un signal de sécurité.

Cette définition est délibérément étroite. Elle exclut les réinterprétations marketing : un ensemble de trois autoencodeurs identiques n'est pas ANM ; un SIEM qui corrèle des alertes de trois produits différents n'est pas ANM ; un pipeline qui fait de l'entraînement adversariel mais expose un seul modèle à l'inférence n'est pas ANM.

Partie 5 — Cinq critères pour la catégorie

Un produit appartient à la catégorie ANM si et seulement s'il satisfait les cinq critères ci-dessous.

  1. 01
    Au moins trois juges, architecturalement distincts

    Pas trois graines aléatoires. Pas trois tailles de fenêtres glissantes. Trois juges fondés sur des biais inductifs différents : par exemple un apprenant séquentiel sur le timing des paquets, un apprenant graphique sur la topologie des flux, et un moteur déterministe de règles. La raison : les perturbations adversarielles se transfèrent entre modèles qui partagent un biais inductif. Elles ne se transfèrent pas entre modèles qui encodent le monde de manière fondamentalement différente.

  2. 02
    Détection explicite de divergence

    Le système doit calculer en temps réel une mesure de désaccord entre les juges (KL, max-min spread, Jensen-Shannon) et traiter une divergence élevée comme un signal de sécurité de premier ordre — pas comme un simple score de confiance. La signature la plus propre d'une attaque adversarielle est que la perturbation réussit contre le juge ciblé mais produit des sorties inhabituelles chez les autres. La divergence est l'inverse de la furtivité.

  3. 03
    Entraînement adversariel des juges ML

    Les juges ML doivent être entraînés avec des procédures de robustesse adversarielle — pas seulement sur données propres. Procédure d'entraînement et modèle de menace documentés sont requis. Des juges non entraînés sont faciles à tromper individuellement ; des juges robustes augmentent le coût attaquant par juge.

  4. 04
    Intégrité & watermarking des modèles

    Les modèles déployés doivent être signés cryptographiquement et vérifiés au chargement. La chaîne de vérification doit s'étendre de l'artefact de build au déploiement. La substitution et l'empoisonnement de modèle sont deux attaques documentées. Sans provenance, la médiation est sans valeur.

  5. 05
    Piste de décision auditable

    Chaque décision de détection — scores par juge, valeur de divergence, conséquences appliquées — doit être persistée dans un journal inviolable pour le forensics post-incident et la constitution de datasets de ré-entraînement. La robustesse sans auditabilité est non prouvable à un régulateur, un assureur ou un conseil d'administration.

Partie 6 — Ward³ comme implémentation de référence

Ward³ implémente les cinq critères ANM avec les choix techniques suivants.

Trois juges architecturalement orthogonaux. Un juge séquentiel (apprenant neuronal sur fenêtres de paquets par flux, pooling d'attention), un juge relationnel (encodeur graphique multi-couches sur la topologie src→dst dans une fenêtre glissante), et un juge de règles (moteur booléen d'invariants experts conçus à la main).

Le juge séquentiel et le juge relationnel sont architecturalement orthogonaux : une perturbation qui trompe les statistiques de séquence ne produira pas, en général, une topologie de graphe que le juge relationnel considère comme normale. Le juge de règles ajoute un troisième axe qui n'est pas différentiable du tout, et est donc immunisé aux attaques par gradient par construction.

Médiateur. La logique d'arbitrage calcule des scores de probabilité par juge, la divergence par paires, et le spread maximum. Un consensus n'est pris que lorsque la divergence est sous le seuil ; en cas de désaccord, le médiateur fail-close et publie XAI_DIVERGENCE_HIGH comme signal de premier ordre. Un attaquant furtif qui trompe un juge est détecté précisément parce qu'il a produit un désaccord avec les autres.

Entraînement adversariel. Les deux juges ML sont entraînés avec des procédures d'attaque par gradient. La procédure d'entraînement, les hyperparamètres et le modèle de menace sont documentés et reproductibles de bout en bout.

Intégrité des modèles. Chaque artefact d'inférence est signé au build et vérifié au chargement. Le registre de modèles est append-only avec provenance complète : hash du dataset d'entraînement, ID du run, commit du code, le tout lié à une model card.

Piste d'audit. Chaque décision de détection est persistée dans un ledger chaîné par hash, signé avec des primitives post-quantiques. Le ledger peut être rejoué pour reconstruire toute décision historique et valider le raisonnement du médiateur auprès d'un auditeur.

Partie 7 — Trois juges. Trois latences. Trois surfaces.

Ward³ étend la trinité au-delà de la dimension juge. La détection s'exécute selon un modèle d'exécution en paliers où la même trinité de marque se concrétise de bout en bout.

Tier 1 — Edge (μs). Juge de règles en Rust pur, hits de cache threat-intelligence, matches d'empreintes TLS, préprocessing et tagging eBPF, enforcement endpoint local. 60–80 % du trafic est résolu décisivement ici, en microsecondes, sans toucher au ML.

Tier 2 — Tenant (ms). Les juges séquentiel et relationnel tournent ici, avec les juges endpoint processus et fichier. Le médiateur calcule consensus et divergence. Le scoring adversariel robuste produit le verdict et le signal d'enforcement.

Tier 3 — Plateforme (dizaines de ms, async). Corrélation cross-host et cross-tenant : corrélation endpoint, baselines long-horizon, reconstruction de kill-chain, threat intel fédéré. S'exécute sans bloquer le hot path — les verdicts sont émis au Tier 2 et enrichis ici.

Surfaces. Ward³ s'exécute sur les flux réseau et les signaux endpoint (processus, fichier, mouvement latéral, credential, tamper) sous un seul médiateur et un seul ledger d'audit. C'est le chemin du NDR au XDR sans perdre les garanties ANM.

Partie 8 — Caractéristiques de performance

Évalué sur trafic exclu de l'entraînement et sur des réseaux hors-distribution (formats de logs, familles d'attaque et botnets IoT jamais vus à l'entraînement). Robustesse adversarielle mesurée sous évasion par gradient.

L'architecture 3-juges apporte +30 à +60 points de détection sous conditions adversarielles, au prix d'une latence d'inférence approximativement 2× vs mono-modèle — toujours bien sous 10 ms p99 par flux sur matériel standard.

MétriqueBaseline mono-jugeMédiation Ward³ 3-juges
F1 (clean)0,660,97
AUC-ROC (clean)0,890,998
Détection sous évasion par gradient ε=0,0223,7 %94,1 %
Détection sous attaque de transfert31,4 %89,6 %
AUC-ROC (hors-distribution)0,710,87

Partie 9 — Comparaison aux catégories adjacentes

ANM n'est pas un remplacement de l'EDR, du NDR, du XDR ou du MDR. Il occupe la couche réseau quand des attaquants adversariels visent votre ML, et il se compose avec le reste de votre stack.

Les différenciateurs qu'aucune autre catégorie n'offre aujourd'hui : juges architecturalement orthogonaux, divergence traitée comme signal de sécurité, entraînement adversariel documenté des composants ML, vérification d'intégrité des modèles du build au runtime, et un ledger d'audit inviolable de chaque décision.

Partie 10 — Considérations d'adoption

Ward³ est conçu pour coexister avec les investissements de sécurité existants plutôt que les remplacer. Il se déploie comme capteur et enforcer natif Kubernetes (et en mode standalone Linux), expose des métriques Prometheus + dashboards Grafana de référence + tracing OpenTelemetry, et utilise Sigstore pour l'attestation d'artefacts.

La gouvernance est explicite : une cérémonie War Mode 4-yeux gate les blocages à débit ligne à fort impact. Le quorum basé sur le secret sharing de Shamir protège le matériel cryptographique. Des primitives post-quantiques (alignées NIST) sont utilisées de bout en bout pour le ledger d'audit et les signatures de quorum.

Le multi-tenancy MSSP-aware est intégré à la plateforme. Les seuils de famille, les poids de juges et les opt-ins de paliers sont par-tenant. La charge compute scale avec les features achetées, pas avec le nombre de juges écrits.

Conclusion

Le NDR mono-modèle ne suffit plus. La surface d'attaque ML adversarielle est structurelle, pas un problème de tuning, et elle ne sera pas patchée en ajoutant un autre autoencodeur.

ANM est une réponse concrète : trois juges architecturalement orthogonaux, divergence comme signal de premier ordre, entraînement adversariel, intégrité des modèles, décisions auditables. Ward³ en est la première implémentation de référence — la preuve que la catégorie est atteignable.

Si vous êtes responsable de la couche réseau d'une entreprise à forte valeur, la question n'est plus de savoir si des attaquants adversariels viendront pour votre ML. La question est : qu'est-ce qui les rattrape quand ils le feront ?

Demandez un accès pour discuter de Ward³ dans votre environnement.
Demander un accès