Data poisoning LLM : 250 docs suffisent (2026)

Un agronome soviétique sans formation sérieuse a réussi à corrompre toute la biologie d'un pays — non pas en réfutant la science, mais en contrôlant ce qui entrait dans les manuels. Pendant vingt ans, le système a continué de fonctionner, produisant des sorties fluides et confiantes. Et fausses. Selon dac.consulting, cette structure est exactement celle du data poisoning des LLM : un modèle empoisonné ne sent pas qu'il est corrompu, il répond avec la même assurance qu'un corpus sain. Cet article explique comment fonctionne l'empoisonnement des bases RAG d'entreprise, pourquoi un seuil aussi bas que 250 documents suffit à compromettre n'importe quel modèle, et quelle hygiène concrète protège votre mémoire documentaire.

Une session d'académie qui a affamé un pays

Le 31 juillet 1948, à Moscou, l'Académie Lénine des sciences agricoles ouvre une session qui va durer une semaine. Trofim Denissovitch Lyssenko, agronome sans formation scientifique sérieuse mais protégé de Staline, y prononce un rapport intitulé De la situation dans la science biologique.

À la fin de la session, une annonce tombe : le rapport a été approuvé par le Comité central du Parti. La génétique mendélienne — celle des chromosomes, des gènes, de l'hérédité que nous enseignons aujourd'hui — est déclarée « science bourgeoise réactionnaire ».

En quelques mois, les manuels sont réécrits, les laboratoires fermés, des milliers de biologistes limogés. Nikolaï Vavilov, le plus grand généticien soviétique, était déjà mort en prison en 1943, condamné pour ses idées. Le corpus de la biologie soviétique venait d'être empoisonné à la source.

Mis à jour le 8 juillet 2026.

Le pont : un système d'apprentissage ne sent pas qu'il est corrompu

Ce qui rend l'affaire Lyssenko vertigineuse, ce n'est pas la fausseté de ses thèses — l'hérédité des caractères acquis, le blé qui se transforme en seigle. C'est que le système a continué de fonctionner.

Les revues paraissaient, les académies siégeaient, les diplômes s'imprimaient, les thèses se soutenaient. La machine produisait des sorties fluides, confiantes, bien formées. Et fausses. Pendant près de vingt ans, une génération entière d'agronomes a été formée sur des données corrompues.

C'est exactement la structure de l'empoisonnement des LLM, ce que la littérature de sécurité nomme data poisoning. Un modèle de langage n'attaque pas ses propres sources. Il apprend ce qu'on lui donne, il consulte ce qu'on lui indique — et il ne dispose d'aucun organe interne pour détecter que sa mémoire a été truquée.

Empoisonner la mémoire, pas la conversation

Il faut distinguer deux familles d'attaques, souvent confondues. La première, l'injection de prompt, agit sur la conversation : elle glisse une instruction pirate dans ce que le modèle lit au moment de répondre. J'ai décrit ce mécanisme du confused deputy dans une analyse de la sécurité des LLM vue depuis le cheval de Troie.

L'empoisonnement, lui, attaque la mémoire. Il corrompt ce que le modèle apprend pendant l'entraînement, ou ce qu'il consulte dans une base documentaire. La différence est de nature, pas de degré.

Une injection de prompt est visible dans les logs, se corrige par un garde-fou, disparaît à la fin de la session. Un corpus empoisonné est invisible dans les logs applicatifs ordinaires, persiste dans le temps, et ne se corrige que par un réentraînement ou un nettoyage de la base. C'est l'écart entre un intrus surpris dans le couloir et un sabotage inscrit dans les archives.

Le chiffre contre-intuitif : 250 documents

On imaginerait qu'empoisonner un grand modèle exige un volume proportionnel à sa taille. C'est faux, et c'est le résultat le plus troublant de la recherche récente.

En octobre 2025, Anthropic, avec le UK AI Security Institute et l'Alan Turing Institute, a publié une étude montrant qu'un nombre fixe de documents empoisonnés — de l'ordre de 250 — suffit à implanter une porte dérobée dans des modèles allant de 600 millions à 13 milliards de paramètres. Le détail est disponible dans leur note A small number of samples can poison LLMs of any size.

Ces 250 documents ne représentent que 0,00016 % du corpus du plus gros modèle testé. La vulnérabilité ne dépend pas de la proportion de données corrompues, mais d'un seuil absolu. Quelques centaines de textes piégés d'une phrase déclencheuse suffisent — et le modèle continue de bien se comporter partout ailleurs, ce qui rend la trahison indétectable au premier regard.

Le cas qui vous concerne vraiment : le RAG d'entreprise

La plupart des PME et ETI ne pré-entraînent aucun modèle. Elles branchent un LLM sur leur documentation via un système RAG — retrieval-augmented generation —, une mémoire externe que le modèle interroge avant de répondre. J'ai souvent comparé cette architecture à l'art de mémoire antique de Simonide de Céos. C'est précisément là que se trouve la surface d'attaque.

L'étude PoisonedRAG le démontre : en injectant seulement cinq textes malveillants par question ciblée dans une base de plusieurs millions d'entrées, les chercheurs obtiennent un taux de succès d'environ 90 %. Les documents empoisonnés deviennent des « sources d'autorité » dans le pipeline et supplantent un corpus sain bien plus vaste.

La leçon de Lyssenko tient dans ce mécanisme. Il n'a pas eu besoin de réfuter Mendel : il a eu besoin de contrôler ce qui entrait dans les manuels. Quelques centaines de publications falsifiées ont suffi à orienter tout un champ, parce que l'autorité de la source ne garantit rien sur sa véracité.

Trois parallèles qui tiennent

Le premier : l'autorité de la source ne vaut pas preuve. Une revue académique soviétique et un document déposé dans votre base vectorielle partagent la même faiblesse — ils sont présumés fiables par le système qui les consulte.

Le deuxième : un corpus empoisonné produit des sorties confiantes. Le blé lyssenkiste poussait dans les rapports comme le mensonge prospère dans un RAG corrompu : sans hésitation apparente, avec la fluidité d'une vérité.

Le troisième : la détection vient toujours de l'extérieur. Ce sont les famines, la confrontation au réel, qui ont fini par démasquer Lyssenko — jamais le système lui-même. Un LLM ne se relit pas ; il faut lui opposer une source de vérité indépendante.

L'hygiène d'une mémoire d'entreprise : ma check-list

Sur les bases RAG que j'opère, je traite le corpus comme une surface d'attaque, pas comme un entrepôt passif. Voici ce que cela signifie concrètement — une hygiène que je déploie sur mes propres projets avant de la proposer en mission de conseil et de réalisation d'agents sur mesure.

Provenance et signature : chaque document ingéré porte une trace de son origine et de qui l'a validé. Un texte anonyme ne rentre pas.
Séparation stricte des sources : les contenus internes vérifiés et les contenus externes aspirés vivent dans des espaces distincts, avec des niveaux de confiance différents.
Contrôle des droits d'écriture : peu de mains peuvent écrire dans la base vectorielle. Une base RAG ouverte en écriture est une porte laissée entrebâillée.
Tests de canari : j'injecte des questions dont je connais la réponse exacte et je vérifie périodiquement que le système répond juste. Une dérive signale une contamination.
Audits par échantillonnage : je relis régulièrement un échantillon aléatoire de documents, comme un contrôle qualité.

Cette check-list recoupe celle que propose Lakera dans Introduction to Data Poisoning: A 2026 Perspective, qui insiste sur la traçabilité, la segmentation des corpus et le red teaming orienté poisoning.

Le cousin involontaire : la corruption par soi-même

L'empoisonnement malveillant a un jumeau accidentel. Quand un modèle s'entraîne sur ses propres sorties, ou sur du contenu synthétique non contrôlé, il dégénère lentement — un phénomène que j'ai relié à l'effondrement dynastique des Habsbourg par consanguinité.

Dans les deux cas, la maladie est la même : un système d'apprentissage qui perd le contact avec une source de vérité externe. Lyssenko a coupé la biologie soviétique du réel ; la consanguinité a coupé les Habsbourg du brassage génétique. La corruption, qu'elle soit voulue ou subie, commence toujours par la fermeture du circuit.

La confiance est une propriété de la chaîne, pas du modèle

Je n'écris pas ceci pour effrayer. L'empoisonnement des LLM n'est pas une fatalité — c'est une surface d'attaque, et une surface se protège. Le message tient en une phrase : votre base documentaire mérite le même soin qu'un système de production sensible.

Car la vraie leçon de 1948 n'est pas que Lyssenko a cassé la biologie. Il a cassé le circuit qui décidait de ce qui entrait dans les manuels. La science soviétique fonctionnait toujours — elle avait simplement perdu le droit de se corriger.

La confiance dans un système d'IA n'est pas une propriété du modèle. C'est une propriété de la chaîne d'approvisionnement de ses données. Traitez cette chaîne comme telle, et l'empoisonnement des LLM redevient ce qu'il aurait toujours dû être : un risque connu, mesuré, tenu.

250 documents suffisent : ce que Lyssenko révèle de l'empoisonnement des LLM

Ce que vous allez apprendre