OWASP TOP 10 LLM : édition 2025

OWASP TOP 10 LLM : édition 2025

Il n'est jamais inutile de rappeler le TOP 10 LLM de l'OWASP. La version 2025 est disponible. Plusieurs changements importants apparaissent dans les failles potentielles. 

Voici un récapitulatif des vulnérabilités LLM :

LLM01 : prompt injection

Une vulnérabilité d'injection d'invites se produit lorsque les prompts des utilisateirs modifient le comportement ou le résultat du LLM de manière inattendue. Ces entrées peuvent affecter le modèle même si elles sont imperceptibles pour l'utilisateur. Par conséquent, les injections d'invites n'ont pas besoin d'être visibles/lisibles par l'utilisateur, tant que le contenu est analysé par le modèle.

Contre-mesures : contraindre l'usage du LLM, bien définir le format et les données en sortie et en entrée, renforcer les droits, validation humaine pour les demandes les plus critiques, isoler les données externes

LLM02 : données sensibles sont dévoilées / accessibles

Les informations sensibles peuvent affecter le LLM et son contexte d'application. Cela inclut les informations personnelles identifiables, les données financières, les dossiers médicaux, les données commerciales confidentielles, les informations d'identification de sécurité et les documents juridiques. Les modèles propriétaires peuvent également avoir des méthodes de formation spécifiques et un code source considéré comme sensible, en particulier dans les modèles fermés ou de fondation.

Contre-mesures : renforcer les accès aux données, sensibiliser les utilisateurs sur l'usage sécurisé des LLM

LLM03 : supply chain

Les chaînes d'approvisionnement LLM sont exposées à diverses vulnérabilités, susceptibles d'affecter l'intégrité des données d'entraînement, des modèles et des plateformes de déploiement. Ces risques peuvent entraîner des résultats biaisés, des failles de sécurité ou des pannes système. Alors que les vulnérabilités logicielles traditionnelles se concentrent sur des problèmes tels que les défauts de code et les dépendances, en ML, les risques s'étendent également aux modèles et données pré-entraînés tiers.

Contre-mesures : vérifier la source des données, utiliser des LLM validés, monitorer l'activité de la supply chain

LLM04 : données corrompues

L'empoisonnement (=corrompues volontairement) des données se produit lorsque les données de pré-entraînement, de réglage fin ou d'intégration sont manipulées pour introduire des vulnérabilités, des portes dérobées ou des biais. Cette manipulation peut compromettre la sécurité, les performances ou le comportement éthique du modèle, entraînant des résultats néfastes ou une altération des fonctionnalités. Les risques courants incluent une dégradation des performances du modèle, un contenu biaisé ou toxique et l'exploitation des systèmes en aval.

Contre-mesures : tracer la donnée (source et transformation), valider les sorties, mettre en sandbox les données externes non validées, intégrer du RAG dès l'inférence 

LLM05 : sortie incorrecte

La gestion incorrecte des sorties fait spécifiquement référence à une validation, un nettoyage et une gestion insuffisants des sorties générées par les LLM avant leur transmission vers d'autres composants et systèmes. Le contenu généré par LLM étant contrôlable par une saisie rapide, ce comportement revient à fournir aux utilisateurs un accès indirect à des fonctionnalités supplémentaires. La gestion incorrecte des sorties diffère de la surdépendance en ce qu'elle traite les sorties générées par LLM avant leur transmission en aval, tandis que la surdépendance se concentre sur des préoccupations plus larges liées à la dépendance excessive à l'exactitude et à la pertinence des sorties LLM. L'exploitation d'une vulnérabilité de gestion incorrecte des sorties peut entraîner des attaques XSS et CSRF dans les navigateurs web, ainsi que des attaques SSRF, une élévation de privilèges ou l'exécution de code à distance sur les systèmes back-end. 

Contre-mesures : approche zero trust, vérifier strictement les entrées et les sorties, ne pas autoriser des sorties non prévues, application stricte des règles et limitations, monitorer les sorties LLM

LLM06 : Excessive agency

Ce problème est une vulnérabilité affecte les actions suite à des résultats inattendus ou manipulés. Les principales causes : hallucinations, pauvre qualité du prompt, injection directe pour compromettre le comportement et les réponses. Les causes de l'excessive agency peuvent être des excès de permissions ou d'autonomie de fonctionnement, une saise non sécurité, non contrôlée

Contre-mesures : limiter l'action des agents, limiter les permissions des extensions et l'action des LLM, validation humaine pour certains prompts et des réponses sensibles. Nettoyer les demandes et les réponses

LLM07 : système de prompt défaillant

Le système prompt est là pour orienter, définir les réponses et les usages. Si ce système n'est pas bien déployé ou défini, cela peut entraîner hallucinations et mauvais usages

Contre-mesures : encadrer et limiter l'accès aux données sensibles, installer des garde-fous

LLM08 : vecteurs et vulnérabilités embarquées

Les vulnérabilités liées aux vecteurs et aux intégrations présentent des risques de sécurité importants dans les systèmes utilisantdu RAG avec des LLM. Les faiblesses dans la manière dont les vecteurs et les intégrations sont générés, stockés ou récupérés peuvent être exploitées par des actions malveillantes (intentionnelles ou non) pour injecter du contenu nuisible, manipuler les résultats des modèles ou accéder à des informations sensibles.

Contre-mesures : installer un contrôle d'accès, authentification des sources de données et validation des données, monitoring du système, classification des données selon la sensibilité

LLM09 : désinformation

L'une des principales causes de désinformation est l'hallucination : le LLM génère un contenu apparemment exact, mais fabriqué de toutes pièces. Les hallucinations surviennent lorsque les LLM comblent des lacunes dans leurs données d'entraînement à l'aide de modèles statistiques, sans en comprendre véritablement le contenu. Par conséquent, le modèle peut produire des réponses apparemment correctes, mais totalement infondées. Si les hallucinations sont une source majeure de désinformation, elles ne sont pas la seule cause ; les biais introduits par les données d'entraînement et les informations incomplètes peuvent également y contribuer.

Contre-mesures : déployer un RAG, tuning fin des modèles, vérification croisée automatique et humaine, bonnes pratiques sur l'usage et sur le code d'intégration 

LLM10 : consommation excessive / inattendue (de l'infrastructure, du service LLM ou IA)

Les attaques visant à perturber le service, à épuiser les ressources financières de la cible, voire à voler la propriété intellectuelle en clonant le comportement d'un modèle, reposent toutes sur une même classe de vulnérabilité de sécurité pour réussir. La consommation illimitée se produit lorsqu'une application LLM (Large Language Model) permet aux utilisateurs d'effectuer des inférences excessives et incontrôlées, entraînant des risques tels que le déni de service (DoS), des pertes économiques, le vol de modèles et la dégradation du service. Les exigences de calcul élevées des LLM, en particulier dans les environnements cloud, les rendent vulnérables à l'exploitation des ressources et aux utilisations non autorisées.

Contre-mesures : limitation les entrée, définir des quotas limites, gestion de timeout, réduire l'accès des LLM aux ressources réseaux ou aux API, dégradation du service en cas de forte charge, réduire le nombre de requête autorisée et réduire la file d'attente

OWASP top 10 LLM : https://genai.owasp.org/llm-top-10/

En partenariat avec www.programmez.com

Lire plus