IA Sécurisée : Filtrer les Données Dangereuses Avant l'Entraînement
L'équipe a entraîné des versions de modèles d'IA open source sur des jeux de données épurés d'informations de substitution liées aux armes biologiques et à d'autres sujets dangereux. Les modèles entraînés sur les données filtrées étaient significativement moins capables de produire des informations nuisibles tout en maintenant leurs performances sur des tâches standard comme le raisonnement et les questions scientifiques.
Une Approche Révolutionnaire de la Sécurité IA
« L'objectif était de rendre les LLM non seulement sûrs dès leur sortie, mais aussi résistants aux manipulations nuisibles », a expliqué Casper dans des publications sur les réseaux sociaux concernant cette recherche. Cela contraste avec les approches de sécurité actuelles qui se concentrent sur les modifications post-entraînement, qui peuvent être plus facilement annulées ou contournées.
Le processus de filtrage n'a supprimé que 8 à 9 % des données d'entraînement tout en créant des modèles qui résistaient aux tentatives ultérieures de leur enseigner des informations dangereuses, même lorsqu'ils étaient exposés à plus de 25 000 articles sur les menaces biologiques lors d'un ajustement fin adversarial.
Le Manque de Transparence de l'Industrie
La recherche met en évidence un manque de transparence dans l'industrie de l'IA. Les grandes entreprises comme OpenAI et Anthropic ont les ressources pour mettre en œuvre un filtrage similaire mais révèlent rarement leurs méthodes, selon la co-autrice de l'étude Stella Biderman, directrice exécutive d'Eleuther AI.
« Elles pourraient absolument faire cela, et qui sait si elles le font », a déclaré Biderman. « Elles sont incroyablement secrètes et ne vous disent vraiment rien ». Elle a noté qu'OpenAI a laissé entendre qu'elle utilisait le filtrage dans son modèle GPT-4o, mentionnant la suppression de « connaissances dangereuses en biosécurité » dans la documentation du modèle.
Les entreprises d'IA gardent leurs méthodes de sécurité secrètes.
Préoccupations Croissantes et Timing Critique
Le moment est notable car OpenAI a récemment averti que ses prochains modèles d'IA pourraient atteindre des niveaux de capacité « élevés » en biologie, fournissant potentiellement « une assistance significative aux acteurs novices » dans la création de menaces biologiques.
La recherche aborde les préoccupations croissantes concernant les modèles d'IA à poids ouverts, qui peuvent être téléchargés et modifiés par n'importe qui. Bien que ces modèles favorisent la transparence et empêchent la concentration du marché, ils créent également des risques lorsque des acteurs malveillants les affinent à des fins nuisibles.
Une Solution Prometteuse
L'approche de filtrage en pré-entraînement offre une solution potentielle en rendant plus difficile la rétro-ingénierie des capacités dangereuses, même dans les modèles qui sont librement disponibles pour modification.
« Avoir cela accessible au public permet à plus de personnes de faire mieux », a déclaré Biderman, remettant en question les affirmations de l'industrie selon lesquelles les jeux de données massifs sont trop volumineux pour être organisés ou compris.
Points Clés à Retenir
- Filtrage pré-entraînement : seulement 8-9% des données supprimées pour une sécurité maximale
- Résistance aux manipulations : les modèles restent sûrs même après exposition à 25 000 articles dangereux
- Transparence manquante : les grandes entreprises d'IA gardent leurs méthodes secrètes
- Modèles open-source : nouveaux défis de sécurité avec les poids librement accessibles
- Solution durable : plus difficile à contourner que les protections post-entraînement