Alibaba divise par cinq ses besoins en GPU Nvidia avec Aegaeon
Alibaba Cloud dévoile Aegaeon, un système de mutualisation de GPU qui a réduit l'usage des Nvidia H20 de 1 192 à 213 unités en trois mois de tests sur sa marketplace Bailian. La plateforme a servi des dizaines de modèles allant jusqu'à 72 milliards de paramètres, fait chuter la latence de changement de modèle de 97 % et multiplié par sept le nombre de LLM hébergés par GPU.
Présentée au Symposium on Operating Systems Principles (SOSP) à Séoul, la percée place Alibaba à l'avant-garde de l'efficience IA alors que les tensions technologiques entre la Chine et les États-Unis redessinent l'accès aux puces avancées.
Une mutualisation agressive des GPU
Aegaeon réalloue finement les ressources d'inférence pour absorber des charges concurrentes qui, jusqu'ici, mobilisaient inutilement des GPU entiers. Les chercheurs de l'Université de Pékin et d'Alibaba Cloud estiment que 17,7 % des GPU ne servaient que 1,35 % des requêtes sur la plateforme, un gaspillage qu'Aegaeon réduit drastiquement.
Les chiffres clés du pilote
- 82 % de GPU Nvidia économisés sur trois mois de tests.
- 1 GPU peut servir jusqu'à 7 modèles de langage simultanément.
- Latence de bascule entre modèles réduite de 97 %.
- Des modèles allant jusqu'à 72 milliards de paramètres maintenus en production.
Comment fonctionne Aegaeon : mise à l'échelle au niveau du jeton
Le système orchestre l'inférence au niveau du jeton pour ajuster dynamiquement la quantité de mémoire, de calcul et de bande passante attribués à chaque requête. Aegaeon détecte les pics de trafic, segmente les tâches et fait migrer les GPU d'un modèle à l'autre sans rupture de service.
Trois leviers d'efficience
- Auto-scaling granulaire déclenché dès les premiers tokens générés.
- Pooling des GPU inactifs pour soutenir les charges prioritaires.
- Prise en charge native de charges CUDA et TensorRT hétérogènes.
Zhou Jingren, CTO d'Alibaba Cloud et co-auteur de l'étude, décrit Aegaeon comme la première solution à quantifier les coûts cachés du service multi-modèles dans le cloud. Le système s'intègre aux pipelines existants grâce à une couche de planification compatible Kubernetes, limitant l'effort de migration pour les équipes MLOps.
Une réponse stratégique aux restrictions américaines
Les autorités chinoises encouragent les géants nationaux à réduire leur dépendance aux GPU Nvidia après les restrictions commerciales américaines. Jensen Huang, PDG de Nvidia, a reconnu que la part de marché de ses puces IA avancées en Chine est passée de 95 % à zéro.
En divisant les besoins matériels, Alibaba maintient la compétitivité de ses services d'IA sans dépendre de livraisons incertaines. Aegaeon offre également une voie de transition vers des alternatives locales, qu'elles soient développées par des partenaires chinois ou via des accélérateurs maison.
Déploiement sur Bailian et perspectives clients
Aegaeon est désormais déployé sur la marketplace Bailian, qui distribue les modèles propriétaires Qwen d'Alibaba aux entreprises. Les clients bénéficient d'un provisioning accéléré, de coûts d'inférence réduits et d'une capacité de montée en charge quasi instantanée pour leurs projets conversationnels, analytiques ou de génération multimodale.
Alibaba prévoit d'étendre le système aux charges de formation incrémentale et aux workflows agents, où la granularité token par token d'Aegaeon pourrait encore améliorer l'utilisation des clusters GPU hybrides.
Points clés à retenir
- 82 % de réduction des GPU Nvidia nécessaires aux modèles de langage.
- Mise à l'échelle au niveau du jeton pour une orchestration plus fine.
- Réponse directe aux restrictions américaines sur les puces avancées.
- Déploiement opérationnel sur Bailian au service des modèles Qwen.