Processeurs : l’IA change la donne et exige de nouvelles performances

Processeurs : l’IA change la donne et exige de nouvelles performances

Par Jeff Wittich - Chief Product Officer chez Ampere Computing

L’utilisation de l’intelligence artificielle fait partie des priorités pour la France à plusieurs égards : recherche, économie, régulation, étique. Le plan France 2030, par exemple, dédie 1,5 milliard d’euros à l’IA générative et vise à positionner la France comme l’un des leaders de l’IA en Europe et dans le monde.

Pour la DSI, les nouvelles applications de l’IA en entreprise vont de pair avec de nouveaux défis technologiques. En effet, l’apprentissage intensif et l’inférence à grande échelle de l’IA requièrent des besoins spécifiques. En matière de processeurs, la solution de calcul doit correspondre parfaitement aux besoins des applications. Plusieurs critères sont à prendre en compte : rapidité, rentabilité, durabilité.   

1 N’utiliser que la puissance de calcul nécessaire pour répondre aux besoins de performance des applications

Les GPU et autres accélérateurs d’IA possèdent souvent des capacités de calcul exagérées par rapport à la plupart des applications d’IA. Cela concerne particulièrement l’’inférence par lots, soit quand les prédictions des algorithmes sont traitées régulièrement à partir d'observations regroupées en lots (en mode batch). L’inférence par lots est utilisée par la plupart des entreprises qui déploient leurs propres modèles d’IA.

Les applications reposant sur l’inférence par lots requièrent moins de workloads et n’ont pas besoin de la puissance de traitement d’un GPU ou d’un accélérateur. En effet, seul un petit pourcentage de la capacité totale du GPU est exploitée. Les GPUs consommant plus d’énergie et étant plus coûteux, les remplacer par un CPU permet d’optimiser les coûts, l’énergie et la place utilisée.

2 Miser sur le Cloud Native, plus économe en énergie, pour traiter les workloads d'apprentissage de l'IA ou d'inférence des LLM

Pour les applications d'IA qui nécessitent un accélérateur, les charges de travail d'IA lourdes sont traitées sur l'accélérateur, tandis que le CPU est nécessaire pour héberger le système. Dans ce cas, les performances du CPU sont toujours les mêmes, quel que soit le CPU utilisé. En effet, c'est l'accélérateur qui définit les performances du système. Il s’agit d’une opportunité de réduire la consommation d’énergie en choisissant des processeurs Cloud Native, dont l'efficacité énergétique est démontrée par rapport aux processeurs x86 traditionnels, tout en offrant exactement les mêmes performances.

3 CPU-only: workloads cloud similaires aux workloads IA

La plupart des inférences d'IA en mode CPU-only sont réalisées plus efficacement avec un CPU Cloud Native, contrairement à un processeur x86 traditionnel. Ces CPU sont conçus dès le départ pour traiter les workloads cloud, similaires aux workloads IA. Grâce aux gains de performance des processeurs Cloud Native, les inférences AI sont traitées uniquement sur les CPU. Ce système est adapté à un plus large panel de workloads que les processeurs x86 traditionnels. Aucun accélérateur supplémentaire n’est requis, permettant de réduire les coûts et la consommation d'énergie.

Le futur de l’IA est puissant, efficace et ouvert

L’IA est amenée à se généraliser, autant dans la vie quotidienne qu’en entreprise. Pour adopter massivement cette technologie, le défi majeur de la prochaine décennie réside dans la réduction du coût du parc informatique et l’optimisation de l'énergie consommée. Une puissance de calcul adaptée et des modèles optimisés conduiront à l'efficacité à grande l’échelle. La clé du right-sized computing est de s'assurer que les solutions hardwares répondent non seulement aux besoins informatiques d’aujourd’hui, mais aussi à la croissance et la pérennité des applications de demain.