L'avenir des données : module optique 400 g

Dec 22, 2025|

 

LeModule optique 400Greprésente un point d'inflexion fondamental dans l'architecture des centres de données, et pas seulement une amélioration incrémentielle de la bande passante par rapport à ses prédécesseurs 100G. À la base, la technologie exploite la signalisation PAM4 (modulation d'amplitude d'impulsion à 4 niveaux) sur huit voies électriques à 50 Gbit/s chacune, atteignant un débit global qui répond aux exigences de densité de calcul des clusters IA/ML modernes et des environnements hyperscale. Le passage du codage binaire NRZ à la modulation d'amplitude à plusieurs-niveaux introduit des pénalités SNR inhérentes-de dégradation théorique d'environ 9,5 dB, nécessitant des implémentations DSP sophistiquées et des schémas de correction d'erreur directe obligatoires comme RS(544,514) pour maintenir des taux d'erreur binaires acceptables sur les liaisons de production.

400g Optical Module

 

La guerre des facteurs de forme dont personne ne parle honnêtement

 

Participez à n'importe quelle conférence sur les réseaux optiques et vous entendrez le débat QSFP-DD contre OSFP présenté comme une comparaison technique. Ce n'est pas le cas. C'est un combat politique habillé de fiches techniques.

QSFP-DD a remporté la bataille du volume avant la livraison du premier commutateur 400G. La rétrocompatibilité avec les cages QSFP28 signifiait que chaque opérateur de réseau pouvait théoriquement effectuer une mise à niveau sans détruire l'infrastructure existante. Cela "théoriquement" fait un gros travail-J'ai vu des ingénieurs passer des week-ends entiers à essayer de faire en sorte que les micrologiciels de commutateurs existants reconnaissent les modules à double-densité qui s'adaptent physiquement mais se comportent mal électriquement.

OSFP est venu du camp d'Arista avec un argumentaire simple : un module plus grand, de meilleurs thermiques, conçu pour 400G à partir de zéro au lieu de forcer huit voies dans une cage construite pour quatre. Le dissipateur thermique intégré gère 15-20 watts sans transpirer. QSFP-DD à 12 watts ? Repousse déjà les limites thermiques dans les déploiements à haute densité.

L'industrie a quand même choisi QSFP-DD. La compatibilité gagne. Cela a toujours été le cas.

Mais voici ce que les articles de comparaison des facteurs de forme ne mentionnent jamais : les différences de capacité thermique s'aggravent considérablement à grande échelle. Un commutateur 400G à 32-ports entièrement équipé de modules QSFP-DD dissipe environ 640 watts provenant uniquement de l'optique. C'est avant le commutateur ASIC, le plan de contrôle, les ventilateurs, les alimentations. Nous parlons de 1,5 à 2 kilowatts au total dans un châssis 1RU. L'ingénierie du flux d'air nécessaire pour maintenir ces modules en dessous des limites de température de jonction confine à la conception aérospatiale.

 

PAM4 a rendu tout plus difficile

 

Tout le monde célèbre PAM4 pour doubler l’efficacité spectrale. Personne ne mentionne le cauchemar technique que cela a créé.

NRZ était simple. Deux niveaux de tension. Le signal représente un un ou un zéro. Votre diagramme oculaire a une ouverture. Si c'est propre, tu es en or.

PAM4 transmet deux bits par symbole en utilisant quatre niveaux d'amplitude. Trois ouvertures pour les yeux empilées. Chaque œil mesure environ un-tiers de la hauteur d'un œil NRZ équivalent. Les marges de bruit s’effondrent. Soudain, chaque millimètre de trace de PCB compte. Chaque via crée une réflexion. Chaque discontinuité d'impédance entre l'ASIC hôte et la cage du module optique devient un problème de fiabilité.

J'ai passé six mois à déboguer un déploiement 400G où des erreurs CRC aléatoires apparaissaient sur des ports spécifiques. La cause profonde ? Un connecteur légèrement-conforme- aux spécifications sur la carte hôte a créé juste assez de perte de retour pour corrompre l'œil PAM4 le plus bas. Parfaitement bien pour le trafic 100G. Catastrophique pour 400G.

La réponse de l'industrie a été un FEC obligatoire. Vous ne pouvez pas exécuter d'optiques 400G PAM4 sans correction d'erreur directe-le BER brut dépasse simplement les seuils utilisables. RS(544,514) ajoute environ 300 nanosecondes de latence. Pas énorme. Mais dites-le au cluster HPC exécutant des tâches MPI, où chaque microseconde de latence de queue affecte le temps d'achèvement des tâches.

 

400g Optical Module

 

La photonique sur silicium était censée nous sauver

 

Le pitch de la photonique sur silicium semble parfait sur le papier. Tirez parti de décennies d’investissement dans la fabrication de produits CMOS. Intégrez des modulateurs, des photodétecteurs et des guides d'ondes sur une seule puce. Réalisez des économies d’échelle que les composants discrets InP et GaAs ne pourraient jamais réaliser. La consommation d'énergie chute de 20 à 30 %. Les coûts finissent par atteindre la parité, puis sapent les approches traditionnelles.

Intel a expédié plus de trois millions d'émetteurs-récepteurs photoniques au silicium 100G. Alibaba a déployé des modules photoniques au silicium 400G DR4 sur son réseau cloud à partir de 2020. La technologie fonctionne.

Mais la photonique sur silicium a un sale secret : les sources de lumière ne peuvent toujours pas être du silicium.

Vous avez besoin d'un laser externe-généralement une puce en phosphure d'indium-soit liée au PIC en silicium, soit couplée via une fibre. Cette intégration hybride ajoute de la complexité à la fabrication. Les rendements en souffrent. L’avantage de coût promis par tout le monde continue d’être repoussé par une autre génération.

Parmi les entreprises qui redoublent d’efforts dans la photonique sur silicium pour le 400G figurent des personnes très intelligentes qui font des paris très coûteux. Les acquisitions de Luxtera et d'Acacia par Cisco ont totalisé 3,26 milliards de dollars. Ce n’est pas l’argent du budget R&D. Il s’agit d’un investissement stratégique dans les infrastructures.

Les données sur les parts de marché racontent une histoire plus compliquée. Selon LightCounting, les modules photoniques au silicium représentent toujours moins de 10 % du total des expéditions de 400G malgré des années de battage médiatique. Les émetteurs-récepteurs traditionnels basés sur EML- dominent les applications DR4 et FR4. La transition technologique se produit plus lentement que ne le suggèrent les communiqués de presse.

 

Ce que cachent les fiches techniques sur la portée

 

La convention de dénomination IEEE pour les optiques 400G semble utile jusqu'à ce que vous essayiez d'acheter des modules.

400G-SR8 : 100 mètres sur fibre multimode. Huit voies parallèles à 850 nm. Très bien pour les connexions intra--rack. Terrible pour autre chose.

400G-DR4 : 500 mètres sur fibre monomode-. Quatre voies parallèles à 1310 nm. Le cheval de bataille pour la plupart des interconnexions de centres de données.

400G-FR4 : 2 km, monomode-longueurs d'onde CWDM multiplexées sur une paire de fibres. Utilise des lasers coûteux à modulation externe.

400G-LR4 : 10 kilomètres. Même schéma de longueur d'onde que FR4 mais avec amplification optique pour étendre la portée.

Assez simple. Sauf que les fabricants jouent constamment avec ces désignations.

J'ai vu des modules « compatibles DR4 » qui atteignaient 500 mètres dans des conditions de laboratoire et tombaient en panne à 300 mètres avec une véritable installation de fibre optique qui présentait une perte de connecteur légèrement élevée. La spécification indique 500 mètres avec un budget de liaison de 7 dB. Le calcul fonctionne parfaitement en supposant des connexions impeccables partout. La réalité inclut des connecteurs sales, des épissures imparfaites et des parcours de fibre qui ont emprunté un chemin légèrement plus long à travers le plafond que ce qui était indiqué dans les schémas de gestion des câbles.

La portée FR4 de 2 km semble adéquate jusqu'à ce que vous connectiez des bâtiments sur un campus et que vous découvriez que votre chemin de fibre optique mesure 2,3 kilomètres. Maintenant, vous avez besoin de modules LR4 à un prix trois fois supérieur, ou vous faites preuve de créativité en matière d'amplification, ou vous acceptez que ce lien ne fonctionnera pas réellement.

 

La décision DR4 contre FR4

 

Celui-ci est réellement important pour les déploiements réels et personne ne l'explique bien.

DR4 utilise quatre fibres parallèles pour la transmission et quatre pour la réception. Huit fibres au total. Connecteur MPO-12 avec quatre positions inutilisées. Portée maximale 500 mètres. Consommation électrique généralement de 8 à 10 watts. Le module coûte environ 60 % de son équivalent FR4.

FR4 utilise le multiplexage par répartition en longueur d'onde pour placer les quatre voies sur une seule paire de fibres. Connecteur LC duplex. Portée maximale 2 kilomètres. Consommation électrique généralement de 10 à 12 watts. Prix ​​premium car les lasers EML ne sont pas bon marché.

La topologie de la fibre détermine tout.

Un centre de données entièrement nouveau avec un câblage structuré que vous spécifiez ? La fibre parallèle a du sens. Faites passer les câbles principaux MPO entre les rangées. Utilisez DR4 partout. Le coût inférieur de l’optique compense la fibre supplémentaire.

Environnement de friche industrielle avec usine de fibre duplex existante ? FR4 ou vous tirez un nouveau câble.

Environnement mixte avec des exécutions parallèles et des installations existantes en duplex ? Bienvenue dans le cauchemar de la compatibilité. Vous vous retrouverez avec les deux types de modules, différents styles de connecteurs et au moins une armoire dans laquelle quelqu'un a utilisé le mauvais cordon de brassage et a passé quatre heures à dépanner les alertes de « liaison vers le bas ».

 

La question en petits groupes

 

Un module 400G-DR4 contient quatre voies 100G. Chaque voie fonctionne indépendamment au niveau de la couche optique. Cela permet de connecter-un port de commutateur 400 G à quatre appareils 100 G distincts à l'aide d'un assemblage de fibre de dérivation.

Les aspects économiques semblent convaincants. Un port 400G. Quatre serveurs 100G. Pas besoin de ports de commutation supplémentaires.

La réalité est plus compliquée.

Les ASIC de commutation ne prennent pas toujours en charge les configurations de dérivation arbitraires. Certaines plateformes nécessitent un firmware spécifique. D'autres autorisent uniquement la répartition sur certains groupes de ports. Quelques-uns implémentent une rupture dans le matériel, mais la pile logicielle n'expose pas l'option de configuration.

Pire encore : les câbles épanouis créent des cauchemars en matière de support. Le problème vient-il du module 400G, de l'ensemble de dérivation ou de l'un des quatre ports de périphérique 100G ? Le dépannage nécessite d'échanger les câbles, de tester chaque jambe indépendamment et de prier pour que le problème soit reproductible.

J'ai vu des organisations standardiser partout le 100G natif, spécifiquement pour éviter toute complexité. L'optique coûte plus cher. La densité des ports du commutateur en souffre. Mais la simplicité opérationnelle l'emporte.

 

400g Optical Module

 

Réalité de la consommation d’énergie

 

Chaque fiche technique du module 400G indique la consommation d'énergie. Les chiffres sont techniquement précis et pratiquement inutiles.

Un QSFP-DD DR4 peut avoir une spécification typique de 8,5 watts. Il s'agit du module alimenté par le rail 3,3 V du commutateur dans des conditions de fonctionnement normales. Il n’inclut pas la puissance supplémentaire consommée par le commutateur ASIC pour piloter ces huit voies PAM4 50G. Cela ne tient pas compte des frais généraux de gestion thermique -ventilateurs plus puissants, flux d'air supplémentaire, peut-être un refroidissement supplémentaire.

Avec 32 ports par commutateur, la différence entre les modules de 8 et 12 watts s'élève à 128 watts. Ce n'est pas anodin lorsque vous planifiez la distribution d'énergie pour une rangée entière de racks.

Le passage de 100 G à 400 G ne quadruple pas la consommation d'énergie par port -les gains d'efficacité liés à l'intégration et aux améliorations DSP sont utiles. Mais la puissance globale par commutateur a absolument augmenté. Les centres de données qui prévoyaient une infrastructure électrique et de refroidissement autour de densités de 100G découvrent des contraintes de capacité lors de la mise à niveau vers 400G à pleine population.

 

La compatibilité n'est pas binaire

 

Les fournisseurs adorent prétendre « compatible avec toutes les principales plates-formes de commutation ». Cette affirmation est techniquement défendable et pratiquement trompeuse.

La compatibilité des modules optiques ne dépend pas seulement de l'ajustement physique et de la signalisation électrique. Les protocoles DOM (Digital Optical Monitoring) varient selon les fournisseurs. Les implémentations CMIS (Common Management Interface Spécification) ont suffisamment de flexibilité pour que deux implémentations « conformes » puissent ne pas interagir correctement. Certains commutateurs vérifient les codes d'identification du fournisseur et refusent complètement d'allumer les modules non reconnus.

Le marché gris des optiques 400G « compatibles » a explosé précisément parce que les modules de marque-nommés coûtent 3-5 fois plus cher que les alternatives tierces. Certaines de ces alternatives fonctionnent parfaitement. D'autres provoquent des problèmes subtils qui ne se manifestent que dans des conditions de trafic spécifiques ou après des semaines de fonctionnement.

J'ai personnellement testé des modules 400G DR4 tiers-qui ont réussi toutes les mesures de conformité en laboratoire, puis ont généré des erreurs FEC non corrigibles à 2 % du trafic sous charge de production. La température à l'intérieur du module lors d'un fonctionnement soutenu à bande passante élevée-dépassait ce que les composants optiques pouvaient gérer. Le module a fonctionné. Jusqu'à ce que ce ne soit pas le cas.

 

Ce que 800G signifie pour 400G

 

La transition 800G est déjà en cours. Les hyperscalers déploient aujourd’hui 800G. Le reste de l’industrie suivra d’ici 18 à 24 mois.

Cela ne rend pas le 400G obsolète-les modules seront livrés pendant des années-mais cela change l'économie.

Le 800G utilise huit voies 100G au lieu des huit voies 50G du 400G. Même modulation PAM4, débit de symboles plus élevé par voie. La physique devient plus difficile. Les enveloppes thermiques poussent vers 20-25 watts par module. L'avantage de la marge thermique d'OSFP devient plus pertinent à ces niveaux de puissance.

Plus important encore, les modules 800G peuvent se diviser en deux configurations 400G. Un module 800G-2xDR4 fournit deux liaisons 400G indépendantes. Pour les environnements avec des exigences mixtes 400G et 800G, cette fonctionnalité de dérivation simplifie la gestion des stocks.

Les opérateurs de centres de données avec lesquels je parle s'en tiennent pour la plupart à 400 G pour la connectivité leaf-spine, tout en évaluant 800 G pour les interconnexions de cluster GPU là où la densité de bande passante est la plus importante. Les charges de travail de formation de l'IA avec tous les modèles de communication-à-soulignent véritablement les liaisons 400G d'une manière que le trafic nord-sud traditionnel n'a jamais fait.

 

L'horizon de l'optique co-packagée

 

Tout le monde dans l’industrie sait que le CPO arrive. Émetteurs-récepteurs optiques intégrés directement aux commutateurs ASIC. Aucun module enfichable du tout. La consommation d'énergie passe de 15 picojoules par bit à peut-être 5, potentiellement inférieure à 1 picojoule à mesure que la technologie évolue.

NVIDIA a annoncé ses plans CPO pour le matériel 2025/2026. Meta et Microsoft ont présenté des prototypes. L'OIF standardise les interfaces.

La question n'est pas de savoir si le CPO se produit. Il s'agit de savoir si cela se produit assez rapidement pour avoir une incidence sur votre cycle de planification actuel.

Ma lecture : les optiques enfichables dominent jusqu’en 2028 au moins pour la plupart des déploiements. Le CPO peut apparaître plus tôt dans les versions personnalisées hyperscaler. La flexibilité opérationnelle des -modules remplaçables à chaud-la capacité de remplacer une optique défaillante sans arrêter un commutateur-est extrêmement importante pour les environnements sans N+1 redondance partout.

Prévoyez dès aujourd’hui des réseaux 400G et 800G enfichables. Budget pour l’évaluation du CPO dans trois ans. Ne laissez pas les diapositives de la feuille de route des fournisseurs accélérer les délais que la réalité de la fabrication ne peut pas prendre en charge.

 

Des conseils pratiques qui aident réellement

 

Pour les nouvelles constructions : standardisez sur DR4 avec une infrastructure fibre parallèle. Les économies réalisées par rapport au FR4 s'étendent à des milliers de modules. Prévoyez une alimentation et un refroidissement de 10 watts par module même si les fiches techniques en promettent 8.

Pour les mises à niveau : auditez de manière obsessionnelle votre usine de fibre existante. Connaissez la perte réelle mesurée sur chaque segment. Découvrez les dépassements de limite DR4 de 400 mètres avant l'arrivée de vos optiques.

Pour les clusters IA : 800G est déjà la bonne réponse. Les demandes de bande passante justifient la prime. Ne faites pas un demi-pas-vers 400 G si vos charges de travail le dépassent dans 18 mois.

Pour tout le monde : testez de manière approfondie-les optiques tierces avant le déploiement en volume. Les économies de coûts sont réelles. Les échecs aussi. Validez avec vos plates-formes de commutation spécifiques sous une charge réaliste avant d’engager des dollars de stock.

La technologie fonctionne. Vingt millions de modules 400G et 800G expédiés en 2024 pour une bonne raison. Mais la transition du 100G nécessite une attention particulière aux détails que les fiches techniques et les supports marketing omettent commodément. La physique ne se soucie pas de votre calendrier de déploiement.

 

Envoyez demande