Single Point of Failure

Single Point of Failure (vanaf nu afgekort als SPOF) is een typische IT term waar eigenlijk geen goede Nederlandse vertaling voor is. Ik zal proberen uit te leggen waarom een SPOF zo belangrijk is. Met een SPOF bedoelen we dat het systeem stopt met werken als er op één bepaalde plek iets misgaat. Dan is die plek dus het SPOF.

Een voorbeeld: stel dat je 10 computers hebt in je netwerk die allemaal zijn aangesloten op een netwerkswitch (verdeelapparaat wat het netwerk aan elkaar vast knoopt). Als die switch het begeeft, dan werkt er dus niets meer. De switch is in dit voorbeeld dus het SPOF.

Waarom vertel ik dit? Omdat dit een zeer belangrijk gegeven is in de ICT wereld. Wat is het primaire doel voor Freez.it als dienstverlener? Dat is het bieden van continuïteit. Of in simpele Jip en Janneke taal: alles moet 'gewoon' werken.

Techniek is en blijft echter een belangrijk component van ICT en techniek kan kapot. Dat weten onze relaties en dat weten wij zelf ook maar al te goed. Het is dus belangrijk om veiligheden in te bouwen in de technische oplossingen die we bouwen voor onze klanten. We willen natuurlijk niet dat de techniek en dus de dienst gelijk volledig onderuit gaat bij elke willekeurige storing.

Werkwijze

Een goede werkwijze in het beoordelen van de mogelijke risicofactoren is het identificeren van de componenten in je netwerk die cruciaal zijn voor de goede werking. Dit komt bijvoorbeeld sterk tot uiting bij de server of servers in het netwerk. Zoals wellicht bekend vormt de server het hart van je netwerk. Op die server staat al je data, je e-mail, je programma's, je databases etc. Als de server plat gaat, dan werkt dus niets meer. Als we dan kijken naar de componenten in een server die de grootste kans hebben om kapot te gaan, dan zijn dat de hardeschijven (waar de data op staat) en de voedingen. Niet toevallig zijn dat ook precies de onderdelen die bewegende delen in zich hebben (in een hardeschijf draaien 'platters' rond, een voeding heeft een ventilator voor de koeling). Alles wat beweegt slijt en gaat uiteindelijk kapot. Daar houden wij dus rekening mee als we een server aanbieden. Deze onderdelen (hardeschijven en voeding) voeren we altijd dubbel uit. Dat houdt in dat er een hardeschijf of voeding kapot mag gaan zonder dat de server dus uitvalt of dat er dataverlies optreedt. Op die manier hebben we het Single Point of Failure er deels uitgehaald en dus het risico aanzienlijk verkleind dat alles plat gaat bij een defect.

Het komt er dus op neer dat je in de ideale wereld exact nul SPOF's in je netwerk hebt en dus alle kritieke componenten dubbel hebt uitgevoerd. Is dat altijd haalbaar of realistisch in de praktijk? Nee.

Alles heeft zijn prijs

Veel SPOF's zijn relatief goedkoop op te lossen. Een extra hardeschijf in een server kost misschien 200 euro extra en het risico wordt dramatisch veel kleiner. Als je internetverbinding erg belangrijk is, dan kun je dit SPOF oplossen door een extra internetverbinding te regelen zodat de kans dat je 'oflline' gaat alweer veel kleiner wordt. Als je printer erg belangrijk is in je netwerk, zorg dan dat je elders nog een tweede printer in je netwerk hebt opgenomen waar je bij een defect aan je hoofdprinter ook nog op kunt printen.

Veel componenten zijn echter al veel lastiger dubbel uit te voeren. Dat kan omdat het technisch lastig is maar vooral ook omdat het simpelweg duur is. Wat als het moederbord van je server kapot gaat buiten garantie of als je server bij een inbraak gestolen wordt? Dan is die server ondanks de dubbele hardeschijven en voedingen nog steeds je SPOF. Wil je dit oplossen, dan kun je overwegen om je server dubbel uit te voeren. We noemen dit ook wel een cluster. Je hebt dan 2 (of meerdere) servers die elkaar 'spiegelen' en geografisch gezien niet vlak bij elkaar staan. Dit is echter alweer een erg prijzige oplossing. Naast de extra hardware heb je ook extra softwarelicenties nodig, je hebt extra onderhoudskosten, extra stroomkosten enzovoorts.

Het komt er dus op neer dat je voor jezelf moet beoordelen hoeveel downtime (het niet kunnen werken) je mag kosten. Als het voor jou acceptabel is dat in het uiterste noodgeval je 2 of 3 dagen niet kunt werken, dan kun je met een goedkopere oplossing toe dan als zelfs 1 uur downtime voor jouw organisatie al onacceptabel is.

Conclusie

De conclusie hierin is dat het niet zozeer om de techniek gaat maar meer om budget. Met meer budget kun je simpelweg een hogere beschikbaarheid van je IT platform 'kopen'. Hierbij geldt: de laatste paar procenten continuïteitsgarantie zijn ook de duurste procenten.

Wil je meer weten over dit onderwerp of wil je advies hierin? Laat het ons weten!

Door Wouter op vrijdag 4 september 2015