Gratis artikkelserie

Les vår artikkelserie om Business Intelligence.

Last ned artikkelen

Vil, men får hun lov?

LEDER: Rigmor Aasrud sliter med Heidi Grande Røys' gamle problem: Får hun lov til å utfordre etatene?

Les mer Les mer

ANNONSEBILAG

99X gjør ServiceDesk bedre for kundene

ITIL prosessene har stått i sentrum når spesialistene i 99X har bygget opp sitt kompetansemiljø med profesjonelle it-tjenester. En egen Service Management avdeling selger kunnskapen som hjelp til selvhjelp.
 

Modent for oppussing

KOMMENTAR: De aller fleste datarom er oppussingsobjekter. Stikkordet er strømutnyttelse.

Les mer Les mer

Les CW på mobilen

Få it-nyhetene rett i lomma.

- Tenk på et tall

KRONIKK: Det finnes ikke et magisk nøkkeltall for kostnadsestimering, skriver Peter Hidas.

Les mer Les mer

Computerworld kvitrer

Få it-nyhetene først.

it-kvitter på Twitter!

Manifest for en ny tid!

KRONIKK: Fremtiden skapes nå og vi it-infiserte har et spesielt ansvar.

Les mer Les mer

 
Du er her: Computerworld >
 

Amazon åpen om feil i nettskyen

Dag-Rune Z. Vollen
16.08.2011 kl 06:55

Nettskygiganten fortsetter en åpen linje med forklaring når noe skjærer seg.

Amazon åpen om feil i nettskyen

IKKE BARE EKSPANSJON: Amazon brukte flere dager på å få opp sin nettsky etter strømbrudd i forrige uke. (Illustrasjon: Skjermdump Amazon.com)

I forrige uke førte et alvorlig strømbrudd til at nettskytjenestene til Amazon og Microsoft ble sendt av Internett i Irland. Dette rammet leveringen av tjenester til kunder i hele Vest-Europa. Men der Microsoft kom opp igjen og kjørte etter noen timer, slet Amazon i flere dager. Amazon forklarer hvorfor i en lang artikkel på nettet.

Les mer: Lyn slo ut Amazon og Microsofts nettskytjenester

Amazon fortsetter dermed sin linje om å fortelle åpent både om hva som skjer når avvik oppstår, og hvordan selskapet vil løse dem.

Les mer: Amazon mistet kundedata for godt

Det var Amazons tjenesteregion EU West som fikk gjennomgå denne gangen. Hardest rammet var infrastrukturtjenesten Elastic Compute Cloud (“EC2”) og plattformtjenesten Amazon Relational Database Service (“RDS”). I tillegg ble en mindre del av Amazon Elastic Block Store (“EBS”) rammet.

Hva må gjøres?

Amazon lister opp en rekke tiltak som skal hindre at denne feilen med uante følger skal skje igjen. Først og fremst skal strømfasesynkronisering av reservegenaratorene få et ekstra lag av reserve-kontrollere. Bedre lastbalansering skal stoppe prosesskøing når servere går ned. Administrasjonsfunksjonene skal kunne fungere bedre på tvers av regioner. Kunder skal få muligheter til å flytte og kjøre applikasjoner i flere regioner dersom noe feiler i hovedregionen de er i.

EBS-lagringen skal optimeres for å unngå lang gjenoppretting. Også tiltak mot å slette data ved en feil i programvaren etter maskinvaresvikt skal settes i verk.

En egen gjennomgang av hvordan kommunikasjon ut til kunder ble gjort er på trappene. Dette gjelder både informasjonstavler, kvitringer og kommunikasjon til kunder om hvor lang tid det ville ta innen Amazons tjenester var tilbake på nett, og hvilke alternativer som fantes av reservetjenester. Også økt bemanning av kundestøtte i krisesituasjoner, bedre informasjon om hvordan en kunde er rammet og hvordan en kunde kan ta i bruk de gjenopprettingsmulighetene som finnes.

Hva som gikk galt

Under tilkopling av reservestrøm fra generatorer etter strømbruddet, feilet synkronisering av de elektriske fasene for en kontroller. Dermed falt så store deler av reservestrømforsyningen ut at det som var igjen ikke kunne drive serverne når de batteridrevne avbruddsfrie strømforsyningene var tomme. Dermed falt servere ut, og det meste av nettverksrutere og –svitsjer fikk også en skogstur. Dermed var det svikt både i tilgang og tjenester.

Det tok 24 minutter fra hovedstrømsvikten til tjenestene ble koplet ut til varslingen kom til administratorene. Grunnen var at også administrasjonsserverne for regionen var plassert i den samme regionen. Så om tjenestene feilet, gikk varslene først til servere som var nede, eller som ikke hadde tilgang til å sende feilmeldinger videre.

Først når tjenestesvikten rammet andre tjenester slo alarmen til for fullt. I tillegg stoppet ikke oppstartssekvenser av nye tjenester å forsøke seg, og de havnet i endeløse køer. Dette førte til en overbelastning som det tok mye tid å rydde opp i. Denne køingen rammet også andre regioner, og tjenesteutføring for andre regioner ble dermed også rammet. Først når Amazon fikk koplet fra funksjonen for å starte nye sesjoner i region West EU etter en times tid, roet dette seg.

Om lag samtidig som det ble ryddet i køen, startet serverne å kople seg til etter at manuell strømfasesynkronisering var gjennomført. Det tok imidlertid nye to timer før tilstrekkelig strøm var koplet til at selve nettverket fungerte.

Programvarefeil i lagringstjenesten

At selve tjenestene var oppe hjalp ikke så mye for den delen av EBS som var rammet. EBS har en innbygd innstilling hvor data speiles mellom flere av de innebygde lagringsplassene (nodene), og om en faller ut, så finner de en annen vei til en ledig plass. Annen datatrafikk bremses opp til denne plassen er funnet. Dette gjør rekonstruksjon og oppstart tidkrevende for tjenester som har vært nedstengt eller ute av nettverket.

I verste fall kan feilen føre til at data i hovedutgave og reserve er inkonsistente. I tilfelle av usikkerhet, forutsetter rutinene til Amazon at dataene er inkonsistente. Da starter en møysommelig gjenopprettingssesjon for å sjekke datasettene for om de var av nyeste versjon.

Arbeidet med denne datasjekken varte fra mandag til torsdag.

For de som brukte databasetjenesten var gjenoppstartstiden helt avhengig av om kundene hadde valgt å ta sanntidssikkerhetskopi eller om de hadde skrudd denne funksjonen av. De som hadde skrudd den av, var avhengig av gjenoppretting av hoveddataene lagret i EBS. De som hadde denne funksjonen på, kunne jobbe på reservedatabaser mens hoveddatabasene ble rekonstruert.

Som en del av gjenopprettingsprosessene oppdaget også selskapet at det var en programvarefeil i EBS som ble utløst av en forholdsvis uskyldig maskinvarefeil uka før strømbruddet. Den førte til at sanntidskopier tatt i fart («snapshots») var blitt unøyaktige i hvilke data som var gjort klar for sletting etter oppdatering med ferske data. Dermed ble noen data endelig slettet ved en feil.

Mens en fiks av denne feilen ble utviklet og var under testing, gikk strømmen. Feilfiksen var likevel gjennomført og levert til kundene mandag kveld.

Strømleverandøren mente i starten at strømutkoplingen var en følgeskade av et kraftig lynnedslag. Dette er det nå tvil om, og det undersøkes også om det kan være andre grunner, uten at Amazon går i detalj.

Kunder som ble rammet, får en rabatt på leieprisen for mellom ti og tredve dagers bruk. De hardest rammete får også tilgang til premium-kundestøtten uten kostnader for gjenoppretting.

På jakt etter ny jobb?

På tide med et kurs?

blog comments powered by Disqus

Dette brettet er helsefarlig

Arbeidsmiljøloven forbyr nettbrett som permanent arbeidsredskap.

Les mer om dette Les mer

Sperret kundenes telefoner

Netcom tabbet seg ut og sperret 7000 telefoner i går. Nå legger de seg flate.

Les mer om dette Les mer

- It-folk jobber for mye

En av fire i it-bransjen jobber nesten en dag overtid i uken.

Les mer om dette Les mer

Trenger vi superbredbånd?

En ny rapport fra Norsk Telecom mener superbredbånd ikke trengs til praktiske formål.

Les mer om dette Les mer

- Ikke dukk ned i purra

INTERVJUET: Stein Arne Nistad mener bedriftene stiller feil spørsmål om sosiale medier. Derfor har han skrevet bok.

Les mer om dette Les mer

Slik så byen ut i 1937

Nå kan du finne ut hvordan huset ditt så ut i gamle dager. Finn.nos karttjeneste er utvidet med historiske flyfoto.

Les mer om dette Les mer

Du kan bygge katedraler

DND: Utdannelse og karriere innen it er nøkkelen til å bygge det samfunnet vi vil ha.

Les mer Les mer

- Notes hører hjemme på nittitallet

Store kunder forlater Lotus Notes på løpende bånd. Helge Skrivervik mener systemet er gammeldags.

Les mer om dette Les mer

 
  
Mest anbefalt
Her er kodehodenes kunst
 Her er kodehodenes kunst
  Facebook:16   Twitter:3
Varsler store endringer i Ventelo
 Varsler store endringer i Ventelo
  Facebook:16   Twitter:1
Nå kommer betalings-nettavisene
 Nå kommer betalings-nettavisene
  Facebook:3   Twitter:10
Logre for Google?
 Logre for Google?
  Facebook:0   Twitter:13
- Nå skal vi stramme til
 - Nå skal vi stramme til
  Facebook:4   Twitter:6
Appene stjeler kontaktlisten din
 Appene stjeler kontaktlisten din
  Facebook:2   Twitter:6
Easybring casher inn
 Easybring casher inn
  Facebook:5   Twitter:3
- It-folk jobber for mye
 - It-folk jobber for mye
  Facebook:8   Twitter:0

Min side IDG

Manag-E Nordic
28. feb 2012 - Askerhallen

Energyworld
01. mar 2012 - Stavanger

Dataforeningen
06. mar 2012 - Trondheim

Dataforeningen
08. mar 2012 - Oslo

PMI Norway Chapter
08. mar 2012 - Oslo

CIO Forum
08. mar 2012 - Oslo Kongressenter Folkets Hus

itSMF
14. mar 2012 - Clarion hotel Oslo Airport

Dataforeningen
19. mar 2012 - Trondheim

Dataforeningen
19. mar 2012 - Oslo

Dataforeningen
20. mar 2012 - Oslo

Dataforeningen
20. mar 2012 - Oslo

Dataforeningen
22. mar 2012 - Bergen

Dataforeningen
22. mar 2012 - Stavanger

Dataforeningen
11. apr 2012 - Oslo

Dataforeningen
26. apr 2012 - Oslo

CIO Forum
CRM
26. apr 2012 - Oslo Kongressenter Folkets Hus

Dataforeningen
04. mai 2012 - Kristiansand

Dataforeningen
08. mai 2012 - Trondheim

Dataforeningen
08. mai 2012 - Hurtigruten

Computerworld it-trender
10. mai 2012 - Oslo

Dataforeningen
23. mai 2012 - Sandefjord

CIO Forum
24. mai 2012 - Oslo Kongressenter Folkets Hus

Dataforeningen
12. jun 2012 - Trondheim

Mobile trender
13. jun 2012 - Oslo

CIO Forum
21. jun 2012 - Oslo Kongressenter Folkets Hus

CIO Forum
30. aug 2012 - Oslo Kongressenter Folkets Hus

Dataforeningen
13. sep 2012 - Oslo

easyFairs
18. sep 2012 - Oslo

CIO Forum
20. sep 2012 - Oslo Kongressenter Folkets Hus

CIO Forum
27. sep 2012 - Oslo Kongressenter Folkets Hus

Admin
10. okt 2012 - Oslo

Dataforeningen
10. okt 2012 - Oslo

CIO Forum
25. okt 2012 - Oslo Kongressenter Folkets Hus

Healthworld
01. nov 2012 - Oslo

Computerworld Årets it-direktør
15. nov 2012 - Oslo

CIO Forum
22. nov 2012 - Oslo Kongressenter Folkets Hus

CIO Forum
13. des 2012 - Oslo Kongressenter Folkets Hus


Copyright 2012 IDG Magazines Norge AS. All rights reserved

Postboks 9090 Grønland – 0133 OSLO / online@idg.no / Telefon 22053000

Ansvarlig redaktør Morten Kristiansen / Utviklingsansvarlig Ulf H. Helland / Salgsdirektør Jon Thore Thorstensen

Kommentarer