Falhas parciais, degradações de serviço e problemas locais são comuns

 

O Gartner, líder mundial em pesquisa e aconselhamento para empresas, aponta 9 princípios para maximizar a resiliência dos ambientes em Nuvem.

"Nuvem não é magicamente resiliente e falhas de software, não falhas físicas, causam quase todas as suas interrupções", diz Chris Saunderson, Diretor Sênior de Análise do Gartner. "Em Nuvem, as interrupções quase nunca envolvem todo o seu fornecedor, nem é provável que as interrupções de serviço sejam totais. Em vez disso, falhas parciais, degradações de serviço, problemas individuais de serviço ou problemas locais são mais comuns."

A equipe de Input e Output (I&O) precisa entender as características e causas comuns das interrupções em Nuvem. Elas apontam que a maioria das falhas é parcial, costumam ser intermitentes ou envolvem degradação de desempenho, onde são menos perceptíveis. Existem diferenças de resiliência entre os serviços oferecidos pelos fornecedores de Nuvem.

"A resiliência não é um estado binário", explica Saunderson. "Ninguém pode reivindicar resiliência absoluta — nem você, nem qualquer fornecedor de Nuvem. Nuvens devem ser tão ou até mais resilientes do que a infraestrutura local, mas apenas se a equipe de Input e Output as utilizarem de maneira resiliente."

Os analistas do Gartner recomendam que os líderes de Input & Output se concentrem em 9 princípios chave para melhorar a resiliência de seus ambientes armazenados em Nuvem:

1.        Alinhamento com os Negócios: Alinhe os requisitos de resiliência às necessidades do negócio. Sem esse alinhamento, as equipes não atenderão às expectativas de resiliência ou gastarão demais.

2.        Abordagem Baseada em Riscos: Adote uma abordagem baseada em riscos para o planejamento de resiliência que se estenda além de eventos catastróficos. Dê mais ênfase às falhas mais comuns, nas quais as empresas têm maior controle para mitigar.

3.        Mapeamento de Dependências: Construa gráficos de dependências que mapeiem todos os componentes de middleware, bancos de dados, serviços de Nuvem e pontos de integração, para que possam ser arquitetados e configurados para resiliência e incluídos tanto no planejamento de confiabilidade quanto no de recuperação de desastres (DR).

4.        Disponibilidade Contínua: A abordagem de disponibilidade contínua concentra-se em manter aplicações, serviços e dados disponíveis o tempo todo e em níveis de serviço sem tempo de inatividade e impacto limitado durante um evento de falha.

5.        Resiliência por Design: A aplicação em si deve ser resiliente por design. A resiliência da infraestrutura por si só é insuficiente para fornecer serviços sem tempo de inatividade que os usuários finais esperam.

6.        Automação de DR: Implementar recuperação de desastres totalmente (ou quase totalmente) automatizada — seja por meio das ferramentas da própria empresa ou por meio de ferramentas de DR nativas de Nuvem de terceiros — fornece a base necessária para atender a objetivos agressivos de tempo de recuperação (RTOs) e permite testar rotineiramente a recuperação de desastres.

7.        Padrões de Resiliência: Adotar padrões de resiliência além da arquitetura e DR. Sistemas resilientes exigem que as equipes se concentrem na qualidade, automação e melhoria contínua, e incorporem qualidade ao longo do ciclo de vida de uma aplicação.

8.        Priorizar Soluções Nativas de Nuvem: Os fornecedores de Nuvem oferecem uma ampla gama de soluções que podem ser usadas para melhorar a resiliência. Quando viável, os líderes de Input e Output devem aproveitar essas soluções em vez de tentar inventar alternativas próprias e adicionar ainda mais complexidade.

9.        Foco nas Funções de Negócio: Em vez de restringir o pensamento apenas à "recuperação" semelhante à substituição, explore opções, como alternativas de TI leves ou substituições leves de aplicativos que fornecem a funcionalidade mínima essencial para os negócios.

Clientes do Gartner podem obter mais informações na pesquisa “9 Principles for Improving Cloud Resilience” e “Quick Answer: How Should Executive Leaders Plan for Cloud Outages?”.