O que seu data center está tentando dizer?

Por Leon Adato – 08.06.2017 –

Nesse artigo, o Head Geek da SolarWinds, responde essa pergunta e explica o papel das métricas de desempenho nos centros de dados.

Na era da gratificação instantânea, a experiência digital pode responder pelo sucesso ou pelo fracasso de um negócio. O tempo de inatividade ou desempenho inferior à média podem causar a perda de clientes e reduzir a produtividade, levando a um impacto negativo na receita. Lento é, de fato, o novo avariado e, portanto, os profissionais de TI devem estar ainda mais sintonizados com a integridade geral de nossos data centers a fim de solucionar questões rapidamente e identificar proativamente problemas que possam afetar a experiência do usuário final e o resultado financeiro dos negócios.

Em um bom exemplo de paralelismo, o data center reflete a maneira como a empresa se ajusta e adapta às forças do mercado externo. À medida que tendências como nuvem, virtualização, TI híbrida, infraestrutura convergente, entre outras, continuam a transformar o gerenciamento e a solução de problemas da TI tradicional, não é mais suficiente dizer: “sei como e onde meu equipamento está localizado e conectado e tenho plataformas de onde posso extrair métricas, quando necessário”.

Em vez disso, é preciso contar com uma maneira de saber como sua infraestrutura responde aos estímulos externos de usuários reais.  Você precisa de ferramentas que o ajudem a entender quais são os estímulos com múltiplas variáveis que afetam o desempenho de elementos isolados em seu ambiente. Você é capaz de dizer, por exemplo, que na segunda terça-feira do mês, quando um backup é executado, um trabalho mal-configurado concomitante de mapear/reduzir big data está colidindo com o tráfego do backup na rede de armazenamento? Esse tipo de conhecimento é necessário para conseguir resolver problemas de métricas de desempenho nos ambientes atuais, o que requer que você tenha uma compreensão fundamental de como todos esses elementos díspares da infraestrutura e da tecnologia funcionam em conjunto para entregar serviços de qualidade da melhor forma possível a fim de satisfazer os usuários finais. Com o ritmo das mudanças no data center de hoje, isso representa um grande desafio.

Por quê? Porque mesmo além da meta máxima final de monitorar e decifrar as principais métricas de desempenho, a solução de problemas moderna apresenta até mesmo aos profissionais de TI mais experientes várias dificuldades, começando pelo tipo de ambiente que você está gerenciando. Se o seu trabalho é supervisionar um data center tradicional, muito provavelmente terá selecionado os sistemas de tecnologia e infraestrutura (ou pelo menos está a uma chamada telefônica de distância da pessoa que o fez, mesmo que ela já não esteja mais na empresa). É muito mais fácil gerar dados para esses sistemas, porque seu departamento de TI chegou a um acordo quanto a um conjunto comum de padrões para coleta dessas métricas e, normalmente, as ferramentas de monitoramento são bastante maduras.

Por outro lado, se você estiver em uma organização que trabalha parcial ou inteiramente na nuvem, o departamento de TI normalmente assume uma posição secundária – com frequência, os líderes de negócios escolhem os provedores de serviços, o que faz com que os administradores tenham que correr atrás da tecnologia de outra pessoa. Os provedores de serviços de nuvem também estão entregando um serviço relativamente novo e, portanto, estão muito mais concentrados no rápido desenvolvimento de recursos e funcionalidades do que no desenvolvimento de suas capacidades de monitoramento. O DevOps ajuda a eliminar essa lacuna por possibilitar a integração de mais alto nível de ferramentas, mas, infelizmente, é muito difícil encontrar uma ferramenta integrada com amplitude suficiente para monitorar tudo, desde a tecnologia empresarial tradicional até algo tão abstrato como contêineres.

Outra importante barreira é simplesmente analisar a quantidade quase interminável de pontos de dados que uma única ferramenta de monitoramento pode gerar, quem dirá das várias ferramentas que muitas organizações empregam simultaneamente. Para nós, nem sempre é necessariamente melhor contar com mais dados. Certamente, quanto mais métricas estiverem disponíveis, maior será a visibilidade, mas também haverá um conjunto de dados muito maior a ser gerenciado. O maior problema enfrentado por nós, solucionadores de problemas de TI, é fazer vir à tona o ponto único da verdade em meio a tanto ruído. Em vez disso, é fundamental identificar e utilizar os dados corretos e obter apenas o necessário quando precisar dele.

Para ajudar a simplificar a solução de problemas, há várias métricas de desempenho que devem ser sempre monitoradas como possíveis responsáveis. Elas incluem:

Percentual da capacidade usado (exige o conhecimento da capacidade base e métricas que indiquem o nível de utilização)

Qualidade do serviço no ponto de extremidade

Desempenho da rede na Internet

Métrica de desempenho dos componentes em um aplicativo composto (é possível monitorar isoladamente o desempenho relevante de cada um desses componentes?)

No entanto, quando a questão é solucionar problemas e entender as métricas de desempenho no data center moderno, é possível argumentar que a habilidade de colaborar de forma fácil e rápida com seus pares entre os diferentes silos seja o caminho mais rápido para a resolução. Ter a capacidade de investigar um problema potencial com o máximo rigor permitido por sua habilidade e/ou responsabilidade e então distribuir suas conclusões amplamente pela plataforma de comunicação das equipes pode impedir que mais alguém responda ao alerta até que você tenha se manifestado, sendo que o mesmo se aplica para as outras equipes envolvidas.

Você deve buscar ferramentas que permitam enviar seletivamente métricas e solicitações sobre problemas à próxima pessoa ou equipe na cadeia e, idealmente, incluir detalhes sobre as métricas com as quais já trabalhou e sobre as etapas de solução de problemas que já experimentou. Não estou falando de um sistema de tíquetes com a capacidade de registrar anotações e transferir responsabilidades, e sim de um sistema que permita a você criar um conjunto de métricas que contém uma história específica e então compartilhar essa visão. Quando se usam as métricas compartilhadas e a capacidade de criação de relatórios desse tipo de ferramenta, o segundo técnico pode ver imediatamente que você já testou e confirmou que as causas raiz mais prováveis não são responsáveis pelo problema. Agora, esse segundo administrador pode investigar métricas adicionais relacionadas a seu domínio específico, como virtualização. Ele pode descobrir que o problema reside em algum vizinho ruidoso e migrar algumas máquinas virtuais a fim de criar capacidade adicional.

Infelizmente, a maioria das organizações emprega ferramentas de monitoramento díspares em cada silo operacional, o que já dificulta o compartilhamento e a colaboração entre diferentes plataformas e, ainda mais, a correlação de métricas (outro recurso indispensável). Entretanto, à medida que a nuvem estimula continuamente a convergência do data center, você deve buscar ferramentas de monitoramento e gerenciamento abrangentes que permitam ao seu departamento de TI trazer facilmente à tona o ponto único da verdade a fim de gerenciar e solucionar problemas de forma mais eficaz.

Além de arquivar as métricas que mais provavelmente indicarão problemas de desempenho e cultivar um ambiente mais colaborativo, você pode considerar as seguintes práticas recomendadas como orientações adicionais para navegar pelo emaranhado da solução de problemas do data center moderno:

Não entre em pânico. Se você estiver avaliando sua infraestrutura de maneira ampla (ou seja, investiu tempo e recursos na implantação de uma ferramenta ou sistema de monitoramento que garanta que você conte com um conjunto significativo de métricas e dados à sua disposição) certamente conseguirá solucionar o problema.

Experimente. “Brinque” com os dados. Disponha-os em uma exibição onde você possa justapor métricas que nunca havia pensado em colocar lado a lado. Invente hipóteses. Você descobrirá que pode começar a fazer associações mais rapidamente para descobrir a causa raiz.

Faça amizade com as máquinas. Conte com a descoberta de contexto automatizada, sempre que possível. Topologia física é uma coisa, mas muitas plataformas de monitoramento podem ir um passo além e determinar uma topologia lógica, bem como as interconexões entre os aplicativos. Pense: qual aplicativo reside em qual servidor, acessando qual banco de dados, armazenado em qual disco de que LUN? O que isso significa é que, quando você combina dados e explora métricas justapostas, não precisa fazê-lo de memória. Use a descoberta de contexto automatizada fornecida por sua solução de monitoramento como ponto de partida.