Monitoring With SolarWinds
Bu yazıda, temel olarak monitoring’in ne olduğu, ne işe yaradığı ve nasıl kullanıldığını ele alacak, özellikle SolarWinds’in bu alandaki önemini ve nasıl etkili bir izleme stratejisinin oluşturulabileceğine değineceğiz.
Monitoring Nedir?
İlk olarak monitoring’in ne olduğunu anlayarak başlayalım. Türkçe karşılığı olan “İzleme”, monitoring hakkında bilgi sahibi olmayan birisi için bile bir şeyler çağrıştırabilir. Monitoring, bir sistem içerisindeki durumun takip edilmesi ve meydana gelen değişikliklerin gözlemlenmesini açıklamak için kullanılan kelimedir. Bir uygulama veya sistem başarılı bir şekilde dağıtıldıktan sonra, faaliyetlerini anlamak ve değerlendirmek amacıyla izleme süreçlerini başlatmak önem taşır. Ancak, izleme sistemleri yalnızca hizmetlerimizin düzgün bir biçimde işleyip işlemediği hakkında bilgiler sunmakla sınırlı değildir. İzleme, hizmetlerimizin sağlığı, performansı ve etkinliği hakkında kritik içgörüler sunarak operasyonel mükemmeliyeti sağlamayı amaçlar. Gözlemlenebilirliğin temel taşı olan izleme, işletme süreçlerimizi objektif bir şekilde değerlendirmemize olanak tanır ve gelişimin yol haritasını belirlememizde önemli bir araç olarak rol oynar.
Neden Monitoring Yapılır?
Monitoring, temel olarak sistemleri, süreçleri, uygulamaları, cihazları ve kaynakları kesintisiz olarak gözlemlemeyi ve denetlemeyi içeren bir yönetim yaklaşımını ifade eder. Bu kapsamda, öncelikli amaç bir sistemin veya uygulamanın performansını, durumunu ve sağlığını sürekli olarak izleyerek, olası anormal durumları ve potansiyel sorunları hızla tespit edip gerekli önlemleri hızlıca alarak sistemin veya uygulamanın sürekliliğini ve güvenilirliğini sağlamaktır. Monitoring, bir uygulamanın barındığı sunucuda meydana gelebilecek anormal durumları titizlikle gözlemlemek, detaylı analizler yapmak ve gerektiğinde proaktif müdahalelerle sorunları en erken aşamada çözmek amacını taşır. Böylece, uygulamanın kesintisiz bir yaşam döngüsüne sahip olması ve sıfır hata toleransı ile işlemesinin temin edilmesi sağlanır.
Monitoring, hem teknolojik altyapılar hem de iş süreçleri için oldukça önemlidir. Teknoloi açısından, ağlar, sunucular, veritabanları ve uygulamalar gibi bileşenler sürekli olarak izlenir. İş süreçleri açısından, üretim hatları, lojistik ağları, müşteri hizmetleri gibi operasyonel süreçler izlenir. Bu izleme işlemi, önceden tanımlanmış metrikleri ve eşik değerleri kullanarak gerçek zamanlı verileri analiz etmeyi içerir.
Monitoring Nasıl Yapılır?
Başarılı bir monitoring yapmak için uygulanması gereken bazı adımlar vardır. Bu adımları şöyle sıralayabiliriz.
- Hedefleri Tanımlama: İlk adım, neyi izlemek istediğinizi ve hangi hedefleri takip etmek istediğinizi belirlemektir. Bu hedefler, performans metrikleri, sistem durumu, hizmet düzeyi (SLA) uyumluluğu gibi konuları içerebilir.
- Veri Toplama: İzlemek istediğiniz bileşenlerden (sunucular, ağ cihazları, uygulamalar vb.) sürekli veri toplamalısınız. Bu veriler, CPU kullanımı, bellek kullanımı, ağ trafiği, yanıt süreleri gibi çeşitli performans ölçütlerini içerebilir.
- Veri Analizi: Toplanan verileri analiz etmek, performans eğilimlerini ve anormallikleri belirlemek için önemlidir. Bu adım, manuel veya otomatik analiz araçları kullanılarak gerçekleştirilebilir.
- Uyarılar ve Bildirimler: İzleme sistemi, belirlediğiniz eşik değerleri üzerinde veya anormalliklerde size otomatik uyarılar ve bildirimler göndermelidir. Bu, sorunların hızla fark edilmesini ve çözülmesini sağlar.
- Grafikler ve Raporlar: İzleme verilerini anlamlı grafikler ve raporlar halinde sunarak, sistem ve süreç performansının görsel bir şekilde takip edilmesini sağlamak önemlidir.
Tabii bu adımları izleyebilmek ve etkili bir monitoring yapabilmek için bir araca da ihtiyacımız var. Bu araçlara örnek olarak SolarWinds, Zabbix, New Relic, Grafana vb. araçlar verilebilir. Başlıktan da anlaşılacağı üzere bu yazıda SolarWinds’i inceleyip, nasıl çalıştığı ve nasıl kullanıldığı hakkında temel düzeyde bilgiler vereceğim.
SolarWinds
SolarWinds, çeşitli IT altyapı bileşenlerini izlemek, analiz etmek ve yönetmek için kullanılan bir yazılım şirketinin adıdır. SolarWinds’in ürünleri, ağ izlemesi, altyapı izlemesi, uygulama izlemesi, güvenlik izlemesi ve diğer IT operasyonlarıyla ilgili alanlarda çeşitli araçlar içerir.
SolarWinds Ne İşe Yarar?
SolarWinds ürün portföyü, IT profesyonellerine geniş kapsamlı bir izleme ve yönetim araçları seti sunarak aşağıdaki kritik görevleri destekler:
- Ağ İzlemesi: Ağ altyapısındaki aygıtların durumunu, trafik yükünü, bant genişliğini ve performansını sürekli olarak takip etme amacıyla kullanılır. Bu izleme sayesinde ağ kesintileri hızla teşhis edilir, trafiğin analizi gerçekleştirilir ve ağ performansı optimize edilir.
- Altyapı İzlemesi: Sunucular, depolama sistemleri, sanal makineler gibi temel altyapı bileşenlerinin performansını ve sağlığını titizlikle gözlemlemek, verimliliği artırmak ve sorunlara proaktif müdahalede bulunmak için kullanılır.
- Uygulama İzlemesi: Uygulamaların performansını ve erişilebilirliğini sürekli olarak gözlemlemek, kullanıcı deneyimini artırmak ve gerektiğinde hızlı müdahale ile uygulama hatalarını minimize etmek amacıyla kullanılır.
- Güvenlik İzlemesi: Sistemlerdeki güvenlik açıklarını, tehditleri ve potansiyel güvenlik ihlallerini yakından takip etmek ve tespit etmek için kullanılır. Bu izleme süreci, güvenlik zafiyetlerini önceden teşhis ederek, uygun önlemleri alarak siber tehditlere karşı direnç oluşturmayı sağlar.
SolarWinds’in bu araçları, IT altyapısının sağlığını, performansını ve güvenliğini sağlamak için gereken gözlem ve analiz yeteneklerini sunar. Bu ürünler, kuruluşların operasyonel sürekliliği güvence altına almasına ve işletme verimliliğini en üst düzeye çıkarmasına yardımcı olur.
Yukarıdaki görsellerde yer alan sekmelerle SolarWinds’in bizlere sunduğu ekranlara erişebiliyoruz. Bizlerin en çok kullandığı sekme olan Alerts&Activity sekmesinden Alerts ve Anomaly-Based Alerts sayfalarına erişebilmekteyiz. Peki nedir bu Anomaly-Based Alerts? Örnek vermek gerekirse bir sunucuda her bir dakikada bir CPU tavan yapıp düşüyorsa veya belli periyotlarla örneğin on dakika boyunca CPU veya memory tavan yapıp düşüyorsa bu Anomaly-Based Alert’tir ve bu sayfadan kontrolünü yapabiliriz. Alerts sayfasında ise karşımıza birazdan anlatacağım var olan tüm aktif alarmlar çıkmakta.
Alert Dashboard Example
Yukarıda yer alan görselde yönetilen tüm sunucular hakkında bilgilerin yer aldığı örnek bir dashboard yer almakta. Bu dashboardda alarmların severity’leri, cihazlara göre en sık gelen alarmların türleri, en çok tetiklenen alarmlar gibi bilgilere erişebiliyoruz.
Yukarıda yer alan görselde başlığından da anlaşılacağı gibi sunucular üzerinde aktif olan tüm alarmların listesi bulunmakta. Bu listeden gelen alarmın adını, alarmın nerede üretildiği, ne kadar süredir aktif halde olduğu ve tetiklendiği zaman gibi bilgilere ulaşabilekteyiz. Ancak bu bilgiler bize alarmın adını kabaca verse de alarmın neden ve nasıl ürediği hakkında detaylı bilgi vermemekte. Bu sebeple alarmın içerisine girerek sorunun nereden kaynaklandığı ve neden meydana geldiği hakkında bir takım çıkarımlar yapmamız gerekmekte.
Örnek olarak yer alan görselde gelen bir alarm hakkında detaylı bilgi edinip sorunun nereden kaynaklandığını görebiliyoruz.
Gerçek bir alarma örnek vermek gerekirse eğer; aşağıdaki görsellerde yer alan alarmda bir sunucu içerisinde çalışan bir web sitesinin SSL sertifikasının süresiyle alakalı bir sıkıntısından kaynaklı bir alarm ürettiğini görebilirsiniz.
Görselden de anlaşılacağı gibi alarm 5 gün önce gelmiş ve severity’si de Serious durumda. Message kısmına baktığımızda Alert List’te de yer aldığı gibi SSL sertifikasında bir problem var. Bu problemi anlamak için yapmamız gereken node details kısmına girip yorumlamak.
Node details altında component details kısmına baktığımızda SSL sertifikasının 9 gün sonra expire olacağını anlıyoruz. Burada dikkatimizi çekmesi gereken bir diğer konu ise alarmların threshold’larının kalan gün sayısına göre severity’i değiştirmesi. Örneğin burada 15 gün kala üreyen alarmda severity warning iken 10 günün altına düştüğünde critical olarak güncelleniyor.
Kabaca bu ve bu tarz adımları, tabi ki her üreyen alarm için izlenmesi gereken yol farklıdır, takip ederek sorunun neden kaynaklandığı ve nasıl meydana geldiği konusunda çeşitli bilgilere sahip olup alarmı çözmeye odaklanıyoruz.
Emekleri için Ali Murat EKMEKÇİ’ye teşekkür ederiz…