ما هو التوفر العالي (HA)؟ لماذا يحتاج عملك إلى هذه الخطة – CloudSavvy IT
من الواضح لا أحد خطة التوقف. لكن المشكلة لا مفر منها ، فإذا لم يكن لديك خطة لحل المشكلة تلقائيًا على الفور ، فستفقد الدخل عند انقطاع الخدمة. التوافر العالي سيساعدك على التخطيط للأسوأ.
ما هو التوفر العالي؟
الإتاحة العالية (HA) هي ممارسة تقلل كل أوقات تعطل الخادم (من الناحية المثالية إلى الصفر). فهو يجمع بين العديد من التقنيات ، مثل القياس التلقائي والمراقبة في الوقت الفعلي ونشر التحديث التلقائي باللونين الأزرق / الأخضر.
المفهوم الأساسي بسيط للغاية – الخادم ليس خادمًا. خادمان هما خادم واحد. كلما زادت التكرار الذي تخطط له ، زاد توافر الخدمة. حتى إذا اندلع حريق في أحد مكوناتك ، فلا ينبغي أن تتعرض الخدمة للانقطاع.
يمكن تحقيق ذلك من خلال طرق بسيطة مثل مجموعات القياس التلقائي ، ويمكن للخدمات السحابية مثل AWS دعمها جيدًا. إذا كانت هناك مشكلة في الخادم ، مثل حدوث عطل مفاجئ ، فسوف يكتشف موازن التحميل أنه لا يستجيب. يمكنه بعد ذلك تحويل حركة المرور من الخادم المعطل إلى الخوادم الأخرى في المجموعة ، وحتى توسيع الحالات الجديدة عند الحاجة إلى السعة.
ينطبق مبدأ التكرار هذا على جميع مستويات التسلسل الهرمي للمكونات. على سبيل المثال ، إذا كان لديك خدمة مصغرة لمعالجة معالجة الصور للوسائط المحملة بواسطة المستخدم ، فمن الأفضل تشغيل الخدمة المصغرة في الخلفية على جهاز كمبيوتر واحد فقط. إذا كانت هناك مشكلة في هذا الكمبيوتر ، فقد لا يتمكن المستخدم من التحميل ، وهو ما يُنظر إليه على أنه جزء من وقت تعطل خدمتك وقد يتسبب في إحباط المستخدم النهائي.
في بعض الأحيان تحتاج يضمن التوفر للعملاء. إذا كنت تضمن توفرًا بنسبة 99.999٪ في اتفاقية مستوى الخدمة (SLA) ، فهذا يعني أنه لا يمكن مقاطعة خدمتك لمدة أقصاها خمس دقائق في السنة. لذلك ، بالنسبة للعديد من الشركات الكبيرة ، يجب على HA القيام بذلك من البداية.
على سبيل المثال ، تأتي خدمات مثل AWS S3 مع اتفاقية مستوى الخدمة (SLA) ، والتي يمكن أن تضمن 99.9999999٪ (9 9s) تكرار البيانات. يعني هذا بشكل أساسي أنه يمكن نسخ جميع بياناتك عبر المناطق ، بحيث يمكن حماية جميع البيانات ، باستثناء سيناريوهات مستودع البيانات التي لها تأثير كبير. حتى في هذه الحالة ، من خلال العزل المادي ، فهي آمنة للنيازك الصغيرة ، أو على الأقل آمنة لحرائق المستودعات الأكثر واقعية أو انقطاع التيار الكهربائي.
مكونات نظام HA عالي الجودة
ما الذي تسبب في التوقف؟ ما لم يتم إجراء مباراة في الجنة ، عادة ما يكون سبب التوقف عن العمل خطأ بشري أو فشل عشوائي.
لم يتم التخطيط للفشل العشوائي حقًا ، ولكن يمكن التخطيط لها حول أنظمة زائدة عن الحاجة. عندما تحدث ، يمكنك أيضًا استخدام نظام مراقبة جيد لالتقاطها.يمكن لأنظمة المراقبة هذه أن تنبهك إلى مشاكل في الشبكة.
يمكن التخطيط لخطأ بشري. أولاً ، عن طريق تقليل عدد الأخطاء في بيئة الاختبار الحكيمة. لكن الجميع يرتكبون أخطاء ، حتى الشركات الكبيرة ترتكب أخطاء ، لذلك يجب أن تضع خطة عند حدوث الأخطاء.
التحجيم التلقائي والتكرار
التوسيع التلقائي هو عملية توسيع عدد الخوادم التي تمتلكها تلقائيًا ، عادةً لتلبية ذروة الحمل خلال اليوم ، ولكن أيضًا تحت ضغط مرتفع.
إحدى الطرق الرئيسية لانقطاع الخدمة هي “احتضان الموت” ، أي أن آلاف المستخدمين يتدفقون جميعًا إلى الموقع ، أو تزداد حركة المرور بطرق أخرى. بدون التوسع التلقائي ، ستكون في مشكلة لأنه لا يمكنك بدء المزيد من الخوادم ويجب عليك الانتظار حتى ينحسر الحمل أو بدء مثيلات جديدة يدويًا لتلبية الطلب.
يعني التحجيم التلقائي أنك لن تضطر أبدًا إلى حل هذه المشكلة حقًا (على الرغم من أنك تحتاج إلى الدفع مقابل الوقت الإضافي المطلوب للخادم). هذا جزء من السبب الذي يجعل الخدمات مثل قواعد البيانات بدون خادم ووظائف AWS Lambda جيدة جدًا: يمكن توسيع نطاقها جيدًا.
ومع ذلك ، لا يمكن فقط توسيع الخادم الرئيسي تلقائيًا – إذا كانت هناك مكونات أو خدمات أخرى في الشبكة ، فيجب أن تكون هذه الخوادم أيضًا قادرة على التوسع. على سبيل المثال ، قد تحتاج إلى بدء تشغيل خوادم ويب أخرى لتلبية متطلبات حركة المرور ، ولكن إذا كان خادم قاعدة البيانات لديك مكتظًا ، فستواجه أيضًا مشكلات.
إذا كنت تريد معرفة المزيد ، يمكنك قراءة المقالة حول بدء استخدام التحجيم التلقائي لـ AWS.
ذات صلة: بدء استخدام AWS Autoscaling
24/7 المراقبة
تتضمن المراقبة تتبعًا في الوقت الفعلي للسجلات والمقاييس على الخدمة. يمكن أن يؤدي القيام بذلك تلقائيًا من خلال التنبيهات التلقائية إلى تنبيهك إلى وجود مشكلات في الشبكة عند حدوث مشكلة وليس بعد أن تؤثر على المستخدمين.
على سبيل المثال ، يمكنك ضبط المنبه ليصدر صوتًا عندما يصل الخادم إلى 90٪ من استخدام الذاكرة ، مما قد يشير إلى تسرب للذاكرة أو تحميل زائد للتطبيق.
يمكنك بعد ذلك تكوين هذا التنبيه لإخبار مجموعة القياس التلقائي الخاصة بك بإضافة مثيل آخر أو استبدال المثيل الحالي بمثيل جديد.
تحديثات زرقاء / خضراء آلية
أكثر حالات الأخطاء شيوعًا هي تحديثات التعليمات البرمجية ، والتي يتم تحديثها عندما تتغير التعليمات البرمجية الخاصة بك وتكسر جزءًا غير متوقع من التطبيق. يمكن التخطيط للنشر الأزرق / الأخضر.
النشر باللون الأزرق / الأخضر هو عملية بطيئة وتدريجية يمكنها نشر تغييرات التعليمات البرمجية تدريجياً بدلاً من نشرها كلها مرة واحدة. على سبيل المثال ، افترض أن لديك 10 خوادم تقوم بتشغيل نفس البرنامج خلف موازن التحميل.
قد يقوم النشر المنتظم فقط بتحديث جميع التحديثات فورًا عند دفع تغييرات جديدة ، أو التحديث مرة واحدة على الأقل لمنع التوقف.
سيبدأ النشر الأزرق / الأخضر الخادم الحادي عشر في مجموعة التحجيم التلقائي وتثبيت تغييرات التعليمات البرمجية الجديدة. وبعد ذلك ، بمجرد أن يتحول إلى “الأخضر” ، أو يقبل الطلب ويكون جاهزًا ، فإنه سيحل على الفور محل أحد الخوادم “الزرقاء” الموجودة في المجموعة. بعد ذلك ، سوف تتدفق وتكرر لكل خادم في المجموعة.حتى إذا كان لديك خادم واحد فقط ، فسوف ينتج عن طريقة التحديث هذه لا توقف.
والأفضل من ذلك ، إذا تم العثور على مشاكل في نظام المراقبة والتنبيهات ، يمكنك على الفور إعادة التغييرات مرة أخرى إلى الخادم الأزرق. هذا يعني أنه حتى التحديث الخاطئ تمامًا لن يقطع خدمتك لأكثر من بضع دقائق.إذا كان لديك عدة خوادم وقادرة على نشر التحديثات ببطء ، فلن يكون هناك انقطاع في الخدمة على الإطلاق. يمكن تكوين النشر الأزرق / الأخضر لتحديث 10٪ فقط من الخوادم كل خمس دقائق ، على سبيل المثال ، لنشر التحديثات ببطء في غضون ساعة.