RTO در برابر RPO و درک تفاوت آنها
با دو معیار کلیدی که به تدوین یک برنامه مؤثر در تداوم کسب و کار و برگشت از فاجعه کمک می کنه، آشنا بشید.
Downtime برای سازمانهای مدرنی که باید نیازها و انتظارات مشتریان خود را برآورده سازند، اتفاق خوبی نیست. حوادث مختلفی میتواند درآمد یا حتی تداوم کسب و کار شما را تحت تاثیر قرار دهد. ممکن است حمله یک باج افزار، قطع برق، زلزله یا اشتباهات ساده انسانی رخ دهند که تمام این اتفاقات، غیرقابل پیش بینی بوده و بهترین کاری که میتوان انجام داد این است که آماده آنها باشید. آمادگی به این معناست که باید یک برنامه تداوم کسب و کار و برگشت از فاجعه (Business Continuity and Disaster Recovery یا به اختصار BCDR) درست و حسابی داشته باشیم، برنامهای که مورد آزمایش قرار گرفته و میتوان آن را به راحتی اجرا کرد. RTO و RPO دو پارامتر مهم هستند که یک برنامهی BCDR را تعریف میکنند.
Recovery Point Objective یا به اختصار RPO حداکثر مقدار مجاز دادههایی است که تحمل از دست دادن آنها را داریم و همچنین در اندازه گیری اینکه چه مدت زمانی باید بین آخرین بکاپ و رخداد فاجعه وجود داشته باشد تا سازمان متحمل آسیبهای جدی نشود، کمک میکند.
Recovery Time Objective یا به اختصار RTO به Downtime مربوط است و مدت زمان لازم برای برگشت از فاجعه تا زمانی که همه چیز به حالت عادی بازگردد را نشان میدهد.
با اینکه RPO و RTO ممکن است شبیه به نظر برسند، ولی اهداف متفاوتی را دنبال میکنند و در یک دنیای رویایی این دو پارامتر تا حد ممکن نزدیک به صفر است. با این حال در دنیای واقعی و در محیط عملیاتی هزینه به صفر رساندن این دو پارامتر بسیار بالا بوده و مقرون به صرفه نیست.
بگذارید نگاهی دقیق تر به اهداف این دو پارامتر بیندازیم. RPO در مورد میزان دادهای است که سازمان تحمل از دست دادن آن را دارد. برای مثال یک بانک را در نظر بگیرید که حتی از دست دادن 1 ساعت از دادهها میتواند فاجعه بار باشد چرا که میزان Transactionها و دادهها در یک ساعت بسیار زیاد است. RPO در اندازه کوچکتر نیز قابل اندازه گیری است؛ کامپیوتر شخصی شما هنگام کار روی یک سند به هر دلیلی خراب میشود و آخرین تغییراتی که روی سند انجام شده، از دست میرود. سوال اینجاست که حاضرید چه مقدار از دادههایی که وارد کردید را از دست دهید؟ و در صورت از دست دادن آنها چه تاثیری روی شما یا کارتان میگذارد؟ بنابراین RPO معیاری کلیدی برای تعیین زمان و دورههای بکاپ گیری است. برای مثال، فرض کنید در سازمانی که هر روز ساعت 12 شب بکاپگیری انجام میشود، فاجعهای در ساعت 8 صبح اتفاق میافتد. در این حالت، احتمالاْ دادههایی که در این 8 ساعت ایجاد شدهاند، از دست خواهد رفت. اگر RPO در این سازمان 24 ساعت یا بیشتر باشد، وضعیت خوبی داریم ولی اگر RPO چهار ساعت باشد، قطعاْ در وضعیت خیلی بدی قرار داریم.
از طرف دیگر RTO زمانی است که باید در طی آن سیستم و برنامهها پس از وقوع فاجعه، احیا شوند. برای مثال اگر RTO در سازمان شما 24 ساعت باشد، معنی آن این است که شما تعیین کردهاید که سازمان بدون دادهها و زیرساخت IT میتواند برای 24 ساعت به فعالیت معمول خود ادامه دهد و اگر دادهها و زیرساخت در این مدت زمان به حالت اولیه بازنگردد، سازمان شما متحمل آسیبهای جبران ناپذیری خواهد شد.
روش درست این است که RTO را از زمان وقوع فاجعه و قطع سیستمها اندازه گیری کرد و نه از لحظهای که تیم IT شروع به رفع مشکل میکنند!
طراحی یک برنامه برگشت از فاجعه
حقیقتاْ هچ برنامه مشخصی برای همه سازمانها و زیرساختهای مختلف وجود ندارد. سازمانها با یکدیگر تفاوت دارند، نیازهای متفاوتی دارند و قطعاْ براساس این نیازها، باید برنامههایی متفاوت و مطابق با نیازهای خود داشته باشند. با این حال، یک روش معمول این است که اپلیکیشنها و سرویسهای سازمان را به گروههای مختلف تقسیم کنیم و پس از آن RPO و RTO را مطابق SLA که سازمان به آن متعهد است، محاسبه و تنظیم کنیم.
طبقه بندی حفاظت از دادهها برای تعیین نحوه ذخیره، دسترسی، محافظت، بازیابی و به روزرسانی کارآمدتر دادهها و اطلاعات بر اساس معیارهای خاص آنها، از اهمیت ویژهای برخوردار است. تجزیه و تحلیل سرویسها و اپلیکیشنها و تعیین اینکه کدامیک برای کسب و کار شما حیاتیاند و در درآمدزایی سازمان نقش ویژهای دارند، عملیاتی مهم و ضروری است. این فرآیند که برای یک برنامهی تداوم کسب و کار بسیار ضروری است، Business Impact Analysis یا به اختصار BIA گفته میشود. در حقیقت BIA پروتکلها و اقدامات لازم برای مواجهه با یک فاجعه را تعیین میکند.
به عنوان مثال ، می توانید از یک مدل سه لایه برای طراحی برنامه تداوم کسب وکار استفاده کنید:
گروه اول: اپلیکیشنهای Mission-Critical که RTPO آنها باید کمتر از 15 دقیقه باشد.
گروه دوم: اپلیکیشنهای Business-Critical که باید RTO و RPO آنها به ترتیب 2 ساعت و 4 ساعت باشد.
گروه سوم: اپلیکیشنهای Non-Critical که باید RTO و RPO آنها به ترتیب 4 ساعت و 24 ساعت باشد.
بخاطر داشته باشید که اپلیکیشنهای Mission-Critical و Business-Critical و Non-Critical در هر سازمانی متفاوت هستند و هر سازمان براساس نیازها و نوع فعالیتی که دارد این گروهها را تعریف میکند. بعد از اینکه اپلیکیشنها و سرویسهای خود را گروه بندی کردید و مشخص شد که در صورت بروز حوادث چه تاثیراتی خواهند داشت، باید ابزار مناسبی را پیدا کنید تا به شما در محافظت از زیرساخت IT و دادهها کمک کند.
حرف آخر
برای طراحی یک برنامه BCDR که هم بقای کسب و کار شما را تضمین کند و هم مقرون به صرفه باشد، باید RTO و RPO را در نظر بگیریم و همچنین باید با آزمایش این برنامه، اطمینان کسب کنیم که برنامه طراحی شده موثر و کارآمد باشد.
در عین حال، برای صرفه جویی در هزینهها باید از سرمایه گذاری بیش از حد در تضمین RTO و RPO نیز دوری کرد. برای مثال، اگر RTO در سازمان شما 4 ساعت باشد و در حال حاضر امکان بازیابی 2 ساعته را دارید، سرمایه گذاری مجدد برای کاهش این زمان به 1 ساعت غیرضروری است.