장애 허용(fault-tolerance)은 무엇입니까?
장애 허용성은 99.999%의 availability 가동 시간을 특징으로 하는 우수한 가용성 수준을 설명합니다. 또는 더 나은. 장애 허용 시스템은 하드웨어 및 소프트웨어 "오류" 또는 오류를 모두 "용인"하거나 견딜 수 있기 때문에 이러한 수준의 가용성을 제공할 수 있습니다. 일반적으로 중요한 시스템이 처음부터 실패하는 것을 사전에 모니터링하고 방지하거나 치명적인 구성 요소 또는 시스템 오류의 위험을 완전히 완화하여 이 작업을 수행합니다.
소프트웨어 기반 vs. 하드웨어 기반의 장애 허용
소프트웨어 기반 및 하드웨어 기반 접근 방식을 모두 사용하여 내결함성을 달성할 수 있습니다.
소프트웨어 기반 접근 방식에서 디스크에 커밋된 모든 데이터는 중복 시스템에 걸쳐 미러됩니다. 보다 정교한 소프트웨어 기반 접근 방식은 커밋되지 않은 데이터 또는 메모리의 데이터를 중복 시스템에 복제합니다. 기본 시스템 오류가 발생할 경우 보조 백업 시스템이 작업을 재개하여 기본 시스템이 실패한 정확한 순간부터 인계되므로 트랜잭션이나 데이터가 중복되거나 손실되지 않도록 합니다.
하드웨어 기반 접근 방식에서는 중복 시스템이 동시에 실행됩니다. 병렬 서버는 동일한 작업을 수행하므로 한 서버에 실패하면 다른 서버가 트랜잭션을 처리하거나 서비스를 계속 제공합니다. 이 방법은 두 시스템이 동시에 매우 낮음으로 실패할 때의 통계적 확률에 의존합니다. 실제로 응용 프로그램을 제공하기 위해 하나의 서버만 필요하지만 두 대의 서버가 있으면 하나 이상의 서버가 항상 실행되도록 하는 데 도움이 됩니다.
everRun®Enterprise 와 ztC™ Edge가 장애허용 워크로드 제공하는 방법
Stratus everRun 엔터프라이즈 소프트웨어 및 스트라터스 ztC Edge컴퓨팅 플랫폼은 모두 소프트웨어 기반 접근 방식을 사용하여 내결함성 응용 프로그램을 제공하고 데이터를 보호합니다.
소프트웨어 기반 접근 방식의 주요 과제는 시스템 오버헤드를 최소화하면서 데이터를 효율적으로 복제하는 것입니다. 충분히 복제하지 말고 복구 시간이 증가합니다. 너무 자주 복제하고 가용성을 보장하기 위해 시스템 리소스를 너무 많이 사용합니다.
everRun Enterprise 및 Stratus의 Redundant Linux sdu, Stratus의 ztC Edge 솔루션을 지원하며, 디스크에 기록된 모든 데이터를 복제합니다(고가용성 워크로드를 위해). 또한, 메모리 및 CPU 상태의 데이터를 지속적으로 복제하기 위해 독특한 체크포인팅 엔진을 사용합니다(장애 허용 워크로드를 위해서). 모든 I/O 작업은 검사점이 완료되고 확인될 때까지 대기합니다. 독점 알고리즘은 데이터 변경 유형 및 양, I/O 처리량에 따라 검사점 빈도를 동적으로 조정합니다. 만약 한 노드가 실패하면, 2중 시나리오를 방지하기 위하여 2초간 일시 중지를 사용하여, 5 초 미만의 복구 시간으로 이어집니다. 이는 보내고 요청을 큐및 다시 제출하기 위한 TCP / IP 임계값보다 낮습니다.
독특한 고효율 검사기 엔진 외에도 Stratus 솔루션은 운영 단순성으로 차별화됩니다. 클러스터 를 인식하기 위해 응용 프로그램이나 게스트 운영 체제 수정이 필요하지 않습니다. 응용 프로그램 가용성 및 데이터 무결성을 보장하기 위해 추가 장애 조치 스크립트가 필요하지 않습니다. 필요한 것은 응용 프로그램을 가상 컴퓨터에 설치하고 내결함성 있게 만들기 위해 시작되는 것입니다.
ftServer® 장애 허용 워크로드 제공 방법
Stratus ftServer는 하드웨어 기반 접근 방식을 사용하여 장애 허용 응용 프로그램과 데이터를 제공합니다.
하드웨어 기반 접근 방식의 주요 과제는 프로세스와 스레드의 정확한 동기화를 보장하는 것입니다 - 중복 시스템의 두 노드에서 정확히 동일한 일이 동시에 일어나고 있는지 확인하는 것입니다.
Stratus ftServer는 독점 필드 프로그래밍 가능한 게이트 어레이(FPGA)를 사용하여 ftServer 시스템의 두 개의 동일한 절반에 걸쳐 잠금 단계 처리를 보장합니다. 두 개의 동일한 고객 교체 가능한 장치(CRU)가 병렬로 실행됩니다. 각 서버는 필요에 따라 기본 또는 보조 서버 역할을 합니다. 각각은 동시에 동일한 프로세스를 실행합니다. ftServer를 사용하면 단일 구성 요소 또는 CRU에 오류가 발생할 때 복구 시간이 없습니다. 사용 가능한 CRU는 사용 가능한 CRU를 교체할 때까지 기본 서버로 인계하기만 하면 됩니다. 계획되지 않은 가동 중지 시간 도 1초도 견딜 수 없는 조직의 경우 Stratus ftServer는 실행 가능한 옵션입니다.
Stratus ftServer는 FPGA 및 잠금 단계 접근 방식을 사용하는 것 외에도 운영 단순성으로 차별화됩니다. ftServer에 설치된 응용 프로그램, 가상화 플랫폼 또는 게스트 운영 체제는 오류를 방지할 수 있도록 특별한 수정이나 구성이 필요하지 않습니다.