Monitoração e Recuperação por Retrocesso Utilizando Visões Progrssivas de Computações Distribuídas

Abstract: Fault-tolerant distributed systems are partially based on the implementation of checkpointing and rollback-recovery mechanisms. Another important mechanism associated to tolerance of faults is the one that allows a system to monitor its state and to react to exceptional behaviour. Checkpointing and rollback-recovery are already part of most of the fault-tolerant systems implemented to date. This situation does not apply to monitoring mechanisms, especially to systems that integrate monitoring, checkpointing and rollback-recovery. Progressive views are formed by a sequence of consistent global checkpoints that may have occurred in this order during the execution of the system. Progressive views are called progressive because they have been designed to minimize the rollback of the system when a partial failure of hardware occurs. This article dicusses the application of progressive views towards the deployment of more efficient checkpointing mechanisms and its application to the integration of checkpointing, rollback-recovery and monitoring for fault-tolerant distributed systems.



Resumo: Sistemas distribuídos tolerantes a falhas baseiam-se parcialmente na existência de mecanismos de checkpointing e recuperação por retrocesso de estado. Um outro mecanismo importante para esses sistemas é o que permite a monitorização do seu estado e a pronta reação a mudanças que afetam o seu funcionamento previsto. Apesar desses dois mecanismos estarem fortemente associados, a grande maioria dos sistemas tolerantes a falhas contruídos até hoje privilegia a implementação de mecanismos de checkpointing, em detrimento de mecanismos para monitorização. Visões progressivas são seqüências de checkpoints globais consistentes que poderiam ter ocorrido nesta ordem durante a execução das computações. Foram denominadas progressivas porque o algoritmo para a sua determinação minimiza o retrocesso necessário durante a fase de recuperação do sistema, em caso de falha parcial de hardware. Neste artigo, comentamos a utilidade de visões progressivas para o desenvolvimento de protocolos mais eficientes para checkpointing e para a integração de mecanismos de checkpointing, recuperação de estado e monitorização.

1999