Extensão

TORQUE: Gerenciamento de Recursos em Sistemas Distribuídos

Informações e Matricula

Objetivo

O curso visa ensinar os conceitos fundamentais de gerenciamento de recursos de computação distribuída fornecendo ao aluno diferentes ferramentas para manipular clusters (Condor, DAGMan, PBS e Torque).

O curso aborda os principais conceitos de sistemas distribuídos e clusters assim como programação em batch script e a utilização de ferramentas em Linux focadas em configuração e gerenciamento de nós. O curso oferece intensa prática com o Gerenciador de Recursos TORQUE. TORQUE fornece controle sobre grandes cargas de trabalho computacional como, por exemplo, em Big Data, Data Mining e computação técnica e científica e está atualmente em uso em milhares de órgãos governamentais, instituições acadêmicas e sites comerciais em todo o mundo. TORQUE fornece alta disponibilidade, diagnósticos avançados, matrizes de trabalho, agendamento avançado GPGPU, suporte de alto rendimento e outras funcionalidades. Ao final do curso, espera-se que o aluno tenha em mãos um arcabouço ferramental que possa ser usado em casos reais.

Programação do curso

Aulas com apresentação de slides em paralelo com abordagem "hands-on" que serão fornecidas aos alunos para uso posterior livre, o que permitirá ao aluno ter um bom ferramental para exemplificar os conceitos e executar os programas codificados em aula. Também serão fornecidos arquivos relativos aos códigos fonte próprios do curso.

  • Conceitos Gerais de Linux para Sistemas Distribuídos
    • Sistemas distribuídos e clusters.
    • Programação Batch Script.
    • Ferramentas para e interação com servidores Linux em redes Windows.

  • Introdução a Portable Batch System (PBS)
    • Submeter e Gerenciar processos.
    • Gerenciamento de Nós.
    • Gerenciadores de Recursos Condor, DAGMan, PBS
    • Gerenciador de Recursos TORQUE.

  • Aplicações de alto desempenho utilizando Torque
    • Instalação, Configuração de Torque.
    • Definição de políticas do servidor com Torque.

  • Estudos de casos
    • Seleção de estudos de caso de programação distribuída (MPI, Matlab, GPU's) gerenciado pelo Torque em clusters disponíveis.

  • Considerações finais
    • O que fazer agora?
    • O que ler?
    • Como me especializar?