Skip to content

    Aheader

    Hello World!
    • Learning Schedule
    • Question queue

    DeepSpeed runtime study

    aheader 2021年10月2日 No Comments

    The runtime includes these parts:

    • activation_checkpointing
    • comm
    • compression
    • data_pipeline
    • fp16
    • pipe
    • swap_tensor
    • zero

    The entry for the runtime is in https://github.com/microsoft/DeepSpeed/blob/master/deepspeed/runtime/engine.py

    Elasticity? not supported with model parallelism

    DeepSpeed uses gradient accumulation to extract pipeline parallelism.

    Categories: 未分类

    DeepSpeed source code study

    aheader 2021年10月2日 No Comments

    DeepSpeed Architecture(from https://www.youtube.com/watch?v=zqsOEzKZX2Y&t):

    There are major two parts: runtime and ops.

    DeepSpeed runtime study: http://aheader.org/2021/10/02/deepspeed-runtime-study/

    DeepSpeed ops study:

    Categories: 未分类

    近期文章

    • Training Tricks
    • Activation functions
    • Mixture of Experts
    • DeepSpeed runtime study
    • DeepSpeed source code study

    近期评论

      文章归档

      • 2022年11月
      • 2022年2月
      • 2021年10月
      • 2021年8月
      • 2021年3月
      • 2021年2月
      • 2020年10月
      • 2019年9月
      • 2019年4月
      • 2018年10月
      • 2018年1月
      • 2017年11月
      • 2017年4月
      • 2016年11月
      • 2016年3月
      • 2016年1月
      • 2015年12月

      分类目录

      • Distributed System and Architect
      • Feelings
      • Programming
      • Read Papers
      • 未分类

      功能

      • 登录
      • 条目feed
      • 评论feed
      • WordPress.org
      • Learning Schedule
      • Question queue

      fGeek Theme powered by WordPress