最后更新于6年前
这有帮助吗?
网络结构
比如 CNN 与 RNN,前者更适合并行架构
优化算法的改进:动量、自适应学习率
减少参数规模
比如使用 GRU 代替 LSTM
参数初始化
Batch Normalization
GPU 加速数据并行模型并行混合数据并行与模型并行CPU 集群GPU 集群
GPU 加速
数据并行
模型并行
混合数据并行与模型并行
CPU 集群
GPU 集群
- CSDN博客