欢迎查看天授平台中文文档

天授 是一个基于PyTorch的深度强化学习平台,目前实现的算法有:

天授还有如下特点:

  • 实现优雅,使用4000多行代码即完全实现上述功能

  • 目前为止实现效果最好的 MuJoCo benchmark

  • 支持任意算法的多个环境(同步异步均可的)并行采样,详见 环境并行采样

  • 支持动作网络和价值网络使用循环神经网络(RNN)来实现,详见 RNN训练

  • 支持自定义环境,包括任意类型的观测值和动作值(比如一个字典、一个自定义的类),详见 自定义环境与状态表示

  • 支持自定义训练策略,详见 定制化训练策略

  • 支持 N-step bootstrap 采样方式 compute_nstep_return() 和优先级经验重放 PrioritizedReplayBuffer 在任意基于Q学习的算法上的应用;感谢numba jit的优化让GAE、nstep和PER运行速度变得巨快无比

  • 支持多智能体学习,详见 多智能体强化学习

  • 拥有全面的 单元测试,包括功能测试、完整训练流程测试、文档测试、代码风格测试和类型测试

与英文文档不同,中文文档提供了一个宏观层面的对天授平台的概览。(其实都是 毕业论文 里面弄出来的)

安装

天授目前发布在 PyPIconda-forge 中,需要Python版本3.6以上。

通过PyPI进行安装:

$ pip install tianshou

通过conda进行安装:

$ conda install -c conda-forge tianshou

还可以直接从GitHub源代码最新版本进行安装:

$ pip install git+https://github.com/thu-ml/tianshou.git@master --upgrade

在安装完毕后,打开您的Python并输入

import tianshou
print(tianshou.__version__)

如果没有异常出现,那么说明已经成功安装了。

贡献

Indices and tables