算丰学院

作为框架和硬件之间的桥梁，深度学习编译器可以实现一次性代码开发和重用各种计算能力处理器的目标。最近，算能也开源了自己开发的TPU编译工具——TPU-MLIR (Multi-Level Intermediate Representation)。TPU-MLIR是一个面向深度学习处理器的开源TPU编译器。该项目提供了完整的工具链，将各种框架下预训练的神经网络转换为可在TPU中高效运行的二进制文件bmodel，以实现更高效的推理。本课程以实际实践为驱动，引导您直观地理解、实践、掌握智能深度学习处理器的TPU编译框架。

目前，TPU-MLIR项目已应用于算能开发的最新一代深度学习处理器BM1684X。结合处理器本身的高性能ARM内核以及相应的SDK，可以实现深度学习算法的快速部署。本课程将介绍MLIR的基本语法，以及编译器中各种优化操作的实现细节，如图形优化、int8量化、算子分割、地址分配等。

与其他编译工具相比，TPU-MLIR有几个优点

1. 简单方便

通过阅读开发手册和项目中包含的示例，用户可以了解模型转换的过程和原理，并快速入门。此外，TPU-MLIR是基于当前主流编译工具库MLIR设计的，用户也可以通过它了解MLIR的应用。本项目提供了一套完整的工具链，用户可直接通过现有接口快速完成模型转换工作，无需适应不同的网络。

2. 通用性

目前，TPU- mlir已经支持TFLite和onnx两种格式，这两种格式的模型可以直接转换为TPU可用的bmodel。如果不是这两种格式呢?事实上，onnx提供了一套转换工具，可以将目前市场上主要的深度学习框架编写的模型转换为onnx格式，然后再进行bmodel转换。

3、精度与效率并存

在模型转换过程中，有时会失去精度。TPU-MLIR支持INT8对称和非对称量化，结合原开发公司的校准和tune技术，大大提高了性能，保证了模型的高精度。此外，TPU-MLIR还使用了大量的图优化和算子分割优化技术来保证模型的高效运行。

4. 实现终极性价比，构建下一代深度学习编译器

为了支持图形化计算，神经网络模型中的算子需要开发图形化版本;为了适应TPU，应该为每个运营商开发一个版本的TPU。此外，有些场景需要适应相同计算能力处理器的不同型号，每次都必须手工编译，这将非常耗时。深度学习编译器就是用来解决这些问题的。TPU-mlir的一系列自动优化工具可以节省大量的人工优化时间，因此在RISC-V上开发的模型可以顺利自由地移植到TPU上，以获得最佳的性能和性价比。

5. 完整的信息

课程包括中英文视频教学、文档指导、代码脚本等，详实丰富的视频资料详细应用指导清晰的代码脚本TPU-MLIR站在MLIR巨头的肩膀上打造，现在整个项目的所有代码都已经开源，免费向所有用户开放。

代码下载链接:https://github.com/sophgo/tpu-mlir

tpu - mlir开发参考手册:https://tpumlir.org/docs/developer_manual/01_introduction.html

总体设计思想论文:https://arxiv.org/abs/2210.15016

视频教程:https://space.bilibili.com/1829795304/channel/collectiondetail?sid=734875

课程目录

序号	课程名	课程分类	课程资料
			视频	文档	代码
1.1	Deep learning编译器基础	TPU_MLIR基础	√	√	√
1.2	MLIR基础	TPU_MLIR基础	√	√	√
1.3	MLIR基本结构	TPU_MLIR基础	√	√	√
1.4	MLIR之op定义	TPU_MLIR基础	√	√	√
1.5	TPU_MLIR介绍（一）	TPU_MLIR基础	√	√	√
1.6	TPU_MLIR介绍（二）	TPU_MLIR基础	√	√	√
1.7	TPU_MLIR介绍（三）	TPU_MLIR基础	√	√	√
1.8	量化概述	TPU_MLIR基础	√	√	√
1.9	量化推导	TPU_MLIR基础	√	√	√
1.10	量化校准	TPU_MLIR基础	√	√	√
1.11	量化感知训练（一）	TPU_MLIR基础	√	√	√
1.12	量化感知训练（二）	TPU_MLIR基础	√	√	√
2.1	Pattern Rewriting	TPU_MLIR实战	√	√	√
2.2	Dialect Conversion	TPU_MLIR实战	√	√	√
2.3	前端转换	TPU_MLIR实战	√	√	√
2.4	Lowering in TPU_MLIR	TPU_MLIR实战	√	√	√
2.5	添加新算子	TPU_MLIR实战	√	√	√
2.6	TPU_MLIR图优化	TPU_MLIR实战	√	√	√
2.7	TPU_MLIR常用操作	TPU_MLIR实战	√	√	√
2.8	TPU原理（一）	TPU_MLIR实战	√	√	√
2.9	TPU原理（二）	TPU_MLIR实战	√	√	√
2.10	后端算子实现	TPU_MLIR实战	√	√	√
2.11	TPU层优化	TPU_MLIR实战	√	√	√
2.12	bmodel生成	TPU_MLIR实战	√	√	√
2.13	To ONNX format	TPU_MLIR实战	√	√	√
2.14	Add a New Operator	TPU_MLIR实战	√	√	√
2.15	TPU_MLIR模型适配	TPU_MLIR实战	√	√	√
2.16	Fuse Preprocess	TPU_MLIR实战	√	√	√
2.17	精度验证	TPU_MLIR实战	√	√	√

高级 | 时长 3.7小时

编译器

SOPHNET

17993

1

Milk-V Duo开发板实践课程

本课程介绍了硬件电路的设计和基本环境的搭建，并提供了一些简单的开发示例和一些基本的深度学习示例。

Milk-V Duo是基于CV1800B的超小型嵌入式开发平台。它体积小，功能全面，配备双核，可以分别运行linux和rtos系统，并具有各种可连接的外设。

可扩展性:Milk-V Duo核心板具有多种接口，如GPIO, I2C, UART, SDIO1, SPI, ADC, PWM等。
多种可连接外设:Milk-V Duo核心板可扩展各种设备，如LED，便携式屏幕，摄像头，WIFI等。

课程特点:

内容材料丰富完整，包括开发板硬件设计、外设接口说明、基本环境设置方法、示例代码脚本等。
学习路径科学合理，从开发板的介绍和基本使用开始，引导到实际项目，充分利用开发板，为用户自身开发提供参考。
实际项目丰富，课程提供了许多实际代码使用和功能演示的示例。通过简单地修改和组合代码，可以实现不同的功能。

课程目录

初级 | 时长 0.2小时

Duo

CV1800B

4514

2

3

SE5开发系列课

深度神经网络模型可以快速训练和测试，然后由行业部署，在现实世界中有效地执行任务。在小型、低功耗的深度学习边缘计算平台上部署这样的系统受到业界的高度青睐。本课程采用实践驱动的方法，引导你直观地学习、实践和掌握深度神经网络的知识和技术。

SOPHON深度学习微服务器SE5是采用SOPHON自主研发的第三代TPU处理器BM1684的高性能、低功耗边缘计算产品。INT8运算能力高达17.6 TOPS，支持32路全高清视频硬件解码和2路编码。本课程将快速引导您了解SE5服务器的强大功能。通过本课程，您可以了解深度学习的基础知识并掌握其基本应用。

课程的特点

1. 一站式服务

在SE5应用程序中遇到的所有常见问题都可以在这里找到。

为深度学习微服务器提供全栈解决方案
一步一步、详细而清晰地分解开发过程
支持所有主流框架，易于使用的产品

2. 系统的教学

它包括设置环境、开发应用程序、转换模型和部署产品，以及拥有镜像的实际环境等所有内容。

环境是如何构建的?
如何编译模型?
应用程序是如何开发的?
场景如何部署?

3. 完整的材料

本课程包括视频教程、文档指南、代码脚本和其他综合材料。

丰富的视频素材
详细的应用指导
清晰的代码脚本
代码下载链接:https://github.com/sophon-ai-algo/examples

4. 免费的云开发资源

在线免费申请使用SE5-16微服务器云测试空间

SE5-16微服务器云测试空间可用于在线开发和测试，支持用户数据保留和导出

SE5-16微服务器云测试空间具有与物理机环境相同的资源性能

云平台应用链接:https://account.sophgo.com/sign_in?service=https://cloud.sophgo.com&locale=zh-CN
云平台使用说明:https://cloud.sophgo.com/tpu.pdf

初级 | 时长 5.7小时

SE5

BM1684

48119

0

1

少林派开发板实践课程

本课程介绍了少林派的硬件电路设计和周边资源利用方法，并提供了使用深度学习硬件加速接口的教程和一些基本的深度学习示例。

“少林派”是一个基于BM1684的开发平台，拥有大约20 TOPS的计算能力。它基于Mini-PCIe接口，具有良好的硬件可扩展性，丰富的生态系统和各种可连接的外设。

可扩展性:“少林派”核心板的Mini-PCIe可转换为WiFi、4G、蓝牙、GPIO、M2接口、USB、RJ45、SATA、SFP、HDMI、can等多种接口。
多种可连接外设:“少林派”核心板可扩展各种设备，如便携式屏幕、键盘、鼠标、摄像头、耳机、VR等。用户可以在“少林派”上DIY一个全场景Linux工作站，随心所欲地进行各种深度学习实验。

课程特点:

内容丰富完整，包括开发板硬件设计、外设接口说明、开发板升级过程、样例代码脚本等。
学习路径科学合理，从开发板的介绍和基本使用开始，通过对内部系统架构和代码的学习，加深对开发细节的了解，最后引导到实际项目中，充分利用开发板，为用户自身开发提供参考。
实际项目丰富，课程提供了许多实际代码使用和功能演示的示例。通过简单地修改和组合代码，可以实现不同的功能。

代码下载链接:https://github.com/sophgo/sophpi-shaolin

注:模型转换部分可参考SE5开发系列课程。

初级 | 时长 1.6小时

少林派

BM1684

12474

0

1

RISC-V+TPU开发板实践课程

本课程介绍了“华山派”系列CV1812H开发板的硬件电路设计和外围资源的操作方法。它还提供了使用深度学习硬件加速接口的教程和一些基本的深度学习示例。

华山派(CV1812H开发板)是由TPU处理器及其生态合作伙伴共同推出的开源生态开发板。提供基于RISC-V的开源开发环境，实现基于视觉和深度学习场景的功能。该处理器集成了自主研发的第二代深度学习张量处理器(TPU)、自主研发的智能图像处理引擎(Smart ISP)、硬件级高安全数据保护架构(Security)、语音处理引擎和H.264/265智能编解码技术。它还具有匹配的多媒体软件平台和IVE硬件加速接口，使深度学习的部署和执行更加高效、快速、方便。主流的深度学习框架，如Caffe、Pytorch、ONNX、MXNet和TensorFlow (Lite)，可以很容易地移植到平台上。

课程的特点
1. 内容资料丰富完整，包括开发板硬件设计、SDK使用文档、平台开发指南、样例代码脚本等。

2. 科学合理的学习路径。课程介绍开发板和基本例程，然后深入研究系统内部架构和代码学习，了解开发细节。最后介绍了充分利用开发板的实际工程，也可以作为用户自主开发的参考。

3. 适合不同的观众。对于想要快速使用开发功能的用户，课程提供了许多代码示例供使用和功能展示，可以方便地修改和组合以实现不同的功能。对于相关行业的爱好者或开发人员，课程还提供了详细的SDK开发使用指南和代码示例分析文档，可以帮助用户深入了解。

4. 课程的长期维护。未来，我们将推出更多的开发课程，与开发者交流，共同成长。

课程内容

华山派开发板的开源代码链接:https://github.com/sophgo/sophpi-huashan.git

初级 | 时长 2.2小时

华山派

CV1812H

5450

1

智能汽车编程实践课程

智能机器人的种类很多，应用最广泛的是轮式移动机器人，主要用于室内或仓库巡逻、行星探测、教学、科研、民用交通等。在这个过程中，智能汽车通过内置摄像头(视觉传感器)获取视频信息，识别周围环境，并基于激光雷达和惯性测量单元(IMU)等传感器，在小空间内实现自主导航和避障。本课程以实用的方式引导您直观地学习机器人操作系统(ROS)，并利用少林派开发板搭建智能汽车视觉应用平台。通过对智能汽车的编程实践练习，掌握深度学习的基本知识和应用。

少林派开发板是一款高性能、低功耗的边缘计算产品，搭载了算能自主研发的第三代TPU处理器BM1684, INT8计算能力高达17.6 TOPS。它支持32路全高清视频的硬件解码和2通道编码。少林派开发板外设配置灵活，支持3个mini-PCIe接口和4个USB接口，支持直流电源和Type-C电源。根据不同场景的需求，实现最优配置、合理成本、最优能耗、最优功能选择。本课程将帮助您快速掌握少林派开发板的强大功能。通过本课程，您不仅能够掌握机器人操作系统(ROS)和深度学习的基础知识，还可以了解深度学习的基本应用。

课程的特点

1. 一站式服务

所有与KT001智能车相关的常见问题都可以在这里找到。

为KT001智能车提供全栈解决方案。
全面介绍ROS的基本概念和实际应用。
以实际应用为核心，讲解了基于OpenCV的图像处理、基于YOLOv5的目标检测、基于DeepSort的多目标跟踪、基于RetinaFace的人脸检测、基于ResNet的人脸识别等大量计算机视觉案例研究，以及基于TSM的动作识别的实现原理和方法。

2. 系统的教学

从产品介绍到环境营造，再到视觉应用。

智能汽车的组成是什么?
智能汽车是如何组装的?
环境是如何建立的?
应用程序是如何开发的?

3. 完整的材料

课程包括视频教程、文档指南、代码脚本等，内容详细丰富。

丰富的视频资料。
详细的应用指导。
清理代码脚本。
代码下载链接:https://github.com/sophgo/sophon_robot

课程目录

中级 | 时长 1.2小时

少林派

BM1684

4783

0

1

算法试验箱应用开发

课程介绍

算能SE5 计算盒是基于模组，但比模组形态的产品面向场景更加广泛的高性能、低功耗边缘计算产品，搭载算能自主研发的第三代TPU BM1684，INT8算力高达17.6TOPS，可同时处理16路高清视频，为诸多安防、泛安防、教育、金融、安检等行业项目智能运算提供算力。

SE5 计算盒是基于边缘计算的小微型服务器，基本可以支持各个行业的算法，通过完备的生态方便用户将训练好的模型移植，不光支持人脸识别算法模型，还支持数十种辅助模型，所以面向场景非常广泛。可以应用在园区、社区、商业楼宇等室内外场景，以及集成类室外半封闭场景，不需要依托X86架构服务器，充分利用其内部ARM资源，直接独立一体化开发应用。

该计算盒的算力性能高，市场竞争力强，但同样保留了一部分高精度的算力。在需要高精度算力的场景，保留了高精度优势，如动态视觉无人零售柜、智慧冰箱系统中商品识别等。SE5实际可应用场景如，作为边缘人脸服务器布置在园区，进行园区通行识别比对或园区监控；在智慧食堂进行人脸支付；在家校互联系统做学生人脸识别；在学校宿舍系统做出入管理；在餐饮系统中植入菜品识别算法进行菜品结算；替代传统安检人员识图，机器判图准确度更高、降低安检员培训成本，通行速度更快，实现智能辅助安检。可以植入的算法模型多种多样，从而实现应用场景的多样化。

本课程将对se5计算盒以及应用流程进行讲解，通过本课程你将对该试验盒有明确的了解，并熟悉将该试验盒应用到特定场景的流程。

课程特点

体系化教学：从产品介绍到环境搭建再到应用流程

Se5试验盒是什么？
应用环境如何搭建？
应用是如何开发的？

资料齐全：课程包括视频教学、文档指导、代码脚本等，详尽丰富

丰富的视频资料
详尽的应用指导
清晰的代码脚本

初级 | 时长 1.8小时

SE5

BM1684

2730

1

LLM的概念与实践

欢迎来到大模型课程!本课程将带您深入到大模型的领域，并帮助您掌握应用这些大模型的技能。无论您是对深度学习领域感兴趣，还是希望在现实世界的项目中应用大型模型，本课程都将为您提供宝贵的知识和实践经验。

大模型是指具有巨大参数和复杂结构的深度学习模型。这些模型在处理大规模数据集和复杂任务(如图像识别、自然语言处理、语音识别等)时表现得非常好。大模型的出现引发了深度学习领域的重大变化，导致各个领域的突破。

在本课程中，您将学习大模型的基本概念和原理。我们将深入研究基础理论，发展历史，常用的大模型，以及llm(大语言模型)中的提示和上下文学习等不断发展的技术。随着课程的进展，我们将深入研究大模型的实际应用。您将学习如何部署高度重视的大模型，如 Stable Diffusion和ChatGLM2-6B到SOPHON的最新一代深度学习处理器，SOPHON BM1684X。SOPHON BM1684X是SOPHON专门针对深度学习领域推出的第四代张量处理器，具有32TOPS计算能力，支持32路高清硬件解码，12路高清硬件编码，适用于深度学习、计算机视觉、高性能计算等环境。

无论您是倾向于对大模型或其工业应用进行深入的学术研究，本课程都将为您提供坚实的基础和实践技能。你准备好接受大模型的挑战了吗?让我们一起深入这个迷人的领域吧!

高级 | 时长 2.4小时

Airbox

BM1684X

9540

0

2

编译器:TPU-MLIR环境构建及使用指南

TPU-MLIR是一种专用于处理器的TPU编译器。该编译器项目提供了一个完整的工具链，可以将来自不同深度学习框架(PyTorch, ONNX, TFLite和Caffe)的各种预训练神经网络模型转换为高效的模型文件(bmodel/cvimodel)，以便在SOPHON TPU上运行。通过量化到不同精度的bmodel/cvimodel，优化了模型在sophon计算TPU上的加速和性能。这使得可以将与对象检测、语义分割和对象跟踪相关的各种模型部署到底层硬件上以实现加速。

本课程主要分为三个部分:

搭建和配置本地开发环境，了解相关的SOPHON SDK, TPU-MLIR编译器核心理论，以及相关的加速接口。
转换和量化来自ONNX, TFLite, Caffe和PyTorch的示例深度学习模型，以及将其他深度学习框架模型转换为中间ONNX格式的方法。
指导参与者实际移植四种实例算法(检测、识别、跟踪)进行编译、转换、量化，并最终部署到SOPHON 1684x张量处理器的TPU上进行性能测试。

本课程旨在通过实际演示，全面、直观地展示TPU- mlir编译器的使用方法，使学生能够快速理解各种深度学习模型算法的转换和量化，以及它们在SOPHGO计算处理器TPU上的部署测试。目前，TPU-MLIR的使用已应用于由SOPHGO开发的最新一代深度学习处理器BM168X和CV18XX，并辅以处理器的高性能ARM内核和相应的SDK，用于快速部署深度学习算法。

本课程在模型移植和部署方面的优势:

1. 支持多种深度学习框架
目前支持的框架包括PyTorch、ONNX、TFLite和Caffe。来自其他框架的模型需要转换为ONNX模型。有关将其他深度学习架构的网络模型转换为ONNX的指导，请参考ONNX官方网站:https://github.com/onnx/tutorials。

2. 用户友好的操作
通过开发手册和相关部署案例了解TPU-MLIR的原理和操作步骤，可以从头开始进行模型部署。熟悉Linux命令和模型编译量化命令对于动手实践是足够的。

3. 简化量化部署步骤
模型转换需要在SOPHGO提供的docker中执行，主要包括两个步骤:使用model_transform.py将原始模型转换为MLIR文件，使用model_deploy.py将MLIR文件转换为bmodel格式。bmodel是可以在SOPHGO TPU硬件上加速的模型文件格式。

4. 适应多种架构和硬件模式
量化的bmodel模型可以在PCIe和SOC模式下运行在TPU上进行性能测试。

5. 全面的文档
丰富的教学视频，包括详细的理论解释和实际操作，以及充足的指导和标准化的代码脚本，在课程中开放源代码，供所有用户学习。

SOPHON-SDK Development Guide	https://doc.sophgo.com/sdk-docs/v23.05.01/docs_latest_release/docs/SOPHONSDK_doc/en/html/index.html
TPU-MLIR Quick Start Manual	https://doc.sophgo.com/sdk-docs/v23.05.01/docs_latest_release/docs/tpu-mlir/quick_start/en/html/index.html
Example model repository	https://github.com/sophon-ai-algo/examples
TPU-MLIR Official Repository	https://github.com/sophgo/tpu-mlir
SOPHON-SDK Development Manual	https://doc.sophgo.com/sdk-docs/v23.05.01/docs_latest_release/docs/sophon-sail/docs/en/html/

课程目录

中级 | 时长 3.6小时

编译器

SOPHNET

15710

2

3

智能多媒体与TPU编程实践课程

多媒体，通常理解为“multi”和“media”的结合，是指文本、声音、图像、视频等媒体形式的整合。近年来，4K超高清、VR、全息投影、5G直播等新兴多媒体应用和服务层出不穷。

智能多媒体

深度学习是基于多媒体技术，如图像处理和识别、音频处理和语音识别等。本课程基于BM1684深度学习处理器，其峰值性能为17.6 TOPS INT8和2.2 TFTOPS FP32，支持32路高清硬件解码。它展示了处理器的核心能力:计算能力+多媒体处理能力。

智能多媒体关键技术与指标

关键技术包括编解码技术、图像处理技术和媒体通信技术。关键指标包括解码通道的数量、帧速率、分辨率、图像处理接口的丰富程度、延迟和协议支持。

本课程将着重介绍图像处理技术、编解码技术、媒体通信技术三个方面的内容。通过理论与实践相结合，使学生了解智能多媒体的相关理论，快速掌握基本的实践方法。

sophgo_opencv: https://github.com/sophgo/sophon_opencv

中级 | 时长 10.8小时

SE5

BM1684

18351

0

1

SOPHON职业技能认证考试-初级IT运维工程师

本课程旨在让学习者熟悉SOPHGO产品，了解其基本用法，掌握其应用场景，初步了解SOPHGO产品。本课程涵盖产品介绍、SE5服务器开发环境设置、产品部署和应用示例。完成本课程的所有内容使您有资格参加“初级IT运营工程师”认证考试。

课程的特点

材料丰富全面:课程包括视频教程、教学文档，提供详细丰富的信息。代码下载链接:https://github.com/sophon-ai-algo/examples
系统教学:从基础介绍到搭建开发环境，再到产品的实际部署，系统地涵盖了整个开发过程，为读者提供了完整的知识体系。
免费云开发资源:您可以在线申请免费使用SE5-16微服务器云测试空间:

云平台应用链接:https://account.sophgo.com/sign_in?service=https://cloud.sophgo.com&locale=zh-CN
云平台使用说明:https://cloud.sophgo.com/tpu.pdf
注:SE5-16微服务器云测试空间允许在线开发、测试，支持用户数据保留和导出;SE5-16微服务器云测试空间内的资源性能与物理机环境一致。

课程目录

本课程是一门与“初级IT运维工程师”认证考试相对应的学习课程，旨在为学习者提供基本的产品知识和技能。虽然本课程假设学习者没有编程背景，但为了让学习者更好地掌握课程内容，我们建议学生具备以下先决条件:

基本的Linux操作:大多数开发都是在Linux环境中完成的，开发涉及到基本的Linux操作，包括文件管理、网络配置、文本编辑器Vim等等。
基本的Docker用法:包括提取镜像、创建容器、运行/删除容器等。
编程语言:本课程的教程涵盖Python和c++编程语言，计算能量工具链还为这两种语言提供了api，供开发人员调用。

尽管有以上的先决条件/建议，但欢迎没有经验的学习者加入课程。本课程将采用简单易懂的教学方法，辅以例题和练习，帮助学生逐步掌握编程技能。对于没有经验的学习者，您可以通过本课程的第2章“常用命令”快速学习预要求;对于那些有开发经验的人，您可以自动跳过第2章的内容，直接通过第3章和第4章进行部署。同时，有实力学习的开发者可以尝试在设备上完成新模型的移植部署。

初级 | 时长 2.2小时

SE5

BM1684

2673

0

1

在线课堂

课堂介绍

课程概览

全部课程

课程目录

为什么选择算丰学院在线课程?

灵活控制学习进度

专业技能学习

行业标准的工具和框架

SOPHON 技术能力认证

SOPHON.NET云开发环境

行业应用案例