自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

吴建明wujianming_110117

吴建明专业博客wujianming_110117

  • 博客(171)
  • 问答 (8)
  • 收藏
  • 关注

原创 基于Jittor框架实现LSGAN图像生成对抗网络

基于Jittor框架实现LSGAN图像生成对抗网络生成对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。GAN模型由生成器(Generator)和判别器(Discriminator)两个部分组成。在训练过程中,生成器的目标就是尽量生成真实的图片去欺骗判别器。而判别器的目标就是尽量把生成器生成的图片和真实的图片分别开来。这样,生成器和判别器构成了一个动态的“博弈过程”。许多相关的研究工作表明GAN能够产生

2021-02-28 15:40:13 69

原创 Angel图算法

Angel图算法[2.0]CommonFriends计算两个好友的共同好友数,某种程度上可以刻画两个节点之间的紧密程度。输入• 输入数据路径:输入文件所在路径,无权网络数据, 数据格式为两列 srcId(long) | dstId(long), 其中|为分隔符,分隔字段表示空白符或者逗号等。• 输入文件类型:格式包括以下两种:o csv:csv 文件。 输入数据包含 header 信息。 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。o parquet:列式存储格式 parq

2021-02-28 10:18:23 38

原创 AIFramework框架Jittor特性(下)

AIFramework框架Jittor特性(下)

2021-02-28 07:26:01 54

原创 AIFramework框架Jittor特性(上)

AIFramework框架Jittor特性(上)

2021-02-28 07:14:46 36

原创 人工智能训练云燧T10

人工智能训练云燧T10基于邃思芯片打造的面向云端数据中心的人工智能训练加速产品,具有高性能、通用性强、生态开放等优势,可广泛应用于互联网、金融、教育、医疗、工业及政务等人工智能训练场景。超强算力单精度 (FP32)下算力20TFLOPS ,半精度及混合精度 (BF16/FP16) 下算力80TFLOPS 。• 模型通用支持CNN、RNN、LSTM、BERT等常用人工训练模型,可用于图像、 流数据、语音等训练场景 。• • 邃思芯片基于可编程芯片的设计理念,其计算核心包含32个通用可扩展神经元

2021-02-27 19:27:13 66

原创 云计算应用场景分析

云计算应用场景分析• 对象存储OBS在大数据分析的应用大数据分析提供高性能,高可靠,低时延,缩小的海量存储系统,与华为云的大数据服务组合使用,能够降低成本,并根据需求调整规模和提高创新速度帮助企业简单便捷的管理大数据优势• 高性能处理突发的高峰流量,无需担心扩容不及时带来问题• 低成本资源弹性伸缩,按需额定• 高可用设计规格为99.995%自由,满足业务连续性的要求• 镜像服务IMS的企业应用企业应用提供镜像导入功能,将已有的业务云镜像导入到云平台(当前支持vhd,vmdk,qc

2021-02-26 06:23:14 58

原创 昇腾全栈解决方案

昇腾全栈的解决方案

2021-02-26 06:08:27 110

原创 自动驾驶解决方案架构

自动驾驶解决方案架构自动驾驶开发平台技术架构开发自动驾驶车辆采集、传输、存储和管理海量数据。华为云提供海量的、高度扩展能力的存储和计算能力,以及Hadoop、Spark等大数据组件和AI一站式开发平台,预集成数据预处理及半自动化标注算法,用户通过平台可高效完成自动驾驶模型按需训练和仿真测试,帮助用户降低开发环境基础设施部署复杂度和成本架构优势计算和存储分离统一数据存储实现应用的多协议访问,直接在存储平台进行分析和计算,避免海量数据在存储平台和计算平台之间频繁移动,降低存储成本,提高开发效率高性

2021-02-26 05:58:08 194

原创 自动驾驶开发云平台业务分析

自动驾驶开发云平台业务分析自动驾驶车辆量产需积累大量里程经验,传统车端研发和测试方式,无法满足市场需求,业界普遍采用“云+端”研发迭代新模式,通过测试车队采集海量道路环境数据,在云端进行模型和算法开发和仿真验证,达到产品安全标准。华为基于云、边、端协同能力,提供高性能基础平台、应用平台和AI开发平台等服务,支撑用户进行数据采集、存储、处理和分析,提高模型训练速度和开发效率,助力自动驾驶业务创新业务挑战• 测试车辆采集数据量巨大,传输和管理困难自动驾驶开发需要采集海量道路环境数据,进行算法开发和模型训

2021-02-26 05:45:39 189

原创 ResNet-50模型图像分类示例

ResNet-50模型图像分类示例概述计算机视觉是当前深度学习研究最广泛、落地最成熟的技术领域,在手机拍照、智能安防、自动驾驶等场景有广泛应用。从2012年AlexNet在ImageNet比赛夺冠以来,深度学习深刻推动了计算机视觉领域的发展,当前最先进的计算机视觉算法几乎都是深度学习相关的。深度神经网络可以逐层提取图像特征,并保持局部不变性,被广泛应用于分类、检测、分割、检索、识别、提升、重建等视觉任务中。本文结合图像分类任务,介绍MindSpore如何应用于计算机视觉场景。图像分类图像分类是最基

2021-02-25 06:29:19 373

原创 图算融合优化示例

图算融合优化示例概述图算融合是MindSpore特有的网络性能优化技术。它可以通过自动分析和优化现有网络计算图逻辑,并结合目标硬件能力,对计算图进行计算化简和替代、算子拆分和融合、算子特例化编译等优化,以提升设备计算资源利用率,实现对网络性能的整体优化。相比传统优化技术,图算融合具有多算子跨边界联合优化、与算子编译跨层协同、基于Polyhedral的算子即时编译等独特优势。另外,图算融合只需要用户打开对应配置后,整个优化过程即可自动完成,不需要网络开发人员进行其它额外感知,使得用户可以聚焦网络算法实现。

2021-02-25 06:22:02 64

原创 单精度和半精度混合训练

单精度和半精度混合训练概述混合精度训练方法,通过混合使用单精度和半精度数据格式,加速深度神经网络训练的过程,同时保持了单精度训练所能达到的网络精度。混合精度训练能够加速计算过程,同时减少内存使用和存取,并使得在特定的硬件上可以训练更大的模型或batch size。对于FP16的算子,若给定的数据类型是FP32,MindSpore框架的后端会进行降精度处理。用户可以开启INFO日志,并通过搜索关键字“Reduce precision”查看降精度处理的算子。计算流程MindSpore混合精度典型的计算

2021-02-25 06:15:25 47

原创 达芬奇架构NPU

达芬奇架构NPU  达芬奇架构的核心优势是什么?如何更好地赋能麒麟990?  达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。         3D Cube  同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向

2021-02-24 06:25:31 275

原创 3D Cube计算引擎加速运算

3D Cube计算引擎加速运算华为达芬奇架构的AI芯片Ascend910,同时与之配套的新一代AI开源计算框架MindSpore。源起:为什么要做达芬奇架构?AI将作为一项通用技术极大地提高生产力,改变每个组织和每个行业。为了实现AI在多平台多场景之间的协同,华为设计达芬奇计算架构,在不同体积和功耗条件下提供强劲的AI算力。初见:达芬奇架构的核心优势达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D

2021-02-24 06:06:16 70

原创 RISC-V与DSA计算机架构

RISC-V与DSA计算机架构相信所有和计算机体系结构打过交道的朋友们都看过David Patterson与John Hennessy的煌煌巨作,《计算机体系架构:量化研究方法》。两位在计算机架构领域鼎鼎大名的教授,一个来自加州大学伯克利分校,另一个来自斯坦福。首先上场的是David Patterson,为我们带来了关于指令集架构(ISA)的回顾以及RISC-V项目的展望。(Patterson教授在演讲中)Patterson教授的演讲主题是50年来计算机体系架构(ISA为主)的回顾以及RISC-

2021-02-23 06:24:57 150

原创 开源软硬一体OpenCV AI Kit(OAK)

开源软硬一体OpenCV AI Kit(OAK)OpenCV 涵盖图像处理和计算机视觉方面的很多通用算法,是非常有力的研究工具之一,且稳居开发者最喜爱的 AI 工具/框架榜首。1、会不会被USA禁止啊?b. 不会, Myriad X 可以销售,性能稍低 (嵌入式芯片 4TOPS),被禁的是100+TOPS的芯片。2、opencv开发者要花钱用吗?b. 尽可能的降低硬件售价。 比如Azure Kinect DK只有深度功能,但是要$400。 做深度、人工智能、图像处理、无损耗的缩放、物体的追踪 一系

2021-02-23 06:01:07 123

原创 GEMM与AutoKernel算子优化

GEMM与AutoKernel算子优化随着AI技术的快速发展,深度学习在各个领域得到了广泛应用。深度学习模型能否成功在终端落地应用,满足产品需求,一个关键的指标就是神经网络模型的推理性能。一大波算法工程师为了算法的部署转岗算子优化工程师。优化代码并不是一件简单的事,要求工程师既要精通计算机体系架构,又要熟悉算法的计算流程,稍微有经验的深度学习推理优化工程师都成了各家公司争抢的“香饽饽”。需求多,算子优化自动化成为了未来的一大趋势。为了方便更多的工程师进行推理优化,一个致力于降低优化门槛,提升优化开发效

2021-02-23 05:41:00 107

原创 deeplearning搜索空间

deeplearning搜索空间搜索空间是神经网络搜索中的一个概念。搜索空间是一系列模型结构的汇集, SANAS主要是利用模拟退火的思想在搜索空间中搜索到一个比较小的模型结构或者一个精度比较高的模型结构。paddleslim.nas 提供的搜索空间根据初始模型结构构造搜索空间:MobileNetV2Space  MobileNetV2的网络结构MobileNetV1Space  MobilNetV1的网络结构ResNetSpace  ResNetSpace的网络结构根据相应模型的blo

2021-02-22 05:28:22 136

原创 deeplearning算法优化原理

deeplearning算法优化原理目录• 量化原理介绍• 剪裁原理介绍• 蒸馏原理介绍• 轻量级模型结构搜索原理介绍Quantization Aware Training量化介绍1.1 背景近年来,定点量化使用更少的比特数(如8-bit、3-bit、2-bit等)表示神经网络的权重和激活已被验证是有效的。定点量化的优点包括低内存带宽、低功耗、低计算资源占用以及低模型存储需求等。低精度定点数操作的硬件面积大小及能耗比高精度浮点数要少几个数量级。 使用定点量化可带来4倍的模型压缩、4倍的内

2021-02-22 05:28:11 107

原创 deeplearning模型库

deeplearning模型库图像分类数据集:ImageNet1000类1.1 量化分类模型Lite时延(ms)设备 模型类型 压缩策略 armv7 Thread 1 armv7 Thread 2 armv7 Thread 4 armv8 Thread 1 armv8 Thread 2 armv8 Thread 4高通835 MobileNetV1 FP32 baseline 96.1942 53.2058 32.4468 88.4955 47.95 27.5189高通835 Mobile

2021-02-22 05:27:59 110

原创 硬件delay评估表

硬件delay评估表硬件延时评估表用于快速评估一个模型在特定硬件环境和推理引擎上的推理速度。 Bw 主要用于定义PaddleSlim支持的硬件延时评估表的格式。概述硬件延时评估表中存放着所有可能的操作对应的延时信息,该表中的一个操作包括操作类型和操作参数,比如:操作类型可以是conv2d,对应的操作参数有输入特征图的大小、卷积核个数、卷积核大小等。 给定操作的延时依赖于硬件环境和推理引擎。整体格式硬件延时评估表以文件或多行字符串的形式保存。硬件延时评估表第一行保存版本信息,后续每行为一个操作和对

2021-02-21 07:05:02 71

原创 Deeplearning知识蒸馏

Deeplearning知识蒸馏mergepaddleslim.dist.merge(teacher_program, student_program, data_name_map, place, scope=fluid.global_scope(), name_prefix=‘teacher_’)merge将teacher_program融合到student_program中。在融合的program中,可以为其中合适的teacher特征图和student特征图添加蒸馏损失函数,从而达到用teache

2021-02-21 06:56:27 15

原创 deeplearning量化

deeplearning量化量化配置通过字典配置量化参数TENSORRT_OP_TYPES = [‘mul’, ‘conv2d’, ‘pool2d’, ‘depthwise_conv2d’, ‘elementwise_add’,‘leaky_relu’]TRANSFORM_PASS_OP_TYPES = [‘conv2d’, ‘depthwise_conv2d’, ‘mul’]QUANT_DEQUANT_PASS_OP_TYPES = [“pool2d”, “elementwise_add

2021-02-21 06:49:30 47

原创 卷积层通道剪裁

卷积层通道剪裁Prunerclasspaddleslim.prune.Pruner(criterion=“l1_norm”)对卷积网络的通道进行一次剪裁。剪裁一个卷积层的通道,是指剪裁该卷积层输出的通道。卷积层的权重形状为 [output_channel, input_channel, kernel_size, kernel_size] ,通过剪裁该权重的第一纬度达到剪裁输出通道数的目的。参数:• criterion - 评估一个卷积层内通道重要性所参考的指标。目前仅支持 l1_norm 。默认为

2021-02-21 06:37:34 165

原创 搜索空间参数配置

搜索空间参数配置通过参数配置搜索空间。参数:• input_size(int|None):- input_size 表示输入 feature map 的大小。 input_size 和 output_size 用来计算整个模型结构中下采样次数。• output_size(int|None):- output_size 表示输出feature map的大小。 input_size 和 output_size 用来计算整个模型结构中下采样次数。• block_num(int|None):- block

2021-02-21 06:30:29 48

原创 deeplearning模型分析

deeplearning模型分析FLOPspaddleslim.analysis.flops(program, detail=False)获得指定网络的浮点运算次数(FLOPs)。参数:• program(paddle.fluid.Program) - 待分析的目标网络。更多关于Program的介绍请参考:Program概念介绍。• detail(bool) - 是否返回每个卷积层的FLOPs。默认为False。• only_conv(bool) - 如果设置为True,则仅计算卷积层和全连接

2021-02-21 06:17:02 90

原创 NVIDIA GPU的快速傅立叶变换

NVIDIA GPU的快速傅立叶变换cuFFT库提供GPU加速的FFT实现,其执行速度比仅CPU的替代方案快10倍。cuFFT用于构建跨学科的商业和研究应用程序,例如深度学习,计算机视觉,计算物理,分子动力学,量子化学以及地震和医学成像。使用cuFFT,应用程序会自动受益于常规性能的改进和新的GPU架构。cuFFT库包含在NVIDIA HPC SDK和CUDA Toolkit中。cuFFT设备扩展cuFFT设备扩展(cuFFTDx)允许应用程序将FFT内联到用户内核中。与cuFFT主机API相比,这极

2021-02-21 05:37:19 132

原创 nvJPEG库

nvJPEG库GPU加速的JPEG解码器,编码器和代码转换器nvJPEG库是高性能的GPU加速库,用于解码,编码和转码JPEG格式的图像。nvJPEG2000库用于解码JPEG 2000格式的图像。与仅CPU解码相比,依赖nvJPEG或nvJPEG2000进行解码的应用程序,可提供更高的吞吐量和更低的延迟。nvJPEGnvJPEG库为计算机视觉应用中使用的常见JPEG格式(例如图像分类,对象检测和图像分割)提供低延迟解码,编码和转码。nvJPEG主要功能• 同时使用CPU和GPU的混合解码•

2021-02-21 05:36:53 109

原创 GPU上的图像和信号处理

GPU上的图像和信号处理NVIDIA Performance Primitives(NPP)库提供GPU加速的图像,视频和信号处理功能,其执行速度比仅CPU实施快30倍。拥有5000多个用于图像和信号处理的原语,可以轻松执行诸如颜色转换,图像压缩,过滤,阈值处理和图像处理之类的任务。NPP库优化了可用计算资源的使用,因此您的应用程序可在数据中心,工作站和嵌入式平台上实现最佳性能。如今,NPP已被从事自动驾驶汽车,医学成像,机器人技术和HPC的图像处理,信号处理和计算机视觉应用的工程师,科学家和研究人员广

2021-02-21 05:36:15 138

原创 GPU加速库AmgX

GPU加速库AmgXAmgX提供了一条简单的途径来加速NVIDIA GPU上的核心求解器技术。AmgX可以为模拟的计算密集型线性求解器部分提供高达10倍的加速度,特别适合于隐式非结构化方法。它是一个高性能,最新的库,并包括灵活的求解器组合系统,使用户可以轻松构造复杂的嵌套求解器和预处理器。查看以下案例研究和白皮书:• AmgX:工业应用的多网格加速线性求解器• AmgX V1.0:使用经典AMG启用储层模拟• AmgX:一个用于GPU加速的代数多重网格和预处理迭代方法的库立即开始使用AmgX

2021-02-21 05:35:56 160

原创 NVIDIA GPU上的Tensor线性代数

NVIDIA GPU上的Tensor线性代数cuTENSOR库是同类中第一个GPU加速的张量线性代数库,提供张量收缩,归约和逐元素运算。cuTENSOR用于加速在深度学习训练和推理,计算机视觉,量子化学和计算物理领域的应用。使用cuTENSOR,应用程序会自动受益于常规性能的改进和新的GPU架构。cutensor性能cuTENSOR库针对NVIDIA GPU的性能进行了高度优化。最新版本增加了对DMMA和TF32的支持。cuTENSOR的主要功能• 张量收缩,缩小和元素运算• 混合精度支持•

2021-02-20 08:12:16 47 1

原创 CUDA数学库

CUDA数学库高性能数学例程CUDA数学库是经过行业验证的,高度准确的标准数学函数的集合。只需在源代码中添加“ #include math.h”,即可用于任何CUDA C或CUDA C ++应用程序,CUDA Math库可确保应用程序受益于针对每种NVIDIA GPU架构进行了优化的高性能数学例程。数字密集型GPU加速的应用程序和库,包括NVIDIA提供的所有CUDA库,都依靠CUDA Math库来提供突破性的结果。主要特点• 完全支持所有C99标准浮点和双数学功能• IEEE-754对浮点,双

2021-02-20 08:07:26 58 1

原创 NVIDIA GPU上的随机数生成

NVIDIA GPU上的随机数生成NVIDIA CUDA随机数生成库(cuRAND)提供高性能的GPU加速的随机数生成(RNG)。cuRAND库使用NVIDIA GPU中提供的数百个处理器内核,将质量随机数提高了8倍。cuRAND库包含在NVIDIA HPC SDK和CUDA Toolkit中。cuRAND性能cuRAND还提供两个灵活的接口,使您可以从CPU上运行的主机代码或GPU上运行的CUDA函数/内核中批量生成随机数。多种RNG算法和分发选项意味着可以根据需要选择最佳解决方案。cuRAND主

2021-02-20 08:01:57 85

原创 NVIDIA GPU上的直接线性求解器

NVIDIA GPU上的直接线性求解器NVIDIA cuSOLVER库提供了密集且稀疏的直接线性求解器和本征求解器的集合,它们为计算机视觉,CFD,计算化学和线性优化应用程序提供了显着的加速。cuSOLVER库包含在NVIDIA HPC SDK和CUDA Toolkit中。cuSOLVER性能cuSOLVER 11自动利用DMMA Tensor Core。DGX A100比DGX-2快2倍以上,这要归功于A100以及第三代NVLINK和NVSWITCH,GPU数量只有一半。cuSOLVER的主要功能

2021-02-20 07:48:05 49

原创 GPU上稀疏矩阵的基本线性代数

GPU上稀疏矩阵的基本线性代数cuSPARSE库为稀疏矩阵提供了GPU加速的基本线性代数子例程,这些子例程的执行速度明显快于仅CPU替代方法。提供了可用于构建GPU加速求解器的功能。cuSPARSE被从事机器学习,计算流体力学,地震勘探和计算科学等应用的工程师和科学家广泛使用。使用cuSPARSE,应用程序会自动受益于常规性能的改进和新的GPU架构。cuSPARSE库包含在NVIDIA HPC SDK和CUDA Toolkit中。cuSPARSE性能cuSPARSE库针对NVIDIA GPU的性能进行

2021-02-20 07:41:04 73

原创 GPU上的基本线性代数

GPU上的基本线性代数cuBLAS库提供了基本线性代数子例程(BLAS)的GPU加速实现。cuBLAS通过针对NVIDIA GPU进行了高度优化的嵌入式行业标准BLAS API来加速AI和HPC应用程序。cuBLAS库包含用于批处理操作,跨多个GPU的执行以及混合和低精度执行的扩展。使用cuBLAS,应用程序会自动受益于常规性能的改进和新的GPU架构。cuBLAS库包含在NVIDIA HPC SDK和CUDA Toolkit中。cuBLAS多GPU扩展cuBLASMg提供了最新的多GPU矩阵矩阵乘法,

2021-02-20 07:30:28 47 1

原创 NVIDIA数据中心深度学习产品性能

NVIDIA数据中心深度学习产品性能在现实世界的应用程序中部署AI,需要训练网络以指定的精度融合。这是测试AI系统的最佳方法-准备将其部署在现场,因为网络随后可以提供有意义的结果(例如,对视频流正确执行图像识别)。不收敛的训练是对指定AI网络上硬件吞吐能力的衡量,但不能代表实际应用。NVIDIA的完整解决方案堆栈,从GPU到库,再到NVIDIA GPU Cloud(NGC)上的容器,都使数据科学家可以通过深度学习快速启动并运行。NVIDIA®A100 Tensor Core GPU在各种规模上都提供了前

2021-02-20 07:04:55 103

原创 GeforceRTX系列参数对比

GeforceRTX系列参数对比

2021-02-20 06:24:51 21

原创 NVIDIA CUDA-X AI

NVIDIA CUDA-X AI面向数据科学和 AI 的 NVIDIA GPU 加速库数据科学是推动 AI 发展的关键力量之一,而 AI 能够改变各行各业。 但是,驾驭 AI 的力量是一个复杂挑战。 开发基于 AI 的应用程序涉及许多个步骤(包括数据处理、特征工程、机器学习、验证和部署),而且每个步骤都要处理大量数据和执行大规模的计算操作。 这需要使用加速计算技术,而 CUDA-X AI 正是在这方面推动变革。帮助现代 AI 应用程序加速运行数据科学工作流程从开始到结束都需要强大的计算能力。CUDA

2021-02-20 06:14:32 57

原创 NVIDIA 认证系统

NVIDIA 认证系统AI 是这个时代最强大的技术,需要新一代经过调整和测试的计算机来推动其发展。自 1 月 27 日开始,可从 NVIDIA 合作伙伴处获取用于数据中心的新型加速服务器,推动 AI 和数据分析的发展。顶尖的系统制造商正在交付首批 NVIDIA 认证系统,目前业内唯一通过现代工作负载测试的服务器。得益于使用 NVIDIA Mellanox 网络连接的 NVIDIA 最新 GPU ,这些系统能够为 AI 提速。它们能够加快机器学习的速度,从不断增长的企业数据堆中挖掘洞察,寻找传统系统遗漏

2021-02-20 06:04:49 103

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除