同期论坛
Forum 1: 第四届全国硬件安全论坛
主 办 方: | CCF容错专委 | |
会 议 时 间: | 2019年8月15日, 13:30-17:40 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
张吉良(湖南大学,zhangjiliang@hnu.edu.cn) |
程序主席: | 沈海华(中国科学院大学,shenhh@ucas.ac.cn) | |
论 坛 介 绍: | 集成电路是构建安全信息系统的基石,在日常生活、军事安全等领域广泛应用,从民用智能电器到军方武器系统,小到手机、优盘,大到卫星、飞船,概莫能外。同时,集成电路还是程序与数据的载体,如果集成电路存在安全隐患,其运行的软件、存储的数据及其关联的一切,便再无安全可言。本届论坛的主题“人工智能与硬件安全”。本届论坛将继续邀请来自产业界与学术界的顶级团队分享其在硬件安全领域的最新研究成果,探讨从硬件到系统安全的产业需求与解决方案。 | |
论 坛 日 程 | ||
13:30-13:35 | 开场:全国硬件安全论坛介绍 张吉良 | |
13:35-14:05 |
报告1:CPU芯片硬件安全问题系统解决方案 |
|
报告摘要:CPU安全是软件安全、系统安全乃至网络安全的根基。如何确保CPU芯片的硬件安全一直是学术界和产业界长期以来都难以解决的问题。2018年初大量出现的熔断、幽灵等CPU安全漏洞和至今难以解决的后续影响就印证了这一困境。清华大学提出的“CPU硬件安全动态监测管控技术”能有效应对CPU硬件漏洞、木马、后门等的威胁,大幅提升CPU芯片的硬件安全性。该技术能在CPU运行过程中快速检测出由于遭受恶意硬件攻击或由于硬件漏洞、后门、前门被非法利用而引起的非预期行为。在此基础上,再根据用户需要对CPU芯片进行管控。目前,“CPU硬件安全动态监测管控技术”已应用于上海澜起科技的Jintide® CPU产品,联想、新华三和长城电脑等基于该CPU的服务器也即将上市。
演讲嘉宾:刘雷波1999年和2004年分别在清华电子工程系和微电子所获得学士和博士学位随后留校任教;2006年、2013年和2017年分别在欧洲微电子中心、麻省理工学院和牛津大学访问,现为清华大学微电子所长聘教授,同时担任清华大学硬件安全和密码芯片实验室主任、清华大学移动计算研究中心副主任。研究方向集中在硬件安全与密码芯片、动态可重构芯片、VLSI数字信号处理等领域。已发表论文200余篇、授权专利60余项、撰写著作5部、参与制定安全芯片国家标准1项(GB/T 36630.2-2018)。关键技术在信息安全芯片、可编程器件和可穿戴计算芯片等领域取得批量应用。获国家技术发明二等奖、中国专利金奖、教育部技术发明一等奖、第五届世界互联网大会15 项世界互联网领先科技成果等奖项。 |
||
14:05-14:35 |
报告2:基于忆阻器的硬件安全研究 |
|
内容摘要:随着智能硬件的广泛普及,半导体供应链安全威胁不断增加,仅基于软件的安全防护已经不能满足需求。近年来,物理不可克隆函数(PUF)成为一种新的硬件安全防护手段,其拥有的真随机与不可克隆特性可使其作为芯片“指纹”以保证半导体供应链安全。作为一种新型存储器,阻变存储器(RRAM)导电细丝的生长/断裂具有本征随机性,进而使RRAM拥有器件与器件、循环与循环之间的电阻随机性。以上特性使其在物理不可克隆函数领域有很好的发展潜力,而如何有效优化、利用并提取其随机性已成为该领域研究的重点与难点问题。
|
||
14:35-15:05 |
报告3:龙芯处理器的硬件安全机制设计 |
|
内容摘要:本报告首先简要介绍龙芯3处理器的微结构设计,然后重点介绍龙芯3A4000处理器为提升系统安全性所引入的各种安全硬件设计,包括对Meltdown、Spectre等漏洞的处理、密码相关的专用指令、特殊硬件支持和内置可信处理核等,最后简单介绍其系统应用情况。
演讲嘉宾:张福新,博士,男,福建永定人,1976年6月生,中国科学院计算技术研究所研究员、硕士生导师。张福新长期致力于国产CPU芯片的研发和推广工作。他是我国龙芯一号、龙芯二号自主CPU的主要设计人员之一。2005到2018年负责江苏龙芯产业化基地相关工作,率领团队研发了数十款龙芯产品,并在党政军、教育等领域进行了大量产业化实践。曾先后主持承担多个重要科研课题,包括江苏省科技成果转化专项资金重大项目、国家科技部863重点项目、发改委工业项目和国务院“核高基”重大专项等。曾荣获江苏省十大杰出青年、江苏省首届高层次创新创业引进人才、中科院第九届杰出青年、国务院特殊津贴专家和中国青年五四奖章等荣誉。 |
||
15:05-15:35 |
报告4:新形势下计算机安全标准与工程实践 |
|
内容摘要:结合网络安全等级保护制度2.0国家标准和计算机芯片发展形势,提出了计算机核心芯片研制思路,探索了计算机可信安全与工程实践。
演讲嘉宾:冯志华,西北工业大学博士,研究员,电子科技大学电子工程学院,西安电子科技大学计算机学院兼职硕士研究生导师,航天二院研究生院研究生导师,现航天科工集团计算机及软件专业组、集成电路芯片及系统成员,二院专业技术带头人,某重大专项工程软件专家组成员,作为项目负责人,近十年来,先后承担十余项重点科研项目,主要从事计嵌入式系统软硬件安全与检测,培养毕业研究生11名,发表文章30余篇。 |
||
15:35-15:50 | 茶歇 | |
15:50-16:20 | 报告5:可配置PUF及其抗模型攻击协议 | |
内容摘要:物理不可克隆函数(PUF)作为一种新兴的硬件安全组件,由于其硬件成本低、运算速度快,在物联网终端设备上具有广泛的应用前景。本报告主要包括两个方面的内容,一方面介绍一系列逻辑可配置PUF的电路结构,这种类型的PUF可以通过逻辑可配置实现在同样硬件资源下获得更多激励响应对,达到更好的硬件效率。另一方面针对目前PUF面临的模型攻击挑战,提出了一种抗机器学习攻击的欺骗协议,可以有效对抗现有的模型攻击方法。
|
||
16:20-16:35 | 特邀企业报告:防控金融风险,建设全面的金融安全科技生态体系 ----北京金融安全产业园介绍 |
|
内容摘要:北京金融安全产业园是北京市政府致力于防控金融风险,打造金融、科技、安全生态,于2015年6月授牌成立的实体园区。产业园是国务院批复的北京市服务业扩大开放试点单位、是全国科技创新中心重点项目承接单位、是中国人民银行金融科技试点承接单位。目前年产值100亿,年纳税超过5亿,与产业园签约的金融科技企业超330家,基本覆盖了底层技术研发、理论研究、解决方案、金融服务、安全等金融科技生态体系中的重要节点。产业园已经引进中互金、国家互联网应急中心等权威行业机构,希望充分发挥科研院所与企业创新的聚集放大效应,欢迎数据、网络、信息、系统等安全方向的领导专家支持合作。
|
||
16:35-17:40 |
Panel:自主可控与硬件安全 |
|
主持:沈海华(中国科学院大学) 嘉宾:冯志华(航天二院)、刘雷波(清华大学)、吴华强(清华大学)、张福新(中科院计算所)、屈刚(马里兰大学)、徐强(香港中文大学)(按姓氏笔画排序)
近年来,美国等发达国家对我国基础硬件领域的威胁和封锁日趋严重,国内重点工程及关键领域核心芯片逐步转向自主可控;另一方面,国际上发现的硬件相关的安全隐患和漏洞越来越多,芯片安全受到严重威胁。本期panel的主题是自主可控与硬件安全----自主可控的芯片与进口芯片相比是否更安全?从哪些方面改进可以使得自主可控的芯片更安全?围绕这个论题欢迎各位专家深入讨论、畅所欲言。 |
Forum 2: 第三届安全关键软件测试技术论坛
论 坛 主 题: | 自主可控与智能化 | |
会 议 时 间: | 8月15日下午、16日下午 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
计算机学会容错计算专委会副主任 陆军工程大学教授 黄松 |
论坛秘书: | 陆军工程大学博士后 惠战伟 | |
论坛历史简介: | 软件测试一直被公认为是提高和评价软件质量的重要技术和工程手段。以军事领域为代表的安全关键软件系统的测试是进行软件质量评价和鉴定的重要依据,也是提高软件质量的重要途径。国内以高校为主的软件测试技术研究团队、以BAT和华为为代表的互联网巨头往往更加关注敏捷测试等面向一般软件的测试技术研究与实践,对于安全关键软件采用的传统测试模式、第三方测试、定型测试技术关注甚少,导致该领域软件测试技术与实践脱节,直接制约了该领域软件测试技术的提升。基于此,由陆军工程大学黄松教授于2017年发起了第一届安全关键软件测试技术论坛,旨在分析军用及安全关键软件测试领域存在的共性技术问题,探讨工程实践的解决方案以及相应的学术问题,力求在学术界和企业界之间搭建一个高水平的交流平台。 2017年,第一届论坛在南京举行,参会人数达到80余人,论坛获得了与会专家的广泛好评。2018年,第二届论坛在哈尔冰举行,参会人数突破100人,论坛在业界取得了强烈反响。 2019年,第三届论坛将在北京九华山庄举行,预计参会人数将突破150人。 本届论坛拟邀请14位关键软件测评机构的权威专家与工业界展开专题研讨,共同关注安全关键软件测试在自主可控和智能化方面面临的挑战、核心技术,以及当前的研究和应用热点。结合当前业界讨论的热点问题,论坛组织2个主题的Panel讨论。 |
|
专家指导委员会: |
由于论坛参会人数的逐年上升,在安全关键软件测试领域的影响力越来越大,为了更好的开展技术交流,继续提升论坛的技术水平,论坛于今年开始设置专家指导委员会。拟通过邀请和本人自愿的原则,聘请业内有影响力的学术界和企业界技术专家组成,计划于论坛现场颁发指导委员会专家聘书,主要职责包括:
1、 讨论并制定论坛主题,自荐或者推荐演讲嘉宾;
2、 现场对每个报告进行打分,评选最佳讲者(论坛设置了重奖);
3、 讨论并确定论坛其他重要事宜。
|
|
论坛演讲嘉宾:(持续更新中……) |
1. 软件众测的挑战和支撑技术:自动化、智能化、效益化(中科院软件所 王青 副总师/研究员)
2. 题目待定 (香港城市大学 ricky chan 教授)
3. 题目待定 (陆军工程大学 黄松 教授)
4. 智能软件系统的数据驱动测试(南京大学 陈振宇 教授)
5. 题目待定 (颜运强 中物院计算所软件测试中心 主任/研究员)
6. 代码仓库和持续集成在快速迭代开发中的应用(南京邮电大学 张卫丰 教授)
7. 基于知识的软件智能分析验证技术 (北京航空航天大学 刘畅 博士/高工)
8. 信息系统软件持续集成代码自动化检测效能与实践 (中电28所软件测评中心 杨玲萍 研究员)
9. 面向DevSecOps的代码安全检测技术 (北京关键科技股份有限公司 林鹏 科研事务系统技术总监)
10. 基于GJB-9433的FPGA自动化测试平台的技术探讨 (上海迪真计算机科技公司技术 徐小艾 技术总监)
|
Forum 3: 第二届存储容错与存储计算论坛
主 办 方: | CCF容错专委 | |
会 议 时 间: | 2019年8月16日, 13:30-17:30 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
石亮(华东师范大学,lshi@cs.ecnu.edu.cn) |
论 坛 介 绍: | 存储技术,包括闪存存储技术,新型存储技术已经被广泛应用于各类计算系统。最近闪存中开始采用近似存储、近数据存储以及新型存储,如MRAM,ReRAM等开始采用存储计算技术实现性能、可靠性等多个角度的大幅度提升。本论坛中,我们邀请了领域内的专家学者展开存储容错与存储计算论坛,旨在讨论多种类型的存储在近似、近数据以及存内计算的特点和差异,从而为未来存储技术的设计提供重要思路。本论坛我们邀请到了华为技术有限公司、北京航天航空大学、山东大学、东南大学、以及计算所等的多位专家学者展开技术交流。欢迎各位参加。 | |
论 坛 日 程 | ||
13:30-13:35 | 开场:存储容错与计算论坛介绍 石亮 | |
主持:石亮,华东师范大学 | ||
13:35-14:00 |
报告1:3D NAND大容量存储器新型错误编码机制 |
|
报告摘要:随着大数据和人工智能等新兴技术的兴起,需要存储分析的信息正在爆炸式地增长。为克服器件尺寸缩小所面临的物理极限,继续提高集成密度,三维立体闪存存储器(3D NAND)将取代二维平面闪存存储器(2D NAND)成为未来十几年大容量非挥发存储器的主流产品形态。相对于平面架构,3D NAND可以提供更大的存储密度,更低的产品成本和更高的可靠性特性。然而,由于3D NAND的特殊单元结构和制备工艺,其可靠性问题与2D NAND有很大不同。本报告将基于3D NAND大容量存储器特有的可靠性物理机制来深入探讨Raw NAND可靠性评测所观测到的新型编码错误。
演讲嘉宾:陈杰智教授 IEEE高级会员, 2009年博士毕业于东京大学,2010年入职日本东芝研发中心,从事纳米器件、闪存存储器、以及SSD固态硬盘的研究,于2016年到山东大学任教。目前其主要研究方向包括:非挥发性存储器可靠性机制,纳米器件可靠性物理、新型存储材料与集成、以及云存储芯片指纹的设计。其主要学术成果于2008-2019间十余次在微电子领域顶级国际权威器件研究会议IEDM和VLSI Technology做报告,并已经获得二十项美国专利授权和日本专利授权。为IEEE IEDM国际电子器件会议技术委员,IEEE SNW硅纳电子器件会议技术委员,IEEE IRPS国际可靠性物理会议技术委员,以及IWDTF国际电子器件薄膜介质会议技术委员。 |
||
14:00-14:25 |
报告2:NAND Flash存储可靠性研究与实践 |
|
内容摘要:基于NAND Flash的固态存储因其具有存储容量大、读写速率快和抗震性好等优势得到了广泛的应用,但是由于其自身工艺等问题存在着严重的存储可靠性问题,尤其是在3D闪存中这些问题显得更加突出。本报告将从NAND Flash物理芯片的实际试验出发,研究NAND Flash的存储可靠性问题,并基于长期积累的实验数据研究存储数据可靠性建模方法。此外,报告还将简单介绍军用自动测试系统中高速大容量存储设备的研制情况。
|
||
14:25-14:50 |
报告3:认知存储器(Cognitive SSD) |
|
内容摘要:一种近数据深度学习系统 摘要:数据的爆炸式增长对存储系统的容量,性能等要求不断提高,也使得快速定位目标数据,以及高效地从大规模存储数据中分析提取关键信息成为目前的迫切需求。然而,在传统的以计算为中心的体系结构中,数据请求在下发到底层存储之前,需要经过系统复杂且冗长的I/O软件栈,并穿越缓存,I/O 接口,DRAM,以及多级Cache,才能到达数据处理单元,数据搬运所造成的性能与功耗开销已成为提高数据处理系统性能亟需解决的障碍,因此如何利用近数据计算技术(Near Data Processing)提升存储系统能效成为新一代的研究热点。 目前,深度学习在各个领域的突破使得深度学习芯片大放异彩,然而,目前深度学习芯片部署在以计算为中心的结构中无法解决冗长的数据搬运路径和软件栈导致的问题。因此,我们提出了基于固态硬盘的Cognitive SSD系统,通过利用近数据深度学习加速技术(Near Data Deep Learning,NDDL),将深度学习处理器嵌入到存储设备中,设计了认知存储系统的控制与访问接口,并实现了集成低功耗深度学习加速器的认知存储主控芯片,使得计算单元能够直接从存储介质中获取数据,缩短数据的传输路径,减少数据的迁移次数。同时,通过优化存储内部数据布局,该系统可以充分利用存储内部带宽来满足深度学习处理器的带宽要求。另一方面,该系统可以独立响应数据分析处理请求,简化了上层软件栈,降低了系统的功耗,提高了数据处理系统的性能。目前,该系统可以用于为高能效数据中心乃至边缘计算设备提供高能效的图像/视频检索,文件分类,数据格式转换等功能解决方案。
演讲嘉宾:王颖博士,中科院计算所副研究员,硕导,中国科学院大学获得计算机体系结构博士学位。主要研究方向包括集成电路设计自动化,容错体系结构,物端人工智能系统,高能效芯片片设计与存储系统设计。共发表30余包含IEEE TCAD,TPDS,TVLSI等在内的SCI论文,以及60余篇包含DAC, ICCAD,DATE,ATC等在内的重要集成电路与计算机系统结构领域国际会议论文。王颖博士曾于2017年入选中国科协青年人才托举计划,并于同年获得Intel-CCF青年学者奖。2016年获得IEEE Rebooting LPIRC低功耗图像识别赛冠军,以及2018年DAC SDC图像识别挑战赛一项冠军。此外,他还担任多个国际期刊如IEEE TVLSI, TCAD, TC等期刊审稿人,以及多个国际会议的程序委员会委员。 |
||
14:50-15:15 |
主持:陈杰智,山东大学 |
|
报告4:自旋存储:从存储到存内计算 | ||
内容摘要:自旋存储被认为是后摩尔时代最有希望解决漏电问题的非易失性存储器之一。到目前为止,自旋存储已经发展了四代,从toggle-mram(2006年的产品),到stt-mram(2012年的产品),到she-mram(今天的强化R&D),再到vcma-mram(今天的强化R&D)。从场控制到电流控制再到电压控制装置的趋势,使得内存本身的能源效率更高,因为欧姆损失或焦耳热的显著减少。与此同时,新的自旋存储形式正在出现,例如,用超高密度的赛道存储代替硬盘或固态硬盘。另一方面,从体系结构的角度来看,由于处理器和内存单元的分离以及两者之间的性能不匹配,数据传输带宽和相关的功耗已经成为NVM计算体系结构中最关键的瓶颈。实现同一芯片中计算与存储的统一,为内存计算的研究开辟了一个有前景的方向。自旋存储器由于其固有的处理能力,可能是实现内存计算的一种有前景的技术。这一领域吸引了许多研究者的兴趣,他们作出了一些尝试。在这篇演讲中,我将回顾自旋记忆的r&d进化:从记忆到内存计算。特别是,我将回答为什么是内存计算和自旋存储。我还将从学术和工业的角度介绍主流的自旋计算记忆范式。
演讲嘉宾:康旺博士于2014年在法国巴黎大学获得物理学双学位,在北航获得微电子学双学位。从2015年到2017年,他在北航做计算机工程博士后。自2018年起,他一直是北航微电子学院的副教授。他的研究兴趣包括自旋电子学及其相关设备、电路和体系结构设计。他现在专注于自旋存储和斯格明子的计算。他曾撰写或与人合作撰写过2本书的章节、25项中国专利和80多篇科学论文,其中包括Proc. IEEE, IEEE Trans. Computers, IEEE Trans. Circ. Syst. I: Reg. Papers, IEEE Trans. Electron Devices., IEEE Electron Devices Lett., IEEE Trans等。他是微电子杂志的客座编辑。 |
||
15:10-15:35 | 报告5:高能效FPGA片上存储架构设计及资源管理方法研究 | |
内容摘要:随着FPGA在大数据处理及机器学习等访存密集应用领域的广泛使用,设计高能效的FPGA片上存储架构及资源管理方法成为相关领域的热点研究问题之一。目前FPGA芯片多依靠基于SRAM器件的片上可配置BRAM减缓FPGA计算速度与主存访问速度之间的内存墙问题。然而,受摩尔定律放缓的制约,增加BRAM容量以满足应用对访存带宽指数级增长的需求变得越来越困难。另一方面,现有的FPGA开发工具链多依赖程序设计人员对BRAM资源进行管理,在增加开发成本的同时,往往无法达到资源的充分利用。针对上述问题,本报告首先探讨了一种基于非易失性存储器件的动态可配置FPGA BRAM架构及对应的EDA设计与管理策略。在此基础上,我们进一步研究了针对CPU-FPGA片上异构多处理器架构,在FPGA高级综合(High-level synthesis, HLS)过程中,通过自动化数据布局策略对FPGA数据访存达到多存储空间的协同优化,以实现对存储资源的高能效利用。在上述初步研究成果的基础上,本报告将对相关领域可能的下一步研究工作展开探讨。
|
||
15:35-15:50 | 茶歇 | |
15:50-16:15 |
报告6:低电压MRAM存储芯片关键电路设计 |
|
内容摘要:MRAM对未来的信息存储处理技术产生了革命性的影响。在先进工艺节点构成的MRAM电路中,通过降低供电电压来片面追求极低功耗会导致电路性能急剧下降,异质集成下工艺-电压-温度(PVT)的偏差会导致MRAM读写性能摆动严重,进而引起写入与读取失效率的增加。当前MRAM也受写入速度的制约,如何提高写入能效亟待解决。报告将讨论MRAM关键电路设计方法用于缓解上述问题。
演讲嘉宾:蔡浩,东南大学国家ASIC工程中心副教授,博士毕业于法国巴黎高科电信学院,2011年至2017年间,参加欧盟科技署项目欧盟尤里卡计划(Catrene-Eureka),参与法国科研署(ANR)国家项目一项,意法半导体纳米2017专项等科研计划。目前研究方向为新型存储与器件的混合集成电路设计,负责国家重点研发计划子课题一项。 |
||
16:15-17:30 |
Panel:通过各位专家收集到的热点问题展开讨论 重点围绕大家关心的两个问题:1 存储介质的可靠性问题和存储介质的计算。 |
|
主持:康旺(北京航空航天大学)和陈杰智(山东大学) |
Forum 4: 海量计算和存储可靠性论坛
会 议 时 间: | 2019年8月16日, 13:30-17:30 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
王式文(阿里巴巴,shengqing.wsw @alibaba-inc.com) |
论 坛 介 绍: | 云计算产业自诞生以来一直保持迅猛的发展势头,并成为整个社会的基础服务。作为社会的基础服务,提升云计算的稳定性至关重要。可靠性技术在不断的发展,面对海量计算和存储,如何有效、可实施的提升稳定性将是核心话题。本论坛中,我们邀请领域内的专家学者和企业技术专家共聚一堂,探索海量计算和存储可靠性技术,针对产业界的可靠性现状和技术实践,结合学术界的创新性思维和技术,探索软硬件一体化的可靠性技术解决方案。欢迎各位参加。 | |
论 坛 日 程 | ||
13:25-13:30 | 开场:海量计算和存储可靠性论坛介绍 王式文 | |
13:30-14:00 | 报告1:基于开源软件的云计算平台可信赖计算技术与实践 | |
报告摘要:随着信息技术的广泛应用,集成电路、计算机、网络和软件的可信赖性(dependability)变得越来越重要。云计算平台包含大量的虚拟设备资源,其配置一般取决于其上部署的应用。因此,确保虚拟设备资源的高可信赖性,将为高可信赖云服务提供坚强保障。相对本地计算资源而言,尽管云计算平台的可信赖性得到了提升,但从总体上看,特别是对于基于开源软件所构建的云计算平台而言,与应用的可信赖性需求的增长趋势相比,仍有很多难题需要去解决。本报告围绕基于开源软件的云计算平台,介绍云计算平台可信赖计算技术发展现状、基于日志的故障诊断、分布式多层次检查点系统、基于失效预测的软件重构、可信赖计算机制的验证等可信赖计算技术的研究和实践进展,并讨论当前和未来所面临的技术挑战和机遇。
|
||
14:00-14:30 | 报告2:大规模下高稳定性基础云服务器的系统体系建设 | |
内容摘要:系统稳定性是各个IT系统的核心指标。 整个IT届投入大量的人力物力,建立了各种各样的测试方法论,软件设计方法论,各种流程保障等,来提升系统的稳定性。 在当前的核心系统中,大量使用了分布式软件设计,两地三中心来提升系统稳定性。本文将从基础服务(IAAS)层的视角,讲讲我们怎样系统化的提升底层基础服务的稳定性。通过系统化的设计,故障预测,发现和动态规避,来在x86服务器上提供10倍于硬件稳定性的 云上IAAS服务。
|
||
14:30-15:00 | 报告3:基于深度学习的海量服务器存储系统的故障预测 | |
内容摘要:磁盘和内存故障已经是引起服务器宕机的首害。一种积极的措施是根据运行时的系统监控日志进行故障预测,并对高风险磁盘进行隔离与数据备份。监控日志中的静态数据,时间序列数据都可能蕴含存储硬件异常行为特征和信息。然而,若要引入机器学习(或深度学习)来进行故障预测,仍需克服一系列挑战。首先,大规模分布式集群中会使用多种存储产品,产品的差异性导致了训练数据有严重的一致性问题;其次,我们尚缺乏能对这类静态特征、时间序列数据进行有效学习的模型,时域上的噪声会严重影响预测故障时间的准确性;最后,在历史系统日志中,异常/故障样本相比于正常样本极少,这种不平衡极大影响了学习过程。不但会讨论这些问题,而且也提出了一些可行的解决方法。
|
||
15:00-15:30 | 报告4:云计算大规模服务器硬件可靠性保障 | |
内容摘要:云计算走向社会基础服务,形成规划化是必然的趋势。服务器作为云计算的硬件载体,由CPU、内存、硬盘、主板等各个部件组成,是电子器件的集成体。和软件不同的是,随着时间推移,受器件寿命限制和器件失效,硬件存在失效和故障。在云计算规模效应下,硬件可靠性成为严峻挑战,如何保障服务器硬件的可靠性,是一个复杂的系统性工程。本报告将介绍在规模云计算,服务器硬件可靠性的技术思考、实践和探索。
|
||
15:30-15:50 | 茶歇 | |
15:50-16:20 | 报告5:大规模数据中心硬盘故障预测分析 | |
内容摘要:随着云计算技术及应用的规模化普及,大规模数据中心设备问题和故障发生成为了一种不可避免的常态。硬盘等存储设备,作为最主要的服务器核心部件之一,由于数量巨大且应用频繁,经常会出现不同程度的问题和故障,从而影响云计算的稳定性和数据的安全。尽管业界和学术界对于硬盘故障预测有过长期研究,但还是缺乏在大规模生产环境中的应用和落地。阿里云智能基础设施智能化团队,提出创新的硬盘故障预测方案,能够应对生产环境中数据不均衡、数据和标注噪音、数据分布变化等各种挑战,提升了预测的准确率和覆盖率。同时,智能化算法结合具体阿里云应用设计了整体解决方案闭环落地,在硬件、业务、用户等不同层面,进行了完整的评估和可解释性分析。
|
||
16:20-16:50 | 报告6:内存故障处理和恢复 | |
内容摘要:内存故障在数据中心运维里属于易发且影响严重的一类问题,据不完全统计当前内存故障占服务器系统故障约为30%,加之考虑近年内存价格高企,对内存故障的识别和从系统层面解决就显得尤为重要。英特尔从平台角度提出的方法论包括(但不限于)内存故障分类,故障预测,故障报告,故障纠正和修复,并从CPU和DCPMM等产品角度提供支持。本次报告会择取部分方法,着重于实现性和效果性做详细介绍。
|
||
16:50-17:20 | 报告7:全球数据中心复杂场景下面向百万服务器的管理框架 | |
内容摘要:云计算已经像风火水电一样,成为当今社会重要的基础设施。一旦它出现问题,会影响整个社会的正常运作。所以如何保障云数据中心安全就成为时下最重要的课题。目前各大互联网公司少则几十万多则拥有上百万的服务器,
|
||
Forum 5: 开源EDA和开源IP路线论坛
会 议 时 间: | 2019年8月16日, 13:30-17:30;2019年8月17日, 09:00-12:00 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
罗国杰(北京大学,gluo@pku.edu.cn) |
论 坛 介 绍: | 目前开源的思潮和运动影响到硬件设计领域。近年开源IP的典型例子是广泛关注的开源RISC-V指令集及其开源微架构实现。而国际上也开始关注开源EDA的话题,例如美国qflow和OpenROAD以及印度的VSDFlow等项目。本论坛邀请EDA和IP领域的研究者和实践者,简介其方向的基础知识和发展动态,探讨开源EDA和开源IP的方式对于科学研究和工业生产的可行路径和风险。 | |
论 坛 日 程 | ||
8月16日 | ||
13:25-13:30 | 开场:开源EDA与开源IP路线论坛介绍 | |
9:05-9:30 | 报告1:开源EDA之测试综合:衔接前端和后端设计的EDA技术 | |
报告摘要:在芯片制造过程中,材料的不纯和缺陷、设备的不完善、工艺的不稳定性以及设计的问题等等都是引起故障的原因,芯片制造出来后每一片芯片都要进行测试,为了使测试达到高故障覆盖率以保障芯片质量,必须在芯片设计阶段添加辅助测试的电路,又称为测试综合。测试综合处于EDA工具链的中间环节,一般在前端设计初步完成之后介入,确定可测试性设计方案,在验证通过的网表上进行测试综合,并评估测试覆盖率;完成测试综合之后进行后端的物理设计,物理设计在布局布线过程中会对测试电路进行调整,需要返回网表进行进一步的测试电路的验证、生成最终用于芯片测试的测试向量集。本报告首先介绍测试综合EDA的基础知识、发展动态、业界现状,然后分析测试综合相关EDA软件的开源情况,探讨测试综合在开源EDA环境下如何发挥作用。
|
||
9:30-9:55 | 报告2:VLSI布局研究与CEDA DATC Flow | |
内容摘要:布局是超大规模集成电路(VLS)物理设计自动化的引擎,是典型的大规模NP困难问题,对集成电路的性能指标,如时延、可布通性、功耗、可靠性等都有着重大影响。近年来,随着电路芯片集成度的不断提高和芯片上单元规模的快速增长,对VLSI布局问题的模型及其算法设计提出了巨大的挑战,目前依然很难实现理想的芯片布局。从布局问题所蕴含的数学理论特性角度出发,本报告讨论数学方法在集成电路中布局中的运用。此外,报告也将介绍IEEE 电子设计自动化学会(CEDA)进几年所提出和不断完善,且可提供给所有集成电路设计自动化研究者使用的设计自动化流程(DATC Flow)。 |
||
9:55-10:20 | 报告3:开源EDA之电源验证技术:趋势和挑战 | |
内容摘要:电源验证是超大规模集成电路Sign Off必不可少的一部分,对于芯片时延、功耗、可靠性、成本等有着重要影响。近年来,随着电路芯片集成度的不断提高和芯片电压的下降,芯片电压容限不断减少,也对电源验证、优化及修正提出了巨大的挑战。本报告将从电源验证的基本模型出发,探讨电源验证在不同设计阶段的应用和区别,然后将讨论其发展动态和业界现状,最后探讨开源EDA的挑战和可能性。
|
||
10:50-11:10 | 报告4:高层次综合:技术、方法和开源软件 | |
内容摘要:高层次综合将高层次语言描述转化为寄存器传输级描述,可以有效提升设计层次,提高设计效率。该报告将介绍高层次综合的关键技术包括编译、调度、绑定、存储分配和控制等技术,并简要回顾国际上的研究进展及开源高层次综合工具,为国内的开源高层次综合工具开发提供参考。
|
||
10:50-11:10 | 茶歇 | |
11:10-12:00 | Panel 1:应否投入开源EDA流程建设? | |
主持:罗国杰 嘉宾:李华伟、杨帆、陈建利、卓成、喻文健(按姓氏笔画排序) |
||
8月17日 | ||
09:00-09:05 | 开场:开源EDA与开源IP路线论坛介绍 | |
09:05-09:30 | 报告1:多数逻辑代数及其逻辑综合方法 | |
内容摘要:EDA工具是关乎产品设计成本、设计周期和市场竞争力的关键因素,其效率和创新关系到整个IC产业的发展。针对后CMOS时代的新器件不断涌现而相应EDA工具缺乏,而主流CMOS工艺EDA工具因芯片设计复杂性需要推进这一问题,区别于CMOS设计常见的NAND/NOR等传统布尔逻辑,报告将介绍多数逻辑代数理论及其逻辑综合方法。新方法已应用于FPGA 查找表映射、纳米电路设计、量子电路映射等多个问题,相关算法和工具已开源。
演讲嘉宾:储著飞,安徽潜山人,1986年10月生,宁波大学信息科学与工程学院,博士,副教授,硕士生导师。2008年毕业于山东大学(威海)电子信息科学与技术系,获得理学学士学位;2011年和2014年在宁波大学通信与信息系统专业分别获得工学硕士和博士学位,随后留校任教。2016年赴瑞士洛桑联邦理工学院开展为期一年的博士后研究工作,师从国际EDA名家Giovanni De Micheli教授。2019年在国家自然科学基金委信息科学部短期兼聘。研究方向集中在集成电路设计自动化前端工具的核心研发,逻辑综合工具已在开源平台开源。先后负责国家自然科学基金、省市科技项目、企事业单位委托的横向课题多项。在IEEE Trans等期刊和国际会议发表论文20余篇,获得中国授权发明专利10项。 |
||
09:30-09:55 | 报告2:芯来科技引领RISC-V国内的产业化落地 | |
内容摘要:介绍RISC-V指令集架构产生的背景和特点,以及芯来科技在引领RISC-V在国内产业化落地的愿景,也介绍芯来针对AIoT开发的低功耗处理器IP N200系列和更多的其他产品规划。同时探讨国产RISC-V处理器技术产业化之路的机遇和挑战。
演讲嘉宾:胡振波,芯来科技创始人和CEO,国内第一个RISC-V开源处理器蜂鸟E203作者,也是全球第一本和第二本RISC-V中文书籍《手把手教你设计CPU- RISC-V处理器》以及《RISC-V架构与嵌入式开发快速入门》作者。上海交通大学微电子学硕士,电子工程学士。业界10年以上CPU设计经验,曾任Synopsys(新思科技)ARC处理器内核研发经理,Marvel(美满电子) ARM CPU高级设计师。 |
||
09:55-10:20 |
报告3:以开放工具链构建开源SoC设计方法学(Enabling an Open-Source SoC Design Methodology with Federation Tools) |
|
内容摘要:人工智能第二阶段的新需求催生了大量小市场SoC设计规格,然而由于摩尔定律逐渐终结,依赖工艺进步的传统技术途径逐渐失效。这需要以开放工具链构建开源SoC设计方法学来弥补这个新的技术缺口。Sifive在开源Rocket-Chip的基础上,将进一步开放SoC设计工具链,以Chisel、Diplomacy TileLinke、Wit、Wake、DuH等工具为核心,构建IP自由互联的SoC设计方法学。Chisel、Firrtl等新兴电路设计语言为开源EDA工具链提供了广阔的研究新舞台,电路设计、验证、系统集成、综合、物理设计等各个层面都面临新的发展机遇 。在开放EDA工具链条上,Sifive和学术界有广阔的合作前景。
演讲嘉宾:马立伟,2001年于上海交通大学获信息与控制工学学士学位,2007年于清华大学获电子工学博士学位;2007-2009年于Synopsys任高级研究员;2009-2011年于中国科学院微电子研究所任副研究员;2011-2017年于英特尔中国研究院任资深研究员;2017-2019年于比特大陆任产品市场经理;2019年至今于赛昉中国任CPU研发部总监。马立伟发表学术论文10余篇,持有国际专利(申请)20项,涵盖处理器设计、功耗模型、深度学习、机器视觉等多个领域。 |
||
10:20-10:50 | 茶歇 | |
10:50-11:15 | 报告4:敏捷开发实践与开源EDA工具链 | |
内容摘要:该报告将首先介绍现有的敏捷开发及开源EDA工具,并从案例出发讲述敏捷开发在实际项目中对芯片开发效率的提升效果。此外,该报告还将从可用性、易用性和性能等方面分析现有开源EDA工具的现状,及其面临的问题和挑战。
演讲嘉宾:解壁伟,2018年博士毕业于中国科学院计算技术研究所,后留所任助理研究员。研究兴趣为EDA算法,面向高性能的体系结构设计,高性能计算等,曾在CGO等会议发表文章。CCF会员。 |
||
11:15-12:00 |
Panel 2:RISC-V开源生态对开源EDA和其他开源IP的需求 |
|
主持:罗国杰 嘉宾:马立伟、胡振波、储著飞、解壁伟(按姓氏笔画排序) |
Forum 6: AI与EDA论坛
会 议 时 间: | 2019年8月17日, 9:00-12:00 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
杨帆(复旦大学,yangfan@fudan.edu.cn) |
论 坛 介 绍: | AI在机器视觉、语音识别、自动驾驶、金融等领域获得了成功应用。近年来,AI包括机器学习方法也逐渐在EDA的众多领域应用。未来,AI可能在EDA领域发挥更大的作用,进一步提升集成电路设计的自动化水平。本论坛中,我们邀请了业界和学术界的专家和学者,从集成电路设计、EDA算法研究、EDA软件开发等不同的视角和维度,探讨EDA中AI的潜在应用领域及应用思路。本论坛我们邀请到了华大九天、香港中文大学、清华大学、北京大学等业界和学术界的多位专家展开技术交流,欢迎各位参加。 | |
论 坛 日 程 | ||
9:00-9:05 | 开场:AI与EDA论坛介绍 杨帆 | |
9:05-9:30 | 报告1:EDAI-机器学习在EDA领域的应用和研究 | |
报告摘要:机器学习正在逐步影响EDA行业,通过用EDA工具来对普遍的问题建议解决方案,能够为设计团队减少数周甚至数月的艰难工作,从而大大的降低设计成本。使用机器学习技术也将扩大EDA工具的潜在市场,为更多公司设计出更多的芯片,甚至是全新的设计,打开了新世界的大门。本文主要介绍了华大九天在将AI技术应用于EDA产品的探索、研究和计划。
|
||
9:30-9:55 | 报告2:EDA中的主动学习和图学习问题 | |
内容摘要:机器学习是一种强大的技术用于从大数据中获取知识,提供预测和模型。由于超大规模集成电路设计具有极高的复杂度和海量数据,因此近年来机器学习被用于加速设计收敛。在这个讲座中,我们关注机器学习在芯片设计中的一些关键技术和最新发展。我们也提供了两个应用实例:基于主动学习的帕雷托曲线学习和基于图学习的测试点插入。 |
||
9:55-10:20 | 报告3:电容提取场求解器与供电网络仿真中的AI方法 | |
内容摘要:超大规模集成电路设计中,互连寄生电容提取与供电网络分析是两个典型的大规模数值仿真问题。随着电路设计规模增大、工艺日趋复杂、设计裕量减小,迫切需要高度准确且能处理大规模结构的电容场求解器与供电网络方程解法。在报告中,将分别介绍基于随机行走的三维电容场求解器技术和基于区域分解的大规模供电网络分析技术,重点讨论其中所用到的AI方法及其带来的好处,以及一些最新的探索与思考。具体内容包括:电容场求解器中所用到的马尔科夫过程、大规模结构空间管理中的-剪枝,供电网络分析中的最优稀疏矩阵排序问题以及基于监督学习和A*搜索的解法。
|
||
10:20-10:50 | 茶歇 | |
10:50-11:10 | 报告4:基于机器学习的集成电路后端设计及加速 | |
内容摘要:芯片设计需要经过复杂而繁琐的设计步骤。由于不同步骤之间的相互依赖,设计流程需要反复迭代才能收敛到较好的结果。这种迭代式的流程导致了冗长的设计周期,大幅增加了开发成本。近年来人工智能的发展促进了机器学习相关的算法和软硬件等方面的突破,也为芯片设计带来了新的机遇。本报告将以后端步骤中的物理设计和可制造性优化为切入点,介绍机器学习如何加速芯片设计流程中的关键步骤,提高产品研发效率。
|
||
11:10-12:00 | Panel:AI会如何改变EDA? | |
主持:杨帆(复旦大学) 嘉宾:余备、林亦波、杨柳、喻文健(按姓氏笔画排序) |
||
AI在机器视觉、语音识别、自动驾驶、金融等领域获得了成功应用。在EDA的某些特定领域,AI也取得了很好的应用效果。但EDA领域的AI应用仍然面临的很多挑战,如训练数据来源、AI算法的适用性等?AI能否从根本上改变EDA?能否在更广泛的领域获得应用?在传统的领域如高层次综合、逻辑综合、电路仿真、物理设计、时序分析、逻辑仿真、参数提取等领域,能否带来新的改变?围绕这个论题各位专家将展开深入讨论。 |
Forum 7:AI加速论坛
主 办 方: | CCF容错专委 | |
会 议 时 间: | 2019年8月17日,9:00-9:40 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
周平强(上海科技大学) |
论 坛 日 程 | ||
9:00-9:40 | Keynote 1: Reconfigurable Computing and AI Chips | |
报告人: 尹首一教授(清华大学) |
||
9:40-10:20 | Keynote 2: TBD | |
报告人:来自工业界,人选待定 | ||
10:20-10:50 | 茶歇 | |
10:50-11:00 | DAC SDC比赛情况简介 | |
报告人: 周平强教授(上海科技大学) |
||
11:00-11:10 | DAC SDC获奖队伍作报告 | |
报告人: 浙江大学与上海科技大学GPU团队 |
||
11:10-11:20 | DAC SDC获奖队伍作报告 | |
报告人: 清华大学与清微智能GPU团队 |
||
11:20-12:00 | 所有参赛队伍做设计展示 |
会 议 时 间: | 2019年8月16日, 13:30-17:30 | |
会 议 地 点: | 北京市九华山庄 | |
组委会人员: |
论坛主席: |
王式文(阿里巴巴,shengqing.wsw @alibaba-inc.com) |
论 坛 介 绍: | 云计算产业自诞生以来一直保持迅猛的发展势头,并成为整个社会的基础服务。作为社会的基础服务,提升云计算的稳定性至关重要。可靠性技术在不断的发展,面对海量计算和存储,如何有效、可实施的提升稳定性将是核心话题。本论坛中,我们邀请领域内的专家学者和企业技术专家共聚一堂,探索海量计算和存储可靠性技术,针对产业界的可靠性现状和技术实践,结合学术界的创新性思维和技术,探索软硬件一体化的可靠性技术解决方案。欢迎各位参加。 | |
论 坛 日 程 | ||
13:25-13:30 | 开场:海量计算和存储可靠性论坛介绍 王式文 | |
13:30-14:00 | 报告1:基于开源软件的云计算平台可信赖计算技术与实践 | |
报告摘要:随着信息技术的广泛应用,集成电路、计算机、网络和软件的可信赖性(dependability)变得越来越重要。云计算平台包含大量的虚拟设备资源,其配置一般取决于其上部署的应用。因此,确保虚拟设备资源的高可信赖性,将为高可信赖云服务提供坚强保障。相对本地计算资源而言,尽管云计算平台的可信赖性得到了提升,但从总体上看,特别是对于基于开源软件所构建的云计算平台而言,与应用的可信赖性需求的增长趋势相比,仍有很多难题需要去解决。本报告围绕基于开源软件的云计算平台,介绍云计算平台可信赖计算技术发展现状、基于日志的故障诊断、分布式多层次检查点系统、基于失效预测的软件重构、可信赖计算机制的验证等可信赖计算技术的研究和实践进展,并讨论当前和未来所面临的技术挑战和机遇。
|
||
14:00-14:30 | 报告2:大规模下高稳定性基础云服务器的系统体系建设 | |
内容摘要:系统稳定性是各个IT系统的核心指标。 整个IT届投入大量的人力物力,建立了各种各样的测试方法论,软件设计方法论,各种流程保障等,来提升系统的稳定性。 在当前的核心系统中,大量使用了分布式软件设计,两地三中心来提升系统稳定性。本文将从基础服务(IAAS)层的视角,讲讲我们怎样系统化的提升底层基础服务的稳定性。通过系统化的设计,故障预测,发现和动态规避,来在x86服务器上提供10倍于硬件稳定性的 云上IAAS服务。
|
||
14:30-15:00 | 报告3:基于深度学习的海量服务器存储系统的故障预测 | |
内容摘要:磁盘和内存故障已经是引起服务器宕机的首害。一种积极的措施是根据运行时的系统监控日志进行故障预测,并对高风险磁盘进行隔离与数据备份。监控日志中的静态数据,时间序列数据都可能蕴含存储硬件异常行为特征和信息。然而,若要引入机器学习(或深度学习)来进行故障预测,仍需克服一系列挑战。首先,大规模分布式集群中会使用多种存储产品,产品的差异性导致了训练数据有严重的一致性问题;其次,我们尚缺乏能对这类静态特征、时间序列数据进行有效学习的模型,时域上的噪声会严重影响预测故障时间的准确性;最后,在历史系统日志中,异常/故障样本相比于正常样本极少,这种不平衡极大影响了学习过程。不但会讨论这些问题,而且也提出了一些可行的解决方法。
|
||
15:00-15:30 | 报告4:云计算大规模服务器硬件可靠性保障 | |
内容摘要:云计算走向社会基础服务,形成规划化是必然的趋势。服务器作为云计算的硬件载体,由CPU、内存、硬盘、主板等各个部件组成,是电子器件的集成体。和软件不同的是,随着时间推移,受器件寿命限制和器件失效,硬件存在失效和故障。在云计算规模效应下,硬件可靠性成为严峻挑战,如何保障服务器硬件的可靠性,是一个复杂的系统性工程。本报告将介绍在规模云计算,服务器硬件可靠性的技术思考、实践和探索。
|
||
15:30-15:50 | 茶歇 | |
15:50-16:20 | 报告5:大规模数据中心硬盘故障预测分析 | |
内容摘要:随着云计算技术及应用的规模化普及,大规模数据中心设备问题和故障发生成为了一种不可避免的常态。硬盘等存储设备,作为最主要的服务器核心部件之一,由于数量巨大且应用频繁,经常会出现不同程度的问题和故障,从而影响云计算的稳定性和数据的安全。尽管业界和学术界对于硬盘故障预测有过长期研究,但还是缺乏在大规模生产环境中的应用和落地。阿里云智能基础设施智能化团队,提出创新的硬盘故障预测方案,能够应对生产环境中数据不均衡、数据和标注噪音、数据分布变化等各种挑战,提升了预测的准确率和覆盖率。同时,智能化算法结合具体阿里云应用设计了整体解决方案闭环落地,在硬件、业务、用户等不同层面,进行了完整的评估和可解释性分析。
|
||
16:20-16:50 | 报告6:内存故障处理和恢复 | |
内容摘要:内存故障在数据中心运维里属于易发且影响严重的一类问题,据不完全统计当前内存故障占服务器系统故障约为30%,加之考虑近年内存价格高企,对内存故障的识别和从系统层面解决就显得尤为重要。英特尔从平台角度提出的方法论包括(但不限于)内存故障分类,故障预测,故障报告,故障纠正和修复,并从CPU和DCPMM等产品角度提供支持。本次报告会择取部分方法,着重于实现性和效果性做详细介绍。
|
||
16:50-17:20 | 报告7:全球数据中心复杂场景下面向百万服务器的管理框架 | |
内容摘要:云计算已经像风火水电一样,成为当今社会重要的基础设施。一旦它出现问题,会影响整个社会的正常运作。所以如何保障云数据中心安全就成为时下最重要的课题。目前各大互联网公司少则几十万多则拥有上百万的服务器,
|
||