欢迎加入我们!csse@szu.edu.cn
欢迎加入我们!csse@szu.edu.cn
计算问题是计算机科学的本质问题,是以大数据和人工智能等为代表的信息技术浪潮最核心的支撑技术,其驱动的行业领域已经成为推动经济转型发展的新动力,为重塑国家竞争优势带来新的机遇。
放眼国际,包括美、欧盟、日、澳等各主要国家和地区都在全力争夺计算科学及其驱动的信息技术领域高地。包括Google、Facebook和微软等巨头公司的工业界和世界各大高校都着力研发计算科学底层核心技术,开发了大量的算法和计算系统,牢牢掌控了整个技术体系的核心环节,引领着发展的方向。特别是美国在相关领域处于霸主地位,其主导的基础软件行业布局合理,以大公司与科研实验室孵化作为两个发动机,技术产出通过开源社区、商业软件和云计算平台成为许多大数据和人工智能行业的事实标准。 纵观国内,计算科学及其驱动的大数据和人工智能等相关领域也处在蓬勃发展之中。中央高度重视相关领域发展,各地也积极抢抓大数据和人工智能的发展先机。以百度、阿里巴巴、腾讯、华为等互联网和IT公司为代表的企业和各大高校、研究院所在相关的理论、应用领域取得了长足的进步。
潜力巨大的普及型高性能计算机同时获得高性价比和高通用性是一个非常困难的问题,而通过面向特定重要应用需求进行定制,进而获得高性价比是一条切实可行的捷径。系统定制包括互连结构、处理器带宽、存储器系统等方面。同时,采用国产元器件自主研制国产普及型高性能计算机也是打破国外厂商垄断,提升国家信息技术基础设施安全性的一条捷径。
另一方面,人工智能技术的发展,给各行各业的安全问题起到了推波助澜的作用。例如,利用人工智能技术,可以更方便地生成大量的伪造的图像、音频、视频。这些虚假图像和音视频,给外交、司法、商业、公共安全和个人隐私等带来很大的麻烦:在商业上的关于虚假图像和音视频的案例也越来越多;现有的基于生物特征的身份识别技术在对抗翻拍/翻录等攻击时十分脆弱,给安防认证系统留下极大的安全隐患;诈骗电话通常用网络电话和虚假号码,及通过电话重放录音伪造虚假的场景,增加诈骗的可信度。可以说,人工智能给媒体取证带来了更大的挑战。在应用层面上,内容可信性已经成为一个急需解决的重大问题。
深圳拥有得天独厚的计算科学及相关领域创新环境。广东省实验室将依托深圳优良的创新生态,建设深圳计算科学团队,聚焦于计算科学的基础理论研究,并把研究成果转化为实际应用,创建中国大数据和人工智能基础软件与系统的国际品牌,汇聚海内外人才,力争五年后成为国际一流的计算科学创新平台。
在理论层面,广东省实验室将从面向人工智能的大数据计算理论、面向人工智能的大数据分析优化理论和方法、和面向人工智能的新型计算系统核心技术等方面研究面向人智能的计算科学基础理论,并打造计算引擎的国际品牌。
在实现层面,广东省实验室将搭建基于国产芯片自主研发的人工智能计算平台,从根本上解决了自主可控性的问题,体系结构设计具有自主产权,可以为国家提供战略层面的安全可靠的硬件平台。同时,拥有自主知识产权的国产人工智能计算平台具有便捷的可定制性,可以针对不同商业需求定制信息技术平台。同时,基于上述理论和平台,广东省实验室将以智能信息处理的方法,在应用层面上研究解决涉及内容可信性的关键技术。
计算科学的核心问题是判断什么可计算,如何高效进行计算。在大数据时代,大数据的“量”与“质”对高效的计算均至关重要。首先,从量上分析,建立大数据可计算的判断标准,设计高效的计算算法是一个关键的基础理论问题,该问题的解决将颠覆五十年以来经典计算复杂性的理论结果和算法设计思想,成就大数据计算复杂性新理论和新算法;同时,从质上分析,低质量的数据无法保证计算的正确性。
对传统计算复杂性理论对易解性问题的定义不适用于大数据计算,且忽略了数据量对算法有效性和问题易解性的影响的问题,研究大数据计算的易解类复杂性理论。定义大数据计算背景下的可行算法的复杂性边界;针对判定问题,研究大数据计算中与可行算法对应的易解问题类;类似NP-完全理论,研究大数据驱动的易解类完全理论,建立大数据驱动的易解类问题之间的可行规约,从理论上定义一类大数据计算的易解问题,并发现现实应用中的易解类完全问题;研究大数据转化为小数据的转化策略,保证转化前后问题的计算结果一致;最后,将判定问题的易解类复杂性理论扩展到函数问题与计数问题。
主要研究建立一套资源有限下的大数据查询处理框架,包括建立基于访问约束的有界计算模型与理论,把大数据计算规约成小数据上的处理;针对不同计算问题,设计基于访问约束的小数据识别方法;研究访问约束的自动挖掘和动态维护算法;研究基于非行式数据库存储的有界计算模型。
主要研究内容为针对难解的优化问题,进一步研究计算资源、数据量与计算结果有效性之间的量化关系,定义保证精确率的近似算法的概念,并定义保持精确率的可行归约、近似模式与近似类;类似传统近似算法理论中的APX问题(即存在常数近似率的难解问题),针对每个近似类,研究大数据计算中可以有效进行近似计算的问题,并建立完全问题理论;基于把大数据转化为小数据的思想,研究数据驱动的近似算法的设计方法,并设计近似算法;最后把针对优化问题的数据驱动的近似算法理论扩展到不同类型查询语言/问题,建立基于查询的数据驱动的近似算法理论。
主要研究大数据计算的并行可扩展性问题,即保证使用的处理器数量增加,则总开销(计算时间与通讯时间)一定减少。包括针对不同计算问题,建立不同复杂性的并行可扩展性模型,如线性并行可扩展和次线性并行可扩展模型;研究保持并行可扩展性的规约,保证相同复杂性的并行可扩展性问题的判定与识别;研究各类计算问题的并行可扩展算法的设计方法。
主要研究基于不动点理论的并行图计算模型,打破现有并行图计算系统要求用户熟悉底层结构而只能被专业人员使用的局限,通过将现有的单机图算法自动并行化,大幅降低用户使用门槛;针对同步和异步通信方式,分别建立自动并行计算模型,支持对现有单机算法的自动并行化,使技术能力有限的中小企业有能力从事大数据计算;研究模型的可终止性和正确性,即保证并行计算一定会终止,且如果单机算法是正确的,则其并行后的算法一定得到正确的计算结果;研究模型与MapReduce, BSP, AP,SSP,PRAM等并行模型的可模拟性,即讨论基于不动点计算并发计算模型是否可以最优的模拟以上并行模型,实现模型的表达力最大化。针对经典的图计算问题和图数据上的机器学习问题等研究基于不动点计算并行计算模型的并行实现。
主要研究内容为基于图数据的结构建立机器学习输入和输出之间的逻辑关系;基于图数据的层次、属性、类别等详尽的拓扑结构和关联关系,研究如何有效地揭示机器学习在自然语言处理、智能问答、语义模型分析等领域的推理逻辑,从而让研究者进行定向优化,进一步提升机器学习的性能和扩展其应用范围。
(1)集成和自动并行化机制:利用基础理论研究成果,研发自动并行化模块,实现单机图算法的自动并行化和批量算法的自动增量化,使用户不需要转换编程模型实现图计算的自动并行化。
(2)高性能的分布式并行图计算引擎:与理论研究成果结合,利用有性能保证的增量计算和单机算法的整机优化能力(如索引、高效的数据结构等)结合各类软硬结合的系统优化技术,如非易失存储(NVM)、非统一内存访问(NUMA)、远程直接内存访问(RDMA)等高效工程工具,提高系统的性能。
(3)终止与正确性保证机制:与理论研究成果结合,在各类前置条件下,建立正确性与终止性保证机制。通过自动化的工具,帮助用户来自动地将算法并行化,并为终止性与正确性提供保证。
(4)模拟现有的并行计算模型机制与模块:与理论研究成果的指导下,设计并研发无额外开销的前提下,可以兼容执行(模拟)主流的并行计算模型,如:MapReduce、PRAM、BSP、AP、SSP、以及点中心模型的图计算模型等相关的机制与系统的工程化实现。
(5)自适应的异步计算(AAP)及参数的自动动态调整:与基础理论研究成果结合,实现异步并行计算的自适应的调整,平衡在大规模分布式并行计算场景下传统同步或异步计算中常常出现的落后者与冗余过时计算的平衡问题。在系统上设计并实现自动化的工具,动态调整相应关键参数。
(6)计算资源的弹性伸缩:重点研究计算节点增减的前提下,数据分区调整、计算状态的保持与恢复、整体性能等方面的机制、算法与系统实现。
(7)图数据的流式计算的算法与理论:研究建立、设计并实现一个流式图计算的计算模型、框架与系统以处理动态更新的图数据与不停变化的图查询结果。
(8)常用人工智能算法的计算框架:设计并完善系统,将图计算推广到通用的人工智能算法的计算框架与设计范式,实现一批常见的人工智能算法,解决其大规模计算的问题。
(1)Bag语义下聚合关系有界查询框架和计算平台:Bag语义下的聚合关系查询在工业生产中占有很大比例,此目标旨在针对这类查询开展有界查询理论、算法和系统平台方面的工作,为该类查询提供具有数据规模无关性的非传统查询方法,解决该类查询在有限资源下的大数据查询需求。
(2)非传统行式存储的有界关系查询框架和计算平台:在为该类非传统数据查询平台提供具有数据规模无关性的查询性能,以解决该类应用环境下的有限资源大数据查询需求。
(3)分布式有界关系查询框架和计算平台:将单机集中式环境下的有界查询框架研究扩展到分布式环境,以为其提供规模无关查询的功能来满足有限资源超大规模数据查询的需求。
(4)有界查询框架中访问约束和索引的自动推荐算法:为其增加能针对特定或历史查询工作集进行访问约束自动推荐的功能,以帮助用户建立合适的访问约束来使得应用中的查询具有有界性。
(5)有界查询框架在异构数据库的平台实现与集成:为异构的数据存储环境提供统一的有界查询框架平台,使得应用只需要与有界查询框架交互,简化查询设计和优化过程;能通过统一的有界查询框架同时使用异构的数据存储,使得更多的查询有界并具有数据规模无关性的执行效率。
统计和优化是大数据分析的两大主要数学工具。而统计中常见的最小二乘法、极大似然方法、主成分分析、多维标度方法、高维数据降维方法、逆协方差矩阵估计等都是最优化问题。然而,与经典优化问题相比,大数据驱动的优化问题发生了本质性变化,所以很多传统的优化方法无法直接使用。本课题拟针对大数据处理的超大规模特性,研究求解大规模线性系统的高效算法;对于数据分析中的高精度聚类问题,研究能高效求解垂直约束非负矩阵分解模型的优化算法;最后我们将针对大数据统计分析中的一类具有非光滑分段二次函数的重要优化问题,研究其局部最优点的性质。这些研究工作将为未来本研究院的相关大数据分析应用提供创新思维与理论基础。主要研究内容如下:
现存用于求解线性方程的高斯-赛德尔迭代方法只适用于满秩或为对称的方矩阵,此外算法的迭代是采用逐条方式、在每一个方程中只更新其中的一个变量,对于方程与变量的顺序具有不合理的要求性,否则算法可能会发散。有鉴于传统求解线性方程算法需要较严格的矩阵条件方可保证收敛,提出基于随机取样、双向高斯-赛德尔迭代的新颖算法,提供算法收敛条件与次线性、线性收敛速度等基础理论。我们的思路为采用双向的高斯-赛德尔迭代、依同向再反向的次序考量每一条方程式,而在每一个方程中我们采随机方式选择其中一个变量来更新。关键在于随机变量选择的机率是正比于方程矩阵的每个列的模,因此在理论分析中,能够保证算法的收敛性。基于此思路,我们会更进一步扩展到求解大规模的线性不等式问题。
具有垂直约束的优化问题是相当困难的,目前这类问题是将垂直约束作为一个惩罚项,再以传统的相乘原则算法进行迭代求解。然而这类算法没有理论保证,实验中也发现其聚类效果不如传统方法。有鉴于传统基于矩阵分解的聚类方法无法保证低维成份具有明显的可分类性,导致聚类结果不佳,我们考虑垂直约束非负矩阵分解模型,以同时优化数据降维以及数据聚类。我们将提出新颖的约束转换思路,研发能处理垂直约束的原始对偶优化算法,建立算法的收敛条件以及刻画与数据聚类的性能关系。我们的思路主要基于一个关键的观察:非负垂直约束等效于强迫降维矩阵的每个列只有一个非零元素。因此我们可以等效地以降维矩阵的每个列的1-模等于2-模的约束来取代原来复杂的垂直约束。基于此思路,我们提出一个精确惩罚项的方法,证明此类问题的静态点必然是满足垂直约束,并且研究能求解这类非凸非光滑优化问题的高效优化算法。
非光滑分段二次函数是不可微的,因此其局部最小点的一阶最优条件与二阶充分及必要最优条件,并不能以传统的梯度与Hessian矩阵来刻画。不论是深度学习或是统计中的分段函数拟合问题,都包含有非光滑分段二次目标函数,因此研究这类优化问题对于大数据分析的理论基础有重要意义。我们将建立光滑分段二次优化问题的局部最小点与静态点的一阶最优条件以及二阶充分与必要最优条件,刻画局部最小点与静态点的等效条件。我们的思路为基于方向导数,重新定义新的一阶最优条件与二阶最优条件。针对分段线性二次函数,我们将证明基于方向导数的二阶最优条件是局部最小解的充分及必要条件。最后,我们将应用此条件于常见的数据统计分析问题中,刻画其局部最优条件。
人工智能与数字经济广东实验室将重点解决目前我国人工智能计算平台中普遍存在的安全可信性差、软件通用性低等突出问题。实验室采用全国产化、面向特定工程领域的芯片及软件技术,以实现我国人工智能计算平台的自主可控、安全可靠,保障人工智能平台及应用的安全。通过支持超大内存的硬件设计,BIOS、BMC等固件的系统软件移植,实现硬件一体化可信安全机制。基于龙芯3号处理器的机群存储节点硬件,研究实现完全自主可控的高性能人工智能计算平台。采用基于计算互联的针对大数据优化的处理器NUMA芯片,通过自主逻辑路由算法实现信息的高速转发、智能诊断、自动纠错,为高性能人工智能计算提供芯片级基础保障。通过基于计算平台安全管理控制芯片的带外可靠性机制,研制面向商业应用的高性能高安全人工智能平台。鉴于人工智能处理与分析对算法要求的多样性和数据密集与计算密集的特点,实验室计划将普及型高性能计算技术和通用的云计算技术进行整合,建设支持多种计算的高性能人工智能处理与分析平台。以满足多种领域人工智能技术创新和行业应用示范开发,支持学校、科研机构和企业的产学研合作,突破一批关键共性技术并实现人工智能产业的持续快速发展。
高性能高安全的人工智能计算平台的技术路线包括三个主要步骤:(1)研制高性能高安全的人工智能计算硬件平台。(2)研究高度通用的人工智能共性关键技术。(3)研发人工智能的示范性应用。这一技术路线从“硬件”到“通用系统软件”再到“应用软件”,实现了完整的、自主可控的高性能人工智能计算平台的生态体系。
系统的硬件平台由自主可控的高性能计算集群和高可靠性高性能互联集群共同组成。这两种集群都将采用国产化的芯片,在统一框架内对不同类型和格式的数据进行智能诊断和自动纠错。因此,可以满足人工智能计算平台对安全性和通用性的迫切需求。为了有效地利用两种集群,将研制混合大数据计算引擎,主要包含普及型高性能计算引擎和Spark分布式计算引擎。其中,普及型高性能计算集群由普及型高性能计算引擎调度,普通服务器集群由Spark计算引擎调度。混合调度引擎将根据计算的特点,自动调度计算任务在合适的集群运行。将主要研究混合计算引擎的数据共享及交换技术,调度技术,协同运算技术和算法数据交换技术,实现大数据处理与分析流程中混合引擎算法间的无缝衔接和对用户透明。
高性能高安全的人工智能计算硬件平台计划采用基于计算互联的CC-NUMA系统。该系统支持以8个或以上处理器单元为一个节点进行平滑扩展,最大可以扩展至64个或以上的处理器。人工智能平台计划采用XShuttle聚合双平面弹性架构,通过国产自主可控的芯片将8个或以上处理器互联起来形成一个NUMA节点。节点间通过NC芯片的NI接口互联形成一个内存共享式NUMA系统。NC芯片既可以实现本节点内CPU访问代理也可以实现节点间处理器互访的路由交换。各节点之间的NC芯片分成两个平面,同一平面内的NC芯片直接全互联,两个平面同时负荷工作并提升可靠性。
人工智能计算硬件平台通过管理系统实现全面的精细化服务器管理,最大化提升服务器RAS特性。服务器所采用的带外管理系统将应用具有国产自主知识产权的服务器管理芯片。该硬件平台将整合硬件、BIOS、带外管理系统,以及现有操作系统的故障处理机制,构造出一套完整的故障管理系统。可以在系统出现故障时及时收集完备的故障信息,进行故障诊断,快速定位故障并上报。并根据收集数据进行故障预警、故障恢复等。
(1)录音重放伪造场景的辨识技术:录音重放是声纹认证系统的有效攻击手段。同时也可以作为伪造场景的手段,用于诈骗电话中以增加诈骗场景的真实性。目前,声纹认证系统防范录音重放攻击主要是采用实时交互的方式,十分不方便,也不适合检测诈骗电话中的录音重放。拟从录音信号特征角度进行分析,直接从信号本身寻找回放留下的痕迹。主要研究内容包括:录音设备指纹和录音格式的统计特征分析、基于音频重编码压缩分析的录音重放检测、录音背景噪声分析。
(2)网络电话的识别技术:固定电话和手机的实名制,使得利用固定电话和手机进行诈骗比较容易被侦破。由于网络环境的隐蔽性和难以追踪的特点,利用网络电话(VoIP,Voice over Internet Protocol)从事违法犯罪活动已经成为了目前网络犯罪的主要类型之一。由于网络电话可以通过设置伪造出真实的电话号码,使网络电话诈骗更加具有伪装性。将研究如何从通话语音中区分网络电话与普通的固话/移动语音信号。主要研究内容包括:基于语音编码效应的网络电话识别、基于深度学习机制的网络电话识别、智能手机伪造诈骗电话辨识软件。
(3)篡改语音的检测和定位:利用商用音频编辑软件(Cooledit, Adobe Audition等)可以很方便篡改语音语义,且可能只留下很难察觉的痕迹(例如删除一个片段只改变几十个样本点)。这给篡改取证带来了很大的挑战。将针对实际应用场景中的语音篡改,研究其检测和定位问题。主要研究内容包括:音频重复片段检测(检测基于复制-粘贴的语音拼接)、短片段后处理检测(检测使用商用音频编辑软件进行篡改导致的滤波等后处理)。
(4)GAN生成伪造语音的辨识:GAN(Generative Adversarial Networks)使用神经网络算法来学习音频源的统计属性,然后在其他的上下文中再现这些属性,以毫秒级的片段建模,可以达到相比传统语音合成更好的听觉效果。基于该技术,可以很容易假冒特定身份的人说话。这可以用于诈骗或者攻击身份认证系统。将研究GAN生成语音的辨识。主要研究内容包括:GAN生成语音的统计模型、GAN生成语音的噪声特性、GAN生成语音的检测方法。
(1)伪造虚假人脸的识别技术:人脸识别已经广泛应用身份验证、安防、刑侦等领域。传统的人脸识别系统往往不能判断采集到的人脸是否为真实的活体人脸还是假冒的非活体人脸。因此,为防止攻击者伪造和窃取他人的人脸信息用于身份认证,生物识别系统往往需进行活体检测。已有的活体检测技术,方法复杂、成本高、难以抵抗重放攻击。将从图像取证的角度去判断人脸识别系统接收的图像是否为非活体图像。重点解决在训练和测试数据不一致时性能差的问题。主要研究问题包括:屏幕(如手机、iPad等设备)重放伪造虚假人脸的识别、打印/印刷伪造虚假人脸的识别、GAN生成虚假人脸的识别。
(2)图像篡改的检测与定位:分析及提取篡改操作在图像中留下的特有痕迹是图像篡改取证的重要手段。现有的取证技术往往仅针对某一类型的篡改操作进行建模和取证,并不能很好应对实际的图像篡改取证需求。将研究图像篡改操作的辨识技术,通过分析不同类型操作所留下的篡改痕迹,借助信号与信息处理方法对篡改操作进行建模,并采用机器学习方法辨识图像经受了哪些典型操作、操作的相关参数、所使用的处理软件等;进一步地,寻找和定位出图像中经受篡改的区域。主要研究内容包括:图像局部篡改操作痕迹的统计建模、篡改取证的非对称样本学习、PhotoShop篡改操作的检测与定位。
(3)纸质文件翻拍/翻扫的取证:随着打印技术的进步,以及数码相机、扫描仪成像效果的提升,利用数码相机或扫描仪对打印/印刷图像进行翻拍/翻扫,可以得到伪造的场景图像。对篡改后的文件重新打印/印刷,也可以掩盖篡改痕迹,从而得到伪造文件。由于目前的设备成像质量和打印/印刷质量较高,人眼往往很难将这些伪造场景图像和由真实场景拍摄得到的图像区分开来。将研究针对伪造文件的翻拍/翻扫取证技术。主要研究内容包括:文件翻拍/翻扫数据库的建立、二次打印/印刷图像的纹理分析、文件翻拍/翻扫的特征提取。
(1)监控视频篡改的取证:随着平安城市、行业安防等项目的大规模建设,监控视频数据急剧增长。在视频篡改中,典型的篡改手段包括帧复制、帧删除、帧替换,以及帧内对象的篡改等。由于硬件设备、压缩编码标准的不同,海量的监控视频数据属性各异,给视频内容篡改检测提出了极大的挑战。将研究监控视频的取证技术,通过大量的监控视频样本,构造对视频篡改敏感的统计特征模型,并应用机器学习方法实现对视频中帧级别的篡改以及帧内容篡改的取证。主要研究内容包括:视频重压缩和原始性分析、视频帧间篡改操作的检测、视频帧内篡改的检测与定位。
(2)GAN生成伪造视频的辨识:已有不少利用GAN生成或合成虚假视频的例子。通过对特定人脸的建模,可以把真实(或者生成)的语音安插到另一个的视频上,形成张冠李戴,甚至无中生有的伪造效果。将从音频、视频、联合音视频多角度,对GAN生成的视频进行分析,辨别出GAN生成(合成)的伪造视频。主要研究内容包括:GAN生成视频的空时域统计特性建模、GAN生成视频的编码效应分析、联合音视频分析的GAN合成视频的辨识。
英国皇家学会院士(FRS)、欧洲科学院院士、英国爱丁堡皇家学院院士、ACM 会士、“千人计划”特聘专家、长江学者讲座教授、英国爱丁堡大学信息学院主任教授。2018年5月,他入选世界上历史最悠久的英国皇家学会,在载有图灵、爱因斯坦、牛顿等科学巨匠手迹的入会签名本上第一次留下了华人用汉字的签名,提名词指出,他是国际学术界公认的数据库理论与系统并重的第一人,是世界上极少数同时在两个领域做出突破性贡献的学者之一;他奠定了大数据计算复杂性的基础,重塑了数据质量研究领域,并开创了半结构化数据约束理论的研究方向。他荣获英国皇家学会Wolfson研究贡献奖、ERC Advanced Fellowship、英国 Roger Needham Award 等多项国际奖项。他获得数据库领域全部四大顶级会议的(十年)最佳论文奖。国际数据库史上仅有二人获此“大满贯”。他的研究成果已在工业界产生多项实质的效益和影响,全面碾压国外大公司同类产品:资源受限下大数据计算框架在华为得到验证,提高查询效率高达5个数量级;并行图计算模型在国内外工业界广受关注,其团队基于该模型开发的系统已被阿里巴巴集团收购并将在国际基础软件界打造中国原创品牌;数据质量领域的工作影响了AT&T, Yahoo, IBM 和 NEC等公司的产品;“XML数据转换,查询和管理的综合系统”被朗讯和欧洲生物中心采用,并被纳入国际标准。
深圳大学计算机软件学院国家千人计划特聘教授,未来媒体技术与计算研究所所长。回国前曾任英国University of Bradford 数字媒体首席教授和数字媒体研究所所长,及英国University of Surrey计算机系媒体计算首席教授。江健民于1994年获英国诺丁汉大学博士学位后仅三年多就获聘英国格拉摩根大学终身正教授。是在英国大学内成为正教授的最早一批大陆学者之一。同时他于2000年获国家基金委海外杰出青年基金B类,2004年获中科院海外杰出学者基金, 2010年入选中组部第三批国家千人计划。曾任国际知名图像处理杂志Image and Vision Computing副主编, 及欧盟第七框架科研攀登计划咨询委员会专家。发表英文学术论文近400余篇。2014-2017连续四年入选ELSEVIER中国计算机科学高被引学者榜单。
教授,博导,计算机与软件学院院长,大数据系统计算技术国家工程实验室执行主任。中山大学大学计算机软件与理论博士毕业。2004年晋升为计算机学科教授。现为鹏城学者特聘教授,深圳大学二级教授,华东理工大学兼职教授,教育部大学计算机教学指导委员会委员,深圳市计算机学会理事长,中国计算机学会理事(第8届),广东省省部院物联网产学研联盟副理事长,CCF YOCSEF(北京)AC荣誉委员,曾任CCF YOCSEF(广州)主席,广东省“千百十工程”省级培养对象。深圳大学计算机软件与理论学科带头人。获广东省优秀教学成果一等奖2次、二等奖2次。2009年被评为深圳市优秀教师。“云数据交换和服务调度平台及应用”获得2013年度的广东省科学技术奖一等奖(排名第一)和广东省丁颖科技奖,“基于数据集成和信息共享的ESB集成平台软件”项目获2009年度深圳市科技创新奖(排名第一),并获得2010年度的广东省科学技术奖三等奖(排名第一)。主要从事人工智能、软件工程、云计算及中间件技术研究,在以上相关领域取得了一系列重要成果,在知名学术会议与期刊上发表论文200多篇,研究论文获《ACM Transactions on Interactive Intelligent Systems》2016年度唯一的最佳论文奖。近年来主持国家自然科学基金项目5项(含1项重点项目)、863计划项目1项、省自然科学基金团队项目1项、其他省市级科研项目多项。
教授,多年从事不确定性建模及在机器学习系统改进中的应用,曾在1996攻读博士期间首次提出“模糊示例学习”的概念,并将这一概念扩展到基于不确定性理论的机器学习框架下,持续近20 的研究取得了系列成果,例如,项目“模糊值属性特征子集的选取”2007 年获得河北省自然科学一等奖。通过在“不确定性”领域深入研究,提出的“不确定性是影响机器学习算法泛化能力主要因素之一”的观点,得到同行专家的高度认可,2014/15 年曾应邀作为特邀编辑在不确定性领域的期刊Fuzzy Sets and Systems 和Intelligent Fuzzy Systems 上编辑专刊两期,系统地展示了基于不确定性在大数据机器学习中之国际最前沿研究动态。 鉴于在模糊示例学习与模糊聚类领域的突出贡献,王熙照教授于2013 当选为IEEE Fellow,2017年认定为中国人工智能学会首批会士。
深圳大学特聘教授,深圳市高性能数据挖掘重点实验室主任。1993年获瑞典皇家工学院博士学位,曾任香港大学数学系荣誉教授、香港大学电子商业技术研究所助理总监;澳大利亚MIP顾问公司商业智能高级咨询顾问;澳大利亚联邦科学院信息与数学研究所研究员。2010年入选首批广东省领军人才,2011年入选深圳市孔雀计划高端人才。黄哲学教授是最早从事数据挖掘领域属性数据和混合数据快速聚类算法研究的学者, 发表了一系列著名的聚类算法,如:k-modes、k-prototypes、w-k-Means,这些算法在很多领域得到广泛应用,被纳入国内外教科书和专着,并进入软件产品。荣获亚太地区知识发现和数据挖掘国际会议(PAKDD)首个最有影响论文奖。领导开发了AlphaMiner数据挖掘开源系统(www.alphaminer.org),成为国际上重要的数据挖掘开源软件之一,被国内外许多大学和公司采用。发表学术论文150多篇,主要论文被引用4000多次,单篇论文最高引用1300多次。
在大数据计算复杂性理论方面,在国际上最早发现大数据计算需要摆脱经典计算复杂性理论,提出了大数据计算复杂度理论,识别了大数据下的易解类问题,提供了大数据计算理论的基础。
在有界计算理论方面,针对关系型数据查询处理问题提出了有界计算模型,并对CQ查询和FO查询提出了有效的有界计算查询语法,设计了查询算法,开发了原型系统。团队还提出了基于视图的查询评估的有界计算理论,并尝试展开图数据的有界计算理论与算法研究。针对不同计算问题(如递归计算),有界计算理论还有许多难题待解。有关工作于2018年获得英国皇家学会Wolfson 研究贡献(Research Merit)奖。
在近似计算理论方面,研究了数据驱动的近似方法,对不是有界可计算的关系查询提出了近似框架和算法,引起华为、微软等公司的极大兴趣,并建立了有限资源下图同构、图模拟、可达性查询等的近似框架和近似算法。同时,团队还研究了查询驱动的近似方法,提出了强模拟的图模式匹配,用于近似图同构匹配。
在并行可扩展理论方面,针对图查询的并行可扩展性开展了研究,取得了一些研究成果。提出了图查询的并行可扩展性模型,并识别了图同构查询具有并行可扩展算法;在世界上首次理论证明了并行不可扩展问题的存在,即图模拟问题不具有并行可扩展算法。并对于图的可达性查询图数据的不一致性错误的检测、图约束的自动发现、图的关联规则发现、量化图模式匹配等问题设计了并行可扩展的算法。
在并行计算模型方面,提出了基于不动点计算、对单机算法即插即用的并行图计算模型,并提出结合同步与异步通信模式自适应的并行计算模式以降低计算成本。其中,研究成果与分别获得国际数据库领域顶级会议SIGMOD 2017的最佳论文奖和VLDB 2017的最佳演示奖,以及ACM SIGMOD 突出研究奖(2018)。
通过基础研究带动系统研发,与应用研究相结合的方式,开创大数据计算复杂性、资源受限环境下的大数据计算方法、并行程序设计与计算模型、机器学习可解释性、图结构大数据质量等研究方向,取得原创性研究成果,开发面向大规模结构化(关系数据)和半结构化(图结构)大数据的计算引擎,在国际基础软件业打造至少1-2个中国自主原创的品牌。实现完整的、自主可控的高性能人工智能计算平台的生态体系,并建立大数据产学研转化合作机制,为应用方提供大数据计算平台和应用完备解决方案。
在智能取证方面,构建可应用于多媒体取证分析的特征提取和机器学习方法,提出适用于实际取证场景的数据处理方法以及基于新型机器学习方法的取证框架。在基于取证的媒体内容安全关键技术上形成突破。根据对实际应用需求的分析,提出并实现一系列媒体内容取证关键技术,包括伪造诈骗电话辨识技术、虚假人脸识别技术、伪造虚假图像和音视频取证技术。
在国内外重要期刊和学术会议发表论文50篇以上,申报专利、软件著作权及其它知识产权100个以上。
团队定位于建立深圳市大数据计算的科研和产业化集群。将开发面向大规模结构化和半结构化数据的计算引擎,在国际基础软件业打造至少1-2个中国自主原创的品牌。同时专注于产学研紧密互动,推动研究成果的产品化和产业化,成为国内大数据技术转化的重要基地,培育孵化创新企业4-5家,带动一批新兴产业实体发展,以高技术为牵引,为经济转型升级提供支撑。
团队以国家相关战略需求为导向,紧密跟踪国际人工智能技术与产业发展趋势,在既有优势的基础上,凝练出新的研究领域和技术突破方向,开展相关基础理论研究与源头技术创新,不断丰富和完善具有自主知识产权的人工智能技术体系,推动高性能计算平台的产业化应用,成为国内领先的人工智能共性关键技术研发基地;
团队引领大数据软件跨领域科学技术融合创新,聚集和吸引一批国内外大数据产业的合作企业,辐射全国多个大数据领域创新项目。团队的中期任务是建设大数据计算学科基地,优化软件产业结构,打造大数据计算产学研一体化集群,作为深圳在中国乃至世界范围的一张城市名片。
发展大数据产业,可以对国内外现有的新兴产业热点如AI进行系统地融合交叉,升级为一个新兴的综合学科和产业集群,打造有链条、有循环、有体系的平台级大型产学研生态系统。这一平台将组织各学科各产业领军团队跨界深度协作,开展有前瞻性和全局观的顶层设计,攻克融合部位的一系列重点难关,通过规模化快速产业转化突破平台规模发展瓶颈,带动整体产业升级和生态形成。
团队将通过人才引进、项目合作、自身培养等形式,实现拥有本领域国际顶尖科学家10名,达到国际一流学术水平的研究人员30名,高水平科学研究与系统研发人员160名,逐步把团队建设成为国际知名的计算科学创新群体。在国内外学术交流平台建设方面,合作的国际知名大学和科研院不少于5所,国内外总计达到10所。以相关技术、人才、平台、环境为基础,创立人工智能学科,培养多层次(本、硕、博)人工智能人才,包括培养博士后8名;培养博士生8名;培养硕士生15名。