天然语言处理(英文NaturallanguageProcessing,简称NLP)是人工智能(英文Artificialintelligence,简称AI)领域的重要研究课题,被称为人工智能技术的掌上明珠,人与计算机之间用自然语言实现有效通信的各种理论和方法,涉及面非常广泛。国际知名学者周海中先生指出:自然语言处理是一个极具吸引力的研究领域,具有重要的理论意义和实用价值。目前,NLP已经成为推动科学技术发展的强大动力,成为世界各国综合国力竞争的焦点。
NLP主要研究各种理论和方法,可以实现人与计算机之间用自然语言进行有效的通信。使用自然语言与计算机进行通信具有非常重要的实用意义和革命性的理论意义。实现人机之间的自然语言通信意味着计算机不仅可以理解自然语言文本的含义,还可以用自然语言文本表达给定的意图和思想。前者称为自然语言理解(英语NaturallanguageUnderstanding,简称NLU),后者称为自然语言生成(英语NaturallanguageGeration,简称NLG)。所以NLP一般包括NLU和NLG;因为处理自然语言的关键是让计算机理解自然语言,所以一般把NLU视为NLP,也叫计算语言学。
NLP是一门集语言学、计算机科学和数学于一体的科学。所以这个领域的研究会涉及到自然语言,也就是人们日常使用的语言,所以它和语言学的研究有着密切的联系,但是有着重要的区别。NLP不是一般研究自然语言,而是开发一个能有效实现自然语言通信的计算机系统,尤其是软件系统。所以是计算机科学的一部分。可以说,NLP是计算机科学、语言学、人工智能等关注计算机和人类语言相互作用的领域。目前,人们对人工智能的需求已经从计算智能和感知智能转变为以NLP为代表的认知智能。没有成功的NLP,就没有真正的认知智能。
因为人工智能包括感知智能(如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理),语言在认知智能中扮演着重要角色。假如能够解决语言问题,人工智能最困难的部分也将基本解决。美国微软公司创始人比尔·盖茨先生曾说过,语言理解是人工智能领域皇冠上的明珠。前微软全球执行副总裁沈向洋先生也在公开演讲中说:了解语言的人得天下…下一个十年,人工智能的突破在于对自然语言的理解…人工智能对人类影响最大的是自然语言。因为了解自然语言需要对外部世界的广泛知识和应用操作这些知识的能力,NLP也被认为是解决AI完整(AI-complete)的核心问题之一。NLP现在是AI领域的一个重要研究课题,对其研究也充满了魅力和挑战。
目前,人工智能技术在认知智能方面仍然面临着诸多挑战。假如我们有所提高,我们的认知智能将进一步提高,包括语言理解、推理、回答问题、分析、解决问题、写作、对话等等。再加上感知智能的提高,声音、图像、文字的识别和生成,以及多模态文字、图交叉的能力,通过文字可以生成图像,根据图像可以生成描述的文字等等,我们可以推动许多人类的应用,包括搜索引擎、智能客户服务,包括教育、财政、电子商务等各个方面的应用;还可以将AI技术应用于我们的行业,帮助行业实现数字化转型。
NLPNLP研究是机器翻译。1949年,美国著名科学家沃伦·韦弗先生首先提出了机器翻译设计方案。20世纪60年代,许多科学家对机器翻译进行了大规模的研究,花费了巨大的成本。然而,他们显然低估了自然语言的复杂性,语言处理的理论和技术不成熟,所以进展不大。当时的主要做法是存储两种语言的单词和短语对应翻译的大辞典,翻译时一一对应,技术上只是调整同一种语言的顺序。然而,日常生活中语言的翻译远不是那么简单。在很多情况下,我们需要参考某句话前后的含义,需要上下文的联系才能正确翻译——这就是机器翻译技术难度高的地方。
大约从20世纪90年代开始,NLP领域发生了巨大的变化。这种变化有两个明显的特点:(1)对于系统的输入,要求开发的NLP系统可以处理大规模的真实文本,而不是像以前的研究系统那样,只能处理少量的词条和典型句子。只有这样,开发出来的系统才有真正的实用价值。(2)对于系统的输出,鉴于对自然语言的真实理解非常困难,对于系统来说,不需要对自然语言文本有深入的理解,但要从中提取有用的信息。同时,由于强调大规模和真实文本,以下两个基础工作也得到了重视和加强:(1)大规模真实语料库的开发。经过大规模不同深度加工的真实文本的语料库是研究自然语言统计性质的基础;如果没有这样的语料库,统计方法只能是无源之水。(2)大规模、信息丰富的词典搭配,甚至包含数万字典的数十几十万词典。
NLP的许多领域都体现了系统的输入输出这两个特点,它的发展直接推动了计算机自动检索技术的出现和兴起。事实上,随着计算机技术的不断发展,基于大量计算的机器学习、数据挖掘、数据建模等技术的表现也越来越出色。NLP之所以能度过寒冬,再一次发展,也是因为计算机科学和统计科学的不断结合,使人类甚至机器能够不断地从大量的数据中发现和学习特征。但是,要实现对自然语言的真正理解,仅从原始文本中学习是不够的,我们还需要新的方法和模型。
目前存在的问题主要有两个方面:一方面,迄今为止的语法仅限于分析孤立的句子,上下文关系和对话环境对句子的约束和影响缺乏系统的研究。因此,分析歧义、词汇省略、代词所指、同一句话在不同场合或不同人说出的不同意思没有明确的规律可循,需要加强语义学和语用学的研究才能逐步解决。另一方面,人们理解一个句子不仅仅是语法,还使用了大量的相关知识,包括生活知识和专业知识,这些知识不能全部储存在计算机中。因此,书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的储存和运行速度大大提高后,才能适当扩大范围。
由于语言工程和认知科学主要局限于实验室,数据处理可能是NLP应用场景最多的发展方向。事实上,自进入大数据时代以来,各大平台从未停止过对用户数据的深入挖掘。为了提取有用的信息,仅提取关键词和统计词频是远远不够的,必须对用户数据(尤其是演讲、评论等)进行语义理解。)。此外,利用离线大数据统计分析的方法研究NLP任务是目前非常有潜力的研究范式,尤其是谷歌、推特、百度等大公司在这种应用中的成功经验,引领了当前大数据研究的浪潮。
NLP是为各类企业和开发商提供的文本分析和挖掘的核心工具,已广泛应用于电子商务、金融、物流、医疗、文化娱乐等行业的客户。它可以帮助用户建立智能产品,如内容搜索、内容推荐、舆情识别和分析、文本结构化、对话机器人等。它还可以通过合作定制个性化解决方案。由于了解自然语言,需要外部世界的广泛知识和应用操作知识的能力,因此NLP也被视为解决强大人工智能的核心问题之一,其未来一般与人工智能发展密切结合,尤其是设计模仿人脑的神经网络。
成都融和实业排队叫号系统厂家(www.iritqq.com)是一家集研发、生产、营销、服务于一体的高新技术企业.主营智能排队叫号系统、医院分诊系统、排队机、叫号机、评价器(好差评系统)、呼叫器、多媒体查询及信息发布配套系统等,公司产品已广泛应用于不动产登记、智慧医疗、智慧税务、智慧政务、智慧金融、智慧通讯、智慧服务大厅、智慧机关单位等服务窗口行业.咨询电话:028-87438905。