本文以企业专利撰写、审稿和申请的专利文本优化为目标:即使权利要求的最大化;以及技术说明信息公开的最小化,综合采用包括:信息熵、编辑距离、邻近距离矩阵、最邻近矩阵图形等一系列算法,提供一套基于计算机算法自动、高效专利全文的评估和可视化方法、流程及软件平台,进而实现企业专利文本中权利要求和技术说明书的自动化查找、比对和校核的流程,为企业专利撰写、审稿和申请的质量的提升,提供了一套智能化评估的策略和方法。
01
文本的辩证关系
一篇完整的专利申请文件应当由如下三部分信息组成:1. 基本信息及摘要;2.技术说明书;3.权利要求。其中技术说明书通常由发明人或研发人员撰写,以尽可能准确地描述其发明内容和技术特征,而权利要求通常由企业的专利工程师或专利代理撰写,他们在阅读和理解了发明人的技术构思后,将其内容和信息转换为法律式的描述语言,并声明该项发明的权利要求。
企业申请专利的目的是通过公开技术换取受法律保护的权利,进而保护本企业的产品和市场。技术说明书和权利要求都是一篇专利申请文件不可或缺的部分,两者在文本内容和信息上具有高度的相似性。它们都是在从不同的角度描述同一项发明的两个方面。技术说明书侧重技术方面,而权利要求侧重法律方面。从诞生和发展的时间顺序上说,技术说明书由发明人先行撰写,随后权利要求由专利代理人撰写,所以是先有技术说明书,后有权利要求。而从法律和经济价值而言,权利要求经过各国知识产权相关部门的认定和授权,具有明确的法律价值和市场保护的作用,而技术说明书仅是为了说明该项技术或支持权利要求授权的信息载体,技术信息公开后并不直接具备法律或经济价值。
图1 权利要求同技术说明书的辩证关系集合图
中间交集:如下图1中部所示,可以将技术说明书和权利要求的信息,视为两个不同的信息集合。在两者相交的部分,即技术说明书所描述的信息能够在权利要求加以声明并进而获得授权,这部分的信息公开后,可以认为是有效地申请了权利要求,同时也是安全地保护了技术信息。
左侧补集:如图1左侧所示,这类信息在技术说明书中描述了,但在权利要求中并没有对应的声明。通常这类问题可以有两种解决方案,一是确认技术说明书中所述内容是否为本发明应保护的技术特征?如果是,则应在权利要求部分进行适当地补充。专利代理人可能是漏写、遗忘或理解不同,人为的疏漏是时有发生的。二是该部分技术信息确实没什么再可提炼或归纳到权利要求中的了,发明人或研发人员在撰写专利技术说明时,往往事无巨细像写技术文档一般,把重要的和不重要的、该写的和不该写的都写了。这类的技术信息公开后,既得不到法律保护,又是在对本企业技术的一种“泄漏”,因此建议将这类无用信息全部删除或移除。
右侧补集:如图1右侧所示,这类信息在权利要求中声明了,但在技术说明书中并没有对应的描述。这类情况存在于集合的理论上,而实际上发生的可能性却是极少的。进一步分析这类情况的得失,首先它对企业申请并获得更多的权利并没有坏处,对企业也不会造成任何损失。但是,一项没有技术说明或技术支持的权利要求,将很难通过专利审查员的审核,并获得之后对该项权利要求的授权。此外,发明专利需经历1年以上的公开期,同行或竞争对手是否会对此质疑,也未可知。所以这类的权利要求,极有可能会是“竹篮打水一场空”。
02
信息等熵概念
那么如何才能大批量、高效率、高质量地生产“滴水不漏”又是“恰如其分”的专利呢?本文提出一种对大部分企业专利撰写、审稿和申请普遍适用的有效策略和方法。在文本上体现为,技术说明书和权利要求应当“信息等熵”,即技术交底书和权利要求信息基本相同或相近,两者除了表述方式以外,在信息内容上没有什么太大的差异或不同,效果如图2所示。实际情况下,技术说明书的信息熵会略大于权利要求的信息熵。简单地说,就是有多大的技术,申请多大的权利。
此后本文采用计算机算法查找和比较的方法建立在信息等熵的策略基础上,为企业提供一种有效的专利申请文本自动检测的功能,进而提高专利撰写、审稿和申请工作的有效性和准确性,同时保障企业的技术信息安全。
图2 权利要求同技术说明书的信息等熵概念图
03
专利文本的信息熵
信息熵的概念由香农于1948年提出,解决了对信息的量化度量问题。“熵”最早源于热力学热熵的概念,表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度,也是第一次用数学语言阐明了概率与信息冗余度的关系。
如下以一篇代表性专利(中国专利申请号:201210078765.8)计算该文本字符串的信息熵。摘要文本作为是对专利全文的一种归纳和浓缩,其信息熵为3.98,权利要求文本的信息熵为4.34,技术说明书的信息熵为5.05。此外,权利要求熵占技术说明书熵的比值为85.86%,说明该权利要求撰写和提炼信息的效果较好。
权利要求熵同技术说明书熵的占比值应当在一定合理范围之间,如果该数值低于您或本企业的期望值,那么您应该考虑将该专利申请文本退回代理,或要求重新撰写权利要求,类似方法也可定量评估摘要撰写和提炼的质量。
图3 专利文本信息熵分布图
04
最近邻居算法概念
最近邻居算法(Nearest Neighbor Algorithm)最早源于对旅行商问题(Traveling Salesman Problem)的求解,而2004年有人提出可将最近邻居算法用于对文本字符串进行处理和分类。
如图4所示,输入一些简单的字符串:专、专利、专业、专心、专门、专心专门、一专多能、专心致志、知识产权、专心致志一心一意、产品产量。通过最近邻居算法会首先计算每个字符串之间的编辑距离(Edit Distance),如图4左图所示。随后依据相互之间距离值的大小确定距离矩阵(Distance Matrix),进而生成二维的最近邻居图形(Nearest Neighbor Graph)。
图4 邻近矩阵概念和邻近矩阵图(K=2)
如图5所示,仍以中国专利申请号201210078765.8为例,选取其权利要求1,同技术说明书中的所有文本比较,并计算距离矩阵便可获得邻近距离最小值,便得到了该项权利要求对应技术说明书的最接近的文本和语句。
图5 单项权利要求同技术说明书的最邻近距离分布图
如图5所示,更进一步将该专利文本所有的权利要求同技术说明书中的所有文本比较,并计算距离矩阵便可获得最近距离和最远距离的对应邻居和语句。
图6 权利要求同技术说明书最邻近矩阵等值图
其中,通过定量的距离矩阵中最远距离的评估即可得到,技术说明书中同权利要求较远的描述和说明,如下所示。
- [0063]模型修正是指根据更多的设计约束对算法所得的主基板100的外部结构进行有效的修正,它是一种对模型进行局部的、应用性的修正和完善的过程。
- [0020]本发明的又一目的是针对现有技术的缺陷,提供一种制造上述多面体主基板的制造方法。
- 主基板100的各板材之间采用焊接工艺,其工艺为“先下后上,先内后外”的顺序。
这一类的文本则有必要再次确认,是否是发明重要信息或技术特征?1.如果是重要信息,那么应该在权利要求中补充相应的声明。2.如果不重要或可有可无,则应当果断地将其从技术说明书中移除,因为它们不能直接支持权利要求的授权,又属于无用或无关信息或描述。
如图7所示,更进一步将该专利全文体现在最近邻居矩阵的等值线图中,并根据距离函数的远近得到那些对权利要求和技术说明都最为疏远的语句,斟酌进行删除或优化,输出结果略。
图7 专利全文(含权利要求和技术说明书)最邻近矩阵等值图
05
算法部署和应用
为便于用户群,如发明人、专利工程师、专利代理和专利审查员,更为直观的比较和查找每项权利要求对应的技术说明书,可将最近邻近矩阵通过图形的方式可视化,如图8和图9所示,其中红色点代表权利要求的声明语句,蓝色点代表技术说明书的描述语句,将鼠标移至每个点的上方,即可显示具体的文本信息。
图8 单项权利要求同技术说明书的最邻近距离图
图9 所有权利要求同技术说明书的最邻近距离图
06
总结
本文所述平台软件,数据基于Derwent专利数据库,开发语言基于Wolfram Mathematica,专利审稿和分析平台支持中文和英文专利原文比对和查找,在企业专利撰写、审稿和申请的过程中具有如下优势和特点:
- 有效评估专利全文及各部分的信息熵及相对比例值,进而文本质量评估;
- 软件全自动化查找和比对文本,提高专利撰写、审稿和申请的效率;
- 提醒和高亮在权利要求同技术说明书的差异信息和内容,便于审阅;
- 优化企业专利权利要求撰写和审稿质量,有效减少权利要求的遗漏项;
- 提高企业专利技术说明书撰写和审稿质量,有效减少无用信息泄露企业技术的风险。
【作者简介】
吴飞
任职于上海微电子装备(集团)股份有限公司,创新业务主管,发表专著1部,获发明专利授权24项。

没有评论:
发表评论