润桐专利查询Rainpat: 专利文本智能化审稿的策略和方法

本文以企业专利撰写、审稿和申请的专利文本优化为目标：即使权利要求的最大化；以及技术说明信息公开的最小化，综合采用包括：信息熵、编辑距离、邻近距离矩阵、最邻近矩阵图形等一系列算法，提供一套基于计算机算法自动、高效专利全文的评估和可视化方法、流程及软件平台，进而实现企业专利文本中权利要求和技术说明书的自动化查找、比对和校核的流程，为企业专利撰写、审稿和申请的质量的提升，提供了一套智能化评估的策略和方法。

文本的辩证关系

一篇完整的专利申请文件应当由如下三部分信息组成：1. 基本信息及摘要；2.技术说明书；3.权利要求。其中技术说明书通常由发明人或研发人员撰写，以尽可能准确地描述其发明内容和技术特征，而权利要求通常由企业的专利工程师或专利代理撰写，他们在阅读和理解了发明人的技术构思后，将其内容和信息转换为法律式的描述语言，并声明该项发明的权利要求。

企业申请专利的目的是通过公开技术换取受法律保护的权利，进而保护本企业的产品和市场。技术说明书和权利要求都是一篇专利申请文件不可或缺的部分，两者在文本内容和信息上具有高度的相似性。它们都是在从不同的角度描述同一项发明的两个方面。技术说明书侧重技术方面，而权利要求侧重法律方面。从诞生和发展的时间顺序上说，技术说明书由发明人先行撰写，随后权利要求由专利代理人撰写，所以是先有技术说明书，后有权利要求。而从法律和经济价值而言，权利要求经过各国知识产权相关部门的认定和授权，具有明确的法律价值和市场保护的作用，而技术说明书仅是为了说明该项技术或支持权利要求授权的信息载体，技术信息公开后并不直接具备法律或经济价值。

图1 权利要求同技术说明书的辩证关系集合图

中间交集：如下图1中部所示，可以将技术说明书和权利要求的信息，视为两个不同的信息集合。在两者相交的部分，即技术说明书所描述的信息能够在权利要求加以声明并进而获得授权，这部分的信息公开后，可以认为是有效地申请了权利要求，同时也是安全地保护了技术信息。

左侧补集：如图1左侧所示，这类信息在技术说明书中描述了，但在权利要求中并没有对应的声明。通常这类问题可以有两种解决方案，一是确认技术说明书中所述内容是否为本发明应保护的技术特征？如果是，则应在权利要求部分进行适当地补充。专利代理人可能是漏写、遗忘或理解不同，人为的疏漏是时有发生的。二是该部分技术信息确实没什么再可提炼或归纳到权利要求中的了，发明人或研发人员在撰写专利技术说明时，往往事无巨细像写技术文档一般，把重要的和不重要的、该写的和不该写的都写了。这类的技术信息公开后，既得不到法律保护，又是在对本企业技术的一种“泄漏”，因此建议将这类无用信息全部删除或移除。

右侧补集：如图1右侧所示，这类信息在权利要求中声明了，但在技术说明书中并没有对应的描述。这类情况存在于集合的理论上，而实际上发生的可能性却是极少的。进一步分析这类情况的得失，首先它对企业申请并获得更多的权利并没有坏处，对企业也不会造成任何损失。但是，一项没有技术说明或技术支持的权利要求，将很难通过专利审查员的审核，并获得之后对该项权利要求的授权。此外，发明专利需经历1年以上的公开期，同行或竞争对手是否会对此质疑，也未可知。所以这类的权利要求，极有可能会是“竹篮打水一场空”。

信息等熵概念

那么如何才能大批量、高效率、高质量地生产“滴水不漏”又是“恰如其分”的专利呢？本文提出一种对大部分企业专利撰写、审稿和申请普遍适用的有效策略和方法。在文本上体现为，技术说明书和权利要求应当“信息等熵”，即技术交底书和权利要求信息基本相同或相近，两者除了表述方式以外，在信息内容上没有什么太大的差异或不同，效果如图2所示。实际情况下，技术说明书的信息熵会略大于权利要求的信息熵。简单地说，就是有多大的技术，申请多大的权利。

此后本文采用计算机算法查找和比较的方法建立在信息等熵的策略基础上，为企业提供一种有效的专利申请文本自动检测的功能，进而提高专利撰写、审稿和申请工作的有效性和准确性，同时保障企业的技术信息安全。

图2 权利要求同技术说明书的信息等熵概念图

专利文本的信息熵

信息熵的概念由香农于1948年提出，解决了对信息的量化度量问题。“熵”最早源于热力学热熵的概念，表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度，也是第一次用数学语言阐明了概率与信息冗余度的关系。

如下以一篇代表性专利（中国专利申请号：201210078765.8）计算该文本字符串的信息熵。摘要文本作为是对专利全文的一种归纳和浓缩，其信息熵为3.98，权利要求文本的信息熵为4.34，技术说明书的信息熵为5.05。此外，权利要求熵占技术说明书熵的比值为85.86%，说明该权利要求撰写和提炼信息的效果较好。

权利要求熵同技术说明书熵的占比值应当在一定合理范围之间，如果该数值低于您或本企业的期望值，那么您应该考虑将该专利申请文本退回代理，或要求重新撰写权利要求，类似方法也可定量评估摘要撰写和提炼的质量。

图3 专利文本信息熵分布图

最近邻居算法概念

最近邻居算法（Nearest Neighbor Algorithm）最早源于对旅行商问题（Traveling Salesman Problem）的求解，而2004年有人提出可将最近邻居算法用于对文本字符串进行处理和分类。

如图4所示，输入一些简单的字符串：专、专利、专业、专心、专门、专心专门、一专多能、专心致志、知识产权、专心致志一心一意、产品产量。通过最近邻居算法会首先计算每个字符串之间的编辑距离（Edit Distance），如图4左图所示。随后依据相互之间距离值的大小确定距离矩阵（Distance Matrix），进而生成二维的最近邻居图形（Nearest Neighbor Graph）。