组织正不断采用自动文本摘要技术,以更高效地管理海量信息并做出明智决策。在金融行业,投资银行会提炼财报中的关键要点,迅速分析季度表现;媒体公司则利用摘要监控新闻与社交媒体,使记者能够迅速撰写关于突发事件的报道;政府机构会对冗长的政策文件和报告进行摘要,协助政策制定者战略规划和设定优先目标。
通过创建长篇复杂文档的浓缩版本,摘要技术使用户能够聚焦最重要的内容,从而提高理解力与信息保留率。这种时间上的节省使利益相关者能够在更短的时间内审阅更多材料,获得更广泛的视角。通过增强的理解力与更系统的洞见,组织能够做出更为明智的战略决策,加速研究、提升生产力,并扩大其影响力。随着更多行业采用人工智能AI来应对信息泛滥,先进的摘要能力的转变潜力将持续增长。
在这篇文章中,我们探讨了客观评估摘要准确性的主要方法,包括ROUGE指标、METEOR和BERTScore。理解这些技术的优缺点可以指导选择和改进措施,本文的总体目标是帮助团队消除摘要评估的神秘感,以更好地基准评估在这一关键能力上的表现,并寻求最大化价值。
摘要一般可以分为两种主要类型:提取式摘要和抽象式摘要。这两种方法都旨在将冗长的文字缩短为简洁的形式,捕捉原始内容的关键信息或精髓,但它们在根本上采用了不同的方式。
提取式摘要涉及识别并提取原文中的关键短语、句子或段落,而不进行任何更改。该系统选择被视为最具信息量或代表性的文本部分,如果准确性至关重要且摘要需要反映原文中的确切信息,这种方式是非常有用的。通常用于强调条款中的特定法律术语、义务和权利。提取式摘要常用的技术包括正确率逆文档频率TFIDF、句子评分、文本排名算法和有监督的机器学习ML。

抽象式摘要则进一步生成原文中未出现的新短语和句子,本质上是对原文内容的改述和浓缩。这种方法需要对文本有更深刻的理解,因为AI需要对意思进行解释,然后以新的、简洁的形式表达。大型语言模型LLMs最适合应用于抽象式摘要,因为变换器模型利用注意力机制在生成摘要时聚焦于输入文本中相关的部分。注意力机制使得模型能够分配不同的权重给输入序列中的不同词汇或标记,从而捕捉长距离依赖和语境相关的信息。
除了这两种主要类型,还有结合提取式与抽象式方法的混合方式。这些方法可能首先进行提取式摘要,以识别最重要的内容,然后使用抽象式技术将这些内容重写或浓缩为流畅的摘要。
寻找评估摘要质量的最佳方法仍然是一个开放的挑战。随着组织越来越依赖自动文本摘要从文档中提炼关键信息,对标准化技术以衡量摘要准确性的需求也在增长。理想情况下,这些评估指标可以量化机器生成的摘要在多大程度上从源文本中提取了最显著的内容,并以反映原始含义和背景的方式呈现连贯摘要。
然而,为文本摘要开发稳健的评估方法面临很多困难:
用作对比的人类编写的参考摘要往往在重要性方面表现出高度的差异性。摘要质量的微妙方面,例如流畅性、可读性和连贯性,程序化量化起来非常困难。各种摘要方法之间存在很大的差异,从传统统计算法到神经网络,直接比较也因此变得复杂。ROUGE指标例如ROUGEN和ROUGEL在评估机器生成摘要的质量时,与人类编写的参考摘要进行比较时扮演着至关重要的角色。这些指标专注于通过分析ngram词组或标记的组合来评估机器生成与人类编写摘要内容的重叠程度。举个例子,ROUGE1评估单个词unigram的匹配,而ROUGE2则考虑词对bigram。此外,ROUGEN评估两篇文本之间的最长公共子序列,允许词序的灵活性。
下面的例子展示了ROUGE1、ROUGE2和ROUGEN指标在评估自动摘要或机器翻译任务中的作用,通过与参考摘要比较不同级别的词序列:
ROUGE1指标说明评估生成摘要与参考摘要之间的单字重叠。例如,参考摘要包含“快速的棕色狐狸跳跃”,生成摘要为“棕色狐狸迅速跳跃”,ROUGE1会将“棕色”、“狐狸”和“跳跃”视为重叠单字。ROUGE2指标说明评估生成摘要与参考摘要之间的相邻词双字重叠。例如,参考摘要包含“猫在睡觉”,生成摘要为“一只猫在睡觉”,ROUGE2会识别“猫在”和“在睡觉”为重叠双字。ROUGEN指标说明是一种广义形式,N代表任意数字,允许基于ngram评估。假设N=3,如果参考摘要为“太阳照耀着”,生成摘要为“阳光灿烂”,则ROUGE3会将“阳光灿烂”视为相匹配的三字组合。这些示例展示了ROUGE1、ROUGE2和ROUGEN指标在评估机器生成摘要中的应用,通过根据不同长度的词序列进行比较。
可以使用以下步骤计算ROUGEN分数:
使用基本的标记化方法,如按空格分割或使用自然语言处理NLP库,将生成的摘要和参考摘要标记化为单个词或标记。从生成摘要和参考摘要中生成ngram连续的N个词序列。计算生成摘要与参考摘要之间的重叠ngram数量。计算精确度、召回率和F1分数:精确度 重叠的ngram数量除以生成摘要中的ngram总数。召回率 重叠的ngram数量除以参考摘要中的ngram总数。F1分数 精确度和召回率的调和平均值,计算公式为(2 精确度 召回率) / (精确度 召回率)。从数据集中每行计算得出的聚合F1分数视作ROUGEN分数。ROUGE有以下局限性:
过于依赖词汇重叠 ROUGE的核心思想是将系统生成的摘要与一组参考或人类创建的摘要进行比较,并测量它们之间的词汇重叠。这意味着ROUGE非常关注词级相似性,而不真正评估摘要的语义含义、连贯性或可读性。一个系统可能只通过逐字提取原始文本中的句子来获得高ROUGE分数,而不会生成连贯或简洁的摘要。对改述的敏感度不高 由于ROUGE依赖于词汇匹配,它无法检测词和短语之间的语义等价性。因此,即使保留了意图,改述和同义词的使用通常会导致较低的ROUGE分数,这对以抽象方式进行摘要的系统是不利的。缺乏语义理解 ROUGE不评估系统是否真正理解了原文中的含义和概念。一个摘要可能与参考文献具有高词汇重叠,而忽视了主要思想或包含事实不一致。ROUGE无法识别这些问题。ROUGE计算简单且快速。将其用于与内容选择相关的摘要质量基线或基准测试。ROUGE指标在抽象摘要任务、自动摘要评估、LLM评估以及不同摘要方法的比较分析等场景中最为有效。通过在这些上下文中使用ROUGE指标,利益相关者可以定量评估摘要生成过程的质量和有效性。
评估摘要系统的一大挑战是评估生成的摘要逻辑流畅性,而不仅仅是从源文本中选择相关的单词和短语。简单提取关键词和句子未必能产生连贯而有机的摘要。摘要应当顺畅流畅,逻辑连接,即使它们的呈现顺序与原始文档不同。
通过将单词减少到其根基形式或者基础形式例如,词干提取后,“running”、“runs”和“ran”都变成“run”和同义词的灵活匹配,METEOR与人类对摘要质量的判断关联性更强。它能够识别是否保留了重要内容,即使措辞有所不同。这是METEOR相对于基于ngram的指标如ROUGE的关键优势,后者仅关注确切的标记匹配。METEOR还对关注参考内容中最重要内容的摘要给予更高分数,而对重复或不相关的信息则低分。这与摘要的目标非常吻合,即仅保留最重要的内容。METEOR是一个具备语义意义的指标,能够克服ngram匹配在文本摘要评估中的一些局限性。通过采用词干提取和同义词的匹配,METEOR允许更好地评估信息重叠和内容准确性。
举例来说,考虑以下示例:
参考摘要:“秋季树叶落下。”
生成摘要1:“秋天树叶掉落。”
生成摘要2:“夏天树叶青绿。”
在参考和生成摘要1中匹配的词汇突出显示:
参考摘要:“秋季树叶落下。”
生成摘要1:“秋天树叶掉落。”
尽管“秋天”与“秋季”是不同的标记,METEOR通过同义词匹配对此进行了识别。虽然对于生成摘要2,除了“树叶”外,没有与参考摘要匹配的内容,因此该摘要将获得较低的METEOR分数。语义相关性更高的匹配会使METEOR分数更高。这使得METEOR能更好地评估摘要的内容与准确性,与简单的ngram匹配相比更具优势。
完成以下步骤以计算METEOR分数:
使用基本标记化方法分割生成的摘要和参考摘要,将其标记化为单个词或标记。计算单字正则精度、召回率和F均值得分,给予召回率更高的权重。对于确切匹配施加惩罚,以防止对其过度强调。根据数据集特性、任务要求和精确度与召回率之间的平衡选择惩罚。此外从步骤2中计算的F均值得分中减去这个惩罚。计算词干形式的F均值得分,并对适用的单字同义词聚合,得到最终的METEOR分数。METEOR评分范围为0至1,0表示生成摘要与参考摘要之间没有相似性,而1表示完美对齐。通常,摘要得分落在0到06之间。在使用METEOR指标评估摘要任务时,可能会遇到一些挑战:
语义复杂性 METEOR高度关注语义相似性,可能难以捕捉复杂摘要任务中微妙的含义和背景,导致评估时的准确性下降。参考变异性 人工生成的参考摘要的变异性可能会影响METEOR分数,因为参考内容的差异可能影响机器生成摘要的评估。语言多样性 METEOR的有效性可能因语言而异,由于语言差异、语法差异和语义细微之处,可能在多语言摘要评估中带来挑战。长度差异 评估长度不同的摘要时,METEOR可能面临挑战,因为与参考摘要相比的长度差异可能导致惩罚或评估不准确。参数调优 为不同的数据集和摘要任务优化METEOR的参数可能耗时且需要仔细调节,以确保指标提供准确的评估。评估偏差 如果未能根据特定摘要领域或任务进行适当调整或校准,METEOR可能会出现评估偏差,从而导致结果偏颇并影响评估过程的可靠性。意识到这些挑战并在使用METEOR作为摘要任务评估指标时予以考虑,研究人员和实践者能够在评估过程中更好地应对潜在局限性,做出更明智的决策。
METEOR通常用于自动评估文本摘要的质量。当摘要中的思想、概念或实体的顺序很重要时,优先使用METEOR作为评估指标。METEOR考虑摘要的顺序,并根据生成的摘要和参考摘要之间匹配的ngram进行评分。它鼓励保持连续性信息的摘要。与依靠与参考摘要的ngram重叠的ROUGE指标不同,METEOR匹配词干、同义词和改述。当有多种正确的方式来摘要原始文本时,METEOR的性能更佳。METEOR在匹配ngram时整合了WordNet同义词和词干标记。因此,即使采用不同的词或表达方式,语义相似的摘要仍会得分较高。METEOR针对重复的ngram引入了惩罚,因此不鼓励逐字提取或缺乏抽象的做法。当语义相似性、思想顺序和流畅表达对判断摘要质量至关重要时,METEOR是一个良好的选择。它不适合仅依赖于与参考摘要的词汇重叠的任务。
ROUGE和METEOR等表面级词汇度量通过比较候选摘要和参考摘要之间的词汇重叠来评估摘要系统。然而,它们严重依赖于词词之间的确切字符串匹配。这意味着它们可能会错过具有不同表面形式但相似潜在含义的词汇之间的语义相似性。仅依赖于表面匹配,这些指标可能会低估使用同义词或以不同方式改写概念的系统摘要的质量。两个摘要可能传达几乎相同的信息,但由于词汇差异却获得较低的表面级分数。
BERTScore是一种自动评估摘要质量的方法,它通过与人类撰写的参考摘要进行比较来实现。它利用BERT这一流行的NLP技术来理解候选摘要和参考摘要中词汇的含义与上下文。具体来说,它检查候选摘要中的每个词或标记,并根据BERT的嵌入代表每个词的含义和上下文的向量表示找到与参考摘要中最相似的词。通过余弦相似度来测量相似性,余弦相似度指示向量之间在多维空间中的接近程度。对于候选摘要中的每个词,它都使用BERT对语言的理解找到与参考摘要中最相关的词。它比较这些单词在整个摘要中的相似性,以获得候选摘要与参考摘要的整体语义相似性评分。词汇和含义越相似,BERTScore就越高。这使其能够在无需每次都进行人类评估的情况下,自动评估生成摘要的质量。
下面是简单示例,想象你有一个机器生成的摘要:“快速的棕色狐狸跳过懒狗。”现在,我们考虑人类撰写的参考摘要:“一只快速的棕色狐狸跳过一只沉睡的犬类。”
完成以下步骤以计算BERTScore:
nord加速器最新版BERTScore使用上下文嵌入来表示候选机器生成和参考人类编写销售热线
营销一部(传统产品):王部长 15371160678
营销二部(光伏焊带):曹部长 13921871003
电子邮箱
hallowed@mac.com
公司地址
邵武市因若之巅325号