万事娱乐注册 万事娱乐登录 万事娱乐招商QQ

Navigation menu

来源:未知 责任编辑:admin

万 事 娱 乐 注 册 (2023已更新(头条知乎) - 的个人空间 - OSCHINA

  万 事 娱 乐 注 册 【635901】【主管宗师】文本摘要 [65-74] 旨在将文本或文本集合转换为包含关键信息的简短摘要,是缓解文本信息过载的一个重要手段。文本摘要按照输入类型,可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要信息全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。此外,按照有无监督数据,文本摘要可以分为有监督摘要和无监督摘要。根据输入数据领域,文本摘要又可以分为新闻摘要、专利摘要、论文摘要、对话摘要等等。

  自动文本摘要可以看作是一个信息压缩的过程,我们将输入的一篇或多篇文档自动压缩为一篇简短的摘要,该过程不可避免地存在信息损失,但要求保留尽可能多的重要信息。自动文摘系统通常涉及对输入文档的理解、要点的筛选以及文摘合成这三个主要步骤。其中,文档理解可浅可深,大多数自动文摘系统只需要进行比较浅层的文档理解,例如段落划分、句子切分、词法分析等,也有文摘系统需要依赖句法解析、语义角色标注、指代消解,甚至深层语义分析等技术。

  对话摘要是文本摘要的一个特例,其核心面向的是对话类数据。对话类数据有着不同的形式,例如:会议、闲聊、邮件、辩论、客服等等。不同形式的对话摘要在自己的特定领域有着不同的应用场景,但是它们的核心与摘要任务的核心是一致的,都是为了捕捉对话中的关键信息,帮助快速理解对话的核心内容。与文本摘要不同的是,对话摘要的关键信息常常散落在不同之处,对话中的说话者、话题不停地转换。此外,当前也缺少对话摘要的数据集,这些都增大了对线] 。

  文本摘要从生成方式上可分为抽取式摘要和生成式摘要两种模式。抽取式摘要通常使用算法从源文档中提取现成的关键词、句子作为摘要句。在通顺度上,一般优于生成式摘要。但是,抽取式摘要会引入过多的冗余信息,无法体现摘要本身的特点。生成式摘要则是基于NLG(Natural Language Generation)技术,根据源文档内容,由算法模型生成自然语言描述,而非直接提取原文的句子。

  目前,生成式摘要很多工作都是基于深度学习中的Seq2Seq模型 [44] 。最近在以BERT [34] 为代表的大量预训练模型出世后,也有很多工作集中在如何利用预训练模型来做NLG任务。下面分别介绍上述两种模式下的经典模型。

  抽取式摘要从原文中选取关键词、关键句组成摘要。这种方法天然在语法、句法上错误率低,保证了一定的效果。传统的抽取式摘要方法使用图方法、聚类等方式完成无监督摘要。目前流行的基于神经网络的抽取式摘要,往往将问题建模为序列标注和句子排序两类任务。下面首先介绍传统的抽取式摘要方法,接着简述基于神经网络的抽取式摘要方法。

  一般来说,文档常常会在标题和文档开始就表明主题,因此最简单的方法就是抽取文档中的前几句作为摘要。常用的方法为Lead-3 [63] ,即抽取文档的前三句作为文档的摘要。Lead-3方法虽然简单直接,但却是非常有效的方法。

  TextRank [58] 算法仿照PageRank,将句子作为节点,使用句子间相似度,构造无向有权边。使用边上的权值迭代更新节点值,最后选取N个得分最高的节点,作为摘要。

  基于聚类的方法,将文档中的句子视为一个点,按照聚类的方式完成摘要。例如Padmakumar和Saran [11] 将文档中的句子使用Skip Thought Vectors和Paragram Embeddings两种方式进行编码,得到句子级别的向量表示。然后再使用K均值聚类 [59] 和Mean-Shift聚类 [60] 进行句子聚类,得到N个类别。最后从每个类别中,选择距离质心最近的句子,得到N个句子,作为最终的摘要。

  近年来神经网络风靡之后,基于神经网络的抽取式摘要方法比传统的抽取式摘要方法性能明显更高。基于神经网络的抽取式摘要方法主要分为序列标注方式和句子排序方式,其区别在于句子排序方式使用句子收益作为打分方式,考虑句子之间的相互关系。

  这种方法可以建模为序列标注任务进行处理,其核心想法是:为原文中的每一个句子打一个二分类标签(0或1),0代表该句不属于摘要,1代表该句属于摘要。最终摘要由所有标签为1的句子构成。

  这种方法的关键在于获得句子的表示,即将句子编码为一个向量,根据该向量进行二分类任务,例如SummaRuNNer模型 [48] ,使用双向GRU分别建模词语级别和句子级别的表示(模型如下图1所示)。蓝色部分为词语级别表示,红色部分为句子级别表示,对于每一个句子表示,有一个0、1标签输出,指示其是否是摘要。

  该模型的训练需要监督数据,现有数据集往往没有对应的句子级别的标签,可以通过启发式规则进行获取。具体方法为:首先选取原文中与标准摘要计算ROUGE得分最高的一句话加入候选集合,接着继续从原文中进行选择,保证选出的摘要集合ROUGE得分增加,直至无法满足该条件。得到的候选摘要集合对应的句子设为1标签,其余为0标签。

  抽取式摘要还可以建模为句子排序任务,与序列标注任务的不同点在于,序列标注对于每一个句子表示打一个0、1标签,而句子排序任务则是针对每个句子输出其是否是摘要句的概率,最终依据概率,选取Top K个句子作为最终摘要。虽然任务建模方式(最终选取摘要方式)不同,但是其核心关注点都是对于句子表示的建模。

  序列标注方式的模型在得到句子的表示以后对于句子进行打分,这就造成了打分与选择是分离的,先打分,后根据得分进行选择,没有利用到句子之间的关系。NeuSUM [49] 提出了一种新的打分方式,使用句子收益作为打分方式,考虑到了句子之间的相互关系。其模型NeuSUM如下图2所示:

  句子编码部分与之前基本相同。打分和抽取部分使用单向GRU和双层MLP完成。单向GRU用于记录过去抽取句子的情况,双层MLP用于打分,如下公式所示:

  抽取式摘要在语法、句法上有一定的保证,但是也面临了一定的问题,例如:内容选择错误、连贯性差、灵活性差等问题。生成式摘要允许摘要中包含新的词语或短语,灵活性较高。随着近几年神经网络模型的发展,序列到序列(Seq2Seq)模型被广泛地用于生成式摘要任务,并取得一定的成果。下面介绍生成式摘要模型中经典的Pointer-Generator [50] 模型和基于要点的生成式摘要模型Leader+Writer [4] 。

  仅使用Seq2Seq来完成生成式摘要存在如下问题:①未登录词问题(OOV);②重复生成问题。Pointer-Generator [50] 在基于注意力机制的Seq2Seq基础上增加了Copy和Coverage机制,有效地缓解了上述问题。其模型结构如下图3所示:

  该模型基于注意力机制的Seq2Seq模型,使用每一步解码的隐层状态与编码器的隐层状态计算权重,最终得到Context向量,利用Context向量和解码器隐层状态计算输出概率。

  Leader-Writer模型主要通过挖掘对话中存在的要点 (例如背景、结论等) 来生成摘要。作者总结了生成式摘要现存的几个问题:①逻辑性,例如在客服对话中,背景应该在结论之前;②完整性,即对话中存在的各个要点都应该在摘要中存在;③关键信息正确,例如“用户同意”和“用户不同意”虽然只有一字之差,但含义完全相反;④摘要过长问题。为了解决这些问题,本文提出了如下解决方案:

  对话具有关键信息散落、低信息密度、多领域、话题转换、说话者角色经常转换等特点,因此可以直接将文本摘要应用于对话摘要,一些研究工作也致力于解决这些问题。下面介绍2个有代表性的对话摘要模型:SPNet [53] 和TDS-SATM [54] 。

  针对对线个问题:①说话者众多;②难以正确总结关键实体信息;③对话领域众多、领域特性大。为此,本文提出了3个解决方案:

  对话的重要信息常常散落在不同句子当中,而大多数话语是不重要的常见表述,此外噪音和转义错误也常常出现在对话中。为了解决上述问题,作者提出了如下两个解决方法:

  未来保证良好的用户体验,美团有大量的人工客服来处理用户来电问题,客服同学接到电话后需手动记录电话的内容,耗时费力。一个有效的对话摘要模型可以大大增加客服同学的工作效率,降低人工客服处理每通来电的平均处理时间。

  尽管上述经典方法在CNN/Daily Mail、LCSTS等数据集上取得了不错的效果,但在实际的场景中仍然会遇到很多挑战。例如,生成式摘要依然缺少稳定性(重复或者产生奇怪的词)和逻辑性,而抽取式摘要如果没有明确的标注信息去训练模型,一般通过“ROUGE-L指标高的句子标为正例”的方式自动标注句子层次的标签,但这种只抽取句子层次的粗粒度方式也容易带来噪音。此外,现有对话摘要结果不可控,难以得到特定的信息要素。

  为了适用实际的场景,我们介绍基于阅读理解的Span-Level抽取式对话摘要方案,该方法基于现有人工客服记录的摘要,不需要额外标注,也取得了不错的结果。其中相关的成果发表也在SIGIR 2021国际会议上,下文将详细介绍该方法。

  DSMRC-S由一个基于BERT的MRC(Machine Reading Comprehension)模块、远程监督模块和一个基于密度的提取策略组成。在预处理阶段,对话中的Token会被自动标注,模型会被训练去预测对话中每个Token出现在答案中的概率。然后,基于上一步预测的概率,一个基于密度的提取策略会被用来提取最合适的Span作为答案。2023年2月28日1时13分57秒

  RuleGo v0.13.0 正式发布:Go 轻量级、高性能、嵌入式、编排式的规则引擎

  JumpServer 堡垒机 v3.6.0 发布,支持批量连接资产、账号密钥支持使用第三方密钥存储系统

  COSCLC 社区畅聊第八期: 1 周岁发布 MVP 版本,凹语言有话说!

  PicList V2.5.0 云存储-图床管理和图片上传工具,大版本更新发布

  Countly 23.06.9 发布,实时移动和 Web 分析报告平台

  Salesforce 领投 Hugging Face 新一轮融资,预计筹集 2 亿美元

  OpenAI 为 GPT-3.5 Turbo 推出微调功能 (fine-tuning)

  WPS Office 远程代码执行漏洞(WPSSRC-2023-0701绕过)

  十城百校联动!HDC.Together 2023 HarmonyOS学生公开课与千余名校园学子见证鸿蒙力量

  功能解析:如何在 Apinto 实现 HTTP 与gRPC 的协议转换 (上)

  壕礼不停,精彩继续——LiveVideoStackCon 2022 北京站 Day 2

  ILLA Cloud: 调用 Hugging Face Inference Endpoints,开启大模型世界之门

  唯品会1.2亿租楼,300元每月租给员工;比亚迪否认通报批评员工到点下班;谷歌软件工程师基本年薪达71.8万美元 EA周报

  回顾|Streaming Lakehouse Meetup · 北京站(附问题解答 & PPT 下载)

  DTC 2023精彩预告丨华为 openGauss 共建共享开源数据库根社区

  创建一个递增序列seq_1,起点为400,步长为-4,最小值为100,序列到达最小值时可循环,下面语句正确的是?

  有限资源下如何实现最高效的数据处理?四个“智慧城市”项目寻找到了“最优解”

  DolphinDB x 恒泰证券 一体化投交平台:打破编程桎梏,解放业务思想

  openEuler Developer Day 2023 电力行业技术创新及应用论坛成功举办

  字节开源 Monoio :基于 io-uring 的高性能 Rust Runtime

  墨天轮7月行业分析报告已发布,聚焦图数据库、首发【全球图数据库产业图谱】

  【直播预告】HarmonyOS极客松赋能直播第二期:数据库与网络连接开发

  DolphinDB StreamEngineParser 解析原理介绍

  活动预告|7月29日 Streaming Lakehouse Meetup·北京站

  Apache DolphinScheduler 支持使用 OceanBase 作为元数据库啦!

  openEuler Developer Day 2023,统信UOS在这里!

  Open Payment Platform——基于 CloudWeGo 实现 API Gateway

  Hugging News #0506: StarCoder, DeepFloyd/IF 好多新的重量级模型

  Musl libc 库成功适配到 openEuler Embedded,推动欧拉嵌入式生态发展

  Flink CDC 2.4 正式发布,新增 Vitess 数据源,PostgreSQL 和 SQL Server CDC 连接器支持增量快照,升级 Debezium 版本

  这下der了,APP,不备案,就不能联网,不联网就不能调试和开发,不调试和开发就不能备案,死循环了

  这你就不懂了(dogee),反正我按照你的方法做了,至于好不好用,又不是我的责任