安全炒股配资申请_在线配资炒股开户_炒股配资申请

场外资本分配杠杆什么意思 大型语言模型完成业务流程管理任务研究

发布日期:2024-07-23 12:54    点击次数:170

场外资本分配杠杆什么意思 大型语言模型完成业务流程管理任务研究

~~~雅各布专栏——专注行业第一品牌商业模式研究场外资本分配杠杆什么意思~~~

来源:Michael Grohs, Luka Abb等人

摘要

业务流程管理(BPM)旨在通过管理基本流程来改进组织活动及其结果。要实现这一目标,通常需要考虑各种来源的信息,包括非结构化文本文档。因此,研究人员开发了几种针对业务流程管理的解决方案,利用自然语言处理技术从文本文档中提取信息。这些解决方案针对各自的任务,无法像通用工具一样完成多个流程相关问题。不过,鉴于最近出现的具有卓越推理能力的大型语言模型( LLM),这种具有多种应用功能的通用工具现在似乎可以实现了。在本文中,我们通过将特定的 LLM 应用于以下三个示例任务来说明 LLM 如何完成与文本相关的 BPM 任务:从文本描述中挖掘即时性流程模型、从文本描述中挖掘声明性流程模型,以及从文本描述中评估流程任务是否适合机器人流程自动化。我们的研究表明,在没有大量配置或提示工程的情况下,LLM 的性能可媲美或优于现有解决方案,并讨论了其对未来 BPM 研究和实际应用的影响。

1 导言

业务流程管理(BPM)的目标是了解和监督组织内工作的执行情况,这样可以确保结果的一致性,并发现改进的机会。为了实现这一目标,业务流程管理研究人员和从业人员利用了与业务流程有关的各种信息来源,这些来源包括结构良好的流程模型和事件日志,以及非结构化文本文档。在过去的十年中,业务流程管理研究人员越来越多地转向自然语言处理( NLP)技术,以便从现实世界的组织中发现的大量文本数据中自动提取与流程相关的信息。

许多现有方法利用文本数据来完成各种 BPM 任务,这类任务的例子包括从文本流程描述中挖掘命令式或声明式流程模型、对最终用户反馈进行分类的流程重新设计、在文本流程描述中识别适合机器人流程自动化 (RPA) 的任务、基于文本数据评估流程复杂性,或从自然语言中提取语义流程信息。虽然也有少数方法采用了机器学习方法,但大多数方法都依赖于广泛的规则集。

现有的每种方法都是为特定目的而设计的,这意味着它只能应用于一项特定任务。能理解流程相关文本并将其无缝集成到各种业务流程管理任务中的通用通用模型尚不存在。不过,最近出现的预训练大型语言模型( LLMs)已在不同领域和任务中展现出非凡的推理能力,这为开发这样的系统提供了广阔的前景。目前,多个研究小组正在积极探索这些模型在业务流程管理领域的潜力,例如分析 LLM 对业务流程管理生命周期的各个阶段带来了哪些机遇和挑战 ,LLM 的输入应该是怎样的才能使输出支持业务流程管理,或者对话流程建模是否可行。

这些近期出版物和预印本大多从高层次上说明了 LLM的潜力和困难,但没有展示具体的应用。在本文中,我们采用了一种更加面向应用的方法,研究 LLM 能否完成三项与文本相关的业务流程管理任务:(1) 从文本描述中挖掘命令式流程模型;(2) 从文本描述中挖掘声明式流程模型;(3) 从文本描述中评估流程任务是否适合 RPA。我们之所以选择这些任务,是因为它们具有实际意义,而且以前的研究已经涉及过这些任务。我们将 LLM 与专门针对相应任务开发的其他方法进行比较,从而评估 LLM 执行这些任务的能力。基于这些结果,我们讨论了 BPM 领域未来研究的意义,并说明了LLM 如何为从业人员的日常工作提供支持。

本文的结构如下:在第 2节中,我们介绍了针对所有三个任务所采用的一般解决方法,具体任务的应用和结果将在第 3节、第 4节和第 5节中介绍,第 6 节讨论了 LLM 在实践中的未来应用以及对未来研究的影响,最后我们在第 7 节对本文进行总结。

图 1:我们的方法概述

2 方法

在本文中,我们将说明如何将 LLM 用于需要文本文档作为输入的三个业务流程管理任务。对于所有任务,我们都采用相同的方法,如图 1 所示。首先,我们用以下部分组成一个提示:

1). 要完成的BPM任务的一般描述。

2). LLM应遵守的特定输出格式规范。这可以确保生成的文本输出具有一定程度的一致性,并确保结果足够标准化,以便可以通过解析算法等进一步处理。

3). 我们要从中抽取信息的自然语言文本,例如文本流程描述。

4). 如果适合特定任务,还可选择将少量输入输出对作为示例。

然后将完整的提示输入当前最先进的指令式 LLM,即带有 GPT4 后端的ChatGPT(以下简称 GPT4)。然后,GPT4 的文本输出(即对提示的回复)将根据其在解决相应任务中的实用性进行评估,并与现有方法进行对比。提示的所有部分都不是专门设计的,而是为了使输出能够真正解决任务而加入的,提示并没有根据任何指标进行优化。

在所有应用中,我们都为模型提供了多个提示,以检查输入稳定性(即不同作者的提示如何影响结果)和输出稳定性(即同一提示的不同尝试结果如何变化)。我们的目的是分析 GPT4 是否能够很好地完成特定任务,以满足不同人群的需求,以及尽管模型输出具有固有的随机性,但结果是否保持一致。对于每项任务,我们都从本文作者之一编写的 " 原创 "提示开始并输入该提示三次(尝试 1 至 3)。然后由另外两位作者创建另外两个提示,他们得到了需要完成的任务的一般描述以及他们应该指定的确切输出格式,但他们没有看到原始提示。最后,在适当的情况下,我们也会输入没有例子的原始提示,以评估这些例子对结果的影响。每个提示都是在GPT4 网页界面的单独对话窗口中输入的,因此模型无法将以前的提示作为上下文。

3 从自然语言描述中挖掘 BPMN流程模型

3.1动机

流程模型是表示组织活动的主要工具,通常也是流程分析的起点。构建这些模型需要流程知识和创建正式模型的能力。然而,拥有流程知识的参与者通常并不是经验丰富的流程建模者。因此,建模程序可能非常耗时且容易出错。尽管流程需求的详细文本描述通常可以通过政策、指南或电子邮件对话的形式获得,这些都可以被视为相关的信息来源,但情况依然如此。从自然语言中提取流程模型的方法可以加快建模速度,还能让管理人员经常更新流程模型,而无需丰富的建模经验。

从文本流程描述中提取业务流程模型和符号(BPMN-Business Process Model and Notation)流程模型的基于规则的方法最早是Friedrich, F., Mendling, J., Puhlmann, F.等人在《Process Model Generation from NaturalLanguage Text(从自然语言文本生成流程模型)》文中提出的,这仍然是唯一能够从文本输入中生成完整的命令式流程模型的普遍适用的端到端技术,不过也有一些范围较窄或侧重于挖掘部分模型的其他出版物。还有一些论文研究了 LLM 从文本描述中提取流程实体和关系的能力,虽然他们的方法与我们的方法有一些相似之处,但最终都没有从文本中生成实际的流程模型。

3.2评估

按照图1,我们要求GPT4为文本描述的流程创建一个BPMN模型。在撰写本文时,GPT4的网络接口版本有一个令牌输出限制,使其无法生成与生成BPMN 模型XML 文件所需的长度相当的序列。因此,我们提示它以预先指定的中间符号生成模型,作为一种输出格式,其中包括BPMN 的主要元素,并可直接解析为适当的模型表示法。我们在提示中提供的模板将任务节点表示为自然语言单词,将模型元素之间的弧表示为箭头(->),将排他性网关和并行网关分别表示为XOR和AND。我们还规定, 排他性网关的出向弧可以用标签来表示决策标准,例如,XOR(提案已被接受)->任务1。最后,我们要求模型提供行为者到活动的映射,以用于构建通道,格式为actor:[活动1,......],其他元素(如消息)不包括在内。为了避免偏向某种建模风格,我们也没有向 LLM提供文本和相应的完整或部分模型的示例对。

图 2 显示了一个计算机维修流程的文本描述示例、GPT4 在看到该描述时给出的回复节选,以及衍生出的 BPMN 模型的可视化。生成的模型准确地表达了文本中描述的流程,不过,如果把两个独立的测试系统功能活动和随后的专属网关合并为一个,就可以稍微简化一些。

在评估中,我们使用了Friedrich, F.在《Automated generation of business process models from natural language input (Master thesis)》中介绍的六个流程描述(1.1 - 1.4、2.1 和 2.2)。

我们选择这些内容的目的是将我们的技术应用于短小、简单也包括较长、较复杂的文字描述。作为基本事实,我们使用 PET 数据集中为这些描述提供的注释。

资料显示,韦尔转债信用级别为“AA+”,债券期限6年(本次发行的可转债票面利率设定为:第一年为0.2%、第二年为0.4%、第三年为0.6%、第四年为1.5%、第五年为1.8%、第六年为2.0%。),对应正股名韦尔股份,正股最新价为100.42元,转股开始日为2021年7月5日,转股价为162.8元。

图 2:文本流程描述示例(左上)、

生成的 LLM 响应摘录(右上,来自提示 1 尝试 1)

以及相应 BPMN 图的可视化(下)

具体来说,我们评估 LLM 的输出结果,看文本描述中所述关系有多少被正确识别(即召回率)。请注意,这样我们就能同时评估有多少实体(任务名称和参与者)被正确识别,因为涉及未知实体的关系将被算作未识别。我们并不评估模型产生了多少多余的实体或关系(即精确度),因为这将提出几个需要回答的概念性问题(例如,如何处理已正确识别但位置错误的任务),这超出了本文的预期范围。

我们进一步将评估范围限制在流程和行动执行者之间的关系,即我们在提示中提供的中介符号中存在的关系。由于地面实况注释只适用于文本描述,因此我们手动建立了数据集中识别的实体与GPT4生成的实体之间的映射关系。在某些情况下,LLM生成的关系与地面实况并不完全一致(例如“写报告”和“发送报告”合并为“写和发送报告”)。对于这些情况,我们采用了与Bellan, P., Dragoni, M., Ghidini, C.等人发布的《Extracting business process entities and relations from text using pre-trained language models and in-context learning(使用预训练语言模型和上下文学习从文本中提取业务流程实体和关系)》文中相同的方法,即逐个进行评估,如果语言正确,则算作正确。作为基准,我们使用了Friedrich, F.发布的《Automated generation of business process models from natural languageinput <Master thesis>(从自然语言输入自动生成业务流程模型<硕士论文>)》制作的流程模型,并采用了与上述相同的评估标准。

评估结果见表1。表1按输出稳健性(OR)和输入稳健性(IR)的评估进行了细分。总体而言,在从文本流程描述中正确提取关系(和实体)的比例方面,GPT4生成的模型与下列模型相当。

表 1:文本到 BPMN 任务的召回率得出的数据

注:表中“基准[19]”即指原文参考了van der Aa, H., Di Ciccio, C., Leopold, H., Reijers, H.A.等人发布的《Extracting declarative process models from natural language(从自然语言中提取陈述性流程模型)》提到的标准(下文也有提及)

请注意,报告的绝对数字应谨慎理解,因为 PET的基本事实是非常有细粒度的,而且我们对所有关系类型进行了同等权衡,例如:一个缺失的例外网关(包括网关本身、出弧上的两个判定标准和两个后续活动)将被算作五个未识别关系。因此,不应将召回值为0.5理解为模型只包含了文本中描述的相关流程行为的一半,此外在GPT4上生成的模型非常精确,因为它们倾向于包含最小的(通常是不充分的)任务集,而《Process Model Generation from Natural Language Text(从自然语言文本生成流程模型)》文中基于规则的方法则倾向于生成包含几个超级活动的模型(例如,在启动事件之后开始流程)。由于我们的评估没有包含假阳性关系的概念,因此可以说,相对于基准而言,我们在某种程度上低估了 LLM 输出的质量。

总体而言,基于 LLM 的文本到 BPMN 技术产生了相当不错的结果,当提供完全相同的目标模板描述时,模型也能以相同的中间符号生成一致的答案,因此可以将其输出解析为 XML。通过提示微调,特别是通过要求模型修复常见问题的后续提示,基于 LLM 创建可靠的文本到BPMN 管道并非不可行。

4 从自然语言描述中挖掘声明式流程模型

4.1动机

并不是所有的业务流程都能用 BPMN 等命令式建模符号充分描述,例如知识密集型流程的执行命令并不总是能事先完全指定的。使用声明式流程模型(即一组不依赖于允许行为的显式定义的形式化约束)来建模效果更好,它们提供了一种灵活的流程建模方式,尤其适用于复杂的环境。

有文献提出了一种从自然语言中提取声明式流程模型的方法,它使用通用的声明式建模语言 Declare,该语言基于线性时间逻辑(LTL)的约束模板。通过对句子应用基于规则的 NLP技术,Declare可以在van der Aa, H., Di Ciccio, C., Leopold, H., Reijers, H.A.等人发布的《Extracting declarative process models from natural language(从自然语言中提取陈述性流程模型)》中提到的方法为五个 LTL 模板生成了声明式约束:先决条件、响应、继承、初始化和结束。Precedence(A,B)(形式上为 NOT(B) U A)表示活动 B 只应在活动 A 之后发生。Response(A,B)(形式为 A-> B)是指只要 A 发 生 , B 就 必 须 紧 随 其 后 。Succession(A,B) 是 Precedence(A,B) 和Response(A,B)的组合。Init(A) (正式表述为 START -> A)规定所有进程实例必须以 A 开始,而 End(A)(正式表述为 END -> A)表示它们必须以 A 结束。

4.2评估

在我们的实验中,我们重现了《Extracting declarativeprocess models from natural language(从自然语言中提取陈述性流程模型)》中的设置,将 GPT4 应用于相同的五个LTL 模板和 104 个测试句。按照图 1,我们创建了一个提示,要求 GPT4 以优先、响应、继承、初始和结束的形式创建 LTL 公式。我们为每个模板提供了输出格式和示例,结果LLM 会按照提示指定的格式输出一个或多个已发现的约束条件,如表 2 中的输出示例摘录所示,这些输出结果可以编译成声明式建模语言,如 Declare。

除了针对输出鲁棒性的三个相同提示外,我们还使用了不同作者的另外两个表述,并且,由于我们在原始提示中使用了示例,我们还使用了一个不带示例的提示来测试输入鲁棒性。表 3 显示了所用的精确度(Prec.1)、召回率(Rec.2)我们只将语法正确的分类视为真阳性。

除响应模板外,GPT4 的表现优于基准,精度值高达接近 1。此外,我们还发现,对于所有 LTL 模板,精确度与输出稳健性之间的差异都不大。在召回率方面,我们看到先例的值较低,这是因为许多先例限制条件被错误地归类为响应,这也是该模板精确度较低的原因。对于继承和结束,我们看到召回率的变化很大,这是因为在 104 个句子中,这些类型的限制条件很少,这意味着很少的误分类会产生很大的影响。在输入稳健性方面,如果不提供 LTL 模板的示例,评估指标就会变差,这一点在先例模板中尤为明显;与此相反,其他作者的不同表述并不会对指标产生显著影响,但不同提示的稳定性是显而易见的。

表 2:GPT4 在文本到 LTL 任务中的输出示例

表 3:文本到 LTL 任务的精确度(Prec.)、召回率(Rec.)和 F1 分数

F1分数显示,所有带有 LTL模板示例的提示都获得了与基准相同或更高的分数,这说明,如果提供适当的示例,GPT4的性能要优于上面提到的《从自然语言中提取陈述性流程模型》的特定方法,这是一个重要的发现,因为它表明提示根据其与任务的匹配程度产生了不同的结果。此外,对于像这样需要分类的输入文本较短、分类目标较少的任务,我们建议提示应包括示例。需要注意的是,其他提示,例如附加信息或重复指令,可能会产生更好的结果。还有,GPT4 的输出必须通过 Declare等方式解析为声明式流程模型,以便完整使用,由于所有 104 个句子的输出格式都是一致的,因此可以自动完成这项工作。

5 根据自然语言描述评估流程任务的 RPA 适用性

5.1动机

RPA 是一种旨在将商业环境中的常规和重复性任务自动化的技术。为此,在用户界面上工作的软件机器人软件系统的开发目的是以与人类行为者相同的方式执行这些任务,从而提高运行效率。

各种流程信息可用于识别适合 RPA的任务,这包括通常用于记录流程的文本流程描述 。有文献提出通过使用监督机器学习技术的方法,从业务流程的文本描述中衡量流程任务的自动化程度,从而识别适合 RPA 的任务。根据这些文本数据,该方法将流程任务分为人工任务、自动化任务或用户任务。人工任务是由人类执行的任务,不需要使用任何信息系统;用户任务包括人类与信息系统的交互;自动化任务是在信息系统上自动执行的任务,不需要人类参与。归类为用户任务的任务是合适的RPA候选任务,因为这些任务可以通过 RPA代理复制人类交互来实现自动化。与耗时耗力的人工分析相比,这提高了识别合适的 RPA任务的效率,尤其是在存在大量此类文档或大量流程需要分析的情况下。

5.2评估

按照图1的方法,GPT4被用来复制的实验。在任务描述提示中,要求LLM将流程任务分为三种输出格式之一:手动任务、用户任务或自动任务。任务描述中包括可能影响任务分类的特征(如动词特征、对象特征、资源类型(人工/非人工)和 IT领域),我们还提供了给定流程描述任务的输出格式和任务分类示例。我们使用了与Leopold, H., van der Aa, H., Reijers, H.A.等人在《 Identifying candidate tasks for robotic process automation in textual process deions(在文本流程描述中识别机器人流程自动化的候选任务)》中描述相同的数据集,包括从中获取的 33 个文本流程描述,这些描述包括 424 个待分类的流程任务。输入流程描述的示例和 GPT4 生成的输出见表 4。

表 4:GPT4 在 RPA 分类任务中的输出示例

我们做了三个相同的提示,我们使用了不同作者的另外两个提示,每个提示中都有一个例子。我们还使用了一个没有示例的提示。表 5 显示了六条提示的精确度 (Prec.)、召回率 (Rec.) 和 F1 分数。对于总体结果,我们采用了与基准相同的微平均方法,即使用属于一个类别的任务数量来权衡各自的精确度和召回率值。

表 5:RPA 任务的精确度、召回率和 F1 分数

在用户任务的 6 项提示中,GPT4 有 4 项优于基准;在自动化任务方面,精确度结果低于基准值,因为许多任务被 GPT4 归类为自动化任务,尽管它们实际并非如此。不过,在几乎所有提示中,该类任务的召回率都超过了基准。在 F1 分数方面,除了用户类的 F1 分数高于基准值外,其他类的 F1 分数与基准值相似。总体而言,正如 F1 分数所示,GPT4 在所有六条提示中的表现都与基准相似。随着时间的推移,我们还发现 GPT4 的性能有所下降,我们怀疑这是由于 GPT4 的上下文窗口有限,再加上需要分类的任务数量较多(424 项)造成的,在这种情况下,在两次输入之间提醒 LLM 任务描述可能会产生更好的结果。

6 讨论

在说明“开箱即用”的 GPT4 在三个示例任务中的表现与专门方法类似甚至更好之后,我们现在要讨论 LLM 在实践中的用法,并为用户提供指导。

提示建议。在实验中,我们发现在提示中加入不同的内容可以提高 GPT4 的性能,例如,输出应明确定义任务。此外,在从文本到 LTL 的任务中,示例会带来更好的结果。因此,我们建议指定输出格式,并在可行的情况下尝试使用示例。一般来说,应使用不同的提示并进行比较,以最大限度地发挥使用 GPT4 的优势。

非确定性输出。为了生成听起来更自然的文本,生成式 LLM 通常会设置温度参数,以增加输出的可变性。因此,即使输入保持不变,GPT4 所给出的响应也可能会发生变化。同时,如果输入稍有变化(例如,以不同的方式措辞相同的指令),模型可能会对其响应做出重大改变。在实验中,我们试图通过建立一定程度的输入和输出一致性来解决这一问题。我们发现,尽管结果总体上相对一致,但在每个反应对所提供文本的个别方面的反映程度上仍存在相当大的差异,例如,特定任务是否已被正确识别和分类。因此,我们认为今后需要对 LLM 的行为及其对不同输入的反应进行研究。特别是,LLM 输出的非确定性对评估设计有影响:我们认为,为了对性能进行有意义的评估,始终需要进行本文中应用的基本敏感性分析。

文件生成。在实际使用中,如三个任务所示,GPT4并不生成文件,而是生成文本。因此,为了在前两个示例任务中使用 GPT4,有必要将其进一步转换为形式化语言。这可以通过编译器完成,编译器会根据输出生成Declare约束或BPMN模型。不过,这也是当前 LLM 的一个局限,尤其是考虑到输出的可变性。需要指出的是,这种局限性是目前的 LLM(如 GPT4)所特有的,因为它们无法生成文件,而未来的模型迭代可能会克服这种局限性。

7 结论

在本文中,我们开发并应用了一种方法,利用 LLM GPT4 完成各种业务流程管理任务,该方法本身非常简单,通过指示 GPT4 完成手头的任务来利用GPT4 的能力。我们选择了三个 BPM 任务来说明 GPT4 确实能够完成这些任务:从文本描述中挖掘命令式流程模型、从文本描述中挖掘声明式流程模型,以及从文本描述中评估流程任务的 RPA 适用性。在所有三个任务中,GPT4 的表现都与基准(即特定任务的具体应用)相似或更好。我们分析了该方法的输入和输出稳健性,发现输出对同一提示语的不同执行相对不敏感,即使是不同作者制定的提示语,此外我们还发现有些提示应包含示例来帮助 LLM,未来的研究可以评估 LLM 是否也适用于 BPM 生命周期不同阶段的其他任务。总之,本文说明并评估了 GPT4 的三种实际应用,并为未来的研究和使用提供了启示。

寻找价值千万运营合伙人,微信号-19530210848

雅各布专栏——专注行业第一品牌商业模式研究,尤其是数字驱动的规模增长新模式。行业研究聚焦时尚科技,医药科技,汽车科技,半导体科技的创新与创业服务,链接并运营了5万+CxO的创新与成长主题社区。

召回率模型文本任务示例发布于:上海市声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

相关资讯

炒股配资申请

TOP
友情链接:

Powered by 安全炒股配资申请_在线配资炒股开户_炒股配资申请 @2013-2022 RSS地图 HTML地图

Copyright 站群 © 2009-2029 联华证券 版权所有