面向伊斯兰文本的非事实型问答基准数据集——基于更大语境的研究

面向伊斯兰文本的非事实型问答基准数据集——基于更大语境的研究

摘要

在当今数字时代，获取和理解宗教文本，特别是《古兰经》（伊斯兰教的神圣经典）和圣训（先知穆罕默德言行的汇编），需要高效且准确的问答（QA）系统。然而，目前专门针对古兰经注释（经注——对古兰经的解释、阐释和语境说明）和圣训的详细查询而量身定制的问答系统非常匮乏，这带来了重大挑战。为弥补这一空白，我们推出了一个精心编制的综合数据集，专门用于古兰经注释和圣训领域的问答研究。该数据集包含超过73,000个问答对的大规模集合，是该专业领域中已报告的最大数据集。重要的是，数据集中的问题和答案都经过了细致的语境信息充实，为训练和评估量身定制的问答系统提供了宝贵资源。然而，尽管本文强调了数据集的贡献并建立了评估古兰经和圣训领域问答性能的基准，我们随后的人工评估揭示了关于现有自动评估技术局限性的关键发现。自动评估指标（如ROUGE评分）与人工评估之间的差异变得十分明显。人工评估显示出显著的差距：模型与专家学者的裁决一致性仅在11%到20%之间，而其对语境的理解则跨越了50%到90%的较宽范围。这些发现强调了需要能够捕捉理解宗教文本固有的细微差别 and 复杂性的评估技术，以超越传统自动指标的局限性。

1 引言

在技术飞速发展和日益依赖数字资源的时代，迫切需要高效准确的方法来获取和理解宗教文本。特别是，《古兰经》和圣训对数百万寻求宗教实践指导和理解的人具有极其重要的意义。《古兰经》是伊斯兰教的核心宗教文本，由最后的先知穆罕默德（愿主福安之）接受启示。经注（Tafsir）是对古兰经的阐释，帮助我们理解其含义和语境。另一方面，圣训是先知穆罕默德（愿主福安之）的言论和行为，为穆斯林提供指引。作为伊斯兰立法的根本来源，拥有一个专门为古兰经和圣训设计的可靠且全面的问答系统，可以极大地帮助人们探索和理解这些重要文本。然而，在这些庞大的知识库中进行探索可能是一项耗时且具有挑战性的任务。

通过利用自然语言处理和机器学习的进步，问答（QA）系统有望以自然语言的形式快速检索相关段落并生成问题的答案。在问答系统（QAS）中，长篇问答（LFQA）是一个引人胜的挑战，它涉及检索与给定问题相关的文档，并利用这些文档生成段落长度的答案。虽然近年来在事实型开放域问答方面取得了显著进展——在这类任务中，一个简短斯词或实体就足以回答问题——但长篇问答对于大型语言模型（LLM）来说仍然研究不足且充满挑战。长篇问答是一项重要的任务，特别是因为它提供了衡量生成式文本模型事实准确性的试验场。为了推进长篇问答的研究，研究人员需要一个包含复杂的"如何"和"为什么"类型问题及段落长度答案的大型多样化数据集。

虽然已经为各个领域开发了问答系统，但它们在古兰经、经注和圣训方面的应用非常重要，却也非常稀缺。全世界的穆斯林在日常生活的疑问中依赖穆斯林学者的指导。多项研究集中于伊斯兰文本的广泛主题，从检索到分类。然而，在问答方面，只有事实型问答得到了关注。其中一些研究使用阿拉伯语，英语和印尼语。而在islamqa.org网站上可获得的问答——该网站已收录了来自全球穆斯林的超过90,000个问题的答案——充分表明用户不仅需要事实型答案，还需要带有古兰经和圣训引用的详细答案。

一个针对古兰经和圣训的问答系统，若要以详尽的细节回答用户的问题，面临着自身的一系列挑战。这些挑战包括但不限于：缺乏数据集、适当的问题分类系统、在考虑用户提供的语境的同时从不同来源准确提取事实以推断答案，以及缺乏能够充分解决该领域敏感性的合适评估技术——因为在这里，精确度至关重要。

本文在以下领域做出了两项重要贡献：

1. 本研究提出了一个全面且大规模的数据集，专门用于解决古兰经、经注和圣训领域的问答问题。该数据集包含超过73,000个问答对，据我们所知，是该领域中用于长篇问答的最大报告数据集。重要的是，问题和答案都附带了丰富的语境信息，为训练和评估量身定制的问答系统提供了宝贵资源。

2. 本文引入了一个用于评估针对古兰经、经注和圣训的问答系统的基准。该基准作为标准化的评估框架，使研究人员能够评估其模型的性能并与现有方法进行比较。它推动了专门为宗教文献定制的问答系统的发展。

以下各节将提供现有文献的全面分析（第2节），介绍数据收集的方法论（第3节），讨论获得的结果（第4节），分析研究发现（第5节），并以启示和未来研究建议作为结论（第6节）。

2 相关工作

在自然语言处理的动态领域中，追求有效的长篇问答模型离不开精心策划的数据集所发挥的关键作用。本文献综述展开了双重探索，一方面关注服务于长篇问答更广泛领域的数据集，同时深入研究为古兰经经文和圣训的阐释和理解所带来的独特挑战而量身定制的专业数据集。通过审视与这些数据集相关的特征、方法论和成果，本节旨在提供关于理解和回应扩展查询的模型开发进展的细致观点，并特别关注伊斯兰教的神圣文本。本节分为三个部分：语言模型综述、可用数据集和宗教经典相关研究。

2.1 语言模型

大型语言模型和Transformer架构的引入极大地推动了长篇问答的研究。这些模型使得自动化系统的开发可能，能够对复杂问题生成详细的段落长度的答案，解决法律素养、政治舆论分析和信息检索等实际问题。近期多项研究提出了新的方法论和框架，以改善长篇问答模型的性能，解决生成忠实答案以减少虚构内容、评估长篇输出以及在问答中纳入举例说明等挑战。

长篇问答（LFQA）研究已利用大型预训练模型取得了进展，但一个主要挑战仍然存在：生成减少虚构内容的忠实答案。为解决这一问题，一项近期研究提出了一个端到端框架，联合建模答案生成和机器阅读，纳入细粒度的、与答案相关的显著信息以强调忠实的事实。该方法在两个LFQA数据集（ELI5和MS MARCO）上取得了最先进的结果，在自动和人工评估指标上均优于强基线模型。详细分析证实了该方法在生成流畅、相关和忠实答案方面的有效性，推动了LFQA研究的进展。

另一项研究展示了大型语言模型（LLM）在问答 and 长篇文本生成方面的能力，特别是在少样本闭卷设置中。然而，评估长篇输出仍然是一个挑战。一项近期研究通过将问答与长篇答案生成相结合来解决这一问题，利用需要来自多个来源信息的多方面问题。作者引入了查询优化提示，鼓励LLM明确解决问题的歧义并生成全面的答案。在ASQA和AQuAMuSe数据集上的实验表明，该方法在闭卷设置中优于完全微调的模型，并取得了与"检索-再-生成"开卷模型相当的结果，为评估和改善LLM的长篇答案生成能力指明了一个有前景的方向。

举例说明——使用例子来阐明复杂概念的过程——是长篇问答（LFQA）的一个关键方面。尽管其重要性不言而喻，但问答中的举例说明在计算方面受到的关注甚少。一项近期研究通过在三个语料库中对不同的例子类型进行细粒度标注来填补这一空白，揭示了最先进的LFQA模型在生成相关例子方面存在困难。此外，ROUGE等标准评估指标被发现不足以评估举例说明的质量。作者提出了一种新方法，将举例说明视为检索问题，从而实现了与人工评估具有良好相关性的可靠自动指标。人工评估证实，所提模型检索到的例子比最先进的LFQA模型生成的例子更加相关，突出了该方法在改善LFQA中举例说明方面的潜力。

以下部分重点介绍可用于支持LFQA的数据集及其在推动该领域进展中的重要性。

2.2 数据集

对合适数据集的探索和分析在推进旨在理解和回应扩展文本语境中复杂查询的模型能力方面发挥着关键作用。本节文献综述深入探讨了专为长篇问答（LFQA）定制的数据集，审视其特征、优势 and 局限性。通过浏览各种可用数据集，我们旨在全面了解扩展语境问题带来的挑战，以及通过利用各种数据集在开发强大且细致的问答系统方面取得的进展。

LFQA这一术语于2019年由Facebook在发布"像我五岁一样解释"（ELI5）数据集及排行榜时正式引入。ELI5是问答任务中最大规模的数据集，由Reddit论坛"像我五岁一样解释"中的帖子和评论组成，标注了对各种概念的解释。ELI5包含抽象型和抽取型答案，是已报告的最大数据集，拥有270,000个问答对用于长篇问答。ELI5数据集的规模具有特殊重要性，因为它为开发擅长处理广泛问题和相应答案的模型奠定了基础。这一能力对于LFQA系统的实际应用至关重要，因为现实世界的场景要求对不同主题有细致的理解。数据集的庞大规模有助于提高LFQA模型的稳健性，使它们能够在更广泛的自然语言理解语境中有效地导航和回应用户查询的复杂多变性质。然而，ELI5的一个显著批评在于解释中可能存在的不准确和不完整。由于这些解释由互联网志愿者贡献，存在错误信息的空间。数据集来源于Reddit社区的用户生成内容，可能包含噪声、不准确或主观解读。这可能导致数据质量较低，从而负面影响在此数据集上训练的LFQA模型的性能。此外，该数据集源自Reddit社区，可能引入偏差，偏离专家或通用解释。在将ELI5数据集用于机器学习模型时，应谨慎考虑这一偏差。尽管它是最大的长篇问答数据集，但其81%的训练/评估重叠影响了模型性能，在训练 and 评估过程中需要谨慎处理。

ELI5之前就存在其他解决LFQA问题的数据集，即微软机器阅读理解（MS MARCO）和自然问题（NQ）。MS MARCO是一组聚焦于机器阅读理解、问答和段落排序的大规模数据集合。它被用于各种任务，如问答、自然语言生成、段落排序、关键短语提取、爬虫和对话搜索。MS MARCO数据集来源于真实的匿名Bing用户查询和真实的网络文档，使其扎根于现实世界的问题，为推进这些领域的研究提供了宝贵资源。它作为机器问答和段落排序领域的重要贡献者而崭露头角，在文献中因其值得称道的属性和公认的缺点而受到关注。值得注意的优点包括：收录了约500,000个来自Bing搜索引擎的真实搜索查询，提供了对训练信息检索模型至关重要的现实世界查询储备。此外，该数据集通过呈现人工生成的答案来区分自身，这一方面增强了数据集的整体质量。其庞大的规模构成了一个大型且多样化的集合，有利于机器学习模型的训练 and 评估。

然而，该数据集并非没有缺点，正如文献中所审视的那样。值得注意的是，对数据集中存在的高度冗余产生了担忧，这可能影响模型训练和评估的效果。此外，由于MS MARCO内存在两个不同的语料库，导致不公平比较的忧虑浮现，在结果再现和跟踪最先进成果方面带来了挑战。更加复杂的是，增强数据引入泄露的相关信息的实例违反了数据集的原始指导方针。该数据集不包含多跳推理问题，而这些问题对于评估模型在多条信息上进行推理的能力很重要。

NQ数据集是一个用于问答研究的大规模真实世界数据集。它由发给谷歌搜索引擎的匿名、聚合查询组成，旨在推动自然语言理解（NLU）的研究并为问答系统提供基准。与MS MARCO数据集相比，它包含100,000个带有自由形式答案的问题。对于每个问题，标注者会看到搜索引擎返回的10个段落。他们被要求对查询生成一个答案，或声明答案不包含在段落中。

一项研究通过提出一种端到端方法来生成法律问题的长篇答案，以解决法律素养差距。该方法利用了"检索-再-阅读"流水线，并通过引入长篇法律问答（LLeQA）数据集来支持，该数据集包含1,868个法语的专家标注法律问题。虽然结果在自动评估指标上显示出良好的性能，但定性分析揭示了需要改进的领域。LLeQA数据集有潜力加速解决现实世界问题的研究，并作为评估专业领域NLP模型的基准。

此外，中文LFQA的WebCPM数据集的开发引入了一个独特功能，其中信息检索基于交互式网络搜索，产生的流水线生成的答案与人工撰写的答案相当。

这些研究共同展示了数据集和大型语言模型在推动长篇问答研究中的重要影响，解决了各种挑战并推进了自动化系统在生成详细、连贯的复杂问题答案方面的能力。

2.3 宗教经典相关文献

本节重点介绍在古兰经和圣训方面所做的工作。

多项研究解决了从参考文本（如宪法或圣书）中自动提取可靠答案的挑战。在这些文本中，古兰经和圣训作为伊斯兰教的神圣经典具有特殊意义，是全球数百万穆斯林的首要立法来源。

一个专门针对伊斯兰科学的阿拉伯语问答（QA）系统被开发出来，包括先知传统（圣训）、圣训传述者百科全书和古兰经解释（经注），以解决在线数据库中非结构化信息的复杂性。该系统的知识资源是一个符合文本编码倡议（TEI）标准的标准化数据库，并采用了三阶段方法：问题分析、信息搜索和答案处理。图形界面允许用户进行交互。在圣训、传述者和经注主题的100个问题上的实验结果显示，生成回复的准确率达到92%，证明了该系统在伊斯兰研究领域为事实型问题提供准确答案的有效性。这项研究有助于专业领域和语言的问答系统的发展。

同样，有学者提出了一种建立在圣训知识图谱上的问答系统，以解决现有数字平台在回答宗教问题方面的局限性。该系统利用莱文斯坦距离（Levenshtein distance）函数来解释用户问题，并使用Neo4J作为图数据库，以图的格式存储圣训。结果表明：（i）知识图谱适合表示圣训并执行推理任务，以及（ii）所提出的方法达到了95%的前1位准确率（top-1 accuracy）。这项研究展示了基于知识图谱基于知识图谱的宗教文本问答系统的潜力，使用户能够寻找特定问题的答案，并促进对伊斯兰知识的更深入理解。值得注意的是，他们的发现表明，通过利用莱文斯坦距离方法，系统的结果得到了改善。

"古兰经QA 2022"（Qur'an QA 2022）共享任务的组织旨在促进阿拉伯语问答（QA）和机器阅读理解（MRC）在《古兰经》这一穆斯林和非穆斯林探究者的丰富知识源上的最新研究。该任务吸引了13支参赛队伍，提交了30次运行结果，证明了人们对QA和MRC研究日益增长的兴趣。这篇概述论文提供了参赛队伍所采用的主要方法的见解，突出了表现提交系统特征的趋势和观念。该共享任务旨在推进阿拉伯语QA and MRC的研究，从而能够为《古兰经》开发更准确、更高效的问答系统。

从宗教文本（如《古兰经》）中自动提取可靠答案对自然语言处理社区提出了重大挑战。尽管其很重要，但以前关于从《古兰经》进行问答（Q&A）的研究有限，且缺乏用于有意义比较的基准。最近，组织了一项共享任务，提供了一个包含1,093个问题-古兰经段落对的数据集。一个参赛系统在开发集上获得了0.63的部分倒数秩（pRR）和0.59的F1分数，在测试集上获得了0.56 Hendrickson的pRR和0.51的F1分数，其完全匹配（Exact Match）分数为0.34，突出了该任务的难度以及进一步研究的必要性。这项研究有助于宗教文本问答系统的发展，使用户能够寻找特定问题的答案，并促进对伊斯兰知识的更深入理解。

尽管问答（QA）系统取得了进展，但阿拉伯语QA系统面临着挑战，特别是对于《古兰经》，原因在于资源有限以及古典阿拉伯语与现代标准阿拉伯语之间的差异。为了解决这个问题，针对古兰经QA 2022共享任务提出了一种基于深度学习的方法，在适应目标数据集之前，在大型数据集上微调模型。这种方法取得了有希望的结果，在开发集上达到66.9%的pRR，在测试集上达到54.59%的pRR。这项研究有助于为《古兰经》开发有效的QA系统，突出了深度学习技术在克服现有资源局限性方面的潜力。

为了方便古兰经学者和阿拉伯语研究人员进行信息检索，开发了一个针对《古兰经》的基于概念的搜索工具（QSST）。该工具包括四个阶段：基于《泰吉威德古兰经》（Mushaf Al-Tajweed）本体对古兰经经文进行标注的数据集构建，使用连续词袋（CBOW）架构的词嵌入，输入查询和古兰经主题的特征向量计算，以及通过计算余弦相似度检索相关经文。评估指标（精确率、召回率、F分数）显示出有希望的结果（76.91%、72.23%、69.28%），伊斯兰学者的专家评估达到了91.95%的平均精确度。与现有工具的比较证明了QSST的卓越性能，突出了其在《古兰经》中进行高效基于概念搜索的潜力。

由于阿拉伯语的复杂性，阿拉伯语问答系统（QAS）面临挑战，尽管它被4.5亿母语人士广泛使用。当前的QAS局限于特定领域，需要进行全面检查以改善发展。虽然以前的研究基于各种因素对QAS进行了分类，但缺乏对开发技术的研究。这项系统的文献综述旨在通过分析从617篇文章池中选出的40篇论文来解决这一差距。研究结果强调了数据集和深度学习技术在提高QAS性能方面的重要性。此外，对监督学习方法的依赖阻碍了QAS的性能，并且鼓励使用先进的机器学习技术开发无监督的QAS。这篇综述为开发有效的阿拉伯语QAS提供了宝贵的见解，符合沙特阿拉伯政府推动自动化和改善服务的努力。

尽管在过去十年中对古兰经和圣训文本进行了大量研究，但在全面数据集的可用性方面仍存在重大研究空白，这种数据集可以有效地利用可用的预训练模型来进行非事实型的问答。此外，显著缺乏专门为评估此类敏感系统的性能而建立的评估协议。这些空白凸显了在该领域进行进一步研发的必要性，以解决数据集匮乏的挑战，以及缺乏标准化评估古兰经和圣训QA system方法的问题。

总之，这篇文献综述审视了自然语言处理中长篇问答（LFQA）的概况，仔细审查了如ELI5、MS MARCO和NQ等关键数据集。在评估其优势和局限性的同时，该综述展示了它们在推进用于复杂QA任务的机器学习模型方面的作用。它突出了由大型语言模型（LLMs）和Transformer驱动的最新进展，揭示了提高LFQA模型性能的方法论。此外，该综述阐明了从古兰经和圣训等宗教经典中提取可靠答案所面临的挑战，强调了该领域全面数据集和评估方法的匮乏。发现的差距敦促进一步探索，并需要强大的数据集和标准化的古兰经和圣训QA系统评估方法，以推动该领域的专业研究。

3 任务描述和数据集

本节全面概述了本研究中使用的数据来源和处理程序.该数据集由多个可靠来源编制而成，以确保多样性和真实性。首先，我们从Islamqa.org收集了问答对，这是一个杰出的在线问答平台，拥有超过90,000个问答对的广泛收藏。该平台允许用户提出问题，然后由穆斯林学者根据伊斯兰教法进行回答，为了解伊斯兰观点提供了宝贵的资源。

除了问答对之外，我们还从Al-Tafsir.com获取了《古兰经》经注的英文翻译，这是一个值得信赖的在线资源，提供对古兰经文本的详细解释和阐释。这部经注提供了对《古兰经》含义和语境的更深入理解，这对于开发一个全面的伊斯兰问答系统至关重要。此外，我们从被称为六大圣训集（Sahah-e-Sittah）的六部主要圣训著作中获得了超过33,000条圣训的英文翻译，这些被认为是穆斯林社区中最真实、最可靠的圣训来源。在我们的研究中依赖六大圣训集可以保证数据集的质量并坚持受人尊敬的来源，确保开发出一个强大且准确的伊斯兰问答系统。

收集到的数据包括问答对、经注和圣训翻译，经过了严格的处理，以准备用于序列到序列（seq-to-seq）预训练模型。然后对这些模型进行了微调和性能评估，详见后续章节。处理步骤包括数据清洗、分词和格式化，以确保与预训练模型的兼容性。由此产生的数据集是伊斯兰文本的全面且多样化的集合，为开发有效的伊斯兰问答系统奠定了坚实的基础。

数据预处理是准备收集到的数据以供序列到序列预训练模型使用的关键步骤。在收集原始数据后，我们对其进行了清洗，以消除任何重复条目和缺失数据。我们还去除了同时以英文和阿拉伯文提供的答案中的阿拉伯文对应部分。

为了减少来自古兰经经注和圣训完整文本的搜索空间，我们采用了潜在狄利克雷分配（LDA）主题建模。LDA是一种概率模型，它通过假设每个文档由各种主题的混合组成，其中每个主题代表一个单词分布，来识别文档集合中的主题。通过应用LDA，我们旨在识别数据集中的潜在主题，并将相似的文档分组在一起，从而减少搜索空间并使系统更高效。这种方法使模型在生成答案时能够专注于相关文本的子集，而不是整个语料库。

我们使用LDA将语料库划分为八个主题，即：祈祷（Prayer）、斋戒（Fasting）、朝觐（Hajj）、圣训（Hadith）、日常生活（Daily Life）、婚姻（Marriage）、家庭（Family）和金融（Finance）。表1展示了每个主题中带有分配标签的顶级单词。通过将数据集分类为这些主题，我们显著减少了搜索空间，使模型能够快速识别相关文本并生成准确的答案。

为了确保分配的主题标签的准确性，我们让三位语言专家评估完整数据集子集中每个问题分配的主题标签。评估者是具有伊斯兰研究和语言专业知识的众包工作者。他们评估了分配的主题标签的相关性，并提供了关于标签准确性的反馈。本次评估的详细结果如表2所示，它显示了评估者评估的占总数据集问题的相对百分比以及分配标签的准确率。如果一个标签被标注者认为是不正确的，他们会从八个定义的类别中分配适当的标签，决定由多数票做出。

通过使用LDA并评估分配的主题标签，我们确保了数据集组织良好、相关，并准备好用于训练序列到序列预训练模型，以为用户查询生成准确且信息丰富的答案。减少的搜索空间和准确的主题标签使模型能够通过专注于相关文本的子集而不是整个圣训和经注语料库来有效地得出答案。

当被问及一个问题时，穆斯林学者通常首先参考《古兰经》和圣训来寻找答案。我们专注于《古兰经》和圣训文本，并从中提取语境来输入我们的序列到序列语言模型。与问题归类在同一主题下的圣训和经文被存储为该问答对的语境。然而，由此产生的语境过大而难以处理，因此我们基于软余弦相似度（soft cosine similarity）选取了前三条经文和前三条圣训。

通过这个过程，数据集被组织成三个不同的列：问题（代表用户查询）、答案（来自穆斯林学者的回复）和语境（包括与问题具有相同主题的古兰经经注和圣训摘录）。语境的结合使模型能够通过专注于相关文本的子集而不是整个圣训和经注语料库来有效地得出答案。下面提供了数据集中的一个例子，展示了语境列如何提供来自《古兰经》和圣训的相关信息以支持答案。通过以这种方式预处理数据，我们确保了数据集组织良好、相关，并准备好用于训练序列到序列预训练模型，以为用户查询生成准确且信息丰富的答案。

该数据的更多例子可以在附录B中找到以供参考。

4 模型和实验设计

为了在这些数据集上为语言模型建立基线结果，我们对几种基于Transformer的预训练模型进行了微调，包括T5、BART、LED和LongT5。模型的输入格式如附录B所示，每个模型的超参数和规范列在表3中。

4.1 实验设置

实验在一台配备12 GB RAM的NVIDIA GeForce GTX 1080 Ti上进行。由于RAM的限制，输入序列长度和批量大小（batch size）被相应地调整。我们观察到，并非所有模型在相同的学习率下表现都同样出色。例如，使用0.001的学习率微调BART-large（这对T5表现良好）导致了糟糕的性能，显著差于本研究中使用的任何其他模型。这与表明BART在语言生成和QA任务上表现良好的文献形成鲜明对比，因为它是与ELI5一起作为最先进模型发布的。为了解决这些局限性，由于RAM空间有限，我们使用了这些模型的基础版本。每次实验的超参数设置列于表3中对于T5和LongT5，我们使用了4的批量大小，对于BART and LED使用了2的批量大小，输入序列长度经过相应调整以适应12 GB RAM的限制。

4.2 模型架构

本研究中使用的基于Transformer的预训练模型是：

T5：一种文本到文本的Transformer模型，它根据输入文本生成输出文本。

BART：一种去噪自编码器，它使用Transformer编码器 and 解码器来重建输入文本。

LED：一种专为长篇文本生成设计的长距离依赖Transformer模型。

LongT5：T5的一种变体，专为长篇文本生成设计。

选择这些模型是因为它们能够处理长距离依赖并生成连贯的文本，使其适用于非事实型问答任务。

4.3 硬件细节

实验在一台配备12 GB RAM of NVIDIA GeForce GTX 1080 Ti上进行，这为微调预训练模型提供了足够的计算资源。GPU架构允许对输入序列进行并行处理，从而实现对模型的高效训练和评估。通过使用这些基于Transformer的预训练模型并调整超参数和输入序列长度以适应RAM限制，我们为该数据集上的语言模型建立了基线结果，并探索了微调在非事实型问答任务中的有效性。

4.4 评估指标

结果评估使用了两个互补的指标：ROUGE和BERTScore。选择这些指标是因为它们能够评估生成文本的质量和相似性，并且它们适用于评估非事实型问答任务。

4.4.1 ROUGE

ROUGE（面向召回率的摘要评估替代方法）是广泛用于评估文本生成任务的指标，包括机器翻译、摘要和问答。它使用N-gram重叠来衡量文本相似性，该重叠计算生成文本与参考文本之间重叠单词或短语的数量。ROUGE适用于各种语言生成任务，并已被用于众多研究中。我们使用ROUGE作为我们的评估指标，以保持与该领域先前工作的一致性。

4.4.2 BERTScore

另一方面，BERTScore是一种更新的指标，已被证明在几个基准数据集上优于BLEU和ROUGE等其他常用指标。它基于BERT（来自Transformer的双向编码器表示）模型，这是一种可针对各种自然语言处理任务进行微调的预训练神经网络。BERTScore通过比较生成文本和参考文本的BERT嵌入（代表文本含义的高维向量）来计算它们之间的相似度得分。该得分在单词、句子和文档级别进行计算，并同时考虑精确率和召回率。

使用BERTScore的动机是它能够捕捉文本的语义含义，而不仅仅依赖于表面级别的相似性。这对于非事实型问答任务尤为重要，因为生成的文本需要传达正确的含义和语境。通过同时使用ROUGE和BERTScore，我们可以从不同角度评估生成文本的质量，并对其优势和劣势有更全面的理解。下一节将详细介绍和讨论结果，强调重要的未来工作和潜在的改进途径。

5 结果与讨论

语言模型在数据集上的微调导致了性能的提高，正如表4中使用ROUGE的评估所明显表明的那样。它列出了微调模型前后的ROUGE差异。微调前，所有模型的基线ROUGE分数相对较低，范围从13.5到19.25。然而，微调后，在所有模型中都观察到了显著增强，ROUGE分数范围从24.70 to 27.23。这表明模型生成了更准确和相关的文本，捕捉到了数据集中存在的潜在概念。

这些发现证明了使用《古兰经》、圣训和经注数据集微调基于Transformer的语言模型进行问答任务的有效性。这些结果为了解使用这些语言模型增强与伊斯兰文献相关的QA系统的潜力提供了宝贵的见解。然而，通过对部分生成的答案进行人工分析，我们得出了一些有趣的观察结果如下：

在某些答案中，高ROUGE分数并不是正确答案的良好指标，例如，在一个用户试图根据伊斯兰教法了解某事是否被允许的问题中，无论生成的答案是否正确，ROUGE分数都可能更高。该答案在事实上可能与标准答案（ground truth）相反，但仍然具有较高的分数。

生成的答案并不总是模型生成答案所依据的语境的反映。这表明模型也依赖于其最初训练时预先消耗的知识。然而，这可以通过进行一项特定研究得到进一步验证。此外，ROUGE是一个面向召回率的矩阵。而在该特定领域，获得最佳结果需要在召回率和精确率之间取得平衡。以便它不会遗漏一些重要事实（关注召回率），同时也不会从这些事实中推断出错误的结论（关注精确率）。

5.1 人工评估

基于两个关键参数对古兰经和圣训问答系统进行了人工评估：裁决一致性（Verdict Consistency）和语境理解（Contextual Understanding）。由伊斯兰学者和语言专家组成的专家评估团队评估了该系统在提供准确一致的裁决方面的性能，以及理解问题语境的能力。

5.1.1 裁决一致性

评估重点是确定学者提供的裁决与模型提供的裁决是否一致。结果显示出明显的差异，一致性范围显著较低，介于11%到20%之间（表5）。这表明，在各项评估中，模型裁决与学者裁决之间的一致性存在很大的不一致。LED模型达到最高一致性（22%），而LongT5模型表现出最低的一致性（11%）。

5.1.2 语境理解

另一个关键参数是系统理解问题语境并提供相关答案的能力。在这方面，结果展示了更广的范围，四个模型的得分跨越了50%到90%（表5）。这表明模型掌握语境的能力存在很大差异，一些模型显示出有希望的理解，而另一些则不足。LED模型获得最高分（90%），而LongT5模型显示最低分（53%）。

5.1.3 讨论

评估揭示了这两个参数之间的实质性差距。虽然该系统表现出更广泛的语境理解范围，但其提供与学者一致的裁决的一致性仍然显著较低。这凸显了进一步改进的必要性，特别是在优化模型能力以产生与专家学者更一致和准确的裁决，同时保持持续高水平的语境理解方面。人工评估结果突出了在古兰经和圣训领域为非事实型问题开发QA系统所面临的挑战。系统理解问题语境并提供准确裁决的能力对其可靠性和可信度至关重要。未来的工作应集中于解决裁决一致性中的不一致问题，并进一步增强系统的语境理解能力。

虽然ROUGE和BERTScore是用于评估文本生成任务的广泛使用的指标，但它们可能无法直接衡量模型和学者之间的裁决一致性。这是因为它们主要评估生成的文本与参考文本的相似性，而不是评估裁决本身的准确性或一致性。然而，这些指标上的较低分数可能表明，与学者的答案相比，模型提供的答案的真实性存在分歧。特别是低ROUGE分数，微弱地暗示了模型生成的答案与参考学者的答案存在显著差异，这与观察到的模型和学者裁决之间的低一致性相符。这表明模型生成的答案可能没有准确捕捉到学者答案的细微差别和复杂性，导致了裁决一致性上的不一致。

另一方面，ROUGE和BERTScore可以通过衡量生成答案和参考文本之间的语义相似度，间接反映模型理解语境的能力。较高的BERTScore指标表明模型很好地捕捉并表达了语境，这与人工评估中观察到的语境理解的更广范围（50%到90%）相一致。这表明模型能够在一定程度上掌握问题的语境，但可能难以为生成准确反映学者裁决的答案。

总而言之，虽然ROUGE和BERTScore提供了有关模型性能的宝贵见解，但它们应与人工评估结合使用，以获得对模型优势和劣势的更全面理解。通过将这些指标与人工评估相结合，我们可以获得更深入的见解。

6 结论与未来工作

总结来说，本研究通过构建一个大规模、富含语境的非事实型问答数据集，为古兰经和圣训领域的研究做出了贡献。我们证明了预训练语言模型在处理这些复杂文本方面的潜力，同时也揭示了现有评估指标在捕捉宗教文本细微差别方面的不足。未来的工作应继续完善数据集，引入更多样化的来源，并开发更符合人类专家判断的评估机制。

致谢

作者要感谢位于SEECS-NUST和苏丹亲王大学的CPInS研究实验室为本研究及本作品的发表提供便利。作者也认可他们为这些努力提供的宝贵支持和资源。

原文出处：https://arxiv.org/html/2409.09844v1

0 个评论

用户ID