Tadabur:大规模古兰经音频数据集

Tadabur:大规模古兰经音频数据集

摘要
尽管人们对古兰经数据研究的兴趣日益增长,但现有的古兰经数据集在规模和多样性方面仍然有限。为弥补这一空白,我们推出了Tadabur——一个大规模的古兰经音频数据集。Tadabur包含超过1400小时的诵读音频,来自600多位不同的诵读者,提供了诵读风格、嗓音特征和录音条件方面的丰富变化。这种多样性使Tadabur成为古兰经语音研究和分析的全面且具有代表性的资源。通过大幅扩展可用古兰经数据的总时长和变异性,Tadabur旨在支持未来的研究,并促进标准化古兰经语音基准的开发。

1 引言
音频理解在现代机器学习中起着核心作用,然而古兰经音频——尽管具有全球意义和独特的声学特性——在研究中仍然代表性不足。现有的古兰经语音数据集在规模、诵读者多样性、音频质量和标注深度方面都很有限,限制了自动语音识别(ASR)、诵读规则感知建模、诵读者识别和韵律分析等任务的进展。因此,当前的系统往往无法捕捉古兰经诵读所特有的丰富风格变化、严格的语音学规则和旋律结构。

为解决这些局限性,我们引入了Tadabur——一个大型且多样化的古兰经音频数据集。Tadabur包含超过1400小时的音频,来自600多位不同的诵读者,完整覆盖了除开端章(法谛海)以外的113个章节和数千条古兰经经文。该数据集涵盖了广泛的诵读风格(如慢速诵读murattal、艺术诵读mujawwad)、语速、录音条件和音频质量,并附有自动生成的元数据和精确的时间标注。

这些特征使Tadabur成为目前古兰经语音研究中最全面、最具代表性的可用资源之一。该数据集推动了以下方面的进展:ASR和语音建模、大规模诵读者和风格分析、韵律和诵读规则研究,以及稳健性和迁移学习的数据驱动研究。通过建立标准化且变化丰富的基准,Tadabur为语音技术的领域适应性未来工作提供了坚实的基础。

总而言之,本项工作做出了以下贡献:
- 我们引入了Tadabur,一个包含超过1400小时音频、来自600多位诵读者的大规模古兰经语音数据集。
- 我们提出了一个用于大规模古兰经数据整理的自动化流水线,结合了基于大型语言模型的元数据提取、基于Whisper/WhisperX的对齐,以及基于ASR的内容过滤,以获取高质量、时间对齐的标注。
- 我们为每个经文级音频文件提供了机器可读的词级对齐和结构化元数据,采用一致的JSON格式。

2 相关工作
2.1 古兰经数据集
近年来,已有多个古兰经音频数据集被推出,以支持自动语音识别(ASR)、发音评估和计算机辅助古兰经诵读方面的研究。然而,尽管付出了这些努力,大多数现有数据集在总体规模、诵读者和说话人多样性、录音条件变化性以及语言学和语音学标注的丰富性方面仍然有限。主要的公开可用数据集总结如下:
- 古兰经诵读音频分类数据集:来源于Kaggle的公开数据,最初用于诵读者识别任务而非语音识别。它包含来自12位诵读者的6,689个音频文件。然而,该数据集缺乏ASR训练所需的基本语言学标注,特别是不包含文本转写或时间对齐元数据。
- 古兰经语音到文本数据集(SLR132):作为古兰经ASR的标准基准之一,SLR132语料库提供了来自30位著名诵读者的226,129个音频-文本对的结构化集合。然而,其局限性在于粗粒度——缺乏词级或音素级时间戳限制了其在更高级任务中的应用。
- Buraaq(古兰经音频-文本数据集):托管在Hugging Face上,Buraaq数据集包含大约187,080个样本,来自30位诵读者。它通过包含丰富的元数据(如翻译和章节信息)来支持多任务学习场景。

2.2 自动语音识别(ASR)
自动语音识别在过去十年取得了快速进展,得益于深度学习、大规模数据集和端到端建模框架的发展。早期的ASR系统主要基于混合隐马尔可夫模型-高斯混合模型(HMM-GMM)架构。联接时序分类(CTC)的引入实现了无对齐序列训练。基于注意力的编码器-解码器架构将声学和语言建模统一到单一的端到端框架中。最近,基于Transformer的架构已成为主导范式。
自监督表示学习的采用是当代ASR研究的一个重大转变。wav2vec 2.0、HuBERT和Whisper等模型利用大量无标签语音学习丰富且可迁移的声学表示。
在古兰经诵读的背景下,ASR系统必须应对延长的音素持续时间、严格的发音规则(诵读规则tajwīd)、旋律发音、与说话人相关的诵读风格以及录音环境中的显著声学变化等挑战。

3 数据集概述
Tadabur数据集是一个从多种知名公共古兰经音频出版商处编制的大规模古兰经语音语料库。它旨在捕捉诵读者、诵读风格、章节、声学环境和录音质量等方面的广泛变化。

3.1 数据收集
音频数据从公开可访问的古兰经资源库和在线出版平台收集。收集策略旨在最大化多个关键维度的多样性,包括诵读者身份、诵读风格、录音条件、音频格式和章节覆盖范围。所有录音被标准化为统一的音频格式和采样率。

3.2 通过大型语言模型提取元数据
由于源平台缺乏一致的结构化元数据,我们采用大型语言模型(LLM)从非结构化文本描述和文件级信息中推断和标准化基本标注字段。元数据提取阶段采用Gemini 2.5 Flash作为多阶段LLM流水线的一部分。

3.3 使用Whisper和古兰经API的经文级对齐
为获取精确的经文级分段和词级时间标注,我们采用了基于ASR驱动的对齐流水线。所有音频录音首先使用Whisper Large v3模型结合WhisperX进行处理,实现通过强制对齐的准确词级时间戳提取。随后,生成的转写文本与从古兰经API获取的规范古兰经文本进行对齐。
在经文对齐模块中,给定章节的每条经文使用基于语义相似性的方法与WhisperX转写输出进行迭代匹配。具体而言,使用SILMA AI嵌入模型生成经文文本嵌入,并与相应转写片段的嵌入进行比较。

3.4 数据集整理
流水线的最终阶段专注于数据集整理,以确保有效性和一致性。我们应用了三种互补机制:
- 基于LLM的元数据整理:使用结构化元数据的语义验证。
- 基于ASR的整理:通过经文与规范古兰经文本的对齐进行内容验证。
- 去重:去除重复或近似重复的录音。
对于去重,我们使用高效音频Transformer(EAT)提取音频嵌入,计算同一组内录音之间的余弦相似度。如果相似度超过预定义阈值(我们实验中为0.9),则认为录音是重复的。

4 流水线质量评估
4.1 评估设置
我们在五位著名诵读者上评估了对齐覆盖率:阿卜杜勒·巴西特·阿卜杜勒·萨马德、阿卜杜勒·穆赫辛·卡西姆、阿卜杜勒·拉赫曼·苏戴斯、萨乌德·舒莱姆和亚西尔·杜萨里。我们评估了两种对齐方法(SILMA嵌入和模糊匹配)和三种ASR模型(Tadabur微调模型、Whisper-Quran和Whisper Small)。

4.2 结果
基于SILMA嵌入的对齐方法在所有诵读者和ASR模型上始终优于模糊文本匹配。使用Tadabur微调模型时,SILMA达到了96.63%的平均覆盖率,而模糊匹配为86.03%——差距超过10个百分点。
Whisper Small(无领域适应)在两种对齐方法下均达到了最低覆盖率:SILMA嵌入下82.57%,模糊匹配下72.80%。在领域适应模型中,Tadabur微调模型在SILMA嵌入下达到了96.63%的最高平均覆盖率,略优于Whisper-Quran(95.50%)。

5 数据集统计
5.1 数据集规模
最终数据集包含:
- 超过1400小时的经文级标注音频
- 600多位不同的诵读者,涵盖广泛的年龄、方言和诵读传统
- 自动生成的词级时间对齐和结构化元数据

5.2 诵读者多样性
诵读者多样性是Tadabur数据集的一大亮点。除了覆盖广泛的方言和诵读传统外,该数据集还包含许多诵读者对同一章节和经文的多个录音。这些自然变化源于录音会话、诵读节奏、旋律选择和声学环境的差异。

6 模型评估
6.1 模型
我们评估了以下八个模型:
- Whisper-Quran(7400万参数)
- Whisper Small(2.44亿参数)
- Wav2Vec2 XLSR-53 Arabic(3亿参数)
- MMS 1B(10亿参数)
- Qwen3-ASR-1.7B(17亿参数)
- Cohere Transcribe(20亿参数)
- Voxtral Mini(40亿参数)
- VibeVoice-ASR(70亿参数)

6.2 评估指标
我们使用词错误率(WER)和字符错误率(CER)评估所有模型。在计算指标前,所有预测和标签都经过了标准化处理——去除音标符号(tashkeel)、古兰经标点符号(停顿标记)和奥斯曼书写体特有的正字法变体。

6.3 结果
结果揭示了一个清晰的模式:在古兰经ASR中,领域适应比模型大小更重要。Whisper-Quran虽然是最小的模型(7400万参数),但达到了8.7%的最佳WER和6.5%的最佳CER,大幅超越了更大的通用模型。Cohere Transcribe(11.2%)和Voxtral Mini(15.1%)表现最具竞争力。相比之下,MMS 1B(51.1%)和Wav2Vec2 XLSR-53 Arabic(57.4%)表现较差,证实多语言或阿拉伯语特定训练无法可靠地泛化到古兰经诵读的语音学独特领域。

7 许可和伦理考量
Tadabur作为开源数据集发布,旨在支持阿拉伯语音频和语音技术的研究。鉴于古兰经的核心宗教意义,我们强调Tadabur旨在用于尊重和有益的用途,特别是在教育、无障碍访问和学术研究领域。用户应避免构成嘲讽、歪曲或以其他方式不尊重古兰经诵读的应用。

8 局限性
尽管Tadabur是迄今为止最大的古兰经音频数据集,但它仍有一些局限性。第一个局限是,部分诵读者并非每条经文都有音频录音。这要么是因为该诵读者在数据收集期间可用录音数量较少,要么是因为处理流水线未能正确将音频匹配到正确的经文,这主要是由语音识别步骤中的错误造成的。第二个局限是,词级时间戳并非总是精确的,因为所使用的对齐模型并非专为古兰经音频构建的,因此在处理古兰经中独特的发音和诵读风格时会遇到困难。

---
原文出处:https://arxiv.org/html/2604.18932v1
0
捐赠 04-05-26

0 个评论

如果你想要发布信息,请 登陆 或者 注册