semaphore提示您:看后求收藏(笔趣阁www.biqugie.com),接着再看更方便。

本章主要介绍了本项目中使用的四种关键技术与模型。这些技术主要基于大型语言模型,并且

依赖于 RAG 技术的原理。介绍了知识抽取技术,它利用先进的自然语言处理技术从文本中提取有意

义的信息和知识,随后讨论了文本处理中所使用的 RAG 技术,该技术可以显著提高大型语言模型在

专业领域的性能,增强信息检索的准确性和效率。最后探讨了在文本比对过程中所需的相似度计算

方法,这对于评估文本之间的相似程度至关重要。

非结构化文本数据通常非常稀疏,即包含大量的词汇但每个文档只使用其中的一小部分。而结

构化数据则可以通过合并相似信息来降低数据的稀疏性,这有助于生成更加紧凑和有效的嵌入向

量。

结构化数据可以实现更高效的特征提取。结构化数据通常已经按照特定的模式或结构进行了组

织,这使得我们可以更加高效地从中提取有用的特征(如标题、作者、摘要、关键词等)。这些特

征可以作为后续 Embedding 的输入,帮助生成具有更强区分性和泛化能力的嵌入向量。结构化数据

中的元素(如主题、类别、属性等)通常具有明确的含义,这些含义可以在 Embedding 过程中被保

留下来。因此,基于结构化数据的嵌入向量往往具有更强的解释性,有助于我们更好地理解模型的

预测结果和内部机制。

3.4 本章小结

本章介绍了研究所选文献数据的获取来源和途径。通过 Python 爬取的方式获取大部分文献数

据与元数据,对元数据进行基本处理,为后续分析提供帮助,丰富向量知识库的数据储备。随后为

了最大程度提高向量知识库的可信程度,对文献数据进行筛选,选出带有流程图,数据,输入输出

的英文文献,作为最后使用的数据。精细筛选后,使用 Unstructured 库进行数据预处理使其转化

为结构化数据。

向量知识库

向量知识库是一个高效、结构化的数据存储系统,它将各类数据(如文本、图像、音频等)转

化为向量形式进行存储。这种表示方式使得数据之间的相似性和关联性得以量化,从而支持更为精

科幻灵异推荐阅读 More+
我给高祖当儿媳

我给高祖当儿媳

冷青衫
网文填坑节来袭,独家番外连载爆更,大佬包场免费看。能文能武没落士族大小姐VS老爹让我疼媳妇霸道秦王*******************在这个山河震荡的时代商如意力排众议,改嫁给了未来夫君的弟弟那个冷俊唯美又拒人千里的宇文二公子;自认心虚的商如意,觉得唯一能抱紧的大腿;就是自己的公公,那位注定要名留青史的高祖皇帝……直到她发现,原来自己还有一根更粗的金大腿?四目相对,火花四射~
科幻 连载 95万字
方归广茸

方归广茸

彼岸浮屠
茅山奇术再现江湖,妖魔邪怪跋扈横行,这次,又将掀起怎样的血雨腥风? 残酷世界跌宕人生,谁为那一笔笔的血债买单?重重诡局背后,孰正孰邪? 身世离奇的我(方归),无意间卷入到灵劫之中,怎样才能破局,如何才能逆天改命? 收灵灭邪破煞,大惊悚之旅,正式开启!
科幻 连载 212万字