按照原先的设想,读完本期要读的书之后,再找一本书来对照。只是我之前没有读过单纯为诗而写的文学史,所以一时想不到类似的书。最后纯粹看标题,找了宇文所安教授(Stephen Owen)的《中国早期古典诗歌的生成》。心里想的是找不到完整的诗史,看一部分的也行。
宇文所安教授是著名的汉学家,任教于哈佛大学,在中国古典诗歌研究领域有很高的声誉。连他选的中文名都别具一格,用了“宇文”这样唐风浓郁的复姓。久闻大名,但还不曾读过他的作品,书来了之后,还挺期待的。
然而一打开,才读了两页,就后悔了。这本书跟我预想的完全不一样啊!
我所期望的,是作者会讲解诗歌如何从上古的源头生发,在魏晋时日趋成熟和稳定。但作者着力阐述的,却是五六世纪的齐梁文人如何人为地加工、整理之前的无名乐府或古诗,为其分配作者,构建出一个诗史中的“汉魏”。
经过齐梁文人的中介,我们所读到的“汉诗”,很可能并不是其本来面目。叫做“汉诗”,未必真是汉代的诗;标注着“苏武”、“曹丕”、“班婕妤”的作品,也很有可能并不是他们所创作的。
这才意识到,书的英文原题The Making of Early Chinese Classical Poetry之中一词的意义所在。因为在作者看来,我们今天所见到的“汉魏”诗歌作品,并非自然生发,而是经历了后世人为的处理。
正如宇文教授自己所说,“这本书展现了文学研究不那么可爱的一个方面:研究诗歌的内在运作机制,以及它的断片是如何被挑出来,组合为一个美丽的整体。”(p.24)
很久没有读学术论文,一开始很不适应,有种大过年的忽然要做高考卷子的感觉,确实有点不可爱。况且乍一看这本书的主题,似乎与《中国诗史》没有任何关系,因此一度想要放弃。
不过耐着性子慢慢读下去,从第二章开始就找到了乐趣,觉得是一本能够填补许多知识空白的好书。
其实,宇文教授的这部论著,与吉川先生的关于早期诗歌的论点在大方向上是一致的。吉川先生曾经依据乐府推断出,五言诗的源流来自民间歌谣,但写得比较简略。
而且,按照吉川先生的观点,魏晋时代,诗歌所流行的范围是上流社会。那么民间的诗歌如何进入上流社会,并且日臻成熟与完善呢?这一点在我们目前所读的作品中没有详细的解释。而宇文教授的这本书,恰好可以弥补这个断层。
首先,他指出,许多“汉魏”古诗和乐府(为了行文方便,后文统称为“早期诗歌”)可以明确地归为几种主题,每种主题都有自己的话题(“话题”一词在书中是作者所用的术语,我暂且理解为某个模式或套路中的某个步骤),且有相应的套语。
例如,一个常见的主题是“夜不能寐”,“围绕在它周围的话题包括:着衣,徘徊,明月,清风,鸟鸣,有时还有弹琴(或弦歌)。……只要有月亮,就一定是明月,从来不会是月牙甚至不会是半月;在这一时期,诗人从来不在雨夜失眠;季节往往是秋天;诗人必定独守空床。” (p.85)
《古诗十九首》中的《明月何皎皎》就是一个典型的例子:
明月何皎皎,
照我罗床帷。
忧愁不能寐,
揽衣起徘徊。
客行虽云乐,
不如早旋归。
出户独彷徨,
愁思当告谁。
引领还入房,
泪下沾裳衣。
作者在文中引用了许多作品来解释这种创作的模式。当一位作者的诗作开始进入某个主题时,TA往往会遵循这个主题的模式,甚至大体依照主题元素出现的顺序排列自己的诗句。
当然,不同的作品中,同一主题的呈现会有详略与顺序的不同,但读者——尤其是熟悉这些话题的当时读者,都能很容易地辨识。
在一些场合——比如宴会表演中,创作者可以不需要完整呈现某个主题,就轻易地转入下一个不相干的主题。在今天的读者看来,诗句段落之间显得跳脱,但当时的听众可以轻松会意。
宇文教授在书中用很大的篇幅介绍了早期诗歌这种主题式的创作,并专章解析了游仙、宴会与死亡这三个主题,在此就不详细展开了。
这部分的内容,我自己读得津津有味,因为在读之前,完全没有意识早期诗歌的主题;读了之后,又觉得确实如此。
通过解释早期诗歌的主题,宇文教授很好地论证了,这些诗歌的作者们共享着一个诗歌语料库。同类的主题,不同的作者往往会选取类似的句子或词语,加以组合。有时是直接套用,有时是稍有变化。
比如,《古诗十九首》中有:
道路阻且长,
会面安可知。
曹植的《送应氏二首》中则有:
山川阻且长,
别促会日长。
说的是同一个意思,用的是同样的顺序,只是用词稍有调整,曹植的用得词更高雅一些。这样的例子,在早期诗歌中比比皆是。
想到曹操的《短歌行》,当中就连续引用了《诗经》中的句子:“青青子衿,悠悠我心。”“呦呦鹿鸣,食野之苹。我有嘉宾,鼓瑟吹笙。”虽然是“别人的”句子,但只要合适,都可以拿来用。这也许也是个旁证。
至少在当时的年代,人们并没有强烈的“原创性”的概念,并不认为一位作者必须创作出与其他任何都不相同、独一无二的诗句。现成的套语、词汇,都可以拿来排列组合。
既然不需要具备原创性,那“作者”意味着什么呢?我们会发现,“作者”这个概念,在早期诗歌的时代,也许与我们现在脑中所有的并不相同。宇文教授则在书的第五章专门探讨了这个问题。
“如在欧洲一样,‘作者’(authorship)的概念在中国是一个历史性的构建。因为它是一个逐渐形成的过程,所以‘作者’可以有很多含义。但它必须牵涉这样一种声称:也即特定的文辞属于某一个特定的个人,不能仅仅是对某个普遍真理的众多可能的表述之一种。” (p.257)
宇文教授特别指出,司马迁在“作者”概念成形的过程中起到重要的作用。例如,在司马迁笔下,屈原被视为一位真正的作者。而在此之前,是一系列的诗歌与屈原的传说联系在一起。
在“作者”的概念还未巩固之前,这是一种非常普遍的现象,“从以‘屈原’口吻创作的文辞,到庄周死后才做出的训诫,到孔子应该发表过的智慧言论。” (p. 258)
虽然到了东汉时期,“作者”的概念已经得到了相当程度的建立,许多权威文本与作者的关系也确定下来,但诸如早期诗歌这样的民间作品,却还处在混沌的状态。
这里想到吉川先生轻轻带过的一句话,曹植可能是中国历史上最早署名的抒情诗人。觉得“可能是”三个字很妙。先生实在是相当地严谨。
在那个时代,以某人的口吻为某个场景作诗,并且归于某人名下的代作是相当普遍的。人宇文教授指出,归于汉代苏武和李陵名下的诗歌随着时间推移越来越多,甚至出现了成卷的文集,而内容都是依据相似的历史。一个人为相同的场景创作大量的诗歌,显然是不可能的。
另一方面,五六世纪对“作者”概念已经比较清晰的齐梁文人,又常常为无名诗歌分配作者。感觉一首诗很适合某个历史人物的故事,或者某人的风格,就把这首诗归于某人名下。因此我们今天读到按照时间顺序编排的“汉魏”诗,未必真的符合它们在历史上被创作出来的时间。
一首诗未必古老,但它可能被分配了年代更早的作者。齐梁文人用这种方式填补着前代诗史的单薄。例如,徐陵的《玉台新咏》大大丰富了建安前期的诗歌,其中当然有很多作者存疑的作品。“以前早期的五言诗作品少得可怜,现在却一下子出现了这许多——其中不少似乎是近作,是一个诗歌极大丰富的时代对一个诗歌短缺的时代做出的慷慨捐赠。”(p.60)
读到这里,又可以吉川先生先前所论述的相呼应。秦与汉代早期,是一个文学匮乏的年代,直到汉武帝的时期,人们才开始有意识地重视文学、创作专门的文学作品。而这个时期,所流行的是以司马相如为代表的辞赋,追求文辞的华丽优美、语言的铺陈。而诗在这时候,用吉川先生喜欢的比喻来说,还是“地下水”的状态。
在宇文教授的书中,也可以看出,虽然汉代文献中出现过五言作品,但五言诗的体裁并未成型。许多诗作每行的字数都不固定,从三言到七言均有,而五言与四言之间又可以灵活转化,一些诗作就有五言与四言的版本。我们也可以看到,在建安时期,曹氏父子既有五言诗,也有四言诗。
这样看来,更加能体会到,在汉魏时期,五言诗的确不是一种成熟稳定的体裁。
回头再说,齐梁间的文人将许多无名诗归于不同的作者,并通过文选的形式将这种诗歌与作者的搭配固定下来。当一首诗与一位具体的作者结合时,不但能够填补诗史的空白,还能大大拓展读者解读的空间。
许多诗歌选集中列出最早的成熟五言诗往往是一首归于西汉末年班婕妤名下的诗:
新裂齐纨素,
鲜洁如霜雪。
裁为合欢扇,
团团似明月。
出入君怀袖,
动摇微风发,
常恐秋节至,
弃捐篋笥中,
恩情中道绝。
著名学者逯钦立在其编著的《先秦汉魏晋南北朝诗》中也将这首诗作为班婕妤的作品收入,但同时详细说明,此说不可信。
既然编者本人并不认同这首诗系名的作者,为什么还要保留作者姓名,再另行注释说明呢?
宇文教授的看法是,虽然现在的学者对包括班婕妤诗在内的早期诗歌的作者提出了质疑,“但是没有人知道该如何处理一首游离于这一叙述之外的诗。它失去了自己的‘位置’。可是如果离开了滋生意义的历史网络,诗歌就不再具有充分的意义。” (p.2)
就像前面这首诗,如果我们把它视为班婕妤的作品,很容易将团扇的比喻和作者在深宫中的际遇联系起来解读。但如果抽掉了作者,那么这首无名古诗就飘荡在早期诗歌的汪洋中,难以找到一个安放的位置。
最后,来自民间的“共享创作”是如何进入上流社会的呢?
本书的最后一章《拟作》提出了一种很有意思的路径:文人的拟作。
宇文教授发现,在整个公元五世纪,文人们都用“拟”来特指对特定诗歌的模仿。这种模仿非常严格,是逐句重写原作,只是用高级文雅的词汇替换原作中俚俗的用词。
许多文人都创作过拟作作品,其中留存作品最多的是陆机,他有十三首对于《古诗十九首》的拟作留存。在这些作品里,他的重写非常严格,词语的顺序、诗句的结构力图都与原作保持一致,甚至拟写的诗句有时与原诗是对仗的。
但拟写再严格,也会产生一些细微的调整。比如改换句式避免重复、修改原诗押韵不统一的情况等。
也许来自民间的早期诗歌,就是通过这种拟写再创作的形式,慢慢进入上流社会。而带有个人风格和印记、独一无二的作品,也许就是在这种拟写和改换中逐渐生发出来。
宇文教授的这本书,内容非常丰富,在此只能汲取小小一瓢,仅勉强整理我能理解的部分。
这本书是比较专业的学术论文,个人认为对普通读者(也就是我)有些门槛,但仍然很推荐有兴趣的朋友一读,一定会收获许多感悟。
授权自AI科技大本营(ID:rgznai100)
本文共2714字,建议阅读6分钟。
本文为你介绍清华自然语言处理与社会人文计算实验室的自动作诗系统——“九歌”及其相关的技术方法和论文。
[ 导读 ]近年来人工智能与文学艺术的结合日趋紧密,AI 自动绘画、自动作曲等方向都成为研究热点。诗歌自动生成是一项有趣且具有挑战性的任务。在本次公开课中, 讲者将介绍清华自然语言处理与社会人文计算实验室的自动作诗系统,“九歌”,及其相关的技术方法和论文。
分享嘉宾:
矣晓沅,清华大学计算机系在读硕士, 导师为孙茂松教授。主要从事自然语言处理、文本生成方向的研究。研究工作在IJCAI、CoNLL、EMNLP等会议发表。
公开课回放地址:http://www.mooc.ai/open/course/545?=Leiphone分享主题:“九歌”——基于深度学习的中国古典诗歌自动生成系统
分享提纲:
任务背景及“九歌” 作诗系统简介基于显著性上下文机制的诗歌生成基于工作记忆模型的诗歌生成基于互信息的无监督风格诗歌生成我们将其分享内容整理如下:
人工智能的概念提出不久后,许多科学家试图将人工智能与日常生活相结合。在 NLP 领域,我们熟悉的有机器翻译、专家系统和对话系统,而诗歌属于人类语言中高度凝练,高度艺术化的体现,几十年以前便有科学家试图让 AI 具备创作诗歌的能力。
关于自动诗歌生成,我们的应用主要体现在:
娱乐场景——老百姓可以轻易通过诗意的方式去表达自己的情感;诗词教育——了解诗词中的关键词、意象、押韵等元素是如何在诗词中起作用的。文学研究——实验中关于词频、意象之间的关系的发现,能给文学研究一定的启发作用。启发其他类型文本的生成(歌词、小说……)。诗歌的特点是形式上高度凝练、简洁、节奏感强、语义丰富,因此我们认为它是自动分析、理解和生成文本的理想切入点。
关于自动诗歌的生成,业界的研究主要经历了三个阶段:
我们实验室是在 2016 年初开始做这件事情的,我们的九歌系统采用了最新的深度学习技术,结合多个为诗歌生成专门设计的不同模型,基于超过 30 万首的诗歌进行训练学习,能够产生集句诗、绝句、藏头诗、宋词等不同体裁的诗歌。
下面我会给大家介绍九歌系统背后的几个重要模型:
基于显著性上下文机制的诗歌生成
第一个模型被称作“基于显著性上下文机制的诗歌生成”,在这之前,针对中国古典诗歌自动生成的一些工作在新颖性、韵律和关键词插入有了显著提升,然而在上下文关联性方面还有所欠缺。前期的试验中,我们发现这也是自动诗歌生成系统的硬伤部分。
以这首诗为例子,诗歌主要以\"春风\"为关键词,通过 2016 的某个模型进行生成后,我们发现上下文的连贯性非常差。明明前两句描述的是比较和煦的景色,后两句却突然转变成比较悲怆的边塞风格。也就是说,前半部分与后半部分的主题、风格和内容完全不一致,而且中间也缺乏必要的过渡,关联性较差。
为什么模型会出现这样的问题呢?我们认为是因为之前的模型存在两种不合理的假设。
第一种是认为一首诗的生成过程中,历史信息可以被一个单独的历史向量存储和利用。
简单来说,就是每生成一句诗,便将这句诗的句向量压缩到历史向量中,以此类推,不停更新历史向量然后生成诗句。
这个假设会带来很多问题:
单独的向量的 capasity 并不高,无法将大量的句子和语义给保存下来。语义较好的词和无明确语义的词(如停用词等)被混到了一起。第二种不合理的假设认为 seq2seq 机制可以从一个无限长的历史序列里探索和利用历史信息。
这种假设的好处是可以有区分性地选择历史信息,忽略虚词。然而随之而来的问题是,当诗词的句子数过多时,比如以某宋词的第十五句作为例子,那么就需要将前面的十四句先拼成很长的序列作为输入,这将导致性能的大幅下降。
针对以上提到的两项问题,我们提出了 salient clue 机制,通过机制实现更优质的上下文捕捉。我们的内部设计逻辑是忽略句子里语义表现较差的部分,如虚词、停用词等,从而选择语义明确的部分来形成历史向量,来指导下文的生成。
更多关于 salient clue 机制的运作原理,请回看视频 00:13:25 处:http://www.mooc.ai/open/course/545?=Leiphone无论是在自动评测还是人工评测上,我们的结果与之前的模型相比,效果有了显著的提升。
在人工评测的部分,加了 style 的诗歌在\"诗意\"环节的表现较差,这是因为被强制控制风格以后,最终生成的用词多样性也会变差。
左边是风格的人工评测识别矩阵,对角线上的数字越大,说明我们的风格控制准确率越高,可以看到,我们的结果在 70%—90% 之间。右边是另一项人工评测结果,目的是要检测模型选择的字是否靠谱,我们请了一些专家进行人工挑字,与模型进行对比,结果显示重合率在 50% 左右,有了明显的提升。
由于模型较基础,所以存在的问题不少:
字词的选择较生硬;诗歌流畅性与诗意性受到影响。基于工作记忆模型的诗歌生成
这个模型借鉴了认知心理学的原理——\"工作记忆\"。
人们认为怎样的文章才具备连贯性呢?当读者读到一个新的句子时,如果这个句子能和存储在读者大脑工作记忆中的内容,或者文章的主题与大意建立关联,那么读者就认为新读到的这个句子和上文是连贯的。
有鉴于此,我们便提出了\"工作记忆模型\",该模型整体由三种不同的 Memory 组成:
一、Topic Memory
支持输入多个关键词,可以将用户输入的词单独保存在模型里,这里主要起的是约束诗歌整体主旨的角色。由于是独立保存,所以对关键词的输入顺序不做要求,是一项对用户非常友好的行为。
二、History Memory
与之前提到的 salient clue 机制相类似。
三、Local Memory
主要保存诗歌的前一个句子,因为中国古典诗歌的相邻句子往往有非常强的关联性。
更多关于工作记忆模型的运作机制,请回看视频 00:27:25 处:http://www.mooc.ai/open/course/545?=Leiphone
我们的实验分别生成了律诗、宋词和歌词,实验结果与不同模型相比,都有了很大的提升。
这是一张 perplexity 图,纵轴是 perplexity,横轴是诗歌的句子数目,不同颜色的线则表示 History Memory 的槽数。
一首诗歌的句子数目越多,整体的 perplexity 就越大,因为句子数目越多,上下文的关联性越难被确认,导致不确定性越大。同时我们还发现,History Memory 的槽数越多,perplexity 就越小,不确定性也随着变小。
模型的成功之处,在于提升了读取词的可解释性和表达的灵活性。
基于互信息的无监督风格诗歌生成
针对第一篇文章工作中存在的风格控制问题,我们又做了一项「基于互信息的无监督风格」的工作。众所周知,中国古诗具有不同的风格表达,其中三个最有代表性的分别是:边塞、闺怨和山水田园。
我们希望我们的模型可以做到以下几个要求:
给出一个关键词,就能生成不同风格的诗歌。通过无监督的方式实现这个功能。生成的诗在其他指标上尽量减少损失或者没有损失(流畅性、通顺性……)更多关于无监督风格生成模型的运作机制,请回看视频 00:36:17 处:http://www.mooc.ai/open/course/545?=Leiphone实验中我们设置了 10 种不同的风格,每种风格分别生成一组诗,最后我们统计诗歌的词频。
右边是人类评测的结果,对角线越明显,说明风格的识别率越高。一下生成十种风格的诗歌,还能取得这么高的识别率,说明实验的结果非常好。
以上是生成的一些诗歌例子。
最后,欢迎大家前往试用我们的系统,多多给我们提宝贵的意见,后续我们会根据大家的反馈持续改进我们的系统。
系统地址:https://jiuge.thunlp//大家好,我是 Java陈序员,我们常常会为了给孩子取名而烦恼,取名不仅要好听而且要规避大众化。其实,我们中华文化博大精深,可以借鉴先辈文人们留下的经典诗词中的文字来起名。今天,给大家介绍一个古诗文起名的工具。
这个工具支持从《诗经》、《楚辞》、《唐诗》、《宋词》、《乐府诗集》、《古诗三百首》、《著名辞赋》等经典中来生成不同的名字。
我们可以根据自己的姓氏来生成名字,例如《陈》姓:
一次性可以生成六个姓名,并有对应的诗句来源说明,是不是很nice呢!
再比如,《李》姓:
当然了,这个项目没有任何人工智能, 没有判断名字价值的目标函数,所以都是随机生成的。因此可以孕育出一些惊艳、惊鸿一瞥的名字,反之也会生成智障、搞笑的名字,大家可自行甄别。
大家如果对于这个项目感兴趣的话,也可自行下载代码到本地运行:
# 克隆代码git clone /d/file/gt/2024-03/h1rtc0eguix 安装依赖npm install# 本地调试npm start# 编译npm run build
或者直接使用线上地址:
/d/file/gt/2024-03/o1uqkrepwrc GitHub 项目,欢迎 Star:
https://github/chenyl8848/great-open-source-project
大家的点赞、收藏和评论都是对作者的支持,如文章对你有帮助还请点赞转发支持下,谢谢!
copyright © 2022 一生命运网 版权所有 辽ICP备2022007116号-4
法律声明:本站文章来自网友投稿,不代表本站观点,版权归原创者所有,如果侵犯了你的权益,请通知我们,我们会及时删除侵权内容!