人工智能语音克隆技术利用深度学习算法来重新创建特定的人类声音。模型训练过程需要大量目标语音数据以提升在语气、语速、口音和其他细微声音特质上的真实度。本文对人工智能歌声克隆技术进行了深入研究,包括其在音乐产业中的应用以及从版权侵权到身份盗用等法律道德问题。最后,我们呼吁法规修订的必要性。
人工智能语音克隆技术的应用范围广泛,遍及各行各业。该技术可以创建个性化的虚拟助手,或者充当失去说话能力的人的沟通工具。动画师还可以使用该工具为其创作生成画外音。对于音乐行业来说,人工智能可以为整个音乐制作过程提供全新的创造维度。值得注意的是,虽然人工智能语音克隆为音乐创作开创了令人兴奋的机会,但其强大的功能也引起了人们对版权侵权、信息歪曲和身份盗窃的严重担忧。
人工智能在音乐行业的进步引发了有关版权和所有权的问题。这些人工智能模型在可能包含受版权保护的音乐数据集上进行训练,生成可能侵犯原创艺术家权利的作品。当人工智能系统采用语音克隆、复制艺术家的独特表演时往往陷入潜在的法律陷阱。
这场辩论的核心是一个紧迫的法律问题:谁应该拥有人工智能生成的音乐? 是用户与人工智能共有还是开发算法的组织机构?人工智能缺乏具有主观能动性的决策,因此虽然它能模仿人类的创造过程,其输出最终取决于底层的训练数据。由于缺乏人类原创元素,人工智能的产出是否根本不符合版权保护的条件?
人工智能歌声克隆的案例
随着音乐世界见证歌声克隆的出现,人类和机器创作之间的界限愈渐模糊。2023年一首爆火下架的《Heart on My Sleeve》其中便使用了人工智能克隆The Weeknd和Drake的声音。
2021年,Capitol Records签约虚拟说唱歌手FN Meka,成为头条新闻。FN Meka的首张单曲《Florida Man》由音乐科技公司 Factory New创作,因其人工智能人声克隆而受到关注。然而,粉丝们后来发现,FN Meka背后的声音是由一位真人配音演员提供的。该配音演员从未进入歌曲制作者名单,也没有从Factory New 获得报酬。随着人们对FN Meka的兴趣与日俱增,怀疑论者开始审视这位艺术家的公众形象和创意选择。FN Meka以黑人男性机器人的形象出现,因使用非裔美国人的方言和举止而陷入进一步的争议。批评者认为,这相当于数字黑脸妆容和文化挪用。
Capitol Records因解雇真正的音乐人并从人工智能说唱歌手获利而面临舆论压力。由于受到广泛批评,唱片公司终止了合同,并在一周后下架了FN Meka的音乐。Factory New将FN Meka从网络平台上删除,并发表了道歉声明,并承诺评估他们的创作过程,以防止未来出现文化挪用的问题。FN Meka事件的影响凸显了音乐中真实性和适当文化表征的重要性。这场争议表明,如果在没有适当考虑的情况下使用人工智能,可能会对声誉产生负面影响——即使该技术最初的目的是为了更好的音乐体验。
凭借生成和操纵歌声的能力,人工智能为音乐行业提供了创新贡献的可能性,但首要一步是负责任地对待技术革新。这一责任包括在使用人工智能进行语音克隆和类似的创作过程时考虑道德和文化敏感问题。FN Meka事件只是人工智能肆意进入音乐行业后导致意想不到的后果的一个例子。
2020年发生的另一起事件凸显了人工智能带来的挑战,当时一名匿名创作者使用人工智能模仿Jay-Z独特的声音,表演了莎士比亚话剧《哈姆雷特》中的标志性独白“生存还是毁灭”。 该视频很快在 YouTube上引起关注,并在Jay-Z所属唱片公司的要求下被删除,理由是侵犯了版权。然而,YouTube最终以缺乏有效的法律依据为由恢复了该视频。Jay-Z的案例凸显了此类人工智能技术侵犯艺术家权利并影响人们对其作品的看法的影响力。虽然这一事件看似无害,但它引发了对声音克隆可能会歪曲或损害艺术家的声誉品牌的疑虑。随着技术的不断发展和人工智能变得越来越复杂,需要有一个适当的框架来帮助应对挑战。除了法律和监管机构的支持外,音乐产业还必须在促进技术创新的同时平衡艺术家的权利。
对音乐人生计的影响
人工智能能够以最小的成本不知疲倦地创作音乐,这对音乐人构成了重大挑战。音乐人可能需要多年的练习和大笔投资才能制作一张专辑,但人工智能可以在几分钟内制作出类似的专辑而无需任何人工成本。如果允许人工智能主导的音乐创作不受限制地发生,成本差异可能会导致市场充斥人工智能音乐,从而拉低人类创作作品的价值。
此外,复制知名音乐家的声音和风格可能会让事情变得更加复杂。随着人工智能在模仿方面变得更加熟练,粉丝可能不太愿意购买原创艺术家的作品,而是选择人工智能生成的复刻品。这种情况可能会导致演出观众减少和音乐销量下降,从而导致音乐家收入大幅损失。
OpenAI于2019年推出的MuseNet是使用人工智能创作音乐的一个典型例子。MuseNet可以用十种不同的乐器生成四分钟长的作品,并产生各种风格的音乐。它接受了多种流派音乐的多样化数据集的训练,展示了人工智能在音乐创作领域的潜力。OpenAI因开发ChatGPT而闻名,而它并不是唯一一家涉足人工智能音乐领域的公司。Meta和Alphabet等科技巨头正在积极开发他们的音乐生成模型。虽然这些努力还处于早期阶段,但这是利用人工智能音乐创作领域日益激烈竞赛的开始。
但值得注意的是,人工智能并不一定会给音乐人带来灭顶之灾。相反,它提供了重新评估和适应的机会。音乐人可以利用人工智能技术来增强他们的工作并使他们的收入来源多样化。人工智能工具可以成为歌曲创作、作曲和制作的得力助手。此外,人工智能还可以让更多艺术家独立制作音乐,减少对唱片公司的经济依赖,并直接面向粉丝的销售。一些艺术家已经开始尝试人工智能辅助音乐创作,例如Grimes与人工智能联合作曲的实验。一些公司还致力于打造“合乎道德”的的人工智能产品。Resemble AI作为一个语音克隆平台,最近在A轮融资中筹集了800万美元。该平台的目标是与音乐家合作开发语音克隆技术,以防止恶意使用。这些公司的目标不是取代艺术家,而是提供为创作者提供支持。人工智能还为艺术家带来了其他创新机会。音乐家可以探索人工智能在现场表演中的应用,将人类艺术与人工智能的能力相结合,创造出独特而令人兴奋的表演。这种创新可以推动音乐会门票销售,为音乐销售收入的任何损失提供潜在的缓冲。
音乐技术的进步往往与最初预测的不同,并且往往会补充而不是取代人类的创造力。例如,鼓机的广泛使用并没有消除对鼓手的需求,尽管它改变了打击乐和鼓的格局。同样,将人工智能融入音乐可能会以意想不到的方式塑造这个行业,为艺术表达开辟新的途径。
人工智能的潜在艺术独创性以及深思熟虑的监管,音乐产业可以在人工智能浪潮中蓬勃发展。音乐产业的关键是塑造一个让人工智能提供支持而不是统治的生态系统。音乐在过去已经经历了几次颠覆性技术的考验,一旦艺术家克服了未来的法律和创意挑战,它就能再次做到这一点。 只要我们通过道德视角塑造技术变革,不确定性中就总会存在机遇。
信息歪曲及其影响
虽然语音克隆技术开辟了一个充满可能性的广阔新世界,但它也为滥用打开了大门。未经艺术家许可,任何人都可以克隆艺术家的声音并用它来创作具有艺术家独特风格的音乐。这种不道德的做法侵犯了艺人的声音和风格的权利,可能会误导粉丝并损害艺人的声誉。
正如最近新加坡歌手孙燕姿的案例,这种情况不仅仅是假设。一个未经授权的人工智能模型克隆了孙燕姿的声音,导致在未经她同意的情况下制作了一首冒充她的歌曲。当粉丝遇到这种欺骗性的音乐制作时,他们可能会错误地将其归因于原歌手。如果作品质量不合格或与歌手的品牌不一致,可能会损害他们的信誉并玷污他们的形象。
涉及孙燕姿歌声的事件是信息歪曲风险的鲜明例证,克隆声音导致歌曲损害了孙燕姿的声誉。盗用艺术家的肖像和歌声可能会破坏他们对内容的控制,在听众中造成混乱,并最终损害他们的职业发展。随着人工智能能力的快速发展,需要强有力的法规、政策和权利保护来应对人工智能模型滥用和内容伪造日益增长的威胁。 艺术家必须掌握权力控制自己的创作作品和公众形象,以防止他们的职业生涯被人工智能劫持。
另一个同样令人担忧的问题是人工智能自主生成作品的能力。 开发人员可以在具有特定艺术家风格的数据集上训练机器学习模型,并开发与该风格密切相关的新音乐。这个问题引入了一种独特的模仿方式,其中人工智能并非克隆艺术家的声音,而是在未经他们许可的情况下复制他们独特的音乐风格。在这种情况下,包括编曲、节奏和旋律在内的艺术家的独创的音乐风格都被吸收殆尽。2016 年,索尼CSL实验室的一组研究人员使用名为Flow Machines的人工智能工具创作了一首名为《Daddy’s Car》的流行歌曲。人工智能接受了来自不同流派和时期的13000个音乐样本的数据集的训练,最终产生了一首类似披头士乐队风格的歌曲。
语音克隆成为身份盗窃的新手段
虽然使用人工智能来生成音乐可能具有创新性和娱乐性,但声音克隆技术的更广泛影响超出了音乐领域。语音克隆技术现在可以轻易取得并且相当成熟,为另一种形式的身份盗窃打开了大门。不道德的个人或实体可以利用这项技术来克隆艺术家的声音,以进行与音乐创作无关的潜在诈骗活动。
2019 年,一家名为Dessa的人工智能公司制作了著名播客主持人 Joe Rogan声音极其精确的克隆。 这种逼真的语音克隆凸显了该技术的潜在滥用,引发了人们对在线内容真实性和身份盗窃可能性的担忧。这种滥用行为的范围可能包括传播虚假信息或以艺术家的声音为幌子进行欺诈性索赔,以及更险恶的犯罪活动,例如冒充艺术家进行诈骗。鉴于公众对艺术家声音的信任,这种形式的身份盗窃可能会对艺术家、他们的粉丝和公众造成重大伤害。在极端情况下,居心不良的人还可以滥用声音克隆来创建深度学习伪造音频,其中艺术家的声音被令人信服地操纵,说出他们从未说过的话。在社交媒体和信息快速共享的时代,这种深度造假的传播可能会产生迅速而严重的影响,大至操纵公众舆论,小到制造绯闻八卦。
应对这些威胁需要多个利益相关者的共同努力,包括艺术家、科技公司、立法者和公众。这场斗争可能涉及为语音所有权创建更明确的法律框架,开发检测和标记语音克隆的技术,以及提高公众对这些潜在滥用行为的认识。为了应对语音克隆技术快速发展的局面,管理人工智能开发和使用的道德准则将需要不断重新评估和更新。
调整法律框架以应对当代人工智能挑战
应对人工智能风险需要在法律、技术和道德等多个方面积极努力。 随着人工智能技术不断重塑音乐产业,解决随之而来的法律问题势在必行。艺术家、唱片公司和技术开发人员如今在未知领域前行,缺乏透明度可能会导致争议或创新障碍。
人工智能实现的歌声克隆和演唱模仿提出了两个截然不同的版权挑战。歌声克隆涉及使用人工智能通过模仿歌手的音色来合成新的声音内容。这引发了有关生成的音频的合法所有权的问题——它属于用户还是开发者,还是完全不受保护?演唱模仿涉及未经同意模仿声音表演方式,存在于人工智能模仿原唱受保护的风格来进行翻唱。虽然原唱作品可能是公开的,但未经授权使用受版权保护的表演作品可能构成侵权。 总之,歌声克隆面临人工智能创作的所有权问题,而演唱模仿有受保护的表演知识产权的滥用问题。
艺术家、音乐行业代表和法律专家正在游说修改版权法,以解决人工智能带来的问题。其中一个变化可能是将表演者的声音视为其作品的独特且受版权保护的方面。目前,版权法的重点是保护歌词和旋律等有形的创意表达,而声音等无法记谱的内容则不受保护。通过修改版权法以涵盖艺术家独特的声音,艺术家将有法律依据对未经授权的声音克隆提出异议。这一升级后的法律框架将极大地阻止声音克隆技术的潜在滥用。
在美国,“合理使用”政策允许在少数条件下有限使用受版权保护的材料而无需获得权利所有者的许可。但在人工智能生成音乐的背景下,什么构成“合理使用”?当我们面对一个与人工智能一起不断发展的音乐产业时,建立更精确的指导方针可以作为不可或缺的规则手册。
欧盟一直走在人工智能时代政策更新的最前沿,提出了解决数字空间版权问题的改革方案。其中一项值得注意的努力是《欧盟版权指令》(European Union Copyright Directive),旨在加强对数字使用方面版权所有者的保护,并使数字时代的欧盟版权法现代化和统一。
2021年4月,欧盟委员会推出《人工智能法案》,通过为开发者和用户设定框架来规范人工智能的开发和使用。该框架主要关注透明度,确保人工智能系统告知其用户人工智能的参与过程。规范可能会根据人工智能的类型而有所不同,可能包括人工智能功能、人类监督和决策责任的详细信息。尽管该法案最初排除了非特定目的人工智能,但最近的法案添加了对生成式人工智能基础模型的解释。这些变化要求此类人工智能提供商实现透明度、数据治理和风险管控。此外,开发者必须披露人工智能训练中使用的受版权保护的数据摘要,否则将触犯法律。
缓解版权问题的一种解决方案是在无版权的音乐上训练他们的模型,或者使用已获得必要许可的音乐数据。合乎逻辑的下一阶段是从仅依赖授权音乐进行模型训练过渡到涉及许可协议的方式。通过直接与艺术家接触并协商许可条款,人工智能研发者可以创建一个更全面的尊重艺术家权利的的框架。 这种转变将使艺术家能够更好地控制自己的音乐,并确保他们在训练人工智能模型时获得公平的报酬。建立此类许可协议可能是一个双赢的局面,允许人工智能不断发展,同时保护和奖励人类创造力。
法律机构可以在人工智能开发者和艺术家之间安排许可协议。实施版税系统可以确保艺术家从使用他们的风格或声音的人工智能生成的音乐中获得部分利润。然而这种方法可能被证明是有缺陷的。即使接受了非版权音乐的训练,人工智能系统仍然可能会无意中复制受版权保护的音乐的风格,从而使问题进一步复杂化。值得注意的是,围绕歌曲《Blurred Lines》备受瞩目的法律案件已经开创了一个可能影响未来挑战的先例。在那起案件中,法院裁定这首歌抄袭了Marvin Gaye的《Got to Give It Up》的“感觉”或“音色”——这些元素通常被认为是无形的和不受版权保护的。这种法律解释可能会给本已复杂的人工智能和音乐版权领域带来歧义和不确定性。
防止语音克隆滥用的技术保障
尽管存在滥用的可能性,但技术也可以成为应对人工智能负面影响的重要工具。开发人员可以创建先进的算法来识别人工智能生成音乐和语音克隆,类似于识别受版权保护的音乐的现有系统。 此类算法可以分析声音频率、音调变化和语音模式等参数,以区分人类和人工智能生成的声音。这些先进的检测系统可以集成到流媒体平台、音乐商店和社交媒体网站中,从而自动删除或标记未经授权使用艺术家声音的行为。此外,这些系统可以帮助执行修订后的版权法,从而更容易识别版权侵权行为并采取行动。
传统上用于保护视觉和数字媒体的水印可以作为防止语音克隆滥用的附加保护措施。在人工智能语音克隆的背景下,水印将涉及在人工智能生成的内容中嵌入难以察觉的音频。该代码只能通过特定软件检测到,其中包含有关内容来源的信息。
该水印有多种用途。首先,它可以帮助追踪内容的来源,在滥用或侵犯版权的情况下提供有价值的证据。其次,它可以阻止潜在的滥用,因为水印表明版权所有者可以追溯到内容的来源。最后,水印还可以促进自动检测系统,使标记和删除未经授权的艺术家声音使用变得更容易。
鼓励创作探索,保护艺术家权利
文中的这些讨论凸显了人工智能语音克隆时代鼓励创造性探索和保护艺术家权利之间的微妙平衡。各个国家/地区管辖这些问题的法律可能存在很大差异,如今语音模仿的许多方面都属于法律灰色地带。我们需要培养尊重原创作品的文化,同时对这些复杂的版权问题以及行业发展方向慎重对待。