庭审笔记04 | ai文生图案(下)

前言
如前文,针对AI文生图案,笔者就庭审内容进行了总结陈述。
通过初步上手SD软件,并查阅相关文章。就SD软件文生图功能的实现和影响图片因素的要点进行总结,陈列如下。


针对文生图SD软件,以及庭审中探讨的问题,笔者进行一些个人的观点发散。相关内容均为个人现时当下的见解,不作任何参考意义。
相关短语
SD:Stable Diffusion
Prompt:提示词,也称咒语
模型:放置于文件夹内,供SD软件调用,由基本数据模型投喂不同素材训练得到的成品
AI图片:SD软件文生图产出的图片
一、制作同一杯咖啡
1、复刻AI图片
理论上,AI图片存在完全还原的可能性:当安装环境一致、挑选模型、咒语、界面参数一致时,任何人启动SD软件,都会生成同样的AI图片。
以相机拍照而言,可以类比这样的场景,当一个相机在风景前,已预设三脚架、角度、参数,你我所需要执行的没有不同,先后按下快门。
或者以做咖啡来类比,同一咖啡机,放入咖啡豆、设定磨豆程度、调整好温度、时间,按下启动,制作出同一杯咖啡。
2、模型是一个黑盒
各类已成型的打包模型,依据前期投喂素材的不同,决定了产出图片的风格。
不同模型,如果操作者初次接触,即便在相同咒语的启动下,其呈现出的产出结果,依然是不可控的。
所以无论SD软件产出的AI图片,距离操作人员心目中实际的场景如何,操作人员依然需要对咒语进行进一步微调,以达到咒语、模型和产出AI图片的强绑定性。
即言之,包装好的模型,可被视为一个黑盒,需要通过调试咒语,反复摸索测试,最终得到稳定的产出和效果。
如此,可固定为一条可稳定输出的咒语。
3、低价的咒语
AI文生图案中,被告提到,通过网络平台,可以以非常低廉价格,轻易获得大量咒语和教程。为此,笔者在某平台上,以极低的价格,购入了相关咒语。

购买商品后,卖家提供了一条网盘链接,链接文件夹内,以excel文档形式,囊括总结了大量SD咒语,表格中,不仅囊括了示意图、关键词、反向关键词、采样方法、采样次数、随机种子等。同时还附加了NovelAI、Midjourney相关类似资料。

不需要懂得任何原理,JUST USE IT。

而根据笔者的尝试,可能是未启用lora插件,选择韩国模特模型的原因,在其他参数输入一致时,产出的AI图片,画风与示意图完全不同。

但可以看出,SD软件在已选定模型的基础下,依然很好的诠释了咒语。
批量的低价咒语,在模型中划出了一个虚拟的边界,为操作者生成AI图片指明了参考方向。
4、咒语的不可版权性
庭审争议焦点,即讨论AI图片,是否构成著作权法下的作品。
首先,从可复制性角度,SD文生图图片,生成为常见的图片格式,符合以有形形式复制的要求。
其次,独创性方面。通过梳理SD生成图片的流程,操作者在其中的参与,一共有三处,分别是:
模型的选择
咒语(Prompt提示词)、界面参数的输入
对生成图片的挑选
模型的选择、界面参数的输入,操作者对已生成图片的挑选,均不具独创性讨论空间。
探讨的点,需回到咒语。
如前所述,咒语+模型=AI图片。
咒语由以下内容组成:
一系列控制参数
正向、反向提示词
此处的参数,指代简单的数值调配,比如迭代步数、采样方法、分辨率等,均由操作人手动勾选。
正向、反向关键词,为单个关键词输入,或者可以称之为标签化。加上Prompt提示语法,调整部分关键词的权重,最终构成一个关键词词组。通过关键词词组,可以构建出,一个简单的画面场景。
以其他博主调试咒语文章举例:
中文场景:一个女孩,银色长发,紫色眼瞳,眼镜,口红,黄色职业装,纤细的身材, 走路,街道背景,看着屏幕
加上场景权重等描绘,构成正面提示词Prompt:
1girl, silver long hair, purple eyes, glasses, lipstick, yellow business_suit, slim body, walking, street_background, looking at viewer,(masterpiece:1. 4, best quality), unity 8k wallpaper, ultra detailed, beautiful and aesthetic, perfect lighting, detailed background, realistic, solo, perfect detailed face, detailed eyes, highly detailed,
最终得到画面:
我们可以看到,咒语是一串无文学性的机械词组描述,通过短语、词组、权重,描绘操作者脑中的一个画面场景。
编织咒语的目的是帮助SD软件更好更好的理解,控制并输出内容。
但咒语不仅有着输入75token的数量上限,同时部分提示词义之间如有重叠杂糅,均会影响SD软件理解,从而影响AI图片的内容输出。
笔者认为,咒语具有不可版权性。
其一,操作者对于AI图片的生成,在整个生成过程中,其操作空间极为有限,除开有探讨空间的咒语外,未进行额外的有独创性的操作。整个过程更像是实验,按部就班的做咖啡,是一种黑盒摸索和模型干预,而绝非控制。
其二,有探讨空间的咒语,作为一串数据、一种参数,系无文学性的机械词组,不具有独创性。虽然咒语与AI图片有一一对应性,但咒语与AI图片之间,不具有直接的可视关联。
其三,咒语很难,无法同其他常见著作权作品一般,自证创作过程。即便操作人,声称该条咒语为付出反复尝试、辛勤摸索得来,创作者可以提供的,是尝试过程中,遍历多次的生成图片及前述图片创作时间,但最终的AI图片,与前述遍历尝试生成的图片之间,二者不具有创作过程的可溯性。
二、控制的程度
1、SAKO连的探讨
在街霸4时期,日本职业玩家SAKO曾开发出了一套极难的目押连段,必须由角色杀意隆对角色rufus打出。
该连段得益于rufus特殊的受创判定框,以及街霸4系统SA取消的机制,拳脚的气槽控制,因此被视为杀意隆的限定连段,格斗游戏圈也称呼为“SAKO连”。
SAKO通过不断的尝试以及自身对系统的理解,开发出极限的“SAKO连”。
以版权保护的角度审视,SAKO作为街霸4的游戏用户,真的对“SAKO连”享有什么权利么?比如著作权,或者其他方面的保护权利?
答案是否定的。
SAKO在浩如云烟的连段、帧数、气槽选择中,额头流汗般的辛勤尝试,发现了“SAKO连”,而并非发明了“SAKO连”。
所以人们惊呼于该连段的combos、操作难度之高,感叹赞赏并由衷的命名为“SAKO连”。但SAKO本人或者卡普空,均无法限制玩家尝试复原SAKO连。


2、如果文生文
假设,仅是假设,如果SD软件支持文生文。
即利用同样的短语词组,提示词包括人物、背景、性格、时间、地点,生成一篇千余字的短篇或者百余字的诗歌。操作人员是否对该AI短篇和AI诗歌,享有著作权呢?
3、仿生人不会梦见电子羊
AI图片寓意了新的赛道出现,而实体法有着缓慢且稳定的滞后性,抛开哲学领域的讨论时,不必非得为其套上一个著作权法内的符号。
当解释条文慢于现实,当尊重理解到并成为。
审视AI巨变,跟上发展脚步,调整工作节奏,拥抱家庭生活。
参考链接:
秋葉aaaki:【AI绘画】大魔导书:AI 是如何绘画的?Stable Diffusion 原理全解(一)
乐伊ROY:9700字干货!超全面的Stable Diffusion学习指南:文生图篇
乐伊ROY:万字干货!超全面的Stable Diffusion学习指南:模型篇
Ciel哔哔:【Stable Diffusion学习笔记】2.各个模型到底有什么区别?
Lilian Weng:What are Diffusion Models?
杨三季:AI绘画:Stable Diffusion 提示词高阶用法(一)
Tatsumaki Channel:USF4 - Evil Ryu Sako Combo 51 HITS - By Erdem
苹果吃出虫:终极街霸4 杀意隆SAKO连段(带输入)






