✍️ 提示词框架 - Midjourney
前言
提示词是一段简短的文本短语,Midjourney会对其进行解释以生成图像。Midjourney 将提示中的单词和短语分解为更小的部分(称为标记),可以将其与其训练数据进行比较,然后用于生成图像。精心设计的提示可以帮助制作独特且令人兴奋的图像。
Midjourney 对中文理解会有歧义,请用准确的英文来做提示词!
最佳结构
Midjourney V6.1 Alpha
测试已经启动。提示词的编写也随之有一些变化。
建议避免使用 获奖、超现实、4k、8k 等表述,而应确保请求明确。如果你希望得到更直接、更中立且更现实的输出结果,最好将
--style raw
设置为默认。官方推荐提示词结构和顺序?
官方的模板主要分成六个部分:风格 + 主题 + 背景 + 构图 + 环境 + 细节补充
遵循上述提示结构可以获得最优结果。此外,该系统最显著的特点包括能够精确呈现文本而不模糊,并且能够细腻地调整纹理和光线。
ArtChat 用表格详细解释了这个框架,各位可根据不同场景选择使用:
Prompt | 解释 |
---|---|
风格 | 美学艺术风格或年代. - When:什么年代的风格?文艺复兴、80 年代 - Who:你想要谁的风格?(人或组织)阿尔方斯•穆卡、梵高 - What:什么艺术类型的风格?或者艺术运动的风格?浮世绘、视错觉艺术、波谱艺术 - Where:什么国家的风格?哥特式艺术、荷兰黄金时期油画 |
主题 | 图片主要内容是什么? 人、物体、动物?特征是什么?包括外观、颜色和独特特征。细节越多越好。 - Who:人物就描述性别、样貌、表情、衣着、动作等 - What:实物的话就要描述它是什么物品、材质、颜色、形态等 |
背景 | 详细信息包括:位置(室内、室外、想象)、环境元素(自然、城市)、一天中的时间和天气条件。 |
构图 | 视角(特写、广角、空中)、角度和特定的取景偏好。 - 镜头的焦点在哪里?身后的草原还是主体人像的眼睛 - 主体的朝向是是哪里?侧身正面还是背影 - 主体和背景的画面占比是怎样的?七分身、局部特写还是全景 |
环境 | 灯光类型(明亮、昏暗、自然)、情绪(欢快、神秘)和氛围效果,天气等 |
细节补充 | 除了上面还有什么没有交代。 比如:次要物体、人物、动物以及它们相对于主要主题的相互作用或位置。 |
如何快速理解记忆?
模板看起来很长,但它跟拍照其实很像(只是顺序做了权重优化),各位想想自己的整个拍照的过程:
- 先定好基调,我要拍人文纪实还是糖水人像(风格)
- 看到某个物体/人物(主体),在某个环境下(环境)很漂亮
- 拿出相机(构图),调整光圈、构图、曝光,然后按下快门
机器人渲染图也是这个逻辑,按顺序告诉它,它自然会理解,这样出图就会更加准确。
撰写 Text Prompt(提示词)的注意事项
Midjourney 跟 ChatGPT 在 prompt 的使用上有很多不一样的地方,避免这些常见的错误,您会获得更加符合心意的照片。本章会详细介绍 Midjourney Text Prompt 的三点注意事项!
举例说明


Retro Ghibli scene, A little cat happily watches a large group of fireflies on the grass, Grassland at night, rear view,Low Angle,Romantic --aspect 16:9 --stylize 250 --chaos 20 --style raw --v 6.1
重点注意
提示长度
提示可以非常简单。单个单词(甚至表情符号)都可以生成一个图像。
语法
Midjourney不像人类那样理解语法、句子结构或单词。词语的选择也很重要。
在许多情况下,更具体的同义词效果更好。不要使用 big
,而是使用 giant
、enormous
或 immense
。
尽可能去掉多余的单词。单词越少,意味着剩下的每个单词的影响力就越强大。使用逗号、方括号和连字符来帮助组织您的想法,但要知道 Midjourney 不会可靠地解释它们。Midjourney 不考虑大小写。
专注于你想要的
最好描述你想要什么,而不是描述你不想要什么。
如果你要求举办一个没有蛋糕
的派对,你的形象可能会包括一个蛋糕。如果您想确保某个对象不在最终图像中,请尝试使用 --no
参数进行提前提示。
思考什么细节最重要
任何未说的事情可能会让你感到惊讶。无论你是具体还是模糊地表达,但任何遗漏的内容都将被随机生成。含糊其辞可以获得多样性,但可能无法得到你所期望的具体细节。
尽量清楚地表达您对于上下文或细节的重要性。请考虑以下内容::
- 主题:人物, 动物, 角色, 物体, 景物
- 风格:写实, 插画, 雕塑, 涂鸦, 文艺复兴
- 环境:室内,户外,水下,太空,时代大道,草原
- 光线:柔和,环境,阴天,霓虹灯,逆光
- 颜色:生动,柔和,明亮,单色调的,多彩, 黑白
- 心情: 平静,喧闹,活力四溢 伤心 孤独
- 构图: 肖像, 头像, 特写, 鸟瞰视角, 背影
精确形容
复数词会有很多歧义。请尝试具体数字。Three cats
比 cats
更具体。也可以用 flock of Birds
代替 birds
。
多重提示
Midjourney 可以使用 ::
作为分隔符来混合多个概念。使用多重提示可以让您为提示中的概念分配相对重要性,从而帮助您控制它们如何混合在一起。
space ship
AI会把主体当作太空飞船,而写为 space:: ship
,AI会 添加太空和船 两个分割的元素
space ship

space:: ship
提示重量
当使用双冒号 ::
将提示分隔为不同部分时,您可以在双冒号后立即添加一个数字,以指定提示该部分的相对重要性。
space:: ship
生成了一艘穿越太空的帆船。提示词更改为 space::2 ship
后, space
一词的重要性是 ship
的两倍,从而生成以船舶作为附加元素,空间为主的图像。
space:: ship

space::2 ship
负提示权重
负权重可以添加到多个提示词后面,以帮助去除不需要的元素。所有权重的总和必须是一个正数。
still life gouache painting
,我觉得水果太多了,想去除,那么我把提示词改为 still life gouache painting:: fruit::-.5
即可
still life gouache painting

still life gouache painting:: fruit::-.5
忽略参数
忽略即画面中不需要的,用 --no
参数来表示
类似于上面的 负提示权重,但是更简单 --no fruit
即可表示画面中不要水果元素

知识点
◈ 语法
首先 Midjourney 基本上是不懂语法的,所以即使你语法错了,只要词对了,也能生成图片。
另外,不懂语法也导致了另一个问题:prompt 不是越长越好
。特别是各种定语从句,它根本就不懂,还不如把指令用逗号隔开,一个一个输入。以下是官方推荐的语法建议:
- 使用
形容词
+名词
的词序来替换介词短语。 比如:- hair flowing in the wind 应该改为 flowing hair
- a carrot for a nose 应该改为 carrot nose
- 使用非常具体的
动词
来替换介词短语。 比如:- a girl with a flashlight 应该改为 a girl using a flashlight
- a girl with a big smile on her face 应该改为 smiling girl
◈ 单词
在单词的部分,Midjourney 跟 ChatGPT 有点类似,它对同义词的理解也不是很好。 比如:
big
(大)这个词,到底指多大?
越具象的大,对于 Midjourney 来说,效果越好,比如用gigantic
就比用通用的 big 好cats
(猫)这个词是个复数,但到底是多少只?
对于 Midjourney 来说,two cats
(两只猫)比 cats 更明确
另外,Midjourney 还能用 emoji 代替单词(我觉得本质上 emoji 也是单词),算是一个比较有意思的特性。
与其说不要什么,不如说要什么
这个跟 ChatGPT 类似,你应该将你想要的东西说清楚,而不是告诉 Midjourney 不要什么,如果你想让 Midjourney 不生成某样东西,就需要用到 参数 — no。
你不说,模型就会随机给你,因为图像信息的信息量远超过文字,所以很多时候,Midjourney 会随机填充一些内容给你,它既是缺陷,也是亮点功能。因为当你不在 prompt 里说明这些词时,你就能获得发散的结果。
明确不要的元素使用 -- no 参数
◈ 参数
Midjourney 还有一点跟 ChatGPT 有较大差异,它允许你在 prompt
里加入 参数
,而且这些参数相对来说一致性都比较好,所以如果你想实现的功能,参数里支持,那优先使用参数,而不是在主体里描述。
如您要测试渲染效果,那么:风格化
、混乱
等影响画面内容的参数一定要降到最低,然后逐步提升看效果
。