txt2img
Это основная функция которую мы используем. И так, быстро пробежимся по интерфейсу данной вкладки:
Если что, у меня стоит эта тема.
Промпты
Промпты для большинства анимешных моделей обычно состоят из тегов с danbooru, так что при написании промптов для них стоит смотреть теги здесь. Также у SDXL моделей на основе PonyDiffusionXL
также есть дополнительные теги типа score_9, score_8_up, score_7_up
и им подобных, об этом лучше читать на страницах конкретных моделей, или на основной странице PonyDiffusionXL
В WebUi есть несколько способов изменения значимости конкретного тега в промпте. Например у вас в промпте есть тег fox ears
но на картинке на выходе у персонажа нет ушей. Или наоборот, эффeкт от этого тега слишком сильный. Для этого есть возможность повышать/понижать влияние корнкретных тегов на генерацию. Выглядит это примерно так: (тег:1.1) (тег:0.9)
. В первом случае значимость тега немного повышена, во втором понижена. Вы можете дописать это вручную или выделить нужный тег и зажав Ctrl
на клавиатуре нажимать стрелочки вверх/вниз.
Негативный промпт
Очень важная штука, без которой вы будете получать довольно много артефактов и т.п. По сути список того, что вы НЕ хотите видеть в арте. Здесь есть много вариантов того, как он может выглядеть, я покажу то что использую сам:
Для SD1.5 я обычно просто накидываю эту кучу негативных эмбеддингов, и по надобности дополняю его тем, что мне не нравится на генерации. Важно понимать, что такое количество негативных эмбеддингов может испоритить стиль генерации, так что использовать только если уверенны что оно вам надо.
Для SDXL я обычно беру за основу этот промпт, и все также добавляю то, что мне не нравится на генерации.
low quality, worst quality, normal quality, text, signature, jpeg artifacts, bad anatomy
Многим также нравится использовать очень длинный "универсальный" негативный промпт, но лично я не советую так делать.
Основные настройки генерации
Основные настройки txt2img
. находятся сразу под промптами.
Refiner
Штука которая была сделана для улучшения качества генераций SDXL моделей. Не нужна практически никогда. Куда его ложить честно говоря не знаю, никогда не нужно было.
Sampling method
Метод обработки входного шума от которого зависит минимальное количество итераций после которого, следующие шаги не приносят видимого улучшения картинки.
Очень субьективная штука, используйте тот семплер который вам нравится больше, но помните что некоторым из них нужно больше итераций для получения адекватного результата чем другим.
Лично я обычно использую DPM++ 2M Karras
.
Внешне, между некоторыми из семплеров может не быть заметной разницы. В таком случае, разница в необходимом количестве шагов. Чем меньше нужно шагов - тем генерация быстрее.
Примеры работы каждого из семплеров
Информация о генерации примеров
best quality, 1girl, small breasts, japanese armor, red hair, long hair,
red eyes, fox ears, animal ear fluff, forest
Negative prompt:
bad-image-v2-39000 badhandv4 badv4 EasyNegative EasyNegativeV2 lr negative_hand-neg ng_deepnegative_v1_75t verybadimagenegative_v1.3, holding, weapon,
Settings:
Steps: 70, CFG scale: 7, Size: 512x920, Model hash: c02eab80dd
Model: countermellia_v1, Clip skip: 2
Использовал 70 шагов, потому что некоторым семплерам это просто необходимо для нормальной работы.
Sampling steps
Количетсво шагов/итераций в ходе которых нейросеть будет обрабатывать картинку. От этого может зависить детализация, и напрямую зависит скорость. Некоторым семплерам может быть необходимо больше итераций, но обычно (по крайней мере для тех двух что я указывал выше) количество шагов держится в районе 20-30
.
Width/Heigh
Соответственно ширина и высота генерируемой картинки. Не советую генерировать в больших разрешениях на SD1.5, так как это будет ломать композицию и в итоге вы получите кашу из поломанных конечностей и т.п., так как SD1.5 модели натренерованы на картинках 512х512рх. Для SDXL рекомендуется использовать вот эти разрешения:
1536✕640 (21:9)
1344✕768 (16:9)
1216✕832 (3:2)
1152✕896 (4:3)
1024✕1024 (1:1)
832✕1216 (2:3)
768✕1344 (9:16)
(На картинке выше использована SD1.5 модель)
Batch count/Batch size
Все просто:
Batch size
- количество картинок генерирующихся одновременно.Batch count
- количество картинок/батчей генерирующихся по очереди. Т.е. после нажатия кнопки процесс генерации будет повторятся заданное количество раз.
CFG Scale
Настраивает то, насколько сильно нейросеть будет прислушиватся к тому что написано промпту. Обычно используются значения в районе 5-15
, однако инногда на более низких значениях можно получить арты интереснее чем на высоких.
Слишком высокие начения только портят картинку, не советую их использовать.
Seed
В майкнрафт играли? Ну вот тут сид работает абсолютно также как и в майнкрафте. Ключ генерации при использовании которого можно получить такую же или просто схожую картинку. Единственное - настройки тоже должны быть идентичными.
Restore faces
Бесполезен при генерации анимешных артов. Помогает починить лица вовремя генерации в реалистичных стилях. На сколько я понял, отсутствует в последних версиях webui.
Tiling
Генерирует картинки которые можно бесконечно обьеденять, например используя как текстуры. (за картинку спасибо @Antlers_Anon)
Hires. fix
Необходим для генерации в адекватном разрешении без искажения композиции. По сути апскейлит картинку одним из представленных методов, после чего делает img2img. Пройдемся по основным настройкам:
Upscaler
Апскейлер с помощью которого будет производится апскейл перед img2img. Не принципиально важен, но можете поиграться и выбрать тот с которым у вас будет выходить лучший результат. Лично я обычно использую 4x-UltraSharp (ложить в models/ESRGAN/)
Upscale by/Resize width/height to
Два способа указать конечное разрешение. Используя Upscale by
вы просто указываете в сколько раз увеличить картинку, по умолчанию стоит 2
.
Используя же Resize width to
и Resize height to
можно указать конкретные высоту и ширину которую вы хотите получить на выходе, по умолчанию отключено.
Hires steps
Количество шагов при img2img hires fix`a, когда стоит 0
оно равно количеству шагов генерации txt2img.
Denoising strength
Регулирует то, насколько сильно нейронка будет опираться на предидущую генерацию, а насколько сильно на промпт.
0
- просто отдаст старую картинку без изменений1
- сгенерирует абсолютно новую картинку
При использовании 4x-UltraSharp
рекомендую ставить деноиз в районе 0.3-0.4
.