Перейти к основному содержимому

txt2img

Это основная функция которую мы используем. И так, быстро пробежимся по интерфейсу данной вкладки:

image Если что, у меня стоит эта тема.

Промпты

Промпты для большинства анимешных моделей обычно состоят из тегов с danbooru, так что при написании промптов для них стоит смотреть теги здесь. Также у SDXL моделей на основе PonyDiffusionXL также есть дополнительные теги типа score_9, score_8_up, score_7_up и им подобных, об этом лучше читать на страницах конкретных моделей, или на основной странице PonyDiffusionXL

В WebUi есть несколько способов изменения значимости конкретного тега в промпте. Например у вас в промпте есть тег fox ears но на картинке на выходе у персонажа нет ушей. Или наоборот, эффeкт от этого тега слишком сильный. Для этого есть возможность повышать/понижать влияние корнкретных тегов на генерацию. Выглядит это примерно так: (тег:1.1) (тег:0.9). В первом случае значимость тега немного повышена, во втором понижена. Вы можете дописать это вручную или выделить нужный тег и зажав Ctrl на клавиатуре нажимать стрелочки вверх/вниз.

gif

Негативный промпт

Очень важная штука, без которой вы будете получать довольно много артефактов и т.п. По сути список того, что вы НЕ хотите видеть в арте. Здесь есть много вариантов того, как он может выглядеть, я покажу то что использую сам:

Для SD1.5 я обычно просто накидываю эту кучу негативных эмбеддингов, и по надобности дополняю его тем, что мне не нравится на генерации. Важно понимать, что такое количество негативных эмбеддингов может испоритить стиль генерации, так что использовать только если уверенны что оно вам надо.

Для SDXL я обычно беру за основу этот промпт, и все также добавляю то, что мне не нравится на генерации.

low quality, worst quality, normal quality, text, signature, jpeg artifacts, bad anatomy

Многим также нравится использовать очень длинный "универсальный" негативный промпт, но лично я не советую так делать.

Основные настройки генерации

Основные настройки txt2img. находятся сразу под промптами.

Refiner

Штука которая была сделана для улучшения качества генераций SDXL моделей. Не нужна практически никогда. Куда его ложить честно говоря не знаю, никогда не нужно было.

Sampling method

Метод обработки входного шума от которого зависит минимальное количество итераций после которого, следующие шаги не приносят видимого улучшения картинки.

Очень субьективная штука, используйте тот семплер который вам нравится больше, но помните что некоторым из них нужно больше итераций для получения адекватного результата чем другим.

Лично я обычно использую DPM++ 2M Karras.

примечание

Внешне, между некоторыми из семплеров может не быть заметной разницы. В таком случае, разница в необходимом количестве шагов. Чем меньше нужно шагов - тем генерация быстрее.

Примеры работы каждого из семплеров

image image image image

Информация о генерации примеров
Prompt:
best quality, 1girl, small breasts, japanese armor, red hair, long hair,
red eyes, fox ears, animal ear fluff, forest

Negative prompt:

 bad-image-v2-39000 badhandv4 badv4 EasyNegative EasyNegativeV2 lr negative_hand-neg ng_deepnegative_v1_75t verybadimagenegative_v1.3, holding, weapon, 

Settings:

Steps: 70, CFG scale: 7, Size: 512x920, Model hash: c02eab80dd
Model: countermellia_v1, Clip skip: 2

Использовал 70 шагов, потому что некоторым семплерам это просто необходимо для нормальной работы.

Sampling steps

Количетсво шагов/итераций в ходе которых нейросеть будет обрабатывать картинку. От этого может зависить детализация, и напрямую зависит скорость. Некоторым семплерам может быть необходимо больше итераций, но обычно (по крайней мере для тех двух что я указывал выше) количество шагов держится в районе 20-30.

image

Width/Heigh

Соответственно ширина и высота генерируемой картинки. Не советую генерировать в больших разрешениях на SD1.5, так как это будет ломать композицию и в итоге вы получите кашу из поломанных конечностей и т.п., так как SD1.5 модели натренерованы на картинках 512х512рх. Для SDXL рекомендуется использовать вот эти разрешения:

1536✕640 (21:9)
1344✕768 (16:9)
1216✕832 (3:2)
1152✕896 (4:3)
1024✕1024 (1:1)
832✕1216 (2:3)
768✕1344 (9:16)

image (На картинке выше использована SD1.5 модель)

Batch count/Batch size

Все просто:

  • Batch size - количество картинок генерирующихся одновременно.
  • Batch count - количество картинок/батчей генерирующихся по очереди. Т.е. после нажатия кнопки процесс генерации будет повторятся заданное количество раз.

CFG Scale

Настраивает то, насколько сильно нейросеть будет прислушиватся к тому что написано промпту. Обычно используются значения в районе 5-15, однако инногда на более низких значениях можно получить арты интереснее чем на высоких.

Слишком высокие начения только портят картинку, не советую их использовать.

image

Seed

В майкнрафт играли? Ну вот тут сид работает абсолютно также как и в майнкрафте. Ключ генерации при использовании которого можно получить такую же или просто схожую картинку. Единственное - настройки тоже должны быть идентичными.

Restore faces

Бесполезен при генерации анимешных артов. Помогает починить лица вовремя генерации в реалистичных стилях. На сколько я понял, отсутствует в последних версиях webui.

Tiling

Генерирует картинки которые можно бесконечно обьеденять, например используя как текстуры. (за картинку спасибо @Antlers_Anon)

gif

Hires. fix

Необходим для генерации в адекватном разрешении без искажения композиции. По сути апскейлит картинку одним из представленных методов, после чего делает img2img. Пройдемся по основным настройкам:

Upscaler

Апскейлер с помощью которого будет производится апскейл перед img2img. Не принципиально важен, но можете поиграться и выбрать тот с которым у вас будет выходить лучший результат. Лично я обычно использую 4x-UltraSharp (ложить в models/ESRGAN/)

Upscale by/Resize width/height to

Два способа указать конечное разрешение. Используя Upscale by вы просто указываете в сколько раз увеличить картинку, по умолчанию стоит 2. Используя же Resize width to и Resize height to можно указать конкретные высоту и ширину которую вы хотите получить на выходе, по умолчанию отключено.

Hires steps

Количество шагов при img2img hires fix`a, когда стоит 0 оно равно количеству шагов генерации txt2img.

Denoising strength

Регулирует то, насколько сильно нейронка будет опираться на предидущую генерацию, а насколько сильно на промпт.

  • 0 - просто отдаст старую картинку без изменений
  • 1 - сгенерирует абсолютно новую картинку

При использовании 4x-UltraSharp рекомендую ставить деноиз в районе 0.3-0.4.