Широкоформатное изображение куполов собора Василия Блаженного
Широкоформатное изображение куполов собора Василия Блаженного

Нейросеть на русском языке, Stable Diffusion против Kandinsky

Не секрет что основные нейросети для рисования и их интерфейсы существуют на английском языке, более того, на английском нужно писать и все запросы (промпты). Но проблема значительно глубже, ведущие генераторы типа Stable Diffusion обучались на изображениях преимущественно западной культуры (искусства, кино, театра, архитектуры итд.) и далеко не всегда хорошо "знают" региональные культуры, в том числе и русскую. Но делать изображения для России вполне возможно:

Хочу по-русски, стоит ли русифицировать нейросети

Для начала разберемся с русификацией приложений для генерации. Это делается элементарно, если вы работаете со Stable Diffusion в Automatic1111 (который открывается в вашем браузере), достаточно воспользоваться переводчиком браузера, на правой кнопке вашей мыши. Кроме того, существуют русские локализации Автоматика. Но делать это нежелательно и даже вредно, поскольку все обучающие материалы в интернете (включая русские мануалы) использовали и будут использовать английский интерфейс, в результате вы просто ничего не поймете. Но иногда включать переводчик бывает полезно, чтобы прояснить отдельные настройки, советую этим и ограничиться. Так же, с помощью перевода страницы в браузере, легко работать с самыми разными онлайн генераторами изображений.

А вот написание промптов по-английски, особенно если вы плохо знаете язык, может быть проблемой. И опять вам на помощь приходит переводчик, благо сейчас они стали довольно хорошие, а для запроса к нейросети обычно нужны отдельные слова, понятия и определения, при чем чем проще, тем лучше. Скажу по своему опыту: Я не блестяще знаю английский, но хорошо понимаю как составлять правильные запросы, в результате мои промпты популярны среди многих пользователей нейросетей, включая непосредственных носителей английского языка. Поэтому, знание генератора изображений (да и текстов) гораздо важнее знания языка, на котором вы работаете с нейросетью.

Можно ли эффективно использовать русские нейросети

Портрет Деда Мороза, меняющего колесо у Лады НивыСледующая проблема для желающих генерировать "русские" изображения, это ориентированность ведущих нейросетей на западные источники, на которых они и обучались. например любая сеть сходу нарисует вам Мерлин Монро (и большинство актеров Голливуда), но та же Stable Diffusion понятия не имеет как выглядят российские и советские актеры. Впрочем, популярные личности, архитектуру, исторические события и особенно стили русских художников SDXL воспроизводит хорошо. Любая "западная" нейросеть точно изобразит для вас например Ленина, Красную Площадь или стиль Айвазовского (см. изображение), но глубже экспериментировать не получится.

Именно для глубокого понимания русского искусства, быта, персонажей (реальных и сказочных) предлагаются российские нейросети, такие как Kandinsky или Шедеврум. По словам разработчиков, они обучались с применением большого количества "русских" изображений и понимают промпты на русском языке. Во всяком случае так эти сети рекламируются. К сожалению, на практике наши нейросети выступают в роли "догоняющих" и продукты иностранных компаний пока лучше по многим показателям. Так, разбор Kandinsky 3.0 на Хабре показывает что качественных "русских" изображений кроме Чебурашки, от него добиться трудно. А запросы (промпты) на английском Кандинский все равно понимает лучше, чем на русском. Кроме того, цензура Kandinsky и Шедеврума тоже значительно ограничивает варианты изображений, которые можно получить с их помощью. Справедливости ради, цензура это бич всех нейросетей, кроме Stable Diffusion, и тут речь идет не о непристойных изображениях, а о любых запросах, которые сеть посчитает "подозрительными", а это весомая часть от всех возможных запросов.

Как же быть?

Действительно, сколько бы вы не запрашивали у Stable Diffusion изображение русского Деда Мороза, у вас всегда будет получаться Санта Клаус. Но эта нейросеть открыта для коррекции поэтому уже есть довольно много расширений, созданных российскими авторами. Так в этой статье изображение вполне русского Деда Мороза на фоне русской зимы и совсем русского автомобиля "Нива" создано в Stable Diffusion применением двух LORA (на Деда Мороза и на Ниву). И таких расширений уже много.
Не будем забывать и наши Kandinsky и Шедеврум, они совершенствуются и возможно, будут не хуже заморских аналогов.

Неизвестная морская картина Айвазовского
Неизвестная морская картина Айвазовского

ПРОМПТы

  • Широкоформатное изображение куполов собора Василия Блаженного, промпт: "St. Basil's Cathedral, sunlight, natural light, High detailed RAW color Photo, 8k"
  • Портрет Деда Мороза, меняющего колесо у Лады Нивы, промпт: "portrait surprised (Russian red DedMoroz:1.8) repairs a wheel near a (broken lada_niva:1.2), car wheel, (staff, beard, eyes:1.2), winter, 8k, F2.8, RAW Photo, ultra detailed, real life, <lora:DedMoroz:1> <lora:lada_niva:1>"
    Дополнение: (LORA Дед Мороз, LORA Лада Нива, ссылки в статье)
  • Неизвестная морская картина Айвазовского, промпт: "sea painting by Aivazovsky, sailboat, rocks, storm, High detailed, 8k"