Инструменты нейродизайнера
Нейроинструментов для нейродизайнера становится всё больше, при этом какие-то из них уже даже успели отойти от дел. Во втором уроке мы познакомили тебя с несколькими приложениями, например для увеличения изображения или удаления фона. Здесь мы попытаемся собрать наиболее актуальную подборку больших ресурсов — законодателей индустрии. Смотри, читай и сохраняй в закладки браузера.
Общий список умений, которые на данный момент могут продемонстрировать AI-инструменты для дизайнера:
  • Animation (Анимация): создание движущегося или анимированного изображения из статичного.

  • Recolor (Перекрашивание): замена цветовой палитры изображения.

  • GPT или Copilot (Работа с текстом и информацией): автоматическое создание текста, например подписей или описаний, соответствующих содержанию изображения. Помощь в мозговом штурме, тестировании гипотез, принятии решений и других задач, связанных с текстом или поиском информации.
Большинство популярных ресурсов многофункциональны, но среди них можно выделить те, что специализируются на создании изображений или те, что делают упор на видео. Обычно их характеризуют уже знакомыми тебе терминами — text2image, text2video, image2video и другими. В этом уроке расскажем о них подробнее.
  • Generation (Генерация): создание новых уникальных изображений из текстового описания.

  • Inpainting (Дорисовка): изменение определённой области изображения, например для устранения дефектов или добавления новых элементов в уже существующую картинку.

  • Outpainting (Расширение): расширение изображения за его первоначальные границы, добавление новых частей к краям картины.

  • Upscale (Увеличение разрешения): увеличение размера изображения без потери качества.

  • Remove background (Удаление фона): удаление заднего фона из изображения, оставление только интересующего объекта или персонажа.
Лучшими генераторами картинок считаются DALL·E и Midjourney. По субъективным оценкам экспертов, эти нейронки побеждают по таким критериям, как количество ошибок в изображении, богатство цветовой гаммы, качество композиции и креативность.
Kandinsky от «Сбера» — довольно сильный бесплатный русскоязычный инструмент. Есть возможность, помимо веб-интерфейса, создавать картинки при помощи бота в Telegram и VK. Есть инструменты Inpainting и Outpainting (замена части картинки или дорисовка изображения за границами исходного холста). Можно генерировать короткое видео с удобным интерфейсом управления камерой. Ресурс бесплатный, поэтому иногда генерация может быть достаточно долгой.
Шедеврум от Яндекса — бесплатное приложение для телефона с функциями социальной сети. В нём можно создавать изображения и небольшие видеоролики. Результаты публикуются в ленте и видны другим пользователям. Можно ставить лайки чужим изображениям и собирать лайки своими картинками.
С английского text2image буквально можно перевести как «текст в картинку», к этой группе относятся нейронки, которые на основе текстового описания генерируют изображения. Рассмотрим два самых доступных text2image-инструмента на русском языке.
Text2image
Kandinsky
Шедеврум
DALL·E 3 от OpenAI — это один из флагманов среди категории text2image. Ресурс создаёт изображения высокого качества и способен выдать хороший результат даже при сложных креативных запросах. В России доступен через VPN, инструмент платный и работает через общение с чатом GPT-4. Поддерживает множество языков.
DALL·E 3 от OpenAI — это один из флагманов среди категории text2image. Ресурс создаёт изображения высокого качества и способен выдать хороший результат даже при сложных креативных запросах. В России доступен через VPN, инструмент платный и работает через общение с чатом GPT-4. Поддерживает множество языков.
Попробовать DALL·E 3 можно бесплатно при помощи Image Creator от Microsoft Designer по этой ссылке или непосредственно в чате Copilot Bing набрать create image и добавить описание.
Сток 123rf предлагает сгенерировать изображения в DALL·E 3. Они отображаются с водяными знаками. Чтобы скачать, нужна подписка.
Это качественные генераторы картинок, но не единственные доступные инструменты. Есть и другие нейросети. Например, Stable Diffusion завоевала популярность благодаря своей демократичности.
Для комфортной работы понадобится знание английского языка и немного времени, чтобы разобраться в командах. Генерировать изображение можно командой /imagine prompt, после которой через запятую нужно перечислить описание желаемого изображения на английском языке.

Есть инструменты инпеинтинга, аутпеинтинга и увеличения размера (upscale). У Midjourney сформировался узнаваемый стиль, который проявляется в том, что по умолчанию нейросеть выдаёт атмосферные, яркие, иногда совсем эпичные картинки с хорошей композицией и идеальной цветовой гаммой. При достаточном опыте в Midjourney получается не только сделать красивые изображения, но и визуализировать действительно креативные идеи.
Midjourney — ещё один топовый ресурс — мощный инструмент создания изображений. Для полноценной работы нужна подписка, в РФ доступен под VPN. Важной особенностью является то, что взаимодействие с нейронкой происходит через интерфейс мессенджера. Чтобы зарегистрироваться в Midjourney, нужно авторизоваться в Discord.
Midjourney
Stable Diffusion — это модель генерации изображений с открытым исходным кодом, разработанная компанией Stability AI в сотрудничестве с другими организациями и исследователями. Благодаря общедоступности пользователи могут адаптировать и модифицировать модель под свои нужды, экспериментируя с различными настройками и обучающими данными.

Модель оптимизирована для работы на обычных GPU, что делает её доступной для использования не только на мощных серверах, но и на персональных компьютерах. Stable Diffusion в отличие от предыдущих сервисов позволяет самостоятельно обучать свои модели на собственном наборе данных.

Для того чтобы запустить Stable Diffusion на своём компьютере, желательно иметь не менее 6 гигабайт GPU, знать английский язык и быть уверенным пользователем ПК.
Stable Diffusion
Пример бесплатного интерфейса для работы со Stable Diffusion, который позволяет запустить нейронку прямо на своём компьютере — Automatic 1111
Попробовать Stable Diffusion:
Попробовать Stable Diffusion:
Попробовать Stable Diffusion:
  • DreamStudio (ограничено количество запросов, требуется регистрация).
Попробовать Stable Diffusion:
  • Seaart — бесплатный ресурс для создания изображений на базе Stable Diffusion.
Попробовать Stable Diffusion:
  • Stable Diffusion XL — новое поколение Stable Diffusion с очень быстрой генерацией. Картинки создаются практически в реальном времени.
Стоит также отметить нейронки от именитых компаний.
ImageFX — новый многообещающий генератор от Google. Также позволяет создать музыку и текст. Пока доступен только через лист ожидания и совсем недоступен в РФ.
AI-инструменты в Adobe Illustrator
Firefly от Adobe
Firefly от Adobe. Есть бесплатный доступ с ограничением по количеству генераций. Советуем попробовать инструмент создания текстовых эффектов.
Image-FX от Google
Кроме Firefly, Adobe оснастила AI-инструментами другие свои продукты.
  • Предиктивный ввод текста (Predictive Text): улучшает процесс ввода текста, предлагая автоматическое завершение слов и фраз на основе начального ввода пользователя.
  • Нейронные фильтры (Neural Filters в Photoshop, но их технологии могут быть применены и в Illustrator): хотя нейронные фильтры являются частью Photoshop, подобные технологии машинного обучения могут быть использованы в Illustrator для создания или модификации иллюстраций с помощью ИИ.
  • Live Shapes: инструменты для управления параметрами форм, такими как прямоугольники и круги, которые используют ИИ для упрощения процесса редактирования и манипуляций с формами.
  • Текст в вектор (Text2vector) — генерирует векторное изображение по текстовому описанию.
  • Adobe Sensei в функции поиска по изображениям: позволяет пользователям находить подобные векторные изображения и шрифты в Adobe Stock, анализируя загруженные изображения.
  • Умное выделение (Smart Selection): улучшает процесс выделения объектов, позволяя более точно и легко выделять сложные формы и контуры.
  • Рекомендации по шрифтам (Font Recognition): Adobe Illustrator может анализировать текст на изображении и предлагать подобные шрифты, благодаря технологии распознавания шрифтов Adobe Sensei.
  • Автоматическая трассировка (Image Trace): преобразует растровые изображения в векторные иллюстрации, используя сложные алгоритмы для определения контуров и цветовых областей.
  • Кадрирование с учётом содержимого (Content-Aware Crop): автоматически определяет и предлагает оптимальные границы обрезки изображения, учитывая его содержимое.
  • Content-Aware Fill для видео: позволяет автоматически удалять нежелательные объекты из видео, заполняя пробелы с учётом окружающего содержимого. Этот инструмент значительно упрощает процесс ретуши видео, экономя время, которое ранее тратилось на ручную очистку кадров.
  • Roto Brush 2: улучшенная версия оригинального Roto Brush, использующая ИИ для более быстрого и точного выделения объектов или персонажей в видеопоследовательностях. Это упрощает процесс создания масок и разделения элементов на слои для композитинга или цветокоррекции.
  • Scene Edit Detection: автоматически определяет и размечает смену сцен в загруженном видеоклипе. Этот инструмент упрощает процесс редактирования, позволяя пользователю быстро находить и редактировать переходы между сценами.
  • Speech to Text и Auto Captions: преобразует диалоги из видео в текст для автоматического создания субтитров, используя технологии распознавания речи. Это не только экономит время при создании субтитров, но и улучшает доступность контента.
  • Character Animator: хотя это отдельное приложение, тесно интегрированное с After Effects, Character Animator использует ИИ и машинное обучение для анимации персонажей в реальном времени на основе движений и выражений лица пользователя, захваченных через веб-камеру.
Вот некоторые из ключевых AI-инструментов в Adobe After Effects:
  • Нейросетевое увеличение изображений (Super Resolution): позволяет увеличивать разрешение изображений без значительной потери качества, используя ИИ для восстановления деталей.
  • Функция «Нейронные фильтры» (Neural Filters): один из самых инновационных наборов инструментов, включающий в себя различные фильтры на основе ИИ для трансформации изображений, включая изменение возраста лица, выражения лица, перенос стиля и многое другое.
  • Автоматическая тоновая коррекция (Auto Tone): автоматически корректирует тона изображения, используя ИИ для анализа и оптимизации света и теней.
  • Улучшение текста (Enhance Scans): улучшает качество сканированных документов или текстовых изображений, делая текст более читабельным.
AI-инструменты в Adobe Photoshop
  • Выбор объекта (Object Selection Tool): позволяет пользователям быстро выделить объект внутри слоя с помощью технологии ИИ, автоматически определяя границы объекта.
  • Заполнение с учётом содержимого (Content-Aware Fill): использует ИИ для анализа содержимого изображения и заполнения выбранных областей содержимым, которое гармонично вписывается в окружающий фон.
  • Умное выделение краёв (Select and Mask Workspace): улучшает процесс выделения и маскирования, предоставляя более точные инструменты для работы со сложными элементами, такими как волосы или мех.
  • Автоматическое рефокусирование (Enhance Details): использует ИИ для улучшения детализации и чёткости изображений, особенно полезно при работе с изображениями RAW.
Кроме создания изображений по текстовому описанию, существует возможность дополнять текст картинкой. То есть задать промпт и прикрепить изображение в качестве референса. Или другой вариант — загрузить уже готовое изображение и в промпте указать изменения для этого изображения. Можно менять у заданного изображения стиль, цветовую гамму и другие параметры. Нейронки с такими функциями относятся к группе image2image.
Попробовать ControlNet можно в Replicate:
ControlNet — это нейросеть, которая позволяет контролировать генерацию изображений в Stable Diffusion с помощью дополнительных условий. Например, сохранять позу персонажа из референса, контуры изображения или объём, а затем создавать картинку с этими параметрами.
В Automatic 1111, интерфейсе работы со Stable Diffusion на локальном компьютере, есть возможность загрузить своё изображение как референс. Параметром Denoising Strength мы можем настраивать, как далеко генерации доступно уйти от оригинала.

Мы загрузили в Stable Diffusion рисунок барашка, в качестве промта поставили «барашек пушистый плюшевый игрушка». Параметр Denoising Strength выставлен так, чтобы новая картинка опиралась на референс , но не повторяла его дословно.
Для того чтобы соединить две картинки в Midjourney, нужно написать в чате: /imagine prompt. И дальше через пробел вставить ссылки на изображения, которые хочется перемешать. Затем при необходимости добавить текстовое описание желаемого результата и через два дефиса задать другие параметры. Пример:
С английского image2image означает «картинка — в картинку». Этот процесс может включать в себя различные задачи, такие как превращение эскизов в фотографии, изменение дня на ночь в изображении, изменение погодных условий на фотографии, цветокоррекцию и преобразование изображений с одного стиля на другой. Как, например, в Prisma — мобильном приложении для стилизации фотографий под картины.

Загрузить свои изображения и использовать их как эскиз или как пример стиля можно во множестве ресурсов, например в Stable Diffusion и Midjourney.

Midjourney при соединении изображений выдаёт очень интересные результаты. Вот примеры «мешалок» из канала про нейродизайн Александра Доброкотова.
Image2image
ControlNet
Есть многофункциональные ресурсы — в них можно не только создавать изображения, но также удобно редактировать их. Кроме того, есть функция обучения своей модели.
Так как видео или анимация — это серия изображений, то существует возможность использовать нейронки для создания кадров, чтобы потом собрать их в видео. Самое сложное здесь сделать так, чтобы кадры сохраняли свою консистентность, то есть отличались только тем, чем они должны отличаться. Давай поближе познакомимся с нейронками, которые способны создавать видео из текстового описания, из картинки или из другого видео.
Krea — это набор инструментов с удобным человекоориентированным интерфейсом. Есть функции генерации, увеличения размера изображения, генерирования паттерна, превращения логотипа и текста в иллюстрацию и новый для индустрии инструмент генерации изображения в реальном времени по видео из камеры или по трансляции экрана. А также возможность обучения своей модели. Бесплатный доступ к некоторым функциям на период Beta-тестирования.
Krea
Leonardo
Leonardo — популярный мощный многофункциональный инструмент. Полная функциональность: генерация картинок, генерация в реальном времени, inpainting, outpainting, upscale, анимация. Из необычного — создание 3D-текстуры. Есть бесплатная подписка с ограничением токенов.
Эта модель призвана генерировать естественный человеческий текст на русском языке. Как многие языковые модели, может выдавать ответы, которые окажутся выдумкой, — хоть и вполне правдоподобной. На некоторые вопросы ответа не будет. Такое бывает, если сгенерированный текст может оказаться обидным, неэтичным или неприемлемым по каким-то другим причинам. Языковая модель не в курсе последних новостей.
Про нейросети для работы с текстом мы писали в первом уроке. Они способны генерировать текст, который напоминает человеческую речь, основываясь на контексте и предыдущих разговорах. Языковые модели взаимодействуют в формате диалога, могут отвечать на последующие вопросы, признавать свои ошибки и даже спорить с собеседником. Однако у них есть некоторые ограничения и проблемы безопасности, такие как возможность создания неверных или бессмысленных ответов и чувствительность к формулировке входных запросов.
Лингвистические модели
Copilot
Copilot — это чат-бот, интегрированный прямо в Windows 11, который позволяет легко управлять настройками на ПК, запускать приложения или просто получать ответы на вопросы. Он также доступен в браузере Edge и продуктах Office. Этот интеллектуальный помощник основан на языковой модели нейросети Bing AI, ранее известной как Bing Chat. В отличие от GPT Copilot может производить поиск актуальной информации и зачастую выдаёт ответы сразу со ссылками на источник.
Gemini
Gemini — это сильный конкурент для ChatGPT, модель искусственного интеллекта, разработанная компанией Google DeepMind. Она позиционируется как второй пилот — AI-ассистент в любых делах. Прям как в фантастических фильмах.
ChatGPT
ChatGPT — это модель искусственного интеллекта, разработанная компанией OpenAI. Зачастую она становится основой для многих ресурсов работы с текстом и чат-ботов. Поддерживает большое количество языков.
Yandex GPT
Второй популярный ресурс — Pika. У этого ресурса меньше возможностей управлять результатом, но финальное качество анимации сопоставимо с Gen-2. В отличие от Runway у Pika бесплатные кредиты на генерацию обновляются каждые 30 дней.
Pika
Stable Video — инструмент от StabilityAI, авторов Stable Diffusion. Модель с открытым кодом. Можно устанавливать у себя на компьютере.
Stable Video
Sora — модель для генерации видео от OpenAI, разработчика GhatGPT и DALL·E. Авторы заявляют, что она будет более универсальной, чем конкуренты. То есть в ней будет возможность генерировать видео разных разрешений, соотношений сторон и длительности. Она понимает короткие промпты и поддерживает разные языки. Можно создавать зацикленные видео, редактировать окружение и объекты, делать плавный переход между двумя видео, а также делать то, что другие модели тоже умеют — анимировать статичные изображения. Визуально результат генерации превосходит аналоги. Пока недоступна для общего пользования.
Sora
text2video
image2video
video2video
Сгенерировать короткое видео по описанию можно в Кandinsky, Leonardo и Krea. Но есть и специализированные приложения.
Для создания видео по текстовому описанию или изображению существует нейросеть Gen-2, которая доступна в приложении Runway. Этим приложением удобно пользоваться с телефона. Есть бесплатные пробные кредиты при регистрации.
Runway
Другая группа нейросетей, которая принципиально отличается функциональностью, — это лингвистические модели. Мы рассказывали про функциональность некоторых из них в предыдущем уроке. Вот они одним списком.