Você já imaginou poder criar imagens incríveis a partir de simples descrições em texto? Pois é isso que o Stable Diffusion, uma ferramenta de inteligência artificial (IA), é capaz de fazer. Neste artigo, você vai conhecer mais sobre essa tecnologia, como ela funciona, quais são as suas vantagens e desafios, e como usá-la para gerar imagens de alta qualidade e criatividade. Enfim, vamos seguir.
O que é o Stable Diffusion?
O Stable Diffusion é um software que gera imagens a partir de textos, usando um modelo de difusão latente, que é um tipo de rede neural generativa profunda que adiciona e remove ruído das imagens de referência até obter uma imagem final que corresponda ao texto. Esse método permite gerar imagens mais fotorrealistas, criativas e diversificadas do que os modelos baseados em GAN, que são mais propensos a artefatos e distorções. Além disso, o Stable Diffusion possui código aberto e pode ser usado tanto na versão web quanto na versão local. Outros geradores de imagens, como o DALL-E, o Midjourney e o Jasper Art, têm código fechado e funcionam apenas na versão web, com limitações de créditos, resolução e estilo.
O Stable Diffusion foi lançado em agosto de 2022, fruto de uma colaboração entre a Stability AI, a Runway, a EleutherAI e a LAION. Ele foi treinado com um conjunto de dados chamado LAION-Aesthetics V2, que contém mais de 14 milhões de imagens com descrições em inglês, abrangendo diversos temas, estilos e gêneros. O custo do treinamento foi de cerca de 600 mil dólares, usando 256 GPUs Nvidia A100.
Como funciona o Stable Diffusion?
O Stable Diffusion funciona a partir de prompts de texto, que são as descrições das imagens que se deseja gerar. Esses prompts podem conter palavras-chave, adjetivos, cores, formas, tamanhos, posições, estilos, etc. Por exemplo, se você digitar “um cachorro azul com asas de borboleta”, o Stable Diffusion vai tentar criar uma imagem que represente essa ideia.
O processo de geração de imagens pelo Stable Diffusion é baseado em um modelo de difusão latente, que consiste em duas etapas principais: a etapa de ruído e a etapa de denoising. A etapa de ruído consiste em adicionar ruído às imagens de referência, que são as imagens do conjunto de dados que possuem descrições similares ao prompt de texto. O ruído é uma forma de distorcer ou alterar as imagens, tornando-as menos nítidas e mais aleatórias. O objetivo dessa etapa é fazer com que as imagens de referência se tornem mais parecidas com o prompt de texto, ou seja, mais próximas da imagem desejada.
A etapa de denoising consiste em remover o ruído das imagens de referência, restaurando-as para a sua forma original. O objetivo dessa etapa é fazer com que as imagens de referência se tornem mais realistas e coerentes, ou seja, mais distantes do prompt de texto. Essas duas etapas se repetem várias vezes, alternando entre adicionar e remover ruído, até que se obtenha uma imagem final que seja uma combinação das imagens de referência e do prompt de texto. Essa imagem final é a imagem gerada pelo Stable Diffusion, que deve ser o mais fiel possível à descrição em texto.
Quais são as vantagens e desafios do Stable Diffusion?
O Stable Diffusion é uma plataforma de inteligência artificial que gera imagens a partir de textos, usando um modelo de difusão latente. Ele tem algumas vantagens e desafios, que vamos listar a seguir:
Vantagens:
- Ele permite criar imagens realistas, criativas e diversificadas, usando prompts de texto em inglês.
- Ele tem código aberto e pode ser usado tanto na versão web quanto na versão local. Assim, oferecendo mais controle e personalização aos usuários.
- Ele usa um método de difusão que adiciona e remove ruído das imagens de referência, evitando artefatos e distorções comuns em modelos baseados em GAN.
- Ele tem diversas aplicações, como arte, design, educação, entretenimento, pesquisa, etc.
Desafios:
- Ele requer um computador com recursos potentes, como uma placa de vídeo e uma boa memória, para rodar a versão local.
- Ele ainda tem dificuldades em gerar rostos humanos realistas e naturais, podendo apresentar características pouco harmônicas ou estranhas.
- Ele pode gerar imagens indesejadas ou ofensivas, se o usuário usar negative prompts, que são textos que contêm palavras negativas, violentas ou preconceituosas.
- Ele pode gerar imagens que violem direitos autorais ou privacidade, se o usuário usar textos que se refiram a obras ou pessoas protegidas por lei.
Como usar o Stable Diffusion?
Para usar o Stable Diffusion, você pode escolher entre a versão web ou a versão local, dependendo da sua preferência e disponibilidade. A versão web é mais simples e acessível, mas tem limitações de recursos e qualidade. A versão local é mais completa e personalizável, mas requer uma instalação mais complexa e um hardware mais robusto. Veja como usar cada uma delas:
Versão web
A versão web do Stable Diffusion pode ser acessada pelo site Stable Diffusion Web (Online), que é uma interface gráfica criada por um desenvolvedor independente. Nesse site, você pode gerar imagens gratuitamente, mas com algumas restrições, como anúncios, marca d’água, resolução baixa e créditos limitados. Para usar a versão web, siga os passos abaixo:
- Acesse o site Stable Diffusion Web (Online) e clique em “Get Started for Free”.
- Na aba “Prompt”, digite, de preferência em inglês, as características da imagem que deseja gerar, separadas por vírgula. Por exemplo, “a blue dog with butterfly wings”.
- Clique no botão “Generate” e aguarde alguns minutos até que a ferramenta gere a imagem.
- Você pode salvar a imagem normalmente, clicando com o botão direito do mouse e escolhendo a opção “Salvar imagem como”.
Versão local
A versão local do Stable Diffusion pode ser instalada no seu computador, seguindo as instruções do site oficial Stable Diffusion UI, que é o repositório do código-fonte do software. Nesse site, você pode baixar os arquivos necessários para rodar o Stable Diffusion localmente, mas é preciso ter um computador com uma placa de vídeo compatível com a tecnologia CUDA da Nvidia e uma boa memória. Para usar a versão local, siga os passos abaixo:
- Primeiramente, acesse o site Stable Diffusion UI e clique na opção “v2.16” ou na versão mais atualizada disponível.
- Em seguida, clique no arquivo “stable-diffusion-ui-win64.zip” para baixá-lo e extraia os arquivos em uma pasta de sua preferência.
- Em terceiro lugar, execute o arquivo “update” para abrir uma janela de prompt de comando e atualizar os dados necessários para o funcionamento do software.
- Posteriormente, execute o arquivo “run” para abrir outra janela de prompt de comando e iniciar o software. Esse arquivo será o executável para abrir o Stable Diffusion local, então você pode criar um atalho para ele.
- A versão local funciona offline, mas o layout e as funções dela necessitam de um navegador. Portanto, copie o link gerado no prompt de comando e abra no navegador de sua preferência.
- Na aba “Prompt”, digite, de preferência em inglês, as características da imagem que deseja gerar, separadas por vírgula. Você também pode alterar os parâmetros de geração, como resolução, profundidade, temperatura, etc.
- Clique no botão “Generate” e aguarde alguns minutos até que a ferramenta gere a imagem.
- Você pode salvar a imagem normalmente, clicando com o bot
- o botão direito do mouse e escolhendo a opção “Salvar imagem como”.
- Você também pode aplicar algumas funções extras, como augment, restore_face e load_model, que permitem modificar a imagem gerada, usando transformações, restaurações e modelos alternativos.
Em última análise…
Em suma, o Stable Diffusion é uma ferramenta de inteligência artificial que gera imagens a partir de textos, usando um modelo de difusão latente. O app é capaz de criar imagens realistas, criativas e diversificadas, usando prompts de texto em inglês. Ele tem código aberto e uma utilização diversa, com a versão web e uma versão local, oferecendo mais controle e personalização aos usuários.
O Stable Diffusion contempla diversas aplicações, como arte, design, educação, entretenimento, pesquisa, etc. Sobretudo, é uma plataforma inovadora e promissora, que representa um avanço na geração de imagens a partir de textos.