Composição de cena com IA: como traduzir padrões fotográficos em prompts que funcionam

Composição de cena com IA: como traduzir padrões fotográficos em prompts que funcionam

Composição de cena com IA: como traduzir padrões fotográficos em prompts que funcionam

Human Picks

Staff

A maioria das pessoas que usam ferramentas como Midjourney, Kling ou Nano Banana descrevem o que querem ver, mas poucas param para pensar em como o olhar percorre uma imagem. Essa diferença, que na fotografia separa um amador de um diretor visual, é o que define a qualidade da composição nas imagens geradas por IA hoje.

O problema aparece justamente quando não há controle sobre a distribuição dos elementos na imagem, já que esses modelos tendem a colocar tudo no centro do quadro. Isso acontece como reflexo do próprio treinamento da IA: como a maior parte das imagens disponíveis na internet coloca o elemento principal no centro, sem instruções mais claras, o resultado acaba repetindo esse padrão. 

A imagem funciona, mas não se destaca.

[asset split de imagem “genérica” em fundo branco e pessoa no meio vs imagem com composição mais detalhadinha]

Se você já passou pelo nosso conteúdo sobre composição visual com IA, aqui a ideia é avançar um passo e sair da visão geral. Em vez de ficar no conceito, vamos pegar regras clássicas de composição e traduzir cada uma delas em decisões práticas de prompt.

Como a câmera funciona na IA e o que isso muda na composição

Antes de entrar nos padrões, vale entender uma diferença fundamental. Na fotografia tradicional, o fotógrafo se move, inclina a câmera, escolhe a lente. Na IA, a câmera não existe como objeto, ela é definida dentro do próprio sistema, e a única forma de controlar isso é pela linguagem.

Isso significa que toda escolha de composição precisa ser descrita.

“Uma mulher caminhando na chuva” diz o quê, mas não diz de onde estamos olhando, qual é a relação entre ela e o ambiente ou onde o peso visual recai.

A composição em IA funciona de forma acumulativa: quanto mais elementos você define, mais controle tem sobre o resultado. Ângulo de câmera, tipo de plano, posição no quadro, luz e lente deixam de ser detalhes e passam a estruturar a imagem.

Quando essas decisões não aparecem no prompt, o modelo preenche sozinho.

A seguir, cada conceito clássico traduzido em decisões práticas de prompt.

Regra dos terços

O que a IA entende por posição

A regra dos terços divide o quadro em uma grade 3x3 e posiciona os elementos principais nos pontos onde as linhas se cruzam. Na prática, isso cria mais dinamismo e evita o efeito estático de tudo centralizado.

Em alguns casos, incluir “rule of thirds composition” já ajuda a tirar os elementos do centro, mas o efeito costuma ser limitado. O que funciona de forma mais consistente é descrever a ocupação do espaço de maneira explícita, deixando claro onde o sujeito está e como o restante do quadro se organiza, seja uma pessoa, objeto ou personagem. Um prompt possível seria:

subject positioned on the left third of the frame, wide negative space on the right, rule of thirds composition

Em modelos como Nano Banana Pro e Seedream 5.0, o controle é mais preciso. O Seedream responde bem a descrições de posição por área, como “upper left” ou “lower right third”, que funcionam quase como coordenadas. Já o Nano Banana funciona melhor quando você combina pontos de interesse com descrição de espaço vazio: traveler positioned in the lower-left third, vast open sky occupying the upper two thirds.

Um ponto de atenção é que o espaço vazio também precisa ser descrito. A IA não sabe que você quer respiro se você não pedir por ele.

Linhas de condução

Como direcionar o olhar dentro da cena de IA

Linhas de condução são elementos visuais que levam o olhar até o ponto principal da imagem, como estradas, corredores, trilhos ou padrões arquitetônicos. Para que a IA gere esse efeito com consistência, ela precisa de vocabulário de perspectiva.

O Kling se destaca aqui porque interpreta melhor essas relações espaciais. Isso permite que os objetos diminuam de forma natural em direção ao fundo, criando profundidade real, e não apenas linhas apontando para um mesmo lugar.

Um prompt possível para esse tipo de composição seria:

long corridor with vanishing point at center, one-point perspective, architectural leading lines drawing the eye toward a figure in the distance

No Recraft V4, que trabalha a composição com uma lógica mais próxima do design, padrões geométricos funcionam bem como guias. Em cenas internas, descrições como “geometric floor pattern leading the eye toward the subject, disciplined line structure” ajudam a organizar o quadro e manter formas bem definidas.

Alguns termos ajudam a ativar esse comportamento: “vanishing point”, “receding into the distance”, “one-point perspective”, “leading lines toward [elemento]”. Quanto mais claro for o destino dessas linhas, mais consistente tende a ser o resultado.

Enquadramentos e tipos de plano

Como a escala muda a narrativa na composição com IA

O tipo de plano define a relação entre o sujeito e o ambiente e muda completamente a sensação da imagem. Modelos mais recentes entendem bem esses enquadramentos, mas você precisa ser específico.

Plano fechado extremo (Extreme Close-Up)

Foca em detalhe e proximidade. Funciona bem para textura, expressão ou pequenos gestos. Seedream e Nano Banana se destacam aqui pela qualidade nos detalhes. O Kling também performa bem, principalmente por já gerar em alta resolução, evitando aquele aspecto artificial comum quando a imagem é ampliada depois.

Prompt base: “extreme macro close-up, 100mm lens, focus on skin texture and pore detail, shallow depth of field”

Plano médio

Equilibra o sujeito com o ambiente. Funciona bem quando a ação e o espaço têm o mesmo peso.

Prompt base: “medium shot, waist-up portrait, subject slightly off-center, shallow depth of field f/2.8”

Plano geral (Long Shot ou Establishing Shot)

Mostra o ambiente e a escala da cena. Aqui, o espaço ganha mais peso que o sujeito.

O Nano Banana tem um recurso chamado Search Grounding, que permite buscar referências reais de locações antes de gerar a imagem. Isso faz diferença quando o cenário precisa parecer mais fiel.

Prompt base: “cinematic wide establishing shot, 24mm lens, landscape perspective, subject small in frame, environment dominant”

Plano sobre o ombro (Over-the-Shoulder)

Cria a sensação de observador, comum em cenas de diálogo ou interação.
Prompt base: “over-the-shoulder shot, foreground figure slightly out of focus, subject in mid-ground in sharp focus”

Regra simples: o modelo precisa saber onde a câmera está, não só o que está na cena.

Um prompt que pede “uma mulher em uma cafeteria” e um que diz “extreme close-up of a woman's hands holding a coffee cup, warm bokeh background” partem da mesma ideia, mas levam a resultados completamente diferentes.

Ângulos de câmera

Como usar ângulos no prompt para mudar a percepção

O ângulo da câmera muda completamente a forma como o sujeito é percebido. Pequenas variações já alteram a sensação de poder, vulnerabilidade ou presença.

Ângulo baixo

A câmera fica abaixo do nível dos olhos, apontada para cima. Costuma transmitir força, autoridade ou até ameaça. Kling e Nano Banana respondem bem a esse tipo de composição, principalmente quando combinado com luz mais dramática.

Prompt base: “low-angle shot, worm's eye view looking up at the subject, powerful imposing presence, chiaroscuro lighting, dramatic shadows”

Ângulo alto

A câmera fica acima do sujeito, olhando para baixo. Pode sugerir fragilidade ou isolamento. No Seedream, esse tipo de enquadramento funciona bem para composições vistas de cima (flat lays) em projetos editoriais ou visuais informativos.

Prompt base: “high-angle shot looking down at subject, 60-degree overhead perspective, subject appears small against large environment”

Ângulo holandês (Dutch Angle)

A câmera é inclinada, quebrando a linha do horizonte. Cria sensação de tensão, instabilidade ou movimento. Funciona bem em cenas mais dramáticas ou de ação intensa.

Prompt base: “dutch angle composition, tilted camera 15 degrees, oblique horizon line, scene feels unstable and tense”

Vista aérea

A câmera fica acima da cena, geralmente apontada para baixo. É útil quando a organização dos elementos importa mais do que a profundidade, como em produtos, design ou composições mais limpas.

Prompt base: “90-degree overhead flat lay, top-down perspective, symmetrical arrangement, clean negative space”

Profundidade de campo na IA: como controlar foco e atenção

A profundidade de campo vai além de um efeito visual. Ela define o que chama atenção na imagem e o que fica em segundo plano. Quando tudo está em foco, o olhar se espalha. Quando só uma parte está nítida, o destaque se concentra.

Nano Banana e Seedream respondem bem a esse tipo de controle, principalmente quando você especifica a abertura da lente. A diferença entre f/1.4 e f/8 aparece no resultado e muda bastante a leitura da cena.

Para isolar o sujeito, vale testar:
“shallow depth of field f/1.4, creamy bokeh background blur, subject in sharp focus, 85mm portrait lens”

Para dar mais peso ao ambiente:
“deep focus f/11, everything in sharp focus from foreground to background, environmental storytelling”

Nos modelos mais recentes, o vocabulário de lentes também faz diferença. O Nano Banana Pro, por exemplo, responde bem a nomes específicos de câmeras e lentes.

Termos como “Hasselblad X2D, 135mm” ou “GoPro wide angle” levam a resultados bem diferentes de uma lente comum sem especificação.

Iluminação na IA: como usar luz para construir a imagem

A luz organiza a imagem tanto quanto o posicionamento do sujeito. Ela cria profundidade, guia o olhar e ajuda a definir o peso emocional da cena.

O ponto principal é definir de onde vem a luz e para onde ela vai. É isso que diferencia um resultado padrão de um resultado intencional.

“Iluminação bonita” não diz muita coisa. Já “warm window key light from the left, soft shadow falling right” dá direção clara para o modelo.

Algumas referências que funcionam bem:

  • “three-point softbox setup” para iluminação uniforme, comum em produtos

  • “chiaroscuro lighting” para contraste forte e sombras marcadas

  • “golden hour backlight” para luz quente e recorte suave

  • “rim light separating subject from background” para destacar o sujeito do fundo

No Kling, a iluminação costuma influenciar diretamente a atmosfera da cena. “Hard cold white neon light” gera um resultado bem diferente de “warm candlelight key”, e o modelo responde bem a esse tipo de contraste.

Conclusão: a imagem que você gera depende do seu repertório

A maioria dos resultados medianos na geração de imagem não vem da ferramenta, mas de como ela é instruída. O modelo responde ao que você descreve e, quando isso fica claro, ajustar o pedido passa a ser o que realmente melhora o resultado.

A lógica não é nova. Na fotografia, a imagem também precisa ser pensada. A diferença é que, na IA, essa decisão deixa de ser física e passa a ser textual. Você não move a câmera, descreve onde ela está. Não ajusta a lente, escreve qual lente quer simular.

Isso exige uma habilidade específica: traduzir olhar em linguagem. Saber o que destacar, o que deixar em segundo plano e como o olhar deve percorrer a cena.

É aqui que a base tradicional faz diferença. Composição, luz, enquadramento e narrativa visual continuam sendo os mesmos princípios. A IA não substitui isso, ela mostra o repertório de quem cria e revela onde ainda falta domínio.

A IA não vai perguntar o que você quer. Ela vai gerar. A direção é sua, e o que define a qualidade dessa direção é, no fim, o repertório visual que você traz para o prompt.

Update

Receba as Novidades do Mundo da IA e do Mercado Criativo

Todas as quintas, às 10h.

CRIATIVIDADE

TECNOLOGIA

Update

Receba as Novidades do Mundo da IA e do Mercado Criativo

Todas as quintas, às 10h.

CRIATIVIDADE

TECNOLOGIA

Update

Receba as Novidades do Mundo da IA e do Mercado Criativo

Todas as quintas, às 10h.

CRIATIVIDADE

TECNOLOGIA