Coloquei o novo recurso de visão do ChatGPT-4o em teste com 7 prompts – o resultado é alucinante

blank
Por
Jugo Mobile
Jugo Mobile é uma plataforma dedicada a conteúdo de alta qualidade em jogos, esportes e tecnologia. Interaja com conteúdo de qualidade e conecte-se com outros entusiastas...
14 min de leitura

Os modelos de inteligência artificial têm sido capazes de ver imagens e dizer o que podem ver na imagem há anos, mas com sua atualização de primavera, a OpenAI levou as coisas a um novo nível.

Com o lançamento do GPT-4o no ChatGPT – mesmo sem a funcionalidade de voz e vídeo – a OpenAI revelou um dos melhores modelos de visão de IA lançados até hoje.

Seu sucesso se deve em parte ao fato de ser nativamente multimodal, possuindo um conhecimento mais profundo de imagem, vídeo, som e texto. Ele pode raciocinar sobre uma imagem, fala, vídeo e texto onde outros modelos primeiro convertem em texto.

Para testar suas capacidades, forneci-lhe uma série de imagens e pedi que descrevesse o que conseguia ver. Quanto mais preciso for, melhor será o modelo. Freqüentemente, os modelos de visão de IA – incluindo GPT-4 – perderão um ou dois objetos ou obterão uma descrição errada.

Testando a visão GPT-4o

Para cada teste, forneci ao ChatGPT-4o a imagem e a pergunta “O que é isso?” sem nenhum contexto ou informação adicional. Isso está mais próximo de como as pessoas provavelmente usarão esse recurso no mundo real e como eu o usei recentemente em um evento em Paris.

O objetivo é ver quão bem ele analisa a imagem. Acompanhei cada ocasião para perguntar se ele poderia detectar se a imagem foi gerada por IA ou não. Todos eles foram feitos usando Ideograma a partir de uma descrição criada por Claude 3 — totalmente IA.

Após as duas primeiras imagens da conversa, ele começou a me dizer automaticamente se achava que a imagem era gerada por IA ou não, sem que eu precisasse perguntar.

Comecei no aplicativo ChatGPT Desktop, mas ele começou a não responder, então mudei para a web e funcionou bem.

1. Reconhecimento de objetos

Ideograma

(Crédito da imagem: Ideograma/imagem de IA do futuro)

Para esta primeira imagem, gerei a imagem de uma xícara de cerâmica vermelha cheia de café fumegante. Foi colocado em um pires sobre uma mesa de madeira em um café – mas o café estava desfocado. A ideia é ver como o GPT-4o interpreta o background e o cenário.

GPT-4o escreveu: “Esta imagem mostra uma xícara de café fumegante em uma xícara e pires vermelhos colocados sobre uma mesa de madeira rústica. O fundo é desfocado, representando um ambiente interno aconchegante com pessoas sentadas e conversando no que parece ser um café em forma de caverna ou um interior de design exclusivo com paredes de pedra. O foco está na xícara de café, destacando o vapor que sai da bebida quente.”

Isso é o mais preciso e descritivo possível. Até pintando um quadro da cena indo além da simples descrição. Para me pertir pedi: “Descreva os pensamentos da pessoa sentada à mesa com este café pronto para beber”.

Ele respondeu com uma visão geral lindamente descritiva, mas esta frase se destacou: “Este café é mais do que apenas uma bebida; é um ritual, um momento querido de solidão e reflexão em meio à agitação da vida cotidiana.”

2. Reconhecimento óptico de caracteres (OCR)

Imagem de ideograma/IA futura

(Crédito da imagem: Ideograma/imagem de IA do futuro)

OCR é uma tecnologia tão antiga quanto a computação, portanto deveria ser trivial para qualquer modelo de visão, até mesmo os smartphones fazem isso no dispositivo. Eu forneci uma imagem simples mostrando um close de uma placa de madeira desgastada que dizia “Bem-vindo a Oakville” em um estilo vintage escrito à mão. Quero mais do que apenas o texto da IA.

GPT-4o entregue; escrevendo: “Esta imagem mostra uma placa de aparência vintage que diz “Bem-vindo a Oakville”. A placa apresenta-se desgastada, com acabamento rústico e envelhecido, sugerindo que já esteve exposta às intempéries há algum tempo. O texto está em negrito, fonte branca sobre fundo vermelho, com alguns sinais de desgaste, aumentando seu charme nostálgico. A placa está parcialmente cercada por vegetação, indicando que pode ser colocada ao ar livre, possivelmente na entrada de uma cidade ou comunidade chamada Oakville.”

Ele não apenas leu o texto corretamente, mas também sugeriu mais detalhes sobre o local, identificando provavelmente uma cidade ou povoado e extraindo detalhes da própria placa.

3. Reconhecimento facial

Imagem de ideograma/IA futura

(Crédito da imagem: Ideograma/imagem de IA do futuro)

Esta é uma utilização controversa da tecnologia de inteligência artificial e é até certo ponto proibida na UE. Mas quão bem o GPT-4o pode descrever um rosto? A imagem era uma representação gerada por IA de uma mulher na casa dos 40 anos com cabelos escuros e olhos castanhos calorosos. Ela tinha um sorriso amigável.

GPT-4o descreveu assim: “Esta imagem é um retrato em close de uma mulher sorridente com cabelos escuros cacheados. O foco está no rosto, que está bem iluminado, mostrando detalhadamente a textura e os traços da pele. Ela tem uma expressão amigável, com os olhos voltados diretamente para a câmera. O fundo está desfocado, colocando ênfase no assunto.”

Eu queria um pouco mais, inclusive em torno da idade. Então perguntei “que idade tem essa pessoa e qual é o seu estado emocional”. Ele respondeu com o fato de ela ter entre 30 e 40 anos e um estado de espírito positivo, explicando: “A impressão geral é que ela está emocionalmente bem, talvez se sentindo realizada e à vontade”.

4. Detecção de emoções

Imagem de ideograma/IA futura

(Crédito da imagem: Ideograma/imagem de IA do futuro)

A seguir, eu queria ver como o GPT-4o se sairia bem com a foto de um homem mais velho com uma expressão melancólica. Ele pegaria isso ou apenas descreveria a cena. Lembre-se de que a única entrada que teve foi “o que é isto” e a imagem.

GPT-4o se saiu bem. Sobre a imagem dizia: “Esta imagem é o retrato de um homem idoso sentado em um banco ao ar livre, provavelmente em um parque. A iluminação sugere que foi tirada durante a hora dourada, já que a luz suave do sol destaca seu rosto. A expressão do homem é pensativa, com um leve toque de melancolia ou contemplação. Ele está vestido com camisa de colarinho e blazer, e o fundo é desfocado, focando a atenção no homem e proporcionando um cenário agradável e natural.”

O modelo de IA fez exatamente o que eu esperava: descrever a cena e fazer sugestões sobre como o homem poderia estar se sentindo naquele momento.

5. Compreensão da cena

Imagem de ideograma/IA futura

(Crédito da imagem: Ideograma/imagem de IA do futuro)

Quão bem o GPT-4o pode descrever uma cena da imagem e identificar elementos dentro da cena? Esta é uma habilidade útil, pois o modelo de IA é cada vez mais utilizado para ajudar a descrever o mundo real. É um dos principais recursos do novo modo Voz do ChatGPT.

GPT-4o declarou: “Esta imagem retrata um animado mercado de agricultores ao ar livre em um dia ensolarado. Várias barracas são montadas sob tendas, apresentando uma abundância de produtos frescos, incluindo frutas, vegetais e outros produtos. As pessoas estão andando pelo mercado, navegando, comprando e interagindo com os vendedores. O mercado parece estar inserido numa zona agradável e arborizada, com folhagem verde visível ao fundo. A atmosfera parece vibrante e comunitária, com foco em produtos locais e frescos.”

Não há muito a dizer. Foi certeiro na descrição da imagem e da situação. Fornecia mais detalhes do que eu esperava, destacando alguns dos produtos à venda.

6. Avaliação da qualidade da imagem

Imagem de ideograma/Futura IA

(Crédito da imagem: Ideograma/imagem de IA do futuro)

Fiz o Ideogram gerar quatro imagens quase idênticas em uma grade, mas dando a cada uma uma resolução ou nível de composição diferente. Eu queria ver como o GPT-4o descreveria isso. Ele pode lidar com a imagem subjacente, mas e quatro delas, cada uma ligeiramente diferente?

GPT-4o escreveu: “A imagem é uma coleção de quatro fotografias de paisagens organizadas em uma grade, cada uma mostrando uma vista panorâmica de colinas cobertas de grama verde e flores silvestres sob um céu com nuvens”. Tudo bem até agora.

Ele continua: “A fotografia no canto superior esquerdo apresenta um céu suave em gradiente rosa e azul, sugerindo o amanhecer ou o anoitecer, com colinas banhadas por uma luz quente e dourada, realçando a grama verde vibrante e as flores amarelas e brancas. A fotografia superior direita mostra uma cena semelhante, mas com cores suaves, indicando início da manhã ou final da tarde. A imagem inferior esquerda apresenta tons mais frios e um céu azul mais pronunciado, sugerindo meio-dia com iluminação mais suave. A fotografia inferior direita é mais quente e saturada, com um tom rosado no céu, sugerindo a luz quente do pôr do sol. Essas variações na iluminação e no tom das cores ilustram como diferentes horários do dia e técnicas fotográficas podem afetar o clima e a aparência da mesma paisagem.”

Embora não tenha atingido o propósito da grade de quatro imagens – comparação de composição – foi capaz de descrever cada uma inpidualmente, o que é impressionante. Na verdade ele fez sua própria comparação entre as imagens.

7. Detecção de múltiplos objetos

Imagem de ideograma/IA futura

(Crédito da imagem: Ideograma/imagem de IA do futuro)

Pedi para encontrar meus óculos na imagem e ele disse corretamente: “Seus óculos estão na mesa à direita do laptop, colocados em cima de um notebook”.

Finalmente, um teste importante se o modelo deseja ser útil como ferramenta de acessibilidade – quão bem ele detecta objetos em uma cena lotada. O mesmo prompt dos outros. A imagem mostra uma mesa bagunçada e espero que ela puxe pelo menos um objeto menor.

GPT-4o escreveu: “A imagem retrata um espaço de trabalho de escritório moderno e organizado com uma paisagem urbana visível através de grandes janelas ao fundo. A mesa está bem organizada com vários itens normalmente encontrados em um ambiente de trabalho produtivo, incluindo um laptop posicionado centralmente, uma luminária de mesa metálica e uma caneca de café, sugerindo um ambiente descontraído, mas concentrado. Cadernos e papéis espalhados indicam trabalho ativo e anotações, enquanto um pequeno vaso de planta acrescenta um toque de verde. Uma foto emoldurada de duas pessoas dá um toque pessoal, provavelmente servindo como fonte de motivação. O espaço de trabalho está bem abastecido com materiais de escritório, como canetas, lápis e organizadores, garantindo funcionalidade. O cenário urbano do horizonte da cidade com arranha-céus modernos cria um cenário dinâmico e inspirador.”

Funcionou. Resolvi fazer um acompanhamento e pedir para ele me dizer a cor do vaso e acertou em cheio. Então pedi para ele encontrar meus óculos na imagem e ele disse corretamente: “Seus óculos estão na mesa à direita do laptop, colocados em cima de um notebook”.

Resumo

Todos os modelos de visão que usei no passado cometeram pelo menos um erro, geralmente um grande erro, como identificar incorretamente um objeto ou não identificar uma cor ou marca.

GPT-4o acertou cada um deles. Mudar para a verdadeira multimodalidade foi uma virada de jogo para a OpenAI.

Também mostra o valor potencial dos óculos inteligentes como o verdadeiro futuro da interação com dados. Esqueça o smartphone, vamos usar a visão para fundir o real e o digital.

  • A Apple está supostamente perto de um acordo com a OpenAI – o ChatGPT poderia ser o novo Siri?
  • OpenAI lança livro de regras do ChatGPT – o que isso significa para os usuários
  • ‘GPT-4 é o modelo mais idiota que qualquer um de vocês terá que usar’, declara Sam Altman, CEO da OpenAI, enquanto aposta alto em uma superinteligência
Partilhar este artigo
Seguir
Jugo Mobile é uma plataforma dedicada a conteúdo de alta qualidade em jogos, esportes e tecnologia. Interaja com conteúdo de qualidade e conecte-se com outros entusiastas e especialistas. Explore as últimas tendências e inovações em nossa comunidade vibrante. Junte-se a nós e experimente o futuro hoje!