Co nowego w GPT Image 1.5?
OpenAI poinformowało o wydaniu nowej wersji swojego modelu generującego i edytującego grafiki.
GPT Image 1.5 ma przynosić kilka istotnych ulepszeń, które powinny zbliżyć go do poziomu Nano Banana Pro od Google. Jeśli nie znasz jeszcze możliwości tego narzędzia, zachęcam do lektury
artykułu o Nano Banana - darmowym edytorze zdjęć AI od Google. Według oficjalnych informacji od OpenAI, najważniejsze nowości to:
- Lepsze zachowanie oryginalnej grafiki podczas edycji - model znacznie lepiej radzi sobie z zachowaniem twarzy, logo i kluczowych elementów wizualnych podczas wprowadzania zmian. To właśnie tutaj poprzednia wersja miała największe problemy.
- Dokładniejsze wykonywanie poleceń - GPT Image 1.5 bardziej niezawodnie realizuje instrukcje użytkownika, co pozwala na precyzyjniejsze edycje oraz bardziej skomplikowane kompozycje oryginalne.
- Znacząco lepsze renderowanie tekstu - model potrafi teraz obsługiwać gęstszy i mniejszy tekst, co było sporym problemem w pierwszej wersji.
- 20% niższe koszty w API - zarówno przy wejściowych, jak i wyjściowych obrazach, co pozwala generować więcej grafik przy tym samym budżecie.
Zastosowania praktyczne - dla kogo GPT Image 1.5?
OpenAI wskazuje dwa główne obszary zastosowań nowego modelu. Pierwszy to
e-commerce i retail - możliwość generowania wielu wariantów wizualnych produktu z jednego źródłowego zdjęcia, przy zachowaniu spójności twarzy modelek czy modeli, gdy zmieniają się ubrania czy akcesoria.
Drugi to marketing i branding - tworzenie plakatów, reklam, prezentacji i innych materiałów brandowych z lepszym zachowaniem logo i elementów identyfikacji wizualnej marki. To wszystko brzmi świetnie w teorii, ale jak to wygląda w praktyce?
ZOBACZ KURS AI W WIZUALIZACJACH - NANO BANANA, FLUX I INNE
Pierwsze wrażenia - czy interfejs się zmienił?
Na pierwszy rzut oka nie wydaje się, aby w interfejsie zaszły rewolucyjne zmiany. Zostały dodane podpowiedzi różnych stylów wizualnych, ale tak naprawdę
są to tylko gotowe szablony promptów. Po wybraniu danego stylu i dodaniu grafiki, którą chcemy edytować, pojawia się automatycznie wygenerowany prompt. Dla niektórych użytkowników może to być przydatne ułatwienie, ale bardziej zaawansowani użytkownicy pewnie uznają to za zbędną nakładkę - przecież te same efekty można uzyskać wpisując własne polecenia.
Niedoskonałości poprzedniej wersji GPT Image
Zanim przejdziemy do testów, warto przypomnieć, z jakimi problemami borykała się pierwsza wersja.
Największym wyzwaniem było przebieranie postaci w inne ubranie z zachowaniem jej tożsamości. Każda kolejna generacja zmieniała oryginalny obraz - wygenerowane osoby mogły być podobne, ale to już nie był dokładnie ten sam człowiek. Subtelne zmiany w rysach twarzy, inny odcień skóry czy zmiana proporcji sprawiały, że efekt końcowy odbiegał od oryginału. Dodatkowo często pojawiały się literówki w generowanych napisach, a model kompletnie nie radził sobie z tłumaczeniem tekstu widocznego na grafikach. Niemożliwe było też precyzyjne usuwanie czy dodawanie obiektów do sceny bez zmieniania całego kontekstu obrazu.
Sprawdźmy więc, jak GPT Image 1.5 radzi sobie z tymi samymi wyzwaniami! Test 1: Usuwanie elementów z wnętrza
Pierwszy praktyczny test polegał na usunięciu sofy ze zdjęcia salonu. To klasyczne zadanie z zakresu inpaintingu - chcemy, aby konkretny obiekt zniknął, a reszta sceny pozostała nienaruszona. Wizualnie efekt wygląda obiecująco - GPT Image 1.5 faktycznie poradził sobie znacznie lepiej niż jego poprzednik. Sofa zniknęła, a w jej miejscu pojawił się fragment ściany i podłogi, który w miarę spójnie komponuje się z resztą wnętrza.

Test 2: Zmiana ubioru dzięki AI
Drugi test dotyczył jeszcze bardziej wymagającego zadania -
przebierania osoby w inny strój przy jednoczesnym zachowaniu jej tożsamości. Poprosiłem GPT Image 1.5, aby mężczyznę w casualowym stroju przebrało w elegancki czarny garnitur.
Pierwsza reakcja po obejrzeniu wyniku: "wow, naprawdę nieźle!". Garnitur wygląda realistycznie, pozycja ciała pozostała zachowana, a całość kompozycji jest spójna. To ogromny postęp w porównaniu z pierwszą wersją, która generowała praktycznie nową osobę. Jednak przy dokładniejszej analizie widać, że diabeł tkwi w szczegółach. Rysy twarzy uległy subtelnym zmianom - nieznacznie zmienił się kształt nosa, proporcje szczęki, a nawet odcień skóry jest odrobinę inny. To nie są drastyczne różnice, które rzucają się w oczy od razu, ale przy zestawieniu obu zdjęć obok siebie widać, że mówimy o bardzo podobnej, ale jednak innej osobie.
Problem wynika z tego samego mechanizmu, który opisałem wcześniej - model nie edytuje fragmentu grafiki, tylko generuje całość od nowa. Z każdą kolejną iteracją te subtelne różnice mogą się sumować, przez co po kilku rundach edycji odejdziemy znacząco od oryginału.
Test 3: Wykorzystywanie grafik referencyjnych w GPT
Trzeci test był najbardziej kreatywny - postanowiłem sprawdzić, jak GPT Image 1.5 poradzi sobie z łączeniem elementów z kilku różnych zdjęć w jedną spójną kompozycję. Wrzuciłem do modelu trzy osobne grafiki referencyjne: portret dziewczyny, czerwonego Mustanga i vintage'ową stację benzynową.
Użyty prompt brzmiał: "Potraktuj załączone zdjęcia jako inspirację. Stwórz na ich podstawie ujęcie przedstawiające dziewczynę w deszczowy wieczór opierającą się o czerwonego mustanga z referencji na retro stacji benzynowej w stylu tej z referencji. Proporcje 16:9".
Efekt końcowy zasługuje na uznanie. Model nie tylko połączył wszystkie trzy elementy w jedną scenę, ale zrobił to w sposób artystyczny i atmosferyczny. Dziewczyna, samochód i stacja benzynowa tworzą spójną narrację wizualną, a dodatek w postaci deszczowej pogody i wieczornego oświetlenia sprawia, że obraz ma klimat rodem z filmowej produkcji. Kolory, perspektywa i oświetlenie zostały zharmonizowane tak, jakby wszystkie elementy faktycznie występowały w tej samej scenie. To pokazuje, że GPT Image 1.5 radzi sobie dobrze nie tylko z edycją istniejących materiałów, ale także z twórczym łączeniem różnych inspiracji w nowe kompozycje.
ZOBACZ KURS AI OD PODSTAW - POZNAJ NAJWAŻNIEJSZE NARZĘDZIA
Test 4: Generowanie zdjęć produktowych w AI
Czwarty test skupił się na praktycznym zastosowaniu w e-commerce - stworzeniu profesjonalnego zdjęcia produktowego. Zadanie brzmiało następująco: przygotuj eleganckie pudełko prezentowe zawierające trzy konkretne przedmioty - zegarek, okulary przeciwsłoneczne i aparat fotograficzny.
Szczegółowy prompt: "Stwórz realistyczne zdjęcie produktowe przedstawiające białe teksturowe pudełko prezentowe, w którym będą znajdować się trzy produkty z załączonych zdjęć. Pudełko będzie na białym tle. Pudełko będzie wyścielone białym drobno pociętym papierem, który będzie pełnił funkcję wypełnienia, na którym będą leżeć przedmioty."
GPT Image 1.5 wykonał zadanie naprawdę solidnie. Wszystkie trzy produkty zostały umieszczone w pudełku w estetyczny sposób, papierowe wypełnienie dodaje premium charakteru całej kompozycji, a białe tło sprawia, że grafika nadaje się od razu do wykorzystania w sklepie internetowym. Oświetlenie jest równomierne, proporcje zachowane, a produkty wyglądają realistycznie. To dowód na to, że narzędzie może faktycznie znaleźć praktyczne zastosowanie w małych firmach czy sklepach internetowych, które potrzebują szybko wygenerować materiały wizualne bez konieczności organizowania sesji zdjęciowej.
Test 5: Generowanie infografiki z przepisami
Piąty test miał sprawdzić możliwości modelu w zakresie tworzenia materiałów edukacyjnych - konkretnie infografiki kucharskiej. Poprosiłem o wygenerowanie przepisu na naleśniki w formie wizualnej instrukcji krok po kroku. Wynik? Naprawdę dobry!
Model wygenerował estetyczną infografikę z wyraźnymi ilustracjami poszczególnych kroków przygotowania, opisami tekstowymi i listą składników. Czcionki są czytelne, układ kompozycji logiczny, a kolorystyka przyjemna dla oka. Co najważniejsze - tekst jest prawie w całości poprawny. Pojawił się wprawdzie drobny błąd w przepisie, ale to i tak ogromna poprawa w porównaniu z poprzednią wersją GPT Image, która generowała napisy pełne dziwnych znaków i literówek. Ta funkcjonalność otwiera drzwi do szybkiego tworzenia materiałów instruktażowych, infografik edukacyjnych czy wizualnych poradników - wszystko bez potrzeby korzystania z programów graficznych.
Test 6: Tłumaczenie grafiki dzięki sztucznej inteligencji
Szósty test był naturalną kontynuacją poprzedniego - skoro model potrafi generować tekst na grafikach, to czy poradzi sobie z jego tłumaczeniem?
Poprosiłem GPT Image 1.5, żeby przetłumaczył wcześniej wygenerowaną infografikę z przepisem z języka polskiego na angielski. Rezultat jest imponujący. Model nie tylko przetłumaczył wszystkie napisy, ale zrobił to z zachowaniem oryginalnego layoutu i stylu graficznego.
Co więcej - i to jest najważniejsza obserwacja - widać wyraźnie, że edycji zostały poddane wyłącznie fragmenty zawierające tekst. Ilustracje, kolory tła, rozmieszczenie elementów - wszystko pozostało identyczne jak w oryginale. To pokazuje, że GPT Image 1.5 potrafi działać precyzyjniej niż w niektórych wcześniejszych testach. Być może model lepiej radzi sobie z edycją tekstu niż ze zmianą obiektów czy osób? To ciekawa obserwacja, która może wskazywać kierunek, w którym narzędzie sprawdzi się najlepiej.
Test 7: Generowanie mapy województwa
Siódmy test miał sprawdzić wiedzę geograficzną modelu. Zadanie było proste: wygeneruj mapę województwa mazowieckiego. Celowo nie dołączyłem żadnych materiałów referencyjnych - chciałem zobaczyć, czy GPT Image 1.5 ma w swojej bazie danych wystarczająco precyzyjne informacje o polskich regionach. Niestety, tutaj model wyraźnie się pogubił.
Wygenerowana grafika jest estetyczna, ma ładną kolorystykę i profesjonalnie wygląda... ale obrys województwa mazowieckiego nijak ma się do rzeczywistości. Kształt jest kompletnie niepoprawny, granice nie odpowiadają faktycznej geografii, a rozmieszczenie miast wydaje się przypadkowe. To jasno pokazuje ograniczenia tego typu narzędzi - GPT Image 1.5 jest świetny w tworzeniu estetycznych kompozycji i manipulacji wizualnej, ale nie można polegać na nim w kwestiach wymagających faktograficznej precyzji bez dostarczenia odpowiednich materiałów źródłowych.
Test 8: Generowanie grafiki reklamowej w Image 1.5
Ósmy test przeniósł nas w świat marketingu i reklamy. Postanowiłem sprawdzić, czy GPT Image 1.5 potrafi stworzyć chwytliwą, kreatywną grafikę reklamową z pomysłowym konceptem wizualnym.
Prompt brzmiał: "Stwórz realistyczną grafikę reklamową wyglądającą jak zdjęcie puszki Campbell's soup. Grafika ma przedstawiać puszki Campbell's rosnące na krzakach pomidorów, ale zamiast pomidorów! Grafika ma być w klimacie słonecznego dnia. Dodaj na grafice jakieś chwytliwe hasło reklamowe w języku angielskim. Proporcje 9:16".
Efekt końcowy to prawdziwe zaskoczenie w pozytywnym sensie! Model stworzył surrealistyczną, ale jednocześnie niezwykle efektowną kompozycję, która doskonale nadawałaby się do kampanii reklamowej. Puszki Campbell's faktycznie "rosną" na krzakach pomidorowych, tworząc absurdalny, ale przyciągający wzrok obraz. Słoneczne oświetlenie, naturalna kolorystyka i dynamiczna kompozycja sprawiają, że grafika wygląda jak profesjonalna produkcja reklamowa. Co więcej, wygenerowane hasło reklamowe jest chwytliwe i dobrze komponuje się z wizualnym konceptem. To pokazuje, że GPT Image 1.5 może być realnym wsparciem dla zespołów marketingowych przy tworzeniu materiałów promocyjnych.
Test 9: Restauracja starego zdjęcia
Ostatni test wykorzystał jedną z gotowych funkcji GPT - prompt "Restore an old photo", który ma służyć do odnawiania starych, zniszczonych fotografii. Wrzuciłem do modelu zdjęcie z lat 40. i... szczerze mówiąc, wynik mnie rozczarował. Efekt jest zbyt sztuczny i za bardzo odbiega od oryginału.
Model nadmiernie "wygładził" twarze, nadając im plastikowy, nienaturalny wygląd, a koloryzacja jest zbyt intensywna i nieprzystająca do estetyki epoki. Wygląda to bardziej jak grafika komputerowa niż odrestaurowana fotografia. Prawdopodobnie problem leży w samym prompcie użytym przez OpenAI - być może zbyt agresywnie próbuje "poprawić" obraz zamiast delikatnie go odświeżyć. Można by pewnie uzyskać lepsze rezultaty, samodzielnie konstruując bardziej precyzyjny prompt. Mimo wszystko oczekiwałbym, że oficjalne narzędzie od OpenAI będzie działało lepiej "out of the box".
Podsumowanie - czy warto korzystać z GPT Image 1.5?
GPT Image 1.5 to zdecydowanie duży krok naprzód względem poprzednika.
Poprawa w renderowaniu tekstu jest spektakularna - to, co wcześniej było praktycznie niemożliwe, teraz działa naprawdę dobrze. Możliwość tworzenia złożonych kompozycji z wielu źródeł i generowanie materiałów marketingowych to kolejne mocne strony. Największym ograniczeniem pozostaje
brak prawdziwego inpaintingu - model regeneruje całą grafikę zamiast edytować tylko wybrane fragmenty, co sprawia, że nie można całkowicie zachować tożsamości osób czy obiektów podczas edycji.
Czy GPT Image 1.5 dorównał Nano Banana Pro? Ciężko jednoznacznie orzec, ale dystans na pewno się zmniejszył. Dla użytkowników ChatGPT to doskonała wiadomość - nie muszą już szukać alternatyw do podstawowych zadań związanych z grafiką. Czy zastąpi profesjonalne narzędzia? Nie. Ale jako wsparcie w codziennej pracy - jak najbardziej.