Standing on the Shoulders of Giants

Google ‘s new searchengine for scientific publications. Includes access to some works that are especially scanned in for the occassion.

So what do you in such cases? You trie to find your own publications, and only end up finding references. Not the real gold. Because they’re not written in English, and that disqualifies you.


Gegoochel met Google

Zoeken via een nog soberder interface als Google u biedt? Probeer http://www.google.com/ie eens.

Of lees eens over het beruchte Google cookie dat pas in 2038 vervalt, en waardoor elk van uw zoekopdrachten onder éen noemer wordt opgeslagen


Google has just become a bit more useful

…by allowing 32 search words in queries, instead of limiting it to 10.

Now, if only they would index documents on the internet further than the first 101 KByte.


Ontgoogled

De luddieten hadden gelijk, onze grootste vertrouwelingen zijn robots geworden. We typen geheimen die zelfs onze naasten niet mogen leren in zoekmachines in, om er meer over te weten. Zonder te beseffen dat die zoekvraag ergens opgeslagen blijft, gekoppeld aan ons internetadres.

Tim Wu, over privacy en de bewaardrang van zoekmachines.


How to Spam Google News

Pretend you’d like to appear in the news. Imagine that there might be a way for you to write a story — a story about anything, any topic under the sun — and have your tale appear in a news archive.

It turns out that you can. It’s trivial. Just type your story into one of the Internet-based “PR agencies” that Google News includes in its index, and poof, your story is part of the news.

You’ll have to read the story to learn how this works.

Richard Wiggins


Verslag van de slag | dag 3

De botnets blijven dom hun reclame sturen naar de commentaarvelden op dit weblog, zelfs al kan er niets meer worden geplaatst. Ook vandaag zijn mijn websites hierdoor moeilijk te bereiken, en bij tijden helemaal niet. Helaas.

Ik ben daar nog steeds niet heel vrolijk onder. Maar gelukkig al wel wat minder emotioneel dan gisteren, toen de schone taak op mij wachtte de database achter dit weblog uit te wieden van ongewenst spul.

Ter illustratie: normaal neemt de tekst aan postjes ongeveer evenveel ruimte in aan megabytes, als de reacties die u zo vriendelijk bent geweest te plaatsen. Door de massale aanvallen van maandag en dinsdagochtend was het volume aan reacties al drie keer zo groot geworden.

Ik ga wel door, natuurlijk ga ik door. Daarvoor zijn er te veel onderwerpen om over te schrijven. Maar ik hoop dat deze stormen snel overwaaien. En misschien moet ik het idee maar opgeven zelf de controle over bijna alles te willen hebben.

Maar wat ben ik blij dat er geen commentaarmogelijkheden zijn op mijn boeklog.

En wat is mijn haat toegenomen tegen het domme tuig dat anderen het idee verkoopt dat ze hun website hoger op Google geplaatst kunnen krijgen.

Of die sukkels die hun computer laten kraken.

Of het Microsoft dat zijn computersystemen zo lek maakt.

Of al die onnozelaars die weleens iets via een spammail kopen, en daarmee die hele cirkel aan computermisdaad hebben veroorzaakt. Als het niet loonde, werd het niet gedaan.


Overwegingen | 0903

The Guardian heeft éen boekenrubriek die alle boekenrubrieken elders overstijgt. The Digested Read. Waarin John Crace elke week een pastiche op een actueel boek schrijft, door het in de stijl van dat boek samen te vatten;
Thans ook te verkrijgen als podcast;
En goed, dan kraakt hij ditmaal de nieuwste van Dick Francis af. En dan hoort Dick Francis tot mijn favoriete ontsnappingslectuur. Maar dit maakt hem alleen grappiger, omdat Crace gelijk heeft;

Google Chrome is nog geen dag uit, maar het hele internet heeft er al van alles over aangemerkt;
Meest fundamentele kritiek: dat Google de gebruikersovereenkomst zo ruim heeft opgesteld, dat het bedrijf automatisch eigenaar wordt van elk e-mailtje dat u met de Chrome browser verstuurd, net als elk postje dat u ermee op uw weblog plaatst;

En in dier voege: de reden waarom ik de webstreepjelogs, de blogspotlogs, en de andere gratis gehoste logs principieel geen echte weblogs vind — hoe goed ze ook geschreven kunnen zijn — omdat de eigenaren daarvan niet naar eigen goeddunken over hun eigen inhoud kunnen beschikken;
Dit recht hebben ze overhandigd, aan hun host;

Photo Tampering Throughout History.


Straf

Google heeft mij straf gegeven, en ik weet niet waarom. Sinds vrijdag is boeklog vrijwel onvindbaar via de zoekmachine, en krijgt mijn website alleen nog bezoek van het vaste publiek.

Weet ik eindelijk hoe groot dat is.

Niet dat ik boeklog schrijf voor de kijkcijfers. Advertentie-inkomsten zijn er niet, dus die kan ik ook niet verliezen.

Het voelt alleen wel als een straf. Een onterechte straf. Ik zie bij mijn beste weten niet in wat ik verkeerd zou hebben gedaan. En toch is boeklog alleen nog vindbaar voor de enkeling die zeker drie zoektermen gebruikt. Van minstens enige honderden bezoekers per dag, in de rustige tijden, is de stroom die via Google op boeklog aangeland plots gestokt.

Dit is meer mensen overkomen. Zo leert het machtige Google mij dan weer, door naar hun klachten te verwijzen. Voorlopig speelt het bedrijf stommetje, om commentaar gevraagd.


Straf 2

Er wordt zo langzamerhand iets meer duidelijk over het waarom van de straf van Google — die boeklog ineens vrijwel onvindbaar maakte, waardoor de bezoekersaantallen plots nogal drastisch daalden anderhalve week terug.

  • Al op 9 februari heeft iets of iemand illegale content op de server geplaatst, in de root van boeklog.info. Jammer genoeg kwamen deze html-pagina’s en de bijbehorende plaatjes in een directory terecht die ik zelf ooit had aangemaakt, waardoor niet opviel dat de inhoud daarvan veranderd was;
  • Vanaf dat moment was boeklog dus voorzien van allerhande extra statische pagina’s, met allerlei verwijzingen; waarschijnlijk om iemands pageranking bij Google te vergroten;
  • Opvallend genoeg was die illegale iets of iemand Nederlands, of in dienst van iets Nederlands;
  • Hoe dat spul op de server geplaatst kan zijn, is nog altijd onduidelijk. Vermoedelijk werd gebruik gemaakt van een lek in het CMS van Boeklog, waardoor cross-scripting mogelijk werd. Dat CMS heb ik stomtoevallig, zonder van de besmetting te weten, later op 9 februari aangepast aan de nieuwste versie;
  • Sindsdien merkten de Google robots dat een aantal bestemmingen online ineens wel heel populair werden, en vooral dat de verwijzingen naar deze website[s] allemaal hetzelfde waren, en daarmee waarschijnlijk illegaal. Dus werden zowel bestemming[en] als verwijzers gestraft, met verwijdering;
  • Maar vanwege boeklog’s goede status elders, neemt Google de website langzamerhand weer in genade in, waardoor ook de bezoekersaantallen weer naar hun vroegere hoogten groeien.

Boeklog was dus gehackt. Onderzocht wordt nog of er meer geplaatst is dan alleen wat statische html-pagina’s en plaatjeboel. Hiermee is dus éen raadsel opgelost, wat op zich prettig is. Zij het dat ik niet heel vrolijk wordt van het antwoord.


Overwegingen | 0407

Google heeft opvallend veel geheimen, wat me niet goed lijkt omdat het bedrijf zo ontstellend veel macht heeft, en zo veel betekenis in het leven van ieder van ons;
Maar éen geheim is nu minder geheim. Eindelijk is bekend hoe een Google-server eruitziet;

Bekend was wel dat het bedrijf zijn serverparken op gewone hardware draaien liet, zoals iedereen in de winkel kopen kan. Al is niet alles aan de hardware standaard;
Zo heeft elke server een eigen accu, voor als de stroom eens mocht uitvallen;
Servers met een accu uitrusten, is namelijk veel goedkoper dan een UPS voor het hele datacenter standby te laten draaien;

Omdat de opbrengst voor Google per zoekopdracht zo klein is, zijn er vele, soms minieme, aanpassingen aan de servers gedaan, om die zo min mogelijk stroom te laten gebruiken;
En als nerd wil ik liefst nog meer van zulke details;

Tegelijk mag van mij alles op hardware-gebied nog veel simpeler, wat mij betreft zo simpel als lego. Gaat er iets stuk, of moet er eens wat anders, dan hup, click, klaar;
De netbook is in sommige opzichten een stap de goede kant op, maar in dit aspect nu net niet, omdat als alle laptops netbooks zulke potdichtgesloten dozen zijn;

Ondertussen gaat Google zijn zoekresultaten aanpassen aan iemands locatie, door daarbij diens IP-adres mee te laten wegen;
Doet het bedrijf eindelijk iets goeds met al zijn kennis onzer IP-adressen, kan men stellen;
En toch zit er ergens een catch, al zie ik niet meteen waar;

De handel in gebruikersprofielen is de nieuwe gouden handel op internet;
Geen wonder dat Google Twitter wil hebben. Geen wonder dat netwerksites zo belachelijk veel geld waard zijn. Nooit was er betere technologie voorhanden om in éen keer iemands hele sociale netwerk in kaart te hebben — met alle demografische inzichten daarmee annex;

Maar dat ik me niet bijzonder weer op Twitter, Facebook, LinkedIn, MySpace, Hyves, of hoe ze ook maar mogen heten, is niet alleen uit principe;
Dat is ook uit luiheid;


Google Chrome OS

Op zich interesseert het me niet welk besturingssysteem mijn computer draait — of mijn telefoon, moet ik daar tegenwoordig bij schrijven. Maar dat ik nogal wat verschillende systemen heb uitgetest op mijn netbook, had wel een reden.

Mijn computers thuis staan meestal te sluimeren, en werken binnen een paar tellen. De computers die ik meeneem, staan uit. Die moeten eerst aangevuurd worden voor er iets nuttigs mee kan. En dat opstarten duurt altijd te lang. Ook al omdat een besturingssysteem als Microsoft Windows net doet of het al bedrijfsklaar is, terwijl onzichtbaar nog allerlei processen worden afgerond.

Verschillende Linux-versies beloofden speciaal te zijn aangepast aan mijn MSI Wind, en die onder meer razendsnel te kunnen opstarten, plus een langer batterijleven te schenken. Onder de distributies die ik probeerde was Moblin. Dat is een Linux-versie die oorspronkelijk ontwikkeld werd door Intel; wat nogal veelbelovend leek omdat Intel zowel de rekenprocessor als de grafische chip van mijn netbook geleverd heeft. Als er éen besturingssysteem op maat zou zijn te maken voor mijn wensen, dan toch Moblin wel.

Maar helaas, Moblin verkeerde in een nog te primitief stadium. Misschien dat dit systeem over een jaar of twee interessant wordt om te gebruiken. Als zich tenminste mensen geroepen blijven voelen aan Moblin te werken.

Want, dat was toch mijn eerste idee toen Google aankondigde met een eigen besturingsysteem te komen, speciaal voor netbooks — dat ook al van Linux uitgaat. Prettig dat zich een groot bedrijf achter de ontwikkeling van open source software zet, maar o wat jammer daarmee van al die andere interessante open source projecten.

Google levert op het moment vooral online-diensten, die een browser vereisen om te kunnen gebruiken. Daarom verscheen eerder al de Google Chrome browser, om het werken in deze ‘cloud’ te veraangenamen.

Die browser is zeker geen slecht product, maar laat stiekem allerlei diensten draaien op mijn computer waar ik niet op zit te wachten. Dus gebruik ik in plaats van Chrome het gestripte zusje Iron, in voorkomende gevallen.

In die zin vrees ik ook dat Google allerlei informatie over de gebruiker van zo’n Google Chrome OS gaat opslaan op zijn servers, en weet ik tegelijkertijd anderen de code zullen strippen van al te grove invasies van de privacy, en er vast een ‘Iron OS’ komt.

Maar dit duurt allemaal nog jaren. Dus heb ik daar nu weinig aan.


Zitat des Tages | 1123

Seither wird allerorten fieberhaft darüber nachgedacht, wie man denn nun um Gottes willen wieder mit Google ins Geschäft kommen soll, ohne gezwungen zu sein, unvorteilhafte Partnerverträge mit dem Suchmaschinengiganten zu unterzeichnen.

Ilja Braun, Bis zum bitteren Ende durchklagen


Google is dood, lang leve Google

Dat mijn weblogs telkens gehackt worden, heeft maar éen doel. Er worden onzichtbaar verwijzingen geplaatst, naar andere websites. En zo’n verwijzing maakte die andere website dan iets populairder, bij Google. Zodat die hoger in de rangorde scoorde, bij de zoekresultaten.

Dat is de plaag van het leven met een monopolie. Google was ooit te goed, dus probeert iedereen goedschiks of kwaadschiks bij Google in de gunst te komen. Waarbij de fraudeurs het meest fanatiek blijken te zijn. Mede daardoor staat het wereldwijde web vol met weblogs waarop alleen spam prijkt, en is er andere overlast. En dus klaag ik ook al jaren dat de resultaten van Google aanzienlijk minder bruikbaar zijn dan een jaar of tien terug.

Maar het is nog erger, Google heeft het deze week helemaal opgegeven, aldus Andrew Orlowski.


Quote of the Day | 0224

Google’s synonym system understood that a dog was similar to a puppy and that boiling water was hot. But it also concluded that a hot dog was the same as a boiling puppy. The problem was fixed in late 2002 by a breakthrough based on philosopher Ludwig Wittgenstein’s theories about how words are defined by context. As Google crawled and archived billions of documents and Web pages, it analyzed what words were close to each other. “Hot dog” would be found in searches that also contained “bread” and “mustard” and “baseball games” — not poached pooches.

Steven Levy, ‘How Google’s Algorithm Rules the Web


Onzeker als een klein baasje

Al weken staan de internetten vol met klachten van mensen van wie het weblog ineens gehackt is. WordPress, het systeem waarop ook deze website draait, zou erg kwetsbaar zijn.

Tegelijk komt dat verwijt vooral van de bedrijven die de gehackte weblogs hosten – en die volgens de klachten van benadeelden dan weer te weinig aan veiligheid doen. Er worden ook telkens sites gehackt die helemaal geen WordPress draaiden.

Ook mijn weblogs zijn vorig jaar meerdere malen door vreemden overgenomen. De oorzaken daarvoor zijn me nog altijd onduidelijk. Het kan zijn dat de manier waarop ik de software had geïnstalleerd niet deugde — maar het kan ook dat de host de beveiliging van de server niet op orde had.

En eigenlijk vind ik het vreselijk me hier in te moeten verdiepen.

Zelfs al ga ik er vanuit dat alle data, op welke computer of server ook, ieder moment gecorrumpeerd kan raken. Backups maken, en bijhouden, is de enige overlevingsstrategie.

Ondertussen dalen de bezoekersaantallen hier, en vooral op boeklog. En dan niet om het mooie weer. Ik vermoed dat dit is omdat Google er ineens een andere methode op na houdt om de rangorde te bepalen. De snelheid waarmee een website inlaadt, is opeens gaan meewegen.

En dan doen mijn weblogs het waarschijnlijk niet heel goed.

Komen mijn twijfels toch weer op de prestaties van de host neer.

Of, op het gegeven dat ik alles in eigen handen wil houden.


Scroogle vs Google

In een poging om iets minder persoonlijke gegevens aan het Amerikaanse bedrijfsleven te verstrekken, heb ik deze tip opgevolgd. Sinds een week is Scroogle de standaardzoekmachine op mijn meest gebruikte computer. Die zou wel privacy bieden.

Maar, de overstap went slecht. En dan gebruikt Scroogle nog wel gewoon de Google-database ook.

Google heeft me alleen behoorlijk verwend. Aan hun niveau van dienstverlening ben ik gewoon geraakt.

Dus vallen me nu een paar zaken op.

Ik blijk nogal vaak zoekopdrachten te geven om te zien hoe iets of iemand eruit ziet. Via Google Image Search is dat nooit een probleem. Scroogle biedt geen toegang tot zo’n grafische database.

Verder typ ik slordig opdrachten in. En waar Google vervolgens gedienstig zegt ‘Bedoelde u …?’ geeft Scroogle slechts een foutmelding.

Evenmin is er bij Scroogle te kiezen welke taal of welk land mijn voorkeur heeft, zonder gehannes met cookies; die mijn browser nu juist na elke sessie wist.

En dan geldt toch de wet, die elke drugsgebruiker kent, dat het instantgenot wel direct tastbaar is, en eventuele schadelijke effecten juist niet. Dus lonkt Google weer.


Don’t be evil

BIj het legen van een GMail-account, dat overigens slechts dient om de backups van databases op te slaan, geeft de firma Google me vrolijk een recycling-tip.

Bedankt.


Quote of the Day | 0825

I still feel lucky to be able to use Google a zillion times a day, and no, Bing is not much use as an alternative […]. But when Google tells me that this drivel is the most relevant result, I can’t help thinking, the game’s up.

Scott Rosenberg, ‘Is the age of the bot coming to an end?’


Overwegingen | 1115

Pokerwebsites behoren tot de vele plekken online die ik nooit bezoeken zal;
Pokeren, of welk kaartspel ook spelen, vind ik zonde van mijn tijd;
Zelfs als het om geld gaat;
Pokeren om geld lijkt me vervelend werk;

En er zijn nog zo veel echte problemen op te lossen, die dezelfde herseninspanning vragen;

Toch had ik al wel eens over gedagdroomd om een bot te schrijven, die voor mij dan kaarten zou;
Of om dan meer scripts tegelijk in te zetten, die dan stiekem online konden samenwerken, om geld te verdienen op zo’n pokersite;
Blijkt dat er allang sprake is van overlast van pokerbots op al die websites;

Google translate is als vreemde talenwoordenboek doorgaans beter dan mijn dure Van Dale vertalerswoordenboeken;
En typen gaat sneller dan zoeken;
Helemaal als je toch al achter de computer zat;
Technologie maakt soms wel degelijk enige vooruitgang mogelijk;

Nu nog een beter alternatief voor Het juiste woord dan Synoniemen.net, en al die papieren naslagwerken zijn antiek geworden;
Nog net geen oud papier;


Quote of the Day | 0102

The Internet democratizes and distributes. It makes a mess first, products at a higher level of abstraction help you navigate the mess. We’ve seen this with search and the importance of Google. This is why the news organizations of old are not the ones to solve the problem, and hence, not the ones to build the user facing products for the next generation of news.

Bradford Cross, ‘Why the iPad is Destroying the Future of Journalism’


Quote of the Day | 0107

Google is like a monoculture, and thus parasites have a major impact once they have adapted to it – especially if Google has “lost the war”. If search was more heterogenous, spamsites would find it more costly to scam every site. That is a very interesting argument against the level of Google market dominance.

Alan Patrick, ‘On the increasing uselessness of Google…..’

Via


De ootmoed rondom maakt opstandig
Over het gedrag dat Google uitlokt

Google is tegenwoordig een soms nog wel redelijk werkende zoekmachine. Helaas. Want Google was tien jaar geleden aanmerkelijk beter. Het ding werd sindsdien alleen te machtig. Toen eenmaal de massa’s het plezier ontdekten om de informatie te kunnen vinden waar ze om zochten, steeg de waarde van een verwijzing op de eerste pagina met zoekresultaten bij Google te veel.

Daarop begon het te lonen om websites met kunst- en liegwerk op die eerste pagina te krijgen.

Daarom woedt er al tijden een wapenwedloop online. Monoculturen zijn nu eenmaal altijd kwetsbaar voor plagen.

Vooral spammers doen al heel lang hun best om de methoden achter Google’s ordening te raden. Dus, toen spammers eenmaal ontdekt hadden dat het loonde als hun website gelinkt werd van een andere, veel populairder website, ontstond bijvoorbeeld het probleem op dat populaire websites met comment-spam werden overvoerd.

Na de spammers volgde online de plaag van de SEO-experts [Search Engine Optimized] — dit zijn marketingmensen die met legale middelen precies hetzelfde trachten te bereiken als die spammers voordien probeerden te doen. Ook zij gokken er al net zo zeer op het best de criteria te kennen waarop Google websites selecteert

Op de Twitters rouleerde laatst een mopje over SEO, dat duidelijk laat zien wat zo een werkmethode is die deze lieden propageren, bij het schrijven van teksten:

So this SEO expert walks into a bar, grill, pub, public house, Irish bar, bartender, drinks, beer, wine, liquor

Niet dat ik ook maar iemand zijn of haar werkzaamheden misgun. En er bestaan ook wel degelijk websites die ervan zouden profiteren beter vindbaar te zijn via Google. Maar iedereen die beroepshalve bezig is Google te manipuleren, maakt die zoekmachine een minder nuttig apparaat, voor mij. En is dus een pest.

Marketingfacts publiceerde vorige week een handleiding om websites nog SEO-vriendelijker te maken. En daartoe moet men dan uitzoeken wat de 20% aan best bezochte pagina’s is, om deze webpagina’s vervolgens te herschrijven.

Wapen bij al dit is het statistiekenprogramma Google Analytics. Dat helpt de exploitant van een website om uit te vinden waar alle bezoek naar toe gaat. En dit gegeven vind ik nog wel de grootste ironie bij dit al. De monopolist die gepaaid moet worden, maakt ook het beste gereedschap waarmee dat paaien vervolgens gebeurt. Hoe zo, afhankelijkheid?

Overigens wil in Duitsland een toezichthouder op de privacy dat het gebruik van Google Analytics door Duitse bedrijven verboden wordt. Google biedt zijn zoekmachine nu eenmaal niet helemaal gratis aan. Dat bedrijf verdient er aan om bij te houden wat mensen allemaal doen online; en het masseren van deze informatie vindt in het geheim plaats, en ver buiten Europese privacy-wetgeving.

Ook eamelje.net en boeklog werken met Google Analytics. Al wil ik daar eigenlijk wel van af, zonder zo een goed alternatief te zien. Vooral voor boeklog geldt dat de webpagina’s daar dagelijks gevonden worden via vele honderden verschillende zoektermen, als het al niet meer dan duizend zijn. Alleen via Google Analytics lukt het me dat soort informatie enigszins met overzicht te bekijken.

Mijn weerzin is waarschijnlijk vooral emotioneel. Het voelt vooral niet goed zo afhankelijk te zijn van een monopolist; en immer mee te moeten buigen met de grillen van zo’n monopolist; of mijn eigen gedrag te moeten afstemmen op hen die zo graag met de grootste heulen.

Tegelijk kosten mijn weblogs alleen maar geld, zou ik ook niet anders willen, en heb ik nog nooit mijn woorden aangepast om die SEO te maken. Een tekst moet deugen. Of in elk geval zo goed mogelijk zijn geworden binnen de tijd die ervoor was. Punt. Teksten nog eens zo goed mogelijk vindbaar maken, is een strijd die ik niet eens wil voeren. Die inspanning doet me ook teveel denken aan slechte journalistiek — omdat zo velen bijvoorbeeld menen dat meermaals Feyenoord schrijven niet kan in een stuk, om dan in een volgende zin onwoorden als ‘de stadionclub’ te gebruiken als synoniem.

Dat boeklog nu weer bij Google een pagerank van 5 heeft, wat voor een weblog uitzonderlijk hoog schijnt te zijn, komt allereerst toch doordat de eigenheid aanspreekt van al wat daar op staat. Hoop ik.

Boeklog had overigens een tijdlang een pagerank van 0, nadat Google de site diskwalificeerde in 2009 omdat pornoboeren die gehackt hadden. En dat had ook wel iets, omdat alle bezoek dat toen langskwam daar niet toevallig was.

* update: The Register over het EU-onderzoek naar het mogelijke misbruik van een dominante marktpositie door Google